awesome-generative-ai

11.8k 1.5k 非常简单 1 次阅读今天CC0-1.0开发框架图像Agent语言模型

AI 解读由 AI 自动生成，仅供参考

awesome-generative-ai 是一份精心整理的现代生成式人工智能项目与服务清单。生成式 AI 能够利用机器学习算法，基于海量数据创作出图像、声音、文本等原创内容，其产出往往独具风格，甚至难以与人类作品区分。面对该领域日新月异的发展，开发者与研究者们常面临信息分散、难以快速定位优质资源的痛点。awesome-generative-ai 正是为解决这一难题而生，它将零散的技术成果系统化分类，涵盖文本生成、代码辅助、智能体、图像处理、视频制作、音频合成等多个核心板块，并收录了极具价值的行业深度文章与技术发展里程碑。

这份清单不仅适合希望快速了解前沿动态的研究人员和学者，也是开发者寻找开源项目灵感、设计师探索创意工具的理想起点。其独特亮点在于严格的筛选机制与持续的社区维护，确保收录的项目兼具现代性与实用性，同时提供了从入门阅读到进阶发现的完整学习路径。无论你是想追踪如 Stable Diffusion、DALL·E 2 等标志性技术的演进，还是寻找下一个潜在的创业方向，awesome-generative-ai 都能为你提供清晰、高效的指引，帮助你轻松驾驭生成式 AI 的创新浪潮。

使用场景

一家初创数字营销公司的内容团队正急需为多个客户快速生成高质量的文案、海报素材及短视频脚本，以应对即将到来的促销旺季。

没有 awesome-generative-ai 时

信息检索如大海捞针：团队成员需在 GitHub、Hugging Face 及各类技术博客间反复跳转，耗费数天筛选可用的文本生成或绘图模型，效率极低。
技术选型盲目试错：由于缺乏权威的分类指引，开发者常误选已停止维护或不适合商业场景的项目，导致后期重构代码，浪费宝贵算力资源。
前沿动态严重滞后：难以系统性获取视频生成、智能体（Agents）等新兴领域的最新突破，错失利用新技术降低制作成本的机会。
学习路径支离破碎：新手员工面对零散的文档和教程无从下手，缺乏从理论基础到实战项目的完整知识图谱，培训周期被迫拉长。

使用 awesome-generative-ai 后

一站式精准导航：直接通过其清晰的分类目录（如 Text、Image、Video），在几分钟内锁定当前最主流的开源项目，大幅缩短调研时间。
经过验证的优质资源：依托社区严格筛选的条目，团队能直接采用成熟度高、许可协议清晰的项目，规避了法律风险与技术坑点。
实时同步行业脉搏：通过"Recommended reading"和"Discoveries"板块，即时掌握如 Stable Diffusion 新版本等关键里程碑，迅速将新技术转化为生产力。
体系化成长加速：利用整合好的学习资源与代码示例，新员工能快速上手开发，将原本数周的磨合期压缩至几天。

awesome-generative-ai 将分散的生成式 AI 生态整合为一张高效地图，让团队从繁琐的“找工具”转变为专注的“用工具”创造业务价值。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（awesome-generative-ai）是一个生成式 AI 项目和服务的精选列表（目录），本身不是一个可运行的软件工具或模型，因此没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户需根据列表中链接到的具体项目（如 Llama, Stable Diffusion 等）查阅其各自的文档以获取运行环境需求。

python未说明

快速开始

令人惊叹的生成式人工智能

一份精心整理的现代生成式人工智能项目与服务列表。

生成式人工智能是一种利用机器学习算法，通过大量数据训练来创造原创内容（如图像、声音和文本）的技术。与其他形式的人工智能不同，它能够生成独特且前所未见的输出，例如逼真的照片、数字艺术、音乐和文字等。这些输出往往具有独特的风格，甚至难以与人类创作的作品区分开来。生成式人工智能在艺术、娱乐、营销、学术界以及计算机科学等领域有着广泛的应用。

欢迎为本列表贡献内容。在提交建议之前，请先阅读贡献指南，以确保您的条目符合标准。您可以通过拉取请求添加链接，或创建一个议题来发起讨论。更多项目可以在发现列表中找到，在那里我们会展示各种新兴的生成式人工智能项目。

文本

模型

OpenAI API - OpenAI 的 API 提供了对 GPT-4 和 GPT-5 模型的访问，这些模型能够执行多种自然语言任务；此外还有 Codex，它可以将自然语言转换为代码。
Gopher - DeepMind 的 Gopher 是一个拥有 2800 亿参数的语言模型。
OPT - Facebook 的开放预训练变换器（OPT）是一系列仅解码器架构的预训练变换器。公告。由 Alpa 托管的 OPT-175B 文本生成。
Bloom - Hugging Face 的 BLOOM 是一款类似于 GPT-3 的模型，已在 46 种不同语言和 13 种编程语言上进行过训练。#开源
Llama - Meta 的开源大型语言模型。#开源
Claude - 与 Anthropic 的 AI 助手 Claude 对话。
Vicuna-13B - 一款开源聊天机器人，通过对 LLaMA 在 ShareGPT 上收集的用户对话数据进行微调而训练得到。#开源
Mistral - Mistral AI 推出的前沿开源大模型。#开源
Grok - xAI 的大模型，具有开源代码和开放权重。#开源
Qwen - 阿里云自主研发的一系列大模型。#开源
DeepSeek - DeepSeek AI 推出的 DeepSeek V3 和 R1 系列大模型。#开源
MiniMax - 多模态基础模型，可用于文本、语音、视频和音乐生成。

聊天机器人

ChatGPT - OpenAI 的 ChatGPT 是一种以对话方式交互的大语言模型。
Copilot - Microsoft 推出的日常 AI 伴侣。
Gemini - Google DeepMind 开发的多模态大语言模型家族。
Meta AI - Meta AI 助手可以帮助完成任务、创建 AI 生成的图像并解答问题。基于 Llama 大模型构建。
DeepSeek - 适用于企业、消费者和科学应用的前沿大模型。#开源
Character.AI - Character.AI 允许用户创建角色并与之聊天。
Pi - 一款个性化 AI 平台，可作为数字助手使用。
Qwen - Qwen 聊天机器人具备图像生成、文档处理、网页搜索集成、视频理解等功能。
Le Chat - 使用 Mistral AI 的前沿语言模型进行对话。

自定义界面

LibreChat - LibreChat 是一个免费且开源的聊天界面，用于与各类 AI 助手交互。#开源。
Chatbot UI - 一个开源的 ChatGPT 界面。#开源。

搜索引擎

Perplexity AI - 基于 AI 的搜索工具。
Metaphor - 基于语言模型的搜索引擎。
Phind - 基于 AI 的搜索引擎。
You.com - 一款基于 AI 的搜索引擎，为用户提供个性化的搜索体验，同时确保其数据 100% 隐私。
Komo - 一款基于 AI 的搜索引擎。

本地搜索引擎

privateGPT - 利用大模型的力量，在没有互联网连接的情况下向您的文档提问。
quivr - 将所有文件导入系统，并通过生成式 AI“第二大脑”与之对话，结合大模型和嵌入技术。

写作助手

Jasper - 利用人工智能更快地创作内容。
Compose AI - Compose AI 是一款免费的 Chrome 扩展程序，通过 AI 驱动的自动补全功能，可将您的写作时间缩短 40%。
Rytr - Rytr 是一款 AI 写作助手，可帮助您创作高质量的内容。
wordtune - 个人写作助手。
HyperWrite - HyperWrite 可帮助您自信地写作，从构思到最终稿更快完成工作。
Moonbeam - 在更短的时间内写出更好的博客文章。
copy.ai - 利用 AI 编写更优秀的营销文案和内容。
ChatSonic - 一款 AI 驱动的助手，支持文本和图像创作。
Anyword - Anyword 的 AI 写作助手可以为任何人生成有效的文案。
Hypotenuse AI - 将少量关键词转化为原创且富有洞见的文章、产品描述和社交媒体文案。
Lavender - Lavender 邮件助手可在更短时间内获得更多回复。
Lex - 一款内置人工智能的文字处理器，助您更快写作。
Jenni - Jenni 是终极写作助手，可为您节省大量构思和写作时间。
LAIKA - LAIKA 会根据您自己的写作风格训练一个人工智能，打造一位专属的创意伙伴。
QuillBot - 一款基于 AI 的释义工具。
Postwise - 利用 AI 编写推文、安排发布内容并扩大您的粉丝群体。
Copysmith - 为企业和电子商务提供的 AI 内容创作解决方案。

ChatGPT 扩展

WebChatGPT - 使用网络上的相关结果增强你的 ChatGPT 提示。
GPT for Sheets and Docs - 适用于 Google 表格和 Google 文档的 ChatGPT 扩展。
YouTube Summary with ChatGPT - 使用 ChatGPT 总结 YouTube 视频。
ChatGPT Prompt Genius - 发现、分享、导入并使用最佳的 ChatGPT 提示，并将聊天记录本地保存。
ChatGPT for Search Engines - 在 Google、Bing 和 DuckDuckGo 搜索结果旁边显示 ChatGPT 的回复。
ShareGPT - 分享你的 ChatGPT 对话，并探索他人分享的对话。
Merlin - 在所有网站上使用的 ChatGPT Plus 扩展。
ChatGPT Writer - 使用 ChatGPT AI 生成完整的电子邮件和消息。
ChatGPT for Jupyter - 在 Jupyter Notebooks 和 Jupyter Lab 中添加由 ChatGPT 驱动的各种辅助功能。
editGPT - 轻松在 ChatGPT 中校对、编辑内容并跟踪更改。
Forefront - 更好的 ChatGPT 使用体验。
ChatGPT for Sheets, Docs, Slides, Forms - 适用于 Google 表格、Google 文档、Google 幻灯片和 Google 表单的 ChatGPT 扩展。
GPT for Gmail - Gmail 的 AI 电子邮件助手。

生产力工具

ChatPDF - 与任何 PDF 对话。
Mem - Mem 是全球首个基于 AI 的个性化工作空间。提升你的创造力，自动化繁琐任务，并自动保持井然有序。
Taskade - 使用 Taskade AI 梳理任务、笔记、生成的结构化列表和思维导图。
Notion AI - 编写更好、更高效的笔记和文档。
Nekton AI - 使用 AI 自动化你的工作流程。用通俗易懂的语言逐步描述你的流程。
Limitless - 一款用于记录对话和会议、生成摘要，并可在不同应用及可选穿戴设备中搜索过往互动的 AI 记忆助理。
NotebookLM - 一款由 Google Gemini 驱动的在线研究和笔记工具，可用于与文档交互。
Open Notebook - NotebookLM 的开源实现，具有更高的灵活性和更多功能。#opensource
Screenpipe - 一款开源的屏幕和音频活动录制工具，具备 AI 驱动的搜索、自动化功能以及对本地 LLM 的支持。#opensource

会议助手

Otter.ai - 一款会议助手，可录制音频、撰写笔记、自动捕捉幻灯片并生成摘要。
Cogram - Cogram 在虚拟会议上自动生成笔记，并识别行动项。
Sybill - Sybill 结合文字转录和情感分析，为销售电话生成摘要，包括后续步骤、痛点和关注点。
Loopin AI - Loopin 是一个协作式会议工作空间，不仅可以通过 AI 录制、转录和总结会议内容，还能自动将会议笔记整理到日历之上。
Read AI - 无论你在何处工作，这款 AI 助手都能通过摘要、内容发现和建议，让你的会议、邮件和消息更加高效。
Fireflies.ai - 转录、总结、搜索和分析你团队的所有对话。

学术领域

Elicit - Elicit 利用语言模型帮助你自动化研究工作流程，例如文献综述的部分环节。
genei - 几秒钟内总结学术论文，节省 80% 的研究时间。
Explainpaper - 阅读学术论文的更好方式。上传论文，高亮难以理解的文字，即可获得解释。
Galactica - 一款面向科学领域的大型语言模型。可以总结学术文献、解决数学问题、生成维基百科文章、编写科学代码、标注分子和蛋白质等。模型 API。
Consensus - Consensus 是一款利用 AI 在科学研究中寻找答案的搜索引擎。
Synthical - 基于 AI 的协作式研究环境。
scite - 一个用于发现和评估科学论文的平台。
SciSpace - 一款用于理解科学文献的 AI 研究助手。
STORM - 一个由 LLM 驱动的知识整理系统，能够研究某一主题并生成带有引用的完整报告。#opensource
alphaXiv - 讨论、发现和阅读 arXiv 论文。
ASReview - 开源的 AI 驱动工具，用于系统性综述，帮助研究人员高效筛选大量学术文献。#opensource
Local Deep Research - 一款深度研究工具，可通过本地或云端 LLM 搜索学术资源、网络及私人文档。#opensource

排行榜

Chatbot Arena - 由加州大学伯克利分校 SkyLab 和 LMArena 的研究人员主办的开放型 AI 基准测试平台。
Artificial Analysis - Artificial Analysis 提供客观的基准测试和信息，以帮助选择 AI 模型和托管服务提供商。
imgsys - fal.ai 主办的生成式图像模型竞技场。
OpenRouter LLM Rankings - 根据各应用中的使用情况对语言模型进行排名和分析。
SEAL LLM Leaderboard - 由专家驱动的 LLM 基准测试及更新的 AI 模型排行榜。
LLM Stats - 比较 AI 模型在基准测试、定价、速度和上下文窗口方面的表现。

其他文本生成工具

EmailTriager - 使用AI在后台自动撰写电子邮件回复。
AI Poem Generator - 根据文本提示，AI诗歌生成器会为你创作一首关于任何主题的优美押韵诗。

编程

编程助手

GitHub Copilot - GitHub Copilot利用OpenAI Codex，在你的编辑器中实时建议代码和整个函数。
OpenAI Codex - OpenAI推出的一套将自然语言转换为代码的AI系统。
Ghostwriter - Replit推出的AI驱动的结对编程工具。
Amazon Q - AWS推出的生成式AI助手，可帮助回答问题、编写代码并自动化任务。
tabnine - 通过整行及完整函数级别的代码补全功能，提升编码效率。
Stenography - 自动化代码文档生成工具。
Mintlify - AI驱动的文档编写工具。
Debuild - 面向Web应用的AI低代码开发工具。
AI2sql - 无论是否具备SQL知识，用户均可借助AI2sql轻松编写高效且无错误的SQL查询。
CodiumAI - CodiumAI可在IDE内直接提供非平凡的测试用例建议，让你在提交代码时更加安心。
PR-Agent - 基于AI的PR自动化分析、反馈与建议工具。
MutableAI - 加速软件开发的AI工具。
TurboPilot - 一款自托管的Copilot克隆工具，使用llama.cpp库在4GB内存下运行拥有60亿参数的Salesforce Codegen模型。
GPT-Code UI - OpenAI ChatGPT代码解释器的开源实现。#开源
MetaGPT - 多智能体框架：只需输入一行需求，即可输出PRD、设计文档、任务清单及代码仓库。
Open Interpreter - 在本地终端运行的OpenAI代码解释器。
Continue - 开源AI代码助手。可连接任意模型和上下文，在IDE内打造定制化的自动补全与聊天体验。#开源
RooCode - 直接集成到VS Code中的AI驱动自主编码代理。#开源
Windsurf - 一款原生支持AI的IDE，将代码编辑与贯穿开发全流程的高级AI辅助功能相结合。
Plandex - 面向复杂任务的开源、基于终端的AI编程引擎。#开源
Jupyter AI - Jupyter Notebook和JupyterLab中的开源可配置AI助手，支持100多种大语言模型，包括Ollama和GPT4All等本地部署模型。#开源
DataLine - 一款由AI驱动的数据分析与可视化工具。#开源
v0 - 基于提示的React和Next.js UI生成工具，可创建生产就绪的组件。
Lovable - 对话式全栈应用生成工具，将创意快速转化为可部署的代码。
aider - 在终端中进行的AI结对编程，支持多家LLM提供商。#开源
Kilo Code - 面向VS Code、JetBrains及命令行的开源AI编码助手。#开源

开发工具

co:here - Cohere 提供对先进大型语言模型和自然语言处理工具的访问。
Haystack - 一个用于构建 NLP 应用程序（如智能体、语义搜索、问答系统）的框架，支持使用语言模型。
LangChain - 一个用于开发由语言模型驱动的应用程序的框架。
gpt4all - 一个基于大量干净的助手数据（包括代码、故事和对话）训练的聊天机器人。
LLM App - 一个开源 Python 库，用于构建实时的 LLM 驱动的数据管道。
LMQL - LMQL 是一种用于大型语言模型的查询语言。
LlamaIndex - 一个用于在外部数据上构建 LLM 应用程序的数据框架。
Phoenix - Arize 推出的一款可在笔记本环境中运行的开源机器学习可观测性工具。可用于监控和微调 LLM、计算机视觉和表格数据模型。
Cursor - Cursor 是面向未来的 IDE，专为与强大 AI 配对编程而设计。
SymbolicAI - 一个神经符号框架，用于构建以 LLM 为核心的应用程序。
Vanna.ai - 一个开源 Python RAG 框架，用于生成 SQL 及相关功能。#opensource
Portkey - 一个全栈 LLMOps 平台，用于 LLM 的监控、缓存和管理。
agenta - 一个开源端到端 LLMOps 平台，用于提示工程、评估和部署。#opensource
Together AI - 快速、低成本且可扩展地训练、微调并运行人工智能模型的推理。
Gitingest - 将任何 Git 仓库转换为简洁的代码库文本摘要，以便输入到任何 LLM 中。#opensource
Repomix - 将您的代码库打包成适合 AI 处理的格式。#opensource
llama.cpp - 使用纯 C/C++ 实现 Meta 的 LLaMA 模型（以及其他模型）的推理。#opensource
bitnet.cpp - 微软官方推出的 1 位 LLM 推理框架。#opensource
OpenRouter - 一个统一的 LLM 接口。#opensource
Ludwig - 一个低代码框架，用于构建自定义 AI 模型，如 LLM 和其他深度神经网络。#opensource
Unsloth - 一个用于微调 LLM 的 Python 库 #opensource。
OpenLIT - 一个原生集成 OpenTelemetry 的开源 GenAI 和 LLM 可观测性平台，提供追踪和指标功能。#opensource
Helicone AI - 一个开源的 LLM 可观测性平台，用于记录日志、监控和调试 AI 应用程序。#opensource
Wren AI - 一个具有语义层的开源文本转 SQL 和生成式 BI 智能体。#opensource
Cleanlab - 一个用于检测和评分 LLM 输出中幻觉现象的 API。
Opik - 一个开源平台，用于追踪、评估和监控 LLM 应用程序。#opensource
Langfuse - 一个开源的 LLM 工程平台，用于追踪、评估、提示管理和指标收集。#opensource
MLflow - 一个开源平台，用于跟踪机器学习实验、评估模型和提示、部署模型，并添加 LLM 可观测性功能。#opensource
rehydra - 一个零信任 SDK，可在将提示发送至 LLM 之前本地匿名化 PII，并无缝恢复响应。
Agentset - 一个开源平台，用于构建和评估 RAG 和智能体应用。#opensource

Playground

OpenAI Playground - 探索资源、教程、API 文档和动态示例。
Google AI Studio - 一个基于 Web 的工具，可用于试用 Gemini 和实验性模型。
GitHub Models - 查找并试验 AI 模型，以开发生成式 AI 应用程序。

本地部署 LLM

Ollama - 在本地快速启动并运行大型语言模型。
Open WebUI - 一个可扩展、功能丰富且用户友好的自托管 AI 平台，专为完全离线运行而设计。#opensource
Jan - 在您的计算机上本地或离线运行 Mistral 或 Llama2 等 LLM，或连接到远程 AI API。#opensource
Msty - 一个简单而强大的界面，用于本地和在线的 AI 模型。
PyGPT - 一款个人桌面 AI 助手，具备聊天、视觉、智能体、图像生成、工具和命令、语音控制等功能。#opensource
LLM - 一个 CLI 工具和 Python 库，用于与远程和本地大型语言模型交互。#opensource
LM Studio - 下载并在您的计算机上运行本地 LLM。
RunThisLLM - 查看您的硬件可以运行哪些 LLM。
Harbor - 一个容器化的工具包，只需一条命令即可运行本地 LLM 后端、用户界面和支持服务。#opensource

智能体

自主智能体

Auto-GPT - 一个实验性的开源项目，旨在使GPT-4完全自主运行。
babyagi - 一款由AI驱动的任务管理系统。
AgentGPT - 在浏览器中组装、配置并部署自主AI智能体。
GPT Engineer - 指定你想要构建的内容，AI会请求澄清细节，然后完成开发。
GPT Prompt Engineer - 自动化提示工程工具。它生成、测试并排名提示，以找到最佳的提示方案。
MetaGPT - 多智能体框架：只需提供一行需求，即可输出产品需求文档、设计、任务列表和代码仓库。
AutoGen - AutoGen是一个框架，支持使用多个能够相互通信的智能体来解决复杂任务的LLM应用开发。
GPT Pilot - 一款开发工具，可在开发者监督下从零开始编写可扩展的应用程序。
Devin - Cognition Labs推出的自主AI软件工程师。
OpenDevin - 一个专为应对软件工程复杂性而设计的自主智能体。#开源
Davika - 一款基于智能体架构的AI软件工程师。#开源
n8n - 一个工作流自动化平台，将AI能力与业务流程自动化相结合。
Sauna - 一款专为处理复杂上下文而打造的AI助手。它能学习你的偏好、发现隐藏模式、扩展你的思维边界，并主动提供帮助。
Claude Code - Anthropic推出的基于智能体的编码工具，直接集成在终端中，帮助用户将想法转化为代码。
Gemini CLI - 一个开源AI智能体，将Gemini的强大功能直接带入你的终端。#开源
OpenCode - 开源的AI编码智能体。#开源
Mastra - 一个用于构建AI智能体、工作流和应用的TypeScript框架。#开源
OpenClaw - 一款可在个人设备上运行的私人AI助手。#开源
moltbook - 一个面向AI智能体的社交网络。
AgentMail - 专为AI智能体设计的电子邮件收件箱。
Openwork - AI智能体之间相互雇佣、完成任务、验证结果并赚取代币。
Agent Skills - 一个开放格式的参考SDK，用于封装AI智能体可复用的能力和专业知识。#开源
PraisonAI - 一个用于构建多智能体AI系统的框架，支持工作流、工具集成和记忆功能。#开源

自定义助手

Poe - Poe提供了多种机器人供用户使用。
GPT Builder - 用于创建基于GPT的助手的工具。
GPTStore - 寻找实用的GPT，并分享你自己的GPT。

图像

模型

DALL·E 2 - OpenAI推出的DALL·E 2是一种新型AI系统，能够根据自然语言描述生成逼真的图像和艺术作品。
Stable Diffusion - Stability AI的Stable Diffusion是一款最先进的文本到图像模型，可以根据文本生成图像。#开源
Midjourney - Midjourney是一家独立的研究实验室，致力于探索新的思维媒介，拓展人类的想象力。
Imagen - Google的Imagen是一种文本到图像扩散模型，具有前所未有的照片级真实感和深度的语言理解能力。
Make-A-Scene - Meta推出的Make-A-Scene是一种多模态生成式AI方法，通过允许用户同时使用文本描述和自由草图来表达他们的愿景，从而将创作控制权交到用户手中。
DragGAN - “拖拽你的GAN”：在生成式图像流形上进行交互式的点操作。
Flux - Black Forest Labs推出的文本到图像模型，能够生成高质量的照片级真实感图像。#开源

服务

Craiyon - Craiyon，前身为DALL-E mini，是一款能够根据任意文本提示生成图像的AI模型。
DreamStudio - DreamStudio是一个易于使用的界面，用于通过Stable Diffusion图像生成模型创建图像。
Artbreeder - Artbreeder是一种新型的创意工具，它通过简化协作和探索过程来增强用户的创造力。
GauGAN2 - GauGAN2是一款强大的工具，结合了语义分割、图像修复和文本到图像生成技术，能够使用文字和绘图创作出逼真的艺术作品。
Magic Eraser - 在几秒钟内从图片中移除不需要的元素。
Imagine by Magic Studio - Magic Studio推出的一款工具，只需描述你的想法，即可表达自我。
Alpaca - Stable Diffusion的Photoshop插件。
Patience.ai - Patience.ai是一款基于Stable Diffusion的图像生成应用，Stable Diffusion是由Stability.AI开发的前沿AI技术。
GenShare - 几秒钟内免费生成艺术作品。拥有并分享你创作的内容。一个多媒体生成工作室，让设计与创意更加普及。
Playground - Playground是一个免费的在线AI图像生成器。可用于创作艺术作品、社交媒体帖子、演示文稿、海报、视频、Logo等。
Pixelz AI Art Generator - Pixelz AI艺术生成器允许你通过文本创建令人惊叹的艺术作品。提供Stable Diffusion、CLIP Guided Diffusion及PXL·E写实算法。
modyfi - 你一直想要的图像编辑器。浏览器中的AI驱动创意工具。支持实时协作。
Ponzu - Ponzu是你的免费AI Logo生成器。只需发挥想象力，几秒钟内即可打造富有创意的品牌Logo。
PhotoRoom - 仅用手机即可拍摄产品和人像照片。去除背景、更换背景并展示产品。
Avatar AI - 创建属于你自己的AI生成头像。
ClipDrop - 在不需摄影棚的情况下，借助stability.ai的力量创建专业级视觉内容。
Lensa - 一款一体化图像编辑应用，内置使用Stable Diffusion生成个性化头像的功能。
RunDiffusion - 基于云的AI艺术创作工作空间。
Ideogram - 一个文本到图像平台，旨在让创意表达更加便捷。
Bing Image Creator - 基于DALLE·3的文本到图像生成器，具备安全功能。
KREA - 使用了解你的风格、概念或产品的AI，生成高质量视觉内容。
Nightcafe - NightCafe Creator是一款AI艺术生成应用，提供多种AI艺术生成方法。
Leonardo AI - 以空前的质量、速度和风格为你的项目创建制作级视觉资产。
Recraft - 一款AI工具，帮助创作者轻松生成和迭代原创图像、矢量艺术、插画、图标和3D图形。
Reve Image - 一款从零开始训练的模型，擅长精准遵循提示词、美学表现和排版设计。
Freepik AI - 基于AI的设计工具，包括图像生成、背景移除和创意模板。

平面设计

Brandmark - 基于AI的Logo设计工具。
Gamma - 无需任何格式化和设计工作，即可创建精美的演示文稿和网页。
Microsoft Designer - 瞬间生成惊艳的设计。

图片库

Lexica - Stable Diffusion搜索引擎。
OpenArt - 搜索超过1000万个提示词，并通过Stable Diffusion、DALL·E 2生成AI艺术作品。
PromptHero - 搜索适用于Stable Diffusion、ChatGPT、Midjourney等模型的提示词。
PromptBase - 搜索顶级提示词工程师提供的提示词。也可出售你自己的提示词。

模型库

Civitai - 社区驱动的AI模型共享平台。
Stable Diffusion Models - rentry.org上全面的Stable Diffusion检查点列表。

Stable Diffusion资源

Stable Horde - 一个由志愿者组成的分布式Stable Diffusion计算集群。
DiffusionDB - 包含所有公开的Stable Diffusion相关应用、开发者工具、指南和插件的列表。Airtable版本。
PublicPrompts - 一个免费的Stable Diffusion提示词合集。
Stableboost - Stableboost是一款Stable Diffusion WebUI，可快速生成大量图像，帮助你找到最满意的作品。
Hugging Face扩散模型课程 - 由@huggingface提供的关于扩散模型的在线课程Python学习资料。
ComfyUI - 一个基于节点的界面，用于构建和运行Stable Diffusion工作流。#开源

视频

Runway - 魔法般的AI工具、实时协作、精准编辑等，打造下一代内容创作套件。
Synthesia - 几分钟内即可将纯文本转化为视频。
Rephrase AI - Rephrase的技术支持大规模的超个性化视频制作，提升用户参与度和业务效率。
Hour One - 自动将文本转换为视频，内置虚拟主持人。
Colossyan - 专注于学习与发展的视频创作者。利用AI虚拟形象，以多种语言制作教育类视频。
Fliki - 使用AI驱动的语音，在几分钟内完成文本转视频和文本转语音内容的制作。
Pictory - Pictory强大的AI技术让你仅凭文本就能创建和编辑专业品质的视频。
Pika - 一个从创意到视频的平台，将你的灵感变为动态影像。
HeyGen - 几分钟内即可将脚本转化为带有可定制AI虚拟形象的对话视频。
Sora - 一种能够根据文本指令生成逼真且富有想象力场景的AI模型。
Luma Dream Machine - 一款能快速根据文本和图片生成高质量、逼真视频的AI模型。
Infinity AI - Infinity是一个视频基础模型，允许你设计角色并将其栩栩如生地呈现出来。
KLING AI - 用于创作富有想象力的图像和视频的工具。
Hailuo AI - 基于AI的文本转视频生成器。
Google Flow - 谷歌推出的AI电影制作工具，由Veo提供技术支持。
Seedance 2.0 - 由字节跳动Niobotics开发的图像转视频和文本转视频模型。
MaxVideoAI - 一个用于生成和比较多个AI视频模型结果的工作空间。

虚拟形象

D-ID - 轻松一键创建会说话的虚拟形象并与之互动。
HeyGen - 几分钟内即可将脚本转化为带有可定制AI虚拟形象的对话视频。
RenderNet - RenderNet AI是一款用于生成图像和视频的工具，可对角色设计、构图和风格进行精细控制。

动画

Wonder Dynamics - 轻松将CG角色动画化，并将其融入实景场景中，完成灯光和构图设置。

音频

文本转语音

Eleven Labs - AI语音生成器。
Resemble AI - 用于文本转语音的AI语音生成及克隆技术。
WellSaid - 实时将文本转换为语音。
Play.ht - AI语音生成器。在线使用AI生成逼真的文本转语音配音，将文本转化为音频。
podcast.ai - 一档完全由人工智能生成的播客节目，基于Play.ht的文本转语音AI技术。
VALL-E X - 一款跨语言神经编解码语言模型，用于跨语言语音合成。
TorToiSe - 一款多语音文本转语音系统，训练重点在于音质。#开源
Bark - 一个基于Transformer的文本转音频模型。#开源
TTS WebUI - 用于运行多种文本转语音、音乐生成及音频工具的Web界面。#开源

语音转文本

Whisper - 基于大规模弱监督的鲁棒语音识别。#开源
Wispr Flow - Flow通过无缝的语音听写功能，让在电脑上任何应用中的文字输入都变得迅速便捷。
Vibe Transcribe - 一体化解决方案，轻松实现音频和视频转录。#开源
whisper.cpp - OpenAI Whisper模型的C/C++移植版本。#开源

音乐

Harmonai - 我们是一个社区驱动的组织，发布开源的生成式音频工具，旨在让音乐制作对每个人来说更加容易和有趣。
Mubert - 一个面向内容创作者、品牌和开发者们的免版税音乐生态系统。
MusicLM - 谷歌研究院推出的一款根据文本描述生成高保真音乐的模型。
AudioCraft - Meta推出的一站式生成式音频代码库，包含用于音乐生成的MusicGen和用于声音生成的AudioGen。#开源
Stable Audio - Stable Audio是Stability AI推出的首款音乐和音效生成产品。
AIVA - 基于AI的音乐创作助手。可选择250多种风格。
Suno AI - 任何人都可以创作出优秀的音乐作品。无需乐器，只需发挥想象力，让脑海中的想法化作旋律。
Udio - 发现、创作并与全世界分享音乐。

其他

Diagram - 设计产品的全新魔法方式。
PromptBase - 一个买卖DALL·E、GPT-3、Midjourney、Stable Diffusion优质提示词的市场。
This Image Does Not Exist - 测试你辨别一张图片是人类还是计算机生成的能力。
Have I Been Trained? - 检查你的图像是否曾被用于训练流行的AI艺术模型。
AI Dungeon - 一款基于文本的冒险故事游戏，由你主导剧情发展（同时也是主角），而AI则负责将其生动呈现。
Clickable - 利用AI几秒钟内生成广告。美观、符合品牌形象且转化率极高的广告，适用于所有营销渠道。
Scale Spellbook - 使用Scale Spellbook构建、比较和部署大型语言模型应用。
Scenario - AI生成的游戏资源。
Teleprompter - 一款设备端的AI助手，可在会议中聆听发言并提供极具感染力的名言建议。
FinChat - FinChat利用AI为公众公司和投资者相关问题提供解答。
Morpher AI - Morpher AI为任何市场提供实时洞察与分析。
Whimsical AI - 基于GPT的心智图、流程图及其他可视化工具，助力快速构思与流程整理。
Selfies with Sama - 和一位真实存在的亿万富翁合影留念吧！

学习资源

Learn Prompting - 一门免费的开源课程，教你如何与人工智能沟通。
提示工程指南 - 提示工程的指南和资源。
ChatGPT 提示工程（面向开发者） - 由 Isa Fulford（OpenAI）和 Andrew Ng（DeepLearning.AI）主讲的短期课程。
OpenAI 烹饪书 - OpenAI API 使用示例和指南。
OpenAI 提示工程指南 - 从大型语言模型中获得更好结果的策略与技巧。
PromptPerfect - 提示工程工具。
Anthropic 课程 - Anthropic 的教育课程。
从零构建大型语言模型 - Sebastian Raschka 编写的关于如何从头开始构建一个可运行的 LLM 的指南。
视觉模型的提示工程 - DeepLearning.AI 提供的一门免费短期课程，讲解如何使用自然语言、边界框、分割掩码、坐标点等图像来引导计算机视觉模型。
从零构建推理模型 - Sebastian Raschka 编写的关于如何从零开始构建一个可运行的推理模型的指南。
从零构建 AI 代理 - 一本关于使用工具、记忆、规划及多智能体系统构建 AI 代理的书籍。
从零构建 DeepSeek 模型 - 一本介绍 DeepSeek 风格 LLM 架构、训练和蒸馏方法的书籍。
AI 治理 - 一本关于生成式 AI 系统的治理、风险、合规、安全、隐私及监督的书籍。

Awesome Generative AI 快速上手指南

awesome-generative-ai 并非一个单一的可安装软件或代码库，而是一个精选的生成式 AI 项目、服务、模型和学习资源的清单仓库。因此，本指南将指导你如何获取该清单，并从中筛选适合中国开发者的开源模型进行本地部署和使用。

环境准备

由于该清单涵盖了文本、图像、音频等多种类型的 AI 项目，具体的系统要求取决于你选择运行的特定模型（如 Llama 3, Stable Diffusion 等）。以下是运行大多数主流开源生成式 AI 模型的通用推荐配置：

操作系统: Linux (Ubuntu 20.04+ 推荐), macOS (Apple Silicon M1/M2/M3), 或 Windows 10/11 (需 WSL2)。
硬件要求:
- GPU: NVIDIA GPU (推荐 RTX 3090/4090 或更高)，显存建议 16GB 以上以运行较大参数模型。
- 内存: 系统内存建议 32GB 以上。
- 存储: 至少 50GB 可用空间用于存放模型权重和环境依赖。
前置依赖:
- Python 3.10+
- Git
- CUDA Toolkit (针对 NVIDIA GPU)
- Conda 或 venv (用于管理虚拟环境)

安装步骤

1. 获取资源清单

首先，克隆该仓库到本地，以便浏览所有可用的开源项目和模型链接。

git clone https://github.com/steven2358/awesome-generative-ai.git
cd awesome-generative-ai

2. 选择并部署具体模型

从清单的 Text -> Models 或 Image 部分选择一个开源模型。以下以部署 Meta 的 Llama 3 (文本模型) 为例，展示如何通过 Hugging Face 进行安装。

注意：国内开发者访问 Hugging Face 可能较慢，建议使用镜像源或国内加速平台（如 ModelScope 魔搭社区）。

方案 A：使用 Hugging Face (需配置镜像)

设置环境变量使用镜像源：

export HF_ENDPOINT=https://hf-mirror.com

创建虚拟环境并安装依赖：

python -m venv genai-env
source genai-env/bin/activate  # Windows 使用: genai-env\Scripts\activate
pip install transformers torch accelerate

方案 B：使用 ModelScope (魔搭社区 - 推荐国内用户)

ModelScope 提供了大量开源模型的国内加速下载。

pip install modelscope

基本使用

以下示例展示如何使用 Python 调用已下载的开源大语言模型（以 Llama 系列为例）进行简单的文本生成。

示例：运行本地大语言模型

确保你已从 Hugging Face 或 ModelScope 下载了模型权重，然后使用以下代码进行推理：

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

# 加载模型和分词器
# 国内用户可将 model_id 替换为 ModelScope 上的对应模型路径
model_id = "meta-llama/Meta-Llama-3-8B-Instruct" 

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.float16, 
    device_map="auto"
)

# 准备输入提示
prompt = "请简要介绍生成式人工智能的主要应用场景。"
messages = [
    {"role": "user", "content": prompt}
]

# 生成回复
input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

outputs = model.generate(
    input_ids,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.7,
    top_p=0.9,
)

response = tokenizer.decode(outputs[0][input_ids.shape[1]:], skip_special_tokens=True)
print(response)

探索更多工具

你可以查阅本地克隆的 README.md 文件，根据需求查找特定领域的工具：

文本写作: 查看 Writing assistants 章节寻找类似 Jasper 或 Rytr 的开源替代品。
图像生成: 查看 Image 章节获取 Stable Diffusion 相关项目。
本地知识库: 查看 Local search engines 章节，尝试部署 privateGPT 以实现离线文档问答。

# 在终端中快速查看分类内容
cat README.md | grep -A 5 "## Text"

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 149.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|4天前

插件开发框架

使用场景

没有 awesome-generative-ai 时

使用 awesome-generative-ai 后

运行环境要求

快速开始

令人惊叹的生成式人工智能

目录

推荐阅读

里程碑

文本

模型

聊天机器人

自定义界面

搜索引擎

本地搜索引擎

写作助手

ChatGPT 扩展

生产力工具

会议助手

学术领域

排行榜

其他文本生成工具

编程

编程助手

开发工具

Playground

本地部署 LLM

智能体

自主智能体

自定义助手

图像

模型

服务

平面设计

图片库

模型库

Stable Diffusion资源

视频

虚拟形象

动画

音频

文本转语音

语音转文本

音乐

其他

学习资源

更多列表

关于 ChatGPT 的列表

Awesome Generative AI 快速上手指南

环境准备

安装步骤

1. 获取资源清单

2. 选择并部署具体模型

方案 A：使用 Hugging Face (需配置镜像)

方案 B：使用 ModelScope (魔搭社区 - 推荐国内用户)

基本使用

示例：运行本地大语言模型

探索更多工具

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown