awesome-generative-ai

GitHub
3.4k 716 非常简单 2 次阅读 1周前CC0-1.0开发框架Agent语言模型图像
AI 解读 由 AI 自动生成,仅供参考

awesome-generative-ai 是一份精心整理的生成式 AI 资源清单,旨在为快速变化的领域提供一站式导航。面对海量且分散的模型、工具、论文及应用案例,用户往往难以高效筛选有价值的内容,而这份清单通过系统化的分类,将从零基础的科普定义、伦理探讨,到进阶的代码开发、大语言模型(LLM)框架、提示词工程,再到图像合成、音视频处理及多模态应用等资源有序聚合。

无论是希望快速上手的普通用户、寻求灵感的设计师,还是深耕技术的开发者与研究人员,都能在此找到契合需求的入口。其独特亮点在于不仅收录了主流的在线工具和开源项目,还涵盖了本地部署方案、智能体(Agents)、RAG 检索增强生成以及 LLMOps 等前沿工程实践,甚至包含了对技术批判性思考的深度内容。作为一份动态更新的“地图”,awesome-generative-ai 帮助用户打破信息壁垒,轻松探索生成式 AI 的无限可能,是进入该领域不可或缺的参考指南。

使用场景

某初创公司的技术负责人正计划为电商项目引入生成式 AI 功能,需要从海量的开源模型、框架和工具中筛选出最适合的技术栈。

没有 awesome-generative-ai 时

  • 信息检索效率极低:面对 GitHub 上数以万计的分散项目,团队需花费数天时间手动搜索文本生成、图像合成及 RAG 架构相关的资源,难以辨别优劣。
  • 技术选型视野狭窄:容易遗漏如 Mamba 架构、小语言模型(SLM)或最新的 ControlNet 变体等前沿方案,导致产品技术路线保守且缺乏竞争力。
  • 学习成本高昂:缺乏系统的伦理讨论、课程资料及论文合集,团队成员在理解模型原理和规避法律风险时需各自摸索,重复造轮子。
  • 工具链整合困难:难以快速找到能协同工作的“多智能体”框架或本地部署方案,导致原型开发周期被无限拉长。

使用 awesome-generative-ai 后

  • 一站式精准导航:直接通过分类目录(如"LLM 编程框架”、“图像修复”)定位到经过社区验证的高质量项目,将调研时间从数天压缩至几小时。
  • 紧跟前沿趋势:迅速发现并评估列表中包含的最新技术(如自主 LLM 代理、提示词优化工具),确保产品架构具备行业领先性。
  • 知识体系完备:利用内置的课程、论文及伦理指南,团队能快速统一认知,规范开发流程,有效规避潜在的合规风险。
  • 全栈资源覆盖:从数据处理、模型微调到最终的应用部署(LLMOps),所有环节均有对应的成熟工具推荐,大幅加速了从概念验证到落地的过程。

awesome-generative-ai 充当了生成式 AI 领域的“权威导航图”,帮助开发者在混乱的技术爆炸中快速构建高效、前沿且合规的解决方案。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库(awesome-generative-ai)是一个生成式 AI 资源、工具、论文和模型的精选列表(Awesome List),本身不是一个可执行的软件工具或框架,因此没有特定的运行环境、依赖库或硬件需求。用户可以根据列表中链接的具体项目去查看各自的环境要求。
python未说明
awesome-generative-ai hero image

快速开始

令人惊叹的生成式AI Awesome追踪Awesome列表

一份精心整理的生成式AI项目、工具、艺术作品和模型清单

仓库简介

欢迎来到我们的生成式AI资源Awesome列表!本仓库是一个精心编纂的生成式AI领域参考资料集合,涵盖了学术论文、技术文章、在线课程、教程以及软件等多种资源。

结构

  1. 章节:每个章节代表一个不同的生成式AI相关类别(例如,LLMs、提示工程、图像合成、教育资源等)。收件箱部分则包含了该类别的更通用参考。当出现新的类别时,它会成为一个特定的子章节。

  2. 章节内的参考文献:在每个章节内,参考文献按时间倒序排列,最新的放在最前面。这种排序方式反映了生成式AI领域日新月异的发展态势,确保您能够及时了解最新进展。

本仓库旨在为您提供触手可及的最新研究成果,并允许您按照自己的节奏深入探索较早的资源。我们会定期更新此仓库,以保证您始终紧跟快速发展的生成式AI世界。

参与贡献

我们非常欢迎您的贡献!如果您认为某个有价值的资源应该被列入本列表,或者发现任何过时的信息,请提交Pull Request。这将有助于我们保持Awesome列表的质量和相关性。

遵循这份路线图,不断学习,尽情享受您在生成式AI领域的旅程吧!

生成式AI领域

生成式AI的历史、时间线、地图与定义

伦理、哲学问题及生成式人工智能讨论

关于生成式人工智能的批判性观点

生成式人工智能流程与成果

更多信息

生成式人工智能是人工智能的一个分支,专注于根据从现有数据中学习到的模式来创建新数据。以下是该过程的逐步解释:

  1. 以数据为起点:每个生成式人工智能过程都始于数据。这些数据可以是文本、图像、声音或其他形式的数据集。这些数据作为基础材料,供人工智能识别和理解其中的模式。

  2. 训练人工智能:有了数据之后,下一步就是“训练”。在此阶段,人工智能会多次处理数据,以学习并内化其中的模式。这一阶段的成果是一个“模型”,它就像是从数据中提取的知识的数字化表示。

  3. 微调:有时,人工智能需要关注某些特定的细微之处或特征。在这种情况下,会使用另一组数据对已经训练好的模型进行“微调”,从而在期望的方向上增强其能力。

  4. 使用模型:训练完成后,模型就可以进行推理了,也就是说,利用其已掌握的知识来处理新数据,并生成相关输出。这个推理过程可以在本地机器上执行,也可以通过“API”远程访问。选择本地执行还是通过API访问,通常取决于计算资源、应用需求以及用户偏好等因素。无论是在本地还是通过API,目标都是利用模型的能力,从新的数据输入中得出有意义的结果。

  5. 生成新数据:当模型准备就绪后,人工智能现在可以生成新数据。通过向人工智能提供某些“输入参数”或指导方针,它会返回“生成的输出”,即新创建的内容。

  6. 应用场景:人工智能生成的输出可以被整合到各种应用中,无论是网站、移动应用,还是其他数字平台。“界面”指的是这些应用中面向用户的部分,使用户能够与人工智能的功能互动并从中受益。

总之,生成式人工智能的核心在于向人工智能系统输入大量数据,训练它掌握潜在的模式,然后利用这些训练好的知识来生成全新的数据。这项技术的应用潜力和益处非常广泛,并且随着该领域的不断发展而持续增长。

生成式人工智能工具目录

课程与教育资源

人机交互

论文合集

在线工具与应用

  • Lunroo:45+ 款社交媒体营销免费 AI 工具。利用 AI 节省日常任务时间。
  • COUNT:面向中小企业的 AI 驱动会计工具
  • Competitor Research:帮助企业追踪竞争对手的 AI 工具
  • StartKit.AI:用于快速构建 AI 产品的模板库
  • No-Code Scraper:无需代码的数据抓取工具——只需简单输入,即可无缝从任何网站提取数据。
  • BacklinkGPT:AI 驱动的外链建设平台,帮助生成个性化外链邀约信息,加速外链获取。
  • VocalReplica:为喜爱的音乐曲目提供 AI 驱动的人声与乐器分离功能
  • LangMagic:通过母语内容学习语言。
  • Persuva:Persuva 是一个由 AI 驱动的平台,可大规模创建具有说服力且转化率高的广告文案。
  • Dittto.ai:借助基于顶级 SaaS 网站训练的 AI,优化您的宣传文案。
  • SEOByAI:使用免费 AI SEO 工具,在 Google 上更快获得排名
  • SinglebaseCloud:搭载向量数据库、文档数据库、身份验证等功能的 AI 驱动后端平台,助力加速应用开发。
  • TrollyAI:以两倍速度创作专业级 SEO 文章
  • WebscrapeAI:利用 AI 无需代码即可抓取任意网站数据
  • Architecture Helper:几秒钟内分析任何建筑结构,并生成您自定义的风格方案。
  • AI-Flow:轻松连接多个 AI 模型
  • Code to Flow:可视化、分析并理解代码流程。借助 AI 将代码转化为交互式流程图,即时简化复杂逻辑。
  • Recast Studio:AI 驱动的播客营销助手。
  • Clipwing:一款将长视频切割成数十段短视频的工具。
  • Tailor:每天为您量身定制由 AI 创作的播客和新闻简报
  • ZZZ Code AI:免费的 AI 驱动网站,可解答任何编程问题或生成代码。
  • Scribble Diffusion:利用 AI 将草图转化为精致图像
  • Paint by Text:借助 AI,根据文字指令编辑您的照片。
  • Scenario AI:AI 生成的游戏资源
  • AnimalAI:定制 AI 生成的动物肖像(收益将捐赠给各类野生动物保护组织)
  • starryai:AI 艺术生成应用——AI 艺术创作者
  • ProsePainter:一款“用文字作画”的互动工具。它将可控的文字转图像技术融入传统的数字绘画界面。
  • ProsePainter:图像 + 绘图界面 + CLIP! - YouTube
  • Cocreator AI:创意计算机代理(目前在候补名单中)
  • Runway ML:AI 视频制作套件
  • Hotpot.ai - Hotpot.ai:一系列用于图像后处理的 AI 工具
  • Justin Pinkney 的 Toonify Yourself:将人脸转化为卡通形象
  • deepart.io:一款在线风格迁移工具
  • Artbreeder:基于现有图像进行杂交生成新图像的网页工具
  • Ostagram.ru:图像风格迁移平台
  • cleanup.pictures:免费移除图片中的物体、人物、文字及瑕疵
  • remove.bg:自动去除图片背景
  • Quick, Draw!:神经网络能否学会识别涂鸦?一款通过用户绘图来帮助训练神经网络的游戏
  • Nekton.ai:用 AI 自动化您的工作流
  • Documind.chat:使用 AI 与 PDF 对话。Documind 是一款强大的 PDF 对话工具,允许您就 PDF 文档提出问题。
  • Snowpixel:通过文本和/或图像生成图片/视频/动画/音频/音乐/3D 对象。上传您自己的数据以创建自定义模型。
  • Chatpdf.so:使用 GPT4 AI 与 PDF 对话。Chatpdf.so 是一款 PDF 对话工具,可让您对 PDF 文档进行问答。
  • Yona.ai:根据您自己的对话、故事和数据,创建高度个性化的 AI 聊天机器人。您可以利用聊天记录的力量,打造一位陪伴您重温回忆、畅想奇思妙想或其他独特用途的 AI 伙伴。
  • Voicesphere:与您的文档对话,获取智能且上下文相关的答案。
  • Tune AI:基于开源模型的 AI 聊天应用
  • GPT Mobile:一款可在同一时间与多个大型语言模型对话的 Android 应用!目前支持 ChatGPT、Anthropic Claude 和 Google Gemini。
  • PageGen:一款结合 Claude AI、React 和 Shadcn UI 的 AI 页面生成器。只需点击一下,即可根据文本、截图和模板生成网页。
  • PerchanceStory:PerchanceStory 是一款基于 AI 的互动故事生成器,可根据用户提供的简单输入,生成不断变化的故事结局,拥有无限可能。

代码与编程

氛围编码

  • filipecalegario/awesome-vibe-coding:精选的氛围编码参考资料列表,与 AI 合作编写代码。
  • Andrej Karpathy 在 X 上:“有一种新型编码方式,我称之为‘氛围编码’,在这种方式下,你完全沉浸在代码的氛围中,拥抱指数级增长,甚至忘记代码的存在。”
  • Codeium 的 Windsurf 编辑器:一种代理式 IDE,“开发者与 AI 的协作真正融为一体,带来宛如魔法般的编码体验”
  • Bolt.new:提示、运行、编辑和部署全栈 Web 和移动应用。
  • Lovable:“几秒钟内将想法变为应用。Lovable 就是您的超人级全栈工程师。”
  • v0 by Vercel:用于构建 NextJS 前端的助手
  • Cursor:AI 代码编辑器,“与 AI 一起编码的最佳方式”
  • Replit:“只需在上方描述您的想法,让代理为您构建出来”

人工智能驱动的代码生成

文本

从一切到 Markdown 再到 LLM

  • bytedance/Dolphin:官方仓库,介绍“海豚:基于异构锚点提示的文档图像解析”,ACL 2025 年会议论文
  • NuMind 的 NuExtract 2.0:“在信息提取方面超越前沿 LLM”
  • unclecode/crawl4ai:🚀🤖 Crawl4AI:开源且适合 LLM 的网络爬虫和数据抓取工具
  • LLMSTXT.NEW:利用 Firecrawl 将网站生成整合文本文件,用于 LLM 训练和推理
  • Mistral OCR / Mistral AI:文档理解 API
  • opendatalab/MinerU:一款高质量的工具,可将 PDF 转换为 Markdown 和 JSON 格式
  • microsoft/markitdown:Python 工具,用于将文件和办公文档转换为 Markdown 格式
  • docling-project/docling:为生成式 AI 准备文档
  • Firecrawl:将网站转化为 LLM 可用的数据
  • CatchTheTornado/text-extract-api:使用 OCR 和 Ollama 支持的模型提取和解析文档(PDF、Word、PPTX 等)。可匿名化文档、去除 PII,并将任何文档或图片转换为结构化 JSON 或 Markdown 格式
  • R Jina:只需在搜索栏中输入网址,即可将网站转换为 Markdown
  • Gitingest:将任何 Git 代码库转化为其代码基础的简洁文本摘要
  • uithub:只需在搜索栏中输入 GitHub 仓库的 URL,即可将其转换为 Markdown

小型语言模型

大型语言模型 (LLMs)

模型上下文协议

面向大型语言模型的编程框架

  • DSPy:不只是普通的提示工程:一篇关于 DSPy 的文章,该框架由斯坦福 NLP 小组开发,旨在以算法方式优化语言模型的提示。
  • [🔥🔥🔥] stanfordnlp/dspy: DSPy:用于编程——而非提示——基础模型的框架。

提示工程

提示优化器

  • zou-group/textgrad:通过文本实现自动“微分”,利用大型语言模型反向传播文本梯度。
  • [🔥🔥🔥] stanfordnlp/dspy:DSPy:用于编程——而非提示——基础模型的框架。
  • vaibkumr/prompt-optimizer:最小化 LLM 的标记复杂度,以节省 API 费用和模型计算成本。
  • PromptPerfect:“将您的提示优化至完美”。
  • [🔥🔥🔥] LLMLingua:通过 提示压缩 为大型语言模型设计语言。

文本到文本的提示工程

文本到图像的提示工程

Mamba

在本地运行LLM

  • llama.cpp指南:从零开始,在任何硬件上本地运行LLM。
  • PowerInfer:用于在本地部署LLM的高速推理引擎。
  • [🔥🔥] Ollama:在本地运行Llama 2、Code Llama等模型。
  • GPT4All:一款免费使用、本地运行且注重隐私的聊天机器人,无需GPU或互联网连接。
  • LM Studio:发现、下载并运行本地LLM。
  • ggerganov/llama.cpp:Facebook的LLaMA模型的C/C++移植版本。

函数调用

GPTs与Assistant API

  • 精选GPTs:为日常任务精心挑选的自定义GPT列表。
  • AllGPTs:一个用于查找GPT的目录。

检索增强生成(RAG)

嵌入与语义搜索

自主LLM智能体

多智能体

LLM评估

LLMOps

  • Lunary:开源的LLM聊天机器人和智能体平台,提供可观测性、提示词管理、测试等功能。
  • Eden AI:提供连接到AI引擎的独特API。
  • Dify:基于GPT-4构建和运营原生AI应用的LLMOps平台。
  • LLM App:LLM App是一个Python库,只需几行代码即可帮助你构建实时的AI驱动数据管道。

AI工程

对LLM的攻击

LangChain

ChatGPT

文本相关生成工具

研究类 AI 工具

研究用 AI 工具

用于搜索的AI工具

  • whitead/paper-qa:用于根据带有引用的文档回答问题的“大模型链”
  • Metaphor:一款能够“理解语言——以提示的形式——因此你可以用各种富有表现力和创造性的方式表达你想要寻找的内容”的搜索引擎
  • MemFree - 开源混合型AI搜索引擎,可从互联网、书签、笔记和文档中即时获取准确答案。支持一键部署。

图片

图像合成

收件箱:Stable Diffusion

部署了 Stable Diffusion 的 Web 工具

通过Google Colab运行Stable Diffusion的Web UI

关于Stable Diffusion的参考资料汇总

超技术

ControlNet

文本反转

DreamBooth

Deforum

生成式AI图像合成工具的创意应用

图像超分辨率

图像修复

图像分割

  • Segment Anything | Meta AI:“Meta AI推出的一款全新AI模型,只需单击一下,即可从任何图像中‘抠出’任意物体”

视频与动画

音频与音乐

语音

文本转语音(TTS)与虚拟形象

播客生成器

  • Google NotebookLM:根据你上传的参考资料生成播客节目
  • Illuminate:同样来自谷歌,可将你的内容转化为引人入胜的AI生成音频讨论

语音转文本(STT)与语音内容分析

游戏

多模态

多模态嵌入空间

数据集

  • Ego-Exo4D:Meta 提供的基础数据集,用于视频学习和多模态感知研究 数据集下载
  • Carolina:包含来源和类型信息的当代巴西葡萄牙语通用语料库——Corpus Geral do Português Brasileiro Contemporâneo
  • Together AI 的 RedPajama-Data-v2:一个开放数据集,包含 30 万亿个 token,可用于训练大型语言模型
  • Have I Been Trained?:用于搜索被用于训练热门 AI 艺术模型的 58 亿张图片的工具
  • laion-aesthetic-6pls:探索用于训练 Stable Diffusion 图像生成器的 23 亿张图片中的 1200 万张
  • CLIP 检索 Laion5B:“通过将文本查询转换为 CLIP 嵌入,然后利用该嵌入查询 CLIP 图像嵌入的 k-近邻索引来实现检索。”
  • rom1504/clip-retrieval:轻松计算 CLIP 嵌入,并基于这些嵌入构建 CLIP 检索系统
  • LAION:大规模人工智能开放网络
  • gabolsgabs/DALI:一个大型的音频、歌词和人声音符同步数据集

杂项

AI 与教育

人物与作品

有趣的 Twitter 账号

有趣的 Instagram 账号、帖子和 Reels

有趣的 YouTube 频道

有趣的 GitHub 仓库

艺术家与艺术作品

画廊

相关精彩列表

生物实验

  • fMRI转图像:由danberridge发布的推文:“‘呈现的图像’展示给一组人,而‘重建的图像’则是fMRI输出到Stable Diffusion的结果。换句话说,Stable Diffusion简直就是在读取人们的思想。”

生成式AI相关职位

提升Google Colab体验

辅助工具和概念

  • Rosie:AI电话接听服务
  • MuckBrass:利用AI寻找并验证创业想法
  • ResumeDive:基于AI的简历优化服务
  • Owlbot:AI客服助手
  • fynk:AI驱动的合同管理软件
  • Taskbase:结合AI软件的虚拟助理服务
  • AI Wedding Toast:用AI生成个性化婚礼致辞
  • Interviews Chat:你的个人面试准备与协作伙伴
  • Inline Help:在客户提问之前就解答他们的问题
  • LinkActions:AI内部链接助手
  • Marblism:根据提示生成SaaS样板代码
  • SiteSpeakAI:用AI自动化客户支持
  • Room Reinvented:轻松改造你的房间!上传一张照片,让AI为你打造30多种惊艳的室内风格。立即提升你的空间品质。
  • FairyTailAI:个性化睡前故事生成器
  • PromptPal:搜索提示词和机器人,并在你喜爱的AI平台上直接使用,所有功能一站式提供。
  • Never Jobless LinkedIn Message Generator:通过AI驱动的LinkedIn消息,最大化你的面试机会。
  • Aispect:体验活动的新方式。
  • SiteGPT:让AI成为你的专业客户支持代理。
  • PressPulse AI:每天早上获取个性化的媒体报道线索。
  • GPTHelp.ai:为你的网站配备ChatGPT / AI客户支持聊天机器人。
  • chaiNNer-org/chaiNNer:一个基于节点的图像处理和AI超分辨率GUI,可轻松将复杂的处理任务串联起来。
  • BIRME:批量图片调整大小2.0(在线免费)
  • The Art of PNG Glitch
  • HashLips/hashlips_art_engine:用于根据提供的图层创建多种不同版本艺术作品的工具。
  • Taplio:一体化、AI驱动的LinkedIn工具。
  • Galichat.com:帮助你发展业务的AI支持助手。
  • Aidbase:为你的SaaS初创公司提供AI驱动的支持。
  • Socialsonic:AI LinkedIn教练:个性化内容、趋势分析及日程安排。

降维技术

路线图、学习路径、指南

星标随时间变化

星标随时间变化

参与贡献

欢迎贡献!请先阅读贡献指南

许可证

CC0

在法律允许的最大范围内,Filipe Calegario已放弃本作品的所有版权及相关权利。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|5天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|6天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

150k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|昨天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架