awesome-generative-ai
awesome-generative-ai 是一份精心整理的生成式 AI 资源清单,旨在为快速变化的领域提供一站式导航。面对海量且分散的模型、工具、论文及应用案例,用户往往难以高效筛选有价值的内容,而这份清单通过系统化的分类,将从零基础的科普定义、伦理探讨,到进阶的代码开发、大语言模型(LLM)框架、提示词工程,再到图像合成、音视频处理及多模态应用等资源有序聚合。
无论是希望快速上手的普通用户、寻求灵感的设计师,还是深耕技术的开发者与研究人员,都能在此找到契合需求的入口。其独特亮点在于不仅收录了主流的在线工具和开源项目,还涵盖了本地部署方案、智能体(Agents)、RAG 检索增强生成以及 LLMOps 等前沿工程实践,甚至包含了对技术批判性思考的深度内容。作为一份动态更新的“地图”,awesome-generative-ai 帮助用户打破信息壁垒,轻松探索生成式 AI 的无限可能,是进入该领域不可或缺的参考指南。
使用场景
某初创公司的技术负责人正计划为电商项目引入生成式 AI 功能,需要从海量的开源模型、框架和工具中筛选出最适合的技术栈。
没有 awesome-generative-ai 时
- 信息检索效率极低:面对 GitHub 上数以万计的分散项目,团队需花费数天时间手动搜索文本生成、图像合成及 RAG 架构相关的资源,难以辨别优劣。
- 技术选型视野狭窄:容易遗漏如 Mamba 架构、小语言模型(SLM)或最新的 ControlNet 变体等前沿方案,导致产品技术路线保守且缺乏竞争力。
- 学习成本高昂:缺乏系统的伦理讨论、课程资料及论文合集,团队成员在理解模型原理和规避法律风险时需各自摸索,重复造轮子。
- 工具链整合困难:难以快速找到能协同工作的“多智能体”框架或本地部署方案,导致原型开发周期被无限拉长。
使用 awesome-generative-ai 后
- 一站式精准导航:直接通过分类目录(如"LLM 编程框架”、“图像修复”)定位到经过社区验证的高质量项目,将调研时间从数天压缩至几小时。
- 紧跟前沿趋势:迅速发现并评估列表中包含的最新技术(如自主 LLM 代理、提示词优化工具),确保产品架构具备行业领先性。
- 知识体系完备:利用内置的课程、论文及伦理指南,团队能快速统一认知,规范开发流程,有效规避潜在的合规风险。
- 全栈资源覆盖:从数据处理、模型微调到最终的应用部署(LLMOps),所有环节均有对应的成熟工具推荐,大幅加速了从概念验证到落地的过程。
awesome-generative-ai 充当了生成式 AI 领域的“权威导航图”,帮助开发者在混乱的技术爆炸中快速构建高效、前沿且合规的解决方案。
运行环境要求
未说明
未说明

快速开始
令人惊叹的生成式AI 
一份精心整理的生成式AI项目、工具、艺术作品和模型清单
仓库简介
欢迎来到我们的生成式AI资源Awesome列表!本仓库是一个精心编纂的生成式AI领域参考资料集合,涵盖了学术论文、技术文章、在线课程、教程以及软件等多种资源。
结构
章节:每个章节代表一个不同的生成式AI相关类别(例如,LLMs、提示工程、图像合成、教育资源等)。收件箱部分则包含了该类别的更通用参考。当出现新的类别时,它会成为一个特定的子章节。
章节内的参考文献:在每个章节内,参考文献按时间倒序排列,最新的放在最前面。这种排序方式反映了生成式AI领域日新月异的发展态势,确保您能够及时了解最新进展。
本仓库旨在为您提供触手可及的最新研究成果,并允许您按照自己的节奏深入探索较早的资源。我们会定期更新此仓库,以保证您始终紧跟快速发展的生成式AI世界。
参与贡献
我们非常欢迎您的贡献!如果您认为某个有价值的资源应该被列入本列表,或者发现任何过时的信息,请提交Pull Request。这将有助于我们保持Awesome列表的质量和相关性。
遵循这份路线图,不断学习,尽情享受您在生成式AI领域的旅程吧!
生成式AI领域
生成式AI的历史、时间线、地图与定义
- AI 时间线
- 代理市场
- [🔥] 2024 年 AI 时间线:由 reach-vb 在 Hugging Face 上创建的空间
- 生成式 AI 的地图集:“哪些提取、机构和资源使我们能够在线与文本生成工具对话,或在几秒钟内获得图像?”
- 生成式 AI 大型语言模型(LLMs)的崛起:由 Information Is Beautiful 制作的交互式时间线可视化
- AI 时间线 (@TheAITimeline) / X
- 面向初学者的生成式 AI:第一部分——AI 简介 | 作者:Raja Gupta | Medium
- 人工智能学习路线图 [AI 路线图] 2024
- 生成式 AI 简史 - DATAVERSITY
- 生成式 AI 历史简明指南 | Bernard Marr
- 2023 年 1 月至 7 月的生成式 AI 时间线
- 生成式 AI 的兴起:辉煌、挫折与炒作的时间线 | CIO Dive
- 时间中的简史:解读生成式 AI 的演变 | LinkedIn
- [🔥🔥🔥] FirstMark | 2024 MAD (ML/AI/数据) 景观:全速前进——2024 年 MAD(机器学习、AI 和数据)景观
- AI 预测时间线 - AI Digest
- 生成式 AI 冰山图
- [🔥🔥🔥] 生成式 AI 概览:由 Henrik Kniberg 绘制的包含最常见生成式 AI 概念的地图 解释该地图的 YouTube 视频
- 你必须熟记的 60 多个生成式 AI 术语:由 Analytics Vidhya 提供
- AI 栈的四场战争(2023 年 12 月回顾):“2023 年 12 月对 AI 工程师来说最重要的内容回顾”(“数据之战、GPU 富贫之战、多模态之战、RAG/运维之战”)
- Brian Solis 的 GenAI 光谱信息图:与生成式 AI 合作的框架
- LLM 可视化
- [2310.04438] 提示词简史:利用语言模型:该论文探讨了提示工程的演变。作者 Golam Md Muktadir 大量使用 ChatGPT 进行内容生成
- 一位 AI 极客(wishesh)撰写的关于机器学习和生成式 AI 的指南 | 2023 年 10 月 | Medium
- 生成式 AI 研究的新兴趋势:近期论文精选
- 当今 LLM 应用的架构 — GitHub 博客
- [🔥🔥🔥] [2310.07127] 以人为中心的人机-生成式 AI 交互综述与分类:“对 154 篇论文的综述,从人类和生成式 AI 两个角度提供了新颖的分类和分析。”
- 生成式 AI 的构建模块 | 作者:Jonathan Shriftman | Medium
- [🔥] 生成式 AI 的存在源于 Transformer:金融时报的一篇视觉故事
- AI 的早期阶段 — 由 Elad Gil 撰写:关于 AI 是“一个全新的时代,与过去截然不同”的思考
- 进步的下一个标志:生成式 AI 前景中的四个突破 | Andreessen Horowitz
- [2309.07930] 生成式 AI:从模型、系统和应用层面探讨生成式 AI。
- 2023 年 AI 现状:生成式 AI 的爆发之年 | 麦肯锡
- 无术语解释 AI 大型语言模型的工作原理 | Ars Technica
- 生成式 AI 革命:探索当前格局 | 由 Towards AI 编辑团队撰写 | 2023 年 6 月 | Towards AI
- AI 冬季的故事及其对今天的启示
- 如果没有这个,就不会有 LLM(历史系列第 3 集):由 Turing Post 提供的 LLM 时间线
- 进步的下一个标志:生成式 AI 前景中的四个突破 | Andreessen Horowitz:前景中的关键创新:引导、记忆、使用工具的能力以及多模态性
- 生成式 AI 的经济潜力:下一道生产力前沿:麦肯锡 2023 年 6 月发布的报告
- 生成式 AI 应用综述 | arXiv:“本综述旨在为研究人员和从业者提供有价值的参考,帮助他们应对快速扩展的生成式 AI 领域。”
- Paper Digest - ChatGPT:关于 ChatGPT 的近期论文
- 2023 年 AI 指数报告 – 人工智能指数:由斯坦福大学以人为本的人工智能研究中心编写的衡量 AI 趋势的报告
- 大型语言模型综述:总结语言模型演进的论文,重点关注 LLM,讨论其进展、技术及对 AI 发展和应用的影响
- 生成式 AI 时间线:David Foster 在 LinkedIn 上发布的帖子
- 谁拥有生成式 AI 平台?| Andreessen Horowitz:本文探讨了生成式 AI 市场,并展示了该领域的有趣技术栈
- AI 生成内容(AIGC)综合调查:从 GAN 到 ChatGPT 的生成式 AI 历史 | arXiv
- [🔥🔥] 迈向生成式 AI 应用的通用设计原则:该论文提出了七条生成式 AI 应用设计原则
- [🔥] 生成式 AI 景观报告概览 | 作者:Ramsri Goutham | 2023 年 1 月 | Medium:一份关于 9 家风险投资公司发布的报告的元分析
- Cohere 的生成式 AI:第一部分——模型提示:Cohere AI 对生成式 AI 的概述
- Cohere 的生成式 AI:第二部分——用例构思:Cohere AI 提供的生成式 AI 用例列表
- 大型语言模型及其应用场景:第一部分:Cohere AI 提供的 LLM 用例列表
- 大型语言模型及其应用场景:第二部分
- 生成式 AI 有什么大不了的?它是未来还是现在?:Cohere AI 对生成式 AI 领域的总结
- AI 和语言模型时间线:由 Life Architect 的 Alan D. Thompson 整理的 LLM 时间线
- 预训练基础模型综合调查:从 BERT 到 ChatGPT 的历史 | arXiv
- 从历史视角看生成式 AI 的综述:由 Dipankar Dasgupta、Deepak Venugopal 和 Kishor Datta Gupta 撰写的论文
- Matt Shumer 在 Twitter 上:“终极 AI 市场地图推文串”:“终极 AI 市场地图推文串”
- [🔥] Base11 Research - 生成式 AI:由投资公司 Base10 出品的生成式 AI 报告
- 惊叹引擎:AI 艺术走向成熟——Steve Murch
- AI 于 2022 年底突然爆红 / Twitter:用于分析生成式 AI 工具的类别
- [🔥🔥🔥] 绘制生成式 AI 景观 | Antler
- [🔥🔥🔥] AI 时间线:Fabian Mosele 制作的文本到图像 ML 模型历史
- AI 生成的艺术:从文本到图像及其他更多案例
- Stable Diffusion 一周 | multimodal.art
伦理、哲学问题及生成式人工智能讨论
- 🔭 爱因斯坦人工智能模型
- 充满慈爱的机器——达里奥·阿莫迪如何通过AI让世界变得更美好
- AI悲伤的五个阶段——NOEMA
- 生成式AI伦理:8大担忧与风险
- 自动化社会科学:语言模型作为科学家与研究对象 | NBER
- 是时候淘汰“用户”这个词了:AI的普及意味着我们需要一个新的词汇
- 理解人格特质、经历和态度如何塑造对AI生成艺术作品的负面偏见 | Scientific Reports
- 追踪AI:监测人工智能聊天机器人的偏见
- AI下一波超智能会取代人类的创造力吗?情况很复杂——Grit Daily News
- 谁害怕弗兰肯斯坦?又谁害怕生成式AI?| Fast Company巴西 [PT-BR]
- 希托·施泰耶尔,《低俗图像》,NLR 140/141,2023年3–6月
- AI艺术的版权难题——The Verge
- 关于推进巴西人工智能发展的建议——ABC [PT-BR]
- 我们必须阻止AI复制监视资本主义的问题
- 人工智能服务于集体智慧
- 新训练方法帮助AI像人类一样进行泛化——Scientific American
- [2310.01405] 表征工程:一种自上而下的AI透明度方法:“一种借鉴认知神经科学见解来提升AI系统透明度的方法”
- 伯克利法学院师生的生成式AI资源——伯克利法学院
- 许可制度既不可行也不足以应对AI风险
- 生成式AI公司必须发布透明度报告
- ChatGPT是否存在自由主义偏见?
- 比人类更人性化:衡量ChatGPT的政治偏见 | Public Choice
- 重新定义偏见:人类对AI的偏见 | Medium
- AI艺术及其对艺术家的影响:发表于2023年AAAI/ACM人工智能、伦理与社会会议论文集中的论文
- AI时代已经开启 | 比尔·盖茨
- AIKEA效应:作者为Artur Piszek
- 人工智能伦理:案例研究及应对伦理挑战的方案 | SpringerLink
- 拥抱变化并重置期望 | Microsoft Unlocked:文章作者为陶哲轩
- 艺术与生成式AI的科学 | Science
- AI将从这里走向何方
- AI时代已经开启:比尔·盖茨的笔记
- GPT就是GPT:大型语言模型对劳动力市场影响潜力的早期观察:OpenAI发表的一篇探讨GPT对美国劳动力市场可能影响的论文
- 为什么生成式AI会让艺术家感到恐惧,却不会让内容写作者感到害怕
- AI中的文化/文化中的AI:NeurIPS 2022研讨会网页
- AI数据清洗——Waxy.org:学术界和非营利研究人员如何使科技公司免于承担责任
- [🔥🔥🔥] (1232) 艺术的终结:反对图像AI的论点——YouTube:史蒂文·萨帕塔的视频评论
- [🔥🔥🔥] 艺术的终结:反对图像AI的论点(公开版)——Google Docs:史蒂文·萨帕塔视频评论的文字稿
- [🔥🔥🔥] 生成式AI:一个富有创造力的新世界——红杉资本美国/欧洲:红杉资本关于生成式AI潜在应用的报告
- 合成创意——作者:Cavin——Deep Markets
- 我们对合成媒体未来的愿景——作者:维克多·里帕贝利——Medium
- 深异:一种针对AI艺术的批判性框架
- 摄影如何成为一种艺术形式——亚伦·赫兹曼的博客
- 计算机能创作艺术吗?——亚伦·赫兹曼:2018年发表在《艺术杂志》上的文章
- 文本是通用接口——Scale
- 这位艺术家正在主导AI生成的艺术领域。而他对此并不高兴。| MIT技术评论
- 关于AI艺术的真正争斗:StableDiffusion | Reddit
- 鲁特科夫斯基对抗AI艺术霸主 | Reddit
- 我们现在是不是用GPU挖的是艺术,而不是加密货币?| Reddit
- 用AI创作艺术并不等于艺术!| Reddit:ArtistLounge
- 欣赏AI艺术的诗意误解——纽约客
关于生成式人工智能的批判性观点
- 反对由AI生成的用户的理由 - IDEO
- 为何将完全控制权交给AI智能体将是一个巨大错误 | MIT技术评论
- Eryk Salvaggio整理的“关于生成式AI最深刻的思考”合集
- AI伪科学:区分炒作与现实 | TechPolicy.Press
- 解构AI神话:算法化的谬误与危害
- 挑战生成式AI的神话 | TechPolicy.Press
- 我厌倦了AI | 关于测试自动化
- Steffi Tan、Vaikunthan Rajaratnam撰写的《生成式AI批判可能损害学习研究设计》论文 | SSRN
- Hamsa Bastani、Osbert Bastani、Alp Sungu、Haosen Ge、Özge Kabakcı、Rei Mariman撰写的《生成式AI可能损害学习》论文 | SSRN
- 我执教大半生,却因ChatGPT而辞职 | 时代周刊
- 可能导致灾难的AI风险 | CAIS
- AI风险库
- [2406.17864] AI风险分类解读(AIR 2024):从政府监管到企业政策
- "AI向善"运动是错误的做法 - IEEE Spectrum
- 生成式AI并非我们所承诺的万能药 | Eric Siegel在Big Think+上的演讲 - YouTube
- James Gosling对GenAI的思考
- 自动化社会科学:语言模型作为科学家与研究对象 | NBER
- 生成式AI泡沫何时会破裂? - Gary Marcus
- Nightshade:这款“毒化”数据的工具让艺术家有机会对抗AI | TechCrunch
- AI如何让我们失望 | 哈佛大学埃德蒙与莉莉·萨弗拉伦理中心
- 生成式AI存在视觉剽窃问题 - IEEE Spectrum:“使用Midjourney和DALL-E 3进行的实验显示出版权雷区”
- [2308.03762] GPT-4无法进行推理:“尽管确实有了令人印象深刻的改进,但我们仍有充分理由对GPT-4的推理能力持高度怀疑态度”
- 风险与危害:剖析AI话语中的意识形态 | 第五届国际对话式用户界面会议论文集
- [2305.18654] 信仰与命运:Transformer模型在组合性方面的局限性
- [2210.02667] 基于人权的负责任AI方法
- 论随机鹦鹉的危害 | 2021年ACM公平、问责与透明度会议论文集
- 这款新的数据投毒工具使艺术家能够反击生成式AI | MIT技术评论
- 生成式人工智能对就业的短期影响:来自在线劳动力市场的证据 - Xiang Hui、Oren Reshef、Luofeng Zhou | SSRN
- 教育领域AI小组会议记录 - Google文档
- AI生成工具的教学大纲政策 - Google文档
- 英国布莱切利公园AI安全峰会五大要点 | 人工智能 | 卫报
- 前沿AI:能力与风险——讨论文件 - GOV.UK
- AI安全峰会政策更新 | AISS 2023
- 借助知识增强型生成式AI做出负责任的企业决策 | 德勤荷兰
- [2310.13149] 从HCI视角理解艺术中的生成式AI:对艺术家关于G-AI的访谈研究
- [2309.12338] 人工智能与审美判断:“随着生成式AI影响当代审美判断,我们概述了在审视AI生成内容意义时可能遇到的一些陷阱与误区”
- AI崇拜 | Marginal REVOLUTION
- ChatGPT背后的人工智能技术是在爱荷华州打造的——耗费大量水资源 | AP新闻
- ChatGPT很有趣,但它并不是作者 | Science
- AI热潮背后,是一支在“数字血汗工厂”工作的海外劳工大军 | 华盛顿邮报:Scale AI在菲律宾的Remotasks员工抱怨工资过低
- 如果总是停机就不算智能:对当前AGI方法的批判性视角 | Life Is Computation
- AI热潮的人力代价 | TechCrunch
- AI诈骗、垃圾邮件、黑客攻击正在毁掉互联网
- ChatGPT革命不过是又一个科技幻想
- 为什么AI将拯救世界 | Andreessen Horowitz
- 好莱坞制片厂曾提议一项AI合同,赋予其演员形象权“直至永远” - The Verge
- Brave公司暗中出售受版权保护的数据用于AI训练的黑幕
- AI工厂内幕:让科技看似人性化的幕后工作者 - The Verge
- 为什么变革性人工智能真的非常难以实现
- AI与工作自动化 — Benedict Evans
- Yuval Noah Harari认为AI已经攻破了人类文明的操作系统
- 生成式AI使刻板印象与偏见愈发严重
- OpenAI关于超智能的治理
- AIAAIC - AIAAIC资源库:“一个独立、开放、公益性的资源,详细记录由人工智能、算法和自动化驱动或相关的事件与争议”
- 关于GPT-4,大家还是冷静点吧 - IEEE Spectrum
- 暂停巨型AI实验:一封公开信 - 生命未来研究所
- “OpenAI发布了ChatGPT插件”:[@thealexbanks]发布的推文,附带对ChatGPT插件影响的反思列表
- 是否存在社会公平的人工智能? | Uma Inteligência Artificial socialmente justa é possível?:H.D. Mabuse用葡萄牙语发表的文章
- Noam Chomsky谈ChatGPT:它“基本上就是高科技剽窃”,也是“一种逃避学习的方式” | Open Culture
- 尽管取得了诸多成就,大型语言模型仍未对语言学作出贡献 | Towards Data Science
- ChatGPT会扼杀学生作文吗? | 大西洋月刊
- ChatGPT和生成式AI对科学意味着什么 | 自然
- ChatGPT是个制造废话的家伙,正在发动阶级战争
- 关于生成式AI与教育未来的几点思考 – Mark Carrigan
- 教育者对ChatGPT的考量 - OpenAI API
- Stable Diffusion frivolous · 因为基于无知的诉讼理应得到回应。:针对“Stable Diffusion诉讼”的社区回应
- Stable Diffusion诉讼 · Joseph Saveri律师事务所 & Matthew Butterick
- 生成式语言模型与自动化影响力行动:新兴威胁及潜在应对措施 | OpenAI
- ChatGPT撰写的摘要竟然骗过了科学家
- 当机器改变艺术 | Aaron Hertzmann的博客
- 大型语言模型的黑暗风险 | WIRED UK
- ChatGPT、DALL-E 2与创作过程的崩溃
- AI生成的艺术对人类创造力究竟意味着什么 | WIRED
- 预测语言模型可能被滥用于虚假信息传播——以及如何降低风险
- AI艺术的阴暗面:这一日益流行的趋势可能带来的4个问题
- 网络罪犯利用ChatGPT开发恶意软件并策划虚假女性聊天机器人
- ChatGPT与办公室工作的批量生产 - Farsight
- 无人谈及的ChatGPT危险 | Jacob Ferus著 | 2022年12月 | Medium
- 元宇宙中的精神控制。如果我们从中有所领悟…… | Louis Rosenberg著 | Predict | 2022年12月 | Medium
- ChatGPT的辉煌与怪异之处 - 纽约时报
- 人工智能生成的文字如何毒害互联网 - MIT技术评论
- ChatGPT是人工智能界的“侏罗纪公园”时刻 | NeoFeed
- 请对ChatGPT保持更多理性、减少狂热(第1部分,共2部分) | Cezar Taurion著 | 2022年12月 | Medium
- 如果我们正在使用伪科学的AI呢? - Diogo Cortiz
- 2023年技术热潮的局限性:ChatGPT | IAgora? | Época NEGÓCIOS
- AI失败的7种显著表现 - IEEE Spectrum
生成式人工智能流程与成果
更多信息
生成式人工智能是人工智能的一个分支,专注于根据从现有数据中学习到的模式来创建新数据。以下是该过程的逐步解释:
以数据为起点:每个生成式人工智能过程都始于数据。这些数据可以是文本、图像、声音或其他形式的数据集。这些数据作为基础材料,供人工智能识别和理解其中的模式。
训练人工智能:有了数据之后,下一步就是“训练”。在此阶段,人工智能会多次处理数据,以学习并内化其中的模式。这一阶段的成果是一个“模型”,它就像是从数据中提取的知识的数字化表示。
微调:有时,人工智能需要关注某些特定的细微之处或特征。在这种情况下,会使用另一组数据对已经训练好的模型进行“微调”,从而在期望的方向上增强其能力。
使用模型:训练完成后,模型就可以进行推理了,也就是说,利用其已掌握的知识来处理新数据,并生成相关输出。这个推理过程可以在本地机器上执行,也可以通过“API”远程访问。选择本地执行还是通过API访问,通常取决于计算资源、应用需求以及用户偏好等因素。无论是在本地还是通过API,目标都是利用模型的能力,从新的数据输入中得出有意义的结果。
生成新数据:当模型准备就绪后,人工智能现在可以生成新数据。通过向人工智能提供某些“输入参数”或指导方针,它会返回“生成的输出”,即新创建的内容。
应用场景:人工智能生成的输出可以被整合到各种应用中,无论是网站、移动应用,还是其他数字平台。“界面”指的是这些应用中面向用户的部分,使用户能够与人工智能的功能互动并从中受益。
总之,生成式人工智能的核心在于向人工智能系统输入大量数据,训练它掌握潜在的模式,然后利用这些训练好的知识来生成全新的数据。这项技术的应用潜力和益处非常广泛,并且随着该领域的不断发展而持续增长。
生成式人工智能工具目录
- AI演示制作工具:深度评测数十款AI演示制作工具
- A.I. 生产力工具
- ToolList.ai:AI工具聚合平台
- Toolify:AI工具目录及工具列表
- LLM Explorer:精选的LLM列表。探索开源LLM模型列表
- OrbicAI:“最大的AI目录,GPT商店、AWS PartyRocks应用以及大量免费AI工具”
- Altern:“通往AI发现的大门”
- ainave:“轻松驾驭AI世界”,精选AI工具与AI新闻
- AI Search:查找AI工具与应用 | 搜索最全面的AI工具目录 | AI搜索
- AiSuperSmart AI工具目录:根据您的使用场景查找AI工具!
- HD Robots:带有聊天机器人助手的AI工具目录
- AIForme:具有比较功能的AI工具发现平台
- Technologies in LabLab:由lablab.ai为其黑客马拉松推荐的AI工具列表
- Vondy - 下一代AI应用:按任务分类的AI工具集合
- AI工具主列表:由ClickUp维护的目录
- AI Valley:“最新的AI工具与提示”
- AI Finder:收录超过1500种AI工具的资源库
- BestWebbs:“所有AI工具的一站式目的地”
- Future Tools - 找到满足您需求的精确AI工具:AI工具列表
- Futurepedia - 最大的AI工具目录 | 首页:AI工具目录
- There's An AI For That:AI数据库
- AI Depot - 发现新的AI工具:按标签分类并以卡片形式呈现的AI工具集合
- 生成式AI数据库:在Notion中建立的数据库,包含类型、模型、行业、网址和API等信息
- Altern——发现全新AI工具与产品的场所。
- 生成式AI全景图:“一系列出色的生成式AI应用”
- 创作者终极AI工具清单 | Descript:由Descript整理的工具集合
- Maxim AI:一个用于评估和可观测性的生成式AI平台
- AI工具列表:一份超棒的AI工具目录
课程与教育资源
- Gemini 示例:通过(带注释)代码示例学习 Gemini SDK。
- Niraj-Lunavat/人工智能:超赞的人工智能学习资源,包含100多张AI速查表、免费在线书籍、顶级课程、最佳视频与讲座、论文、教程、99位顶尖研究者、优质网站、121个数据集、会议、框架和工具。
- NVIDIA生成式AI详解:NVIDIA推出的零代码课程,介绍生成式AI的概念与应用,以及该领域的挑战与机遇。
- Paulescu/hands-on-rl:从零开始的强化学习实战课程 🦸🏻🦸🏽
- DataCamp生成式AI开发者系列:9节代码实操课程,教你使用LangChain及OpenAI、Pinecone API构建聊天机器人,并探索Hugging Face生态。限时免费。
- rasbt/LLMs-from-scratch:逐步从零实现类似ChatGPT的大型语言模型。
- 生成式AI入门 | SqillPlan:生成式AI入门课程,涵盖GAN、变分自编码器、自回归模型等架构及其应用、评估、伦理与挑战。
- udlbook/udlbook:西蒙·J·D·普林斯教授编写的《深度学习理解》。
- 书:深度学习理解:西蒙·J·D·普林斯所著书籍的草稿及配套Google Colab笔记本的在线平台。
- AWS与Google生成式AI学习资源列表:由Ankit Agarwal整理的LinkedIn帖子形式列表。
- 像ChatGPT或Bard这样的AI聊天机器人如何工作——图文解析 | 卫报
- [🔥🔥] 面向初学者的生成式AI:微软推出的12节入门课程。
- 生成式AI入门:Youssef Hosni在Medium上发表的一系列文章。
- Animated AI:关于神经网络的动画与教学视频。
- 深度学习AI——学习生成式AI基础知识,应用于实际场景:与AWS合作开发的课程,讲解生成式AI的工作原理及如何将其部署到实际应用中。
- Google Cloud Skills Boost——生成式AI入门:初级微学习课程,介绍Google工具,旨在解释什么是生成式AI、其用途以及它与传统机器学习方法的区别。
- Google Cloud Skills Boost:生成式AI学习路径:精选生成式AI内容,“从大型语言模型的基础知识到如何在Google Cloud上创建并部署生成式AI解决方案”。
- 工业设计中的AI:“新加坡国立大学的学生在一门学期课程中探索AI在设计领域的潜力,并分享他们的学习成果。该课程由新加坡国立大学工业设计系的Donn Koh指导。”
- 让我们用简·奥斯汀的作品向你展示GPT是如何工作的——纽约时报
- [🔥🔥🔥] ChatGPT提示工程:面向开发者的课程 — DeepLearning.AI:由Isa Fulford(OpenAI)和Andrew Ng(DeepLearning.AI)主讲的短期课程,提供提示工程的最佳实践。
- [🔥🔥🔥] DAIR.AI:推动人工智能研究、教育和技术的普及。
- 欢迎来到🤗深度强化学习课程:Hugging Face推出的深度强化学习课程。
- PromptHero的AI艺术生成速成课:收费(99美元)课程,专注于提示工程。
- 扩散模型与AI艺术的直观理解。#stablediffusionart #aiart #aiartwork #aiartcommunity
- Jay Alammar的图解Stable Diffusion:“温和地介绍Stable Diffusion的工作原理”。
- [🔥]johnowhitaker/tglcourse:生成式景观——一门关于生成式建模的课程(目前尚未完成)。
- 文字即图像 | BustBright——机器学习艺术:由Derrick Schultz主导的7周在线课程,于2022年10月24日开课。
- 深入理解Stable Diffusion.ipynb——Colaboratory——第1部分:由@johnowhitaker编写的笔记本,深入探讨Stable Diffusion的细节。
- 深入理解Stable Diffusion:文本反演.ipynb——Colaboratory——第2部分:@johnowhitaker继“深入理解Stable Diffusion”之后的续作,聚焦于文本反演。
- GitHub - johnowhitaker/aiaiart:AIAIART课程的内容与资源。
- labml.ai在Twitter上发布的Stable Diffusion实现/教程,附有并排注释
- 2023年实用深度学习编程课程——第二部分:继续讲解如何从头实现Stable Diffusion。
- 2022年实用深度学习编程课程——第一部分:“专为有一定编程经验、希望学习如何将深度学习和机器学习应用于实际问题的人设计的免费课程”,由Jeremy Howard主讲。
人机交互
- AI的用户体验:如何用AI赋能人类体验——设计工具星期二 - YouTube
- 设计背后:认识微软设计团队打造的Copilot
- [🔥🔥🔥] [2310.07127] 以人机交互为中心的人工智能生成式交互综述与分类:“对154篇论文进行了综述,从人类和生成式AI两个角度提供了关于人机生成式AI交互的全新分类与分析”。
- 人机交互指南 - 微软研究院:一套“适用于人机交互的18条通用设计指南”。
论文合集
- Paper Digest - ChatGPT:关于ChatGPT的最新论文
- dair-ai/ML-Papers-Explained:对机器学习关键概念的解释
- AI阅读清单 - Google Docs:由Jack Soslow (@JackSoslow)整理的阅读清单
- Aman's AI Journal • 论文列表:由Aman Chadha精选的一系列人工智能与机器学习领域的经典论文
- Casual GAN论文读书会:Casual GAN论文的社区知识库
- Casual GAN Papers:通俗易懂的热门AI论文摘要
- 图解VQGAN:关于VQGAN工作原理的图文详解
- CLIP:连接文本与图像:OpenAI对CLIP工作原理的说明
- VQGAN+CLIP——它是如何工作的?合成图像(“GAN艺术”)领域…… | 作者:Alexa Steinbrück | Medium
- The Methods Corpus | Papers With Code
- https://ieeexplore.ieee.org/abstract/document/9043519:关于使用生成对抗网络进行图像合成的最新综述
- 利用生成对抗网络(GANs)作为艺术家创作灵感的支持工具:Cláudio Carvalho在伯南布哥联邦大学信息中心完成的本科毕业论文
- GAN Lab:在浏览器中玩转生成对抗网络!
- [PDF] Music2Video:融合音频与文本自动生成音乐视频 | Semantic Scholar
- [PDF] 基于生成式深度学习的主动发散——综述与分类 | Semantic Scholar
- [PDF] 为艺术目的自动化生成式深度学习:挑战与机遇 | Semantic Scholar
在线工具与应用
- Lunroo:45+ 款社交媒体营销免费 AI 工具。利用 AI 节省日常任务时间。
- COUNT:面向中小企业的 AI 驱动会计工具
- Competitor Research:帮助企业追踪竞争对手的 AI 工具
- StartKit.AI:用于快速构建 AI 产品的模板库
- No-Code Scraper:无需代码的数据抓取工具——只需简单输入,即可无缝从任何网站提取数据。
- BacklinkGPT:AI 驱动的外链建设平台,帮助生成个性化外链邀约信息,加速外链获取。
- VocalReplica:为喜爱的音乐曲目提供 AI 驱动的人声与乐器分离功能
- LangMagic:通过母语内容学习语言。
- Persuva:Persuva 是一个由 AI 驱动的平台,可大规模创建具有说服力且转化率高的广告文案。
- Dittto.ai:借助基于顶级 SaaS 网站训练的 AI,优化您的宣传文案。
- SEOByAI:使用免费 AI SEO 工具,在 Google 上更快获得排名
- SinglebaseCloud:搭载向量数据库、文档数据库、身份验证等功能的 AI 驱动后端平台,助力加速应用开发。
- TrollyAI:以两倍速度创作专业级 SEO 文章
- WebscrapeAI:利用 AI 无需代码即可抓取任意网站数据
- Architecture Helper:几秒钟内分析任何建筑结构,并生成您自定义的风格方案。
- AI-Flow:轻松连接多个 AI 模型
- Code to Flow:可视化、分析并理解代码流程。借助 AI 将代码转化为交互式流程图,即时简化复杂逻辑。
- Recast Studio:AI 驱动的播客营销助手。
- Clipwing:一款将长视频切割成数十段短视频的工具。
- Tailor:每天为您量身定制由 AI 创作的播客和新闻简报
- ZZZ Code AI:免费的 AI 驱动网站,可解答任何编程问题或生成代码。
- Scribble Diffusion:利用 AI 将草图转化为精致图像
- Paint by Text:借助 AI,根据文字指令编辑您的照片。
- Scenario AI:AI 生成的游戏资源
- AnimalAI:定制 AI 生成的动物肖像(收益将捐赠给各类野生动物保护组织)
- starryai:AI 艺术生成应用——AI 艺术创作者
- ProsePainter:一款“用文字作画”的互动工具。它将可控的文字转图像技术融入传统的数字绘画界面。
- ProsePainter:图像 + 绘图界面 + CLIP! - YouTube
- Cocreator AI:创意计算机代理(目前在候补名单中)
- Runway ML:AI 视频制作套件
- Hotpot.ai - Hotpot.ai:一系列用于图像后处理的 AI 工具
- Justin Pinkney 的 Toonify Yourself:将人脸转化为卡通形象
- deepart.io:一款在线风格迁移工具
- Artbreeder:基于现有图像进行杂交生成新图像的网页工具
- Ostagram.ru:图像风格迁移平台
- cleanup.pictures:免费移除图片中的物体、人物、文字及瑕疵
- remove.bg:自动去除图片背景
- Quick, Draw!:神经网络能否学会识别涂鸦?一款通过用户绘图来帮助训练神经网络的游戏
- Nekton.ai:用 AI 自动化您的工作流
- Documind.chat:使用 AI 与 PDF 对话。Documind 是一款强大的 PDF 对话工具,允许您就 PDF 文档提出问题。
- Snowpixel:通过文本和/或图像生成图片/视频/动画/音频/音乐/3D 对象。上传您自己的数据以创建自定义模型。
- Chatpdf.so:使用 GPT4 AI 与 PDF 对话。Chatpdf.so 是一款 PDF 对话工具,可让您对 PDF 文档进行问答。
- Yona.ai:根据您自己的对话、故事和数据,创建高度个性化的 AI 聊天机器人。您可以利用聊天记录的力量,打造一位陪伴您重温回忆、畅想奇思妙想或其他独特用途的 AI 伙伴。
- Voicesphere:与您的文档对话,获取智能且上下文相关的答案。
- Tune AI:基于开源模型的 AI 聊天应用
- GPT Mobile:一款可在同一时间与多个大型语言模型对话的 Android 应用!目前支持 ChatGPT、Anthropic Claude 和 Google Gemini。
- PageGen:一款结合 Claude AI、React 和 Shadcn UI 的 AI 页面生成器。只需点击一下,即可根据文本、截图和模板生成网页。
- PerchanceStory:PerchanceStory 是一款基于 AI 的互动故事生成器,可根据用户提供的简单输入,生成不断变化的故事结局,拥有无限可能。
代码与编程
氛围编码
- filipecalegario/awesome-vibe-coding:精选的氛围编码参考资料列表,与 AI 合作编写代码。
- Andrej Karpathy 在 X 上:“有一种新型编码方式,我称之为‘氛围编码’,在这种方式下,你完全沉浸在代码的氛围中,拥抱指数级增长,甚至忘记代码的存在。”
- Codeium 的 Windsurf 编辑器:一种代理式 IDE,“开发者与 AI 的协作真正融为一体,带来宛如魔法般的编码体验”
- Bolt.new:提示、运行、编辑和部署全栈 Web 和移动应用。
- Lovable:“几秒钟内将想法变为应用。Lovable 就是您的超人级全栈工程师。”
- v0 by Vercel:用于构建 NextJS 前端的助手
- Cursor:AI 代码编辑器,“与 AI 一起编码的最佳方式”
- Replit:“只需在上方描述您的想法,让代理为您构建出来”
人工智能驱动的代码生成
- batchai:Copilot 和 Cursor 的补充工具——利用 AI 对项目代码进行批量处理
- Archie:AI 驱动的产品架构师,用于设计和规划软件应用
- DhiWise:DhiWise 是一个自动化编码任务的应用开发平台,让开发者专注于核心功能。
- 关于编码行为的新研究引发对 AI 对软件开发影响的质疑——GeekWire
- CostGPT:软件开发成本计算器:“利用 AI 的力量,为任何类型的软件、您想构建的工具找到成本、时间和最佳技术栈”
- codefuse-ai/Awesome-Code-LLM:一份精心整理的代码相关语言建模研究及数据集列表。
- tldraw/draw-a-ui:绘制原型并为其生成 HTML 代码
- deepseek-ai/DeepSeek-Coder:一款践行“让代码自我编写”理念的工具
- Cody:AI 编程助手
- Kombai:根据 Figma 中的组件生成 UI 代码
- geekan/MetaGPT:多智能体框架,只需提供一行需求,即可返回 PRD、设计、任务清单和代码仓库
- ZZZ Code AI:一款由 AI 提供支持的免费网站,可解答任何编程问题或生成代码。
- Rapidpages:使用 AI 创建 React 和 Tailwind 登陆页面
- ChatGPT 时代下的编程教学——O’Reilly
- GPT Web 应用生成器:根据标题、描述及其他简单参数生成 Web 应用
- wolfia-app/gpt-code-search:使用 AI 通过自然语言搜索代码库
- GenAI + Dev 收件箱专用文件:一份用于进一步分析和整理 GenAI + 开发相关参考资料的列表
- e2b-dev/e2b:“用于构建 AI 驱动的虚拟软件开发人员的开源平台”
- Metabob:生成式 AI 用于改进和自动化代码评审
- gventuri/pandas-ai:Pandas AI 是一个 Python 库,将 LLM 的能力集成到 Pandas 中,使 DataFrame 具备对话交互能力
- 代码大型语言模型的系统性评估:一篇 arXiv 论文
- pgosar/ChatGDB:“在 GDB 调试器中发挥 ChatGPT 的强大功能”
- AI 对开发者生产力的影响:来自 GitHub Copilot 的证据 | arXiv
- openai/openai-cookbook:使用 OpenAI API 的示例和指南
- 使用 GPT 时降低提示成本
- Co-Developer GPT 引擎:本地读写文件并执行 OpenAI GPT 指令
- Potpie:几分钟内为您的代码库部署开源 AI 代理。可使用预构建的问答、测试、调试和系统设计代理,也可创建自定义代理。
文本
从一切到 Markdown 再到 LLM
- bytedance/Dolphin:官方仓库,介绍“海豚:基于异构锚点提示的文档图像解析”,ACL 2025 年会议论文
- NuMind 的 NuExtract 2.0:“在信息提取方面超越前沿 LLM”
- unclecode/crawl4ai:🚀🤖 Crawl4AI:开源且适合 LLM 的网络爬虫和数据抓取工具
- LLMSTXT.NEW:利用 Firecrawl 将网站生成整合文本文件,用于 LLM 训练和推理
- Mistral OCR / Mistral AI:文档理解 API
- opendatalab/MinerU:一款高质量的工具,可将 PDF 转换为 Markdown 和 JSON 格式
- microsoft/markitdown:Python 工具,用于将文件和办公文档转换为 Markdown 格式
- docling-project/docling:为生成式 AI 准备文档
- Firecrawl:将网站转化为 LLM 可用的数据
- CatchTheTornado/text-extract-api:使用 OCR 和 Ollama 支持的模型提取和解析文档(PDF、Word、PPTX 等)。可匿名化文档、去除 PII,并将任何文档或图片转换为结构化 JSON 或 Markdown 格式
- R Jina:只需在搜索栏中输入网址,即可将网站转换为 Markdown
- Gitingest:将任何 Git 代码库转化为其代码基础的简洁文本摘要
- uithub:只需在搜索栏中输入 GitHub 仓库的 URL,即可将其转换为 Markdown
小型语言模型
- [2409.15790] 小型语言模型:综述、测量与见解
- [2402.17764] 1 位 LLM 时代:所有大型语言模型都压缩至 1.58 位
- mbzuai-oryx/MobiLlama:专为边缘设备优化的小型语言模型
大型语言模型 (LLMs)
- lunary-ai/abso: 一个 TypeScript SDK,可使用 OpenAI 格式轻松调用 100 多种大语言模型。
- oumi-ai/oumi: 开放的通用机器智能平台,开源且简化了基础模型的全生命周期流程——从数据准备、训练到评估与部署。
- [🔥] Transformer Explainer: 可视化解释大语言模型 Transformer 架构 YouTube 视频
- comet-ml/opik: 提供一套可观测性工具,用于评估、测试和部署大语言模型应用,帮助在开发和生产周期中校准语言模型输出。
- mendableai/firecrawl: 将整个网站转换为适合大语言模型的 Markdown 或结构化数据。只需一个 API 即可完成抓取、爬取和提取。
- QuivrHQ/MegaParse: 针对大语言模型输入优化的文件解析器,无任何信息丢失。以适合大语言模型的格式解析 PDF、Docx 和 PPTx 文件。
- LiteLLM: 一个代理服务器,用于管理 100 多种大语言模型的身份验证、负载均衡和费用跟踪,全部采用 OpenAI 格式。
- youssefHosni/Hands-On-LangChain-for-LLM-Applications-Development: 实用的大语言模型应用开发 LangChain 教程。
- unclecode/crawl4ai: Crawl4AI: 开源的、对大语言模型友好的网页爬虫和抓取工具。
- microsoft/LMOps: 用于通过大语言模型和多模态大语言模型实现 AI 能力的通用技术。
- F*** You, Show Me The Prompt:通过拦截 API 调用快速理解难以捉摸的大语言模型框架。
- danielmiessler/fabric:Fabric 是一个开源框架,旨在利用 AI 增强人类能力。它提供了一个模块化的框架,可通过众包的 AI 提示集解决特定问题,并可在任何地方使用。
- Langfuse:开源的大语言模型工程平台:可观测性、指标、评估、提示管理、游乐场、数据集等。与 LlamaIndex、Langchain、OpenAI SDK、LiteLLM 等集成。#opensource
- naklecha/llama3-from-scratch:逐次进行矩阵乘法实现 Llama3。
- [2405.03825] 组织语言模型社会:增强集体智能的结构与机制
- 大语言模型研究中的开放性挑战
- stanfordnlp/dspy:DSPy 是一个用于编程而非提示的基础模型框架。
- Groq:专注于快速推理速度的服务,提供对 Llama 2 70B-4K 和 Mixtral 8x7B-32K 的 API 访问。
- [🔥🔥🔥] LLMLingua:通过提示压缩设计大语言模型专用语言。
- Floom:面向开发者的 AI 网关与市场,支持将 AI 功能无缝集成到产品中。
- rasbt/LLMs-from-scratch:逐步从零开始实现类似 ChatGPT 的大语言模型。
- GoogleCloudPlatform/generative-ai:谷歌云上生成式 AI 的示例代码和笔记本。
- LLM 可视化
- 使用 SelfCheckGPT NLI 自动检测幻觉
- StreamingLLM 为语言模型提供无限上下文:让语言模型拥有无限上下文。
- iusztinpaul/hands-on-llms:通过设计、训练和部署一个实时金融顾问大语言模型系统,免费学习大语言模型、LLMOps 和向量数据库知识 ~ 包含源代码 + 视频及阅读材料。
- 使用 LoRA(低秩适应)微调大语言模型的实用技巧
- Poe:一个允许用户提问、获得即时回答并与各种 AI 驱动的机器人进行互动的平台。
- [2311.01555] 指令蒸馏使大型语言模型成为高效的零样本排序器
- [🔥🔥] 2023 年大语言模型应用现状 · Streamlit
- 当今大语言模型应用的架构 - GitHub 博客
- 揭秘大语言模型:它们如何做到未被训练过的事情 - GitHub 博客
- 像 ChatGPT 或 Bard 这样的 AI 聊天机器人是如何工作的——可视化讲解 | 英国卫报
- cpacker/MemGPT:教导大语言模型进行内存管理以实现无界上下文 [演示页面] [arXiv]
- [2307.10169] 大型语言模型的挑战与应用:系统性地总结了大语言模型领域的开放性问题及应用成果。
- 来自网络的相关资源 | OpenAI 烹饪书:用于改进 GPT 输出的工具和论文。
- [🔥🔥🔥] 构建基于大语言模型的系统与产品的模式:由 Eugene Yan 编写的“将大型语言模型 (LLMs) 集成到系统与产品中的实用模式”。
- Hannibal046/Awesome-LLM: Awesome-LLM:精选的大型语言模型列表。
- [2309.06794] 认知幻象:大型语言模型中的幻觉综述
- 战略与创新中的生成式 AI:哈佛商业评论意大利版关于使用 ChatGPT 探讨管理理论的实验。
- TextFX 项目:“为说唱歌手、作家和文字工作者提供的 AI 驱动工具”(Lupe Fiasco 与 Google 的合作项目)。
- 无术语解释 AI 大型语言模型的工作原理 | Ars Technica
- [🔥🔥🔥] 我们对大语言模型的了解(入门指南)
- Llama 2 微调简易指南 | Brev 文档
- microsoft/semantic-kernel:帮助您快速简便地将前沿的大语言模型技术集成到应用程序中。
- CoPrompt:团队协作使用 ChatGPT 的平台。
- [🔥🔥🔥] 大语言模型应用的新兴架构 | Andreessen Horowitz:“新兴大语言模型应用栈的参考架构”。
- ChatGPT 高级指南:由 Neatprompts.com 编写的指南。
- Falcon LLM - 主页:阿布扎比技术创新研究所发布的一款具有 400 亿参数、基于 1 万亿标记训练的基础大型语言模型。
- [🔥🔥🔥] Hugging Face 开放式大语言模型排行榜:“🤗 开放式大语言模型排行榜旨在跟踪、排名和评估新发布的大语言模型和聊天机器人。”
- google/BIG-bench:“一种旨在探测大型语言模型并推断其未来能力的合作基准测试。”
- togethercomputer/OpenChatKit:提供开源基础,可用于创建针对不同应用场景的专用或通用聊天机器人。
- Paper Digest - ChatGPT:近期关于 ChatGPT 的论文。
- 让我们用简·奥斯汀来展示 GPT 是如何工作的——纽约时报
- 链中搜索:迈向准确、可信且可追溯的大语言模型,用于知识密集型任务 | arXiv:“一种名为‘链中搜索’(SearChain)的新框架,旨在提高大语言模型生成内容在多跳问答中的准确性、可信度和可追溯性。”
- [🔥🔥🔥] Mooler0410/LLMsPracticalGuide:基于论文《实践中的大语言模型力量:对 ChatGPT 及其之后的调查》(https://arxiv.org/abs/2304.13712)整理的大语言模型实用指南资源列表。
- hpcaitech/ColossalAI:致力于使大型 AI 模型更便宜、更快、更易访问。
- microsoft/LoRA:loralib 的代码,实现了“LoRA:大型语言模型的低秩适应”。
- kyrolabs/awesome-langchain:😎 关于优秀 LangChain 框架的工具和项目的精彩列表。
- Stability AI 发布首个 StableLM 系列语言模型 — Stability AI
- 免费 Dolly | Databricks 博客:一款开源、遵循指令的大语言模型,基于人类生成的指令数据集进行微调,该数据集获授权用于研究和商业用途。
- ChatGPT/GPT-4 研究总结及对大型语言模型未来的展望:一篇“全面回顾 ChatGPT 和 GPT-4 及其在不同领域中的潜在应用”的论文。
- lm-sys/FastChat:“Vicuna:一款媲美 GPT-4 的开源聊天机器人”的发布仓库 [演示]
- [🔥🔥🔥] oobabooga/text-generation-webui:一个 Gradio Web UI,用于运行 GPT-J 6B、OPT、GALACTICA、LLaMA 和 Pygmalion 等大型语言模型。
- 为什么 LLaMa 如此重要 | Hackaday:一篇文章讨论了 LLaMa 和 Alpaca 在普及大语言模型以及将其应用于小型硬件设备方面的影响。
- logspace-ai/langflow:LangChain 的 UI,采用 react-flow 设计,提供了一种轻松试验和原型化流程的方式。
- 超出你所要求的范围:针对应用集成型大语言模型的新型提示注入威胁综合分析:一篇关于大语言模型安全性的论文。
- Cohere AI:一种将最先进的语言模型集成到应用程序中的方式。
- Langchain 用于论文摘要:使用 Langchain 构建论文摘要应用。
- 大型语言模型的红队测试 | Hugging Faces:针对大语言模型抵御越狱和攻击的策略。
- hwchase17/langchain:“通过组合性构建基于大语言模型的应用程序”。
- 2023 年顶级大型语言模型 (LLMs) | MarkTechPost:一份包含来自不同公司的大型语言模型列表。
- Godly:为 GPT3 提供即时上下文。
- GPTZero:“准确检测 AI 剽窃行为”。
- GPT-3 应用:基于 GPT-3 的微型产品(如猫咪命名器、口袋诗人、摘要生成器等)。
- 语言模型内部(从 GPT-3 到 PaLM)——艾伦·D·汤普森博士——生命架构师
- 谷歌 AI 博客:Pathways 语言模型 (PaLM):扩展至 5400 亿参数以实现突破性性能
- DeepMind 表示其新款语言模型能击败自身规模 25 倍的对手 | MIT 技术评论
- 集成 AI:如何通过九个平台(Megatron、GPT-3、GPT-J、Wudao、J1..)免费与 AI 对话——YouTube:由艾伦·D·汤普森博士分享。以下参考资料均源自该视频描述。
- Haystack:用于构建基于大语言模型和 Transformer 的应用的框架(例如智能体、语义搜索、问答系统)。
- SolidUI:AI 生成的可视化原型设计与编辑平台,支持 2D、3D 模型,并结合大语言模型进行快速编辑。
模型上下文协议
- 介绍模型上下文协议 \ Anthropic
- 一种开放标准,使开发者能够在他们的数据源与人工智能驱动的工具之间建立安全的双向连接。
- 开发者可以选择通过 MCP 服务器公开其数据,或构建连接到这些服务器的人工智能应用(MCP 客户端)。
- 模型上下文协议: 模型上下文协议 (MCP) 是一种开放协议,可实现大型语言模型应用与外部数据源和工具之间的无缝集成。
- 简介 - 模型上下文协议
- 可以把 MCP 看作是人工智能应用的 USB-C 接口。
- MCP 帮助你在大型语言模型的基础上构建智能体和复杂的工作流。
- 示例
- 示例服务器 - 模型上下文协议
- abhiz123/todoist-mcp-server: 用于 Todoist 集成的 MCP 服务器,支持使用 Claude 进行自然语言任务管理。
- 服务器列表
- modelcontextprotocol/servers: 模型上下文协议服务器
- Awesome MCP Servers
- punkpeye/awesome-mcp-servers: 一个 MCP 服务器的集合。
- Composio MCP 服务器: 将 Cursor、Windsurf 和 Claude 连接到 100 多个完全托管的 MCP 服务器,内置身份验证功能。
- 这些服务器由社区构建,并由 Composio 托管。
- 示例客户端 - 模型上下文协议
- 使用大型语言模型构建 MCP - 模型上下文协议
- 通过 MCP 将 Supabase 添加到 Cursor
- 使用模型上下文协议构建智能体 - Anthropic 的 Mahesh Murag 主持的完整研讨会 - YouTube: AI 工程师峰会研讨会。
- loopwork-ai/emcee: 一款为任何具有 OpenAPI 规范的 Web 应用程序提供模型上下文协议 (MCP) 服务器的工具。
- MCP Run: 一个任何人都可以开发并在任何人工智能应用程序中使用的 AI 工具注册表。
- modelcontextprotocol/inspector: MCP 服务器的可视化测试工具。
面向大型语言模型的编程框架
- DSPy:不只是普通的提示工程:一篇关于 DSPy 的文章,该框架由斯坦福 NLP 小组开发,旨在以算法方式优化语言模型的提示。
- [🔥🔥🔥] stanfordnlp/dspy: DSPy:用于编程——而非提示——基础模型的框架。
提示工程
- Narrow AI:自动化提示工程与优化平台。
- Anthropic 的提示工程交互式教程。
- ncwilson78/System-Prompt-Library:一个共享系统提示库,用于创建定制化的教育类 GPT 智能体。
- Promptstacks:一个提示工程社区。
- 提示工程 - OpenAI API:OpenAI 提供的文档,包含从大型语言模型中获得更好结果的策略和技巧。
- [2310.04438] 提示简史:利用语言模型:该论文探讨了提示工程的发展历程。作者 Golam Md Muktadir 广泛使用 ChatGPT 来生成内容。
- [2311.05661] 为提示工程师进行提示工程:本文探讨了“构建一种元提示,更有效地引导大型语言模型自动进行提示工程”的问题。
- [2311.04155] 黑盒提示优化:无需训练模型即可对齐大型语言模型。
- [🔥🔥] 提示工程路线图 - roadmap.sh。
- [🔥🔥🔥] 学习提示工程:一系列提示工程课程。
- [🔥🔥🔥] 提示工程 | Lil'Log:Lilian Weng 的提示工程学习笔记。
- [🔥🔥🔥] 面向开发者的 ChatGPT 提示工程 - DeepLearning.AI:由 Isa Fulford(OpenAI)和 Andrew Ng(DeepLearning.AI)教授的短期课程,提供提示工程的最佳实践。
- [🔥🔥🔥] 提示工程指南:DAIR.AI 发起的一个项目,旨在教育研究人员和从业者有关提示工程的知识。
- 这本书:提示和提示工程技巧的合集。
- dair-ai/Prompt-Engineering-Guide:提示工程指南及资源。
提示优化器
- zou-group/textgrad:通过文本实现自动“微分”,利用大型语言模型反向传播文本梯度。
- [🔥🔥🔥] stanfordnlp/dspy:DSPy:用于编程——而非提示——基础模型的框架。
- vaibkumr/prompt-optimizer:最小化 LLM 的标记复杂度,以节省 API 费用和模型计算成本。
- PromptPerfect:“将您的提示优化至完美”。
- [🔥🔥🔥] LLMLingua:通过 提示压缩 为大型语言模型设计语言。
文本到文本的提示工程
- danielmiessler/fabric:Fabric 是一个利用 AI 增强人类能力的开源框架。它提供了一个模块化的框架,用于通过可随处使用的众包 AI 提示词集来解决特定问题。
- ChatGPT for designers:ChatGPT 备忘单 V2,帮助你编写更优质的提示词。
- [🔥] [2307.11760] 大型语言模型能够理解情绪刺激,并可通过情绪刺激加以增强
- [🔥] [2305.13252] “根据……”式的提示能提升语言模型从预训练数据中引用内容的能力
- [🔥] [2307.05300] 释放大型语言模型中的认知协同效应:通过多角色自我协作的任务解决代理
- timqian/openprompt.co:创建、使用、分享 ChatGPT 提示词。
- 60 个数据科学领域的 ChatGPT 提示词(亲测有效并评分):DataDrivenInvestor 的 Travis Tang 所撰文章。
- f/awesome-chatgpt-prompts:该仓库收录了精选的 ChatGPT 提示词,帮助用户更好地使用 ChatGPT。
- brexhq/prompt-engineering:“与 OpenAI 的 GPT-4 等大型语言模型合作的技巧与窍门”。
- 如何编写有效的 GPT-3 提示词 | Zapier:一份包含 6 条 GPT-3 使用技巧的清单,帮助用户获得期望的输出。
- ChatGPT 提示词的艺术:撰写清晰高效提示词指南:Fatih Kadir Akın(@fkadev)编写的电子书。
文本到图像的提示工程
- USP AI 提示词手册:Stable Diffusion v2.1 提示词手册
- daspartho/prompt-extend:使用文本生成技术,通过合适的风格提示扩展 Stable Diffusion 的提示词
- Prompt Box:“整理并保存你的 AI 提示词”
- Midjourney 艺术家参考 - Google 表格
- Stable Diffusion 提示词手册 — Stability.Ai:由 Stability.AI 发布的 Stable Diffusion v2.0 和 v2.1 提示词手册
- PromptHero 的终极 Stable Diffusion 提示词指南
- CLIP Interrogator - pharma 的 Hugging Face Space:一款图像转文本工具,用于找出能够生成类似现有图像的新图像的好提示词
- [🔥🔥🔥] 数据爱好者 II 提示词手册 - Google Slides:一项关于文本到图像和数据可视化的开源探索
- some9000/StylePile:AUTOMATIC1111/stable-diffusion-webui 的辅助脚本。基本上是一种混搭方式,可以快速获得不同的结果,而无需花费大量时间编写提示词。
- 值得研究的艺术家 | 所有图像均由 Google Colab TPU + CompVis/stable-diffusion-v1-4 + Huggingface Diffusers 生成:由 @camenduru 进行的艺术家风格系统性研究
- 基于 Laion5B 的 CLIP 检索:“它通过将文本查询转换为 CLIP 嵌入,然后使用该嵌入查询 CLIP 图像嵌入的 k-近邻索引。”
- rom1504/clip-retrieval:轻松计算 CLIP 嵌入,并用它们构建 CLIP 检索系统
- PromptDesign | Reddit:一个关于“与自然语言模型沟通的艺术”的 Reddit 社区
- 提示工程与零样本/少样本学习【指南】- inovex GmbH:用于文本生成的提示工程
- clip-interrogator.ipynb - Colaboratory:一款图像转提示词的工具
- 有用的提示工程工具和资源 | Reddit
- PromptHero:搜索适用于 Stable Diffusion、DALL-E 和 Midjourney 的最佳提示词
- promptoMANIA:拥有提示词生成器的 AI 艺术社区
- Lexica:搜索超过 1000 万张 Stable Diffusion 图像及提示词
- SD v1.4 A-C / D-I / J-N / O-Z 艺术家列表
- succinctly/text2image-prompt-generator · Hugging Face:基于 succinctly/midjourney-prompts 数据集微调的 GPT-2 模型,该数据集包含用户在一个月内向 Midjourney 文本到图像服务发出的 25 万个文本提示词
- The Prompter | vicc | Substack:一份关于提示工程相关新闻、技巧和思考的通讯
- (19) Nikhil Agrawal 📌 在 Twitter 上:11 个 AI 图像提示词网站,可提升图像质量
- Phraser:一款支持提示词创建的工具
- PromptBase | 提示词市场:PromptBase 是 DALL·E、Midjourney 和 GPT-3 提示词的市场平台,人们可以在这里出售提示词,凭借自己的提示词创作技能赚钱。
- 专业的 AI 提示词专家推出了 DALL·E 提示词市场 - The Verge
- 视觉提示词构建器:一套简单的插图卡片,用于组合修饰符以构建提示词
- 提示工程模板 - Google 表格:包含提示词构建修饰符列表以及大量有趣参考资料的电子表格
- 提示工程:从文字到艺术 - Saxifrage 博客
- DALL·Ery GALL·Ery 资源:DALL·E 2 和 AI 艺术的提示词资源与工具,旨在激发创作美丽图像的灵感
- [2204.13988] 文本到图像生成的提示词修饰符分类
- 美学列表 | 美学维基 | Fandom
- 艺术家目录(火山比较)| AI 艺术创作维基 | Fandom
- DALL·E 2 提示词手册 – DALL·Ery GALL·Ery
- DALL·Ery GALL·Ery:OpenAI 的 DALL·E 指南——提示词、项目、示例和技巧
- (2) 大量 💥 DALL·E 2 动漫 ⚡︎ 关键词 + 修饰符 列表 ★ :haaaaven:由 haaaaven 收集的图像提示词修饰符集合
- DrawBench:Google Imagen 作为基准测试而整理的一系列提示词列表
- 面向生成艺术的 CLIP 提示工程 - matthewmcateer.me:使用 Quick CLIP Guided Diffusion 测试的各种风格列表
- Adobe 应该为提示工程师打造一款无聊的应用程序(Interconnected)
- [2206.00169] 探索 DALLE-2 的隐藏词汇
- 当 SD 无论如何都无法理解我的提示词时 | Reddit
- 有些提示词的输出非常明确,而另一些特定的提示词却并非如此,这真的很有趣 | Reddit
Mamba
- [2312.00752] Mamba:基于选择性状态空间的线性时间序列建模:一种替代Transformer架构的方法。
- Mamba:浅析LLM的新架构 | 作者:Geronimo (@geronimo7) | 2023年12月 | Medium
- Mamba-Chat:基于状态空间模型架构的聊天LLM。
在本地运行LLM
- llama.cpp指南:从零开始,在任何硬件上本地运行LLM。
- PowerInfer:用于在本地部署LLM的高速推理引擎。
- [🔥🔥] Ollama:在本地运行Llama 2、Code Llama等模型。
- GPT4All:一款免费使用、本地运行且注重隐私的聊天机器人,无需GPU或互联网连接。
- LM Studio:发现、下载并运行本地LLM。
- ggerganov/llama.cpp:Facebook的LLaMA模型的C/C++移植版本。
函数调用
- Nexusflow/NexusRaven-V2-13B · Hugging Face:“在零样本函数调用任务中超越GPT-4”。
GPTs与Assistant API
检索增强生成(RAG)
- RAG中的幻觉检测方法基准测试 | Towards Data Science
- bRAGAI/bRAG-langchain:构建自己的RAG应用所需的一切知识。
- ragapp/ragapp:企业中使用代理式RAG的另一种方案。
- LlamaParse:由LlamaIndex推出的原生GenAI文档解析平台。
- 面向大型语言模型的检索增强生成:综述
- weaviate/Verba:由Weaviate驱动的检索增强生成(RAG)聊天机器人。
- imartinez/privateGPT:“以GPT的强大能力与您的文档互动,100%私密,无数据泄露”。
- pinecone-io/canopy:由Pinecone支持的检索增强生成(RAG)框架和上下文引擎。
- 忘掉RAG吧,未来是RAG融合:Adrian H. Raudaschl在Towards Data Science上发表的文章。
- 重排序器与两阶段检索 | Pinecone
- 检索增强生成 | Pinecone
- dssjon/biblos: biblos.app:利用语义搜索和摘要技术检索圣经经文的RAG架构示例。
嵌入与语义搜索
- 🪆 马特里奥什卡嵌入模型简介
- Amelia Wattenberger关于嵌入的创意应用
- 嵌入的隐秘生活:Linus Lee - YouTube
- neuml/txtai:由语言模型驱动的语义搜索与工作流。
- facebookresearch/faiss:用于高效相似度搜索和稠密向量聚类的库。
- 使用GPT-3优化聊天机器人的对话智能 | 作者:Amogh Agastya | Better Programming:介绍语义搜索概念的教程。
- [🔥] whitead/paper-qa:“用于回答带有引用的文档问题的LLM链”,演示。
- 什么是语义搜索?
- 学习中心 | Pinecone:Pinecone提供的向量嵌入指南。
- BLIP+CLIP | CLIP询问器 | Kaggle:一个用于图像描述和标题生成的Kaggle笔记本(图像到文本)。
- jerryjliu/gpt_index: GPT Index (LlamaIndex):一个旨在简化LLM使用大型外部知识库的项目。
- Llama Hub:LlamaIndex(GPT Index)和LangChain的数据加载器仓库。
- Chroma:一个开源的原生AI数据库,使嵌入的使用更加便捷。
自主LLM智能体
- [🔥] Anthropic:构建高效智能体:本文介绍了与智能体相关的基本概念,并以教学方式展示了智能体架构。
- LLM智能体完全指南(2025):对LLM智能体相关术语的总结。
- pydantic/pydantic-ai:一个用于将Pydantic与LLM结合使用的智能体框架/桥接工具。
- NirDiamant/GenAI_Agents:涵盖从基础到高级的各种生成式AI智能体技术的教程与实现,是构建智能、交互式AI系统的全面指南。
- Hexabot:一款开源AI聊天机器人/智能体构建工具,支持LLM并可集成社交媒体渠道。
- NirDiamant/GenAI_Agents:涵盖从基础到高级的各种生成式AI智能体技术的教程与实现,是构建智能、交互式AI系统的全面指南。
- TailorTask:无需代码、无需学习新工具,即可自动完成任何繁琐任务。
- [2406.04784] SelfGoal:你的语言模型智能体已经知道如何实现高层次目标
- [2406.04692] 智能体混合增强大型语言模型能力
- MervinPraison/PraisonAI:PraisonAI应用将AutoGen和CrewAI等框架整合为低代码解决方案,用于构建和管理多智能体LLM系统,专注于简洁性、可定制性和高效的人机协作。
- 治理智能体AI系统的实践:OpenAI发布的一篇论文,提供了一系列确保智能体操作安全且可问责的实践方法。
- [2312.05230] 语言模型、智能体模型与世界模型:机器推理与规划的LAW框架
- [2309.02427] 语言智能体的认知架构:“我们借鉴认知科学和符号人工智能的丰富历史,提出语言智能体的认知架构(CoALA)”。
- [2309.07864] 基于大型语言模型的智能体的兴起与潜力:综述
- [2310.01444] 通过沟通调整LLM智能体
- [2309.17288] AutoAgents:自动智能体生成框架
- 探索多角色提示以获得更好输出:“一种提示工程方法,指示LLM调用多个角色,并让它们协同工作以解决任务”。
- 自主认知实体的概念框架:一篇论文,提出了“自主认知实体(ACE)模型”,这是一种新颖的认知架构框架,使机器和软件智能体能够更独立地运行。
- 基于自然语言的心灵社会中的思维风暴:一篇评估基于自然语言的心灵社会(NLSOMs)的论文,利用其中的思维风暴来解决一些实际的AI任务。
- AutoGen | 微软:微软提供的多智能体对话框架,作为高层抽象[github]
- OpenBMB/ChatDev:使用自然语言构思(通过LLM驱动的多智能体协作)创建定制化软件。
- a16z-infra/ai-town:一款MIT许可的可部署入门套件,用于构建和定制你自己的AI小镇——一个AI角色生活、聊天和社交的虚拟城镇。
- AI Town:一个AI角色生活、聊天和社交的虚拟城镇。
- joonspk-research/generative_agents - 生成式智能体:用于模拟人类行为的交互式仿真程序代码[arxiv]
- AgentBench:评估LLM作为智能体:Hugging Face关于评估LLM智能体基准测试的页面。
- geekan/MetaGPT:一个多智能体框架,只需输入一行需求,即可生成PRD、设计、任务列表和代码仓库。
- GPT Researcher:用于洞察与研究的AI智能体。
- Jim Fan在Twitter上发布的多智能体仿真:“涌现智能的下一个前沿将是多智能体仿真:一群AI角色通过复杂的社会互动过着日常生活。”
- 介绍AACP | SuperAGI:一种智能体间通信协议。
- BrainstormGPT:AI多智能体问题解决平台。
- ChatArena:为LLM构建多智能体环境。
- [🔥🔥🔥] LLM驱动的自主智能体 | Lil'Log:Lilian Weng关于LLM智能体的学习笔记。
- Vercel for AI agents:“帮助开发者构建、部署和监控AI智能体,重点关注为你构建软件的专用AI智能体——你的私人软件开发人员。”
- 101dotxyz/GPTeam:“GPTeam利用GPT-4创建多个智能体,协同实现预设目标。”
- Fine-Tuner.ai:无需代码即可构建AI智能体的方法。
- AI智能体基础:让我们逐步思考——Jon Stokes著
- [🔥🔥] Transformers Agent:在Hugging Face的Transformers库之上提供自然语言API。
- AgentGPT:“在浏览器中组装、配置并部署自主AI智能体”。
- yoheinakajima/babyagi:一个由AI驱动的任务管理系统,利用OpenAI和Pinecone API创建、优先排序并执行任务。
- Torantulino/Auto-GPT:“一项实验性的开源尝试,旨在使GPT-4完全自主运行”。
- 生成式智能体:人类行为的交互式仿真:一篇论文,介绍能够模拟可信人类行为的计算软件智能体。
- microsoft/JARVIS:JARVIS是一个将LLM与机器学习社区连接起来的系统。
- HuggingGPT:利用ChatGPT及其在Hugging Face中的伙伴解决AI任务。
多智能体
- [2411.00114] 项目Sid:迈向AI文明的多智能体模拟
- joonspk-research/generative_agents:实现论文《生成式智能体:人类行为的交互式仿真》
- 1,000人的生成式智能体模拟 | arXiv [GitHub:joonspk-research/genagents]
- microsoft/TinyTroupe:由大语言模型驱动的多智能体角色扮演模拟,用于提升想象力与商业洞察力
- 多智能体研究概览:一本交互式电子书,汇集了大量基于大语言模型(LLM)的多智能体系统研究论文
- openai/swarm:教育性框架,探索符合人体工学、轻量级的多智能体编排。由OpenAI解决方案团队维护。
- [2307.05300] 在大型语言模型中释放认知协同效应:通过多角色自我协作的任务解决智能体
- [2308.07201] ChatEval:通过多智能体辩论打造更优秀的基于LLM的评估工具
- OpenBMB/ChatDev:利用自然语言构思,通过大语言模型驱动的多智能体协作来创建定制化软件
- [2308.10848] AgentVerse:促进多智能体协作并探索涌现行为
- BrainSoup:具备RAG、多模态、自动化、代码解释器和沙箱文件系统功能的多智能体&多LLM客户端
LLM评估
- Cleanlab 可信语言模型:为任何 LLM 响应打分其可信度
- PAIR-code/llm-comparator:LLM 比较器是由 PAIR 团队开发的一款交互式数据可视化工具,用于并排评估和分析 LLM 的响应。
- confident-ai/deepeval:LLM 评估框架
- LLM 基准测试:MMLU、HellaSwag、BBH 及其之外——Confident AI
- LLM 排行榜
- Reward Bench 排行榜——由 allenai 提供的 Hugging Face 空间
- LiveBench:一个具有挑战性且无污染的 LLM 基准测试
- 评估大型语言模型:方法、最佳实践与工具 | Lakera——保护那些颠覆世界的 AI 团队
- ianarawjo/ChainForge:一个开源的可视化编程环境,用于对 LLM 的提示进行实战测试。
- Prometheus-2 食谱——LlamaIndex:“一个专门用于评估其他语言模型的开源语言模型。”
- [2305.13711] LLM-Eval:面向大型语言模型的开放域对话的统一多维自动评估
- LLM 评估:由微软研究院及其他合作机构开展的 LLM 评估研究。(更新于:2023年10月)
- LLM 评估:运行和基准测试评估所需的一切
- LLM 产品评估终极指南
- 如何评估、比较和优化 LLM 系统
- LLM 评估 | Clarifai 指南
- 如何评估 LLM 应用程序:完整指南——Confident AI
- AI 评估指标 | Microsoft Learn
- 如何评估大型语言模型的输出:当前最佳实践——FinetuneDB
- LLM 评估终极指南——Deci
- 2024 年大型语言模型评估:5 种方法
- 与人类判断对齐:成对偏好在大型语言模型评估者中的作用
- 使用 MT-Bench 和 Chatbot Arena 对 LLM 进行“法官式”评估
- LLM 评估指标:LLM 评估所需的一切——Confident AI
- 标准评估 | 🦜️🔗 LangChain
- LLM 评估——第 1 部分
- LLM 评估——第 2 部分
- 模型评估在 LLM 和 AI 集成中的关键作用
- MLGroupJLU/LLM-eval-survey:关于“大型语言模型评估综述”论文的官方 GitHub 页面
- 大型语言模型评估综述 | ACM 智能系统与技术汇刊
- [2307.03109] 大型语言模型评估综述
- qcri/LLMeBench:大型语言模型基准测试
- TruLens for LLMs:评估和跟踪 LLM 应用程序
- LLM 测试指南:Kolena 提供的全面测试和行为分析策略
- Chatbot Arena:通过成对对抗和评估来基准测试 LLM
- [2311.12022] GPQA:一项研究生级别的防谷歌问答基准测试
- OpenAI 食谱:评估 RAG 系统 | 作者:Ravi Theja | 2023 年 11 月 | LlamaIndex 博客
- 亚马逊将提供人工基准测试团队来测试 AI 模型——The Verge
- [2311.05020] 先有悲剧,后有解析:大型语言模型新时代的历史重演:“基于实际使用情况的有效评估仍然是一个未解的问题”
- [2311.12983] GAIA:通用 AI 助手的基准测试
- 分享 LangSmith 基准测试
- [2311.09247] 比较人类、GPT-4 和 GPT-4V 在抽象与推理任务上的表现
- vectara/hallucination-leaderboard:“比较 LLM 在总结短文档时产生幻觉性能的排行榜”
- [2305.16938] 少样本微调 vs. 上下文学习:公平的比较与评估
- LLM 比较/测试:共测试了 39 个模型(7B–70B + ChatGPT/GPT-4)
- 大规模 LLM 评估——Airtrain:一款用于 LLM 评估和调优工作的无代码批量计算平台
- 如何评估摘要任务 | OpenAI 食谱
- openai/evals:Evals 是一个用于评估 LLM 和 LLM 系统的框架,同时也是基准测试的开源注册表。
- 红队演练与模型评估 | Anthropic
- 评估 AI 系统的挑战 | Anthropic
- 评估 LLM 就像走在雷区上:普林斯顿大学教授 Arvind Narayanan 的演讲
- Indico LLM 排行榜:Indico Data 每月都会对不同提供商(LLama、Azure OpenAI、Google、AWS Bedrock,以及 Indico 训练的判别型标准语言模型 RoBERTa 和 DeBERTa)、数据集(如 cord 和 CUAD)和能力(文本分类、关键信息提取和生成式摘要)进行基准测试。
- LLM 排名:一个针对所有提示比较 LLM 的排行榜
- LLM 使用场景排行榜:一个展示 LLM 使用场景的排行榜
- LMExamQA:一个以“语言模型即考官”为基础对基础模型进行基准测试的排行榜
- The Pile:The Pile 基准测试的排行榜。
LLMOps
- Lunary:开源的LLM聊天机器人和智能体平台,提供可观测性、提示词管理、测试等功能。
- Eden AI:提供连接到AI引擎的独特API。
- Dify:基于GPT-4构建和运营原生AI应用的LLMOps平台。
- LLM App:LLM App是一个Python库,只需几行代码即可帮助你构建实时的AI驱动数据管道。
AI工程
- 一位AI工程师的机器学习与生成式AI指南 | 作者:ai geek (wishesh) | 2023年10月 | Medium
- Keywords AI:用于构建、监控和优化AI应用的企业级软件。Keywords AI是面向开发者和产品经理的全栈LLM工程平台。
- Marvin:用于构建自然语言界面的AI工程框架。
- Instructor:一个用于在Python中进行结构化LLM提取的库。
- One AI:一个NLP即服务平台。
- LangSmith:用于部署LLM应用的开发者平台。
对LLM的攻击
- 宪法分类器:防御跨越数千小时红队演练的通用越狱攻击。
- briland/LLM-security-and-privacy:关于LLM安全与隐私的资源。
- ZombAIs:从提示注入到C2控制——利用Claude Computer Use实现。
- [2310.04451] AutoDAN:在对齐的大语言模型上生成隐蔽的越狱提示
- MITRE ATLAS™:基于真实世界攻击观察及AI红队和安全团队的模拟演示所构建的对手战术与技术知识库,其模式参考了MITRE ATT&CK®框架。
- OWASP大型语言模型应用十大风险:开放全球应用安全项目针对LLM的相关列表[YouTube视频]
- 从(生产环境)语言模型中可扩展地提取训练数据:从ChatGPT中提取训练数据[网页]
- 大型语言模型(LLMs)的新兴攻击:“威胁行为者可以利用的关键攻击向量,以破坏或操纵LLMs”。
- LLMs的对抗性攻击 | Lil'Log
- 并非你所期望的:通过间接提示注入攻陷现实世界的LLM集成应用
- 攻击大型语言模型:Marcello Carboni对当前LLM攻击技术的概述。
- corca-ai/awesome-llm-security:关于LLM安全的优秀工具、文档和项目的精选合集。
- 对抗性提示:由Prompt Engineering Guide整理的对抗性提示攻击列表。
LangChain
- LangChain速查表:一页尽览所有秘籍 | 作者:Ivan Reznikov | 2023年11月 | Towards AI
- LangChain模板:研究助理
- Embedchain:可在你的数据集上创建类似ChatGPT的聊天机器人框架。
- FlowiseAI:“开源的UI可视化工具,使用LangchainJS构建自定义LLM流程,基于Node Typescript/Javascript开发”。
- LangChain用于论文摘要
- LangChain文档:一个通过组合性帮助构建LLM应用的Python库。
- LangChain入门指南 | 作者:Avra | 2023年2月 | Medium:一款强大的大型语言模型工作工具。
ChatGPT
- ChatGPT高级指南:由Neatprompts.com提供的指南。
- [🔥] 104个增长黑客妙招(ChatGPT):一套用于设计、产品和营销的ChatGPT提示词集合。
- acheong08的列表 / Awesome ChatGPT:包含用于在Discord、Telegram等平台以及Python、JS等语言中访问ChatGPT的封装库列表。
- [🔥🔥🔥] Awesome ChatGPT提示:一个收录了精选ChatGPT提示的仓库,旨在帮助用户从ChatGPT获得更好的结果。
- ("公开宣布的ChatGPT变体及竞争对手:一条推文" / Twitter:由@goodside发布的关于ChatGPT替代方案的推文串列。
文本相关生成工具
- danielmiessler/fabric: fabric 是一个开源框架,旨在利用 AI 增强人类能力。它提供了一个模块化的框架,用于通过众包的 AI 提示集来解决特定问题,这些提示可以在任何地方使用。
- Jack AI: AI 营销文案撰写工具
- aiPDF: 最先进的 AI 文档助手
- AICamp: 面向团队的 ChatGPT
- Yomu: 面向学生和学者的 AI 写作助手
- Google Sheets 公式生成器: 再也不用为 Google Sheets 中复杂的公式头疼了。
- Elephas: 适用于 Mac 的个人 AI 写作助手。
- Lemmy: 自主工作的 AI 助理。
- Fable Fiesta: 创意 AI 写作助手
- Plus AI for Google Slides: 在 Google Slides 中创建由 AI 驱动的演示文稿
- ChatBotKit: 构建 AI 聊天机器人的工具包
- Boring Report: “一款利用 AI 消除新闻中的耸人听闻、让阅读变得无趣的应用”
- ChatPDF - 与任意 PDF 对话!: 上传 PDF 文件并对其提问 #语义搜索
- Character.AI: 用于创建和对话先进 AI 角色的平台
- SlidesAI: “几分钟内用 AI 创建演示文稿幻灯片”
- Rationale: 基于最新 GPT 和上下文学习的决策工具
- DetangleAI: 根据提供的法律文件生成的 AI 摘要
- GPT-2 输出检测器: 用于判断给定文本是真实内容还是由 GPT 生成的工具
- HyperWrite: 一款带有建议和句子补全功能的个人写作助手
- DeepStory: 人机共创的故事
- InferKit
- CopyHat
- Lucid Lyrics - AI 辅助艺术: Walter Arnold 的 AI 辅助歌词解读
- Authors A.I.: 基于 AI 的文本分析
- Rytr: Rytr 是一款帮助创作内容的 AI 写作助手
- Charisma: Charisma 是一个用于创建具有可信虚拟角色的互动故事的平台
- Riku.AI | 您的 AI 创作宝库
- 初探 - Riku.ai - 推理平台 2022 年 3 月 - J1, GPT-3, Fairseq-13B, GPT-NeoX-20B, Cohere-XL - YouTube
- Taskade: Taskade 是一款面向团队的 AI 大纲和思维导图生成器,内置 AI 聊天功能
- AI 故事生成器(高级选项): 使用自定义语气、类型和叙述方式,即时创建独特而引人入胜的故事。
- AI 故事生成器: 免费且快速的在线 AI 驱动故事生成器,可为您撰写短篇小说
- AI Story Generate: 使用 LLM 生成故事,可自定义情感、类型和字数。
- Composum AI:Adobe Experience Manager (AEM) 或 Composum Pages CMS 的插件,帮助编辑创建/编辑/翻译文本
- TextCraft:Microsoft Word 的插件,可将文本生成、校对等核心 AI 工具无缝集成到用户界面中。
研究类 AI 工具
研究用 AI 工具
- Undermind - AI 驱动的科研助理: 一款能够阅读学术论文的 AI 助手。
- Scite: AI 助手或文献搜索引擎,改变您发现、评估和理解任何主题研究的方式。
- SciSummary: AI 可在几秒钟内总结科学文章和研究论文
- SciSpace: 科学 PDF 的 AI 聊天机器人
- Scholarcy: 总结、分析和整理您的研究
- Research Rabbit
- Nested Knowledge: 强大的证据综合工具,专为医学研究人员设计。加速、协作、自动化并共享研究成果。
- Litmaps: 文献综述助手
- Keenious: 查找与任何文本相关的研究
- Inciteful: 利用引用探索学术文献
- danielmiessler/fabric: fabric 是一个开源框架,旨在利用 AI 增强人类能力。它提供了一个模块化的框架,用于通过众包的 AI 提示集来解决特定问题,这些提示可以在任何地方使用。
- AI 研究工具 | x 发布: 一些可用于研究/教学的 AI 工具
- 借助 AI 解锁生产力并实现个性化学习 | Microsoft EDU
- Sourcely: 带有 AI 的学术引用查找工具
- GummySearch: 基于 AI 的客户调研工具,通过 Reddit 进行。发现待解决的问题、对现有解决方案的情绪,以及希望购买您产品的人群。
- [2310.17143] 用生成式 AI 加速学术写作:框架、技巧与注意事项
- Elicit: 自动化文献综述的研究工作流程
- Paper Brain: 论文片段摘要工具。用户需要将内容复制并粘贴到其界面中。
- Explainpaper: “上传论文,高亮显示困惑的文本,获取解释”
- Paper Player: 忙碌的科学家和技术人员消费开放科学的新方式
- TalkToPapers - namuan/dr-doc-search: 与书籍对话 - 基于 GPT-3 打造: 一个 GitHub 工具,可以让 AI 代替您阅读论文。
- hwaseem04/Research-digest: 我们黑客马拉松的论文摘要应用
用于搜索的AI工具
- whitead/paper-qa:用于根据带有引用的文档回答问题的“大模型链”
- Metaphor:一款能够“理解语言——以提示的形式——因此你可以用各种富有表现力和创造性的方式表达你想要寻找的内容”的搜索引擎
- MemFree - 开源混合型AI搜索引擎,可从互联网、书签、笔记和文档中即时获取准确答案。支持一键部署。
图片
图像合成
- TokenVerse: Token调制空间中的多功能多概念个性化
- FLUX.1模型家族 – Replicate
- ToTheBeginning/PuLID: PuLID官方代码:通过对比对齐实现纯净且快速的身份定制
- 编辑你的图像: 找到所有热门且实用的Gradio演示,可用于编辑你的图像
- OutfitAnyone - HumanAIGC的Hugging Face Space: 超高品质的任意服装与任意人物虚拟试穿
- StockPhotoAI.net: 专为你打造的优质图库
- 使用AdaMPI AI模型将2D图像转换为3D: 关于如何使用AdaMPI AI模型从2D图像生成3D照片的指南
- deep-floyd/IF: Stability.AI推出的高逼真度和语言理解能力的开源文生图模型
- 语义排版中的文字即图像: 将字体语义化地转化为插图
- Scribble Diffusion: 使用AI将你的草图转化为精致图像
- Muse: 基于掩码生成式Transformer的文生图
- openai/point-e: OpenAI的点云扩散模型,用于3D模型合成
- [arxiv/2211.11319] VectorFusion: 通过抽象像素基扩散模型实现文生SVG
- 鹦鹉区: 图像合成参考数据库
- 图像合成链接列表: 由鹦鹉区集体整理的链接集合
- [🔥🔥🔥] 生成式艺术工具: 由@pharampsychotic整理的海量共享Google Colab笔记本及工具列表
- 简介 — PyTTI-Tools
- pyttitools-PYTTI.ipynb - Colaboratory
- pixray/pixray: Pixray是一个图像生成系统
- pixray/pixray_notebooks: Pixray演示笔记本
- dribnet/pixray-text2image – 在Replicate上通过API运行
- sberbank-ai/ru-dalle: 用俄语根据文本生成图像。
- Pyttipanna: 由@_staus开发的Pytti可视化界面。Pytti由@sportsracer48创建。
- Imagen: Google的文生图扩散模型
- Make-A-Scene: Meta为AI图像生成提供的创意控制功能
- Stable Diffusion: Stability.Ai推出的文生图模型,在速度和质量上实现了突破,能够在消费级GPU上运行
- CLIPasso: 语义感知的对象草图绘制
- DreamFusion / Twitter: 利用2D扩散论文实现文生3D
- apple/ml-no-token-left-behind: “不留任何标记”方法的PyTorch实现:基于可解释性的图像分类与生成
- disco-diffusion/Local_Disco_Diffusion_v4_1.ipynb at main · Midgraph/disco-diffusion
- 音频转关键帧字符串: 此工具用于根据音频音量生成AI动画笔记本中的关键帧字符串,例如这个VQGAN+CLIP动画笔记本。
- [🔥] S2ML图像生成器: 由Justin Bennington维护的Katherine Crownson首个VQGAN+CLIP Google Colab笔记本的演进版本
- [🔥] 使用Looking Glass 1.1 (ru-DALLE)为图像创建变体 - YouTube | Artificial Images
- [🔥] Looking Glass 1.1 (ru-DALLE): 让ruDALL-E微调变得快速而轻松。版权(C)2021 Bearsharktopus Studios
- NÜWA: 面向神经视觉世界创造的视觉合成预训练(ML研究论文解读) - YouTube | Yannic Kilcher
- [🔥] yuval-alaluf/hyperstyle: “HyperStyle: 基于超网络的StyleGAN反演用于真实图像编辑”的官方实现 https://arxiv.org/abs/2111.15666
- [🔥] Vadim Epstein的Aphantasia库: CLIP + FFT/DWT/RGB = 文本转图像/视频
- mikaelalafriz/lucid-sonic-dreams: 将GAN生成的视觉效果与音乐同步
- Greg Surma - 作品集
- crowsonkb (Katherine Crowson): 她撰写了VQGAN+CLIP教程
- DALL·E: 根据文本创建图像
- DALL-E mini: DALL·E mini是一款能够根据你提供的任何提示生成图像的AI模型!
- DALL-E mini GitHub
- DALL-E mini项目报告
- CLIPIT PixelDraw - Colaboratory
- CLIP引导扩散HQ 512x512.ipynb - Colaboratory
- 通过关键帧参数平滑过渡位置/旋转/缩放与文本输入:一个包含15,000帧的概念验证:deepdream
- neural-dream的替代品及类似的照片和图形应用 | AlternativeTo
- CoG 21: 针对程序化内容生成的对抗性强化学习
- Hugging Face的GitHub仓库
收件箱:Stable Diffusion
- Stable Diffusion 中采样器的完整指南 - Félix Sanz
- Stable Diffusion 模型:自定义 Stable Diffusion 模型列表
- Stable Diffusion KLMC2 动画.ipynb 分支:由 @DigThatData 分支
- Stable Diffusion KLMC2 动画.ipynb:由 @RiversHaveWings 编写的笔记本,使用称为 KLMC2 的欠阻尼朗之万动力学离散化技术,基于脚本化的提示生成动画
- DETEXTIFY:一个 Python 库,用于从您最喜欢的生成式 AI 模型(Stable Diffusion、Midjourney、DALL·E)生成的图像中移除不需要的伪文本
- InvokeAI:可在 Windows、Mac 和 Linux 机器上运行的 Stable Diffusion 工具包及应用程序,并且仅需 4 GB 或更少的显存即可在 GPU 上运行
- Stability.ai REST API 文档:由 Stability.ai 提供的服务。访问此 REST API 需要 DreamStudio 身份验证
- [🔥🔥🔥] 面向艺术家与非艺术家的 Stable Diffusion 使用指南 - Google Docs:一份包含深入技巧、窍门、教程等内容的 Google Docs,专门针对 Stable Diffusion
- [新闻]Canva 添加免费且无限制的 AI 文本转图像生成器 | PetaPixel
- prompthero/midjourney-v4-diffusion · Hugging Face:由 PromptHero 在 Midjourney v4 图像上微调的 Stable Diffusion
- CHARL-E:在您的 M1 Mac 上运行 Stable Diffusion
- 图解 Stable Diffusion:由 Jay Alammar 解释(每次讲解一个机器学习概念)
- Img To Music:由 fffiloni 创建的 Hugging Face 空间
- Atlas KREA Stable Diffusion:KREA AI 的 Stable Diffusion 搜索引擎可探索地图
- TheLastBen/fast-stable-diffusion:快速 Stable Diffusion,速度提升 25–50%,内存效率更高,并支持 DreamBooth
- NovelAI 对 Stable Diffusion 的改进 | by NovelAI | 2022 年 10 月 | Medium
- ashawkey/stable-dreamfusion:基于 Stable Diffusion 的文本到 3D 梦境融合的 PyTorch 实现
- [🔥🔥🔥] JoePenna/Dreambooth-Stable-Diffusion:实现 Dreambooth(https://arxiv.org/abs/2208.12242)与 Stable Diffusion 结合(重点优化人脸训练)
- [🔥🔥🔥] DreamBooth:对文本到图像扩散模型进行微调,以实现主题驱动的生成
- [🔥] Arki 的 Stable Diffusion 指南
- examples/stable-diffusion-finetuning at main · LambdaLabsML/examples:Stable Diffusion 微调
- lkwq007/stablediffusion-infinity:在无限画布上使用 Stable Diffusion 进行扩展绘画
- [🔥🔥🔥] ML News Stable Diffusion 占据主导地位!(开源 AI 艺术)由 Yannic Kilcher - YouTube:一段包含示例、最新动态以及关于 Stable Diffusion 影响讨论的视频
- 视觉领域的扩散模型综述 | DeepAI:一篇关于扩散技术的论文,同时也探讨了其与其他生成式深度学习模型的关系
- ThereforeGames/txt2mask:利用自然语言自动为 Stable Diffusion 的修复功能创建掩码
- basujindal/stable-diffusion:优化版 Stable Diffusion,修改后可在较低显存的 GPU 上运行
- Stable WarpFusion v0.5(仅限赞助者):由 @devdef 使用 Stable Diffusion 对视频帧进行条件化处理
- nateraw/stable-diffusion-videos:通过探索潜在空间并在不同文本提示之间进行变形,使用 Stable Diffusion 制作视频
部署了 Stable Diffusion 的 Web 工具
- DecorAI:几秒钟内生成室内和室外设计方案
- dreamlike.art:基于Stable Diffusion的图像生成器,配备如Dreamlike Photoreal 2.0等微调模型。用户每小时可获得1个积分,上限为50个积分。
- AITWO.CO:一款功能丰富的AI驱动设计平台。
- aiimagegenerator.org:免费的AI艺术生成工具,支持Stable Diffusion的txt2img和img2img生成、绘图及修复上色功能。
- InteriorAIDesigns:一个可轻松重新设计房间的平台。
- Playground AI:Stable Diffusion的前端界面,每日可生成1000张图片。
- Astria:定制化的AI图像生成服务。
- drawanyone:基于五张输入图片生成绘画作品。
- DiffusionBee:Stable Diffusion的图形化用户界面应用。
- getimg.ai:使用Stable Diffusion根据文本生成照片级逼真图像。
- Enstil:快速、开源的AI生成图像
- Dezgo - 文本到图像的AI生成器
- PhotoAIStudio:一款支持多种风格的AI驱动摄影平台。
- Baseten:Stable Diffusion演示。
- DreamStudio:由Stability.ai提供的Stable Diffusion API前端。
- Pollinations - pollinations/stable-diffusion-private
- tencentarc/gfpgan – 在Replicate上通过API运行
- andreasjansson/stable-diffusion-wip – 在Replicate上通过API运行
- stability-ai/stable-diffusion – 在Replicate上通过API运行
- Osmosis.Studio:基于Web的内容感知协作设计工具,用于生成能够销售真实产品的AI广告。
- Artistic.wtf:Stable Diffusion的图形化用户界面应用。
- Prodia:基于Stable Diffusion的艺术生成器,无需注册即可使用。
- ComicsMaker.ai:基于Stable Diffusion的漫画书生成器,支持text2img、img2img、修复上色及ControlNet等功能。
- POTO.AI:将Stable Diffusion模型微调为AI摄影师,用于生成头像、人像及情侣婚纱照。
通过Google Colab运行Stable Diffusion的Web UI
- camenduru/stable-diffusion-webui-colab:包含多个针对不同检查点的Stable Diffusion WebUI Colab集合。
- StableDiffusion_WebUI_Simplified.ipynb:葡萄牙语版本的Notebook,可在Google Colab上免费运行Stable Diffusion的Web UI。
- GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI:扩展版的Stable Diffusion Web UI。
- GitHub - sd-webui/stable-diffusion-webui:Stable Diffusion的Web UI。
- Stable_Diffusion_WebUi_Simplified.ipynb - Colaboratory
关于Stable Diffusion的参考资料汇总
- GitHub - awesome-stable-diffusion/awesome-stable-diffusion:Stable Diffusion AI模型相关资源的精选列表。
- Reddit上u/ImeniSottoITreni发布的Stable Diffusion综合更新:关于所有“最重要”新闻和代码库的综合更新。
- Reddit上的Stable Diffusion系统列表
- Stable Diffusion阿卡西记录 | Maks-s/sd-akashic:关于Stable Diffusion(SD)的信息汇编。
- multimodal.art的Stable Diffusion一周回顾
- Voldy指南:详细的Stable Diffusion入门指南。
- Reddit上的Stable Diffusion新手指南!
- Reddit上使用Stable Diffusion的网站集合及其他实用链接
超技术
ControlNet
- ControlNet入门指南:线条检测与图像变换
- Scribble Diffusion: 使用AI将你的草图转化为精致的图像(基于ControlNet)
文本反转
- rinongal/textual_inversion: 该仓库包含文本反转论文的官方代码、数据及示例反转模型
- 2208.01618 一张图胜过千言万语:利用文本反转个性化文本到图像生成: 描述文本反转技术的论文
- sd-concepts-library (Stable Diffusion概念库): Stable Diffusion文本反转概念库——浏览社区教授给Stable Diffusion的对象和风格,并在你的提示词中使用它们!
DreamBooth
- AI个人头像: 使用AI生成个人头像的付费服务
- 使用Diffusers通过Dreambooth训练Stable Diffusion: 分析Dreambooth中不同设置效果的实验
- fast-DreamBooth.ipynb - Colaboratory: 使用这个简化的DreamBooth Colab,从输入图像中训练自定义概念
- (1166) 如何用Dreambooth轻松免费地用自己的脸创作出惊艳的艺术作品! - YouTube: 一段葡萄牙语教程,教你如何用自己的脸训练Dreambooth
Deforum
- [🔥🔥🔥] Parseq: Stable Diffusion的参数序列器 [YouTube教程]
- deforum-art/sd-webui-deforum: AUTOMATIC1111的Stable Diffusion webui的Deforum扩展 [wiki文档]
- Deforum Stable Diffusion动画 - v5数学函数 - 演示与测试 - YouTube
- Deforum Stable Diffusion: 从脚本化提示词生成视频
- (5) Stable Diffusion动画的Deforum笔记本v0.5已发布!现在支持数学自动化、透视翻转、提示权重、视频遮罩和美少女角色! : StableDiffusion
生成式AI图像合成工具的创意应用
- 修复历史照片 | Reddit
- 使用img2img进行手部动画 | Reddit
- VID 2 VID用户脚本 | Reddit
- Antonio Freyre为Blender开发的无缝纹理AI生成器 | Twitter
- "破碎" by Ronny Khalil | Twitter: 使用warp融合生成破碎玻璃效果
- Acid Dance by aiplague | Twitter
- 由@remi_molettee制作的融合视频
- Dall-e + AE动画 | Reddit: 一张电子设备的专利图纸……
- 你描述,AI帮你修图换脸【StyleCLIP】 - YouTube
- 实验电影+机器学习 第7周 第1部分(使用OpenAI CLIP处理失忆症) - YouTube
- GitHub - Sanster/lama-cleaner: 基于最先进AI模型的图像修复工具
- AgaMiko/pixel_character_generator: 使用生成对抗网络生成复古像素游戏角色。包含“TinyHero”数据集。
- Wilco Sierra: 一个利用GPT为软件工程师生成工程挑战的平台。
图像超分辨率
- Leonardo AI Upscaler: 免费图像超分辨率工具
- Remini - AI照片增强器: 照片和视频增强工具
- AI图像超分辨率 - 免费放大并增强你的照片 - Upscale.media: 简单的免费图像超分辨率替代方案
- Topaz Labs: AI图像质量软件: “专业级工作流程,功能丰富”(此为nejcsusec.beehiiv.com的联盟链接)。
- AI图像超分辨率 - 批量免费放大照片、卡通图片: “免费、基于浏览器,每天五次机会”,出自nejcsusec.beehiiv.com的引用
- 为什么你应该对图像进行超分辨率处理: 对比不同的工具
- 模型数据库 - Upscale Wiki: 图像超分辨率模型列表
- Gigapixel AI: 收费的AI图像超分辨率工具,可提供更精细的细节和更高的分辨率
- Image Super-Resolution
- 使用SD Upscale将图像放大至巨大尺寸并添加细节 : StableDiffusion: Reddit上的教程
图像修复
- sczhou/codeformer:用于老照片和AI生成人脸的面部修复算法
- TencentARC/GFPGAN:GFPGAN旨在开发适用于现实场景的人脸修复实用算法
图像分割
- Segment Anything | Meta AI:“Meta AI推出的一款全新AI模型,只需单击一下,即可从任何图像中‘抠出’任意物体”
视频与动画
- FramePack:一种逐帧预测的神经网络结构,可逐步生成视频
- Keyla.AI:几分钟内即可创建视频广告
- Melies:一体化AI电影制作软件
- Pyramid Flow
- Infinity AI:一款视频基础模型,允许用户创作角色并为其制作动画
- Sora:OpenAI的文字转视频模型 [技术报告]
- SDV (Stable Diffusion 图像转视频):在Colab+上使用A100 GPU大约30秒即可生成3秒视频
- Emu Video | Meta :最先进的文字转视频生成技术
- AILab-CVC/VideoCrafter:用于高质量视频生成的开源扩散模型
- Ssemble:一款具备多种AI插件的协作式视频编辑器
- 使用AdaMPI AI模型将2D图像转换为3D:关于如何利用AdaMPI AI模型将2D图像转化为3D照片的指南
- Nathan Lands在Twitter上的帖子:“AI视频已经开始产生令人震惊的效果,并最终可能颠覆好莱坞” / Twitter:包含视频生成AI工具示例的Twitter线程
- Stable Animation SDK:Stability AI为开发者提供的文字转动画工具 [开发平台]
- Twelve Labs:用于视频搜索的多模态上下文理解系统
- Align your Latents:基于潜在扩散模型的高分辨率视频合成 [arxiv]
- Runway推出的Gen-2:“一个能够通过文本、图像或视频片段生成全新视频的多模态AI系统” [arxiv]
- CiaraRowles/TemporalNet · Hugging Face:一种ControlNet模型,旨在提升生成内容的时间一致性 [推文]
- Video-P2P UI - 由video-p2p-library创建的Hugging Face Space:通过交叉注意力控制进行视频编辑 [推文]
- Text2Video-Zero - 由PAIR创建的Hugging Face Space:零样本文字转视频合成扩散框架 [推文] [arxiv]
- ModelScope - 由damo-vilab创建的Hugging Face Space:文字转视频合成 [页面]
- neural frames:受deforum启发的动画制作工具
- [🔥] dmarx/video-killed-the-radio-star:用于借助生成式AI实现音乐视频全流程自动化的笔记本及工具
- [🔥🔥🔥] Phenaki – Google Research:根据开放域文本描述生成逼真视频
- THUDM/CogVideo:文字转视频生成
- baowenbo/DAIN:深度感知视频帧插值(CVPR 2019)
- GRisk发布的Dain-App 1.0 [仅限Nvidia] :深度感知视频帧插值(CVPR 2019)
- Content Studio AI:无脸视频生成器
音频与音乐
- StemGen:一款会“听”的音乐生成模型
- Mustango:“迈向可控的文本转音乐生成”
- Lyria by Google DeepMind:“变革音乐创作的未来”
- Suno AI:“创作你所能想象的任何歌曲”
- Riffusion:该AI系统可为任意输入文本生成歌声
- Stable Audio - 面向音乐与音效的生成式AI
- 我们AI音乐实验的早期探索 - YouTube博客
- 什么是生成式音乐? - 生成式音乐AI - YouTube
- Ultimate Vocal Remover:利用AI进行人声分离
- 隆重推出Voicebox:首个能够跨任务泛化并达到最先进水平的语音生成式AI模型
- MusicGen:Meta推出的音乐生成工具
- facebookresearch/audiocraft:用于深度学习音频处理与生成的库。
- AudioGPT | arxiv:理解与生成语音、音乐、声音及说话头像 [代码] [演示]
- AudioLDM:基于潜在扩散模型的文本到音频生成——语音研究
- lucidrains/musiclm-pytorch:使用PyTorch实现Google最新SOTA音乐生成模型MusicLM,该模型基于注意力网络
- [🔥🔥🔥] archinetai/audio-ai-timeline:自2023年起最新的音频生成AI模型时间线
- MusicLM:根据文本生成音乐
- Harmonai的Dance Diffusion:面向音乐制作人的开源AI音频生成工具——Weights & Biases
- Dance Diffusion:由harmonai提供的Hugging Face空间
- MubertAI/Mubert-Text-to-Music:一个简单的Notebook,演示如何通过Mubert API基于提示词生成音乐
- DDSP-VST:面向所有人的神经音频合成
- LOVO AI:具备类人声音的AI配音与文本转语音平台
- AIVA:能够创作情感配乐的AI作曲家
- Jukebox:“一种神经网络,能以原始音频形式生成包括基础歌唱在内的多种流派和艺术家风格的音乐”
- Magenta:用机器智能创作音乐与艺术
- magenta/magenta:Magenta官方GitHub仓库
- AI图像转声音[Melobytes.com]
- archinetai/audio-diffusion-pytorch:使用扩散模型在PyTorch中进行音频生成
- MuseGen:专为创作者打造的AI音乐工作室,支持歌词创作和歌曲生成
语音
文本转语音(TTS)与虚拟形象
- COVAL:语音AI架构,涵盖语音识别到情感智能,并教你如何构建、扩展和评估这些系统
- Parler-TTS:完全开源的高质量TTS
- p0n1/epub_to_audiobook:EPUB转有声书转换器,专为Audiobookshelf优化
- 他们从未告诉你的“语音克隆AI”及其工作原理:@bycloud发布的YouTube视频,总结了现有的语音克隆技术
- Voice-Swap:将人声转换为一系列歌手的风格
- Shaunwei/RealChar:实时AI角色/伴侣
- UneeQ Digital Humans:同步的3D角色库
- AI Voice Generator:免费在线AI驱动的文本转语音生成器,可创建自然逼真的旁白
- KangweiiLiu/Awesome_Audio-driven_Talking-Face-Generation:精心整理的音频驱动人脸生成资源列表
- Play.ht:“AI语音生成器及逼真的在线文本转语音服务”
- Murf AI | AI语音生成器:多功能文本转语音软件
- VALL-E:仅需3秒样本即可合成高质量个性化语音
- [🔥] Eleven Labs Beta:一项可在生成语音中加入情感的TTS服务
- neonbjb/tortoise-tts:“一款注重质量的多语音TTS系统”
- Studio D-ID:使用文本转语音工具将静态图片同步生成视频 [#avatar]
- Synthesia:AI视频生成平台 [#avatar]
- Speech Studio - Microsoft Azure:微软的云认知服务
播客生成器
- Google NotebookLM:根据你上传的参考资料生成播客节目
- Illuminate:同样来自谷歌,可将你的内容转化为引人入胜的AI生成音频讨论
语音转文本(STT)与语音内容分析
- 介绍 Universal-1:多语言语音转文本
- ggerganov/whisper.cpp:OpenAI Whisper 模型的 C/C++ 移植版本,可在本地运行。
- Good Tape:付费转录服务
- shashikg/WhisperS2T:针对 Whisper 模型优化的语音转文本流水线
- Vaibhavs10/insanely-fast-whisper:结合 OpenAI 的 Whisper Large v2、HF Transformers、Optimum 和闪注意力机制,加速转录过程
- facebookresearch/seamless_communication:用于先进语音和文本翻译的基础模型
- LeMUR:一个单一 API,使开发者只需几行代码即可对语音数据进行推理。
游戏
- 游戏中的生成式 AI 革命 | Andreessen Horowitz:本文列出了生成式 AI 在游戏中的多种应用场景
- 游戏开发中的 AI:5 天内制作一款农场游戏。第一部分
多模态
- [2406.09403] Visual Sketchpad:作为多模态语言模型的视觉思维链的草图绘制
- BradyFU/Awesome-Multimodal-Large-Language-Models:关于多模态大型语言模型的最新论文和数据集及其评估
- NExT-Chat:用于聊天、检测和分割的 LMM
- roboflow/awesome-openai-vision-api-experiments:展示如何使用 OpenAI 视觉 API 对图像、视频文件和网络摄像头流进行推理的示例
多模态嵌入空间
- 微软 KOSMOS-2:新增感知物体描述(如边界框)以及将文本与视觉世界关联的能力 [HF 演示] [arXiv]
- Segment Anything | Meta AI:“Meta AI 推出的一款新型 AI 模型,只需单击一下即可从任何图像中‘抠出’任意物体”
- facebookresearch/ImageBind:ImageBind——一个统一的嵌入空间,连接一切
数据集
- Ego-Exo4D:Meta 提供的基础数据集,用于视频学习和多模态感知研究 数据集下载
- Carolina:包含来源和类型信息的当代巴西葡萄牙语通用语料库——Corpus Geral do Português Brasileiro Contemporâneo
- Together AI 的 RedPajama-Data-v2:一个开放数据集,包含 30 万亿个 token,可用于训练大型语言模型
- Have I Been Trained?:用于搜索被用于训练热门 AI 艺术模型的 58 亿张图片的工具
- laion-aesthetic-6pls:探索用于训练 Stable Diffusion 图像生成器的 23 亿张图片中的 1200 万张
- CLIP 检索 Laion5B:“通过将文本查询转换为 CLIP 嵌入,然后利用该嵌入查询 CLIP 图像嵌入的 k-近邻索引来实现检索。”
- rom1504/clip-retrieval:轻松计算 CLIP 嵌入,并基于这些嵌入构建 CLIP 检索系统
- LAION:大规模人工智能开放网络
- gabolsgabs/DALI:一个大型的音频、歌词和人声音符同步数据集
杂项
AI 与教育
人物与作品
有趣的 Twitter 账号
有趣的 Instagram 账号、帖子和 Reels
- Instagram 上的科学:“由 AI Stable Diffusion 生成的人类进化”
- Deep Music Visualizer
- Lucid Sonic Dreams (@lucidsonicdreams)
有趣的 YouTube 频道
- Artificial Images:使用机器学习创作艺术的演示和讲解
- Glenn Marshall Neural Art
- 如何生成艺术——深度学习入门 #8
有趣的 GitHub 仓库
- dvschultz:Derrick Schultz 的 GitHub
- dvschultz/ml-art-colabs:ML 艺术相关的 Google Colab 笔记本合集
- [🔥] 用于序列建模的结构化状态空间(S4):从神明那里窃取的创造力
艺术家与艺术作品
- AI生成音乐视频——Deltron 3030——Virus——YouTube
- 人工现实:珊瑚 / Twitter:由@refikanadol创作的艺术作品,受世界经济论坛委托
- [🔥] Creep——YouTube,由Glenn Marshall Neural Art制作:他们是如何使用VQGAN+CLIP来转换图像的?又是如何在潜在空间中无缝游走的?
- 35位使用AI且粉丝不足1000的艺术家,你今天就需要关注 / Twitter
- 计算机视觉艺术画廊:CVPR 2021:以计算机视觉技术为主题的艺术作品
- Confluence:Devi Parikh在BrainDrops上的生成艺术项目。
- 学会观看——Memo Akten | Mehmet Selim Akten | 超级酷炫视觉公司
- 异星之梦:新兴的艺术场景——ML@B博客
- 神经动物园 | Sofia Crespo
- KRЯRL DЯAWINGS:Runway ML——第3个“模型”(基于长姿势)
- Frea Buckler ~ 艺术家:用于创建该网络的作品 (19) derrick又在Twitter上启动了一个新项目:“刚刚给@buntworthy发了一个我训练好的StyleGAN模型演示 / Twitter
- (非)人类
- 真实的数字艺术——未知的启程 | SuperRare
- 机器学习艺术灵感精选
- 2021年顶级25位AI艺术家(照片、简介及AI艺术史)— AIArtists.org:AIArtists.org展示了使用人工智能进行创作的顶尖艺术家、相关工具以及AI艺术的发展历程。
- Helena Sarin——艺术家简介(照片、视频、展览)— AIArtists.org
- 由AI机器生成的图像 (@images_ai) / Twitter
- https://www.instagram.com/refikanadol/
- 蒸汽朋克马戏团:人机协作——视频、声音与AI故事 / YouTube
画廊
相关精彩列表
- mahseema/awesome-ai-tools:精选的人工智能顶级工具列表
- Hannibal046/Awesome-LLM:Awesome-LLM:大型语言模型精选列表
- AlexChalakov/awesome-generative-ai-companies:按重点领域和累计融资额排序的生成式AI公司精选列表
- kyrolabs/awesome-langchain:😎 使用LangChain框架的工具和项目精彩列表
- KangweiiLiu/Awesome_Audio-driven_Talking-Face-Generation:音频驱动的说话人脸生成资源精选列表
- [🔥] amrzv/awesome-colab-notebooks:用于快速便捷实验的Google Colaboratory笔记本合集
- [🔥🔥🔥] steven2358/awesome-generative-ai:现代生成式人工智能项目和服务精选列表
- [🔥🔥🔥] jonathandinu/awesome-ai-art:“AI艺术课程、工具、库、人物和地点列表”
- margaretmz/awesome-ai-art-design:关于AI在艺术与设计领域应用的精彩列表。
- toxtli/awesome-machine-learning-jupyter-notebooks-for-colab:可在Google Colaboratory中直接运行的机器学习和深度学习教程精选列表
- chaosreactor/awesome-generative-ai:低代码或无代码生成式AI资源精选列表
- [🔥] altryne/awesome-ai-art-image-synthesis:为AI艺术和图像合成领域的提示工程师准备的优秀工具、创意、提示工程工具、Colab、模型和辅助资源列表。涵盖Dalle2、MidJourney、StableDiffusion及开源工具。
- justinpinkney/awesome-pretrained-stylegan2:预训练StyleGAN 2模型合集
生物实验
- fMRI转图像:由danberridge发布的推文:“‘呈现的图像’展示给一组人,而‘重建的图像’则是fMRI输出到Stable Diffusion的结果。换句话说,Stable Diffusion简直就是在读取人们的思想。”
生成式AI相关职位
提升Google Colab体验
- 7种将外部数据加载到Google Colab的方法 | B. Chen著 | Towards Data Science
- 10个让Google Colab体验更佳的小技巧 | Cyprien NIELLY著 | Towards Data Science
- 使用ngrok免费快速分享Google Colab中的ML WebApp | AbdulMajedRaja RS著 | Towards Data Science
- Google Colab中的交互式Jupyter Widgets:包含在Colab中使用Jupyter Widgets示例的笔记本,支持交互式输入
- Jupyter Widgets官方文档
辅助工具和概念
- Rosie:AI电话接听服务
- MuckBrass:利用AI寻找并验证创业想法
- ResumeDive:基于AI的简历优化服务
- Owlbot:AI客服助手
- fynk:AI驱动的合同管理软件
- Taskbase:结合AI软件的虚拟助理服务
- AI Wedding Toast:用AI生成个性化婚礼致辞
- Interviews Chat:你的个人面试准备与协作伙伴
- Inline Help:在客户提问之前就解答他们的问题
- LinkActions:AI内部链接助手
- Marblism:根据提示生成SaaS样板代码
- SiteSpeakAI:用AI自动化客户支持
- Room Reinvented:轻松改造你的房间!上传一张照片,让AI为你打造30多种惊艳的室内风格。立即提升你的空间品质。
- FairyTailAI:个性化睡前故事生成器
- PromptPal:搜索提示词和机器人,并在你喜爱的AI平台上直接使用,所有功能一站式提供。
- Never Jobless LinkedIn Message Generator:通过AI驱动的LinkedIn消息,最大化你的面试机会。
- Aispect:体验活动的新方式。
- SiteGPT:让AI成为你的专业客户支持代理。
- PressPulse AI:每天早上获取个性化的媒体报道线索。
- GPTHelp.ai:为你的网站配备ChatGPT / AI客户支持聊天机器人。
- chaiNNer-org/chaiNNer:一个基于节点的图像处理和AI超分辨率GUI,可轻松将复杂的处理任务串联起来。
- BIRME:批量图片调整大小2.0(在线免费)
- The Art of PNG Glitch
- HashLips/hashlips_art_engine:用于根据提供的图层创建多种不同版本艺术作品的工具。
- Taplio:一体化、AI驱动的LinkedIn工具。
- Galichat.com:帮助你发展业务的AI支持助手。
- Aidbase:为你的SaaS初创公司提供AI驱动的支持。
- Socialsonic:AI LinkedIn教练:个性化内容、趋势分析及日程安排。
降维技术
- 为什么你应该使用拓扑数据分析而不是t-SNE或UMAP?
- YingfanWang/PaCMAP:PaCMAP——同时保留全局与局部结构的大规模降维技术
- UMAP:用于降维的均匀流形近似与投影
- 使用t-SNE进行数据可视化
路线图、学习路径、指南
- (1166) 针对黑客的语言模型指南 - YouTube
- [🔥🔥] 面向初学者的生成式AI:微软推出的入门级12课课程
- 生成式AI入门:由Youssef Hosni撰写的Medium系列文章
- 提示工程路线图 - roadmap.sh
- 提示工程指南 | 学习提示:与AI沟通的指南
- 短期课程 | 从DeepLearning.AI学习生成式AI
星标随时间变化
参与贡献
欢迎贡献!请先阅读贡献指南。
许可证
在法律允许的最大范围内,Filipe Calegario已放弃本作品的所有版权及相关权利。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
