ai-notes
ai-notes 是一个专为软件工程师打造的 AI 技术知识库,旨在帮助从业者快速掌握生成式 AI 与大语言模型领域的最新动态。面对人工智能技术迭代极快、信息碎片化严重的痛点,它将原本分散的技术资讯、产品构思及权威参考进行了系统化梳理与沉淀,解决了开发者难以高效追踪前沿进展的问题。
该资源库内容覆盖广泛,不仅包含文本生成(如 GPT-4)、代码辅助、语音处理等核心领域的深度笔记,还特别强化了图像生成(如 Stable Diffusion)的基础设施与硬件扩展知识。其独特亮点在于提供了大量经过验证的“提示词速查表”(Swipe Files),涵盖文本与图像创作的高质量范例,并持续更新关于"AI 智能体”等新兴方向的探索性文档。此外,它还整理了法律伦理、行业社区及关键人物观点,形成了从理论到实践的全景视图。
ai-notes 非常适合希望深入理解 AI 工程化的开发者、研究人员以及需要灵感的技术型设计师使用。无论是寻找具体的实现方案,还是把握宏观技术趋势,这里都能提供清晰、可靠且持续更新的“原材料”,助你在快速变化的 AI 浪潮中保持敏锐与高效。
使用场景
一位全栈开发者正试图为新产品集成最新的生成式 AI 功能,需要在短时间内掌握从文本大模型到图像生成的前沿技术栈。
没有 ai-notes 时
- 信息碎片化严重:开发者需在 Twitter、Hugging Face 和各技术博客间反复跳转,难以系统性地获取关于 Stable Diffusion 或 GPT-4 的最新进展。
- 提示词调试成本高:缺乏经过验证的提示词库(Swipe File),每次尝试图像生成或复杂文本任务时都要从零开始摸索,浪费大量时间在无效参数调整上。
- 基础设施认知盲区:对 AI 硬件选型、模型缩放规律等底层架构知识(INFRA.md)缺乏清晰指引,导致技术方案设计时容易忽略性能瓶颈。
- 资源链接失效快:收藏的教程和工具链接随时间推移迅速过时或失效,无法找到长期稳定的权威参考源(Canonical References)。
使用 ai-notes 后
- 知识体系结构化:直接通过
IMAGE_GEN.md和TEXT.md等分类文件,快速获取按领域整理好的状态-of-the-art 综述,建立完整的技术地图。 - 即拿即用的提示词库:参考
IMAGE_PROMPTS.md和TEXT_PROMPTS.md中精选的高质量案例,大幅缩短原型开发周期,快速产出可用结果。 - 工程落地有依据:查阅
INFRA.md中的原始笔记,清晰理解算力需求与扩展策略,避免在架构设计阶段犯低级错误。 - 永久有效的资源索引:利用
/Resources文件夹中清洗过的规范引用,确保团队内部共享的学习资料和技术文档长期可靠、随时可查。
ai-notes 将散乱的 AI 前沿资讯转化为软件工程师可立即执行的结构化工程资产,显著降低了新技术的学习与落地门槛。
运行环境要求
未说明
未说明

快速开始
AI 笔记
关于人工智能最新进展的笔记,重点关注生成式模型和大型语言模型。这些内容是 https://lspace.swyx.io/ 新闻通讯的“原材料”。
此仓库曾名为 https://github.com/sw-yx/prompt-eng,但因 提示工程被过度炒作 而更名。现在它是一个关于 AI 工程 的笔记仓库。
本 README 只是对该领域的高层次概述;更多更新请参阅此仓库中的其他 Markdown 文件:
TEXT.md- 文本生成,主要基于 GPT-4TEXT_CHAT.md- 关于 ChatGPT 及其竞争对手,以及衍生产品的信息TEXT_SEARCH.md- 关于 GPT-4 支持的语义搜索及其他相关信息TEXT_PROMPTS.md- 一份小型的 提示词库,收录了一些优秀的 GPT-3 提示词
INFRA.md- 关于 AI 基础设施、硬件及扩展的原始笔记AUDIO.md- 跟踪音频/音乐/语音转录与生成相关进展CODE.md- 代码生成模型,例如 CopilotIMAGE_GEN.md- 内容最为丰富的一份文件,重点介绍 Stable Diffusion,并简要提及 MidJourney 和 DALL·E。IMAGE_PROMPTS.md- 一份小型的 提示词库,收录了一些优秀的图像提示词
- 资源:整理好的常用资源,适合永久链接引用
- 草稿笔记 - 针对未来可能覆盖主题的极简轻量级初稿页面
-
AGENTS.md- 跟踪“智能体式 AI” - 博客选题 - 根据这些笔记提炼出的潜在博客文章选题,因为…
激励性应用场景
- 图像
- 视频
- 著名电影场景的 img2img(爱乐之城)
- 演员转换的 img2img,使用 ebsynth + koe_recast
- ebsynth 的工作原理 https://twitter.com/TomLikesRobots/status/1612047103806545923?s=20
- 虚拟时尚(karenxcheng)
- 无缝拼接图像
- 场景演变(xander)
- 外延绘画 https://twitter.com/orbamsterdam/status/1568200010747068417?s=21&t=rliacnWOIjJMiS37s8qCCw
- WebUI img2img 协作 https://twitter.com/_akhaliq/status/1563582621757898752
- 图像转视频并旋转 https://twitter.com/TomLikesRobots/status/1571096804539912192
- “提示绘画” https://twitter.com/1littlecoder/status/1572573152974372864
- 将你的脸动画化为音频2视频 https://twitter.com/siavashg/status/1597588865665363969
- 实体玩具转 3D 模型 + 动画 https://twitter.com/sergeyglkn/status/1587430510988611584
- 音乐视频
- Video Killed the Radio Star,Colab。该项目使用 OpenAI 的 Whisper 语音转文本功能,允许你输入 YouTube 视频,并根据视频中的歌词生成 Stable Diffusion 动画。
- Stable Diffusion 视频,通过在提示词和音频之间插值生成视频。
- 直接的文本2视频项目
- 著名电影场景的 img2img(爱乐之城)
- 文本转 3D https://twitter.com/_akhaliq/status/1575541930905243652
- 文本类产品
- 在文末列出了用例清单 https://huyenchip.com/2023/04/11/llm-engineering.html
- Jasper
- GPT for Obsidian https://reasonabledeviations.com/2023/02/05/gpt-for-second-brain/
- gpt3 邮件 https://github.com/sw-yx/gpt3-email 和 邮件聚类
- Google 表格中的 gpt3() 2020,2022 - 表格 Google 表格 https://twitter.com/mehran__jalali/status/1608159307513618433
- https://www.summari.com/ Summari 帮助忙碌的人们阅读更多内容。
- 市场地图/格局
- Elad Gil 2024 堆栈图
- Sequoia 市场地图 2023 年 1 月,2023 年 7 月,2023 年 9 月
- Base10 市场地图 https://twitter.com/letsenhance_io/status/1594826383305449491
- Matt Shumer 市场地图 https://twitter.com/mattshumer_/status/1620465468229451776 https://docs.google.com/document/d/1sewTBzRF087F6hFXiyeOIsGC1N4N3O7rYzijVexCgoQ/edit
- NFX https://www.nfx.com/post/generative-ai-tech-5-layers?ref=context-by-cohere
- a16z https://a16z.com/2023/01/19/who-owns-the-generative-ai-platform/
- Madrona https://www.madrona.com/foundation-models/
- Coatue
- 游戏资源 -
- Emad 的帖子 https://twitter.com/EMostaque/status/1591436813750906882
- scenario.gg https://twitter.com/emmanuel_2m/status/1593356241283125251
- 3D 游戏角色建模示例
- MarioGPT https://arxiv.org/pdf/2302.05981.pdf https://www.slashgear.com/1199870/mariogpt-uses-ai-to-generate-endless-super-mario-levels-for-free/ https://github.com/shyamsn97/mario-gpt/blob/main/mario_gpt/level.py
- https://news.ycombinator.com/item?id=36295227
顶级 AI 阅读材料
更高级的 GPT3 相关阅读已被整理至 https://github.com/sw-yx/ai-notes/blob/main/TEXT.md
初学者读物
- Karpathy 2025年大语言模型入门 (摘要)
- 比尔·盖茨谈AI (推文)
- “AI的发展与微处理器、个人电脑、互联网和手机的诞生同样具有根本性意义。它将改变人们的工作、学习、旅行、医疗保健以及彼此交流的方式。”
- Steve Yegge谈开发者如何利用AI
- Karpathy 2023年大语言模型入门(来自Sarah Chieng的笔记)
- NeurIPS会议上OpenAI发布的提示工程指南,由Sarah Chieng分享
- 为什么这一波AI浪潮可能是真正的突破
- Sam Altman - 万物的摩尔定律
- MSR关于基础模型的优秀入门介绍:https://youtu.be/HQI6O5DlyFc
- OpenAI提示教程:https://beta.openai.com/docs/quickstart/add-some-examples
- Google LAMDA简介:https://aitestkitchen.withgoogle.com/how-lamda-works
- Karpathy的梯度下降课程
- FT的可视化故事:“Transformer的工作原理”
- DALL-E 2提示编写手册:http://dallery.gallery/wp-content/uploads/2022/07/The-DALL%C2%B7E-2-prompt-book-v1.02.pdf
- https://medium.com/nerd-for-tech/prompt-engineering-the-career-of-future-2fb93f90f117
- 如何用AI完成各种任务,涵盖获取信息、处理数据和生成图像等方面
- https://ourworldindata.org/brief-history-of-ai,附带精美图表的AI发展历程概述
- Jon Stokes的AI内容生成,第一部分:机器学习基础
- 吴恩达——AI领域的机遇
- 什么是Transformer模型?它们是如何工作的?——或许略显过于高阶
- 文本生成
- Humanloop的提示工程入门
- Stephen Wolfram的解释:https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
- Jon Stokes的类似内容:jonstokes.com/p/the-chat-stack-gpt-4-and-the-near
- https://andymatuschak.org/prompts/
- Cohere的LLM大学:https://docs.cohere.com/docs/llmu
- Jay Alammar的全面指南:https://llm.university/
- https://www.jonstokes.com/p/chatgpt-explained-a-guide-for-normies,面向普通用户的ChatGPT详解
- 图像生成
- https://wiki.installgentoo.com/wiki/Stable_Diffusion概览
- https://www.reddit.com/r/StableDiffusion/comments/x41n87/how_to_get_images_that_dont_suck_a/
- https://mpost.io/best-100-stable-diffusion-prompts-the-most-beautiful-ai-text-to-image-prompts/
- https://www.kdnuggets.com/2021/03/beginners-guide-clip-model.html
- https://www.seangoedecke.com/diffusion-models-explained/
- 非技术类
中级读物
- AI发展状况报告: 2018, 2019, 2020, 2021, 2022
- 按时间倒序排列的重大事件:https://bleedingedge.ai/
- 我们对大语言模型的了解 - 一份出色的研究综述
- Karpathy关于大语言模型的1小时指南 - 摘要来自Sarah Chieng
- 什么是大型语言模型(LLM)?
- LLM主要有两个组成部分
- LLM的作用是什么?
- 如何创建一个LLM?
- 第一阶段:模型预训练
- 第二阶段:模型微调
- 第二步b:[可选] 进一步微调
- 第三阶段:模型推理
- 第四阶段:[可选] 通过定制化增强LLM性能
- 当前的LLM“排行榜”
- LLM的未来:接下来会怎样?
- 如何提升LLM的表现?
- LLM扩展定律
- 自我改进
- 如何提升LLM的能力?
- 多模态
- 系统1+2思维
- 如何提升LLM的表现?
- LLM的“黑暗艺术”
- 越狱
- 提示注入
- 数据投毒与后门攻击
- Evan Morikawa关于LLM数学的指南,尤其是其中关于5大扩展挑战的部分
- 黑客视角下的语言模型指南 (YouTube) Jeremy Howard的90分钟全面概述,从基础开始:所有现代LLM采用的三步预训练/微调/分类器ULMFiT方法。
- https://spreadsheets-are-all-you-need.ai
- "跟上大语言模型的奇妙世界" - Simon Willison的40分钟概述 + AI工程师的开放问题
- Flyte关于LLM的概述
- Clementine Fourrier讲解评估如何进行
- VLM从零到英雄 (推文)
- 构建基于LLM系统和产品的模式 - 非常好的总结
- 向量数据库:技术入门[PDF],非常棒的向量数据库幻灯片
- 缺少对混合搜索(向量+词法)的介绍。更多讨论
- 机器学习视觉导论
- A16z AI经典文献 https://a16z.com/2023/05/25/ai-canon/
- 软件2.0: Andrej Karpathy是最早清晰阐述(2017年!)新一轮AI浪潮为何如此重要的专家之一。他的观点是,AI是一种全新且强大的编程方式。随着LLM的迅速进步,这一理论愈发具有前瞻性,也为理解AI市场的发展方向提供了良好的思维框架。
- GPT现状: 同样出自Karpathy之手,这篇材料以通俗易懂的方式解释了ChatGPT/GPT模型的工作原理、使用方法以及研发可能的方向。
- ChatGPT在做什么……为什么它能成功?: 计算机科学家兼企业家Stephen Wolfram从基本原理出发,用深入浅出的语言详细解释了现代AI模型的工作机制。他梳理了从早期神经网络到如今的LLM及ChatGPT的发展脉络。
- Transformer详解: Dale Markowitz的这篇短文直接回答了“什么是LLM,它是如何工作的?”这一问题。对于初学者来说,这是一个很好的入门方式,有助于培养对这项技术的直观理解。虽然文章最初是针对GPT-3撰写的,但同样适用于更新的模型。
- Stable Diffusion的工作原理: 这是计算机视觉领域中与上一篇类似的说明。Chris McCormick用通俗的语言解释了Stable Diffusion的工作原理,并帮助读者建立对文本到图像模型的整体认识。如果想要更轻松的入门,可以参考r/StableDiffusion社区中的这张漫画。
- (2025) 3blue1brown关于扩散过程的工作原理
- 解释类资源
- 深度学习要点:核心概念: NVIDIA推出的四部分系列文章,介绍了2015年时深度学习的基础知识,非常适合刚开始接触AI的人士。
- 面向程序员的实用深度学习课程: 一门全面且免费的课程,通过实际案例和代码讲解AI的基础知识。
- Word2vec详解: 一种简单易懂的嵌入和标记介绍,它们是LLM(以及所有语言模型)的基本构建块。
- 是的,你应该理解反向传播: 如果你想深入了解反向传播的细节,这篇更深入的文章值得一读。若想进一步学习,可以观看斯坦福CS231n讲座(课程链接)。
- 课程
- https://github.com/mlabonne/llm-course
- https://cims.nyu.edu/~sbowman/eightthings.pdf
- 随着投入的增加,LLM的能力会按预期不断提升,即使没有针对性的创新也是如此。
- 许多重要的LLM行为会在投入增加的过程中作为副产品意外出现。
- LLM似乎经常能够学习并使用关于外部世界的表征。
- 目前尚无可靠的方法来引导LLM的行为。
- 专家们还无法解释LLM内部的具体运作机制。
- 人类在某项任务上的表现并非LLM性能的上限。
- LLM无需表达其创造者的价值观,也不必遵循网络文本中所蕴含的价值观。
- 与LLM的短暂交互往往会产生误导。
- simonw强调了https://fedi.simonwillison.net/@simon/110144185463887790
- LLM研究中的10个开放性挑战 https://huyenchip.com/2023/08/16/llm-research-open-challenges.html
- OpenAI提示工程食谱 https://github.com/openai/openai-cookbook/blob/main/techniques_to_improve_reliability.md
- 关于提示工程的概述 https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
- https://moultano.wordpress.com/2023/06/28/the-many-ways-that-digital-minds-can-know/ 对比搜索与AI
- 2022年主要AI进展回顾 https://www.deeplearning.ai/the-batch/issue-176/
- DALLE2资产生成+修复绘画 https://twitter.com/aifunhouse/status/1576202480936886273?s=20&t=5EXa1uYDPVa2SjZM-SxhCQ
- suhail旅程 https://twitter.com/Suhail/status/1541276314485018625?s=20&t=X2MVKQKhDR28iz3VZEEO8w
- 可组合扩散 - “AND”代替“and” https://twitter.com/TomLikesRobots/status/1580293860902985728
- 关于BPE分词 https://towardsdatascience.com/byte-pair-encoding-subword-based-tokenization-algorithm-77828a70bee0,也可参阅Google SentencePiece和OpenAI TikToken。
- 可在此处查看可视化效果:https://lucalp.dev/bitter-lesson-tokenization-and-blt/
- 来源见GPT2代码:https://github.com/openai/gpt-2/blob/master/src/encoder.py
- 需要注意的是,BPE存在不足之处:https://www.lesswrong.com/posts/dFbfCLZA4pejckeKc/a-mechanistic-explanation-for-solidgoldmagikarp-like-tokens?commentId=9jNdKscwEWBB4GTCQ
- https://platform.openai.com/tokenizer 和 https://github.com/openai/tiktoken(更最新版本:https://tiktokenizer.vercel.app/)
- Wordpiece -> BPE -> SentenceTransformer
- https://observablehq.com/@simonw/gpt-3-token-encoder-decoder
- Karpathy希望分词最终能被取代:https://twitter.com/karpathy/status/1657949234535211009
- 对于仅解码器而言,无需位置编码:https://twitter.com/a_kazemnejad/status/1664277559968927744?s=20
- 创造自己的语言 https://twitter.com/giannis_daras/status/1531693104821985280
- Google Cloud生成式AI学习路径 https://www.cloudskillsboost.google/paths/118
- 图像转图像 https://andys.page/posts/how-to-draw/
- 关于语言建模 https://lena-voita.github.io/nlp_course/language_modeling.html,提供通俗但技术性强的语言生成解释,包括从分布中采样以及一些机制层面的可解释性(例如找到跟踪引文状态的神经元)。
- 追求照片级真实感 https://www.reddit.com/r/StableDiffusion/comments/x9zmjd/quest_for_ultimate_photorealism_part_2_colors/
- 设置调整 https://www.reddit.com/r/StableDiffusion/comments/x3k79h/the_feeling_of_discovery_sd_is_like_a_great_proc/
- 种子选择 https://www.reddit.com/r/StableDiffusion/comments/x8szj9/tutorial_seed_selection_and_the_impact_on_your/
- 小参数差异研究(步骤、clamp_max、ETA、cutn_batches等)https://twitter.com/KyrickYoung/status/1500196286930292742
- 生成式AI:一切的自动补全 https://noahpinion.substack.com/p/generative-ai-autocomplete-for-everything?sd=pf
- GPT是如何获得其能力的?追溯语言模型的涌现能力来源 一篇优秀的论文,详细记录了GPT系列模型的发展历程及其能力的演变过程。
- https://barryz-architecture-of-agentic-llm.notion.site/Almost-Everything-I-know-about-LLMs-d117ca25d4624199be07e9b0ab356a77
高级阅读
- https://github.com/Mooler0410/LLMsPracticalGuide
- 一份精心整理的重要论文清单
- https://github.com/eleutherAI/cookbook#the-cookbook Eleuther AI 的训练资源列表。可与 https://github.com/google-research/tuning_playbook 对照参考。
- 反炒作的 LLM 阅读清单 https://gist.github.com/veekaybee/be375ab33085102f9027853128dc5f0e
- OpenAI 的 Jason Wei 推荐的 6 篇论文(博客)
- GPT-3 论文(https://arxiv.org/abs/2005.14165)
- 思维链提示(https://arxiv.org/abs/2201.11903)
- 扩缩规律(https://arxiv.org/abs/2001.08361)
- 突现能力(https://arxiv.org/abs/2206.07682)
- 语言模型能够遵循翻转标签和语义无关的标签(https://arxiv.org/abs/2303.03846)
- LLM 论文笔记 - 来自 Latent Space 论文俱乐部 的笔记,作者为 Eugene Yan
- CMU LLM 课程大纲
- 解释 推理中的批处理,与 DeepSeek R1 相关
- 从头实现 Transformer https://e2eml.school/transformers.html
- Transformer 与 LSTM 的对比:https://medium.com/analytics-vidhya/why-are-lstms-struggling-to-matchup-with-transformers-a1cc5b2557e3
- Transformer 代码讲解:https://twitter.com/mark_riedl/status/1555188022534176768
- Transformer 家族:https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/
- Carmack 的论文列表:https://news.ycombinator.com/item?id=34639634
- Transformer 模型:介绍与目录:https://arxiv.org/abs/2302.07730
- DeepMind:Transformer 的形式化算法:https://arxiv.org/pdf/2207.09238.pdf
- Jay Alammar 的解释
- Karpathy 关于 Transformer 的见解
- 收敛:当前 AI 领域的整合令人惊叹。大约十年前,视觉、语音、自然语言处理、强化学习等领域彼此独立;跨领域阅读论文几乎不可能——方法完全不同,甚至很多并不基于机器学习。到了 2010 年代,这些领域开始转向 1) 机器学习,尤其是 2) 神经网络。尽管架构各异,但至少论文内容开始趋同,都依赖大规模数据集并优化神经网络。然而,近两三年来,各领域的神经网络架构也逐渐趋于一致——都是 Transformer(用约 200 行 PyTorch 代码即可定义 https://github.com/karpathy/minGPT/blob/master/mingpt/model.py…),仅存在细微差异。无论是作为强大的基线模型,还是(更常见地)最先进的模型。(推文风暴)
- 为什么 Transformer 胜出:Transformer 是一种卓越的神经网络架构,因为它是一种通用的可微分计算机。它同时具备:1) 表达性(前向传播中)2) 可优化性(通过反向传播和梯度下降)3) 高效性(高度并行的计算图)。推文风暴
- BabyGPT,使用两个标记 0/1,上下文长度为 3,将其视为有限状态马尔可夫链。它在序列“111101111011110”上训练了 50 次迭代。Transformer 的参数和架构会改变箭头上的概率。
- 从零构建 GPT:https://www.youtube.com/watch?v=kCc8FmEb1nY
- 用 60 行代码从零构建不同的 GPT:https://jaykmody.com/blog/gpt-from-scratch/
- 从头实现扩散模型:基于全新理论视角 - 以代码驱动的方式介绍扩散模型
- 大型语言模型的 137 种突现能力
- 突现的少样本提示任务:BIG-Bench 和 MMLU 基准测试
- 突现的提示策略
- 一些质疑——这些能力是海市蜃楼吗?只需避免使用过于严苛的指标即可
- 图片
- Eugene Yan 对文本到图像技术栈的解释:https://eugeneyan.com/writing/text-to-image/
- VQGAN/CLIP:https://minimaxir.com/2021/08/vqgan-clip/
- 图像生成十年史:https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis
- 视觉 Transformer (ViT) 解释:https://www.pinecone.io/learn/vision-transformers/
- 负面提示:https://minimaxir.com/2022/11/stable-diffusion-negative-prompt/
- 2022 年最佳论文:https://www.yitay.net/blog/2022-best-nlp-papers
- 大型生成模型中的可预测性与惊喜 - 一篇关于目前我们对 LLM 扩展性、能力及发展现状的优秀综述论文
- 更多提示工程相关论文:https://github.com/dair-ai/Prompt-Engineering-Guide
- https://creator.nightcafe.studio/vqgan-clip-keyword-modifier-comparison VQGAN+CLIP 关键词修饰符比较
- Transformer 的历史
- Richard Socher 谈论其对注意力机制的贡献,以及如何最终促成 Transformer 的诞生:https://overcast.fm/+r1P4nKfFU/1:00:00
- https://kipp.ly/blog/transformer-taxonomy/ 这份文档是我为想了解 AI 的人整理的持续更新的文献综述,涵盖了 22 种模型、11 种架构改进、7 种预训练后技术以及 3 种训练技术(还有 5 种不属于上述任何一类的内容)。
- 理解大型语言模型:快速掌握最相关文献的横断面
- 特别提到 Bandana et al (2014),他们被认为首次提出在 token 得分上应用 Softmax 函数来计算注意力,为 Vaswani et al (2017) 提出的原始 Transformer 奠定了基础。https://news.ycombinator.com/item?id=35589756
- https://finbarrtimbers.substack.com/p/five-years-of-progress-in-gpts GPT1/2/3、Megatron、Gopher、Chinchilla、PaLM、LLaMa
- 一篇优秀的总结论文(8 个要点):https://cims.nyu.edu/~sbowman/eightthings.pdf
- HuggingFace MOE 解释
- https://blog.alexalemi.com/kl-is-all-you-need.html
我们使用相同的提示和初始图像比较了126个关键词修饰符。以下是结果。
- https://creator.nightcafe.studio/collection/8dMYgKm1eVXG7z9pV23W
- Google发布了PartiPrompts作为基准测试:https://parti.research.google/ “PartiPrompts (P2) 是一套丰富的超过1600条英文提示,我们在此工作中一并发布。P2可用于衡量模型在各类别和挑战性方面的性能。”
- 视频教程
- 论文发展史
- 2008年:NLP统一架构(Collobert-Weston) https://twitter.com/ylecun/status/1611921657802768384
- 2015年:半监督序列学习 https://twitter.com/deliprao/status/1611896130589057025?s=20
- 2017年:Transformer(Vaswani等)
- 2018年:GPT(Radford等)
- 杂项
- StabilityAI首席信息官的观点 https://danieljeffries.substack.com/p/the-turning-point-for-truly-open?sd=pf
- https://github.com/awesome-stable-diffusion/awesome-stable-diffusion
- https://github.com/microsoft/LMOps 关于微软提示研究的指南
- gwern关于Bing、GPT4以及微软与OpenAI关系的幕后讨论 https://www.lesswrong.com/posts/jtoPawEhLNXNxvgTT/bing-chat-is-blatantly-aggressively-misaligned
其他类似列表
- https://gist.github.com/rain-1/eebd5e5eb2784feecf450324e3341c8d
- https://github.com/underlines/awesome-marketing-datascience/blob/master/awesome-ai.md#llama-models
- https://github.com/imaurer/awesome-decentralized-llm
社区
- Discord(参见https://buttondown.email/ainews 获取每日邮件摘要,实时更新)
- Latent Space Discord(我们的!)
- 通用黑客与学习
- 艺术
- StableDiffusion Discord
- Deforum Discord https://discord.gg/upmXXsrwZc
- Lexica Discord https://discord.com/invite/bMHBjJ9wRh
- AI研究
- LAION Discord https://discord.gg/xBPBXfcFHd
- Eleuther Discord:https://www.eleuther.ai/get-involved/(入门指南:https://blog.eleuther.ai/year-one/)
- 各类初创公司
- Perplexity Discord https://discord.com/invite/kWJZsxPDuX
- Midjourney的Discord
- https://stablehorde.net/
- 代理
- AutoGPT Discord
- BabyAGI Discord
- 代理
人物
*许多人并不知道,如今越来越多的前沿信息已经不在Arxiv上,来源包括但不限于:https://github.com/trending、HN、那些小众的Discord服务器、X上的动漫头像匿名用户、Reddit *- K
这份列表可能会过时,但可以作为起点。我实时关注的人物列表位于:https://twitter.com/i/lists/1585430245762441216
- 研究人员/开发者
- https://twitter.com/_jasonwei
- https://twitter.com/johnowhitaker/status/1565710033463156739
- https://twitter.com/altryne/status/1564671546341425157
- https://twitter.com/SchmidhuberAI
- https://twitter.com/nearcyan
- https://twitter.com/karinanguyen_
- https://twitter.com/abhi_venigalla
- https://twitter.com/advadnoun
- https://twitter.com/polynoamial
- https://twitter.com/vovahimself
- https://twitter.com/sarahookr
- https://twitter.com/shaneguML
- https://twitter.com/MaartenSap
- https://twitter.com/ethanCaballero
- https://twitter.com/ShayneRedford
- https://twitter.com/seb_ruder
- https://twitter.com/rasbt
- https://twitter.com/wightmanr
- https://twitter.com/GaryMarcus
- https://twitter.com/ylecun
- https://twitter.com/karpathy
- https://twitter.com/pirroh
- https://twitter.com/eerac
- https://twitter.com/teknium
- https://twitter.com/alignment_lab
- https://twitter.com/picocreator
- https://twitter.com/charlespacker
- https://twitter.com/ldjconfirmed
- https://twitter.com/nisten
- https://twitter.com/far__el
- https://twitter.com/i/lists/1713824630241202630
- 新闻/聚合者
- https://twitter.com/ai__pub
- https://twitter.com/WeirdStableAI
- https://twitter.com/multimodalart
- https://twitter.com/LastWeekinAI
- https://twitter.com/paperswithcode
- https://twitter.com/DeepLearningAI_
- https://twitter.com/dl_weekly
- https://twitter.com/slashML
- https://twitter.com/_akhaliq
- https://twitter.com/aaditya_ai
- https://twitter.com/bentossell
- https://twitter.com/johnvmcdonnell
- 创始人/建设者/风投
- https://twitter.com/levelsio
- https://twitter.com/goodside
- https://twitter.com/c_valenzuelab
- https://twitter.com/Raza_Habib496
- https://twitter.com/sharifshameem/status/1562455690714775552
- https://twitter.com/genekogan/status/1555184488606564353
- https://twitter.com/levelsio/status/1566069427501764613?s=20&t=camPsWtMHdSSEHqWd0K7Ig
- https://twitter.com/amanrsanger
- https://twitter.com/ctjlewis
- https://twitter.com/sarahcat21
- https://twitter.com/jackclarkSF
- https://twitter.com/alexandr_wang
- https://twitter.com/rameerez
- https://twitter.com/scottastevenson
- https://twitter.com/denisyarats
- 稳定性相关
- OpenAI
- HuggingFace
- 艺术家
- 其他
- 机器人与应用
引言、現實與降溫論
- 狹隘、枯燥的領域用例 https://twitter.com/WillManidis/status/1584900092615528448 和 https://twitter.com/WillManidis/status/1584900100480192516
- 反炒作 https://twitter.com/alexandr_wang/status/1573302977418387457
- 反炒作 https://twitter.com/fchollet/status/1612142423425138688?s=46&t=pLCNW9pF-co4bn08QQVaUg
- 提示工程相關迷因
- Stable Diffusion 遇到的困難 https://opguides.info/posts/aiartpanic/
- 新版 Google
- 新版 PowerPoint
- 由 emad 提及
- UI 中默認追加提示詞
- 此前曾歷經兩次寒冬,分別是 1974–1980 年和 1987–1993 年。https://www.erichgrunewald.com/posts/the-prospect-of-an-ai-winter/。更多評論請見 這裡。相關概念——AI 效應——“一旦它能運作,就不再是 AI 了”。
- 不過就是矩陣乘法/隨機鸚鵡模型而已
- 連 LLM 怀疑论者 Yann LeCun 也認為 LLM 具備一定理解能力:https://twitter.com/ylecun/status/1667947166764023808
- Gary Marcus 的文章《深度學習正遭遇瓶頸》https://nautil.us/deep-learning-is-hitting-a-wall-238440/ 主張推動符號系統發展。
- “過來人”反炒作派→憂慮者
法律、倫理與隱私
- 不適宜內容過濾器 https://vickiboykis.com/2022/11/18/some-notes-on-the-stable-diffusion-safety-filter/
- 論“AI藝術恐慌” https://opguides.info/posts/aiartpanic/
- [我透過 Midjourney 損失了所有讓我熱愛工作的東西] (https://old.reddit.com/r/blender/comments/121lhfq/i_lost_everything_that_made_me_love_my_job/)
- [Midjourney 藝術家名單] (https://www.theartnewspaper.com/2024/01/04/leaked-names-of-16000-artists-used-to-train-midjourney-ai#)
- Yannick 對 OPENRAIL-M 的影響 https://www.youtube.com/watch?v=W5M-dvzpzSQ
- 接受 AI 美術作品的藝術院校 https://twitter.com/DaveRogenmoser/status/1597746558145265664
- DRM 問題 https://undeleted.ronsor.com/voice.ai-gpl-violations-with-a-side-of-drm/
- 偷竊藝術作品 https://stablediffusionlitigation.com
- http://www.stablediffusionfrivolous.com/
- Stable Diffusion 的歸屬問題 https://news.ycombinator.com/item?id=34670136
- 迪士尼方面的反駁意見 https://twitter.com/jonst0kes/status/1616219435492163584?s=46&t=HqQqDH1yEwhWUSQxYTmF8w
- 關於 Stable Diffusion 翻譯抄襲的研究 https://twitter.com/officialzhvng/status/1620535905298817024?s=20&t=NC-nW7pfDa8nyRD08Lx1Nw。這篇論文使用 Stable Diffusion 根據 35 萬個提示生成了 1.75 億張圖像,結果只發現 109 張與訓練數據極為相似的複製品。我的主要結論是否應該是:Stable Diffusion 在避免記憶訓練樣本方面表現得非常出色?
- 網頁內容抓取
- 授權許可
- [AI 模型參數並非開放“源代碼”——Sid Sijbrandij] (https://opencoreventures.com/blog/2023-06-27-ai-weights-are-not-open-source/)
- 多樣性與公平性
- 將少數族裔性化 https://twitter.com/lanadenina/status/1680238883206832129,原因在於“色情內容擅長處理人體形象” https://twitter.com/levelsio/status/1680665706235404288
- [OpenAI 為了讓 DallE 更具多樣性,隨意加上“黑人”字樣] (https://twitter.com/rzhang88/status/1549472829304741888?s=20)
- 隱私——保密計算 https://www.edgeless.systems/blog/how-confidential-computing-and-ai-fit-together/
- AI 取代工作 https://donaldclarkplanb.blogspot.com/2024/02/this-is-why-idea-that-ai-will-just.html
对齐、安全
- Anthropic - https://arxiv.org/pdf/2112.00861.pdf
- 有益:尝试完成用户请求。简洁高效,适时追问,引导偏离主题的问题。
- 诚实:提供准确信息,坦诚表达不确定性。若自身不具备相应能力或知识,则不模仿专家的回答。
- 无害:避免冒犯或歧视性内容。拒绝协助任何危险行为。能够识别敏感或具有重大影响的建议。
- 关于批评与界限的未来方向:https://twitter.com/davidad/status/1628489924235206657?s=46&t=TPVwcoqO8qkc7MuaWiNcnw
- 埃利泽·尤德科夫斯基的全部著作
- https://twitter.com/esyudkowsky/status/1625922986590212096
- AGI 致命性列表:https://www.lesswrong.com/posts/uMQ3cqWDPHhjtiesc/agi-ruin-a-list-of-lethalities
- 需要注意的是,埃利泽过去及近期都曾发表过颇具争议的言论(过去 及 最近),相关讨论也见于 TIME 文章。
- 康纳·利希可能是尤德科夫斯基更为理性、审慎且技术更扎实的版本:https://overcast.fm/+aYlOEqTJ0
- 六个月暂停实验的公开信
- https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- 扬·勒丘恩与吴恩达的辩论:https://www.youtube.com/watch?v=BY9KV8uCtj4
- 斯科特·阿伦森的相关博文:https://scottaaronson.blog/?p=7174
- 艾米丽·本德的回应:https://twitter.com/emilymbender/status/1640920936600997889
- 杰弗里·辛顿离开谷歌:https://news.ycombinator.com/item?id=35771104
- 随后发表了一封简短的公开信:https://www.nytimes.com/2023/05/30/technology/ai-threat-warning.html
- X风险
- OpenAI 超对齐计划:https://www.youtube.com/watch?v=ZP_N4q5U3eE
监管
- 中国监管政策:https://www.chinalawtranslate.com/en/overview-of-draft-measures-on-generative-ai/
- https://twitter.com/mmitchell_ai/status/1647697067006111745?s=46&t=90xQ8sGy63D2OtiaoGJuww
- 中国是全球主要大国中唯一一个明确[监管]生成式 AI 的国家。
- 意大利禁止 ChatGPT
- 在日本举行的年度会议上,由工业化民主国家组成的非正式组织七国集团(G7)宣布了广岛进程——一个被赋予调查生成式 AI 风险职权的政府间工作组。G7 成员国包括加拿大、法国、德国、意大利、日本、英国和美国,承诺制定相互兼容的法律,并依据民主价值观来监管 AI,这些价值观包括公平、问责制、透明度、安全性、数据隐私、防止滥用以及尊重人权。
- 美国总统乔·拜登发布了一份关于 AI 的战略计划。该倡议呼吁美国监管机构开发用于训练、衡量和评估 AI 系统的公共数据集、基准测试和标准。
- 本月早些时候,法国数据隐私监管机构宣布了一项针对生成式 AI 的监管框架。
- 监管与 X风险的关系:https://1a3orn.com/sub/essays-regulation-stories.html
- GPT-4V 中的多模态提示注入攻击
杂项
- Whisper
- https://huggingface.co/spaces/sensahin/YouWhisper YouWhisper 使用 openai/whisper 将 YouTube 视频转换为文本。
- https://twitter.com/jeffistyping/status/1573145140205846528 YouTube Whisperer
- 多语言字幕 https://twitter.com/1littlecoder/status/1573030143848722433
- 视频字幕 https://twitter.com/m1guelpf/status/1574929980207034375
- 你可以将 Whisper 与 Stable Diffusion 结合使用,原因见 https://twitter.com/fffiloni/status/1573733520765247488/photo/1
- 已知问题 https://twitter.com/lunixbochs/status/1574848899897884672(极端情况下可能导致灾难性失败)
- 基于文本的音频生成 https://twitter.com/FelixKreuk/status/1575846953333579776
- Codegen
- PDF 转结构化数据 - Impira 曾经用它来实现(已失效链接:https://www.impira.com/blog/hey-machine-whats-my-invoice-total),但如果在 Twitter 上仔细搜索,还是能找到一些替代方案。
- 文本到人体运动扩散模型 https://twitter.com/GuyTvt/status/1577947409551851520
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。