ai-notes

6.2k 551 非常简单 1 次阅读昨天MITAgent开发框架其他图像语言模型

AI 解读由 AI 自动生成，仅供参考

ai-notes 是一个专为软件工程师打造的 AI 技术知识库，旨在帮助从业者快速掌握生成式 AI 与大语言模型领域的最新动态。面对人工智能技术迭代极快、信息碎片化严重的痛点，它将原本分散的技术资讯、产品构思及权威参考进行了系统化梳理与沉淀，解决了开发者难以高效追踪前沿进展的问题。

该资源库内容覆盖广泛，不仅包含文本生成（如 GPT-4）、代码辅助、语音处理等核心领域的深度笔记，还特别强化了图像生成（如 Stable Diffusion）的基础设施与硬件扩展知识。其独特亮点在于提供了大量经过验证的“提示词速查表”（Swipe Files），涵盖文本与图像创作的高质量范例，并持续更新关于"AI 智能体”等新兴方向的探索性文档。此外，它还整理了法律伦理、行业社区及关键人物观点，形成了从理论到实践的全景视图。

ai-notes 非常适合希望深入理解 AI 工程化的开发者、研究人员以及需要灵感的技术型设计师使用。无论是寻找具体的实现方案，还是把握宏观技术趋势，这里都能提供清晰、可靠且持续更新的“原材料”，助你在快速变化的 AI 浪潮中保持敏锐与高效。

使用场景

一位全栈开发者正试图为新产品集成最新的生成式 AI 功能，需要在短时间内掌握从文本大模型到图像生成的前沿技术栈。

没有 ai-notes 时

信息碎片化严重：开发者需在 Twitter、Hugging Face 和各技术博客间反复跳转，难以系统性地获取关于 Stable Diffusion 或 GPT-4 的最新进展。
提示词调试成本高：缺乏经过验证的提示词库（Swipe File），每次尝试图像生成或复杂文本任务时都要从零开始摸索，浪费大量时间在无效参数调整上。
基础设施认知盲区：对 AI 硬件选型、模型缩放规律等底层架构知识（INFRA.md）缺乏清晰指引，导致技术方案设计时容易忽略性能瓶颈。
资源链接失效快：收藏的教程和工具链接随时间推移迅速过时或失效，无法找到长期稳定的权威参考源（Canonical References）。

使用 ai-notes 后

知识体系结构化：直接通过 IMAGE_GEN.md 和 TEXT.md 等分类文件，快速获取按领域整理好的状态-of-the-art 综述，建立完整的技术地图。
即拿即用的提示词库：参考 IMAGE_PROMPTS.md 和 TEXT_PROMPTS.md 中精选的高质量案例，大幅缩短原型开发周期，快速产出可用结果。
工程落地有依据：查阅 INFRA.md 中的原始笔记，清晰理解算力需求与扩展策略，避免在架构设计阶段犯低级错误。
永久有效的资源索引：利用 /Resources 文件夹中清洗过的规范引用，确保团队内部共享的学习资料和技术文档长期可靠、随时可查。

ai-notes 将散乱的 AI 前沿资讯转化为软件工程师可立即执行的结构化工程资产，显著降低了新技术的学习与落地门槛。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（ai-notes）并非一个可执行的 AI 软件工具或代码库，而是一个关于人工智能（特别是生成式 AI 和大语言模型）的状态、资源、案例研究和阅读列表的知识库/笔记集合。它由多个 Markdown 文件组成，用于记录行业动态、教程链接和应用案例。因此，它不需要特定的操作系统、GPU、内存、Python 环境或依赖库来运行，仅需一个能够查看 Markdown 文件的文本编辑器或浏览器即可。

python未说明

快速开始

AI 笔记

关于人工智能最新进展的笔记，重点关注生成式模型和大型语言模型。这些内容是 https://lspace.swyx.io/ 新闻通讯的“原材料”。

此仓库曾名为 https://github.com/sw-yx/prompt-eng，但因提示工程被过度炒作而更名。现在它是一个关于 AI 工程的笔记仓库。

本 README 只是对该领域的高层次概述；更多更新请参阅此仓库中的其他 Markdown 文件：

TEXT.md - 文本生成，主要基于 GPT-4
- TEXT_CHAT.md - 关于 ChatGPT 及其竞争对手，以及衍生产品的信息
- TEXT_SEARCH.md - 关于 GPT-4 支持的语义搜索及其他相关信息
- TEXT_PROMPTS.md - 一份小型的提示词库，收录了一些优秀的 GPT-3 提示词
INFRA.md - 关于 AI 基础设施、硬件及扩展的原始笔记
AUDIO.md - 跟踪音频/音乐/语音转录与生成相关进展
CODE.md - 代码生成模型，例如 Copilot
IMAGE_GEN.md - 内容最为丰富的一份文件，重点介绍 Stable Diffusion，并简要提及 MidJourney 和 DALL·E。
- IMAGE_PROMPTS.md - 一份小型的提示词库，收录了一些优秀的图像提示词
资源：整理好的常用资源，适合永久链接引用
草稿笔记 - 针对未来可能覆盖主题的极简轻量级初稿页面 - AGENTS.md - 跟踪“智能体式 AI”
博客选题 - 根据这些笔记提炼出的潜在博客文章选题，因为…

激励性应用场景
AI 精选阅读
社区
人物
杂项
名言、现实与反思
法律、伦理与隐私

激励性应用场景

图像
视频
- 著名电影场景的 img2img（爱乐之城）
  - 演员转换的 img2img，使用 ebsynth + koe_recast
  - ebsynth 的工作原理 https://twitter.com/TomLikesRobots/status/1612047103806545923?s=20
- 虚拟时尚（karenxcheng）
- 无缝拼接图像
- 场景演变（xander）
- 外延绘画 https://twitter.com/orbamsterdam/status/1568200010747068417?s=21&t=rliacnWOIjJMiS37s8qCCw
- WebUI img2img 协作 https://twitter.com/_akhaliq/status/1563582621757898752
- 图像转视频并旋转 https://twitter.com/TomLikesRobots/status/1571096804539912192
- “提示绘画” https://twitter.com/1littlecoder/status/1572573152974372864
- 将你的脸动画化为音频2视频 https://twitter.com/siavashg/status/1597588865665363969
- 实体玩具转 3D 模型 + 动画 https://twitter.com/sergeyglkn/status/1587430510988611584
- 音乐视频
  - Video Killed the Radio Star，Colab。该项目使用 OpenAI 的 Whisper 语音转文本功能，允许你输入 YouTube 视频，并根据视频中的歌词生成 Stable Diffusion 动画。
  - Stable Diffusion 视频，通过在提示词和音频之间插值生成视频。
- 直接的文本2视频项目
文本转 3D https://twitter.com/_akhaliq/status/1575541930905243652
- https://dreamfusion3d.github.io/
- 开源实现：https://github.com/ashawkey/stable-dreamfusion
  - 演示 https://twitter.com/_akhaliq/status/1578035919403503616
文本类产品
- 在文末列出了用例清单 https://huyenchip.com/2023/04/11/llm-engineering.html
- Jasper
- GPT for Obsidian https://reasonabledeviations.com/2023/02/05/gpt-for-second-brain/
- gpt3 邮件 https://github.com/sw-yx/gpt3-email 和邮件聚类
- Google 表格中的 gpt3() 2020，2022 - 表格 Google 表格 https://twitter.com/mehran__jalali/status/1608159307513618433
  - https://gpt3demo.com/apps/google-sheets
  - Charm https://twitter.com/shubroski/status/1620139262925754368?s=20
- https://www.summari.com/ Summari 帮助忙碌的人们阅读更多内容。
市场地图/格局
- Elad Gil 2024 堆栈图
- Sequoia 市场地图 2023 年 1 月，2023 年 7 月，2023 年 9 月
- Base10 市场地图 https://twitter.com/letsenhance_io/status/1594826383305449491
- Matt Shumer 市场地图 https://twitter.com/mattshumer_/status/1620465468229451776 https://docs.google.com/document/d/1sewTBzRF087F6hFXiyeOIsGC1N4N3O7rYzijVexCgoQ/edit
- NFX https://www.nfx.com/post/generative-ai-tech-5-layers?ref=context-by-cohere
- a16z https://a16z.com/2023/01/19/who-owns-the-generative-ai-platform/
  - https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/
  - https://a16z.com/100-gen-ai-apps
- Madrona https://www.madrona.com/foundation-models/
- Coatue
  - https://www.coatue.com/blog/perspective/ai-the-coming-revolution-2023
  - https://x.com/Sam_Awrabi/status/1742324900034150646?s=20
游戏资源 -

顶级 AI 阅读材料

更高级的 GPT3 相关阅读已被整理至 https://github.com/sw-yx/ai-notes/blob/main/TEXT.md

初学者读物

Karpathy 2025年大语言模型入门 (摘要)
比尔·盖茨谈AI (推文)
- “AI的发展与微处理器、个人电脑、互联网和手机的诞生同样具有根本性意义。它将改变人们的工作、学习、旅行、医疗保健以及彼此交流的方式。”
Steve Yegge谈开发者如何利用AI
Karpathy 2023年大语言模型入门（来自Sarah Chieng的笔记）
NeurIPS会议上OpenAI发布的提示工程指南，由Sarah Chieng分享
为什么这一波AI浪潮可能是真正的突破
Sam Altman - 万物的摩尔定律
MSR关于基础模型的优秀入门介绍：https://youtu.be/HQI6O5DlyFc
OpenAI提示教程：https://beta.openai.com/docs/quickstart/add-some-examples
Google LAMDA简介：https://aitestkitchen.withgoogle.com/how-lamda-works
Karpathy的梯度下降课程
FT的可视化故事：“Transformer的工作原理”
DALL-E 2提示编写手册：http://dallery.gallery/wp-content/uploads/2022/07/The-DALL%C2%B7E-2-prompt-book-v1.02.pdf
https://medium.com/nerd-for-tech/prompt-engineering-the-career-of-future-2fb93f90f117
如何用AI完成各种任务，涵盖获取信息、处理数据和生成图像等方面
https://ourworldindata.org/brief-history-of-ai，附带精美图表的AI发展历程概述
Jon Stokes的AI内容生成，第一部分：机器学习基础
吴恩达——AI领域的机遇
什么是Transformer模型？它们是如何工作的？——或许略显过于高阶
文本生成
- Humanloop的提示工程入门
- Stephen Wolfram的解释：https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
- Jon Stokes的类似内容：jonstokes.com/p/the-chat-stack-gpt-4-and-the-near
- https://andymatuschak.org/prompts/
- Cohere的LLM大学：https://docs.cohere.com/docs/llmu
  - Jay Alammar的全面指南：https://llm.university/
- https://www.jonstokes.com/p/chatgpt-explained-a-guide-for-normies，面向普通用户的ChatGPT详解
图像生成
- https://wiki.installgentoo.com/wiki/Stable_Diffusion概览
- https://www.reddit.com/r/StableDiffusion/comments/x41n87/how_to_get_images_that_dont_suck_a/
- https://mpost.io/best-100-stable-diffusion-prompts-the-most-beautiful-ai-text-to-image-prompts/
- https://www.kdnuggets.com/2021/03/beginners-guide-clip-model.html
- https://www.seangoedecke.com/diffusion-models-explained/
非技术类
- https://www.jonstokes.com/p/ai-content-generation-part-1-machine
- https://www.protocol.com/generative-ai-startup-landscape-map
- https://twitter.com/saranormous/status/1572791179636518913

中级读物

AI发展状况报告: 2018, 2019, 2020, 2021, 2022
- 按时间倒序排列的重大事件：https://bleedingedge.ai/
- 我们对大语言模型的了解 - 一份出色的研究综述
- Karpathy关于大语言模型的1小时指南 - 摘要来自Sarah Chieng
  - 1. 什么是大型语言模型（LLM）？
    - LLM主要有两个组成部分
      - LLM的作用是什么？
  1. 如何创建一个LLM？
    - 第一阶段：模型预训练
    - 第二阶段：模型微调
      - 第二步b：[可选] 进一步微调
    - 第三阶段：模型推理
    - 第四阶段：[可选] 通过定制化增强LLM性能
  2. 当前的LLM“排行榜”
  3. LLM的未来：接下来会怎样？
    - 如何提升LLM的表现？
      - LLM扩展定律
      - 自我改进
    - 如何提升LLM的能力？
      - 多模态
      - 系统1+2思维
  4. LLM的“黑暗艺术”
    - 越狱
    - 提示注入
    - 数据投毒与后门攻击
  - Evan Morikawa关于LLM数学的指南，尤其是其中关于5大扩展挑战的部分
- 黑客视角下的语言模型指南 (YouTube) Jeremy Howard的90分钟全面概述，从基础开始：所有现代LLM采用的三步预训练/微调/分类器ULMFiT方法。
- https://spreadsheets-are-all-you-need.ai
- "跟上大语言模型的奇妙世界" - Simon Willison的40分钟概述 + AI工程师的开放问题
- Flyte关于LLM的概述
- Clementine Fourrier讲解评估如何进行
- VLM从零到英雄 (推文)
- 构建基于LLM系统和产品的模式 - 非常好的总结
  - 评估: 用于衡量性能
  - RAG: 用于添加最新的外部知识
  - 微调: 用于提升特定任务的表现
  - 缓存: 用于降低延迟和成本
  - 护栏: 用于确保输出质量
  - 防御性用户体验: 用于提前预测并优雅地处理错误
  - 收集用户反馈: 用于构建我们的数据飞轮
- 向量数据库：技术入门[PDF]，非常棒的向量数据库幻灯片
  - 缺少对混合搜索（向量+词法）的介绍。更多讨论
- 机器学习视觉导论
- A16z AI经典文献 https://a16z.com/2023/05/25/ai-canon/
  - 软件2.0: Andrej Karpathy是最早清晰阐述（2017年！）新一轮AI浪潮为何如此重要的专家之一。他的观点是，AI是一种全新且强大的编程方式。随着LLM的迅速进步，这一理论愈发具有前瞻性，也为理解AI市场的发展方向提供了良好的思维框架。
  - GPT现状: 同样出自Karpathy之手，这篇材料以通俗易懂的方式解释了ChatGPT/GPT模型的工作原理、使用方法以及研发可能的方向。
  - ChatGPT在做什么……为什么它能成功？: 计算机科学家兼企业家Stephen Wolfram从基本原理出发，用深入浅出的语言详细解释了现代AI模型的工作机制。他梳理了从早期神经网络到如今的LLM及ChatGPT的发展脉络。
  - Transformer详解: Dale Markowitz的这篇短文直接回答了“什么是LLM，它是如何工作的？”这一问题。对于初学者来说，这是一个很好的入门方式，有助于培养对这项技术的直观理解。虽然文章最初是针对GPT-3撰写的，但同样适用于更新的模型。
  - Stable Diffusion的工作原理: 这是计算机视觉领域中与上一篇类似的说明。Chris McCormick用通俗的语言解释了Stable Diffusion的工作原理，并帮助读者建立对文本到图像模型的整体认识。如果想要更轻松的入门，可以参考r/StableDiffusion社区中的这张漫画。
    - (2025) 3blue1brown关于扩散过程的工作原理
  - 解释类资源
    - 深度学习要点：核心概念: NVIDIA推出的四部分系列文章，介绍了2015年时深度学习的基础知识，非常适合刚开始接触AI的人士。
    - 面向程序员的实用深度学习课程: 一门全面且免费的课程，通过实际案例和代码讲解AI的基础知识。
    - Word2vec详解: 一种简单易懂的嵌入和标记介绍，它们是LLM（以及所有语言模型）的基本构建块。
      - https://news.ycombinator.com/item?id=44708028
    - 是的，你应该理解反向传播: 如果你想深入了解反向传播的细节，这篇更深入的文章值得一读。若想进一步学习，可以观看斯坦福CS231n讲座（课程链接)。
  - 课程
    - 斯坦福CS229: Andrew Ng主讲的机器学习入门课程，涵盖机器学习的基础知识。
    - 斯坦福CS224N: Chris Manning主讲的深度学习自然语言处理课程，从NLP基础知识讲起，直至第一代LLM。
- https://github.com/mlabonne/llm-course
- https://cims.nyu.edu/~sbowman/eightthings.pdf
  1. 随着投入的增加，LLM的能力会按预期不断提升，即使没有针对性的创新也是如此。
  2. 许多重要的LLM行为会在投入增加的过程中作为副产品意外出现。
  3. LLM似乎经常能够学习并使用关于外部世界的表征。
  4. 目前尚无可靠的方法来引导LLM的行为。
  5. 专家们还无法解释LLM内部的具体运作机制。
  6. 人类在某项任务上的表现并非LLM性能的上限。
  7. LLM无需表达其创造者的价值观，也不必遵循网络文本中所蕴含的价值观。
  8. 与LLM的短暂交互往往会产生误导。
  9. simonw强调了https://fedi.simonwillison.net/@simon/110144185463887790
- LLM研究中的10个开放性挑战 https://huyenchip.com/2023/08/16/llm-research-open-challenges.html
- OpenAI提示工程食谱 https://github.com/openai/openai-cookbook/blob/main/techniques_to_improve_reliability.md
- 关于提示工程的概述 https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
- https://moultano.wordpress.com/2023/06/28/the-many-ways-that-digital-minds-can-know/ 对比搜索与AI
- 2022年主要AI进展回顾 https://www.deeplearning.ai/the-batch/issue-176/
- DALLE2资产生成+修复绘画 https://twitter.com/aifunhouse/status/1576202480936886273?s=20&t=5EXa1uYDPVa2SjZM-SxhCQ
- suhail旅程 https://twitter.com/Suhail/status/1541276314485018625?s=20&t=X2MVKQKhDR28iz3VZEEO8w
- 可组合扩散 - “AND”代替“and” https://twitter.com/TomLikesRobots/status/1580293860902985728
- 关于BPE分词 https://towardsdatascience.com/byte-pair-encoding-subword-based-tokenization-algorithm-77828a70bee0，也可参阅Google SentencePiece和OpenAI TikToken。
  - 可在此处查看可视化效果：https://lucalp.dev/bitter-lesson-tokenization-and-blt/
  - 来源见GPT2代码：https://github.com/openai/gpt-2/blob/master/src/encoder.py
  - 需要注意的是，BPE存在不足之处：https://www.lesswrong.com/posts/dFbfCLZA4pejckeKc/a-mechanistic-explanation-for-solidgoldmagikarp-like-tokens?commentId=9jNdKscwEWBB4GTCQ
    - //----------------------------------------------------------------------------------------------------------------是一个GPT-4令牌
    - GPT-3.5会在过度思考useRalativeImagePath时崩溃
    - 导致数学和字符串字符相关问题：https://news.ycombinator.com/item?id=35363769
    - 并引发评估问题
    - 异常令牌是在分词器使用的数据集与LLM不一致时产生的
    - Karpathy谈为什么分词很复杂
  - https://platform.openai.com/tokenizer 和 https://github.com/openai/tiktoken（更最新版本：https://tiktokenizer.vercel.app/）
  - Wordpiece -> BPE -> SentenceTransformer
    - 关于嵌入的初步阅读
    - https://youtu.be/QdDoFfkVkcw?si=qefZSDDSpxDNd313
    - Huggingface MTEB基准测试众多嵌入
    - GPT3嵌入的一些显著问题以及可供考虑的替代方案
  - https://observablehq.com/@simonw/gpt-3-token-encoder-decoder
  - Karpathy希望分词最终能被取代：https://twitter.com/karpathy/status/1657949234535211009
  - 对于仅解码器而言，无需位置编码：https://twitter.com/a_kazemnejad/status/1664277559968927744?s=20
- 创造自己的语言 https://twitter.com/giannis_daras/status/1531693104821985280
- Google Cloud生成式AI学习路径 https://www.cloudskillsboost.google/paths/118
- 图像转图像 https://andys.page/posts/how-to-draw/
- 关于语言建模 https://lena-voita.github.io/nlp_course/language_modeling.html，提供通俗但技术性强的语言生成解释，包括从分布中采样以及一些机制层面的可解释性（例如找到跟踪引文状态的神经元）。
- 追求照片级真实感 https://www.reddit.com/r/StableDiffusion/comments/x9zmjd/quest_for_ultimate_photorealism_part_2_colors/
  - https://medium.com/merzazine/prompt-design-for-dall-e-photorealism-emulating-reality-6f478df6f186
- 设置调整 https://www.reddit.com/r/StableDiffusion/comments/x3k79h/the_feeling_of_discovery_sd_is_like_a_great_proc/
  - 种子选择 https://www.reddit.com/r/StableDiffusion/comments/x8szj9/tutorial_seed_selection_and_the_impact_on_your/
  - 小参数差异研究（步骤、clamp_max、ETA、cutn_batches等）https://twitter.com/KyrickYoung/status/1500196286930292742
  - 生成式AI：一切的自动补全 https://noahpinion.substack.com/p/generative-ai-autocomplete-for-everything?sd=pf
  - GPT是如何获得其能力的？追溯语言模型的涌现能力来源一篇优秀的论文，详细记录了GPT系列模型的发展历程及其能力的演变过程。
https://barryz-architecture-of-agentic-llm.notion.site/Almost-Everything-I-know-about-LLMs-d117ca25d4624199be07e9b0ab356a77

高级阅读

https://github.com/Mooler0410/LLMsPracticalGuide
- 一份精心整理的重要论文清单
https://github.com/eleutherAI/cookbook#the-cookbook Eleuther AI 的训练资源列表。可与 https://github.com/google-research/tuning_playbook 对照参考。
反炒作的 LLM 阅读清单 https://gist.github.com/veekaybee/be375ab33085102f9027853128dc5f0e
OpenAI 的 Jason Wei 推荐的 6 篇论文（博客）
- GPT-3 论文（https://arxiv.org/abs/2005.14165）
- 思维链提示（https://arxiv.org/abs/2201.11903）
- 扩缩规律（https://arxiv.org/abs/2001.08361）
- 突现能力（https://arxiv.org/abs/2206.07682）
- 语言模型能够遵循翻转标签和语义无关的标签（https://arxiv.org/abs/2303.03846）
LLM 论文笔记 - 来自 Latent Space 论文俱乐部的笔记，作者为 Eugene Yan
CMU LLM 课程大纲
解释推理中的批处理，与 DeepSeek R1 相关
从头实现 Transformer https://e2eml.school/transformers.html
- Transformer 与 LSTM 的对比：https://medium.com/analytics-vidhya/why-are-lstms-struggling-to-matchup-with-transformers-a1cc5b2557e3
- Transformer 代码讲解：https://twitter.com/mark_riedl/status/1555188022534176768
- Transformer 家族：https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/
  - Carmack 的论文列表：https://news.ycombinator.com/item?id=34639634
  - Transformer 模型：介绍与目录：https://arxiv.org/abs/2302.07730
  - DeepMind：Transformer 的形式化算法：https://arxiv.org/pdf/2207.09238.pdf
- Jay Alammar 的解释
  - https://jalammar.github.io/illustrated-transformer/
  - https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/
Karpathy 关于 Transformer 的见解
- 收敛：当前 AI 领域的整合令人惊叹。大约十年前，视觉、语音、自然语言处理、强化学习等领域彼此独立；跨领域阅读论文几乎不可能——方法完全不同，甚至很多并不基于机器学习。到了 2010 年代，这些领域开始转向 1) 机器学习，尤其是 2) 神经网络。尽管架构各异，但至少论文内容开始趋同，都依赖大规模数据集并优化神经网络。然而，近两三年来，各领域的神经网络架构也逐渐趋于一致——都是 Transformer（用约 200 行 PyTorch 代码即可定义 https://github.com/karpathy/minGPT/blob/master/mingpt/model.py…），仅存在细微差异。无论是作为强大的基线模型，还是（更常见地）最先进的模型。（推文风暴)
- 为什么 Transformer 胜出：Transformer 是一种卓越的神经网络架构，因为它是一种通用的可微分计算机。它同时具备：1) 表达性（前向传播中）2) 可优化性（通过反向传播和梯度下降）3) 高效性（高度并行的计算图）。推文风暴
  - https://twitter.com/karpathy/status/1593417989830848512?s=20
  - 更详细的阐述见 1 小时斯坦福讲座和 8 分钟 Lex Fridman 总结
- BabyGPT，使用两个标记 0/1，上下文长度为 3，将其视为有限状态马尔可夫链。它在序列“111101111011110”上训练了 50 次迭代。Transformer 的参数和架构会改变箭头上的概率。
- 从零构建 GPT：https://www.youtube.com/watch?v=kCc8FmEb1nY
- 用 60 行代码从零构建不同的 GPT：https://jaykmody.com/blog/gpt-from-scratch/
从头实现扩散模型：基于全新理论视角 - 以代码驱动的方式介绍扩散模型
大型语言模型的 137 种突现能力
- 突现的少样本提示任务：BIG-Bench 和 MMLU 基准测试
- 突现的提示策略
- 一些质疑——这些能力是海市蜃楼吗？只需避免使用过于严苛的指标即可
  - https://www.jasonwei.net/blog/common-arguments-regarding-emergent-abilities
  - https://hai.stanford.edu/news/ais-ostensible-emergent-abilities-are-mirage
- 图片
  - Eugene Yan 对文本到图像技术栈的解释：https://eugeneyan.com/writing/text-to-image/
  - VQGAN/CLIP：https://minimaxir.com/2021/08/vqgan-clip/
  - 图像生成十年史：https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis
  - 视觉 Transformer (ViT) 解释：https://www.pinecone.io/learn/vision-transformers/
- 负面提示：https://minimaxir.com/2022/11/stable-diffusion-negative-prompt/
- 2022 年最佳论文：https://www.yitay.net/blog/2022-best-nlp-papers
- 大型生成模型中的可预测性与惊喜 - 一篇关于目前我们对 LLM 扩展性、能力及发展现状的优秀综述论文
更多提示工程相关论文：https://github.com/dair-ai/Prompt-Engineering-Guide
https://creator.nightcafe.studio/vqgan-clip-keyword-modifier-comparison VQGAN+CLIP 关键词修饰符比较
Transformer 的历史
- Richard Socher 谈论其对注意力机制的贡献，以及如何最终促成 Transformer 的诞生：https://overcast.fm/+r1P4nKfFU/1:00:00
- https://kipp.ly/blog/transformer-taxonomy/ 这份文档是我为想了解 AI 的人整理的持续更新的文献综述，涵盖了 22 种模型、11 种架构改进、7 种预训练后技术以及 3 种训练技术（还有 5 种不属于上述任何一类的内容）。
- 理解大型语言模型：快速掌握最相关文献的横断面
  - 特别提到 Bandana et al (2014)，他们被认为首次提出在 token 得分上应用 Softmax 函数来计算注意力，为 Vaswani et al (2017) 提出的原始 Transformer 奠定了基础。https://news.ycombinator.com/item?id=35589756
- https://finbarrtimbers.substack.com/p/five-years-of-progress-in-gpts GPT1/2/3、Megatron、Gopher、Chinchilla、PaLM、LLaMa
- 一篇优秀的总结论文（8 个要点）：https://cims.nyu.edu/~sbowman/eightthings.pdf
HuggingFace MOE 解释
https://blog.alexalemi.com/kl-is-all-you-need.html

我们使用相同的提示和初始图像比较了126个关键词修饰符。以下是结果。

https://creator.nightcafe.studio/collection/8dMYgKm1eVXG7z9pV23W
Google发布了PartiPrompts作为基准测试：https://parti.research.google/ “PartiPrompts (P2) 是一套丰富的超过1600条英文提示，我们在此工作中一并发布。P2可用于衡量模型在各类别和挑战性方面的性能。”
视频教程
- 像素艺术 https://www.youtube.com/watch?v=UvJkQPtr-8s&feature=youtu.be
论文发展史
- 2008年：NLP统一架构（Collobert-Weston） https://twitter.com/ylecun/status/1611921657802768384
- 2015年：半监督序列学习 https://twitter.com/deliprao/status/1611896130589057025?s=20
- 2017年：Transformer（Vaswani等）
- 2018年：GPT（Radford等）
杂项
- StabilityAI首席信息官的观点 https://danieljeffries.substack.com/p/the-turning-point-for-truly-open?sd=pf
- https://github.com/awesome-stable-diffusion/awesome-stable-diffusion
- https://github.com/microsoft/LMOps 关于微软提示研究的指南
- gwern关于Bing、GPT4以及微软与OpenAI关系的幕后讨论 https://www.lesswrong.com/posts/jtoPawEhLNXNxvgTT/bing-chat-is-blatantly-aggressively-misaligned

其他类似列表

社区

Discord（参见https://buttondown.email/ainews 获取每日邮件摘要，实时更新）
- Latent Space Discord（我们的！）
- 通用黑客与学习
  - ChatGPT Hackers Discord
  - Alignment Lab AI Discord
  - Nous Research Discord
  - DiscoLM Discord
  - Karpathy Discord（已不活跃）
  - HuggingFace Discord
  - Skunkworks AI Discord（新）
  - Jeff Wang/LLM性能爱好者Discord
  - CUDA Mode（Mark Saroufim），可参阅Youtube和GitHub
- 艺术
  - StableDiffusion Discord
  - Deforum Discord https://discord.gg/upmXXsrwZc
  - Lexica Discord https://discord.com/invite/bMHBjJ9wRh
- AI研究
  - LAION Discord https://discord.gg/xBPBXfcFHd
  - Eleuther Discord：https://www.eleuther.ai/get-involved/（入门指南：https://blog.eleuther.ai/year-one/）
- 各类初创公司
  - Perplexity Discord https://discord.com/invite/kWJZsxPDuX
  - Midjourney的Discord
    - 如何使用Midjourney v4 https://twitter.com/fabianstelzer/status/1588856386540417024?s=20&t=PlgLuGAEEds9HwfegVRrpg
https://stablehorde.net/
- 代理
  - AutoGPT Discord
  - BabyAGI Discord
Reddit

人物

*许多人并不知道，如今越来越多的前沿信息已经不在Arxiv上，来源包括但不限于：https://github.com/trending、HN、那些小众的Discord服务器、X上的动漫头像匿名用户、Reddit *- K

这份列表可能会过时，但可以作为起点。我实时关注的人物列表位于：https://twitter.com/i/lists/1585430245762441216

引言、現實與降溫論

狹隘、枯燥的領域用例 https://twitter.com/WillManidis/status/1584900092615528448 和 https://twitter.com/WillManidis/status/1584900100480192516
反炒作 https://twitter.com/alexandr_wang/status/1573302977418387457
反炒作 https://twitter.com/fchollet/status/1612142423425138688?s=46&t=pLCNW9pF-co4bn08QQVaUg
提示工程相關迷因
- https://twitter.com/_jasonwei/status/1516844920367054848
Stable Diffusion 遇到的困難 https://opguides.info/posts/aiartpanic/
新版 Google
- https://twitter.com/alexandr_wang/status/1585022891594510336
新版 PowerPoint
- 由 emad 提及
UI 中默認追加提示詞
- DALL·E: https://twitter.com/levelsio/status/1588588688115912705?s=20&t=0ojpGmH9k6MiEDyVG2I6gg
此前曾歷經兩次寒冬，分別是 1974–1980 年和 1987–1993 年。https://www.erichgrunewald.com/posts/the-prospect-of-an-ai-winter/。更多評論請見這裡。相關概念——AI 效應——“一旦它能運作，就不再是 AI 了”。
不過就是矩陣乘法/隨機鸚鵡模型而已
- 連 LLM 怀疑论者 Yann LeCun 也認為 LLM 具備一定理解能力：https://twitter.com/ylecun/status/1667947166764023808
- Gary Marcus 的文章《深度學習正遭遇瓶頸》https://nautil.us/deep-learning-is-hitting-a-wall-238440/ 主張推動符號系統發展。
“過來人”反炒作派→憂慮者
- https://adamkarvonen.github.io/machine_learning/2024/03/20/chess-gpt-interventions.html#next-token-predictors

法律、倫理與隱私

不適宜內容過濾器 https://vickiboykis.com/2022/11/18/some-notes-on-the-stable-diffusion-safety-filter/
論“AI藝術恐慌” https://opguides.info/posts/aiartpanic/
- [我透過 Midjourney 損失了所有讓我熱愛工作的東西] (https://old.reddit.com/r/blender/comments/121lhfq/i_lost_everything_that_made_me_love_my_job/)
- [Midjourney 藝術家名單] (https://www.theartnewspaper.com/2024/01/04/leaked-names-of-16000-artists-used-to-train-midjourney-ai#)
Yannick 對 OPENRAIL-M 的影響 https://www.youtube.com/watch?v=W5M-dvzpzSQ
接受 AI 美術作品的藝術院校 https://twitter.com/DaveRogenmoser/status/1597746558145265664
DRM 問題 https://undeleted.ronsor.com/voice.ai-gpl-violations-with-a-side-of-drm/
偷竊藝術作品 https://stablediffusionlitigation.com
- http://www.stablediffusionfrivolous.com/
- Stable Diffusion 的歸屬問題 https://news.ycombinator.com/item?id=34670136
- 迪士尼方面的反駁意見 https://twitter.com/jonst0kes/status/1616219435492163584?s=46&t=HqQqDH1yEwhWUSQxYTmF8w
- 關於 Stable Diffusion 翻譯抄襲的研究 https://twitter.com/officialzhvng/status/1620535905298817024?s=20&t=NC-nW7pfDa8nyRD08Lx1Nw。這篇論文使用 Stable Diffusion 根據 35 萬個提示生成了 1.75 億張圖像，結果只發現 109 張與訓練數據極為相似的複製品。我的主要結論是否應該是：Stable Diffusion 在避免記憶訓練樣本方面表現得非常出色？
網頁內容抓取
- https://blog.ericgoldman.org/archives/2023/08/web-scraping-for-me-but-not-for-thee-guest-blog-post.htm
- Sarah Silverman 案件——OpenAI 的回應 https://arstechnica.com/tech-policy/2023/08/openai-disputes-authors-claims-that-every-chatgpt-response-is-a-derivative-work/
- OpenAI 的回應
授權許可
- [AI 模型參數並非開放“源代碼”——Sid Sijbrandij] (https://opencoreventures.com/blog/2023-06-27-ai-weights-are-not-open-source/)
多樣性與公平性
- 將少數族裔性化 https://twitter.com/lanadenina/status/1680238883206832129，原因在於“色情內容擅長處理人體形象” https://twitter.com/levelsio/status/1680665706235404288
- [OpenAI 為了讓 DallE 更具多樣性，隨意加上“黑人”字樣] (https://twitter.com/rzhang88/status/1549472829304741888?s=20)
隱私——保密計算 https://www.edgeless.systems/blog/how-confidential-computing-and-ai-fit-together/
AI 取代工作 https://donaldclarkplanb.blogspot.com/2024/02/this-is-why-idea-that-ai-will-just.html

对齐、安全

Anthropic - https://arxiv.org/pdf/2112.00861.pdf
- 有益：尝试完成用户请求。简洁高效，适时追问，引导偏离主题的问题。
- 诚实：提供准确信息，坦诚表达不确定性。若自身不具备相应能力或知识，则不模仿专家的回答。
- 无害：避免冒犯或歧视性内容。拒绝协助任何危险行为。能够识别敏感或具有重大影响的建议。
- 关于批评与界限的未来方向：https://twitter.com/davidad/status/1628489924235206657?s=46&t=TPVwcoqO8qkc7MuaWiNcnw
埃利泽·尤德科夫斯基的全部著作
- https://twitter.com/esyudkowsky/status/1625922986590212096
- AGI 致命性列表：https://www.lesswrong.com/posts/uMQ3cqWDPHhjtiesc/agi-ruin-a-list-of-lethalities
- 需要注意的是，埃利泽过去及近期都曾发表过颇具争议的言论（过去及最近），相关讨论也见于 TIME 文章。
康纳·利希可能是尤德科夫斯基更为理性、审慎且技术更扎实的版本：https://overcast.fm/+aYlOEqTJ0
- 危险并不局限于“回形针工厂”模型。
- https://www.lesswrong.com/posts/HBxe6wdjxK239zajf/what-failure-looks-like
六个月暂停实验的公开信
- https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- 扬·勒丘恩与吴恩达的辩论：https://www.youtube.com/watch?v=BY9KV8uCtj4
- 斯科特·阿伦森的相关博文：https://scottaaronson.blog/?p=7174
- 艾米丽·本德的回应：https://twitter.com/emilymbender/status/1640920936600997889
- 杰弗里·辛顿离开谷歌：https://news.ycombinator.com/item?id=35771104
- 随后发表了一封简短的公开信：https://www.nytimes.com/2023/05/30/technology/ai-threat-warning.html
X风险
- 避免 AI 引发的灭绝危机，是否真的如此紧迫？(链接)
- AI 并非军备竞赛。(链接))
- 如果我们要将 AI 定义为“灭绝风险”，就必须明确其具体实现方式。(链接))
OpenAI 超对齐计划：https://www.youtube.com/watch?v=ZP_N4q5U3eE

监管

中国监管政策：https://www.chinalawtranslate.com/en/overview-of-draft-measures-on-generative-ai/
- https://twitter.com/mmitchell_ai/status/1647697067006111745?s=46&t=90xQ8sGy63D2OtiaoGJuww
- 中国是全球主要大国中唯一一个明确[监管]生成式 AI 的国家。
意大利禁止 ChatGPT
在日本举行的年度会议上，由工业化民主国家组成的非正式组织七国集团（G7）宣布了广岛进程——一个被赋予调查生成式 AI 风险职权的政府间工作组。G7 成员国包括加拿大、法国、德国、意大利、日本、英国和美国，承诺制定相互兼容的法律，并依据民主价值观来监管 AI，这些价值观包括公平、问责制、透明度、安全性、数据隐私、防止滥用以及尊重人权。
美国总统乔·拜登发布了一份关于 AI 的战略计划。该倡议呼吁美国监管机构开发用于训练、衡量和评估 AI 系统的公共数据集、基准测试和标准。
本月早些时候，法国数据隐私监管机构宣布了一项针对生成式 AI 的监管框架。
监管与 X风险的关系：https://1a3orn.com/sub/essays-regulation-stories.html
GPT-4V 中的多模态提示注入攻击

杂项

Whisper
- https://huggingface.co/spaces/sensahin/YouWhisper YouWhisper 使用 openai/whisper 将 YouTube 视频转换为文本。
- https://twitter.com/jeffistyping/status/1573145140205846528 YouTube Whisperer
- 多语言字幕 https://twitter.com/1littlecoder/status/1573030143848722433
- 视频字幕 https://twitter.com/m1guelpf/status/1574929980207034375
- 你可以将 Whisper 与 Stable Diffusion 结合使用，原因见 https://twitter.com/fffiloni/status/1573733520765247488/photo/1
- 已知问题 https://twitter.com/lunixbochs/status/1574848899897884672（极端情况下可能导致灾难性失败）
基于文本的音频生成 https://twitter.com/FelixKreuk/status/1575846953333579776
Codegen
- CodegeeX https://twitter.com/thukeg/status/1572218413694726144
- https://github.com/salesforce/CodeGen https://joel.tools/codegen/
PDF 转结构化数据 - Impira 曾经用它来实现（已失效链接：https://www.impira.com/blog/hey-machine-whats-my-invoice-total），但如果在 Twitter 上仔细搜索，还是能找到一些替代方案。
文本到人体运动扩散模型 https://twitter.com/GuyTvt/status/1577947409551851520
- 论文摘要：https://arxiv.org/abs/2209.14916
- 项目页面：https://guytevet.github.io/mdm-page/

AI Notes 快速上手指南

工具简介： ai-notes 并非一个可执行的软件包或框架，而是一个由社区维护的开源知识库。它汇集了关于生成式 AI、大语言模型（LLM）、AI 基础设施、图像/音频生成等领域的最新状态、前沿论文、实用案例及工程笔记。本指南将帮助开发者快速访问并利用这些高质量资源。

环境准备

由于本项目本质上是 Markdown 文档集合，无需复杂的系统环境或依赖库。

操作系统：任意支持 Git 的系统（Windows, macOS, Linux）。
前置依赖：
- git：用于克隆仓库。
- 现代浏览器或 Markdown 编辑器（如 VS Code, Obsidian）：用于阅读整理后的笔记。
网络要求：
- 由于原始仓库托管在 GitHub，国内访问可能受限。建议配置代理或使用国内代码托管平台（如 Gitee）的镜像源（如有）。

安装步骤

方式一：克隆仓库（推荐，适合本地查阅与贡献）

打开终端，执行以下命令将仓库克隆到本地：

git clone https://github.com/sw-yx/ai-notes.git
cd ai-notes

提示：如果 GitHub 访问缓慢，可尝试搜索 Gitee 上的同步镜像，或使用 git clone 时配置加速代理。

方式二：在线浏览

直接访问 GitHub 仓库页面浏览目录结构： https://github.com/sw-yx/ai-notes

基本使用

克隆完成后，核心内容位于根目录下的各个 .md 文件中。请根据您的需求选择对应的文件进行阅读。

1. 查看核心分类笔记

项目按技术领域划分了主要文档，使用文本编辑器或命令行查看：

文本生成与大模型 (Text & LLMs):

# 查看 GPT-4 及聊天机器人相关笔记
cat TEXT.md

# 查看提示词工程 (Prompt Engineering) 案例
cat TEXT_PROMPTS.md

# 查看语义搜索相关信息
cat TEXT_SEARCH.md

图像生成 (Image Generation):

# 查看 Stable Diffusion, Midjourney, DALL-E 深度笔记
cat IMAGE_GEN.md

# 查看优质图像提示词合集
cat IMAGE_PROMPTS.md

代码生成 (Code Generation):

# 查看 Copilot 等代码模型笔记
cat CODE.md

音频与多模态 (Audio & Video):

# 查看语音转录、音乐生成及视频生成笔记
cat AUDIO.md

基础设施 (Infrastructure):

# 查看硬件、缩放及 AI 工程化笔记
cat INFRA.md

2. 探索特定应用场景

在 README.md 及上述分文件中，包含了大量"Motivational Use Cases"（激励性用例），例如：

3D 生成：参考 TEXT.md 或搜索关键词 text-to-3d 获取 DreamFusion 等项目链接。
视频生成：查阅 AUDIO.md 或 IMAGE_GEN.md 中关于 img2video 和 Stable Diffusion Videos 的 Colab 笔记本链接。
市场地图：参考 README 中的 "market maps/landscapes" 章节，获取 Sequoia, a16z 等机构发布的最新 AI 栈全景图链接。

3. 利用资源链接

文档中包含了大量外部链接（论文、博客、Demo、Colab 笔记本）。

学习路径：初学者可优先阅读 README.md 中的 "Beginner Reads" 部分，包含 Karpathy 的 LLM 入门视频及吴恩达的相关课程链接。
进阶研究：查阅 "Intermediate Reads" 及 "State of AI Report" 获取年度行业报告。

注意：本仓库内容为英文原文。如需中文理解，建议配合浏览器翻译插件或将具体段落输入翻译工具。该仓库的价值在于其 curated（精选）的链接和作者对技术趋势的精辟注释。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|昨天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像