[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-natolambert--rlhf-book":3,"tool-natolambert--rlhf-book":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":80,"owner_twitter":75,"owner_website":81,"owner_url":82,"languages":83,"stars":115,"forks":116,"last_commit_at":117,"license":118,"difficulty_score":23,"env_os":119,"env_gpu":119,"env_ram":119,"env_deps":120,"category_tags":123,"github_topics":124,"view_count":23,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":128,"updated_at":129,"faqs":130,"releases":131},3759,"natolambert\u002Frlhf-book","rlhf-book","Textbook on reinforcement learning from human feedback","rlhf-book 是一本关于“人类反馈强化学习”（RLHF）的开源教科书，旨在为后 ChatGPT 时代的大语言模型微调提供系统性指南。它解决了该领域长期缺乏权威参考资料的问题，不仅梳理了拒绝采样等经典方法的理论基础，还首次公开了业界用于提升模型拟人化表现的“角色训练”等实践经验，帮助学习者辨别信息真伪，建立扎实的知识体系。\n\n这本书特别适合 AI 研究人员、大模型开发者以及希望深入理解对齐技术的学生使用。其独特亮点在于“理论与实践并重”：除了详尽的章节内容，项目还附带了完整的参考代码库，涵盖了 PPO、DPO 等主流策略梯度算法、奖励模型训练及直接对齐方法的实现。此外，书中使用的图表源码也完全开放，方便用户复用至教学或演示中。\n\n作者 Nathan Lambert 将自己在前沿模型开发中的心得全部开源，并计划持续更新幻灯片等教育资源。无论你是想从零开始掌握 RLHF  fundamentals，还是寻找可靠的算法实现参考，rlhf-book 都是一个极佳的起点。你可以在线阅读全部内容，也可支持实体书出版，共同推动开放模型社区的成长。","# RLHF Book\n\nA comprehensive guide to Reinforcement Learning from Human Feedback (and a broad introduction to post-training language models).\n\n**[Read online](https:\u002F\u002Frlhfbook.com)** | **[Pre-order print](https:\u002F\u002Fhubs.la\u002FQ03Tc3cf0)**\n\nThis book is my attempt to open-source all the knowledge I've gained working at the frontier of open models in the post-ChatGPT take off of language models.\nWhen I started, many established methods like rejection sampling had no canonical reference.\nOn the other side, industry practices to make the models more personable -- colloquially called Character Training -- had no open research. \nIt was obvious to me that there would be payoff to documenting, learning the fundamentals, carefully curating the references (in an era of AI slop), and everything in between would be a wonderful starting point for people.\n\nToday, I'm adding code and seeing this as a home base for people who want to learn. \nYou should use coding assistants to ask questions.\nYou should buy the physical book because the real world matters.\nYou should read the specific AI outputs tailored to you.\n\nIn the future I want to build more education resources to this, such as open source slide decks and more ways to learn.\nIn the end, with how impossible it is to measure human preferences, RLHF will never be a solved problem.\n\nThank you for reading. \nThank you for contributing any feedback or engaging with the community.\n\n-- Nathan Lambert, @natolambert\n\n## Repository Structure\n\n```\nrlhf-book\u002F\n├── book\u002F                   # Book source and build files\n│   ├── chapters\u002F           # Markdown source (01-introduction.md, etc.)\n│   ├── images\u002F             # Figures referenced in chapters\n│   ├── assets\u002F             # Brand assets (covers, logos)\n│   ├── templates\u002F          # Pandoc templates (HTML, PDF, EPUB)\n│   ├── scripts\u002F            # Build utilities\n│   └── data\u002F               # Library data\n├── code\u002F                   # Reference implementations\n│   ├── policy_gradients\u002F   # PPO, REINFORCE, GRPO, RLOO\n│   ├── reward_models\u002F      # Preference RM, ORM, PRM training\n│   └── direct_alignment\u002F   # DPO and variants\n├── diagrams\u002F               # Diagram source files\n│   ├── scripts\u002F            # Python generation scripts\n│   ├── tikz\u002F               # LaTeX\u002FTikZ sources\n│   └── specs\u002F              # YAML specifications\n├── build\u002F                  # Generated output (git-ignored)\n└── Makefile                # Build system\n```\n\n## Code Library\n\nReference implementations for RLHF algorithms in `code\u002F`:\n- Policy gradient methods (PPO, REINFORCE, GRPO, RLOO, etc.)\n- Reward model training (preference RM, ORM, PRM)\n- Direct alignment methods\n\nSee [code\u002FREADME.md](code\u002FREADME.md) for setup and usage.\n\n## Book Source\n\nBook source files are in `book\u002F`. Build locally:\n\n```bash\nmake html   # Build HTML site\nmake pdf    # Build PDF (requires LaTeX)\n```\n\nSee [book\u002FREADME.md](book\u002FREADME.md) for detailed build instructions.\n\n## Diagrams\n\nThe `diagrams\u002F` directory contains source files for figures used in the book. These are designed to be reusable for presentations, blog posts, or your own learning materials. Generate them with:\n\n```bash\ncd diagrams && make all\n```\n\n## Citation\n\nTo cite this book, please use the following format:\n\n```bibtex\n@book{rlhf2026lambert,\n  author       = {Nathan Lambert},\n  title        = {Reinforcement Learning from Human Feedback},\n  year         = {2026},\n  publisher    = {Online},\n  url          = {https:\u002F\u002Frlhfbook.com},\n}\n```\n\n## License\n\n- Code: [MIT](LICENSE-CODE)\n- Chapters: [CC-BY-NC-SA-4.0](LICENSE-CHAPTERS)\n\n## Contributors\n\nWhere I get the credit as the sole \"author\" and creator of this project, I've been super lucky to have many contributions from early readers. These have massively accelerated the editing progress and flat-out added meaningful content to the book. I'm happy to send substantive contributors free copies of the book and expect the internet goodwill to pay them back in unexpected ways.\n\nSee all [contributors](https:\u002F\u002Fgithub.com\u002Fnatolambert\u002Frlhf-book\u002Fgraphs\u002Fcontributors).\n","# RLHF 书籍\n\n一份关于人类反馈强化学习的全面指南（以及对后训练语言模型的广泛介绍）。\n\n**[在线阅读](https:\u002F\u002Frlhfbook.com)** | **[预订纸质版](https:\u002F\u002Fhubs.la\u002FQ03Tc3cf0)**\n\n这本书是我尝试将自己在后 ChatGPT 时代语言模型爆发式发展背景下、于开源模型前沿工作所积累的所有知识开源出来的成果。刚开始时，许多成熟的方法，比如拒绝采样，并没有公认的参考文献。另一方面，为了让模型更具个性化——俗称“角色训练”——的相关行业实践也缺乏公开的研究资料。我清楚地意识到，系统性地记录这些内容、掌握基础知识、精心整理参考资料（尤其是在当前充斥着大量低质量 AI 内容的时代），并将这一切整合起来，将会为感兴趣的人们提供一个绝佳的起点。\n\n如今，我正在添加代码，并将其视为希望学习相关知识的人们的起点。你可以借助编程助手来提出问题；也建议购买实体书，因为现实世界的经验同样重要；同时，不妨阅读那些专为你量身定制的 AI 输出内容。\n\n未来，我还计划在此基础上构建更多教育资源，例如开源的幻灯片库以及其他学习方式。然而，鉴于人类偏好本身难以准确衡量，RLHF 终究不会成为一个被完全解决的问题。\n\n感谢你的阅读，也感谢你提供的任何反馈或参与社区交流。\n—— 纳森·兰伯特，@natolambert\n\n## 仓库结构\n\n```\nrlhf-book\u002F\n├── book\u002F                   # 书籍源文件及构建文件\n│   ├── chapters\u002F           # Markdown 源文件（01-introduction.md 等）\n│   ├── images\u002F             # 各章节中引用的图表\n│   ├── assets\u002F             # 品牌资产（封面、Logo 等）\n│   ├── templates\u002F          # Pandoc 模板（HTML、PDF、EPUB）\n│   ├── scripts\u002F            # 构建工具脚本\n│   └── data\u002F               # 图书馆数据\n├── code\u002F                   # 参考实现\n│   ├── policy_gradients\u002F   # PPO、REINFORCE、GRPO、RLOO 等\n│   ├── reward_models\u002F      # 偏好 RM、ORM、PRM 训练\n│   └── direct_alignment\u002F   # DPO 及其变体\n├── diagrams\u002F               # 图表源文件\n│   ├── scripts\u002F            # Python 生成脚本\n│   ├── tikz\u002F               # LaTeX\u002FTikZ 源文件\n│   └── specs\u002F              # YAML 规范文件\n├── build\u002F                  # 生成的输出文件（已忽略在 Git 中）\n└── Makefile                # 构建系统\n```\n\n## 代码库\n\n`code\u002F` 目录下提供了 RLHF 算法的参考实现：\n- 策略梯度方法（PPO、REINFORCE、GRPO、RLOO 等）\n- 奖励模型训练（偏好 RM、ORM、PRM）\n- 直接对齐方法\n\n请参阅 [code\u002FREADME.md](code\u002FREADME.md) 以获取设置和使用说明。\n\n## 书籍源文件\n\n书籍的源文件位于 `book\u002F` 目录中。你可以在本地进行构建：\n\n```bash\nmake html   # 构建 HTML 网站\nmake pdf    # 构建 PDF（需要 LaTeX）\n```\n\n详细构建步骤请参阅 [book\u002FREADME.md](book\u002FREADME.md)。\n\n## 图表\n\n`diagrams\u002F` 目录包含书中使用的图表源文件。这些图表设计为可重复使用，适用于演示文稿、博客文章或你自己的学习材料。你可以通过以下命令生成它们：\n\n```bash\ncd diagrams && make all\n```\n\n## 引用\n\n若需引用本书，请使用以下格式：\n\n```bibtex\n@book{rlhf2026lambert,\n  author       = {Nathan Lambert},\n  title        = {Reinforcement Learning from Human Feedback},\n  year         = {2026},\n  publisher    = {Online},\n  url          = {https:\u002F\u002Frlhfbook.com},\n}\n```\n\n## 许可证\n\n- 代码：[MIT](LICENSE-CODE)\n- 章节：[CC-BY-NC-SA-4.0](LICENSE-CHAPTERS)\n\n## 贡献者\n\n虽然我作为该项目的唯一“作者”和创建者获得了所有荣誉，但我也非常幸运地得到了早期读者的诸多贡献。他们的帮助极大地加速了编辑进度，并为本书增添了大量有价值的内容。我很乐意向做出实质性贡献的伙伴们赠送免费的书籍副本，相信互联网上的善意终会以意想不到的方式回馈他们。\n\n查看所有 [贡献者](https:\u002F\u002Fgithub.com\u002Fnatolambert\u002Frlhf-book\u002Fgraphs\u002Fcontributors)。","# RLHF Book 快速上手指南\n\nRLHF Book 是一本关于“人类反馈强化学习”（RLHF）及大模型后训练技术的综合开源指南，包含完整的书籍源码、算法参考实现及可复用的图表资源。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux 或 macOS（Windows 用户建议使用 WSL2）。\n*   **Python**：版本 3.8 或更高。\n*   **构建工具**：\n    *   `make`：用于执行构建命令。\n    *   `pandoc`：用于文档格式转换。\n    *   `LaTeX` (可选)：仅当您需要构建 PDF 版本书籍时必需（如 `texlive-full`）。\n*   **依赖库**：项目代码依赖常见的深度学习框架（如 PyTorch, Transformers, TRL 等），建议在虚拟环境中安装。\n\n> **提示**：国内开发者可使用清华源或阿里源加速 Python 包的安装。\n> ```bash\n> pip config set global.index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n1.  **克隆仓库**\n    获取项目源代码：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fnatolambert\u002Frlhf-book.git\n    cd rlhf-book\n    ```\n\n2.  **安装 Python 依赖**\n    进入代码目录并安装算法实现所需的依赖包：\n    ```bash\n    cd code\n    pip install -r requirements.txt\n    ```\n    *(注：如果根目录有统一的 `requirements.txt`，请优先安装根目录下的依赖)*\n\n3.  **安装文档构建依赖（可选）**\n    如果您需要本地编译书籍或图表，请确保已安装 `pandoc` 和 `make`。若需生成 PDF，请安装 LaTeX 发行版。\n\n## 基本使用\n\n本项目主要包含三个核心部分：算法代码、书籍源码和图表资源。以下是常用的操作示例：\n\n### 1. 运行参考算法代码\n`code\u002F` 目录提供了 PPO、DPO、Reward Model 等关键算法的参考实现。\n\n*   **查看可用示例**：\n    ```bash\n    ls code\u002Fpolicy_gradients\n    ls code\u002Fdirect_alignment\n    ```\n*   **运行示例脚本**（以 DPO 为例，具体文件名请参考 `code\u002FREADME.md`）：\n    ```bash\n    python code\u002Fdirect_alignment\u002Frun_dpo.py --config configs\u002Fdpo_example.yaml\n    ```\n\n### 2. 本地构建书籍\n您可以将 Markdown 源码编译为 HTML 网站或 PDF 文档。\n\n*   **构建 HTML 版本**：\n    ```bash\n    make html\n    ```\n    构建完成后，通常在 `build\u002F` 目录下生成静态网页文件。\n\n*   **构建 PDF 版本**（需预先安装 LaTeX）：\n    ```bash\n    make pdf\n    ```\n\n### 3. 生成图表资源\n`diagrams\u002F` 目录包含书中插图的源码，可用于演示文稿或二次创作。\n\n*   **生成所有图表**：\n    ```bash\n    cd diagrams && make all\n    ```\n    生成的图片文件将保存在相应输出目录中。\n\n---\n*更多详细用法、参数配置及理论讲解，请参阅生成的书籍内容或访问在线版：https:\u002F\u002Frlhfbook.com*","某初创团队正在尝试微调开源大模型，希望让客服机器人具备更自然、符合人类价值观的对话风格，但缺乏系统的后训练（Post-training）经验。\n\n### 没有 rlhf-book 时\n- **理论碎片化**：团队成员只能从分散的论文和博客中拼凑 RLHF 知识，对拒绝采样（Rejection Sampling）等基础方法缺乏权威参考，导致理解偏差。\n- **代码复现难**：网上流传的“性格训练”（Character Training）代码多为闭源或缺乏文档，团队花费数周调试仍无法跑通标准的 PPO 或 DPO 算法。\n- **概念混淆**：面对奖励模型（RM）、过程奖励模型（PRM）等多种变体，团队难以厘清适用场景，盲目尝试导致模型训练崩溃或效果倒退。\n- **图表缺失**：在内部技术分享时，找不到清晰的标准架构图，只能手绘粗糙示意图，沟通效率极低。\n\n### 使用 rlhf-book 后\n- **体系化学习**：团队直接依托书中完整的章节，快速掌握了从数据清洗到策略梯度的全流程，建立了统一的知识基准。\n- **开箱即用代码**：直接复用 `code\u002F` 目录下经过验证的 PPO、GRPO 及 DPO 参考实现，将算法落地时间从数周缩短至几天。\n- **精准选型**：通过书中对各类对齐方法的对比分析，团队根据业务数据量选择了最合适的直接偏好优化（DPO）方案，避免了资源浪费。\n- **高质量素材**：利用 `diagrams\u002F` 生成的专业矢量图制作技术文档，清晰展示了奖励模型训练流程，极大提升了团队内外的沟通质量。\n\nrlhf-book 将原本晦涩难懂的前沿工业界实践转化为可执行的标准路径，帮助开发者跨越了从理论到落地的巨大鸿沟。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fnatolambert_rlhf-book_62c04264.png","natolambert","Nathan Lambert","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fnatolambert_6482619e.jpg","Machine learning scientist. Closing paw requests like it's my job.","Ai2 \u002F\u002F Interconnects.ai",null,"https:\u002F\u002Fnatolambert.com","https:\u002F\u002Fgithub.com\u002Fnatolambert",[84,88,92,96,100,104,107,111],{"name":85,"color":86,"percentage":87},"Python","#3572A5",39.3,{"name":89,"color":90,"percentage":91},"TeX","#3D6117",38.5,{"name":93,"color":94,"percentage":95},"HTML","#e34c26",11.9,{"name":97,"color":98,"percentage":99},"JavaScript","#f1e05a",3.5,{"name":101,"color":102,"percentage":103},"Makefile","#427819",2.8,{"name":105,"color":106,"percentage":23},"CSS","#663399",{"name":108,"color":109,"percentage":110},"Lua","#000080",1.2,{"name":112,"color":113,"percentage":114},"Shell","#89e051",0.8,1758,163,"2026-04-04T23:06:52","NOASSERTION","未说明",{"notes":121,"python":119,"dependencies":122},"README 主要介绍书籍内容和目录结构，具体的代码环境配置、依赖库版本及硬件需求需参考 code\u002FREADME.md 和 book\u002FREADME.md 文件。构建 PDF 格式需要安装 LaTeX 环境。",[119],[13,15,14],[125,126,127],"ai","alignment","rlhf","2026-03-27T02:49:30.150509","2026-04-06T07:12:53.921591",[],[132,137,142,147,152,157],{"id":133,"version":134,"summary_zh":135,"released_at":136},99407,"arxiv-v7","ArXiv v7 更新：新增图表、隐式正则化章节、对话格式化，以及各类内容补充与修正。\n\n## 自 v0.6 以来的内容变更\n\n- 增加第2章图表：RLHF 示意图及时间线 (#257)\n- 在第3章添加恒温器示例和策略定义 (#250)\n- 第15章新增隐式正则化章节 (#255)\n- 为 LLM 示例添加丰富的对话气泡 UI (#273)\n- 在引言中加入关于诱导理论的注意事项 (#259)\n- 澄清引言中 RLHF 的描述 (#258)\n- 在强化学习与 RLHF 的对比中补充折扣因子的细微差别 (#260)\n- 添加固定长度归一化策略的代码段 (#274)\n- 在策略梯度的扩展阅读中加入 SAPO (#251)\n- 增加 Kindle EPUB 下载功能，并修复 PDF 中的公式溢出问题 (#256)\n\n## 修复内容\n\n- 修复第5章中重复出现的“the the”错别字 (#263)\n- 删除第1章中多余的“the” (#262)\n- 小幅修正 LaTeX 符号格式 (#248)\n- 为代码块添加缺失的语言标注 (#272)","2026-02-27T18:14:56",{"id":138,"version":139,"summary_zh":140,"released_at":141},99408,"code\u002Fv0.1","RLHF书籍的代码示例和教程首次发布。\n\n变更日志及后续代码更新将陆续发布。","2026-02-08T20:31:28",{"id":143,"version":144,"summary_zh":145,"released_at":146},99409,"arxiv-v6","ArXiv v6 更新，新增直接对齐算法（DPO、IPO、SimPO、ORPO、KTO），补充附录 C（实践问题），并进行了校对和 Tulu 3 示例的重新组织。","2026-02-07T16:28:37",{"id":148,"version":149,"summary_zh":150,"released_at":151},99410,"arxiv-v5","ArXiv v5 更新，修复了引用并进行了清理（移除了未使用的 timeline-v2.png）","2026-01-17T17:19:18",{"id":153,"version":154,"summary_zh":155,"released_at":156},99411,"arxiv-v4","本次发布包含了 ArXiv v4 版本的源代码，也是 Manning 出版版本的分支点。\n\n本次提交标志着在后续社区贡献和更新之前，本书所处的稳定状态。","2026-01-07T21:40:22",{"id":158,"version":159,"summary_zh":160,"released_at":161},99406,"book\u002Fv0.8","ArXiv v8 — 最终校对定稿，准备印刷。本书即将交付 Manning 出版社印刷，因此后续内容改动会越来越少。\n\n## 自 v0.7 以来的内容变更\n\n- 将 Manning 版本中的编辑改进移植过来 (#326)\n- 进行清晰度审查：公式引入及术语注释 (#324)\n- 最终内容修订 (#329)\n- 修复各章节中的错别字、失效链接和语法问题 (#330)\n- 扩展产品章节中的人物训练方法 (#291)\n- 在产品章节中新增“助手轴”小节 (#288)\n- 在产品章节中新增“人物剪枝”小节 (#286)\n- 在产品章节中新增“人物向量”小节 (#284)\n- 添加下一个标记预测的 TikZ 流程图 (#292)\n- 在第 6 章中使用 rho 表示策略比率 (#320)\n- 更新 PPO 截断的说明 (#290)\n- 更新策略梯度中关于 PPO 正则化的说明 (#285)\n\n## 课程与网站\n\n- 上线包含讲座 1—4 的课程页面 (#261, #297, #307)\n- 将托管从 Netlify 迁移到 Cloudflare Pages (#321)\n- 为显示型公式添加复制按钮 (#298)\n- 在各章节页面添加复制原始 Markdown 的按钮 (#293)\n- 转用 Pandoc 控制的语法高亮以生成 PDF (#308)\n- 使 PDF 中的代码块更易读 (#306)\n- 在各章节和索引页中添加讲座视频链接 (#311)\n\n## 修复\n\n- 修复宽屏显示公式时出现的水平滚动条问题 (#325)\n- 修正 DAPO 梯度步骤：按批次而非按生成次数计算 (#303)\n- 修正基线描述：是方差减小，而非去偏置 (#318)\n- 修正 InstructGPT RLHF 数据集大小的表述 (#313)\n- 澄清恒温器策略示例 (#294)\n- 在强化学习备忘录中澄清 GRPO 与 GSPO 的区别 (#289)\n- 内容清理 (#323)\n- 将 Manning PR #52 中的重大编辑修复移植过来 (#281)","2026-04-04T19:35:59"]