[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-sail-sg--oat":3,"similar-sail-sg--oat":185},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":18,"owner_website":19,"owner_url":20,"languages":21,"stars":34,"forks":35,"last_commit_at":36,"license":37,"difficulty_score":38,"env_os":39,"env_gpu":40,"env_ram":39,"env_deps":41,"category_tags":50,"github_topics":53,"view_count":70,"oss_zip_url":18,"oss_zip_packed_at":18,"status":71,"created_at":72,"updated_at":73,"faqs":74,"releases":110},3129,"sail-sg\u002Foat","oat","🌾 OAT: A research-friendly framework for LLM online alignment, including reinforcement learning, preference learning, etc.","Oat 是一个专为大语言模型（LLM）在线对齐研究设计的开源框架，旨在简化强化学习与偏好学习等算法的实验流程。它主要解决了传统对齐训练中流程复杂、资源调度困难以及评估反馈滞后等痛点，让研究人员能够更专注于算法创新而非工程搭建。\n\nOat 特别适合 AI 研究人员和开发者使用，尤其是那些希望快速验证新对齐策略或进行公平基准测试的团队。其核心亮点在于高效的分布式“演员 - 学习者 - 预言机”架构：利用 vLLM 加速样本生成，通过 DeepSpeed 优化显存效率，并借助 Mosec 将奖励模型或评判标准作为远程服务动态调用。这种设计不仅支持从轻量级本地测试到大规模分布式训练的各种场景，还内置了 PPO、Dr.GRPO、在线 DPO 及主动探索等多种前沿算法。此外，Oat 提供了灵活的“预言机”模拟功能，支持基于规则的验证、本地奖励模型甚至调用外部 API 进行模型互评，让用户能实时监控学习曲线，无需手动干预训练与评估环节，极大提升了科研迭代效率。","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsail-sg_oat_readme_bc9f3042c413.png\" width=90% alt=\"OAT\" \u002F>\n\u003C\u002Fp>\n\n[![PyPI - Version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Foat-llm.svg)](https:\u002F\u002Fpypi.org\u002Fproject\u002Foat-llm)\n[![PyPI - Python Version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Foat-llm.svg)](https:\u002F\u002Fpypi.org\u002Fproject\u002Foat-llm)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fsail-sg\u002Foat)](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fblob\u002Fmain\u002FLICENSE)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2411.01493-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.01493)\n\n[Installation](#installation) | [Usage](#usage) | [Examples](.\u002Fexamples\u002F) | [Citation](#citation)\n\n---\n\n## Updates\n* 31\u002F10\u002F2025: We advocate for re-evaluating precision choices in RL training ([Precision RL](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002FPrecision-RL)) — demonstrating that *FP16* offers superior performance and stability compared to the de facto BF16.\n* 02\u002F10\u002F2025: We add LoRA-RL support and validate its performance as comparable to full fine-tuning RL (super excited to be [highlighted by John Schulman](https:\u002F\u002Fx.com\u002Fjohnschulman2\u002Fstatus\u002F1974948097500582254)).\n* 21\u002F03\u002F2025: We incorporate [Dr. GRPO](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Funderstand-r1-zero), which fixes the optimization bias in GRPO.\n* 26\u002F01\u002F2025: We support reinforcement learning with verifiable rewards (RLVR) for math reasoning.\n* 20\u002F10\u002F2024: We open source Oat, an online LLM alignment framework developed during a research project on online LLM exploration ([sample-efficient alignment](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.01493)).\n## Introduction\n\nOat 🌾 is a simple yet efficient framework for running **online** LLM alignment algorithms. Its key features include:\n\n* **High Efficiency**: Oat implements a distributed *Actor-Learner-Oracle* architecture, with each component being optimized using state-of-the-art tools:\n  * `Actor`: Utilizes [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm) for accelerated online response sampling.\n  * `Learner`: Leverages [DeepSpeed](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed) ZeRO strategies to enhance memory efficiency.\n  * `Oracle`: Model-based oracle by [Mosec](https:\u002F\u002Fgithub.com\u002Fmosecorg\u002Fmosec) as a remote service, supporting dynamic batching, data parallelism and pipeline parallelism.\n* **Simplified Workflow**: Oat simplifies the experimental pipeline of LLM alignment. With an `Oracle` served online, we can flexibly query it for preference data labeling as well as anytime model evaluation. All you need is to launch experiments and monitor real-time learning curves (e.g., win rate) on wandb (see [reproduced results](https:\u002F\u002Fwandb.ai\u002Flkevinzc\u002Foat-llm)) — no need for manual training, checkpointing and loading for evaluation.\n* **Oracle Simulation**: Oat provides a diverse set of oracles to simulate preference\u002Freward\u002Fverification feedback.\n  * Verifiable rewards supported using rule-based functions.\n  * Lightweight reward models run within the actor's process, enabling quick testing on as few as two GPUs.\n  * Larger and more capable reward models can be served remotely, harnessing additional compute and memory resources.\n  * LLM-as-a-judge is supported via querying OpenAI API for model-based pairwise ranking.\n* **Ease of Use**: Oat's modular structure allows researchers to easily inherit and modify existing classes, enabling rapid prototyping and experimentation with new algorithms.\n* **Cutting-Edge Algorithms**: Oat implements state-of-the-art online algorithms, fostering innovation and fair benchmarking.\n  * PPO\u002FDr.GRPO (online RL) for math reasoning.\n  * Online DPO\u002FSimPO\u002FIPO for online preference learning.\n  * Online exploration (active alignment) algorithms, including [SEA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.01493), APL and XPO.\n\n## Installation\nIn a python environment with supported versions (we recommend `3.10`), you could install oat via PyPI:\n```shell\npip install vllm==0.8.4 && pip install -U oat-llm\n```\nOr you could also install in \"editable\" mode for local development:\n```shell\ngit clone git@github.com:sail-sg\u002Foat.git\ncd oat\npip install vllm==0.8.4 && pip install -e .\n```\n\n##  Usage\n\n* R1-Zero-like training using Dr. GRPO for math reasoning: [a single-file self-contained implementation](.\u002Foat\u002Fexperiment\u002Frun_math_rl.py) with [training script](.\u002Fexamples\u002Fmath_rl.sh).\n\n* Multi-turn SFT: [an example training script](.\u002Fexamples\u002Fmulti_turn_sft.sh).\n\n* Online preference learning with active exploration: [a detailed guide](.\u002Fdocs\u002Falignment_as_cdb.md).\n\n## Adopters\nResearch projects that are built (or integrated) with Oat 🌾:\n* [Understanding R1-Zero-Like Training: A Critical Perspective](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Funderstand-r1-zero)\n* [VeriFree: Reinforcing General Reasoning without Verifiers](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002FVeriFree)\n* [SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning](https:\u002F\u002Fgithub.com\u002Fspiral-rl\u002Fspiral)\n* [GEM: A Gym for Agentic LLMs](https:\u002F\u002Fgithub.com\u002Faxon-rl\u002Fgem)\n\n\u003C!-- ## Benchmarking\nThe benchmarking compares oat with the online DPO implementation from [huggingface\u002Ftrl](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftrl\u002Fmain\u002Fen\u002Fonline_dpo_trainer). Below, we outline the configurations used for oat and present the benchmarking results. Notably, oat 🌾 achieves up to **2.5x** computational efficiency compared to trl 🤗.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsail-sg_oat_readme_1ffb6883caa8.png\" width=97%\u002F>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsail-sg_oat_readme_f52416288be1.png\" width=65% \u002F>\n\u003C\u002Fp>\n\nPlease refer to [Appendix C of our paper](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.01493#page=17.64) for a detailed discussion of the benchmarking methods and results. -->\n\n## Citation\nIf you find this codebase useful for your research, please consider citing:\n\n- LLM online alignment framework:\n  ```bibtex\n  @misc{liu2024oat,\n    title={OAT: A research-friendly framework for LLM online alignment},\n    author={Liu, Zichen and Chen, Changyu and Wan, Xinyi and Du, Chao and Lee, Wee Sun and Lin, Min},\n    year={2024}\n    howpublished={\\url{https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat}},\n  }\n  ```\n\n- Online exploration method:\n  ```bibtex\n  @article{liu2024sea,\n    title={Sample-Efficient Alignment for LLMs},\n    author={Liu, Zichen and Chen, Changyu and Du, Chao and Lee, Wee Sun and Lin, Min},\n    journal={arXiv preprint arXiv:2411.01493},\n    year={2024}\n  }\n  ```\n\n## License\n\n`oat` is distributed under the terms of the [Apache2](https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0) license.\n\n## Acknowledgement\nWe thank the following awesome projects that have contributed to the development of oat:\n* [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n* [DeepSpeed](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed)\n* [Mosec](https:\u002F\u002Fgithub.com\u002Fmosecorg\u002Fmosec)\n* [launchpad](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Flaunchpad)\n* [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF)\n\n## Disclaimer\n\nThis is not an official Sea Limited or Garena Online Private Limited product.\n","\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsail-sg_oat_readme_bc9f3042c413.png\" width=90% alt=\"OAT\" \u002F>\n\u003C\u002Fp>\n\n[![PyPI - Version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Foat-llm.svg)](https:\u002F\u002Fpypi.org\u002Fproject\u002Foat-llm)\n[![PyPI - Python Version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fpyversions\u002Foat-llm.svg)](https:\u002F\u002Fpypi.org\u002Fproject\u002Foat-llm)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fsail-sg\u002Foat)](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fblob\u002Fmain\u002FLICENSE)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2411.01493-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.01493)\n\n[安装](#installation) | [使用](#usage) | [示例](.\u002Fexamples\u002F) | [引用](#citation)\n\n---\n\n## 更新\n* 2025年10月31日：我们提倡重新评估强化学习训练中的精度选择（Precision RL）——证明与事实上的BF16相比，FP16具有更优越的性能和稳定性。\n* 2025年10月2日：我们新增了LoRA-RL支持，并验证其性能可与全量微调的强化学习相媲美（非常激动地被John Schulman[重点推荐](https:\u002F\u002Fx.com\u002Fjohnschulman2\u002Fstatus\u002F1974948097500582254)）。\n* 2025年3月21日：我们集成了[Dr. GRPO](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Funderstand-r1-zero)，该工具修复了GRPO中的优化偏差。\n* 2025年1月26日：我们支持用于数学推理的可验证奖励强化学习（RLVR）。\n* 2024年10月20日：我们开源了Oat，这是一个在线LLM对齐框架，是在一项关于在线LLM探索的研究项目中开发的（[样本高效对齐](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.01493)）。\n## 简介\n\nOat 🌾是一个简单而高效的框架，用于运行**在线**LLM对齐算法。其主要特性包括：\n\n* **高效率**：Oat实现了分布式“Actor-Learner-Oracle”架构，每个组件都使用最先进的工具进行优化：\n  * `Actor`：利用[vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)加速在线响应采样。\n  * `Learner`：借助[DeepSpeed](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed)的ZeRO策略提升内存效率。\n  * `Oracle`：由[Mosec](https:\u002F\u002Fgithub.com\u002Fmosecorg\u002Fmosec)提供的基于模型的远程服务型oracle，支持动态批处理、数据并行和流水线并行。\n* **简化的工作流程**：Oat简化了LLM对齐的实验流程。通过在线提供的`Oracle`，我们可以灵活地查询偏好数据标注以及随时进行模型评估。你只需启动实验并在wandb上监控实时学习曲线（如胜率）即可——无需手动训练、保存检查点和加载模型进行评估。\n* **Oracle模拟**：Oat提供多样化的oracle来模拟偏好\u002F奖励\u002F验证反馈。\n  * 支持使用基于规则的函数实现可验证奖励。\n  * 轻量级奖励模型可在actor进程中运行，从而在仅需两块GPU的情况下快速测试。\n  * 更大、功能更强的奖励模型可以远程部署，充分利用额外的计算和内存资源。\n  * 通过查询OpenAI API进行基于模型的成对排序，支持将LLM用作评判者。\n* **易用性**：Oat的模块化结构使研究人员能够轻松继承和修改现有类，从而快速原型设计和试验新算法。\n* **前沿算法**：Oat实现了最先进的在线算法，促进创新和公平的基准测试。\n  * PPO\u002FDr.GRPO（在线强化学习）用于数学推理。\n  * 在线DPO\u002FSimPO\u002FIPO用于在线偏好学习。\n  * 在线探索（主动对齐）算法，包括[SEA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.01493)、APL和XPO。\n\n## 安装\n在支持版本的Python环境中（我们推荐`3.10`），你可以通过PyPI安装oat：\n```shell\npip install vllm==0.8.4 && pip install -U oat-llm\n```\n或者你也可以以“可编辑”模式进行本地开发安装：\n```shell\ngit clone git@github.com:sail-sg\u002Foat.git\ncd oat\npip install vllm==0.8.4 && pip install -e .\n```\n\n## 使用\n\n* 使用Dr. GRPO进行类似R1-Zero的数学推理训练：[单文件自包含实现](.\u002Foat\u002Fexperiment\u002Frun_math_rl.py)，附带[训练脚本](.\u002Fexamples\u002Fmath_rl.sh)。\n\n* 多轮SFT：[示例训练脚本](.\u002Fexamples\u002Fmulti_turn_sft.sh)。\n\n* 带有主动探索的在线偏好学习：[详细指南](.\u002Fdocs\u002Falignment_as_cdb.md)。\n\n## 采用者\n以下研究项目已构建或集成了Oat 🌾：\n* [理解R1-Zero式训练：批判性视角](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Funderstand-r1-zero)\n* [VeriFree：无需验证器的通用推理增强](https:\u002F\u002Fgithub.com\u002Fsail-sg\u002FVeriFree)\n* [SPIRAL：零和博弈中的自我博弈通过多智能体多轮强化学习激励推理](https:\u002F\u002Fgithub.com\u002Fspiral-rl\u002Fspiral)\n* [GEM：面向代理型LLM的环境](https:\u002F\u002Fgithub.com\u002Faxon-rl\u002Fgem)\n\n\u003C!-- ## 基准测试\n该基准测试将oat与[huggingface\u002Ftrl](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftrl\u002Fmain\u002Fen\u002Fonline_dpo_trainer)中的在线DPO实现进行了比较。下面我们将列出oat所使用的配置，并展示基准测试结果。值得注意的是，与trl 🤗相比，oat 🌾的计算效率最高可达**2.5倍**。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsail-sg_oat_readme_1ffb6883caa8.png\" width=97%\u002F>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsail-sg_oat_readme_f52416288be1.png\" width=65% \u002F>\n\u003C\u002Fp>\n\n有关基准测试方法和结果的详细讨论，请参阅我们的论文[附录C](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.01493#page=17.64)。 -->\n\n## 引用\n如果你觉得这个代码库对你的研究有所帮助，请考虑引用：\n\n- LLM在线对齐框架：\n  ```bibtex\n  @misc{liu2024oat,\n    title={OAT：一个适合研究的LLM在线对齐框架},\n    author={刘子辰、陈昌宇、万欣怡、杜超、李伟孙、林敏},\n    year={2024}\n    howpublished={\\url{https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat}},\n  }\n  ```\n\n- 在线探索方法：\n  ```bibtex\n  @article{liu2024sea,\n    title={LLM的样本高效对齐},\n    author={刘子辰、陈昌宇、杜超、李伟孙、林敏},\n    journal={arXiv预印本arXiv:2411.01493},\n    year={2024}\n  }\n  ```\n\n## 许可证\n\n`oat`根据[Apache2](https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0)许可证条款进行分发。\n\n## 致谢\n我们感谢以下优秀的项目为oat的发展做出了贡献：\n* [vLLM](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm)\n* [DeepSpeed](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed)\n* [Mosec](https:\u002F\u002Fgithub.com\u002Fmosecorg\u002Fmosec)\n* [launchpad](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Flaunchpad)\n* [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF)\n\n## 免责声明\n\n本产品并非Sea Limited或Garena Online Private Limited的官方产品。","# OAT 快速上手指南\n\nOAT (Online Alignment Tool) 是一个高效、简洁的在线大语言模型（LLM）对齐框架。它采用分布式的 **Actor-Learner-Oracle** 架构，集成了 vLLM、DeepSpeed 和 Mosec 等前沿工具，支持 PPO、Dr.GRPO、在线 DPO 及主动探索等多种先进算法，特别适用于数学推理和偏好学习场景。\n\n## 环境准备\n\n在开始安装前，请确保满足以下系统要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python 版本**: 推荐 `3.10` (支持范围请参考 PyPI 徽章)\n*   **GPU**: 需要 NVIDIA GPU 以加速推理和训练\n*   **前置依赖**: 确保已安装 CUDA 驱动及对应的 CUDA Toolkit\n\n> **国内加速建议**：\n> 建议使用国内镜像源加速 Python 包下载，例如清华源或阿里源。\n> 设置方法：`export PIP_INDEX_URL=https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n## 安装步骤\n\n你可以选择通过 PyPI 直接安装稳定版，或通过源码安装以便进行开发调试。\n\n### 方式一：PyPI 安装（推荐）\n\n适用于快速体验和使用稳定版本。\n\n```shell\npip install vllm==0.8.4 && pip install -U oat-llm\n```\n\n### 方式二：源码安装（可编辑模式）\n\n适用于需要修改源码或贡献代码的开发者。\n\n```shell\ngit clone git@github.com:sail-sg\u002Foat.git\ncd oat\npip install vllm==0.8.4 && pip install -e .\n```\n\n## 基本使用\n\nOAT 提供了模块化的脚本和 Shell 示例，以下是几种典型场景的最简启动方式。\n\n### 1. 数学推理训练 (Dr. GRPO)\n\n运行类似 R1-Zero 的数学推理强化学习训练。该示例包含完整的单文件实现。\n\n**启动命令：**\n```bash\nbash examples\u002Fmath_rl.sh\n```\n*说明：此脚本将调用 `oat\u002Fexperiment\u002Frun_math_rl.py`，利用 Dr. GRPO 算法进行在线 RL 训练。*\n\n### 2. 多轮对话监督微调 (Multi-turn SFT)\n\n执行多轮对话数据的监督微调任务。\n\n**启动命令：**\n```bash\nbash examples\u002Fmulti_turn_sft.sh\n```\n\n### 3. 在线偏好学习与主动探索\n\n进行带有主动探索机制的在线偏好对齐（如 DPO\u002FSimPO\u002FIPO）。\n\n**参考文档：**\n详细配置与运行指南请参阅项目文档：\n```text\n.\u002Fdocs\u002Falignment_as_cdb.md\n```\n\n### 监控训练效果\n\nOAT 默认集成 WandB 进行实时监控。启动实验后，无需手动加载检查点，即可在 WandB 面板上实时查看胜率（Win Rate）等学习曲线。\n\n*   **示例看板**: [oat-llm reproduced results](https:\u002F\u002Fwandb.ai\u002Flkevinzc\u002Foat-llm)","某 AI 实验室的研究团队正致力于提升大模型在复杂数学推理任务中的准确率，急需验证一种新的在线强化学习算法。\n\n### 没有 oat 时\n- **架构搭建繁琐**：研究人员需手动整合 vLLM 进行采样、DeepSpeed 进行训练以及独立的奖励模型服务，耗费数周时间构建分布式 Actor-Learner-Oracle 架构。\n- **评估流程断裂**：每次验证算法效果都需停止训练、保存检查点、重新加载模型并运行评估脚本，导致无法实时观察胜率等关键指标的变化曲线。\n- **资源调度僵化**：难以灵活切换奖励反馈机制，若想从简单的规则验证切换到大型 LLM 裁判（LLM-as-a-judge），往往需要重构大量代码或重新配置环境。\n- **实验迭代缓慢**：由于缺乏统一的在线对齐框架，尝试如 Dr.GRPO 或 SEA 等前沿算法时，需重复造轮子，严重拖慢了科研创新节奏。\n\n### 使用 oat 后\n- **开箱即用架构**：oat 内置了基于 vLLM、DeepSpeed 和 Mosec 优化的分布式架构，团队只需几行配置即可启动高效的在线训练流程。\n- **实时监控闭环**：借助 oat 的在线 Oracle 服务，团队能在 WandB 上直接实时监测胜率学习曲线，彻底免去了手动中断训练和加载检查点的繁琐步骤。\n- **灵活反馈模拟**：通过 oat 提供的多样化 Oracle 模拟功能，团队可无缝切换从规则函数验证到远程调用 OpenAI API 进行偏好排序，轻松适配不同实验需求。\n- **快速算法原型**：利用 oat 模块化的设计和预置的 PPO、Dr.GRPO 及在线 DPO 等 SOTA 算法，研究人员能迅速复现并改进新策略，将实验周期从数周缩短至数天。\n\noat 通过高度集成的在线对齐框架，将研究人员从繁琐的工程基建中解放出来，使其能专注于算法创新与实时效果验证。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsail-sg_oat_bc9f3042.png","sail-sg","Sea AI Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsail-sg_c01d6e2a.png","",null,"https:\u002F\u002Fsail.sea.com","https:\u002F\u002Fgithub.com\u002Fsail-sg",[22,26,30],{"name":23,"color":24,"percentage":25},"Python","#3572A5",97.3,{"name":27,"color":28,"percentage":29},"Shell","#89e051",2.5,{"name":31,"color":32,"percentage":33},"Makefile","#427819",0.2,645,62,"2026-04-02T09:16:25","Apache-2.0",4,"未说明","必需 NVIDIA GPU。架构依赖 vLLM (Actor) 和 DeepSpeed (Learner)，通常用于分布式训练。轻量级测试最少需要 2 张 GPU；支持动态批处理和流水线并行，具体显存需求取决于模型大小。",{"notes":42,"python":43,"dependencies":44},"该工具采用分布式 Actor-Learner-Oracle 架构：Actor 使用 vLLM 加速采样，Learner 使用 DeepSpeed ZeRO 策略优化内存，Oracle 可通过 Mosec 作为远程服务部署。支持 FP16 精度进行强化学习训练。轻量级奖励模型可在进程内运行（最低 2 卡），大型模型可远程部署。安装时需先安装指定版本的 vLLM。","3.10 (推荐)",[45,46,47,48,49],"vllm==0.8.4","oat-llm","DeepSpeed","Mosec","wandb",[51,52],"语言模型","开发框架",[54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69],"alignment","dpo","llm","llm-aligment","rlhf","thompson-sampling","online-alignment","dueling-bandits","distributed-training","distributed-rl","llm-exploration","online-rl","reasoning","grpo","ppo","r1-zero",2,"ready","2026-03-27T02:49:30.150509","2026-04-06T09:46:58.667563",[75,80,85,90,95,100,105],{"id":76,"question_zh":77,"answer_zh":78,"source_url":79},14430,"安装或运行时遇到 'Could not load dynamic library libcudart.so.11.0' 错误，是否必须使用 CUDA 11.x？","不需要强制使用 CUDA 11.x。该依赖是由 `dm-launchpad` 库引入的，用于分布式编程。维护者测试发现 CUDA 12.4 环境下安装和运行均正常。如果您遇到此错误，请检查您的具体报错信息，通常这与环境配置有关，而非版本不兼容。建议确保按照官方指示创建环境：`git clone git@github.com:sail-sg\u002Foat.git`，`cd oat`，然后执行 `pip install vllm==0.6.2 && pip install -e .`。","https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fissues\u002F14",{"id":81,"question_zh":82,"answer_zh":83,"source_url":84},14431,"运行脚本时提示参数错误，例如找不到 '--preference-oracle' 或模块路径错误？","这是由于参数名称发生了破坏性变更（breaking change）。请将命令行中的 `--preference-oracle` 替换为 `--reward-oracle` 即可正常运行。或者，您可以更新到最新的 `oat` 包以自动适配新参数：`pip install -U oat-llm`。如果示例脚本（如 `offline_dpo_llama3_8b_ultrafeedback.sh`）报错找不到模块或参数缺失，请确保代码已更新到最新版本（或包版本更新至 0.1.2.post2 以上）。","https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fissues\u002F10",{"id":86,"question_zh":87,"answer_zh":88,"source_url":89},14432,"安装时报告 'dm-launchpad' 依赖错误或仅支持 Python 3.10？","`dm-launchpad` 目前已被归档且主要支持 Python 3.10 及以下版本。如果遇到 `ERROR: No matching distribution found for dm-launchpad[tensorflow]` 或 Python 版本不匹配的错误，官方建议暂时使用 `python=3.10` 来构建和运行代码库。请确保您的虚拟环境使用的是 Python 3.10。","https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fissues\u002F36",{"id":91,"question_zh":92,"answer_zh":93,"source_url":94},14433,"使用 LoRA 训练时，当 BATCH_SIZE_PER_DEVICE 大于 1 时梯度变为零怎么办？","这是一个已知问题，主要原因与 `FusedLinear` 函数和 padding tokens 的处理有关。该问题已在后续更新中修复。如果您遇到此问题，请拉取最新的代码库或更新安装包，确保包含相关的修复补丁。增加 batch size 后梯度为零的情况在修复后的版本中应不再出现。","https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fissues\u002F74",{"id":96,"question_zh":97,"answer_zh":98,"source_url":99},14434,"如何保存优化器状态并从断点恢复训练（Resuming from checkpoints）？","项目已更新支持保存完整检查点（包含优化器状态）并从中恢复。请在运行命令中添加参数 `--save_ckpt True`。设置后，系统会每隔 `save_steps` 步保存一次检查点。恢复训练时，只需指定相应的检查点路径即可继续之前的训练过程，无需重新从头开始。","https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fissues\u002F41",{"id":101,"question_zh":102,"answer_zh":103,"source_url":104},14435,"安装时提示 'Package oat-llm requires a different Python: 3.10.12 not in ==3.10' 如何解决？","这是因为早期版本对 Python 版本号限制过于严格（仅限精确的 3.10.0）。该问题已在 PR #54 中修复。解决方法是更新到最新版本的 `oat-llm` 包，或者直接从源码安装最新代码，新版本已放宽了对 Python 小版本号的限制，支持 3.10.x 系列。","https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fissues\u002F53",{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},14436,"Prompt 处理中 lstrip 是否会意外移除额外字符？","是的，早期版本中在去除 bos token 时使用 `lstrip` 可能会导致意外移除 prompt 开头的其他有效字符（如空格）。该问题已通过 PR #48 修复。如果您遇到此类数据预处理问题，请务必更新代码库至包含该修复的版本。","https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fissues\u002F49",[111,116,121,126,131,136,141,146,151,156,161,166,171,176,181],{"id":112,"version":113,"summary_zh":114,"released_at":115},81264,"v0.2.4","## 变更内容\n* 杂项：@lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F73 中对日志记录和资源分配进行了小幅更新\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.2.3...v0.2.4","2025-12-23T05:15:24",{"id":117,"version":118,"summary_zh":119,"released_at":120},81265,"v0.2.3","## 变更内容\n* chore: 更新 LoRA 并添加指标，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F66 中完成\n* 修复 PPOMultiTurnLearner 评论家训练中状态索引错误的问题，由 @MozerWang 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F67 中完成\n* 修复 DPO 训练中的微批次训练问题，由 @hmhuy0 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F68 中完成\n* feat: 添加 FP16 训练功能，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F70 中完成\n\n## 新贡献者\n* @MozerWang 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F67 中完成了首次贡献\n* @hmhuy0 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F68 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.2.2...v0.2.3","2025-10-31T01:08:10",{"id":122,"version":123,"summary_zh":124,"released_at":125},81266,"v0.2.2","## 变更内容\n* 功能：支持针对通用智能体强化学习的回合级 PPO，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F63 中实现。\n* 功能：支持 LoRA 强化学习训练，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F64 中实现。\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.2.1...v0.2.2","2025-10-02T02:43:23",{"id":127,"version":128,"summary_zh":129,"released_at":130},81267,"v0.2.1","## 变更内容\n* 修复：使用语义版本比较，以确保 vLLM 与 0.10.0 及以上版本兼容，由 @simonucl 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F60 中完成\n* 杂项：更新在线偏好学习功能，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F61 中完成\n* 修复：截断重要性采样以处理精度不匹配问题，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F62 中完成\n\n## 新贡献者\n* @simonucl 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F60 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.2.0...v0.2.1","2025-08-24T06:25:46",{"id":132,"version":133,"summary_zh":134,"released_at":135},81268,"v0.2.0","## 变更内容\n* 修复 SFTLearner 在 batch_size=1 时的张量切片问题，由 @longxudou 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F57 中完成\n* 功能：重构 SFT 以支持多轮对话数据，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F59 中完成\n\n## 新贡献者\n* @longxudou 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F57 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.1.4...v0.2.0","2025-07-24T15:00:23",{"id":137,"version":138,"summary_zh":139,"released_at":140},81269,"v0.1.4","## 变更内容\n* 修复损坏的示例，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F44 中完成\n* 新特性：添加数学强化学习示例和数据，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F45 中完成\n* 支持 vLLM 的 TP 功能及分布式训练，由 @ufotalent 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F46 中完成\n* 杂项：更新文档和 Python 版本，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F47 中完成\n* 修复：从提示中精确移除 BOS 令牌前缀，由 @cameron-chen 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F48 中完成\n* 修复：解决日志记录器警告，由 @emmanuel-ferdman 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F51 中完成\n* 支持激活值卸载，由 @ufotalent 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F50 中完成\n* 杂项：为单机训练正确设置端口号，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F52 中完成\n* 修复：调整 Python 版本、收集器，并清理数学强化学习代码，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F54 中完成\n* 新特性：减少显存占用，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F56 中完成\n\n## 新贡献者\n* @ufotalent 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F46 中完成了首次贡献\n* @emmanuel-ferdman 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F51 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.1.2...v0.1.4","2025-07-09T02:44:33",{"id":142,"version":143,"summary_zh":144,"released_at":145},81270,"v0.1.3.post2","## 变更内容\n* 修复损坏的示例，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F44 中完成\n* 新特性：添加数学强化学习示例及数据，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F45 中完成\n* 支持 vLLM 的 TP 功能及分布式训练，由 @ufotalent 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F46 中完成\n* 杂项：更新文档和 Python 版本，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F47 中完成\n* 修复：从提示词中精确移除 BOS 令牌前缀，由 @cameron-chen 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F48 中完成\n* 修复：解决日志记录器警告，由 @emmanuel-ferdman 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F51 中完成\n* 支持激活值卸载，由 @ufotalent 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F50 中完成\n* 杂项：为单机训练正确设置端口号，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F52 中完成\n* 修复：调整 Python 版本、收集器，并清理数学强化学习代码，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F54 中完成\n\n## 新贡献者\n* @ufotalent 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F46 中完成了首次贡献\n* @emmanuel-ferdman 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F51 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.1.2...v0.1.3.post2","2025-06-28T12:18:37",{"id":147,"version":148,"summary_zh":149,"released_at":150},81271,"v0.1.2","## 变更内容\n* 由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F39 中进行的轻微重构\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.1.0...v0.1.2","2025-05-06T08:17:22",{"id":152,"version":153,"summary_zh":154,"released_at":155},81272,"v0.1.0","## 变更内容\n* Dr. GRPO 的变更，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F35 中完成\n* 日志记录的改进，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F37 中完成\n* 升级至 vLLM V1（0.8.4）并使用 actor API 的 init() 方法，由 @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F38 中完成\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.0.9...v0.1.0","2025-04-18T03:34:45",{"id":157,"version":158,"summary_zh":159,"released_at":160},81273,"v0.0.9","## 变更内容\n* @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F26 中添加了 grpo 的批评者估计\n* @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F27 中对离线 SFT 进行了小幅修复\n* @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F28 中使用一个玩具任务来测试类似 R1-zero 的训练行为\n* @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F29 中更新了 README.md\n* 杂项：@eltociear 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F30 中更新了 deepspeed.py\n* @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F32 中添加了 SFT 脚本\n* @qlan3 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F33 中修复了用于计算 PPO 优势的错误批次索引\n* @lkevinzc 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F34 中升级了 vLLM，以实现更高效的并置运行\n\n## 新贡献者\n* @eltociear 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F30 中做出了首次贡献\n* @qlan3 在 https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F33 中做出了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.0.6...v0.0.9","2025-03-21T09:42:47",{"id":162,"version":163,"summary_zh":164,"released_at":165},81274,"v0.0.6","## What's Changed\r\n* Add length-regularized DPO by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F24\r\n* Refactor and add PPO for math reasoning by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F25\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.0.5...v0.0.6","2025-01-26T02:51:24",{"id":167,"version":168,"summary_zh":169,"released_at":170},81275,"v0.0.5","## What's Changed\r\n* fix typo by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F13\r\n* Support async online training and offline training by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F15\r\n* support LR_DPO by @cameron-chen in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F17\r\n* Add BNF Loss by @MaoXinn in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F18\r\n* Add more benchmarking scripts by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F19\r\n* Update BNF by @MaoXinn in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F20\r\n* Fix typos and formatting by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F21\r\n* revert lr dpo by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F22\r\n* bump version by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F23\r\n\r\n## New Contributors\r\n* @cameron-chen made their first contribution in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F17\r\n* @MaoXinn made their first contribution in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F18\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.0.4...v0.0.5","2024-12-17T10:07:09",{"id":172,"version":173,"summary_zh":174,"released_at":175},81276,"v0.0.4","## What's Changed\r\n* Fix image width by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F8\r\n* Update README.md by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F9\r\n* clearer readme examples & rename `reward_oracle` to `preference_oracle` by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F11\r\n* dump version 0.0.4 by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F12\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.0.3...v0.0.4","2024-11-11T09:25:53",{"id":177,"version":178,"summary_zh":179,"released_at":180},81277,"v0.0.3","## What's Changed\r\n* Refactor arg parsing and add examples by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F6\r\n* Fix APL due to vllm upgrade; update package v0.0.3 by @lkevinzc in https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fpull\u002F7\r\n* Release paper on Arxiv: https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.01493\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fsail-sg\u002Foat\u002Fcompare\u002Fv0.0.2...v0.0.3","2024-11-05T08:01:20",{"id":182,"version":183,"summary_zh":18,"released_at":184},81278,"v0.0.2","2024-11-01T12:46:48",[186,197,205,213,221,234],{"id":187,"name":188,"github_repo":189,"description_zh":190,"stars":191,"difficulty_score":192,"last_commit_at":193,"category_tags":194,"status":71},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[52,195,196],"图像","Agent",{"id":198,"name":199,"github_repo":200,"description_zh":201,"stars":202,"difficulty_score":70,"last_commit_at":203,"category_tags":204,"status":71},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,"2026-04-05T23:32:43",[52,196,51],{"id":206,"name":207,"github_repo":208,"description_zh":209,"stars":210,"difficulty_score":70,"last_commit_at":211,"category_tags":212,"status":71},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[52,195,196],{"id":214,"name":215,"github_repo":216,"description_zh":217,"stars":218,"difficulty_score":70,"last_commit_at":219,"category_tags":220,"status":71},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[52,51],{"id":222,"name":223,"github_repo":224,"description_zh":225,"stars":226,"difficulty_score":70,"last_commit_at":227,"category_tags":228,"status":71},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[195,229,230,231,196,232,51,52,233],"数据工具","视频","插件","其他","音频",{"id":235,"name":236,"github_repo":237,"description_zh":238,"stars":239,"difficulty_score":192,"last_commit_at":240,"category_tags":241,"status":71},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[196,195,52,51,232]]