[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-THUDM--slime":3,"tool-THUDM--slime":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",156033,2,"2026-04-14T23:32:00",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":101,"forks":102,"last_commit_at":103,"license":104,"difficulty_score":105,"env_os":106,"env_gpu":107,"env_ram":106,"env_deps":108,"category_tags":114,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":146},7666,"THUDM\u002Fslime","slime","slime is an LLM post-training framework for RL Scaling.","slime 是一个专为大语言模型（LLM）强化学习（RL）扩展打造的后训练框架。它旨在解决传统 RL 训练中效率低下、数据生成流程僵化以及训练与服务相互干扰的难题，让模型能够通过大规模强化学习持续进化。\n\n这款工具特别适合 AI 研究人员和深度学习开发者使用，尤其是那些希望复现 GLM-5、Qwen3 或 DeepSeek V3 等前沿模型训练过程，或致力于探索智能体（Agent）自主学习的团队。slime 的核心亮点在于其高性能与灵活性：它创新性地将 Megatron 训练引擎与 SGLang 推理引擎深度结合，实现了高效的混合模式训练；同时，其异步解耦的架构设计允许用户在独立的服务端灵活定制数据生成工作流，确保高强度的模型训练不会阻塞正常的 API 服务。\n\n作为支撑多个顶级开源项目（如物理竞赛推理模型 P1 和个性化智能体 OpenClaw-RL）的底层基础设施，slime 不仅提供了稳定的生产级支持，还通过模块化的数据缓冲机制，让用户能轻松适配各种复杂的验证环境和奖励反馈场景，是构建下一代自适应 AI 系统的有力助手。","# slime\n\n[中文版](.\u002FREADME_zh.md)\n\n[![Documentation](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-latest-brightgreen.svg?style=flat)](https:\u002F\u002Fthudm.github.io\u002Fslime\u002F)\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002FTHUDM\u002Fslime)\n\n**slime** is an LLM post-training framework for RL scaling, providing two core capabilities:\n\n1.  **High-Performance Training**: Supports efficient training in various modes by connecting Megatron with SGLang;\n2.  **Flexible Data Generation**: Enables arbitrary training data generation workflows through custom data generation interfaces and server-based engines.\n\nslime is the RL-framework behind [GLM-5](https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-5), [GLM-4.7](https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-4.7), [GLM-4.6](https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-4.6), [GLM-4.5](https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-4.5) and apart from models from Z.ai, we also supports the following models:\n- Qwen3 series (Qwen3Next, Qwen3MoE, Qwen3), Qwen2.5 series;\n- DeepSeek V3 series (DeepSeek V3, V3.1, DeepSeek R1);\n- Llama 3.\n\n## Blogs\n\n- Our vision: [slime: An SGLang-Native Post-Training Framework for RL Scaling](https:\u002F\u002Flmsys.org\u002Fblog\u002F2025-07-09-slime\u002F).\n- Our ideas on agentic training: [Agent-Oriented Design: An Asynchronous and Decoupled Framework for Agentic RL](https:\u002F\u002Fwww.notion.so\u002FAgent-Oriented-Design-An-Asynchronous-and-Decoupled-Framework-for-Agentic-RL-2278e692d081802cbdd5d37cef76a547)\n- v0.1.0 release note: [v0.1.0: Redefining High-Performance RL Training Frameworks](https:\u002F\u002Fthudm.github.io\u002Fslime\u002Fblogs\u002Frelease_v0.1.0.html)\n\n## Table of Contents\n\n- [Architecture Overview](#architecture-overview)\n- [Quick Start](#quick-start)\n- [Projects Built with slime](#projects-built-with-slime)\n- [Arguments Walkthrough](#arguments-walkthrough)\n- [Developer Guide](#developer-guide)\n- [FAQ & Acknowledgements](#faq--acknowledgements)\n\n## Architecture Overview\n\n![arch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTHUDM_slime_readme_aa8aba1d0e8a.png)\n\n**Module Descriptions**:\n\n- **training (Megatron)**: Responsible for the main training process, reads data from the Data Buffer, and synchronizes parameters to the rollout module after training.\n- **rollout (SGLang + router)**: Generates new data (including rewards\u002Fverifier outputs) and stores it in the Data Buffer.\n- **data buffer**: A bridge module that manages prompt initialization, custom data, and rollout generation methods.\n\n## Quick Start\n\nFor a comprehensive quick start guide covering environment setup, data preparation, training startup, and key code analysis, please refer to:\n- [Quick Start Guide](.\u002Fdocs\u002Fen\u002Fget_started\u002Fquick_start.md)\n\nWe also provide examples for some use cases not covered in the quick start guide; please check [examples](examples\u002F).\n\n## Projects Built upon slime\n\nslime has powered several novel research projects and production systems. Here are some notable examples:\n\n### 🦞 OpenClaw-RL: Train a Personalized Clawbot Simply by Talking to It\n\n[**OpenClaw-RL**](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL) is an RL server for personalized OpenClaw agents. It hosts the OpenClaw model and improves it from prior conversations across deployments, while slime's asynchronous RL infrastructure prevents training from interfering with API serving. It supports two automatic optimization methods: GRPO with binary feedback inferred from subsequent states, and on-policy distillation that extracts hindsight hints from later feedback for the current policy.\n\n### ⚛️ P1: Mastering Physics Olympiads with Reinforcement Learning\n\n[**P1**](https:\u002F\u002Fprime-rl.github.io\u002FP1\u002F) is a family of open-source physics reasoning models trained entirely through reinforcement learning. P1 leverages slime as the RL post training framework, and introduces a multi-stage RL training algorithm that progressively enhances reasoning ability through adaptive learnability adjustment and stabilization mechanisms. Enpowered by this training paradigm, P1 delivers breakthrough performance in open-source physics reasoning.\n\n### 📈RLVE: Scaling LM RL with Adaptive Verifiable Environments\n\n[**RLVE**](https:\u002F\u002Fgithub.com\u002FZhiyuan-Zeng\u002FRLVE) introduces an approach using verifiable environments that procedurally generate problems and provide algorithmically verifiable rewards, to scale up RL for language models (LMs). With joint training across 400 verifiable environments, RLVE enables each environment to dynamically adapt its problem difficulty distribution to the policy model's capabilities as training progresses.\n\n### ⚡ TritonForge: Agentic RL Training Framework for Kernel Generation\n\n[**TritonForge**](https:\u002F\u002Fgithub.com\u002FRLsys-Foundation\u002FTritonForge) leverages slime's SFT & RL capabilities to train LLMs that automatically generate optimized GPU kernels. By using a two-stage training approach—supervised fine-tuning followed by reinforcement learning with multi-turn compilation feedback—TritonForge achieves remarkable results in converting PyTorch operations into high-performance Triton kernels.\n\n### 🚀 APRIL: Accelerating RL Training with Active Partial Rollouts\n\n[**APRIL**](https:\u002F\u002Fgithub.com\u002FRLsys-Foundation\u002FAPRIL) introduces a system-level optimization that seamlessly integrates with slime to accelerate the rollout generation phase in RL training. By intelligently over-provisioning requests and actively managing partial completions, APRIL addresses the long-tail generation bottleneck that typically consumes over 90% of RL training time.\n\n### 🏟️ qqr: Scaling Open-Ended Agents with ArenaRL & MCP\n\n[**qqr**](https:\u002F\u002Fgithub.com\u002FAlibaba-NLP\u002Fqqr) (a.k.a. hilichurl) is a lightweight extension for slime designed to evolve open-ended agents. It implements the **ArenaRL** algorithm to tackle discriminative collapse through tournament-based relative ranking (**e.g., Seeded Single-Elimination, Round-Robin**) and seamlessly integrates the **Model Context Protocol (MCP)**. qqr leverages slime's high-throughput training capabilities to enable scalable, distributed evolution of agents in standardized, decoupled tool environments.\n\nThese projects showcase slime's versatility—from training code-generation models to optimizing RL training systems—making it a powerful foundation for both research and production deployments.\n\n## Arguments Walkthrough\n\nArguments in slime are divided into three categories:\n\n1.  **Megatron arguments**: slime reads all arguments in Megatron. You can configure Megatron by passing arguments like `--tensor-model-parallel-size 2`.\n2.  **SGLang arguments**: All arguments for the installed SGLang are supported. These arguments must be prefixed with `--sglang-`. For example, `--mem-fraction-static` should be passed as `--sglang-mem-fraction-static`.\n3.  **slime-specific arguments**: Please refer to: [slime\u002Futils\u002Farguments.py](slime\u002Futils\u002Farguments.py)\n\nFor complete usage instructions, please refer to the [Usage Documentation](docs\u002Fen\u002Fget_started\u002Fusage.md).\n\n## Developer Guide\n\n- **Contributions are welcome\\!** If you have suggestions for new features, performance tuning, or feedback on user experience, feel free to submit an Issue or PR 😊\n\n- Use [pre-commit](https:\u002F\u002Fpre-commit.com\u002F) to ensure code style consistency for your commits:\n\n```bash\napt install pre-commit -y\npre-commit install\n\n# run pre-commit to ensure code style consistency\npre-commit run --all-files --show-diff-on-failure --color=always\n```\n\n- For debugging tips, please refer to the [Debugging Guide](docs\u002Fen\u002Fdeveloper_guide\u002Fdebug.md)\n\n## FAQ & Acknowledgements\n\n- For frequently asked questions, please see the [Q\\&A](docs\u002Fen\u002Fget_started\u002Fqa.md)\n- Special thanks to the following projects & communities: SGLang, Megatron‑LM, mbridge, OpenRLHF, veRL, Pai-Megatron-Patch and others.\n- To quote slime, please use:\n\n```bibtex\n@misc{slime_github,\n  author       = {Zilin Zhu and Chengxing Xie and Xin Lv and slime Contributors},\n  title        = {slime: An LLM post-training framework for RL Scaling},\n  year         = {2025},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime}},\n  note         = {GitHub repository. Corresponding author: Xin Lv},\n  urldate      = {2025-06-19}\n}\n```\n","# slime\n\n[英文版](.\u002FREADME.md)\n\n[![文档](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-latest-brightgreen.svg?style=flat)](https:\u002F\u002Fthudm.github.io\u002Fslime\u002F)\n[![Ask DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fbadge.svg)](https:\u002F\u002Fdeepwiki.com\u002FTHUDM\u002Fslime)\n\n**slime** 是一个用于强化学习扩展的大型语言模型后训练框架，提供两大核心功能：\n\n1.  **高性能训练**：通过将 Megatron 与 SGLang 连接，支持多种模式下的高效训练；\n2.  **灵活的数据生成**：通过自定义数据生成接口和基于服务器的引擎，实现任意的训练数据生成工作流。\n\nslime 是 [GLM-5](https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-5)、[GLM-4.7](https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-4.7)、[GLM-4.6](https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-4.6)、[GLM-4.5](https:\u002F\u002Fz.ai\u002Fblog\u002Fglm-4.5) 背后的强化学习框架。除了 Z.ai 的模型外，我们还支持以下模型：\n- Qwen3 系列（Qwen3Next、Qwen3MoE、Qwen3）、Qwen2.5 系列；\n- DeepSeek V3 系列（DeepSeek V3、V3.1、DeepSeek R1）；\n- Llama 3。\n\n## 博文\n\n- 我们的愿景：[slime：一个原生支持 SGLang 的强化学习扩展后训练框架](https:\u002F\u002Flmsys.org\u002Fblog\u002F2025-07-09-slime\u002F)。\n- 我们关于智能体训练的理念：[面向智能体的设计：一种异步且解耦的智能体强化学习框架](https:\u002F\u002Fwww.notion.so\u002FAgent-Oriented-Design-An-Asynchronous-and-Decoupled-Framework-for-Agentic-RL-2278e692d081802cbdd5d37cef76a547)\n- v0.1.0 发布说明：[v0.1.0：重新定义高性能强化学习训练框架](https:\u002F\u002Fthudm.github.io\u002Fslime\u002Fblogs\u002Frelease_v0.1.0.html)\n\n## 目录\n\n- [架构概述](#architecture-overview)\n- [快速入门](#quick-start)\n- [基于 slime 构建的项目](#projects-built-with-slime)\n- [参数详解](#arguments-walkthrough)\n- [开发者指南](#developer-guide)\n- [常见问题与致谢](#faq--acknowledgements)\n\n## 架构概述\n\n![arch](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTHUDM_slime_readme_aa8aba1d0e8a.png)\n\n**模块说明**：\n\n- **training (Megatron)**：负责主训练流程，从数据缓冲区读取数据，并在训练完成后将参数同步到 rollout 模块。\n- **rollout (SGLang + 路由器)**：生成新数据（包括奖励\u002F验证器输出），并将其存储在数据缓冲区。\n- **data buffer**：一个桥梁模块，管理提示初始化、自定义数据以及 rollout 生成方法。\n\n## 快速入门\n\n有关环境搭建、数据准备、训练启动及关键代码分析的全面快速入门指南，请参阅：\n- [快速入门指南](.\u002Fdocs\u002Fen\u002Fget_started\u002Fquick_start.md)\n\n我们还提供了一些快速入门指南未涵盖的用例示例；请查看 [examples](examples\u002F)。\n\n## 基于 slime 构建的项目\n\nslime 已经支持了多个新颖的研究项目和生产系统。以下是一些值得注意的例子：\n\n### 🦞 OpenClaw-RL：只需与其对话即可训练个性化抓取机器人\n\n[**OpenClaw-RL**](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL) 是一个用于个性化 OpenClaw 智能体的强化学习服务器。它托管 OpenClaw 模型，并通过跨部署的后续对话不断改进模型，而 slime 的异步强化学习基础设施则防止训练干扰 API 服务。该系统支持两种自动优化方法：基于后续状态推断出的二元反馈的 GRPO，以及从后续反馈中提取回溯性提示以优化当前策略的策略内蒸馏。\n\n### ⚛️ P1：用强化学习掌握物理奥林匹克竞赛\n\n[**P1**](https:\u002F\u002Fprime-rl.github.io\u002FP1\u002F) 是一系列完全通过强化学习训练的开源物理推理模型。P1 将 slime 用作强化学习后训练框架，并引入了一种多阶段强化学习训练算法，通过自适应的学习能力调整和稳定机制逐步提升推理能力。在这一训练范式的驱动下，P1 在开源物理推理领域取得了突破性成果。\n\n### 📈RLVE：利用可验证环境扩展语言模型的强化学习\n\n[**RLVE**](https:\u002F\u002Fgithub.com\u002FZhiyuan-Zeng\u002FRLVE) 提出了使用可验证环境的方法，这些环境可以程序化生成问题，并提供算法可验证的奖励，从而扩展语言模型（LMs）的强化学习规模。通过在 400 个可验证环境中进行联合训练，RLVE 使每个环境能够根据策略模型的能力，在训练过程中动态调整问题难度分布。\n\n### ⚡ TritonForge：用于内核生成的智能体强化学习训练框架\n\n[**TritonForge**](https:\u002F\u002Fgithub.com\u002FRLsys-Foundation\u002FTritonForge) 利用 slime 的 SFT 和 RL 能力，训练能够自动生成优化 GPU 内核的大型语言模型。通过两阶段训练方法——监督微调，随后进行多轮编译反馈的强化学习——TritonForge 在将 PyTorch 操作转换为高性能 Triton 内核方面取得了显著成果。\n\n### 🚀 APRIL：通过主动部分 rollout 加速强化学习训练\n\n[**APRIL**](https:\u002F\u002Fgithub.com\u002FRLsys-Foundation\u002FAPRIL) 引入了一项系统级优化，可无缝集成到 slime 中，以加速强化学习训练中的 rollout 生成阶段。通过智能地超额预分配请求并主动管理部分完成情况，APRIL 解决了通常会占用强化学习训练时间 90% 以上的长尾生成瓶颈问题。\n\n### 🏟️ qqr：借助 ArenaRL 和 MCP 扩展开放式智能体\n\n[**qqr**](https:\u002F\u002Fgithub.com\u002FAlibaba-NLP\u002Fqqr)（又名 hilichurl）是 slime 的一个轻量级扩展，旨在进化开放式智能体。它实现了 **ArenaRL** 算法，通过锦标赛式的相对排名（例如种子单淘汰赛、循环赛）来应对判别崩溃问题，并无缝集成了 **模型上下文协议（MCP）**。qqr 利用 slime 的高吞吐量训练能力，能够在标准化、解耦的工具环境中实现智能体的可扩展、分布式进化。\n\n这些项目展示了 slime 的多功能性——从训练代码生成模型到优化强化学习训练系统——使其成为研究和生产部署的强大基础。\n\n## 参数详解\n\nslime 中的参数分为三类：\n\n1.  **Megatron 参数**：slime 会读取 Megatron 中的所有参数。您可以通过传递类似 `--tensor-model-parallel-size 2` 的参数来配置 Megatron。\n2.  **SGLang 参数**：所有已安装 SGLang 的参数均受支持。这些参数必须以 `--sglang-` 为前缀。例如，`--mem-fraction-static` 应作为 `--sglang-mem-fraction-static` 传递。\n3.  **slime 特定参数**：请参阅：[slime\u002Futils\u002Farguments.py](slime\u002Futils\u002Farguments.py)\n\n有关完整使用说明，请参阅 [使用文档](docs\u002Fen\u002Fget_started\u002Fusage.md)。\n\n## 开发者指南\n\n- **欢迎贡献\\!** 如果您对新功能、性能优化或用户体验有任何建议或反馈，请随时提交 Issue 或 PR 😊\n\n- 使用 [pre-commit](https:\u002F\u002Fpre-commit.com\u002F) 来确保代码风格的一致性：\n\n```bash\napt install pre-commit -y\npre-commit install\n\n# 运行 pre-commit 以确保代码风格一致\npre-commit run --all-files --show-diff-on-failure --color=always\n```\n\n- 如需调试技巧，请参阅[调试指南](docs\u002Fen\u002Fdeveloper_guide\u002Fdebug.md)。\n\n## 常见问题与致谢\n\n- 关于常见问题，请查看[问答](docs\u002Fen\u002Fget_started\u002Fqa.md)。\n- 特别感谢以下项目和社区：SGLang、Megatron‑LM、mbridge、OpenRLHF、veRL、Pai-Megatron-Patch 等。\n- 如需引用 slime，请使用以下 BibTeX 格式：\n\n```bibtex\n@misc{slime_github,\n  author       = {Zilin Zhu 和 Chengxing Xie 和 Xin Lv 和 slime 贡献者},\n  title        = {slime：用于强化学习扩展的 LLM 后训练框架},\n  year         = {2025},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime}},\n  note         = {GitHub 仓库。通讯作者：Xin Lv},\n  urldate      = {2025-06-19}\n}\n```","# Slime 快速上手指南\n\nSlime 是一个专为 RL（强化学习）扩展设计的大语言模型后训练框架，核心优势在于**高性能训练**（连接 Megatron 与 SGLang）和**灵活的数据生成**。它是 GLM-5、GLM-4 系列等模型背后的 RL 训练框架，同时也支持 Qwen3、DeepSeek V3、Llama 3 等主流开源模型。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04\u002F22.04)\n*   **GPU**: NVIDIA GPU (建议多卡环境以发挥分布式训练优势)\n*   **Python**: 3.9 或更高版本\n*   **CUDA**: 根据显卡驱动安装对应的 CUDA 版本 (通常建议 12.1+)\n*   **前置依赖**:\n    *   **Megatron-LM**: 用于核心训练流程。\n    *   **SGLang**: 用于高效推理和数据生成 (Rollout)。\n    *   **PyTorch**: 与上述框架版本兼容。\n\n> **提示**: 由于 Slime 强依赖特定版本的 Megatron 和 SGLang，建议优先参考官方文档中的版本兼容性列表，或使用官方提供的 Docker 镜像（如有）以避免环境冲突。\n\n## 2. 安装步骤\n\n### 克隆代码库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime.git\ncd slime\n```\n\n### 安装依赖\n推荐使用虚拟环境进行隔离。Slime 的核心依赖包括 Megatron 和 SGLang，请确保按顺序安装。\n\n```bash\n# 创建虚拟环境\npython -m venv slime_env\nsource slime_env\u002Fbin\u002Factivate\n\n# 升级 pip\npip install --upgrade pip\n\n# 安装基础依赖 (具体版本请参考 requirements.txt 或官方文档最新指引)\npip install -r requirements.txt\n\n# 安装 SGLang (需指定与 Slime 兼容的版本)\n# 注意：如果国内网络访问 GitHub 或 PyPI 较慢，可配置清华源或阿里源加速\npip install sglang -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装 Megatron-LM (Slime 通常需要特定 fork 版本或补丁版)\n# 此处以通用安装为例，具体请参考 docs\u002Fen\u002Fget_started\u002Fquick_start.md 中的详细指引\npip install git+https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMegatron-LM.git\n```\n\n### 代码风格检查工具 (可选但推荐)\n为了保持贡献代码的一致性，建议安装 `pre-commit`：\n```bash\napt install pre-commit -y\npre-commit install\n```\n\n## 3. 基本使用\n\nSlime 的启动逻辑分为三个主要部分：**Training (Megatron)**、**Rollout (SGLang)** 和 **Data Buffer**。参数传递遵循以下规则：\n*   **Megatron 参数**: 直接传递，如 `--tensor-model-parallel-size 2`。\n*   **SGLang 参数**: 需添加 `--sglang-` 前缀，如 `--sglang-mem-fraction-static`。\n*   **Slime 特有参数**: 定义在 `slime\u002Futils\u002Farguments.py` 中。\n\n### 最简单的训练示例\n\n以下是一个基于命令行启动的基本训练示例（假设已准备好数据集和模型权重）：\n\n```bash\npython main.py \\\n    --tensor-model-parallel-size 2 \\\n    --pipeline-model-parallel-size 2 \\\n    --num-layers 24 \\\n    --hidden-size 2048 \\\n    --num-attention-heads 16 \\\n    --seq-length 2048 \\\n    --max-position-embeddings 2048 \\\n    --train-iters 100 \\\n    --save .\u002Fcheckpoints \\\n    --load .\u002Fcheckpoints \\\n    --data-path .\u002Fdata\u002Fmy_dataset \\\n    --vocab-file .\u002Fvocab.json \\\n    --merge-file .\u002Fmerges.txt \\\n    --optimizer adam \\\n    --adam-beta1 0.9 \\\n    --adam-beta2 0.95 \\\n    --adam-eps 1e-8 \\\n    --lr 1e-5 \\\n    --min-lr 1e-6 \\\n    --lr-decay-style cosine \\\n    --weight-decay 1e-2 \\\n    --clip-grad 1.0 \\\n    --lr-warmup-fraction 0.01 \\\n    --micro-batch-size 4 \\\n    --global-batch-size 32 \\\n    --fp16 \\\n    --use-distributed-optimizer \\\n    --overlap-grad-reduce \\\n    --overlap-param-gather \\\n    --enable-flash-attn \\\n    --recompute-activations \\\n    --recompute-granularity full \\\n    --rollout-engine sglang \\\n    --sglang-tensor-parallel-size 2 \\\n    --sglang-mem-fraction-static 0.8 \\\n    --sglang-port 30000 \\\n    --reward-server-url http:\u002F\u002Flocalhost:8000\u002Freward \\\n    --generation-limit 1024\n```\n\n### 关键参数说明\n*   `--rollout-engine sglang`: 指定使用 SGLang 作为推理后端。\n*   `--sglang-*`: 所有带此前缀的参数将透传给 SGLang 服务。\n*   `--reward-server-url`: 指定奖励模型或验证器的服务地址，用于 RL 反馈。\n\n### 更多示例\n对于更复杂的场景（如自定义数据生成工作流、多阶段训练等），请参考项目根目录下的 `examples\u002F` 文件夹。\n\n---\n*注：本指南基于 Slime 核心功能整理，详细的高级配置、调试技巧及架构深度解析请参阅官方文档 [Quick Start Guide](.\u002Fdocs\u002Fen\u002Fget_started\u002Fquick_start.md)。*","某 AI 实验室团队正致力于训练一个能解决复杂物理竞赛题的推理模型，需要利用强化学习（RL）在海量动态生成的题目上进行大规模迭代优化。\n\n### 没有 slime 时\n- **训练与推理资源冲突**：传统的同步架构导致模型在生成数据（Rollout）时必须暂停参数更新，昂贵的 GPU 算力在等待中大量闲置，训练周期被拉长数倍。\n- **数据生成流程僵化**：难以灵活定制复杂的“出题 - 验证 - 反馈”闭环，每次调整物理题目的难度或验证逻辑都需要重写底层代码，开发效率极低。\n- **扩展瓶颈明显**：随着数据量增加，原有框架无法有效连接高性能推理引擎（如 SGLang），导致在高并发采样时显存溢出或响应延迟，限制了模型能力的上限。\n\n### 使用 slime 后\n- **异步解耦提升效率**：slime 将训练（Megatron）与推理（SGLang）完全解耦，模型在持续生成新题目的同时后台同步更新参数，GPU 利用率接近饱和，训练速度显著提升。\n- **灵活定义数据工作流**：通过自定义数据生成接口，团队轻松构建了适应物理竞赛的多阶段验证环境，无需修改核心框架即可实现从“出题”到“评分”的任意逻辑编排。\n- **无缝支持大规模扩展**：借助 slime 原生集成的 SGLang 高性能推理能力，系统能够稳定支撑千万级样本的并发生成，成功复现了类似 P1 模型在物理推理上的突破性效果。\n\nslime 通过异步架构和高性能引擎整合，将原本受阻于工程瓶颈的强化学习训练转化为高效、可扩展的自动化进化流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTHUDM_slime_3907b4a0.png","THUDM","THUKEG","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FTHUDM_698cabbc.png","ChatGLM, GLM-4, CogVLM, CodeGeeX, CogView, ImageReward, CogVideoX | CogDL, GraphMAE, AMiner | Zhipu.ai (Z.ai) & Knowledge Engineering Group (KEG)",null,"keg.cs.tsinghua@gmail.com","thukeg","https:\u002F\u002Fhuggingface.co\u002FTHUDM","https:\u002F\u002Fgithub.com\u002FTHUDM",[82,86,90,94,98],{"name":83,"color":84,"percentage":85},"Python","#3572A5",89.6,{"name":87,"color":88,"percentage":89},"Shell","#89e051",9.2,{"name":91,"color":92,"percentage":93},"Cuda","#3A4E3A",0.8,{"name":95,"color":96,"percentage":97},"Dockerfile","#384d54",0.3,{"name":99,"color":96,"percentage":100},"Just",0.1,5300,719,"2026-04-14T19:49:43","Apache-2.0",5,"未说明","必需 NVIDIA GPU（隐含，因依赖 Megatron-LM 和 SGLang），具体型号、显存大小及 CUDA 版本未在 README 中明确说明",{"notes":109,"python":106,"dependencies":110},"该工具是一个连接 Megatron 与 SGLang 的 RL 后训练框架。配置参数分为三类：Megatron 参数、需加 '--sglang-' 前缀的 SGLang 参数以及 slime 特有参数。支持 Qwen、DeepSeek、Llama 等主流模型系列。建议使用 pre-commit 保持代码风格一致。详细的环境设置、数据准备及启动指南需参考官方文档中的 'Quick Start Guide'。",[111,112,113],"Megatron-LM","SGLang","未说明其他具体库版本",[35,14],"2026-03-27T02:49:30.150509","2026-04-15T12:54:19.374180",[118,123,128,133,138,142],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},34314,"在共存模式（Colocate Mode）下，如何优化 MoE 模型的权重同步速度？","可以通过启用 SGLang 的 EP (Expert Parallel) 模式来显著降低延迟。具体配置包括添加 `--sglang-enable-ep-moe` 和 `--sglang-expert-parallel-size` 参数。例如，对于 Qwen3-30B-A3B 模型，使用 EP size 4 可将延迟从 56 秒降至 28 秒。此外，社区正在推进多项优化：1. 使用 flatten tensor 技术可带来约 20% 的收益；2. 应用 SGLang 侧的 load weight 优化 PR（如 #8751, #8753）；3. 将 allgather 操作改为异步 (`async_op=True`)。目标是将 30B MoE 模型的同步时间优化至 6 秒左右。","https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fissues\u002F132",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},34315,"在运行 MoE 模型（如 v2lite）时，遇到 block size 无法整除或 FP8 rollout 报错怎么办？","这通常是因为模型的特定维度（如 1368）不能被默认的 block size（如 64 或 128）整除，或者是 deepgemm 的限制。解决方案是减小 block size（例如尝试 64x64 或更小），不要强制使用 128。对于 FP8 rollout 问题，可能是缺乏 weight loader 或量化方法配置不当，需修正为 per channel 计算或检查是否已升级到修复了该问题的版本（如 v0.1.0+）。","https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fissues\u002F199",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},34316,"Slime 是否支持 PyTorch FSDP 后端，以及如何安装和使用？","是的，Slime 旨在通过添加 FSDP 后端来降低使用门槛，支持直接从 Hugging Face 加载任意模型并支持 VLM 训练。开发路线图包括：1. 设计独立的 FSDP 工作流；2. 解耦可复用函数以便在无 Megatron 环境下运行；3. 最终支持通过 `pip install` 或 `uv install` 直接安装。目前相关功能正在逐步实现中（参考 Issue #282, #290, #302 等进度）。","https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fissues\u002F74",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},34317,"在共存环境中切换至训练阶段时遇到 OOM（显存溢出）错误，可能是什么原因？","OOM 错误通常由 Rollout 阶段的采样数量过大导致。例如，当脚本中设置 `--rollout-batch-size 128` 且 `--n-samples-per-prompt 512` 时，总样本数高达 65536，远超正常配置的 8192，从而耗尽显存。解决方法是减少 rollout 的 batch size 或每个 prompt 的采样数（n-samples-per-prompt），使其与可用显存资源匹配。同时需确认 `torch_memory_saver` 版本是否正确，并检查是否有内存泄漏。","https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fissues\u002F537",{"id":139,"question_zh":140,"answer_zh":141,"source_url":127},34318,"为什么 Slime 在启动时卡在健康检查（health checks），而 Verl 已经开始推理？","这通常与 SGLang 服务器的参数配置有关，特别是针对 MoE 模型时的并行策略或块大小设置不当。建议检查 SGLang 的启动参数，确保 `tensor-parallel-size` (TP) 或 `expert-parallel-size` (EP) 设置合理，并且没有因维度不整除导致的初始化阻塞。可以尝试调整 block size 或参考官方推荐的 MoE 配置模板来加速训练进程的启动。",{"id":143,"question_zh":144,"answer_zh":145,"source_url":122},34319,"如何进一步提升 Slime 中权重更新的性能，还有哪些优化方向？","除了启用 EP 模式外，还可以尝试以下优化：1. 实现 Megatron 收集 tensor 和发送 update weight 的异步操作（类似 Kimi 的做法）；2. 增加权重转换过程的 profiling 工具以定位瓶颈；3. 优化 SGLang server 的 API 调用开销；4. 探索是否可以将部分操作改为同进程执行（虽难度较大）。目前社区正致力于将 235B 模型的同步时间控制在 30 秒以内。",[147,152,157,162,167,172,177],{"id":148,"version":149,"summary_zh":150,"released_at":151},271629,"v0.2.4","v0.2.4 已发布！感谢所有为本次发布做出贡献的小伙伴。\n\n## 重大更新\n\n除了大量的 bug 修复和稳定性提升外，v0.2.4 还带来了几项重要更新：\n- 性能分析与可观测性改进\n  新增了 rollout 跟踪时间线查看器，并支持 W&B 报告动态 ITL\u002FTTFT 分位数指标。\n- 路由器栈统一至 sgl-router\n  将路由器栈整合到 [sgl-router](https:\u002F\u002Fgithub.com\u002Fzhuzilin\u002Fsgl-router) 上，移除了 slime-router。\n- 多模态及模型支持扩展\n  改进了对 GLM-4.6V \u002F GLM4V、多模态 OPD 以及 Qwen3.5 相关工作流的支持。\n\n## 其他值得关注的变更\n- 修复了权重更新过程中 CUDA IPC 缓存泄漏问题\n- 修复了 FLA 层中的 SP\u002FCP 梯度膨胀问题\n\n## 具体变更内容\n* 功能：新增 GLM-4.6V MoE VL 桥接模块，支持 CP，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1715 中实现\n* 修复：在 HF 配置验证中从 rope_parameters 字典中解析 rope_theta，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1720 中完成\n* [docker] 针对 glm4.6v、kimi k2.5 和 dsa cp 的补丁，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1722 中提供\n* 修复权重更新期间的 CUDA IPC 缓存泄漏问题，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1731 中完成\n* [docker] 更新 megatron，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1729 中实施\n* [docker] 修复 mla 模型下的 IndexCache 问题，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1736 中解决\n* [slime-router] 支持 pd 解聚，并移除基数树中间件，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1735 中实现\n* 修复 glm4v megatron 桥接问题，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1738 中完成\n* [docker] 更新 sglang 补丁，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1743 中完成\n* 功能：改进 GLM4V 多模态支持，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1745 中实现\n* 功能：新增占位符工作线程类型、指标路由器以及 GPQA 文本范围功能，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1746 中完成\n* 始终启用 metrics 功能并移除 dp 上下文，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1747 中完成\n* 修复 FLA（线性注意力）层中的 SP\u002FCP 梯度膨胀问题，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1748 中解决\n* 更新 MTP 示例配置，将 GLM-4.5 重命名为 GLM-4.7，并清理相关脚本，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1749 中完成\n* 支持 qwen3.5 的多轮 SFT 损失掩码，由 @huang3eng 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1742 中实现\n* 修复桥接模型提供者中 moe_token_dispatcher_type 的传播问题，由 @nanjiangwill 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1737 中完成\n* 修复 DeepseekV32Bridge 中从 rope_parameters 中解析 rope_theta 的问题，由 @stevewx 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1734 中解决\n* 杂项：将剩余的中文注释翻译为英文，由 @WangHong-yang 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1726 中完成\n* 功能：新增 Qwen3.5-4B 模型支持，由 @shihaohou 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1721 中实现\n* 修复：http_utils 中为内部 SGLang httpx 客户端禁用系统代理，由 @Dongzhuoran 完成","2026-03-29T13:02:13",{"id":153,"version":154,"summary_zh":155,"released_at":156},271630,"v0.2.3","v0.2.3 已发布！感谢所有为本次发布做出贡献的开发者。\n\n## 重大更新\n\n除了广泛的 bug 修复和稳定性改进外，v0.2.3 还带来了多项重要更新：\n* 基于 YAML 的 sglang_config 支持引擎组配置\n这使得部署设置更加灵活：现在可以为 PD 解耦配置不同的并行策略，启用 EPD 风格的部署，甚至在单个部署中更干净地服务多个异构模型。\n* 扩展了模型支持，包括 GLM5、GLM-4.7-Flash 和 Qwen3.5。\n* 更新了依赖项和运行时环境，包括对 SGLang v0.5.9 的 Docker 支持，以及针对 PD、NSA、HiCache、CP+PP 等的多项修复。\n\n## 其他值得关注的变更\n* 为多轮对话部署添加了一致性哈希路由\n* 移除了 FSDP 支持，以便我们将维护精力集中在我们积极投入的训练和推理路径上。\n\n## 具体变更\n* fix: 修复由 @nanjiangwill 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1363 中引入的 sglang 回归问题\n* [docker] 将 fla 升级至 0.4.1，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1452 中完成\n* 允许传递 pp_size 参数，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1454 中实现\n* 撤销“fix: 修复 sglang 回归”提交，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1457 中完成\n* 更新 #1457，由 @nanjiangwill 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1458 中完成\n* [模型] 添加对 GLM4.7 Flash 的支持，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1460 中实现\n* [脚本] 添加 GLM4.7 Flash 的示例脚本，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1467 中完成\n* 添加 lb 默认值，由 @lilei199908 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1465 中实现\n* 支持非对称 int4 QAT，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1472 中完成\n* 添加无需校准数据集即可将 HF 格式转换为 int4 的功能，由 @xieck13 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1489 中实现\n* [docker] 修复 NSA + HiCache 相关问题，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1494 中完成\n* 修复计算 logprobs 时的内存泄漏问题，由 @lilei199908 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1506 中完成\n* [修复] 支持将 torch_dist 转换为 hf 格式，用于 Qwen3VL 密集模型，由 @p1k0pan 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1491 中完成\n* 将 qwen3-vl.py 重命名为 qwen3_vl.py，以修正拼写错误，由 @gxlvera 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1512 中完成\n* 同步内部功能，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1513 中完成\n* [docker] 允许在 PD 运行期间将请求数量缩减至 0，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1515 中实现\n* 传递正确的 Megatron 模型提供者 PP 参数，由 @hari-hm 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1486 中完成\n* 修复：支持 Qwen3-Next 的 MTP，由 @huang3eng 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1503 中完成\n* [文档] 添加 slime 路由器的相关文档，由 @Hecate0821 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1499 中完成\n* 添加对 VLM 检查点转换的支持，由 @cklxx 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1475 中完成\n* 修复：使用 aread() 完整读取 HTTP 响应体，由 @ann-qin-lu 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1488 中完成\n* 添加 response.aclose() 并修复代码风格问题，由 @zhuz","2026-03-12T01:28:16",{"id":158,"version":159,"summary_zh":160,"released_at":161},271631,"v0.2.2","v0.2.2 已发布！感谢所有为本次发布做出贡献的开发者。\n\n## 主要更新\n\n除了多项内存和性能优化外，v0.2.2 还新增了以下支持：\n- Int4-QAT 训练\n- 完整 R3（Rollout Routing Replay）支持，配合 DeepEP 和 MTP 使用\n- 依赖升级：SGLang v0.5.7 和 Megatron 开发分支\n\n## 变更内容\n* 添加检查点加载与保存的 CI 流水线，由 @lilei199908 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1104 中实现\n* 为 RLVE 添加 --rollout-all-samples-process-path 参数，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1107 中实现\n* 功能：支持 Qwen3 Moe 后端内核，由 @attack204 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1071 中实现\n* 修复最大响应\u002F上下文\u002F提示长度限制，由 @lilei199908 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1110 中修复\n* 修复最大长度限制，由 @lilei199908 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1112 中修复\n* [Docker] 移除 amem 并支持 Deepep + R3，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1115 中实现\n* [修复] 修复初始化回放引擎时的提前返回问题，由 @yitianlian 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1118 中修复\n* [修复] 为权重版本更新添加 SGLang 补丁，由 @yitianlian 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1119 中添加\n* 修复并改进分词逻辑，由 @nanjiangwill 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1113 中实现\n* [功能] 为权重版本更新添加 CI 测试，由 @yitianlian 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1120 中实现\n* [Docker] 使用 Base64 编码优化 R3，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1124 中优化\n* [Docker] 修复 R3 聚合缓冲区问题，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1129 中修复\n* [Docker] 为 R3 支持 MTP，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1131 中实现\n* [修复] 修复 retool 示例中的若干 bug，由 @yitianlian 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1130 中修复\n* 添加 finalize_model_grads_with_empty_cache 函数，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1133 中实现\n* 功能：为 FSDP 添加使用文档，由 @lin0303-siyuan 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1092 中实现\n* 为新的 SGLang DP 注意力实现预留更多端口，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1142 中完成\n* 博客：修复博客架构图的路径问题，由 @ShanningZhuang 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1125 中修复\n* 支持异步保存，并在训练结束时额外保存一次模型，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1143 中实现\n* 修复 GemmeRMSNorm.forward() 的 bug，由 @nanjiangwill 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1121 中修复\n* [进行中][FSDP] 为 Qwen3Next 支持 FSDP，由 @rucnyz 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1116 中推进\n* Megatron VLM 支持（1\u002FN），由 @Zhuohao-Li 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1123 中实现\n* 更新已弃用的 Hugging Face CLI，并修复失效链接，由 @Lyken17 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1147 中完成\n* 在 convert_torch_dist_to_hf.py 中加入 FSDP 检查点处理功能，由 @cklxx 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1101 中实现\n* 针对 Megatron 兼容性的小幅修复，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1149 中完成\n* 移除 config_mapping，改用 megatron-bridge，由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F1166 中完成\n* 避免重复","2026-01-18T04:54:01",{"id":163,"version":164,"summary_zh":165,"released_at":166},271632,"v0.2.1","感谢社区的大力支持与贡献——v0.2.1 版本现已发布！\n\n## 主要更新\n- **VLM + FSDP**：在 Qwen3-VL（密集型）上实现**真正的 on-policy 训练**。\n- 在 rollout 过程中支持 **PD 解耦**。\n- 在 **rollout 路由回放 (R3)** 中支持 **DP 注意力**。\n- 升级至 **SGLang v0.5.6**。\n\n## 变更内容\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F960 中将 mla 更新权重逻辑提取出来。\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F959 中支持一次性完成所有评估。\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F961 中新增 --rollout-sample-filter-path 参数。\n* [FSDP] 由 @Hecate0821 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F915 中优化了使用 Rank-0 广播的 FSDP2 模型加载。\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F977 中添加 sample.remove_sample 函数。\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F978 中新增 --eval-max-prompt-len 参数。\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F979 中为 max_context_len 添加参数检查。\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F981 中移除了硬编码的 balance_abs_threshold。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F964 中修复了 fp8_cast_bf16 未复制聊天模板的小问题。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F965 中对 Dockerfile 进行了微小调整，安装了 dnsutils 工具。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F966 中对检查点目录进行了简单的合理性检查。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F967 中修复了 convert_hf_to_torch_dist 导致的 OOM 问题。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F968 中为所有脚本增加了对环境变量的支持，使其与命令行参数并用。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F969 中将默认超时时间略微延长。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F970 中修复了即使已检测到空闲端口仍出现随机端口被占用的错误。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F971 中微调启用 draft-weights-cpu-backup，以避免 MTP 加速长度相关问题。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F972 中添加了用于基准测试的生成函数。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F973 中实现了权重更新过程中主机或设备内存零浪费。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F974 中为 qwen3 30b a3b 脚本添加了 fp8 KV 缓存和 TIS 支持。\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F975 中为 glm 脚本添加了 GB200、MTP、基准测试以及 fp8 rollout 模式。\n* [FSDP] 由 @PopSoda2002 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F982 中添加了私有函数标识符，以提升使用体验。\n* [Bugfix] 由 @PopSoda2002 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F983 中重命名了保存模型的函数。\n* 由 @fangzhensheng 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F963 中修复了 setup_model_and_optimizer 中的变量遮蔽 bug。\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F984 中移除了不必要的优化器初始化。\n* [Release] 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F986 中将版本号提升至 v0.2.0.post1。\n* 由 @zhuzilin 在 i 处修复了每 token 损失的缩放问题。","2025-12-12T13:02:14",{"id":168,"version":169,"summary_zh":170,"released_at":171},271633,"v0.2.0.post1","修复 #958 中提到的严重 bug。\n\n## 变更内容\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F960 中提取 MLA 更新权重逻辑\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F959 中支持一次性完成所有评估\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F961 中添加 --rollout-sample-filter-path 参数\n* [FSDP] 由 @Hecate0821 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F915 中优化 FSDP2 模型加载，采用 Rank-0 广播\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F977 中添加 sample.remove_sample 方法\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F978 中添加 --eval-max-prompt-len 参数\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F979 中为 max_context_len 添加参数检查\n* 由 @zhuzilin 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F981 中移除硬编码的 balance_abs_threshold\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F964 中修复 fp8_cast_bf16 未复制聊天模板的小问题\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F965 中在 Dockerfile 中极小地安装 dnsutils 工具\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F966 中进行极小的检查，确保检查点目录存在\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F967 中修复 convert_hf_to_torch_dist 内存溢出问题\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F968 中极小地支持所有脚本同时使用环境变量和命令行参数\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F969 中极小地增加默认超时时间\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F970 中修复即使已检测到空闲端口仍出现随机端口被占用的错误\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F971 中极小地启用 draft-weights-cpu-backup，以避免 MTP 加速长度问题\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F972 中添加用于基准测试的生成函数\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F973 中实现权重更新时主机或设备内存零浪费\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F974 中为 qwen3 30b a3b 脚本添加 fp8 KV 缓存和 TIS 支持\n* 由 @fzyzcjy 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F975 中为 glm 脚本添加 GB200、MTP、基准测试以及 fp8 部署模式\n* [FSDP] 由 @PopSoda2002 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F982 中添加私有函数标识符，以提升代码可读性\n* [Bugfix] 由 @PopSoda2002 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F983 中重命名保存模型函数\n* 由 @fangzhensheng 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F963 中修复 setup_model_and_optimizer 中的变量遮蔽错误\n\n## 新贡献者\n* @fangzhensheng 在 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F963 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fcompare\u002Fv0.2.0...v0.2.0.post1","2025-12-01T04:17:50",{"id":173,"version":174,"summary_zh":175,"released_at":176},271634,"v0.2.0","我们非常高兴地宣布 slime v0.2.0 正式发布！感谢社区的大力支持与贡献，这一版本的 slime 在功能和性能上都取得了显著提升。\n\n## 重大更新\n\n- **FSDP 后端**：引入了基于完全分片数据并行（FSDP）的训练后端，以提升可扩展性。\n- **PPO 支持**：新增对近端策略优化（PPO）的原生支持。\n- **MTP 训练**：在强化学习过程中支持 MTP（多令牌预测）的训练。\n- **FP8 全栈支持**：同时支持 FP8 训练和 FP8 推理。\n- **训练与推理不匹配问题**：缓解甚至消除训练与推理之间的不匹配。\n  - **重要性采样**：提供用于训练-推理重要性采样的自定义接口（如 MIS）。\n  - **路由回放**：新增 Rollout 路由回放（R3）和路由回放（R2）。\n  - **真正的在线策略训练**：在 FSDP 后端上实现了严格意义上的在线策略训练，并支持密集模型。\n- **性能改进**\n  - **内存优化**：引入 CUDA 图卸载、asystem-amem 集成等优化措施。\n  - **更快的权重更新**：显著加速了 FP8 权重更新。\n- **基于 Python 的路由器**：全新纯 Python 实现的 slime 路由器，提升了易用性。\n- **容错能力**：为 rollout 引擎增加了强大的容错机制。\n- **自定义配置**：支持通过 `--config` 参数传递自定义配置。\n- **[实验性] 检查点加载**：新增基于 Megatron-bridge 的检查点加载支持。\n- **新示例**\n  - **全异步训练**\n  - **多智能体场景**\n  - **在线策略蒸馏**\n  - **Retool**\n\n## 变更内容\n* [文档排版错误] 更新 amd_tutorial.md，作者 @yushengsu-thu，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F246\n* [修复 bug] 将 rollout_log_probs 的精度改为 FP32，作者 @zhuzilin，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F245\n* 完成 RayTrainGroup 参数字符串文档的编写，作者 @MrAta，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F248\n* 更新推测解码文档及 sglang 补丁，作者 @guapisolo，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F250\n* 修复仅调试 rollout 的问题，作者 @zyzshishui，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F249\n* 一次提交完成 retool，作者 @maocheng23，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F237\n* 修复：将 qwen-3b 的旋转位置编码基底修改为 1000000，以保持一致性，作者 @YuchenFan48，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F252\n* 更新日志记录并修复排版错误，作者 @maocheng23，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F254\n* [修复 bug] 修复读取包含 \"tools\" 字段的数据的问题，作者 @Maybewuss，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F255\n* 撤销 “[修复 bug] 修复读取包含 'tools' 字段的数据”的更改，作者 @zhuzilin，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F256\n* 为 qwen3-32B 任务添加 Shell 脚本，作者 @Gao016，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F253\n* 文档：修复自定义接口文档中的错误，作者 @GeLee-Q，见 https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\u002Fpull\u002F251\n* [示例] 新增全异步示例，作者 @zhuzilin，见 https:\u002F\u002Fgithub.com\u002F","2025-11-28T02:51:25",{"id":178,"version":179,"summary_zh":180,"released_at":181},271635,"v0.1.0","## 性能优化\n- SGLang：FP8 + DeepEP + 惊跳解码\n- Megatron：支持所有并行策略（TP、PP、VPP、EP、CP 等）+ DeepEP + CPU Adam。\n- 新的 Megatron offload 策略，内存使用更高效。\n- 更快的权重更新。\n\n## 新算法支持\n- GSPO\n- TIS\n- reinforce++ 及 reinforce++ 基础版本\n\n## 正确性\n- 针对 E2E GLM4 9B 和 Qwen3 30B-A3B 训练的 CI 测试\n- 构建 Conda 环境的 CI 测试","2025-08-31T16:35:15"]