ROLL

GitHub
3k 263 困难 1 次阅读 今天Apache-2.0Agent
AI 解读 由 AI 自动生成,仅供参考

ROLL 是一个专为大语言模型(LLM)设计的强化学习优化库,帮助开发者更高效地利用大规模 GPU 资源提升模型在人类偏好对齐、复杂推理和多轮智能交互等任务中的表现。它解决了传统 RL 训练中资源调度复杂、训练效率低、部署门槛高的问题,让研究人员能更专注算法创新,而非底层工程细节。ROLL 采用基于 Ray 的多角色分布式架构,灵活分配计算资源,支持异构任务调度,并深度集成 Megatron-Core、SGLang 和 vLLM 等主流框架,显著加速训练与推理。特别支持 Qwen3.5 密集与 MoE 模型、FSDP2、LoRA 微调、GPU 计算重叠等前沿技术,降低大模型 RL 的实践成本。适合从事大语言模型强化学习研究的科研人员、AI 工程师和算法团队使用,尤其适合需要在多卡集群上训练和调优 LLM 的用户。开源且文档完善,欢迎社区共同探索。

使用场景

某AI创业公司正在开发一款智能客服代理系统,需基于Qwen3.5-MoE模型通过强化学习优化多轮对话策略,以提升用户满意度和任务完成率。团队拥有8张A100 GPU,但缺乏高效调度与训练框架,进展缓慢。

没有 ROLL 时

  • 模型训练每次只能用1-2张卡,其余GPU闲置,资源利用率不足30%
  • 多轮对话的奖励建模依赖手动编写规则,难以捕捉用户真实偏好,准确率低于65%
  • 训练与推理分离,每次迭代需重启服务,从调整策略到验证效果耗时超过8小时
  • 使用传统PyTorch框架时,显存溢出频繁,工程师每天花2小时调试内存问题
  • 无法并行处理不同用户场景的对话样本,模型泛化能力差,上线后客服错误率高达22%

使用 ROLL 后

  • 借助Ray分布式架构,8张A100全量协同训练,显存利用率提升至92%,训练速度提升5倍
  • 内置人类偏好对齐模块,自动学习真实对话中的满意信号,用户满意度评分从4.1提升至4.7(5分制)
  • 集成vLLM与SGLang,训练与推理无缝衔接,策略调整后30分钟内即可完成A/B测试验证
  • 支持Megatron+LoRA混合训练,显存占用降低60%,再无内存溢出崩溃,工程师专注模型优化而非调试
  • 支持多角色异构任务调度,可同时训练“退款咨询”“产品推荐”等12类对话场景,上线后错误率降至7.3%

ROLL 让团队在两周内完成原本需三个月的强化学习优化,直接推动客服系统自动化率提升40%。

运行环境要求

操作系统
  • Linux
GPU

需要 NVIDIA GPU,显存 8GB+,CUDA 11.7+

内存

未说明

依赖
notes建议使用 conda 管理环境,首次运行需下载模型文件(如 Qwen3 系列可达数十GB),支持 NVIDIA GPU 和 Ascend NPU,推荐使用 Docker 镜像简化部署,部分功能需配置多卡分布式环境。
python未说明
torch
transformers
accelerate
ray
megatron-core
sglang
vllm
ROLL hero image

快速开始

ROLL Logo

ROLL:面向大规模学习的强化学习优化框架

🚀 一款高效且易用的强化学习规模化库,助力大型语言模型 🚀

License GitHub issues Repo stars WeChat QR Ask DeepWiki X QR

ROLL 是一款专为大型语言模型(LLMs)设计的高效、易用的强化学习库,充分利用大规模 GPU 资源。它显著提升了 LLM 在关键领域的性能,包括人类偏好对齐、复杂推理以及多轮智能体交互场景。

ROLL 基于 Ray 的多角色分布式架构,实现灵活的资源分配与异构任务调度,并融合 Megatron-Core、SGLang 和 vLLM 等前沿技术,加速模型训练与推理过程。


📢 最新动态

📣 更新内容
[2026年3月6日] 🎉 我们支持Qwen3.5 密集型MoE型系列模型,以及[在线策略蒸馏](docs_roll/i18n/zh-Hans/docusaurus-plugin-content-docs/current/User Guides/Pipeline/on_policy_distill_pipeline_start.md)。欢迎使用!
[2026年2月3日] 🎉 我们发布了FSDP2策略、带LoRA的Megatron、GPU部分重叠、Qwen3-Omni支持等新功能。更多详情,请参阅发布说明。欢迎使用!
[2026年1月1日] 🎉 我们的让其流动:摇滚乐中的智能体创作报告发布!介绍ALE生态系统和ROME,一种采用新颖IPA算法的开源智能体模型。
[2025年11月8日] 🎉 我们的ROCK:强化开放构建套件发布,探索全新能力!
[2025年10月23日] 🎉 我们的论文发布,详见非对称近端策略优化:迷你批评家助力大模型推理注意力照亮大模型推理:预计划与锚定节奏实现精细策略优化
[2025年10月14日] 🎉 我们的论文发布,详见第二部分:ROLL Flash——利用异步加速RLVR与智能体训练
[2025年9月28日] 🎉 支持昇腾NPU——请参阅使用指南
[2025年9月25日] 🎉 我们的论文发布,详见RollPacker:缓解长尾回滚以实现快速同步的强化学习训练后处理
[2025年9月24日] 🎉 支持Wan2_2奖励FL流水线。探索全新能力!
[2025年9月23日] 🎉 ROLL与GEM环境定义对齐,提供智能体工具使用训练能力,工具使用文档
[2025年9月16日] 🎉 支持Qwen3-Next模型训练,请参考配置文件
[2025年9月4日] 🎉 ROLL支持vLLM动态FP8回滚及remove_padding以加速。
[2025年8月28日] 🎉 ROLL支持SFT流水线,请参考配置文件
[2025年8月13日] 🎉 ROLL支持AMD GPU,提供开箱即用的镜像docker与Dockerfile,并在examples/目录下提供特定yaml文件。请参阅安装指南
[2025年8月11日] 🎉 我们的论文发布,详见第一部分:技巧还是陷阱?深入探究用于大模型推理的强化学习
[2025年8月10日] 🎉 智能体强化学习支持逐步学习,如GigPO;蒸馏支持VLM。探索全新能力!
[2025年8月6日] 🎉 ROLL PPT现已发布,幻灯片
[2025年7月31日] 🎉 重构智能体强化学习设计。支持智能体强化学习异步训练。探索全新能力!
[2025年7月31日] 🎉 支持DistillPipeline/DpoPipeline。支持loRa。支持GSPO
[2025年6月25日] 🎉 支持线程环境用于环境扩展,并支持qwen2.5 VL智能体流水线
[2025年6月13日] 🎉 支持Qwen2.5 VL rlvr流水线并升级mcore至0.12版本。
[2025年6月9日] 🎉 ROLL技术报告现已发布!点击这里获取报告。
[2025年6月8日] 🎉 支持Qwen3(8B/14B/32B)、Qwen3-MoE([30A3](examples/qwen3-30BA3B-rlvr_megatron/rlvr_config.yaml)/235A22)、Qwen2.5(7B/14B/32B/72B)大模型。
[2025年5月30日] 🎉 使用ROLL训练RLVR智能体强化学习现已可用!探索全新能力。

🚀 快速入门

文档

快速开始

安装
配置系统说明
调试指南
追踪器与指标
检查点保存与恢复指南
将MCoreAdapter模型转换为Hugging Face格式
快速开始:单节点部署指南
快速开始:多节点部署指南
快速开始:使用阿里云函数计算DevPod进行快速开发 常见问题

用户指南

管道逐步详解

RLVR管道
代理式管道
代理式综合指南
蒸馏管道

算法

Reinforce++
TOPR
GiGPO
PPO
Lite PPO
GRPO
GSPO
RAFT++
StarPO
RewardFL

后端

DeepSeed
Megatron
vLLM
SGLang

高级功能

异步并行Rollout
异步训练功能

性能优化与资源管理

资源配置
GPU时间分割复用控制

ROLL x Ascend

Ascend使用指南


✨ 核心特性

  • 多任务强化学习训练(RLVR): 涵盖数学、编码、通用推理、开放式问答、指令跟随等。
    • 灵活的domain_batch_size分布控制。
    • 样本级异步并行Rollout,异步奖励计算与动态采样。
    • 实施中的异步训练。
  • 代理式强化学习: 游戏、多轮对话、工具使用等多轮交互能力。
    • 环境级异步并行Rollout
    • 支持异步训练
    • 多轮交互Rollout支持本地调试,提升多轮交互业务开发效率。
    • 支持**轨迹式(StartPO)步骤式(GiGPO)**训练范式。
  • 算法友好: 默认提供灵活丰富的强化学习策略配置。
    • 超过20种丰富的强化学习策略选项,如奖励归一化、奖励裁剪、多种优势估计方法等。
    • 开箱即用支持强化学习算法,如PPO、GRPO、Reinforce++、TOPR、RAFT++、GSPO等。
  • 丰富的训练与推理引擎: 基于Ray的多角色分布式架构;策略抽象统一各类后端,实现从单机到数千GPU集群的轻松操作。
    • 推理/生成支持vLLM、SGLang。
    • 训练支持DeepSpeed(ZeRO)、Megatron-LM 5D并行(mcore-adapter、dp/tp/pp/cp/ep)、FSDP实施中。
    • 极致的卸载/重载能力。
    • 支持LoRA训练。
    • 支持FP8 Rollout(LLM作为判别器的FP8推理,FP8 Rollout与BF16训练研发中)。
  • AutoDeviceMapping: 支持不同角色的自定义设备映射,灵活管理共置与分离部署。
  • 可观测性: 集成SwanLab / WandB / TensorBoard,跟踪各领域与奖励类型的性能。
  • 丰富的训练后技术支持:
    • 代理式强化学习LLM与VLM
    • RLVR LLM与VLM
    • 蒸馏管道LLM与VLM
    • DPO管道
    • SFT管道研发中

🏆 基于ROLL的杰出工作

  • ComplementaryRL:互补强化学习是一种学习框架,它通过在强化学习优化循环中无缝协同进化经验提取器与策略执行器,使智能体能够从经验中高效学习。
  • RLix:RLix是一款强化学习作业管理器,通过在不同作业间共享GPU资源,让更多的强化学习任务能够并行运行而减少等待时间,同时保持每个流水线的训练行为并提升GPU利用率。
  • TurningPoint-GRPO:一种用于文本到图像生成中流匹配模型的GRPO框架,通过建模逐级增量奖励并显式捕捉转折点检测带来的长期效应,缓解了逐级奖励稀疏的问题,为每次去噪动作提供密集的学习信号。
  • STAgent:一款专门针对时空理解及复杂任务(如受限POI发现和行程规划)的代理式大语言模型,采用1:10,000的过滤比例进行分层数据筛选,并实施级联训练(种子SFT + 难度感知SFT + 强化学习),在TravelBench上表现强劲,同时保留通用能力。
  • IPRO:一种新颖的视频扩散框架,利用强化学习增强以人为中心的I2V生成中的身份保护,通过人脸身份评分器和KL散度正则化优化扩散模型。
  • TaoSR-SHE:淘宝搜索相关性逐步混合检查强化学习框架,包含SRPO(混合奖励模型+离线验证器)、多样化数据过滤以及多阶段课程学习。
  • EARL:面向大语言模型的高效代理式强化学习系统,引入动态并行度选择器和布局感知数据调度器,以提升吞吐量、降低内存和数据移动瓶颈,实现稳定的大规模代理式强化学习而无需硬性上下文长度限制。
  • LiveThinking:通过拒绝采样微调将670B教师大语言模型蒸馏至30B MoE(3B激活),再用GRPO压缩推理,为AI驱动的直播提供实时推理能力;延迟低至秒级,计算量减少约30倍,且在响应正确率(3.3%)、有用性(21.8%)以及淘宝直播GMV方面均有显著提升。
  • TaoSR-AGRL:基于大语言模型的电商相关性自适应引导强化学习,引入规则感知奖励塑造和自适应引导回放,以提升淘宝搜索中的长程推理、规则遵从性和训练稳定性;已部署于主搜索,服务数亿用户。
  • RecGPT:新一代大语言模型驱动的框架,将用户意图置于推荐系统的核心,促进更可持续且互利共赢的生态系统。
  • TaoSR1:一种全新的大语言模型框架,直接部署思维链(CoT)推理用于电商查询-商品相关性预测,克服了部署难题,实现了卓越性能。
  • AIGB-Pearl:一种新颖的自动出价方法,融合生成式规划与策略优化,利用大语言模型增强的轨迹评估器迭代优化出价策略,实现顶尖广告效果。

🙏 致谢与引用

ROLL的设计灵感来源于OpenRLHF、VeRL、Nemo-Aligner和RAGEN。 该项目由阿里巴巴淘宝天猫集团与阿里巴巴集团共同开发。代码采用Apache License(版本2.0)授权发布。本产品包含多种其他开源许可下的第三方组件,请参阅NOTICE文件获取更多信息。

以下仓库在ROLL中被使用,或以其原始形式,或作为灵感来源:

如果您在研究或项目中使用ROLL,请考虑引用我们:

@article{wang2025reinforcement,
  title={大规模学习的强化学习优化:一种高效且易用的扩展库},
  author={王伟迅、熊少攀、陈耿儒、高伟、郭升、何延成、黄菊、刘嘉恒、李振东、李晓阳等},
  journal={arXiv预印本 arXiv:2506.06122},
  year={2025}
}

🤝 关于[ROCK & ROLL团队]

ROLL是由淘天未来生活实验室与阿里巴巴AI引擎团队联合开发的项目,专注于探索强化学习(RL)的未来发展方向。我们的使命是通过先进的强化学习技术,探索并塑造未来生活的创新形态。如果你对强化学习的未来充满热情,希望参与这一领域的变革,我们热烈欢迎你的加入!👇

WeChat二维码 X二维码

我们正在招聘!


我们欢迎社区贡献!🤝

版本历史

v0.2.12026/03/09
v0.2.02026/02/04
v0.1.32025/12/08

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。

70.6k|★★★☆☆|今天
语言模型Agent开发框架