OpenClaw-RL
OpenClaw-RL 是一款革命性的开源强化学习框架,旨在让用户仅通过自然语言对话即可训练个性化的 AI 智能体。它解决了传统强化学习门槛高、配置复杂且难以适应真实场景的痛点,让用户无需编写复杂的奖励函数或具备深厚的算法背景,也能轻松定制专属助手。
无论是希望快速验证想法的开发者、从事智能体研究的科研人员,还是想要个性化办公助手的普通用户,都能从中受益。OpenClaw-RL 支持终端操作、图形界面(GUI)、软件工程及工具调用等多种现实应用场景,真正实现了“所谈即所得”的训练体验。
其技术亮点显著:采用全异步架构提升效率,支持零 API 成本或零本地 GPU 部署,大幅降低资源门槛;内置混合强化学习(Hybrid RL)与自动优化机制,能直接理解用户的语言反馈作为奖励信号;同时支持 LoRA 微调及多人群反馈优化。此外,它还兼容 Slime 和 Tinker 等主流平台,提供灵活的本地与云端部署方案。OpenClaw-RL 让构建聪明、懂你的 AI 代理变得像聊天一样简单自然。
使用场景
某电商公司的后端工程师需要让 AI 助手自动处理复杂的订单异常流程,包括查询数据库、调用退款接口及发送通知邮件。
没有 OpenClaw-RL 时
- 训练门槛极高:工程师需手动编写数百条强化学习奖励函数代码,并配置复杂的 GPU 集群环境,耗时数天才能启动训练。
- 个性化调整困难:当业务规则变更(如退款阈值调整)时,无法通过自然语言直接修正模型行为,必须重新标注数据并微调模型。
- 反馈循环断裂:模型在真实终端或 GUI 操作中犯错后,只能依靠稀疏的数值奖励信号学习,难以理解“为什么这一步操作是错的”。
- 资源成本高昂:尝试不同算法策略(如 Hybrid RL 或 Binary RL)需要频繁切换框架并消耗大量算力,试错成本极高。
使用 OpenClaw-RL 后
- 对话即训练:工程师只需对着终端说“遇到金额大于 500 元的订单先人工审核”,OpenClaw-RL 即可自动解析意图并更新代理策略,无需编写一行奖励代码。
- 实时自然语言反馈:当代理操作失误时,直接告诉它“不应该在这个步骤关闭弹窗”,模型能立即利用语言反馈优化后续决策逻辑。
- 全场景无缝适配:无论是命令行操作、GUI 界面点击还是工具调用,OpenClaw-RL 均能通过统一的异步架构快速部署,支持本地 GPU 或云端一键启动。
- 自动策略优化:内置的混合强化学习机制自动探索最优解,工程师无需关心底层算法细节,显著降低了多轮迭代的算力消耗。
OpenClaw-RL 将原本高不可攀的代理训练过程转化为简单的自然语言交互,让开发者能像指导实习生一样低成本地定制专属 AI 员工。
运行环境要求
- 未说明
- 支持本地 GPU 训练(提及支持 LoRA、低精度训练 FP8/INT4 及 Qwen3.5 模型),也支持无 GPU 的云端部署(Tinker)或零 GPU 模式
- 具体显存和 CUDA 版本未在提供的片段中明确,但涉及 Megatron-LM 和 Slime 框架通常暗示需要 NVIDIA GPU
未说明

快速开始
OpenClaw-RL
用强化学习赋能 OpenClaw — 只需与它对话,即可训练个性化智能体。
可扩展的现实世界强化学习 — 面向终端、GUI、SWE 和工具调用场景的代理式强化学习。
📰 新闻
- [2026/4/4] 👨👦👦 我们支持基于多人反馈优化单个模型。
- [2026/3/25] 🙌 我们衷心感谢 Tinker 对本项目的慷慨支持,这使得我们能够进行更多实验并加快迭代速度。
- [2026/3/20] 💻 现在你可以使用自己的 OpenClaw,只需安装 此扩展。
- [2026/3/13] ☁️ OpenClaw-RL 现在同时支持本地 GPU 和云端(Tinker)部署。只需 一行代码 即可启动 — 混合强化学习、OPD 和二元强化学习均受支持!
- [2026/3/12] ⚡ 我们现在支持 LoRA 训练!
- [2026/3/10] 📃 我们发布了 技术报告! 🏆 在 HuggingFace Daily Papers 中排名第 #1!
- [2026/3/10] 🔥 今日重大更新!我们发布了一种 新的组合方法,以及对这些 OpenClaw-RL 方法的 有趣评估。第二条赛道也已发布,其中包含了适用于通用智能体场景的可扩展强化学习实现,涵盖 终端、GUI、SWE 和 工具调用 场景。我们只专注于现实世界的应用!
- [2026/3/3] 🙌 我们与 SDFT 和 SDPO 的作者合作,将他们的方法整合进了 openclaw-opd。我们欢迎新颖且有效的方法加入!
- [2026/3/3] 📺 查看这些关于 OpenClaw-RL 的社区教程视频:视频 1 | 视频 2
- [2026/2/26] 🔥 我们发布了 OpenClaw-RL v1 — 一个完全异步的强化学习框架,用于从自然对话反馈中训练个性化 AI 智能体。
💡 TL;DR
OpenClaw-RL 是一个完全异步的强化学习框架,能够将日常对话转化为个性化 AI 智能体的训练信号,并支持通过大规模环境并行化来训练通用智能体。
大多数针对 LLM 的强化学习系统都假设采用集中式的批处理模式训练,并使用预先收集的数据集。而 OpenClaw-RL 则采取了截然不同的方法:它将你自托管的模型封装在 OpenClaw 中,使其成为一个兼容 OpenAI 的 API,拦截实时的多轮对话,并在后台持续优化策略——整个过程不会中断你的正常使用。
亮点: 全异步四组件循环 · 自托管且私密 · 无需手动标注 · 三种学习范式(二元强化学习 / OPD / 组合)· 支持个性化与通用智能体
🌈 特性
完全异步的四组件架构
OpenClaw-RL 将 智能体服务、轨迹收集、PRM/评判 和 策略训练 分解为独立的异步循环。它们互不阻塞:模型在后台继续运行训练的同时,仍可正常响应请求;评判则与新的交互同步进行。
设计上即为自托管与私密
整个栈,包括 策略模型、评判/PRM 和 训练器,都运行在 你自己的基础设施 上。对话数据始终保留在你的系统内,无需任何第三方模型 API。
从反馈到梯度 — 自动完成
你无需手动标注数据。系统会自动:
- 将多轮交互组织成会话感知的训练轨迹
- 将 API 消息分类为可训练的 主线 和不可训练的 支线
- 将下一次用户、环境或工具的反馈作为自然的“下一状态”信号
- 异步执行 PRM/评判评估,在需要更稳健的评分时采用多数投票机制
- 随着样本准备就绪,立即将其提交给训练器
一种框架中的三种优化方法
二元强化学习(GRPO): 过程奖励模型根据下一状态的反馈对每一步进行打分。随后,该标量奖励与GRPO的优势估计以及PPO风格的裁剪代理损失函数结合使用。
策略内蒸馏(OPD): 当下一个状态揭示出有用的 hindsight 信息时,判别模型会提取出一段文本提示。这段提示会增强原始提示,从而创建一个更强大的教师模型,其与学生模型之间的 token 级别对数概率差距将成为比任何标量奖励都更为丰富的方向性优势信号。
组合方法: OpenClaw-RL 进一步将二元强化学习和 OPD 结合在一个统一的训练配方中,同时利用二元强化学习提供的密集标量监督信号以及 OPD 提供的更丰富的 token 级别方向性信号。这种组合相比单独使用任一方法都能实现更强、更稳健的优化效果。
从个人智能体到现实世界的智能体强化学习
同一框架既支持个性化的 OpenClaw 优化,也支持在现实环境中针对 终端、GUI、SWE 和 工具调用 智能体的可扩展强化学习。
🎯 路线图
我们的长期目标是 通过强化学习推动个性化、实用性强的智能体发展。路线图分为两条路径:
路径1 — 个人智能体优化(小规模但个性化)
✅ 发布路径1: 完全异步的 OpenClaw-RL 框架,包含二元强化学习 + OPD
✅ 通过演示实验发现最佳训练配方
✅ 支持 LoRA 训练
✅ 在 Tinker 上部署训练
⬜ 支持低精度训练/推理
⬜ 不仅限于策略:将学习扩展到技能和记忆
路径2 — 通用智能体优化(可扩展基础设施)
✅ 发布路径2: 面向通用智能体的可扩展智能体强化学习基础设施
⬜ 支持更多云服务
🤝 贡献说明
我们欢迎将新的学习方法集成到 OpenClaw-RL 框架中的贡献!例如,将 SDFT / SDPO 集成到 openclaw-opd,以及 支持 LoRA 等,都是社区成功贡献的典范。
📝 目录
🔧 个人代理优化快速入门
1. 部署选项
没有钱?
- 硬件: 8× GPU(默认;可通过
NUM_GPUS、ACTOR_GPUS、ROLLOUT_GPUS、PRM_GPUS进行配置) - 软件: CUDA 12.9、Python 3.12
- 框架: Slime(我们的基础强化学习框架)
有关详细的环境搭建,请参阅 Slime 或 ./instructions/README.md。
没有GPU?
创建一个 Tinker API。这就足够了。但请注意,Tinker 只支持 LoRA,其效果可能不如全量微调。因此我们仍在对其进行测试。
2. 启动强化学习服务器
我们提供了三种方法(强化学习服务器):
| 维度 | 二元强化学习 | OPD | 组合 |
|---|---|---|---|
| 信号类型 | 评价型(好 / 坏) | 方向型 | 评价型 + 方向型 |
| 优势 | 序列级标量 | 令牌级方向 | 序列与令牌混合级别 |
| 密度 | 所有评分回合 | 仅接受提示的回合 | 所有评分回合 |
| 反馈类型 | 用户 / 环境 | 显式修正 | 隐性和显式反馈兼备 |
| 信号丰富度 | 每个样本 1 个标量 | 每个令牌 1 个值 | 每个令牌 1 个值 |
选择你的优化方法:
选项 A:组合方法 — 推荐!
cd slime
bash ../openclaw-combine/run_qwen3_4b_openclaw_combine.sh
这种方法结合了二元强化学习和 OPD,以实现最佳优化。
算法详情请参阅 ./openclaw-combine/README.md。
使用 LoRA(参数高效,所需 GPU 更少):
bash ../openclaw-combine/run_qwen3_4b_openclaw_combine_lora.sh
cd openclaw-tinker
python run.py --method combine --model-name Qwen/Qwen3-8B --batch-size 16 --prm-m 1 --w-opd 1.0 --w-rl 1.0
设置详情请参阅 ./openclaw-tinker/README.md。
选项 B:二元强化学习 — 最适合隐性反馈(点赞/不喜欢、环境成功/失败)
cd slime
bash ../openclaw-rl/run_qwen3_4b_openclaw_rl.sh
PRM 将根据下一状态的反馈自动判断响应质量。我们建议频繁提供反馈(例如 👍/👎),以帮助模型有效优化。
算法详情请参阅 ./openclaw-rl/README.md。
使用 LoRA(参数高效,所需 GPU 更少):
bash ../openclaw-rl/run_qwen3_4b_openclaw_rl_lora.sh
使用 Tinker(完全无需 GPU)
cd openclaw-tinker
python run.py --method rl --model-name Qwen/Qwen3-8B --batch-size 16 --prm-m 3
设置详情请参阅 ./openclaw-tinker/README.md。
选项 C:策略蒸馏(OPD) — 最适合丰富的文本反馈
cd slime
bash ../openclaw-opd/run_qwen3_4b_openclaw_opd.sh
系统会从你的反馈中提取事后提示,并在令牌级别将其提炼到策略中。我们建议提供具体的反馈(例如“你应该先检查文件”或“不要使用那个库”)。
算法详情请参阅 ./openclaw-opd/README.md。
使用 LoRA(参数高效,所需 GPU 更少):
bash ../openclaw-opd/run_qwen3_4b_openclaw_opd_topk_lora.sh
使用 Tinker(完全无需 GPU)
cd openclaw-tinker
python run.py --method opd --model-name Qwen/Qwen3-8B --batch-size 16 --prm-m 1
设置详情请参阅 ./openclaw-tinker/README.md。
运行后,模型将以 OpenAI 兼容的 API 形式提供服务,地址为:
http://<HOST_IP>:30000/v1
其中 <HOST_IP> 是运行强化学习服务器的机器的 IP 地址(例如 115.190.98.251)。端口 30000 是默认值,可通过 PORT 环境变量进行更改。
请记住这个端点——在下一步配置 OpenClaw 时需要用到它。
我们还提供了一个有趣的评估案例。一位学生使用 OpenClaw 完成作业,但不希望被发现使用了 AI。而一位老师同样使用 OpenClaw 批改学生的作业,希望评语具体且友好。
评估设置 — 学生和老师都使用 AI!
我们发现,在组合优化方法下,OpenClaw 在学生场景中只需 36 次解题交互,在教师场景中只需 24 次批改交互,就能实现显著且清晰可见的提升。
设置和算法详情请参阅 ./openclaw-test/README.md。
3. OpenClaw 设置
你可以使用自己的 OpenClaw,只需安装 此扩展。
如果你希望在捆绑的 OpenClaw 运行时中进行基于本地文件的技能创作,请参阅 openclaw/extensions/skill-bridge/README.md。
然后配置 OpenClaw 将请求路由到你的 RL 服务器。
打开你的 openclaw.json(或等效的设置文件),并在 "models" → "providers" 下添加一个提供者条目:
基于 Slime 的 RL 服务器示例:
{
"models": {
"providers": {
"qwen": {
"baseUrl": "http://<HOST_IP>:30000/v1",
"apiKey": "apiKey",
"api": "openai-completions",
"models": [
{
"id": "qwen3-4b",
"name": "Qwen3 4B",
"reasoning": true,
"input": ["text"],
"cost": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
},
"contextWindow": 32768,
"maxTokens": 8192
}
]
}
}
}
}
将 <HOST_IP> 替换为你的 RL 服务器机器的 IP 地址。apiKey 应与你在启动服务器时设置的 SGLANG_API_KEY 匹配。
基于 Tinker 的 RL 服务器示例:
{
"models": {
"providers": {
"openclaw-rl": {
"baseUrl": "http://localhost:30000/v1",
"apiKey": "no-auth-needed",
"api": "openai-completions",
"models": [
{
"id": "qwen3-4b-lora",
"name": "Qwen3 4B (OpenClaw-RL LoRA)",
"reasoning": true,
"input": ["text"],
"cost": {
"input": 0,
"output": 0,
"cacheRead": 0,
"cacheWrite": 0
},
"contextWindow": 32768,
"maxTokens": 8192
}
]
}
}
}
}
就是这样——开始与你的 OpenClaw 代理聊天吧。RL 服务器会自动收集对话轨迹、计算奖励并训练模型。你使用的越多,你的代理就会变得越好。
🔧 真实场景中的智能体强化学习
驱动我们个人智能体场景的相同异步强化学习框架,同样可以支持更广泛的真实世界环境中的大规模优化。
| 场景 | 环境 | 下一状态信号 | 周期 |
|---|---|---|---|
| 终端 | Shell 执行沙箱 | stdout/stderr, 退出码 | 长 |
| GUI | 屏幕状态 + 辅助功能树 | 视觉状态差异, 任务进度 | 长 |
| SWE | 代码仓库 + 测试套件 | 测试结果, 差异, lint 输出 | 长 |
| 工具调用 | API/函数执行 | 返回值, 错误堆栈 | 中 |
🖥️ 终端智能体 — 最广泛使用的计算机使用智能体
cd slime
bash ../terminal-rl/terminal_qwen3_8b_rl.sh
有关设置详情,请参阅 ./terminal-rl/README.md。
📟 GUI 智能体 — 最通用的计算机使用智能体
cd slime
bash ../gui-rl/gui_qwen3vl_8b_rl.sh
有关设置详情,请参阅 ./gui-rl/README.md。
👨💻 SWE 智能体 — 软件工程智能体
cd slime
bash ../swe-rl/run_swe_rl_32b_remote_8nodes.sh
有关设置详情,请参阅 ./swe-rl/README.md。
🛠️ 工具调用智能体 — 最实用的智能体
cd slime
bash ../toolcall-rl/retool_qwen3_4b_rl.sh
有关设置详情,请参阅 ./toolcall-rl/README.md。
📖 引用
@article{wang2026openclawrl,
title={OpenClaw-RL: 通过简单对话即可训练任何智能体},
author={Wang, Yinjie and Chen, Xuyang and Jin, Xiaolong and Wang, Mengdi and Yang, Ling},
journal={arXiv preprint arXiv:2603.10165},
year={2026}
}
@article{wang2026rlanything,
title={RLAnything: 在完全动态的强化学习系统中构建环境、策略和奖励模型},
author={Wang, Yinjie and Xie, Tianbao and Shen, Ke and Wang, Mengdi and Yang, Ling},
journal={arXiv preprint arXiv:2602.02488},
year={2026}
}
🙏 致谢
本研究旨在探索更有效的智能体强化学习范式。我们的实现基于 slime、OpenClaw、Tinker 和 Open-AgentRL 等优秀开源项目。
我们还利用 SETA 的数据集和智能体框架构建终端 RL,使用 OSWorld 的评估脚本构建 GUI RL,使用 mini-swe-agent 的评估脚本构建 SWE RL,并基于 Retool 的工作构建工具调用 RL。
我们衷心感谢这些项目提供的宝贵见解和高质量实现,它们极大地促进了我们的研究。
⚠️ 提醒
在使用 OpenClaw-RL 时,请勿在与模型对话过程中提供敏感的个人信息。同时,请务必妥善保管您的 API 密钥,切勿将其暴露在提示词、日志或共享文件中。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备