[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Gen-Verse--OpenClaw-RL":3,"tool-Gen-Verse--OpenClaw-RL":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",142651,2,"2026-04-06T23:34:12",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":116,"forks":117,"last_commit_at":118,"license":119,"difficulty_score":10,"env_os":120,"env_gpu":121,"env_ram":120,"env_deps":122,"category_tags":130,"github_topics":131,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":145,"updated_at":146,"faqs":147,"releases":178},4751,"Gen-Verse\u002FOpenClaw-RL","OpenClaw-RL","OpenClaw-RL: Train any agent simply by talking","OpenClaw-RL 是一款革命性的开源强化学习框架，旨在让用户仅通过自然语言对话即可训练个性化的 AI 智能体。它解决了传统强化学习门槛高、配置复杂且难以适应真实场景的痛点，让用户无需编写复杂的奖励函数或具备深厚的算法背景，也能轻松定制专属助手。\n\n无论是希望快速验证想法的开发者、从事智能体研究的科研人员，还是想要个性化办公助手的普通用户，都能从中受益。OpenClaw-RL 支持终端操作、图形界面（GUI）、软件工程及工具调用等多种现实应用场景，真正实现了“所谈即所得”的训练体验。\n\n其技术亮点显著：采用全异步架构提升效率，支持零 API 成本或零本地 GPU 部署，大幅降低资源门槛；内置混合强化学习（Hybrid RL）与自动优化机制，能直接理解用户的语言反馈作为奖励信号；同时支持 LoRA 微调及多人群反馈优化。此外，它还兼容 Slime 和 Tinker 等主流平台，提供灵活的本地与云端部署方案。OpenClaw-RL 让构建聪明、懂你的 AI 代理变得像聊天一样简单自然。","\u003Cdiv align=\"center\">\n  \u003Ch1 align=\"center\">\n    \u003Cimg src=\"assets\u002Fspacer.png\" alt=\"\" width=\"23\" height=\"40\" align=\"absmiddle\" \u002F>\n    OpenClaw-RL\u003C!--\n-->\u003Csup>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_OpenClaw-RL_readme_8a8e6f89c7d6.png\" alt=\"Claw-RL logo\" width=\"23\" height=\"40\" align=\"absmiddle\" \u002F>\n    \u003Csup>\n  \u003C\u002Fh1>\n\n  \u003Cp>\u003Cb>Empowering OpenClaw with RL — Train a personalized agent simply by talking to it.\u003C\u002Fb>\u003C\u002Fp>\n  \u003Cp>\u003Cb>Scalable RL in real-world settings — Agentic RL for terminal, GUI, SWE, and tool-call settings.\u003C\u002Fb>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F⚡_Fully_Async-yellow?style=for-the-badge\" alt=\"Fully Async\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💰_Zero_API_or_Zero_GPU-blue?style=for-the-badge\" alt=\"Zero API or Zero GPU\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤖_Personalized-success?style=for-the-badge\" alt=\"Personalized\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🛠️_Auto_Optimization-orange?style=for-the-badge\" alt=\"Auto\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💬_Language_Feedback-purple?style=for-the-badge\" alt=\"Language Feedback\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🧠_Hybrid_RL-red?style=for-the-badge\" alt=\"Hybrid RL\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌍_Real_World_Agentic_RL-green?style=for-the-badge\" alt=\"General Agentic RL\" \u002F>\n  \u003Cbr>\u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.10165\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_Tech_Report-red?style=flat-square\" alt=\"Tech Report\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fyinjjiew.github.io\u002Fprojects\u002Fopenclawrl1\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBlog-Page-blue?style=flat-square\" alt=\"OpenClaw-RL Blog\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fopenclaw.ai\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenClaw-Plugin-orange?style=flat-square\" alt=\"OpenClaw Plugin\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FSlime-Supported-purple?style=flat-square\" alt=\"Slime Based\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTinker-Supported-yellow?style=flat-square\" alt=\"Tinker Supported\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"LICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-green?style=flat-square\" alt=\"License Apache 2.0\" \u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa58aacad-3c1d-47aa-bbd1-cf8c5f36de6f\" controls width=\"200\">\u003C\u002Fvideo>\n\u003C\u002Fp>\n\n\n\n\n\n\n\n\n\n## 📰 News\n\n- **[2026\u002F4\u002F4]** 👨‍👦‍👦 We support optimizing a single model based on feedback from a group of people.\n- **[2026\u002F3\u002F25]** 🙌 We sincerely thank [Tinker](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F) for its generous support of this project, which has enabled more experiments and faster iteration.\n- **[2026\u002F3\u002F20]** 💻 You can use your own openclaw now, simply install [this extension](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Ftree\u002Fmain\u002Fextensions\u002Frl-training-headers).\n- **[2026\u002F3\u002F13]** ☁️ OpenClaw-RL now supports both local GPU and cloud ([Tinker](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F)) deployment. Launch with [**one line of code**](#combinemethod) — Hybrid RL, OPD, and Binary RL all supported!\n- **[2026\u002F3\u002F12]** ⚡ We support LoRA training now!\n- **[2026\u002F3\u002F10]** 📃 We have released our [**Technical Report**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.10165)! 🏆 Ranked **#1** on [HuggingFace Daily Papers](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2603.10165)!\n- **[2026\u002F3\u002F10]** 🔥 Huge updates today! We released a [new combination method](.\u002Fopenclaw-combine), along with an [interesting evaluation](.\u002Fopenclaw-test) of these OpenClaw-RL methods. Track 2 is released too, featuring scalable RL implementations for general agent settings across [terminal](.\u002Fterminal-rl), [GUI](.\u002Fgui-rl), [SWE](.\u002Fswe-rl), and [tool-call](.\u002Ftoolcall-rl) scenarios. We only focus on real-world settings!\n- **[2026\u002F3\u002F3]** 🙌 Working with the authors of [SDFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.19897) and [SDPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.20802), we have integrated their methods into [openclaw-opd](.\u002Fopenclaw-opd). We welcome the integration of novel and effective methods!\n- **[2026\u002F3\u002F3]** 📺 Check out these community tutorial videos on OpenClaw-RL: [Video 1](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=5xnm1vB7G64) | [Video 2](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ZtN6Gg_bdJE)\n- **[2026\u002F2\u002F26]** 🔥 We release **OpenClaw-RL v1** — a fully asynchronous RL framework for training personalized AI agents from natural conversation feedback. \n\n---\n\n## 💡 TL;DR\n\n> **OpenClaw-RL** is a fully asynchronous reinforcement learning framework that turns everyday conversations into training signals for personalized AI agents, and supports training general agents with large-scale environment parallelization.\n\nMost RL-for-LLM systems assume centralized, batch-mode training with pre-collected datasets. **OpenClaw-RL** takes a fundamentally different approach: it wraps your self-hosted model in [OpenClaw](https:\u002F\u002Fopenclaw.ai) as an OpenAI-compatible API, intercepts live multi-turn conversations, and continuously optimizes the policy in the background — all without interrupting your usage.\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_OpenClaw-RL_readme_036b5598bc89.png\"  alt=\"Overview\"  width=\"600\">\n\u003C\u002Fp>\n\n\n\n> **Highlights:** Fully async 4-component loop · Self-hosted & private · Zero manual labeling · Three learning paradigms (Binary RL \u002F OPD \u002F Combine) · Personal + General agent support\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>🌈 Features\u003C\u002Fb>\u003C\u002Fsummary>\n\n### Fully Asynchronous 4-Component Architecture\nOpenClaw-RL decouples **agent serving**, **rollout collection**, **PRM\u002Fjudge evaluation**, and **policy training** into independent async loops. None of them block one another: the model continues serving requests while training runs in the background, and judging happens concurrently with new interactions.\n\n### Self-Hosted & Private by Design\nThe entire stack, including the **policy model**, **judge\u002FPRM**, and **trainer**, runs on **your own infrastructure**. Conversation data stays within your system, and no third-party model API is required.\n\n### From Feedback to Gradient — Automatically\nYou do not need to manually label data. The system automatically:\n- Organizes multi-turn interactions into session-aware training trajectories\n- Classifies API messages into **main-line** (trainable) vs. **side** (non-trainable) turns\n- Uses the next user, environment, or tool feedback as a natural \"next-state\" signal\n- Runs PRM\u002Fjudge evaluation asynchronously, with majority voting when needed for more robust scoring\n- Submits ready samples to the trainer as they become available\n\n### Three Optimization Methods in One Framework\n\n**Binary RL (GRPO):** A Process Reward Model scores each turn based on next-state feedback. The scalar reward is then used with GRPO advantage estimation and a PPO-style clipped surrogate loss.\n\n**On-Policy Distillation (OPD):** When the next state reveals useful hindsight, a judge model extracts a textual hint. This hint augments the original prompt to create an enhanced teacher, whose token-level log-probability gap with the student becomes a directional advantage signal richer than any scalar reward.\n\n**Combination Method:** OpenClaw-RL further combines Binary RL and OPD in a unified training recipe, leveraging the dense scalar supervision of Binary RL together with the richer token-level directional signal from OPD. This combination achieves stronger and more robust optimization than either method alone.\n\n### From Personal Agents to Real-World Agentic RL\nThe same framework supports both personalized OpenClaw optimization and scalable RL for **terminal**, **GUI**, **SWE**, and **tool-call** agents in real-world settings.\n\n\n\n\u003C\u002Fdetails>\n\n---\n\n\n\n## 🎯 Roadmap\n\nOur long-term goal is to **advance personalized, practically useful agents with reinforcement learning**. The roadmap has two tracks:\n\n#### Track 1 — [Personal Agent Optimization](#personalagent) (Small-Scale but Personal)\n✅ **Release Track 1:** Fully async OpenClaw-RL framework with Binary RL + OPD  \n✅ Best recipe discovery via demonstration experiments  \n✅ Support LoRA Training  \n✅ Deploy training on [Tinker](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F)  \n⬜ Support low-precision training\u002Finference  \n⬜ Beyond the policy: extend learning to skills and memory  \n\n#### Track 2 — [General Agents Optimization](#generalagent) (Scalable Infra)\n✅ **Release Track 2:** Scalable agentic RL infra for general agents  \n⬜ Support more cloud services  \n\n\n\n## 🤝 Contributing\n\nWe welcome contributions that integrate new learning methods into the OpenClaw-RL framework! The integration of [SDFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.19897) \u002F [SDPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.20802) into [openclaw-opd](.\u002Fopenclaw-opd), and [supporting LoRA](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Fpull\u002F23) are great examples of successful community contributions.\n\n\u003C!--\n\n**Highly wanted contributions:**\n- 🤖 **Qwen3.5 model support with slime** — launch scripts and model configs for the Qwen3.5 family\n- 🔧 **Low-precision training examples** — FP8\u002FINT4 training scripts for existing methods\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>📋 Full contribution guidelines & feature wishlist\u003C\u002Fb>\u003C\u002Fsummary>\n\n\n# Call for Contributions\n\nWe welcome community contributions to OpenClaw-RL! This document outlines our contribution principles and the features we'd love help with.\n\n## Contribution Guidelines\n\nOpenClaw-RL is organized as a collection of **self-contained method folders** (e.g., `openclaw-rl\u002F`, `openclaw-opd\u002F`, `openclaw-combine\u002F`), each sitting alongside the shared `slime\u002F` training framework and `openclaw\u002F` runtime.\n\nContributions generally fall into two categories:\n\n### Adding a new method or deployment target\n\nCreate a new top-level folder (parallel to existing ones like `openclaw-opd\u002F`). All method-specific code — launch scripts, custom loss functions, rollout logic, API server adapters, data processing, and the README — should live inside this folder.\n\n### Extending an existing method\n\nFor changes within an existing method folder — such as supporting a new model family, adding a LoRA variant, or a low-precision example — **add new files** (e.g., a new `.sh` script, a new data processing script) rather than modifying existing ones. This way the original working examples stay intact and your addition can be reviewed independently.\n\n### General principles\n\n1. **Do not modify the core framework.** Avoid changes to `slime\u002F`, `Megatron-LM\u002F`, or `openclaw\u002F` unless absolutely necessary. The framework exposes extension points (`--custom-loss-function-path`, `--rollout-function-path`, `--custom-generate-function-path`, `--custom-rm-path`, etc.) specifically so that new methods can plug in without touching shared code. If a framework change is truly needed, please open a separate PR for it with a clear justification.\n\n2. **Include documentation.** For a new method folder, add a `README.md` explaining what the method does, how to run it, key environment variables, and file structure. For additions to existing folders, update the existing `README.md` with a new section. See [`openclaw-combine\u002FREADME.md`](.\u002Fopenclaw-combine\u002FREADME.md) or [`toolcall-rl\u002FREADME.md`](.\u002Ftoolcall-rl\u002FREADME.md) for good examples.\n\n3. **Follow existing conventions.** Use the same shell script structure (GPU partitioning, `CKPT_ARGS`, `ROLLOUT_ARGS`, `OPTIMIZER_ARGS`, etc.), environment variable naming, and `ray job submit` launch pattern used by the existing methods.\n\n\n\n\n\n## Highly Preferred Features\n\n\n### 1. 🤖 Qwen3.5 Model Support of slime\n\n**Type:** Extend existing method folders\n\n**Goal:** Add launch scripts and model configurations for the Qwen3.5 family across existing methods.\n\n**Requirements:**\n\n- Add new `.sh` scripts for Qwen3.5 in relevant method folders (e.g., `openclaw-combine\u002Frun_qwen35_4b_openclaw_combine.sh`).\n- Add the corresponding model config in `slime\u002Fscripts\u002Fmodels\u002F` if Qwen3.5 requires different architecture parameters (hidden size, num layers, etc.) from Qwen3.\n- Verify and document any changes needed for tokenizer, chat template, reasoning parser, or tool-call parser compatibility.\n- Update READMEs to list Qwen3.5 as a supported model.\n\n\n### 2. 🔧 Low-Precision Training\u002FInference Examples\n\n**Type:** Extend existing method folders\n\n**Goal:** Add low-precision (e.g., INT8\u002FINT4 inference, BF16\u002FFP8 training) example scripts to existing method folders, enabling users to run OpenClaw-RL on consumer-grade hardware with fewer GPUs.\n\n**Requirements:**\n\n- Add **new** `.sh` scripts within existing method folders — do not modify existing scripts.\n- Low-precision inference: demonstrate launching the SGLang rollout engine with quantized weights (e.g., AWQ\u002FGPTQ INT4) to reduce VRAM for the serving side.\n- Low-precision training: if supported by the Megatron backend, demonstrate FP8 or mixed-precision configurations that reduce training memory.\n- Update the corresponding `README.md` in each method folder with a new section documenting these scripts.\n\n---\n\nIf you're interested in any of these, feel free to open an issue to discuss your approach before submitting a PR. We're happy to provide guidance and review!\n\n\n\u003C\u002Fdetails>\n\n-->\n\n\n## 📝 Contents\n\n- [Personal OpenClaw Optimization](#personalagent)\n  - [Combination Method (Binary RL + OPD)](#combinemethod)\n  - [Binary RL](#binaryrlmethod)\n  - [On-policy Distillation](#opdmethod)\n  - [Method Evaluation](#evalmethod)\n- [Agentic RL in Real World Settings](#agentrl)\n  - [Terminal Agent](#terminal)\n  - [GUI Agent](#gui)\n  - [SWE Agent](#swe)\n  - [Tool-call Agent](#toolcall)\n\n---\n\n\n\n\u003Ca id=\"personalagent\">\u003C\u002Fa>\n## 🔧 Personal Agent Optimization Quick Start\n\n### 1. Deployment Options\n\n#### Don't have any money?\n\n- **Hardware:** 8× GPUs (default; configurable via `NUM_GPUS`, `ACTOR_GPUS`, `ROLLOUT_GPUS`, `PRM_GPUS`)\n- **Software:** CUDA 12.9, Python 3.12\n- **Framework:** [Slime](https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime) (our base RL framework)\n\nFor detailed environment setup, see [Slime](https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime) or [`.\u002Finstructions\u002FREADME.md`](.\u002Finstructions\u002FREADME.md).\n\n\n\n#### Don't have a GPU?\n\nCreate a [Tinker API](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F). That's all you need. But note that Tinker only supports LoRA, which may not be as effective as full fine-tuning. So we are still testing it.\n\n\n\n\n\n### 2. Start the RL Server\n\nWe provide three methods (RL servers):\n\n| Dimension | [Binary RL](.\u002Fopenclaw-rl\u002F) | [OPD](.\u002Fopenclaw-opd) | [Combined](.\u002Fopenclaw-combine) |\n|---|---|---|---|\n| Signal type | Evaluative (good \u002F bad) | Directional | Evaluative + directional |\n| Advantage | Sequence-level scalar | Token-level directional | Mixed sequence and token-level |\n| Density | All scored turns | Hint-accepted turns only | All scored turns |\n| Feedback type | User \u002F environment | Explicit corrections | Both implicit and explicit feedback |\n| Signal richness | 1 scalar per sample | 1 value per token | 1 value per token |\n\n\n\nChoose your optimization method:\n\n\u003Ca id=\"combinemethod\">\u003C\u002Fa>\n\u003Cdetails>\n\u003Csummary>\u003Cb>Option A: Combination Method\u003C\u002Fb> — Recommended !\u003C\u002Fsummary>\n\n```bash\ncd slime\nbash ..\u002Fopenclaw-combine\u002Frun_qwen3_4b_openclaw_combine.sh\n```\n\nThis method combines binary RL and OPD to achieve the best optimization.\n\nSee [`.\u002Fopenclaw-combine\u002FREADME.md`](.\u002Fopenclaw-combine\u002FREADME.md) for algorithm details.\n\n**With LoRA** (parameter-efficient, fewer GPUs):\n```bash\nbash ..\u002Fopenclaw-combine\u002Frun_qwen3_4b_openclaw_combine_lora.sh\n```\n\n\u003Ca id=\"combinemethodtinker\">\u003C\u002Fa>\n**With Tinker** (No GPUs at all)\n```bash\ncd openclaw-tinker\npython run.py --method combine --model-name Qwen\u002FQwen3-8B --batch-size 16 --prm-m 1 --w-opd 1.0 --w-rl 1.0\n```\n\nsee [`.\u002Fopenclaw-tinker\u002FREADME.md`](.\u002Fopenclaw-tinker\u002FREADME.md) for setup details.\n\n\u003C\u002Fdetails>\n\n\n\u003Ca id=\"binaryrlmethod\">\u003C\u002Fa>\n\u003Cdetails>\n\u003Csummary>\u003Cb>Option B: Binary RL\u003C\u002Fb> — Best for implicit feedback (likes\u002Fdislikes, env success\u002Ffailure)\u003C\u002Fsummary>\n\n```bash\ncd slime\nbash ..\u002Fopenclaw-rl\u002Frun_qwen3_4b_openclaw_rl.sh\n```\n\nThe PRM will automatically judge response quality from next-state feedback. We recommend providing frequent feedback (e.g., 👍\u002F👎) to help the model optimize effectively.\n\nSee [`.\u002Fopenclaw-rl\u002FREADME.md`](.\u002Fopenclaw-rl\u002FREADME.md) for algorithm details.\n\n**With LoRA** (parameter-efficient, fewer GPUs):\n```bash\nbash ..\u002Fopenclaw-rl\u002Frun_qwen3_4b_openclaw_rl_lora.sh\n```\n\n**With Tinker** (No GPUs at all)\n```bash\ncd openclaw-tinker\npython run.py --method rl --model-name Qwen\u002FQwen3-8B --batch-size 16 --prm-m 3\n```\n\nsee [`.\u002Fopenclaw-tinker\u002FREADME.md`](.\u002Fopenclaw-tinker\u002FREADME.md) for setup details.\n\n\n\u003C\u002Fdetails>\n\n\n\u003Ca id=\"opdmethod\">\u003C\u002Fa>\n\u003Cdetails>\n\u003Csummary>\u003Cb>Option C: On-Policy Distillation (OPD)\u003C\u002Fb> — Best for rich textual feedback\u003C\u002Fsummary>\n\n```bash\ncd slime\nbash ..\u002Fopenclaw-opd\u002Frun_qwen3_4b_openclaw_opd.sh\n```\n\nThe system extracts hindsight hints from your feedback and distills them into the policy at the token level. We recommend providing concrete feedback (e.g., \"you should have checked the file first\" or \"don't use that library\").\n\nSee [`.\u002Fopenclaw-opd\u002FREADME.md`](.\u002Fopenclaw-opd\u002FREADME.md) for algorithm details.\n\n**With LoRA** (parameter-efficient, fewer GPUs):\n```bash\nbash ..\u002Fopenclaw-opd\u002Frun_qwen3_4b_openclaw_opd_topk_lora.sh\n```\n\n**With Tinker** (No GPUs at all)\n```bash\ncd openclaw-tinker\npython run.py --method opd --model-name Qwen\u002FQwen3-8B --batch-size 16 --prm-m 1\n```\n\nsee [`.\u002Fopenclaw-tinker\u002FREADME.md`](.\u002Fopenclaw-tinker\u002FREADME.md) for setup details.\n\n\n\n\u003C\u002Fdetails>\n\nOnce running, the model is served as an OpenAI-compatible API at:\n```\nhttp:\u002F\u002F\u003CHOST_IP>:30000\u002Fv1\n```\n\nwhere `\u003CHOST_IP>` is the **IP address** of the machine running the RL server (e.g. `115.190.98.251`). The port `30000` is the default and can be changed via the `PORT` environment variable.\n\n**Take note of this endpoint** — you will need it when configuring OpenClaw in the next step.\n\nWe also provide an interesting case for evaluation. A student who uses OpenClaw to do homework, does not want to be found using AI. A teacher who also uses OpenClaw to grade student's homework, wants the comments to be specific and friendly.\n\n\u003Ca id=\"evalmethod\">\u003C\u002Fa>\n\u003Cdetails>\n\u003Csummary>\u003Cb>Evaluation Setting\u003C\u002Fb> — Both student and teacher use AI!\u003C\u002Fsummary>\n\nWe find that, under the combined optimization method, OpenClaw needs only 36 problem-solving interactions in the student setting and 24 grading interactions in the teacher setting to achieve a significant and clearly visible improvement.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_OpenClaw-RL_readme_12697ab8d459.png\"  alt=\"Overview\"  width=\"750\">\n\u003C\u002Fp>\n\nSee [`.\u002Fopenclaw-test\u002FREADME.md`](.\u002Fopenclaw-test\u002FREADME.md) for setup and algorithm details.\n\u003C\u002Fdetails>\n\n\n### 3. OpenClaw Setup\n\nYou can use your own openclaw, just install [this extension](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Ftree\u002Fmain\u002Fextensions\u002Frl-training-headers).\n\nIf you want local file-backed skill authoring in the bundled OpenClaw runtime, see [`openclaw\u002Fextensions\u002Fskill-bridge\u002FREADME.md`](.\u002Fopenclaw\u002Fextensions\u002Fskill-bridge\u002FREADME.md).\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>Then configure OpenClaw to route requests to your RL server. \u003C\u002Fb>\u003C\u002Fsummary>\n\nOpen your `openclaw.json` (or the equivalent settings file) and add a provider entry under `\"models\"` → `\"providers\"`:\n\nExample of Slime-based RL server:\n\n```json\n{\n  \"models\": {\n    \"providers\": {\n      \"qwen\": {\n        \"baseUrl\": \"http:\u002F\u002F\u003CHOST_IP>:30000\u002Fv1\",\n        \"apiKey\": \"apiKey\",\n        \"api\": \"openai-completions\",\n        \"models\": [\n          {\n            \"id\": \"qwen3-4b\",\n            \"name\": \"Qwen3 4B\",\n            \"reasoning\": true,\n            \"input\": [\"text\"],\n            \"cost\": {\n              \"input\": 0,\n              \"output\": 0,\n              \"cacheRead\": 0,\n              \"cacheWrite\": 0\n            },\n            \"contextWindow\": 32768,\n            \"maxTokens\": 8192\n          }\n        ]\n      }\n    }\n  }\n}\n```\n\nReplace `\u003CHOST_IP>` with the IP address of your RL server machine. The `apiKey` should match the `SGLANG_API_KEY` you set when starting the server.\n\nExample of Tinker-based RL server:\n\n\n```json\n{\n  \"models\": {\n    \"providers\": {\n      \"openclaw-rl\": {\n        \"baseUrl\": \"http:\u002F\u002Flocalhost:30000\u002Fv1\",\n        \"apiKey\": \"no-auth-needed\",\n        \"api\": \"openai-completions\",\n        \"models\": [\n          {\n            \"id\": \"qwen3-4b-lora\",\n            \"name\": \"Qwen3 4B (OpenClaw-RL LoRA)\",\n            \"reasoning\": true,\n            \"input\": [\"text\"],\n            \"cost\": {\n              \"input\": 0,\n              \"output\": 0,\n              \"cacheRead\": 0,\n              \"cacheWrite\": 0\n            },\n            \"contextWindow\": 32768,\n            \"maxTokens\": 8192\n          }\n        ]\n      }\n    }\n  }\n}\n```\n\n\n\nThat's it — start chatting with your OpenClaw agent. The RL server will automatically collect conversation trajectories, compute rewards, and train the model. Your agent gets better the more you use it.\n\n\u003C\u002Fdetails>\n\n\n\n\n---\n\n\u003Ca id=\"agentrl\">\u003C\u002Fa>\n## 🔧 Agentic RL in Real-world Settings\n\nThe same asynchronous RL backbone that powers our personal-agent setting can also support large-scale optimization for these broader real-world environments.\n\n| Setting | Environment | Next-state signal | Horizon |\n|---|---|---|---|\n| Terminal | Shell execution sandbox | stdout\u002Fstderr, exit code | Long |\n| GUI | Screen state + accessibility tree | Visual state diff, task progress | Long |\n| SWE | Code repository + test suite | Test verdicts, diff, lint output | Long |\n| Tool-call | API\u002Ffunction execution | Return values, error traces | Medium |\n\n\u003Ca id=\"terminal\">\u003C\u002Fa>\n### 🖥️ Terminal Agent — the most widely used computer-use agent\n\n```bash\ncd slime\nbash ..\u002Fterminal-rl\u002Fterminal_qwen3_8b_rl.sh\n```\n\n\nSee [`.\u002Fterminal-rl\u002FREADME.md`](.\u002Fterminal-rl\u002FREADME.md) for setup details.\n\n\n\u003Ca id=\"gui\">\u003C\u002Fa>\n### 📟 GUI Agent — the most general computer-use agent\n\n```bash\ncd slime\nbash ..\u002Fgui-rl\u002Fgui_qwen3vl_8b_rl.sh\n```\n\n\nSee [`.\u002Fgui-rl\u002FREADME.md`](.\u002Fgui-rl\u002FREADME.md) for setup details.\n\n\u003Ca id=\"swe\">\u003C\u002Fa>\n### 👨‍💻 SWE Agent — software engineering agent\n\n```bash\ncd slime\nbash ..\u002Fswe-rl\u002Frun_swe_rl_32b_remote_8nodes.sh\n```\n\n\nSee [`.\u002Fswe-rl\u002FREADME.md`](.\u002Fswe-rl\u002FREADME.md) for setup details.\n\n\u003Ca id=\"toolcall\">\u003C\u002Fa>\n### 🛠️ Tool-call Agent — the most practical agent\n\n```bash\ncd slime\nbash ..\u002Ftoolcall-rl\u002Fretool_qwen3_4b_rl.sh\n```\n\nSee [`.\u002Ftoolcall-rl\u002FREADME.md`](.\u002Ftoolcall-rl\u002FREADME.md) for setup details.\n\n\n\n\n\n## 📖 Citation\n\n```\n@article{wang2026openclawrl,\n  title={OpenClaw-RL: Train Any Agent Simply by Talking},\n  author={Wang, Yinjie and Chen, Xuyang and Jin, Xiaolong and Wang, Mengdi and Yang, Ling},\n  journal={arXiv preprint arXiv:2603.10165},\n  year={2026}\n}\n\n@article{wang2026rlanything,\n  title={RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System},\n  author={Wang, Yinjie and Xie, Tianbao and Shen, Ke and Wang, Mengdi and Yang, Ling},\n  journal={arXiv preprint arXiv:2602.02488},\n  year={2026}\n}\n```\n\n## 🙏 Acknowledgements\n\nThis work aims to explore more effective paradigms for Agentic RL. Our implementation builds upon the excellent codebases of [slime](https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime), [OpenClaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw), [Tinker](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F) and [Open-AgentRL](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpen-AgentRL). \n\nWe also build terminal RL using [SETA](https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fseta)'s dataset and agent framework, GUI RL using [OSWorld](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld)'s evaluation scripts, SWE RL using [mini-swe-agent](https:\u002F\u002Fgithub.com\u002FSWE-agent\u002Fmini-swe-agent)'s evaluation scripts, and tool-call RL based on the work of [Retool](https:\u002F\u002Fgithub.com\u002FReTool-RL\u002FReTool).\n\nWe sincerely thank these projects for their valuable insights and high-quality implementations, which have greatly facilitated our research.\n\n## ⚠️ Reminder\n\nWhen using OpenClaw-RL, please do not provide sensitive personal information during conversations with the model. Also, make sure to keep your API keys secure and never expose them in prompts, logs, or shared files.\n\n\n---\n\n\n\n","\u003Cdiv align=\"center\">\n  \u003Ch1 align=\"center\">\n    \u003Cimg src=\"assets\u002Fspacer.png\" alt=\"\" width=\"23\" height=\"40\" align=\"absmiddle\" \u002F>\n    OpenClaw-RL\u003C!--\n-->\u003Csup>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_OpenClaw-RL_readme_8a8e6f89c7d6.png\" alt=\"Claw-RL logo\" width=\"23\" height=\"40\" align=\"absmiddle\" \u002F>\n    \u003Csup>\n  \u003C\u002Fh1>\n\n  \u003Cp>\u003Cb>用强化学习赋能 OpenClaw — 只需与它对话，即可训练个性化智能体。\u003C\u002Fb>\u003C\u002Fp>\n  \u003Cp>\u003Cb>可扩展的现实世界强化学习 — 面向终端、GUI、SWE 和工具调用场景的代理式强化学习。\u003C\u002Fb>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F⚡_Fully_Async-yellow?style=for-the-badge\" alt=\"Fully Async\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💰_Zero_API_or_Zero_GPU-blue?style=for-the-badge\" alt=\"Zero API or Zero GPU\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤖_Personalized-success?style=for-the-badge\" alt=\"Personalized\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🛠️_Auto_Optimization-orange?style=for-the-badge\" alt=\"Auto\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💬_Language_Feedback-purple?style=for-the-badge\" alt=\"Language Feedback\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🧠_Hybrid_RL-red?style=for-the-badge\" alt=\"Hybrid RL\" \u002F>\n  \u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌍_Real_World_Agentic_RL-green?style=for-the-badge\" alt=\"General Agentic RL\" \u002F>\n  \u003Cbr>\u003Cbr>\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.10165\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄_Tech_Report-red?style=flat-square\" alt=\"Tech Report\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fyinjjiew.github.io\u002Fprojects\u002Fopenclawrl1\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FBlog-Page-blue?style=flat-square\" alt=\"OpenClaw-RL Blog\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fopenclaw.ai\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FOpenClaw-Plugin-orange?style=flat-square\" alt=\"OpenClaw Plugin\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FSlime-Supported-purple?style=flat-square\" alt=\"Slime Based\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTinker-Supported-yellow?style=flat-square\" alt=\"Tinker Supported\" \u002F>\u003C\u002Fa>\n  \u003Ca href=\"LICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache_2.0-green?style=flat-square\" alt=\"License Apache 2.0\" \u002F>\u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n  \u003Cvideo src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa58aacad-3c1d-47aa-bbd1-cf8c5f36de6f\" controls width=\"200\">\u003C\u002Fvideo>\n\u003C\u002Fp>\n\n\n\n\n\n\n\n\n\n## 📰 新闻\n\n- **[2026\u002F4\u002F4]** 👨‍👦‍👦 我们支持基于多人反馈优化单个模型。\n- **[2026\u002F3\u002F25]** 🙌 我们衷心感谢 [Tinker](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F) 对本项目的慷慨支持，这使得我们能够进行更多实验并加快迭代速度。\n- **[2026\u002F3\u002F20]** 💻 现在你可以使用自己的 OpenClaw，只需安装 [此扩展](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Ftree\u002Fmain\u002Fextensions\u002Frl-training-headers)。\n- **[2026\u002F3\u002F13]** ☁️ OpenClaw-RL 现在同时支持本地 GPU 和云端（[Tinker](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F)）部署。只需 [**一行代码**](#combinemethod) 即可启动 — 混合强化学习、OPD 和二元强化学习均受支持！\n- **[2026\u002F3\u002F12]** ⚡ 我们现在支持 LoRA 训练！\n- **[2026\u002F3\u002F10]** 📃 我们发布了 [**技术报告**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.10165)! 🏆 在 [HuggingFace Daily Papers](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2603.10165) 中排名第 **#1**!\n- **[2026\u002F3\u002F10]** 🔥 今日重大更新！我们发布了一种 [新的组合方法](.\u002Fopenclaw-combine)，以及对这些 OpenClaw-RL 方法的 [有趣评估](.\u002Fopenclaw-test)。第二条赛道也已发布，其中包含了适用于通用智能体场景的可扩展强化学习实现，涵盖 [终端](.\u002Fterminal-rl)、[GUI](.\u002Fgui-rl)、[SWE](.\u002Fswe-rl) 和 [工具调用](.\u002Ftoolcall-rl) 场景。我们只专注于现实世界的应用！\n- **[2026\u002F3\u002F3]** 🙌 我们与 [SDFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.19897) 和 [SDPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.20802) 的作者合作，将他们的方法整合进了 [openclaw-opd](.\u002Fopenclaw-opd)。我们欢迎新颖且有效的方法加入！\n- **[2026\u002F3\u002F3]** 📺 查看这些关于 OpenClaw-RL 的社区教程视频：[视频 1](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=5xnm1vB7G64) | [视频 2](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=ZtN6Gg_bdJE)\n- **[2026\u002F2\u002F26]** 🔥 我们发布了 **OpenClaw-RL v1** — 一个完全异步的强化学习框架，用于从自然对话反馈中训练个性化 AI 智能体。\n\n---\n\n## 💡 TL;DR\n\n> **OpenClaw-RL** 是一个完全异步的强化学习框架，能够将日常对话转化为个性化 AI 智能体的训练信号，并支持通过大规模环境并行化来训练通用智能体。\n\n大多数针对 LLM 的强化学习系统都假设采用集中式的批处理模式训练，并使用预先收集的数据集。而 **OpenClaw-RL** 则采取了截然不同的方法：它将你自托管的模型封装在 [OpenClaw](https:\u002F\u002Fopenclaw.ai) 中，使其成为一个兼容 OpenAI 的 API，拦截实时的多轮对话，并在后台持续优化策略——整个过程不会中断你的正常使用。\n\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_OpenClaw-RL_readme_036b5598bc89.png\"  alt=\"Overview\"  width=\"600\">\n\u003C\u002Fp>\n\n\n\n> **亮点：** 全异步四组件循环 · 自托管且私密 · 无需手动标注 · 三种学习范式（二元强化学习 \u002F OPD \u002F 组合）· 支持个性化与通用智能体\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>🌈 特性\u003C\u002Fb>\u003C\u002Fsummary>\n\n### 完全异步的四组件架构\nOpenClaw-RL 将 **智能体服务**、**轨迹收集**、**PRM\u002F评判** 和 **策略训练** 分解为独立的异步循环。它们互不阻塞：模型在后台继续运行训练的同时，仍可正常响应请求；评判则与新的交互同步进行。\n\n### 设计上即为自托管与私密\n整个栈，包括 **策略模型**、**评判\u002FPRM** 和 **训练器**，都运行在 **你自己的基础设施** 上。对话数据始终保留在你的系统内，无需任何第三方模型 API。\n\n### 从反馈到梯度 — 自动完成\n你无需手动标注数据。系统会自动：\n- 将多轮交互组织成会话感知的训练轨迹\n- 将 API 消息分类为可训练的 **主线** 和不可训练的 **支线**\n- 将下一次用户、环境或工具的反馈作为自然的“下一状态”信号\n- 异步执行 PRM\u002F评判评估，在需要更稳健的评分时采用多数投票机制\n- 随着样本准备就绪，立即将其提交给训练器\n\n### 一种框架中的三种优化方法\n\n**二元强化学习（GRPO）：** 过程奖励模型根据下一状态的反馈对每一步进行打分。随后，该标量奖励与GRPO的优势估计以及PPO风格的裁剪代理损失函数结合使用。\n\n**策略内蒸馏（OPD）：** 当下一个状态揭示出有用的 hindsight 信息时，判别模型会提取出一段文本提示。这段提示会增强原始提示，从而创建一个更强大的教师模型，其与学生模型之间的 token 级别对数概率差距将成为比任何标量奖励都更为丰富的方向性优势信号。\n\n**组合方法：** OpenClaw-RL 进一步将二元强化学习和 OPD 结合在一个统一的训练配方中，同时利用二元强化学习提供的密集标量监督信号以及 OPD 提供的更丰富的 token 级别方向性信号。这种组合相比单独使用任一方法都能实现更强、更稳健的优化效果。\n\n### 从个人智能体到现实世界的智能体强化学习\n同一框架既支持个性化的 OpenClaw 优化，也支持在现实环境中针对 **终端**、**GUI**、**SWE** 和 **工具调用** 智能体的可扩展强化学习。\n\n\n\n\u003C\u002Fdetails>\n\n---\n\n\n\n## 🎯 路线图\n\n我们的长期目标是 **通过强化学习推动个性化、实用性强的智能体发展**。路线图分为两条路径：\n\n#### 路径1 — [个人智能体优化](#personalagent)（小规模但个性化）\n✅ **发布路径1：** 完全异步的 OpenClaw-RL 框架，包含二元强化学习 + OPD  \n✅ 通过演示实验发现最佳训练配方  \n✅ 支持 LoRA 训练  \n✅ 在 [Tinker](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F) 上部署训练  \n⬜ 支持低精度训练\u002F推理  \n⬜ 不仅限于策略：将学习扩展到技能和记忆  \n\n#### 路径2 — [通用智能体优化](#generalagent)（可扩展基础设施）\n✅ **发布路径2：** 面向通用智能体的可扩展智能体强化学习基础设施  \n⬜ 支持更多云服务  \n\n\n\n## 🤝 贡献说明\n\n我们欢迎将新的学习方法集成到 OpenClaw-RL 框架中的贡献！例如，将 [SDFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.19897) \u002F [SDPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.20802) 集成到 [openclaw-opd](.\u002Fopenclaw-opd)，以及 [支持 LoRA](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Fpull\u002F23) 等，都是社区成功贡献的典范。\n\n\u003C!--\n\n**我们非常希望收到的贡献：**\n- 🤖 **Qwen3.5 模型支持与 slime 集成** — 为 Qwen3.5 系列提供启动脚本和模型配置\n- 🔧 **低精度训练示例** — 为现有方法提供 FP8\u002FINT4 训练脚本\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>📋 完整的贡献指南与功能愿望清单\u003C\u002Fb>\u003C\u002Fsummary>\n\n\n# 贡献征集\n\n我们欢迎社区为 OpenClaw-RL 做出贡献！本文档概述了我们的贡献原则以及我们特别希望得到帮助的功能。\n\n## 贡献指南\n\nOpenClaw-RL 以一系列 **自包含的方法文件夹** 组织（例如 `openclaw-rl\u002F`、`openclaw-opd\u002F`、`openclaw-combine\u002F`），每个文件夹都与共享的 `slime\u002F` 训练框架和 `openclaw\u002F` 运行时并列存在。\n\n贡献通常分为两类：\n\n### 添加新方法或部署目标\n\n创建一个新的顶级文件夹（与现有的 `openclaw-opd\u002F` 等并列）。所有方法特定的代码——启动脚本、自定义损失函数、rollout 逻辑、API 服务器适配器、数据处理以及 README——都应放在这个文件夹内。\n\n### 扩展现有方法\n\n对于现有方法文件夹内的更改——例如支持新的模型家族、添加 LoRA 变体或低精度示例——请 **添加新文件**（如新的 `.sh` 脚本、新的数据处理脚本），而不是修改现有文件。这样可以保持原始工作示例的完整性，并使您的新增内容能够独立审查。\n\n### 一般原则\n\n1. **不要修改核心框架。** 除非绝对必要，否则避免对 `slime\u002F`、`Megatron-LM\u002F` 或 `openclaw\u002F` 进行更改。框架专门提供了扩展点（`--custom-loss-function-path`、`--rollout-function-path`、`--custom-generate-function-path`、`--custom-rm-path` 等），以便新方法可以在不触碰共享代码的情况下接入。如果确实需要修改框架，请单独提交 PR，并给出明确的理由。\n\n2. **包含文档。** 对于新方法文件夹，添加一个 `README.md`，解释该方法的作用、运行方式、关键环境变量以及文件结构。对于现有文件夹的新增内容，则在现有 `README.md` 中添加新章节。可参考 [`openclaw-combine\u002FREADME.md`](.\u002Fopenclaw-combine\u002FREADME.md) 或 [`toolcall-rl\u002FREADME.md`](.\u002Ftoolcall-rl\u002FREADME.md) 作为良好示例。\n\n3. **遵循现有规范。** 使用与现有方法相同的 shell 脚本结构（GPU 分区、`CKPT_ARGS`、`ROLLOUT_ARGS`、`OPTIMIZER_ARGS` 等）、环境变量命名以及 `ray job submit` 启动模式。\n\n\n\n\n\n## 我们特别期望的功能\n\n\n### 1. 🤖 slime 对 Qwen3.5 模型的支持\n\n**类型：** 扩展现有方法文件夹\n\n**目标：** 在现有方法中为 Qwen3.5 系列添加启动脚本和模型配置。\n\n**要求：**\n\n- 在相关方法文件夹中为 Qwen3.5 添加新的 `.sh` 脚本（例如 `openclaw-combine\u002Frun_qwen35_4b_openclaw_combine.sh`）。\n- 如果 Qwen3.5 需要与 Qwen3 不同的架构参数（隐藏层大小、层数等），则在 `slime\u002Fscripts\u002Fmodels\u002F` 中添加相应的模型配置。\n- 验证并记录对分词器、聊天模板、推理解析器或工具调用解析器兼容性所需的任何更改。\n- 更新 README，将 Qwen3.5 列为支持的模型。\n\n\n### 2. 🔧 低精度训练\u002F推理示例\n\n**类型：** 扩展现有方法文件夹\n\n**目标：** 在现有方法文件夹中添加低精度（例如 INT8\u002FINT4 推理、BF16\u002FFP8 训练）示例脚本，使用户能够在消费级硬件上，使用较少的 GPU 运行 OpenClaw-RL。\n\n**要求：**\n\n- 在现有方法文件夹中添加 **新** 的 `.sh` 脚本——不要修改现有脚本。\n- 低精度推理：演示如何使用量化权重（例如 AWQ\u002FGPTQ INT4）启动 SGLang rollout 引擎，以减少服务端的 VRAM 使用。\n- 低精度训练：如果 Megatron 后端支持，演示 FP8 或混合精度配置，以减少训练内存占用。\n- 更新每个方法文件夹中的相应 `README.md`，添加一个新章节来记录这些脚本。\n\n---\n\n如果您对以上任何一项感兴趣，请在提交 PR 之前先开一个议题讨论您的方案。我们很乐意提供指导和评审！\n\n\n\u003C\u002Fdetails>\n\n-->\n\n\n## 📝 目录\n\n- [个人 OpenClaw 优化](#personalagent)\n  - [组合方法（二元强化学习 + OPD）](#combinemethod)\n  - [二元强化学习](#binaryrlmethod)\n  - [策略内蒸馏](#opdmethod)\n  - [方法评估](#evalmethod)\n- [现实世界中的智能体强化学习](#agentrl)\n  - [终端智能体](#terminal)\n  - [GUI 智能体](#gui)\n  - [软件工程智能体](#swe)\n  - [工具调用智能体](#toolcall)\n\n---\n\n\n\n\u003Ca id=\"personalagent\">\u003C\u002Fa>\n\n## 🔧 个人代理优化快速入门\n\n### 1. 部署选项\n\n#### 没有钱？\n\n- **硬件:** 8× GPU（默认；可通过 `NUM_GPUS`、`ACTOR_GPUS`、`ROLLOUT_GPUS`、`PRM_GPUS` 进行配置）\n- **软件:** CUDA 12.9、Python 3.12\n- **框架:** [Slime](https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime)（我们的基础强化学习框架）\n\n有关详细的环境搭建，请参阅 [Slime](https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime) 或 [`.\u002Finstructions\u002FREADME.md`](.\u002Finstructions\u002FREADME.md)。\n\n\n\n#### 没有GPU？\n\n创建一个 [Tinker API](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F)。这就足够了。但请注意，Tinker 只支持 LoRA，其效果可能不如全量微调。因此我们仍在对其进行测试。\n\n\n\n\n\n### 2. 启动强化学习服务器\n\n我们提供了三种方法（强化学习服务器）：\n\n| 维度 | [二元强化学习](.\u002Fopenclaw-rl\u002F) | [OPD](.\u002Fopenclaw-opd) | [组合](.\u002Fopenclaw-combine) |\n|---|---|---|---|\n| 信号类型 | 评价型（好 \u002F 坏） | 方向型 | 评价型 + 方向型 |\n| 优势 | 序列级标量 | 令牌级方向 | 序列与令牌混合级别 |\n| 密度 | 所有评分回合 | 仅接受提示的回合 | 所有评分回合 |\n| 反馈类型 | 用户 \u002F 环境 | 显式修正 | 隐性和显式反馈兼备 |\n| 信号丰富度 | 每个样本 1 个标量 | 每个令牌 1 个值 | 每个令牌 1 个值 |\n\n\n\n选择你的优化方法：\n\n\u003Ca id=\"combinemethod\">\u003C\u002Fa>\n\u003Cdetails>\n\u003Csummary>\u003Cb>选项 A：组合方法\u003C\u002Fb> — 推荐！\u003C\u002Fsummary>\n\n```bash\ncd slime\nbash ..\u002Fopenclaw-combine\u002Frun_qwen3_4b_openclaw_combine.sh\n```\n\n这种方法结合了二元强化学习和 OPD，以实现最佳优化。\n\n算法详情请参阅 [`.\u002Fopenclaw-combine\u002FREADME.md`](.\u002Fopenclaw-combine\u002FREADME.md)。\n\n**使用 LoRA**（参数高效，所需 GPU 更少）：\n```bash\nbash ..\u002Fopenclaw-combine\u002Frun_qwen3_4b_openclaw_combine_lora.sh\n```\n\n\u003Ca id=\"combinemethodtinker\">\u003C\u002Fa>\n**使用 Tinker**（完全无需 GPU）\n```bash\ncd openclaw-tinker\npython run.py --method combine --model-name Qwen\u002FQwen3-8B --batch-size 16 --prm-m 1 --w-opd 1.0 --w-rl 1.0\n```\n\n设置详情请参阅 [`.\u002Fopenclaw-tinker\u002FREADME.md`](.\u002Fopenclaw-tinker\u002FREADME.md)。\n\n\u003C\u002Fdetails>\n\n\n\u003Ca id=\"binaryrlmethod\">\u003C\u002Fa>\n\u003Cdetails>\n\u003Csummary>\u003Cb>选项 B：二元强化学习\u003C\u002Fb> — 最适合隐性反馈（点赞\u002F不喜欢、环境成功\u002F失败）\u003C\u002Fsummary>\n\n```bash\ncd slime\nbash ..\u002Fopenclaw-rl\u002Frun_qwen3_4b_openclaw_rl.sh\n```\n\nPRM 将根据下一状态的反馈自动判断响应质量。我们建议频繁提供反馈（例如 👍\u002F👎），以帮助模型有效优化。\n\n算法详情请参阅 [`.\u002Fopenclaw-rl\u002FREADME.md`](.\u002Fopenclaw-rl\u002FREADME.md)。\n\n**使用 LoRA**（参数高效，所需 GPU 更少）：\n```bash\nbash ..\u002Fopenclaw-rl\u002Frun_qwen3_4b_openclaw_rl_lora.sh\n```\n\n**使用 Tinker**（完全无需 GPU）\n```bash\ncd openclaw-tinker\npython run.py --method rl --model-name Qwen\u002FQwen3-8B --batch-size 16 --prm-m 3\n```\n\n设置详情请参阅 [`.\u002Fopenclaw-tinker\u002FREADME.md`](.\u002Fopenclaw-tinker\u002FREADME.md)。\n\n\n\u003C\u002Fdetails>\n\n\n\u003Ca id=\"opdmethod\">\u003C\u002Fa>\n\u003Cdetails>\n\u003Csummary>\u003Cb>选项 C：策略蒸馏（OPD）\u003C\u002Fb> — 最适合丰富的文本反馈\u003C\u002Fsummary>\n\n```bash\ncd slime\nbash ..\u002Fopenclaw-opd\u002Frun_qwen3_4b_openclaw_opd.sh\n```\n\n系统会从你的反馈中提取事后提示，并在令牌级别将其提炼到策略中。我们建议提供具体的反馈（例如“你应该先检查文件”或“不要使用那个库”）。\n\n算法详情请参阅 [`.\u002Fopenclaw-opd\u002FREADME.md`](.\u002Fopenclaw-opd\u002FREADME.md)。\n\n**使用 LoRA**（参数高效，所需 GPU 更少）：\n```bash\nbash ..\u002Fopenclaw-opd\u002Frun_qwen3_4b_openclaw_opd_topk_lora.sh\n```\n\n**使用 Tinker**（完全无需 GPU）\n```bash\ncd openclaw-tinker\npython run.py --method opd --model-name Qwen\u002FQwen3-8B --batch-size 16 --prm-m 1\n```\n\n设置详情请参阅 [`.\u002Fopenclaw-tinker\u002FREADME.md`](.\u002Fopenclaw-tinker\u002FREADME.md)。\n\n\n\n\u003C\u002Fdetails>\n\n运行后，模型将以 OpenAI 兼容的 API 形式提供服务，地址为：\n```\nhttp:\u002F\u002F\u003CHOST_IP>:30000\u002Fv1\n```\n\n其中 `\u003CHOST_IP>` 是运行强化学习服务器的机器的 **IP 地址**（例如 `115.190.98.251`）。端口 `30000` 是默认值，可通过 `PORT` 环境变量进行更改。\n\n**请记住这个端点**——在下一步配置 OpenClaw 时需要用到它。\n\n我们还提供了一个有趣的评估案例。一位学生使用 OpenClaw 完成作业，但不希望被发现使用了 AI。而一位老师同样使用 OpenClaw 批改学生的作业，希望评语具体且友好。\n\n\u003Ca id=\"evalmethod\">\u003C\u002Fa>\n\u003Cdetails>\n\u003Csummary>\u003Cb>评估设置\u003C\u002Fb> — 学生和老师都使用 AI！\u003C\u002Fsummary>\n\n我们发现，在组合优化方法下，OpenClaw 在学生场景中只需 36 次解题交互，在教师场景中只需 24 次批改交互，就能实现显著且清晰可见的提升。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_OpenClaw-RL_readme_12697ab8d459.png\"  alt=\"Overview\"  width=\"750\">\n\u003C\u002Fp>\n\n设置和算法详情请参阅 [`.\u002Fopenclaw-test\u002FREADME.md`](.\u002Fopenclaw-test\u002FREADME.md)。\n\u003C\u002Fdetails>\n\n### 3. OpenClaw 设置\n\n你可以使用自己的 OpenClaw，只需安装 [此扩展](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Ftree\u002Fmain\u002Fextensions\u002Frl-training-headers)。\n\n如果你希望在捆绑的 OpenClaw 运行时中进行基于本地文件的技能创作，请参阅 [`openclaw\u002Fextensions\u002Fskill-bridge\u002FREADME.md`](.\u002Fopenclaw\u002Fextensions\u002Fskill-bridge\u002FREADME.md)。\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>然后配置 OpenClaw 将请求路由到你的 RL 服务器。\u003C\u002Fb>\u003C\u002Fsummary>\n\n打开你的 `openclaw.json`（或等效的设置文件），并在 `\"models\"` → `\"providers\"` 下添加一个提供者条目：\n\n基于 Slime 的 RL 服务器示例：\n\n```json\n{\n  \"models\": {\n    \"providers\": {\n      \"qwen\": {\n        \"baseUrl\": \"http:\u002F\u002F\u003CHOST_IP>:30000\u002Fv1\",\n        \"apiKey\": \"apiKey\",\n        \"api\": \"openai-completions\",\n        \"models\": [\n          {\n            \"id\": \"qwen3-4b\",\n            \"name\": \"Qwen3 4B\",\n            \"reasoning\": true,\n            \"input\": [\"text\"],\n            \"cost\": {\n              \"input\": 0,\n              \"output\": 0,\n              \"cacheRead\": 0,\n              \"cacheWrite\": 0\n            },\n            \"contextWindow\": 32768,\n            \"maxTokens\": 8192\n          }\n        ]\n      }\n    }\n  }\n}\n```\n\n将 `\u003CHOST_IP>` 替换为你的 RL 服务器机器的 IP 地址。`apiKey` 应与你在启动服务器时设置的 `SGLANG_API_KEY` 匹配。\n\n基于 Tinker 的 RL 服务器示例：\n\n\n```json\n{\n  \"models\": {\n    \"providers\": {\n      \"openclaw-rl\": {\n        \"baseUrl\": \"http:\u002F\u002Flocalhost:30000\u002Fv1\",\n        \"apiKey\": \"no-auth-needed\",\n        \"api\": \"openai-completions\",\n        \"models\": [\n          {\n            \"id\": \"qwen3-4b-lora\",\n            \"name\": \"Qwen3 4B (OpenClaw-RL LoRA)\",\n            \"reasoning\": true,\n            \"input\": [\"text\"],\n            \"cost\": {\n              \"input\": 0,\n              \"output\": 0,\n              \"cacheRead\": 0,\n              \"cacheWrite\": 0\n            },\n            \"contextWindow\": 32768,\n            \"maxTokens\": 8192\n          }\n        ]\n      }\n    }\n  }\n}\n```\n\n\n\n就是这样——开始与你的 OpenClaw 代理聊天吧。RL 服务器会自动收集对话轨迹、计算奖励并训练模型。你使用的越多，你的代理就会变得越好。\n\n\u003C\u002Fdetails>\n\n\n\n\n---\n\n\u003Ca id=\"agentrl\">\u003C\u002Fa>\n## 🔧 真实场景中的智能体强化学习\n\n驱动我们个人智能体场景的相同异步强化学习框架，同样可以支持更广泛的真实世界环境中的大规模优化。\n\n| 场景 | 环境 | 下一状态信号 | 周期 |\n|---|---|---|---|\n| 终端 | Shell 执行沙箱 | stdout\u002Fstderr, 退出码 | 长 |\n| GUI | 屏幕状态 + 辅助功能树 | 视觉状态差异, 任务进度 | 长 |\n| SWE | 代码仓库 + 测试套件 | 测试结果, 差异, lint 输出 | 长 |\n| 工具调用 | API\u002F函数执行 | 返回值, 错误堆栈 | 中 |\n\n\u003Ca id=\"terminal\">\u003C\u002Fa>\n### 🖥️ 终端智能体 — 最广泛使用的计算机使用智能体\n\n```bash\ncd slime\nbash ..\u002Fterminal-rl\u002Fterminal_qwen3_8b_rl.sh\n```\n\n\n有关设置详情，请参阅 [`.\u002Fterminal-rl\u002FREADME.md`](.\u002Fterminal-rl\u002FREADME.md)。\n\n\n\u003Ca id=\"gui\">\u003C\u002Fa>\n### 📟 GUI 智能体 — 最通用的计算机使用智能体\n\n```bash\ncd slime\nbash ..\u002Fgui-rl\u002Fgui_qwen3vl_8b_rl.sh\n```\n\n\n有关设置详情，请参阅 [`.\u002Fgui-rl\u002FREADME.md`](.\u002Fgui-rl\u002FREADME.md)。\n\n\u003Ca id=\"swe\">\u003C\u002Fa>\n### 👨‍💻 SWE 智能体 — 软件工程智能体\n\n```bash\ncd slime\nbash ..\u002Fswe-rl\u002Frun_swe_rl_32b_remote_8nodes.sh\n```\n\n\n有关设置详情，请参阅 [`.\u002Fswe-rl\u002FREADME.md`](.\u002Fswe-rl\u002FREADME.md)。\n\n\u003Ca id=\"toolcall\">\u003C\u002Fa>\n### 🛠️ 工具调用智能体 — 最实用的智能体\n\n```bash\ncd slime\nbash ..\u002Ftoolcall-rl\u002Fretool_qwen3_4b_rl.sh\n```\n\n有关设置详情，请参阅 [`.\u002Ftoolcall-rl\u002FREADME.md`](.\u002Ftoolcall-rl\u002FREADME.md)。\n\n\n\n\n\n## 📖 引用\n\n```\n@article{wang2026openclawrl,\n  title={OpenClaw-RL: 通过简单对话即可训练任何智能体},\n  author={Wang, Yinjie and Chen, Xuyang and Jin, Xiaolong and Wang, Mengdi and Yang, Ling},\n  journal={arXiv preprint arXiv:2603.10165},\n  year={2026}\n}\n\n@article{wang2026rlanything,\n  title={RLAnything: 在完全动态的强化学习系统中构建环境、策略和奖励模型},\n  author={Wang, Yinjie and Xie, Tianbao and Shen, Ke and Wang, Mengdi and Yang, Ling},\n  journal={arXiv preprint arXiv:2602.02488},\n  year={2026}\n}\n```\n\n## 🙏 致谢\n\n本研究旨在探索更有效的智能体强化学习范式。我们的实现基于 [slime](https:\u002F\u002Fgithub.com\u002FTHUDM\u002Fslime)、[OpenClaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw)、[Tinker](https:\u002F\u002Fthinkingmachines.ai\u002Ftinker\u002F) 和 [Open-AgentRL](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpen-AgentRL) 等优秀开源项目。\n\n我们还利用 [SETA](https:\u002F\u002Fgithub.com\u002Fcamel-ai\u002Fseta) 的数据集和智能体框架构建终端 RL，使用 [OSWorld](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FOSWorld) 的评估脚本构建 GUI RL，使用 [mini-swe-agent](https:\u002F\u002Fgithub.com\u002FSWE-agent\u002Fmini-swe-agent) 的评估脚本构建 SWE RL，并基于 [Retool](https:\u002F\u002Fgithub.com\u002FReTool-RL\u002FReTool) 的工作构建工具调用 RL。\n\n我们衷心感谢这些项目提供的宝贵见解和高质量实现，它们极大地促进了我们的研究。\n\n## ⚠️ 提醒\n\n在使用 OpenClaw-RL 时，请勿在与模型对话过程中提供敏感的个人信息。同时，请务必妥善保管您的 API 密钥，切勿将其暴露在提示词、日志或共享文件中。\n\n\n---","# OpenClaw-RL 快速上手指南\n\nOpenClaw-RL 是一个全异步强化学习（RL）框架，旨在通过自然对话反馈训练个性化的 AI 智能体，并支持在终端、GUI、软件工程（SWE）及工具调用等真实场景中进行大规模智能体训练。其核心特点是**完全异步**、**本地私有部署**以及**零人工标注**。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 Ubuntu 20.04+)\n- **GPU**: 支持 CUDA 的 NVIDIA GPU（根据模型大小决定显存需求，建议 24GB+ 以运行主流大模型）\n- **Python**: 3.10 或更高版本\n- **网络**: 访问 Hugging Face 或 ModelScope（国内推荐）以下载模型权重\n\n### 前置依赖\n确保已安装以下基础工具：\n- `git`\n- `conda` 或 `venv` (用于管理 Python 环境)\n- `nvidia-cuda-toolkit` (匹配你的 GPU 驱动)\n- `ray` (用于分布式任务调度)\n\n> **国内加速建议**：\n> - 使用清华源或阿里源加速 Python 包安装。\n> - 使用 ModelScope 或 Hugging Face 镜像站下载模型。\n\n## 安装步骤\n\n### 1. 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL.git\ncd OpenClaw-RL\n```\n\n### 2. 创建并激活虚拟环境\n```bash\nconda create -n openclaw-rl python=3.10 -y\nconda activate openclaw-rl\n```\n\n### 3. 安装核心依赖\n安装基于 `slime` 的训练框架及 `openclaw` 运行时依赖。\n```bash\n# 安装基础依赖 (建议使用国内镜像源加速)\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装 slime 训练框架 (如果未自动包含)\npip install -e .\u002Fslime\n\n# 安装 openclaw 插件核心\npip install -e .\u002Fopenclaw\n```\n\n### 4. 配置模型与环境变量\n设置必要的环境变量，指定模型路径（支持本地路径或 ModelScope ID）。\n```bash\nexport MODEL_NAME=\"Qwen\u002FQwen2.5-7B-Instruct\" # 示例模型，可替换为本地路径\nexport OPENCLAW_API_KEY=\"your_secret_key\"    # 自定义 API Key\nexport RAY_HEAD_NODE_IP=\"127.0.0.1\"          # Ray 集群头节点 IP\n```\n\n## 基本使用\n\nOpenClaw-RL 的核心工作流是：**启动服务 -> 拦截对话 -> 后台异步训练**。以下是最简单的“个人智能体优化”启动示例（基于 Binary RL + OPD 组合方法）。\n\n### 1. 启动训练任务\n使用提供的脚本一键启动混合强化学习训练。该脚本会自动处理数据收集、奖励模型评估和策略更新。\n\n```bash\n# 进入组合方法目录\ncd openclaw-combine\n\n# 运行启动脚本 (请根据实际显卡数量调整参数)\nbash run_qwen25_7b_openclaw_combine.sh\n```\n\n> **脚本说明**：\n> 该脚本内部会调用 `ray job submit`，启动包括 `rollout` (数据采集), `judge` (评估), 和 `trainer` (训练) 在内的四个异步组件。\n\n### 2. 连接并使用智能体\n训练启动后，OpenClaw-RL 会在本地暴露一个兼容 OpenAI 格式的 API 端点。你可以直接通过聊天客户端或代码与之交互，交互数据将自动用于后续训练。\n\n**使用 curl 测试接口：**\n```bash\ncurl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -H \"Authorization: Bearer ${OPENCLAW_API_KEY}\" \\\n  -d '{\n    \"model\": \"openclaw-personalized\",\n    \"messages\": [\n      {\"role\": \"user\", \"content\": \"帮我优化这段 Python 代码，使其运行更快。\"}\n    ],\n    \"stream\": true\n  }'\n```\n\n**集成到 OpenClaw 插件：**\n如果你使用 VS Code 或其他支持 OpenClaw 的编辑器，安装 [rl-training-headers 扩展](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Ftree\u002Fmain\u002Fextensions\u002Frl-training-headers)，并在设置中指向本地 API 地址 `http:\u002F\u002Flocalhost:8000`，即可实现“边聊边训”。\n\n### 3. 监控训练状态\n查看 Ray 仪表盘以监控异步训练循环的状态、奖励曲线及模型检查点生成情况。\n```bash\n# 默认仪表盘地址通常为\necho \"Visit http:\u002F\u002Flocalhost:8265 for Ray Dashboard\"\n```\n\n---\n**提示**：对于大规模通用智能体训练（如终端操作、GUI 控制），请参考 `terminal-rl`, `gui-rl` 等子目录下的特定启动脚本，配置相应的环境交互接口。","某电商公司的后端工程师需要让 AI 助手自动处理复杂的订单异常流程，包括查询数据库、调用退款接口及发送通知邮件。\n\n### 没有 OpenClaw-RL 时\n- **训练门槛极高**：工程师需手动编写数百条强化学习奖励函数代码，并配置复杂的 GPU 集群环境，耗时数天才能启动训练。\n- **个性化调整困难**：当业务规则变更（如退款阈值调整）时，无法通过自然语言直接修正模型行为，必须重新标注数据并微调模型。\n- **反馈循环断裂**：模型在真实终端或 GUI 操作中犯错后，只能依靠稀疏的数值奖励信号学习，难以理解“为什么这一步操作是错的”。\n- **资源成本高昂**：尝试不同算法策略（如 Hybrid RL 或 Binary RL）需要频繁切换框架并消耗大量算力，试错成本极高。\n\n### 使用 OpenClaw-RL 后\n- **对话即训练**：工程师只需对着终端说“遇到金额大于 500 元的订单先人工审核”，OpenClaw-RL 即可自动解析意图并更新代理策略，无需编写一行奖励代码。\n- **实时自然语言反馈**：当代理操作失误时，直接告诉它“不应该在这个步骤关闭弹窗”，模型能立即利用语言反馈优化后续决策逻辑。\n- **全场景无缝适配**：无论是命令行操作、GUI 界面点击还是工具调用，OpenClaw-RL 均能通过统一的异步架构快速部署，支持本地 GPU 或云端一键启动。\n- **自动策略优化**：内置的混合强化学习机制自动探索最优解，工程师无需关心底层算法细节，显著降低了多轮迭代的算力消耗。\n\nOpenClaw-RL 将原本高不可攀的代理训练过程转化为简单的自然语言交互，让开发者能像指导实习生一样低成本地定制专属 AI 员工。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_OpenClaw-RL_8a8e6f89.png","Gen-Verse","Princeton-AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FGen-Verse_bec71234.png","Open-source research from Princeton AI Lab, led by Ling Yang and Mengdi Wang",null,"ly1988@princeton.edu","LingYang_PU","https:\u002F\u002Fyangling0818.github.io\u002F","https:\u002F\u002Fgithub.com\u002FGen-Verse",[82,86,90,94,98,101,105,108,111,114],{"name":83,"color":84,"percentage":85},"Python","#3572A5",94.4,{"name":87,"color":88,"percentage":89},"Shell","#89e051",5.1,{"name":91,"color":92,"percentage":93},"C++","#f34b7d",0.2,{"name":95,"color":96,"percentage":97},"Cuda","#3A4E3A",0.1,{"name":99,"color":100,"percentage":97},"Dockerfile","#384d54",{"name":102,"color":103,"percentage":104},"CSS","#663399",0,{"name":106,"color":107,"percentage":104},"TypeScript","#3178c6",{"name":109,"color":110,"percentage":104},"C","#555555",{"name":112,"color":113,"percentage":104},"JavaScript","#f1e05a",{"name":115,"color":100,"percentage":104},"Just",4687,482,"2026-04-06T20:22:57","Apache-2.0","未说明","支持本地 GPU 训练（提及支持 LoRA、低精度训练 FP8\u002FINT4 及 Qwen3.5 模型），也支持无 GPU 的云端部署（Tinker）或零 GPU 模式。具体显存和 CUDA 版本未在提供的片段中明确，但涉及 Megatron-LM 和 Slime 框架通常暗示需要 NVIDIA GPU。",{"notes":123,"python":120,"dependencies":124},"该工具采用完全异步架构，将服务、数据收集、评估和训练解耦。支持三种优化方法：Binary RL (GRPO)、On-Policy Distillation (OPD) 及其组合模式。既支持个人代理的个性化微调，也支持终端、GUI、SWE 和工具调用等通用场景的大规模强化学习。可通过一行代码启动混合 RL 训练。社区贡献需求包括 Qwen3.5 模型支持和低精度训练脚本。",[125,126,127,128,129],"Slime (基于 THUDM\u002Fslime)","Megatron-LM","OpenClaw","Ray (用于异步任务提交)","LoRA (适配层)",[35,14,13],[132,133,134,135,136,137,138,139,140,141,142,143,144],"async","memory-systems","open-claw","openclaw-skills","rlhf","sglang","skill-learning","slime","on-policy-distillation","grpo","coding","gui-application","tinker","2026-03-27T02:49:30.150509","2026-04-07T09:49:49.756975",[148,153,158,163,168,173],{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},21584,"在 8 卡 A800\u002FA100 环境下运行官方示例时遇到 OOM（显存溢出）报错怎么办？","首先请确保环境版本完全符合项目的 requirements.txt 和 instructions 文档要求，特别是需要更新 flash-attn 到指定版本。如果仍然报错，可以尝试调整 --sglang-context-length 参数来改变上下文长度。维护者确认在 80G A100 上使用 Qwen3-4B-Thinking 模型及默认配置进行测试未复现该问题，因此大概率是环境依赖版本不匹配导致的。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Fissues\u002F52",{"id":154,"question_zh":155,"answer_zh":156,"source_url":157},21585,"Slime 项目中的 patch 补丁文件是必须应用的吗？","不是必须的。维护者明确回复：\"Yes, RL can work without these patch here.\"，即即使不应用 slime\u002Fdocker\u002Fpatch 目录下的补丁文件，强化学习（RL）流程也可以正常运行。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Fissues\u002F60",{"id":159,"question_zh":160,"answer_zh":161,"source_url":162},21586,"运行 terminal-rl 时报错 \"all predefined address pools have been fully subnetted\" 如何解决？","该错误表明远程 worker 上供 Docker 分配的默认子网池已耗尽。默认配置在 setup.sh 中限制了 256 个子网。解决方法是修改 Docker 守护进程配置，扩大地址池范围。例如，将 default-address-pools 配置修改为：\n{\n  \"default-address-pools\": [\n    {\n      \"base\": \"10.200.0.0\u002F16\",\n      \"size\": 24\n    }\n  ]\n}\n修改后请重启 Docker 服务，并检查是否有残留的 Docker network 占用资源。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Fissues\u002F59",{"id":164,"question_zh":165,"answer_zh":166,"source_url":167},21587,"本项目使用的 Megatron-LM 和 Slime 基于哪个上游提交版本？有哪些主要补丁？","上游提交版本如下：\n- Megatron-LM: commit 3714d81 (NVIDIA\u002FMegatron-LM)\n- Slime: commit b6c7840 (THUDM\u002Fslime, v0.2.2)\n\n主要补丁内容包括：\n1. Megatron 补丁 (slime\u002Fdocker\u002Fpatch\u002Fv0.5.7\u002Fmegatron.patch)：放宽检查点加载限制、添加 Post-Attention\u002FPost-MLP LayerNorm 支持、修复多 token 预测 (MTP)、添加 fake INT4 QAT 支持、修复 MLA YaRN RoPE Triton 内核等。\n2. Slime 补丁：用 top-K logits 蒸馏替换原有的 OPD、添加逐步 PRM 奖励系统 (--prm-enable) 等。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Fissues\u002F20",{"id":169,"question_zh":170,"answer_zh":171,"source_url":172},21588,"运行时出现 \"No module named 'megatron.training'\" 错误如何处理？","这通常是因为脚本中存在硬编码的路径。请检查并修改启动脚本（如 run_qwen3_4b_openclaw_combine.sh），将其中的硬编码路径切换为你当前实际的环境路径或安装路径。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Fissues\u002F61",{"id":174,"question_zh":175,"answer_zh":176,"source_url":177},21589,"在计算基于步长索引分组的 PRM（过程奖励模型）时，如何处理不同轨迹长度不一致的问题？","对于相同步长索引的轨迹进行标准化计算。如果某些轨迹较长，其多出的“尾部步骤”没有对应的组进行标准化，则直接将该步骤的 Advantage 设为 Reward 值（因为奖励设计是对称的）。例如：轨迹 1 有 3 步，轨迹 2 有 2 步，则第 1、2 步分别组队标准化，轨迹 1 的第 3 步直接取奖励值作为优势值。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FOpenClaw-RL\u002Fissues\u002F32",[]]