[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-open-tinker--OpenTinker":3,"tool-open-tinker--OpenTinker":62},[4,18,26,36,46,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":42,"last_commit_at":43,"category_tags":44,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,45],"插件",{"id":47,"name":48,"github_repo":49,"description_zh":50,"stars":51,"difficulty_score":32,"last_commit_at":52,"category_tags":53,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":32,"last_commit_at":60,"category_tags":61,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[45,13,15,14],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":65,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":76,"owner_url":77,"languages":78,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":10,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":109,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":111,"updated_at":112,"faqs":113,"releases":134},9606,"open-tinker\u002FOpenTinker","OpenTinker","OpenTinker is an RL-as-a-Service infrastructure for foundation models","OpenTinker 是一个专为大模型打造的强化学习即服务（RL-as-a-Service）基础设施，旨在让智能体（Agent）的强化学习训练变得像使用云服务一样便捷。它主要解决了当前大模型在复杂推理、多轮对话及工具调用场景中，强化学习算法落地难、环境配置繁琐以及资源门槛高的问题。\n\n无论是希望探索大模型在数学解题、棋类游戏（如五子棋）、虚拟世界交互或安卓设备操作等任务中潜力的研究人员，还是致力于构建下一代自主智能体的开发者，都能通过 OpenTinker 快速上手。该平台提供了从单轮到多轮、从纯文本到视觉语言模型（VLM）的丰富示例，并支持 LoRA 等高效微调技术。\n\n其核心技术亮点在于将复杂的强化学习流程标准化与服务化，内置了对 verl 核心包的高效集成，让用户无需深究底层算法细节即可专注于策略设计与场景应用。通过简洁的安装步骤和清晰的文档，OpenTinker 正致力于推动“代理式强化学习”的普及，让每一位创作者都能轻松训练出更聪明的 AI 智能体。","\u003Cdiv align=\"center\" id=\"opentinker\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-tinker_OpenTinker_readme_0ac78c2ccd25.png\" alt=\"logo\" width=\"500\"\u002F>\n\n  \u003Cp style=\"margin-top: 6px; font-size: 18px;\">\n    \u003Cem>Democratizing Agentic Reinforcement Learning as a Service\u003C\u002Fem>\n  \u003C\u002Fp>\n\n  \u003Cp>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.07376\">Paper\u003C\u002Fa> ·\n    \u003Ca href=\"https:\u002F\u002Fopen-tinker.github.io\u002Fopentinker-page\u002F\">Project Page\u003C\u002Fa> ·\n    \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002Fopen-tinker\u002FOpenTinker\">DeepWiki\u003C\u002Fa> ·\n    \u003Ca href=\"https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fopentinker\u002Fshared_invite\u002Fzt-3lnxuxkfr-QZpzObNvW0DtcQUWzvKtQg\">Slack\u003C\u002Fa> ·\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FAssets\u002Fblob\u002F7be8029cd2546677ada5d077cfcd9dcebdda3a8c\u002FIMG_9661.JPG\">Wechat\u003C\u002Fa>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## 🚀 Quick Start\n\nChoose an example below to get started. Each example includes step-by-step instructions for setup, training, and inference.\n\n| Task                                             | Description                                                                          | Performance                                                                       |\n| ------------------------------------------------ | ------------------------------------------------------------------------------------ | --------------------------------------------------------------------------------- |\n| **[LLM Single-Turn Math](docs\u002Fmath_singleturn.md)**                       | Mathematical problem solving                                     | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Fbwkq1wl8?nw=nwuserzhusq20)                                                                               |\n| **[LLM Multi-Turn Math](docs\u002Fmath_multiturn.md)** | Multi-turn mathematical problem solving with tool calling                          | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Ff5pt6gcw?nw=nwuserzhusq20)                       |\n| **[LLM Single-LoRA Single-Turn Math](docs\u002Fmath_lora_singleturn.md)**                  | Math single-turn Trained With LoRA                                                         | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Fcl1w5l07?nw=nwuserzhusq20)                        |\n| **[VLM Single-Turn Math](docs\u002Fvlm_geo3k_singleturn.md)**                    | geometry 3k math problem solving                                                          | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Faidfc2y1?nw=nwuserzhusq20)                                                                               |\n| **[VLM Multi-Turn Math](docs\u002Fvlm_geo3k_multiturn.md)**             | geometry 3k math problem solving with tool calling                                           | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Fr39htm2o?nw=nwuserzhusq20)                |\n| **[LLM Gomoku Agent](docs\u002Fgomoku_multiturn.md)**       | A multi-turn gomoku agent | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002F7a7ggkw3?nw=nwuserzhusq20)                        |\n| **[LLM AlfWorld Agent](docs\u002Falfworld_multiturn.md)**       | A multi-turn alfworld agent | [wandb](https:\u002F\u002Fwandb.ai\u002F1125027232\u002Fopentinker-public\u002Fruns\u002F3jrlolk7?nw=nwuser1125027232)                        |\n| **[LLM Android World Agent](docs\u002Fandroid_world_multiturn.md)**       | A multi-turn android world agent |                         |\n\n\n## 📦 Installation\n\n### 🔹 Common Setup (Client and Server)\n\n#### Clone the Repository\n\n```bash\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FOpenTinker.git\ncd OpenTinker\n```\n\n#### Install OpenTinker\n\n```bash\npip install -e .\n```\n\n#### Install verl (core package)\n\n```bash\ncd verl\npip install -e .\ncd ..\n```\n\n### 💻 Client Setup\n\nAfter completing the Common Setup, no additional steps are needed.\n\n> **Note**\n> The client currently relies on a small subset of functions from `verl`. This dependency is transitional. In future releases, the client will be fully decoupled from `verl`, allowing it to remain completely lightweight and independent of training-related code.\n\n### 🧠 Server Setup\n\nIn addition to the Common Setup, it must install verl dependencies.\n\nYou can choose one of the following two approaches.\n\n#### Option 1: Docker Installation (Recommended)\n\n```bash\n# Pull the verl Docker image\ndocker pull verlai\u002Fverl@sha256:3ce56ff018516b28ab9c4f4fc09d3aa67589074495ace75e2674b720aa4d0e5d\n\n# Create and run container\ndocker run -dit \\\n  --gpus all \\\n  --restart=no \\\n  --entrypoint \u002Fbin\u002Fbash \\\n  --net=host \\\n  --shm-size=10g \\\n  --cap-add=SYS_ADMIN \\\n  -v .:\u002Fworkspace\u002Fdev \\\n  --name tinker \\\n  verlai\u002Fverl@sha256:3ce56ff018516b28ab9c4f4fc09d3aa67589074495ace75e2674b720aa4d0e5d\n```\n\n#### Option 2: Manual Installation\n\nyou can install verl dependencies manually. After completing the Common Setup, run:\n\n```bash\ncd verl\npip install -r requirements.txt\ncd ..\n```\n\nThis installs all GPU and training-related dependencies required by the server.\n\n⚠️ **Warning**\nManual installation may introduce version conflicts. For better stability and reproducibility, we recommend using the Docker-based setup whenever possible.\n\n## 🔐 Authentication\n\nOpenTinker includes a built-in authentication system to secure access to the scheduler API.\n\n### Configuration\n\nEdit `opentinker\u002Fscheduler\u002Fconfig\u002Fscheduler.yaml`:\n\n```yaml\nenable_auth: true # Set to true to enable authentication, false to disable authentication.\nuser_db_path: \"scheduler_users.db\"\n```\n\n### Quick Registration\n\nRun the interactive script to register a user and get an API key:\n\n```bash\npython opentinker\u002Fscheduler\u002Fregister_user_example.py\n```\n\nFor advanced usage (REST API registration, using the key) and detailed configuration, see the [Scheduler & Dashboard Guide](opentinker\u002Fscheduler\u002FSCHEDULER_GUIDE.md#authentication).\n\n## 🎮 Environments\n\nOpenTinker provides a flexible environment design framework that supports diverse training scenarios. Our architecture accommodates two orthogonal dimensions:\n\n- **Data Source**: _Data-Dependent_ environments load structured datasets (e.g., parquet files) to provide prompts, while _Data-Free_ environments generate prompts dynamically from simulators or game engines.\n- **Interaction Mode**: _Single-Turn_ environments involve one-shot model responses, while _Multi-Turn_ environments enable iterative interactions with tool calls and feedback loops.\n\nThis 2×2 design space enables four distinct paradigms, each suited to different learning objectives:\n\n| Paradigm                         | Data Source | Interaction | Example Use Case                      |\n| -------------------------------- | ----------- | ----------- | ------------------------------------- |\n| **Data-Dependent × Single-Turn** | Dataset     | One-shot    | Math reasoning, QA tasks              |\n| **Data-Dependent × Multi-Turn**  | Dataset     | Iterative   | Tool-assisted problem solving         |\n| **Data-Free × Single-Turn**      | Simulator   | One-shot    | Bandit                                |\n| **Data-Free × Multi-Turn**       | Simulator   | Iterative   | Complex game playing, dialogue agents |\n\n## 📚 Documentation\n\n- [Scheduler & Dashboard Guide](opentinker\u002Fscheduler\u002FSCHEDULER_GUIDE.md) - Configuration, Usage, and Web Dashboard\n\n## 📖 Citation\n\n```\n@misc{zhu2026opentinkerseparatingconcernsagentic,\n      title={OpenTinker: Separating Concerns in Agentic Reinforcement Learning}, \n      author={Siqi Zhu and Jiaxuan You},\n      year={2026},\n      eprint={2601.07376},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.07376}, \n}\n```\n","\u003Cdiv align=\"center\" id=\"opentinker\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-tinker_OpenTinker_readme_0ac78c2ccd25.png\" alt=\"logo\" width=\"500\"\u002F>\n\n  \u003Cp style=\"margin-top: 6px; font-size: 18px;\">\n    \u003Cem>将智能体强化学习服务化，实现民主化\u003C\u002Fem>\n  \u003C\u002Fp>\n\n  \u003Cp>\n    \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.07376\">论文\u003C\u002Fa> ·\n    \u003Ca href=\"https:\u002F\u002Fopen-tinker.github.io\u002Fopentinker-page\u002F\">项目页面\u003C\u002Fa> ·\n    \u003Ca href=\"https:\u002F\u002Fdeepwiki.com\u002Fopen-tinker\u002FOpenTinker\">DeepWiki\u003C\u002Fa> ·\n    \u003Ca href=\"https:\u002F\u002Fjoin.slack.com\u002Ft\u002Fopentinker\u002Fshared_invite\u002Fzt-3lnxuxkfr-QZpzObNvW0DtcQUWzvKtQg\">Slack\u003C\u002Fa> ·\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FAssets\u002Fblob\u002F7be8029cd2546677ada5d077cfcd9dcebdda3a8c\u002FIMG_9661.JPG\">WeChat\u003C\u002Fa>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## 🚀 快速入门\n\n请从下方选择一个示例开始。每个示例都包含详细的安装、训练和推理步骤。\n\n| 任务                                             | 描述                                                                          | 性能                                                                       |\n| ------------------------------------------------ | ------------------------------------------------------------------------------------ | --------------------------------------------------------------------------------- |\n| **[LLM 单轮数学](docs\u002Fmath_singleturn.md)**                       | 数学问题求解                                     | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Fbwkq1wl8?nw=nwuserzhusq20)                                                                               |\n| **[LLM 多轮数学](docs\u002Fmath_multiturn.md)** | 带工具调用的多轮数学问题求解                          | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Ff5pt6gcw?nw=nwuserzhusq20)                       |\n| **[LLM 单LoRA单轮数学](docs\u002Fmath_lora_singleturn.md)**                  | 使用LoRA微调的数学单轮模型                                                         | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Fcl1w5l07?nw=nwuserzhusq20)                        |\n| **[VLM 单轮数学](docs\u002Fvlm_geo3k_singleturn.md)**                    | 几何3k数学问题求解                                                          | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Faidfc2y1?nw=nwuserzhusq20)                                                                               |\n| **[VLM 多轮数学](docs\u002Fvlm_geo3k_multiturn.md)**             | 带工具调用的几何3k数学问题求解                                           | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002Fr39htm2o?nw=nwuserzhusq20)                |\n| **[LLM 五子棋智能体](docs\u002Fgomoku_multiturn.md)**       | 一个多轮五子棋智能体 | [wandb](https:\u002F\u002Fwandb.ai\u002Fzsqzz\u002FOpen-Tinker\u002Fruns\u002F7a7ggkw3?nw=nwuserzhusq20)                        |\n| **[LLM AlfWorld 智能体](docs\u002Falfworld_multiturn.md)**       | 一个多轮AlfWorld智能体 | [wandb](https:\u002F\u002Fwandb.ai\u002F1125027232\u002Fopentinker-public\u002Fruns\u002F3jrlolk7?nw=nwuser1125027232)                        |\n| **[LLM Android World 智能体](docs\u002Fandroid_world_multiturn.md)**       | 一个多轮Android World智能体 |                         |\n\n\n## 📦 安装\n\n### 🔹 常规设置（客户端与服务器）\n\n#### 克隆仓库\n\n```bash\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FOpenTinker.git\ncd OpenTinker\n```\n\n#### 安装 OpenTinker\n\n```bash\npip install -e .\n```\n\n#### 安装 verl（核心包）\n\n```bash\ncd verl\npip install -e .\ncd ..\n```\n\n### 💻 客户端设置\n\n完成常规设置后，无需额外步骤。\n\n> **注意**\n> 目前客户端依赖于 `verl` 的一小部分功能。这种依赖是过渡性的。在未来的版本中，客户端将完全脱离 `verl`，从而保持完全轻量级，并且独立于训练相关代码。\n\n### 🧠 服务器设置\n\n除了常规设置外，还需要安装 `verl` 的依赖项。\n\n您可以选择以下两种方式之一。\n\n#### 方案 1：Docker 安装（推荐）\n\n```bash\n# 拉取 verl Docker 镜像\ndocker pull verlai\u002Fverl@sha256:3ce56ff018516b28ab9c4f4fc09d3aa67589074495ace75e2674b720aa4d0e5d\n\n# 创建并运行容器\ndocker run -dit \\\n  --gpus all \\\n  --restart=no \\\n  --entrypoint \u002Fbin\u002Fbash \\\n  --net=host \\\n  --shm-size=10g \\\n  --cap-add=SYS_ADMIN \\\n  -v .:\u002Fworkspace\u002Fdev \\\n  --name tinker \\\n  verlai\u002Fverl@sha256:3ce56ff018516b28ab9c4f4fc09d3aa67589074495ace75e2674b720aa4d0e5d\n```\n\n#### 方案 2：手动安装\n\n您可以手动安装 `verl` 的依赖项。完成常规设置后，运行：\n\n```bash\ncd verl\npip install -r requirements.txt\ncd ..\n```\n\n这将安装服务器所需的所有 GPU 和训练相关依赖。\n\n⚠️ **警告**\n手动安装可能会引入版本冲突。为了更好的稳定性和可重复性，我们建议尽可能使用基于 Docker 的设置。\n\n## 🔐 认证\n\nOpenTinker 内置了一个认证系统，用于保护调度器 API 的访问安全。\n\n### 配置\n\n编辑 `opentinker\u002Fscheduler\u002Fconfig\u002Fscheduler.yaml`:\n\n```yaml\nenable_auth: true # 设置为 true 启用认证，false 禁用认证。\nuser_db_path: \"scheduler_users.db\"\n```\n\n### 快速注册\n\n运行交互式脚本以注册用户并获取 API 密钥：\n\n```bash\npython opentinker\u002Fscheduler\u002Fregister_user_example.py\n```\n\n有关高级用法（REST API 注册、密钥使用）及详细配置，请参阅 [调度器与仪表板指南](opentinker\u002Fscheduler\u002FSCHEDULER_GUIDE.md#authentication)。\n\n## 🎮 环境\n\nOpenTinker 提供了一个灵活的环境设计框架，支持多种训练场景。我们的架构包含两个正交维度：\n\n- **数据源**：_数据依赖型_ 环境加载结构化数据集（如 parquet 文件）以提供提示，而 _无数据型_ 环境则从模拟器或游戏引擎动态生成提示。\n- **交互模式**：_单轮_ 环境涉及一次性模型响应，而 _多轮_ 环境则允许通过工具调用和反馈循环进行迭代交互。\n\n这种 2×2 的设计空间产生了四种不同的范式，每种范式都适用于不同的学习目标：\n\n| 范式                         | 数据源 | 交互 | 示例用例                      |\n| -------------------------------- | ----------- | ----------- | ------------------------------------- |\n| **数据依赖 × 单轮** | 数据集     | 一次完成    | 数学推理、问答任务              |\n| **数据依赖 × 多轮**  | 数据集     | 迭代进行   | 工具辅助的问题解决         |\n| **无数据 × 单轮**      | 模拟器   | 一次完成    | 区块机                                |\n| **无数据 × 多轮**       | 模拟器   | 迭代进行   | 复杂游戏玩法、对话智能体 |\n\n## 📚 文档\n\n- [调度器与仪表板指南](opentinker\u002Fscheduler\u002FSCHEDULER_GUIDE.md) - 配置、使用及 Web 仪表板\n\n## 📖 引用\n\n```\n@misc{zhu2026opentinkerseparatingconcernsagentic,\n      title={OpenTinker：在智能体强化学习中分离关注点}, \n      author={朱思琪和游家轩},\n      year={2026},\n      eprint={2601.07376},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.07376}, \n}\n```","# OpenTinker 快速上手指南\n\nOpenTinker 是一个旨在 democratizing（普及化）智能体强化学习（Agentic RL）的开源框架，支持从单轮数学推理到多轮工具调用、游戏代理等多种场景。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS。\n*   **Python**: 版本 3.9 或更高。\n*   **Git**: 用于克隆代码库。\n*   **GPU (可选但推荐)**: 如果运行服务端训练任务，需要 NVIDIA GPU 及对应的 CUDA 驱动。\n*   **Docker (推荐)**: 用于服务端部署，以避免依赖冲突。\n\n## 2. 安装步骤\n\n### 2.1 克隆代码库\n\n使用以下命令克隆项目及其子模块：\n\n```bash\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FOpenTinker.git\ncd OpenTinker\n```\n\n### 2.2 安装核心依赖\n\n首先安装 OpenTinker 主包：\n\n```bash\npip install -e .\n```\n\n接着安装核心强化学习包 `verl`：\n\n```bash\ncd verl\npip install -e .\ncd ..\n```\n\n> **提示**: 国内用户若遇到 pip 下载缓慢，可添加清华源加速：\n> `pip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n\n### 2.3 服务端环境配置（二选一）\n\n如果您仅作为客户端使用（调用已有服务），完成上述步骤即可。若需搭建服务端进行训练，请选择以下一种方式：\n\n#### 方案 A：Docker 部署（推荐）\n\n此方式能确保环境一致性，避免版本冲突。\n\n```bash\n# 拉取预构建的 verl 镜像\ndocker pull verlai\u002Fverl@sha256:3ce56ff018516b28ab9c4f4fc09d3aa67589074495ace75e2674b720aa4d0e5d\n\n# 启动容器\ndocker run -dit \\\n  --gpus all \\\n  --restart=no \\\n  --entrypoint \u002Fbin\u002Fbash \\\n  --net=host \\\n  --shm-size=10g \\\n  --cap-add=SYS_ADMIN \\\n  -v .:\u002Fworkspace\u002Fdev \\\n  --name tinker \\\n  verlai\u002Fverl@sha256:3ce56ff018516b28ab9c4f4fc09d3aa67589074495ace75e2674b720aa4d0e5d\n```\n\n#### 方案 B：手动安装\n\n直接在宿主机安装所有 GPU 和训练相关依赖（可能存在版本冲突风险）：\n\n```bash\ncd verl\npip install -r requirements.txt\ncd ..\n```\n\n## 3. 基本使用\n\n### 3.1 配置认证（可选）\n\nOpenTinker 内置了调度器 API 的认证系统。如需启用，请编辑配置文件 `opentinker\u002Fscheduler\u002Fconfig\u002Fscheduler.yaml`：\n\n```yaml\nenable_auth: true\nuser_db_path: \"scheduler_users.db\"\n```\n\n然后运行脚本注册新用户并获取 API Key：\n\n```bash\npython opentinker\u002Fscheduler\u002Fregister_user_example.py\n```\n\n### 3.2 运行示例任务\n\nOpenTinker 提供了多种预设任务示例，涵盖数学解题、游戏代理等场景。您可以根据需求选择以下任一任务开始体验（以单轮数学解题为例）：\n\n1.  **查看文档**: 参考 `docs\u002Fmath_singleturn.md` 获取详细参数说明。\n2.  **执行训练\u002F推理**: 根据文档中的命令行指引启动任务。\n\n其他可用任务包括：\n*   **多轮数学解题 (带工具调用)**: `docs\u002Fmath_multiturn.md`\n*   **LoRA 微调数学任务**: `docs\u002Fmath_lora_singleturn.md`\n*   **视觉语言模型 (VLM) 几何解题**: `docs\u002Fvlm_geo3k_singleturn.md`\n*   **五子棋智能体**: `docs\u002Fgomoku_multiturn.md`\n*   **AlfWorld 家庭任务代理**: `docs\u002Falfworld_multiturn.md`\n\n每个示例文档均包含了完整的设置、训练和推理步骤。建议初学者从 **LLM Single-Turn Math** 入手，快速验证环境可用性。","某教育科技团队正致力于开发一款能逐步引导学生解决复杂几何题的多模态 AI 辅导助手，需让模型学会调用绘图工具并进行多轮推理。\n\n### 没有 OpenTinker 时\n- **基建门槛极高**：团队需从零搭建强化学习（RL）训练框架，自行处理分布式通信、显存管理及环境交互接口，耗时数周仍难以跑通多轮对话流程。\n- **多模态适配困难**：让视觉语言模型（VLM）在数学解题中稳定调用外部工具（如几何画板），需要编写大量定制化代码来对齐图像输入与动作输出，调试成本巨大。\n- **实验迭代缓慢**：缺乏统一的监控与服务化接口，每次调整奖励函数或策略算法都需重新配置底层环境，导致算法验证周期长达数天，严重拖慢产品上线节奏。\n\n### 使用 OpenTinker 后\n- **开箱即用的服务架构**：直接利用 OpenTinker 提供的 RL-as-a-Service 基础设施，通过简单配置即可启动针对 VLM 的多轮数学任务训练，将环境搭建时间从数周缩短至几小时。\n- **原生支持智能体工具调用**：依托其内置的 AlfWorld 及几何解题示例，轻松实现模型对绘图工具的精准调用与多步推理，无需手动编写复杂的交互逻辑代码。\n- **高效实验闭环**：借助集成的 WandB 监控与标准化接口，团队能实时追踪训练指标并快速切换 LoRA 微调等策略，将算法迭代周期压缩至小时级，迅速优化辅导效果。\n\nOpenTinker 通过将复杂的强化学习基建服务化，让开发者能专注于智能体策略本身，极大降低了多模态 Agent 的研发与落地门槛。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fopen-tinker_OpenTinker_4987963f.png","open-tinker","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fopen-tinker_89e49b1c.png","",null,"https:\u002F\u002Fgithub.com\u002Fopen-tinker",[79,83,87],{"name":80,"color":81,"percentage":82},"Python","#3572A5",96.2,{"name":84,"color":85,"percentage":86},"HTML","#e34c26",2.1,{"name":88,"color":89,"percentage":90},"Shell","#89e051",1.7,661,63,"2026-04-18T18:09:45","Apache-2.0","Linux","必需 NVIDIA GPU。Docker 启动参数包含 '--gpus all'，表明需要支持 CUDA 的 NVIDIA 显卡。具体型号和显存大小未说明，但鉴于涉及 LLM\u002FVLM 强化学习训练，通常建议高显存（如 24GB+）。","未说明（Docker 配置中设置了 '--shm-size=10g'，暗示共享内存需求较大）",{"notes":99,"python":100,"dependencies":101},"1. 强烈建议使用提供的 Docker 镜像 (verlai\u002Fverl) 进行服务器端部署，以避免手动安装时的版本冲突。2. 该工具分为客户端和服务端，服务端需完整安装 'verl' 及其 GPU 训练依赖，客户端目前也依赖 'verl' 的子集（未来将解耦）。3. 安装时需使用 '--recurse-submodules' 参数克隆仓库以获取子模块。4. 内置了基于 YAML 配置的身份验证系统。5. 支持多种环境范式，包括单轮\u002F多轮交互以及基于数据集\u002F模拟器的数据源。","未说明",[102,103,104,105,106,107,108],"verl (核心依赖)","torch","transformers","accelerate","ray","vllm","wandb",[35,14,13,110],"其他","2026-03-27T02:49:30.150509","2026-04-20T04:04:11.009693",[114,119,124,129],{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},43109,"在 Docker 容器中使用多 GPU 和 vLLM V1 进行训练时，遇到 'CUDASymmetricMemoryAllocator::rendezvous' 错误如何解决？","该错误是由于 vLLM 的对称内存分配器检测到不同 rank 的重叠设备分配导致的。解决方法是禁用 vLLM 的对称内存分配器。请运行以下命令设置环境变量：\n\nexport VLLM_ALLREDUCE_USE_SYMM_MEM=0\n\n参考链接：https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl\u002Fissues\u002F3791","https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FOpenTinker\u002Fissues\u002F23",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},43110,"是否有 Geo3K 数据集上 Qwen2.5-7B 模型的 VLM 训练示例？","是的，项目已添加 Geo3K 数据集上 Qwen2.5-7B 模型的训练示例，支持单轮推理和多轮工具调用（multi-turn tool-call）。您可以参考以下提交获取代码：\nCommit: e227295840eec72f077c426b0701521bc4869e73\n仓库地址：https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FOpenTinker\u002Ftree\u002Fe227295840eec72f077c426b0701521bc4869e73","https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FOpenTinker\u002Fissues\u002F1",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},43111,"是否提供了 LoRA 微调的训练示例？","是的，LoRA 训练示例已经添加完成，您可以在仓库中查找相关脚本和配置文件使用。","https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FOpenTinker\u002Fissues\u002F2",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},43112,"如何在验证阶段启用固定 seed 的随机采样以保证结果可复现？","该功能已实现。现在在验证过程中可以设置固定的 random seed 进行采样，确保每次运行的验证结果一致。具体参数配置请参考最新的训练脚本或配置文件。","https:\u002F\u002Fgithub.com\u002Fopen-tinker\u002FOpenTinker\u002Fissues\u002F32",[]]