[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-PRIME-RL--TTRL":3,"tool-PRIME-RL--TTRL":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",158594,2,"2026-04-16T23:34:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":75,"owner_url":76,"languages":77,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":98,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":108,"github_topics":109,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":113,"updated_at":114,"faqs":115,"releases":145},8339,"PRIME-RL\u002FTTRL","TTRL","[NeurIPS 2025] TTRL: Test-Time Reinforcement Learning","TTRL（Test-Time Reinforcement Learning）是一款面向大语言模型推理任务的开源强化学习框架，专为在没有标准答案标签的测试数据上进行在线训练而设计。传统强化学习依赖已知正确答案来计算奖励，这限制了其在真实未知数据上的应用；TTRL 巧妙解决了这一难题，它利用“测试时扩展”（Test-Time Scaling）中的多数投票机制自动生成奖励信号，让模型能够在推理过程中自我进化。\n\n该工具特别适合 AI 研究人员和开发者使用，尤其是那些希望提升模型在数学解题、逻辑推理等复杂任务中表现，却缺乏标注数据的团队。其核心技术亮点在于无需任何地面真值（Ground-Truth）即可驱动强化学习循环，不仅突破了初始模型的性能上限，甚至在仅使用无标签测试数据的情况下，将 Qwen-2.5-Math-7B 在 AIME 2024 数据集上的单次通过率提升了约 211%。此外，TTRL 已集成至流行的 verl 框架中，用户只需简单配置即可启用，极大地降低了无监督强化学习的门槛，为探索“经验驱动”的模型优化提供了高效的新路径。","\u003Cdiv align=\"center\">\n\n# TTRL: Test-Time Reinforcement Learning\n\n[![Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpaper-A42C25?style=for-the-badge&logo=arxiv&logoColor=white)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16084)  [![Github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTTRL-000000?style=for-the-badge&logo=github&logoColor=000&logoColor=white)](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL)\n[![Wandb Log of AIME](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWandb%20Log%20of%20AIME-%2300B4AB?style=for-the-badge&logo=weightsandbiases&logoColor=white&labelColor=000000)](https:\u002F\u002Fwandb.ai\u002Ftruman-yx-zuo-nlp\u002FTTRL\u002Fworkspace?nw=nwusertrumanyxzuo) [![HF Papers](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHF--Paper-%23FFD14D?style=for-the-badge&logo=huggingface&logoColor=black)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.16084)  [![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-%23000000.svg?style=for-the-badge&logo=x&logoColor=white)](https:\u002F\u002Fx.com\u002Fzuo_yuxin\u002Fstatus\u002F1915406839669572036)\n\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\" style=\"font-family: Arial, sans-serif;\">\n  \u003Cp>\n    \u003Ca href=\"#news\" style=\"text-decoration: none; font-weight: bold;\">🎉 News\u003C\u002Fa> •\n    \u003Ca href=\"#introduction\" style=\"text-decoration: none; font-weight: bold;\">📖 Introduction\u003C\u002Fa> •\n    \u003Ca href=\"#main-results\" style=\"text-decoration: none; font-weight: bold;\">📊 Main Results\u003C\u002Fa>\n  \u003C\u002Fp>\n  \u003Cp>\n    \u003Ca href=\"#getting-started\" style=\"text-decoration: none; font-weight: bold;\">✨ Getting Started\u003C\u002Fa> •\n    \u003Ca href=\"#contact\" style=\"text-decoration: none; font-weight: bold;\">📨 Contact\u003C\u002Fa> •\n    \u003Ca href=\"#citation\" style=\"text-decoration: none; font-weight: bold;\">🎈 Citation\u003C\u002Fa> •\n    \u003Ca href=\"#star-history\" style=\"text-decoration: none; font-weight: bold;\">🌟 Star History\u003C\u002Fa>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n> Welcome to the Era of Experience.  --David Silver, Richard S. Sutton\n\n# 🎉News\n- **[2026-03-10]** We investigate the mechanisms and potential applications of [Unsupervised RLVR (URLVR)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2603.08660), and find that it is particularly well suited for test-time training and quantifying model priors. Here is [code](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Ftree\u002Furlvr-dev). URLVR paper is accepted to [ICLR 2026](https:\u002F\u002Ficlr.cc\u002FConferences\u002F2026)!\n- **[2025-09-18]** TTRL paper is accepted to [NeurIPS 2025](https:\u002F\u002Fneurips.cc\u002FConferences\u002F2025)!\n- **[2025-08-17]** We bump into [verl v0.4.1](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl\u002Freleases\u002Ftag\u002Fv0.4.1), and now you can enable TTRL by simply setting `+ttrl.enable=True`!\n- **[2025-05-23]** We update both the paper and the code, with the implementation based on the [verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl).\n- **[2025-04-24]** We release the code and experimental logs. Check it out: [Getting Started](#getting-started).\n- **[2025-04-23]** We present **TTRL** (Test-Time Reinforcement Learning), an open-source solution for online RL on data without ground-truth labels, especially test data.\n\n# 📖Introduction\n\n**We investigate Reinforcement Learning (RL) on data without explicit labels for reasoning tasks in Large Language Models (LLMs).**\nThe core challenge of the problem is reward estimation during inference while not having access to ground-truth information. While this setting appears elusive, we find that common practices in Test-Time Scaling (TTS), such as majority voting, yield surprisingly effective rewards suitable for driving RL training.\n\n\u003Cp align=\"center\">\n   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_a0c559a11a09.png\" alt=\"Performance and settings of TTRL.\" style=\"width: 80%;\">\n\u003C\u002Fp>\n\n\n\u003Cp align=\"center\">\n   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_3f75b84503b5.png\" alt=\"Overview of TTRL.\" style=\"width: 80%;\">\n\u003C\u002Fp>\n\n\n# 📊Main Results\n\nOur experiments demonstrate that TTRL consistently improves performance across a variety of tasks and models. Notably, TTRL boosts the `pass@1` performance of Qwen-2.5-Math-7B by approximately 211% on `AIME 2024` with only unlabeled test data.\n\nFurthermore, although TTRL is only supervised by the `maj@n` metric, TTRL has demonstrated performance to consistently surpass this upper limit of the initial model, and approach the performance of models trained directly on test data with ground-truth labels.\n\n\u003Cp align=\"center\">\n   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_340f4311db97.png\" alt=\"Main results of TTRL.\" style=\"width: 60%;\">\n\u003C\u002Fp>\n\n\n# ✨Getting Started\n\n## Env Setup\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL.git\n\ncd TTRL\u002Fverl\n\nconda create -n ttrl python==3.10\nconda activate ttrl\nbash scripts\u002Finstall_ttrl_deps.sh\npip install -e .\n```\n\n## Reproduce TTRL\nYou can reproduce the results on `AIME 2024` with the following commands:\n\n```bash\nbash examples\u002Fttrl\u002FQwen2.5\u002Faime.sh\n```\n\n> [!NOTE]\n> - You can use the script [verl\u002Fdata\u002Fpreprocess.py](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Fblob\u002Fmain\u002Fverl\u002Fdata\u002Fpreprocess.py) to convert data from the `JSON` format to the `Parquet` format for training with verl.\n> - We provide scripts in the [verl\u002Fexamples\u002Fttrl](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Ftree\u002Fmain\u002Fverl\u002Fexamples\u002Fttrl) directory for running TTRL on multiple models across various benchmarks.\n> - For further details regarding the code, please refer to the [verl documentation](https:\u002F\u002Fverl.readthedocs.io\u002Fen\u002Flatest\u002Findex.html).\n\nWe additionally conducted three independent runs using the preview version of our code. Two of the runs achieved a pass@1 (greedy) of 43.3, while one run reached 46.7. Please refer to the [Weights & Biases logs](https:\u002F\u002Fwandb.ai\u002Ftruman-yx-zuo-nlp\u002FTTRL\u002Fworkspace).\n\n*All experiments were conducted on 8 x NVIDIA A100 80GB GPUs.*\n\n\u003Cdetails>\n\u003Csummary>\n  Pseudo-Code\n\u003C\u002Fsummary>\n\nThe implementation of TTRL can be achieved rapidly by simply modifying the reward function. Please refer to the following code snippet for details:\n\n\u003Cp align=\"center\">\n   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_1ca734f213a6.png\" alt=\"The pseudo-code of the majority voting reward function.\" style=\"width: 60%;\">\n\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n# 📨Contact\n\n- Kaiyan Zhang: zhang-ky22@mails.tsinghua.edu.cn\n- Ning Ding: dingning@mail.tsinghua.edu.cn\n\n# 🎈Citation\nIf you find TTRL helpful, please cite us.\n\n```bibtex\n@article{zuo2025ttrl,\n  title={Ttrl: Test-time reinforcement learning},\n  author={Zuo, Yuxin and Zhang, Kaiyan and Sheng, Li and Qu, Shang and Cui, Ganqu and Zhu, Xuekai and Li, Haozhan and Zhang, Yuchen and Long, Xinwei and Hua, Ermo and others},\n  journal={arXiv preprint arXiv:2504.16084},\n  year={2025}\n}\n```\n\n# 🌟Star History\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_0a7d653bdbc0.png)](https:\u002F\u002Fwww.star-history.com\u002F#PRIME-RL\u002FTTRL&Date)\n","\u003Cdiv align=\"center\">\n\n# TTRL：测试时强化学习\n\n[![论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpaper-A42C25?style=for-the-badge&logo=arxiv&logoColor=white)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2504.16084)  [![Github](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTTRL-000000?style=for-the-badge&logo=github&logoColor=000&logoColor=white)](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL)\n[![AIME的Wandb日志](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FWandb%20Log%20of%20AIME-%2300B4AB?style=for-the-badge&logo=weightsandbiases&logoColor=white&labelColor=000000)](https:\u002F\u002Fwandb.ai\u002Ftruman-yx-zuo-nlp\u002FTTRL\u002Fworkspace?nw=nwusertrumanyxzuo) [![HF Papers](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHF--Paper-%23FFD14D?style=for-the-badge&logo=huggingface&logoColor=black)](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.16084)  [![Twitter](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-%23000000.svg?style=for-the-badge&logo=x&logoColor=white)](https:\u002F\u002Fx.com\u002Fzuo_yuxin\u002Fstatus\u002F1915406839669572036)\n\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\" style=\"font-family: Arial, sans-serif;\">\n  \u003Cp>\n    \u003Ca href=\"#news\" style=\"text-decoration: none; font-weight: bold;\">🎉 新闻\u003C\u002Fa> •\n    \u003Ca href=\"#introduction\" style=\"text-decoration: none; font-weight: bold;\">📖 简介\u003C\u002Fa> •\n    \u003Ca href=\"#main-results\" style=\"text-decoration: none; font-weight: bold;\">📊 主要结果\u003C\u002Fa>\n  \u003C\u002Fp>\n  \u003Cp>\n    \u003Ca href=\"#getting-started\" style=\"text-decoration: none; font-weight: bold;\">✨ 入门指南\u003C\u002Fa> •\n    \u003Ca href=\"#contact\" style=\"text-decoration: none; font-weight: bold;\">📨 联系方式\u003C\u002Fa> •\n    \u003Ca href=\"#citation\" style=\"text-decoration: none; font-weight: bold;\">🎈 引用\u003C\u002Fa> •\n    \u003Ca href=\"#star-history\" style=\"text-decoration: none; font-weight: bold;\">🌟 星标历史\u003C\u002Fa>\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n> 欢迎来到经验时代。——大卫·西尔弗、理查德·S·萨顿\n\n# 🎉新闻\n- **[2026-03-10]** 我们研究了[无监督RLVR (URLVR)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2603.08660) 的机制及其潜在应用，发现它特别适合于测试时训练以及量化模型先验。代码请见：[此处](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Ftree\u002Furlvr-dev)。URLVR论文已被[ICLR 2026](https:\u002F\u002Ficlr.cc\u002FConferences\u002F2026)接收！\n- **[2025-09-18]** TTRL论文已被[NeurIPS 2025](https:\u002F\u002Fneurips.cc\u002FConferences\u002F2025)接收！\n- **[2025-08-17]** 我们遇到了[verl v0.4.1](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl\u002Freleases\u002Ftag\u002Fv0.4.1)，现在只需设置 `+ttrl.enable=True` 即可启用TTRL！\n- **[2025-05-23]** 我们更新了论文和代码，实现基于[verl](https:\u002F\u002Fgithub.com\u002Fvolcengine\u002Fverl)。\n- **[2025-04-24]** 我们发布了代码和实验日志。请查看：[入门指南](#getting-started)。\n- **[2025-04-23]** 我们提出了**TTRL**（测试时强化学习），这是一种开源解决方案，用于在没有真实标签的数据上进行在线强化学习，尤其是测试数据。\n\n# 📖简介\n\n**我们研究了在大型语言模型（LLMs）中针对推理任务，在无明确标签的数据上进行强化学习的问题。**\n该问题的核心挑战是在推理过程中无法获得真实标签信息的情况下进行奖励估计。尽管这一设定看似难以实现，但我们发现，测试时缩放（TTS）中的常见做法，如多数投票，能够产生出令人惊讶的有效奖励，足以驱动强化学习训练。\n\n\u003Cp align=\"center\">\n   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_a0c559a11a09.png\" alt=\"TTRL的性能与设置。\" style=\"width: 80%;\">\n\u003C\u002Fp>\n\n\n\u003Cp align=\"center\">\n   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_3f75b84503b5.png\" alt=\"TTRL概览。\" style=\"width: 80%;\">\n\u003C\u002Fp>\n\n\n# 📊主要结果\n\n我们的实验表明，TTRL在多种任务和模型上都能持续提升性能。值得注意的是，仅使用未标注的测试数据，TTRL就将Qwen-2.5-Math-7B在`AIME 2024`上的`pass@1`性能提升了约211%。\n\n此外，尽管TTRL仅以`maj@n`指标为监督信号，其性能却始终超越初始模型的这一上限，并接近直接在带有真实标签的测试数据上训练的模型的水平。\n\n\u003Cp align=\"center\">\n   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_340f4311db97.png\" alt=\"TTRL的主要结果。\" style=\"width: 60%;\">\n\u003C\u002Fp>\n\n\n# ✨入门指南\n\n## 环境搭建\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL.git\n\ncd TTRL\u002Fverl\n\nconda create -n ttrl python==3.10\nconda activate ttrl\nbash scripts\u002Finstall_ttrl_deps.sh\npip install -e .\n```\n\n## 复现TTRL\n您可以通过以下命令复现`AIME 2024`的结果：\n\n```bash\nbash examples\u002Fttrl\u002FQwen2.5\u002Faime.sh\n```\n\n> [!NOTE]\n> - 您可以使用脚本[verl\u002Fdata\u002Fpreprocess.py](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Fblob\u002Fmain\u002Fverl\u002Fdata\u002Fpreprocess.py)将数据从`JSON`格式转换为`Parquet`格式，以便使用verl进行训练。\n> - 我们在[verl\u002Fexamples\u002Fttrl](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Ftree\u002Fmain\u002Fverl\u002Fexamples\u002Fttrl)目录下提供了脚本，用于在多个模型和不同基准上运行TTRL。\n> - 如需了解更多关于代码的细节，请参阅[verl文档](https:\u002F\u002Fverl.readthedocs.io\u002Fen\u002Flatest\u002Findex.html)。\n\n此外，我们还使用代码预览版进行了三次独立运行。其中两次的pass@1（贪婪策略）达到了43.3，一次则达到了46.7。详情请参阅[Weights & Biases日志](https:\u002F\u002Fwandb.ai\u002Ftruman-yx-zuo-nlp\u002FTTRL\u002Fworkspace)。\n\n*所有实验均在8块NVIDIA A100 80GB GPU上进行。*\n\n\u003Cdetails>\n\u003Csummary>\n  伪代码\n\u003C\u002Fsummary>\n\nTTRL的实现只需简单修改奖励函数即可快速完成。具体细节请参见以下代码片段：\n\n\u003Cp align=\"center\">\n   \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_1ca734f213a6.png\" alt=\"多数投票奖励函数的伪代码。\" style=\"width: 60%;\">\n\u003C\u002Fp>\n\u003C\u002Fdetails>\n\n# 📨联系方式\n\n- 张凯燕：zhang-ky22@mails.tsinghua.edu.cn\n- 丁宁：dingning@mail.tsinghua.edu.cn\n\n# 🎈引用\n如果您觉得TTRL有所帮助，请引用我们的工作。\n\n```bibtex\n@article{zuo2025ttrl,\n  title={Ttrl: Test-time reinforcement learning},\n  author={Zuo, Yuxin and Zhang, Kaiyan and Sheng, Li and Qu, Shang and Cui, Ganqu and Zhu, Xuekai and Li, Haozhan and Zhang, Yuchen and Long, Xinwei and Hua, Ermo and others},\n  journal={arXiv preprint arXiv:2504.16084},\n  year={2025}\n}\n```\n\n# 🌟星标历史\n\n[![星标历史图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_readme_0a7d653bdbc0.png)](https:\u002F\u002Fwww.star-history.com\u002F#PRIME-RL\u002FTTRL&Date)","# TTRL 快速上手指南\n\nTTRL (Test-Time Reinforcement Learning) 是一个开源框架，旨在利用无标签的测试数据（如推理阶段数据），通过多数投票（Majority Voting）等机制构建奖励信号，对大语言模型进行在线强化学习训练，从而显著提升推理任务的性能。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python 版本**: 3.10\n*   **硬件要求**: 推荐使用 NVIDIA GPU (实验基于 8 x A100 80GB 进行，显存需求视模型大小而定)\n*   **前置依赖**:\n    *   Git\n    *   Conda (或 Mamba)\n    *   CUDA Toolkit (需与 PyTorch 版本匹配)\n\n> **国内加速建议**：\n> 建议使用国内镜像源加速依赖下载。\n> *   Conda: 使用清华源 (`https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fpkgs\u002Fmain\u002F`)\n> *   Pip: 使用阿里源 (`https:\u002F\u002Fmirrors.aliyun.com\u002Fpypi\u002Fsimple\u002F`) 或清华源\n\n## 安装步骤\n\n请依次执行以下命令克隆代码库并配置环境：\n\n```bash\n# 1. 克隆项目代码\ngit clone https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL.git\n\n# 2. 进入 verl 子目录 (TTRL 基于 verl 实现)\ncd TTRL\u002Fverl\n\n# 3. 创建并激活 Python 3.10 虚拟环境\nconda create -n ttrl python==3.10\nconda activate ttrl\n\n# 4. 安装项目依赖\n# 若下载缓慢，可先配置 pip 国内源：pip config set global.index-url https:\u002F\u002Fmirrors.aliyun.com\u002Fpypi\u002Fsimple\u002F\nbash scripts\u002Finstall_ttrl_deps.sh\n\n# 5. 以编辑模式安装 verl\u002Fttrl 包\npip install -e .\n```\n\n## 基本使用\n\n安装完成后，您可以直接运行示例脚本来复现 AIME 2024 基准测试上的结果（以 Qwen2.5 模型为例）：\n\n```bash\nbash examples\u002Fttrl\u002FQwen2.5\u002Faime.sh\n```\n\n### 自定义数据与模型\n\n*   **数据格式转换**：如果您有自己的 JSON 格式数据，可以使用提供的脚本将其转换为训练所需的 Parquet 格式：\n    ```bash\n    # 参考脚本路径\n    verl\u002Fdata\u002Fpreprocess.py\n    ```\n*   **更多示例**：`verl\u002Fexamples\u002Fttrl` 目录下提供了针对不同模型和基准测试的运行脚本，可根据需求修改配置。\n*   **详细文档**：更复杂的参数配置和高级用法请参考 [verl 官方文档](https:\u002F\u002Fverl.readthedocs.io\u002Fen\u002Flatest\u002Findex.html)。\n\n### 核心原理简述\nTTRL 的核心在于修改奖励函数。无需真实标签，它通过生成多个样本并进行多数投票（Majority Voting）来估算奖励值，从而驱动强化学习更新。您只需在配置中启用 `+ttrl.enable=True` (基于 verl v0.4.1+) 即可使用该功能。","某顶尖量化基金的研究团队正利用大语言模型自动解析无标准答案的实时金融新闻，以生成高频交易策略信号。\n\n### 没有 TTRL 时\n- **推理能力停滞**：面对从未见过的突发市场事件（如地缘政治冲突），模型仅能依赖训练时的旧知识，无法在推理阶段自我进化，导致策略滞后。\n- **缺乏有效反馈**：由于实时新闻没有“标准答案”，传统强化学习因缺失奖励信号而无法运行，团队只能被动接受模型的初始输出质量。\n- **集成成本高昂**：为提升准确率，不得不采用“多数投票”等测试时缩放（TTS）技术，需并行运行数十次推理，算力成本激增且延迟过高，无法满足毫秒级交易需求。\n- **长尾问题频发**：在处理复杂的多步逻辑推导时，模型容易陷入死胡同，一旦出错无法自我纠正，直接造成错误的交易指令。\n\n### 使用 TTRL 后\n- **实时自我优化**：TTRL 利用无标签测试数据，让模型在分析每条新闻的瞬间进行在线强化学习，动态适应最新的市场语境和逻辑模式。\n- **自动构建奖励**：巧妙地将“多数投票”结果转化为内部奖励信号，无需人工标注或真实标签，即可驱动模型在推理过程中不断调整参数。\n- **单次推理超越集成**：仅需单次前向传播，TTRL 就能让模型表现超越原本需要几十次投票才能达到的精度上限，大幅降低延迟和算力消耗。\n- **自主纠错机制**：在生成交易逻辑链时，模型能根据即时反馈识别并修正推理偏差，显著减少因逻辑断裂导致的误判，提升策略鲁棒性。\n\nTTRL 将大模型从“静态知识库”转变为“动态思考者”，在无监督的实时场景中实现了推理能力的自我跃迁。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPRIME-RL_TTRL_fb822b5c.png","PRIME-RL","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FPRIME-RL_fbf42880.jpg","Researching scalable (RL) methods on language models.",null,"https:\u002F\u002Fgithub.com\u002FPRIME-RL",[78,82,86,90],{"name":79,"color":80,"percentage":81},"Python","#3572A5",88.5,{"name":83,"color":84,"percentage":85},"Shell","#89e051",10.6,{"name":87,"color":88,"percentage":89},"Jupyter Notebook","#DA5B0B",0.9,{"name":91,"color":92,"percentage":93},"Makefile","#427819",0,1048,81,"2026-04-16T07:35:09","MIT",4,"Linux","必需，实验基于 8 x NVIDIA A100 80GB GPU 进行","未说明",{"notes":103,"python":104,"dependencies":105},"该工具基于 verl 框架实现，需先安装 verl 依赖。官方实验在 8 张 80GB 显存的 A100 显卡上运行，对显存要求极高。数据需预处理为 Parquet 格式方可训练。","3.10",[106,107],"verl (v0.4.1+)","conda",[14,35],[110,111,112],"llm","reasoning","rl","2026-03-27T02:49:30.150509","2026-04-17T08:25:17.365383",[116,121,126,131,136,141],{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},37310,"TTRL 直接在测试数据上训练是否违反了机器学习的评估原则？是否存在数据泄露？","TTRL 并不访问测试数据的真实标签（ground-truth labels），而是仅基于无标签数据通过多次采样和多数投票估计“伪标签”进行自我改进。这种设置属于“测试时训练”（Test-Time Training）范畴，已有相关研究支持。为了验证泛化能力，作者也在完全未见过的数据上进行了测试（参见论文图 3），结果表明模型并未过拟合到特定的测试集。","https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Fissues\u002F1",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},37311,"运行 TTRL 时需要哪些具体的 Python、PyTorch、CUDA 和 flash-attn 版本？","为解决依赖冲突问题，建议移除冲突的 psutil 版本（如 7.0.0, 6.1.0），将 numpy 升级为 2.2.0，并将 transformers 版本设置为 4.51.3。作者已重新生成并提供了完整的 requirements.txt 文件以供参考，用户可直接使用该文件安装环境以避免版本不兼容错误。","https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Fissues\u002F26",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},37312,"在 8 张 NVIDIA A100 80GB GPU 上运行 Qwen3-8B 模型时遇到显存不足（OOM）错误怎么办？","可以尝试以下配置调整来解决 OOM 问题：\n1. 添加参数 `actor_rollout_ref.rollout.layered_summon=True`。\n2. 如果仍然报错，可进一步启用 LoRA 微调，设置 `actor_rollout_ref.model.lora_rank=128` 和 `actor_rollout_ref.model.lora_alpha=128`。\n3. 尝试降低 `actor_rollout_ref.rollout.gpu_memory_utilization` 的值。\n4. 调整 `tensor_parallel_size` 参数（例如设为 2）也可能有帮助，但需结合新版代码（如 verl0.4.1）进行测试。","https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Fissues\u002F41",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},37313,"为什么论文中报告的基线模型（Baseline）性能低于其他来源给出的数值？","经过社区讨论和作者澄清，基线数值的差异并非故意低报或学术不端。作者在后续回复中确认会重新审视论文并结合最新研究（如关于 LLM 推理进展的批判性分析）来完善讨论框架。目前的共识是作者是诚实的，数值差异可能源于评估设置或提示工程的不同，建议读者结合相关复现性研究的视角来理解该工作。","https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Fissues\u002F30",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},37314,"运行脚本时出现\"Key 'reward_kwargs' is not in struct\"错误如何解决？","该错误通常是因为尝试直接覆盖配置结构中不存在的键。解决方法是在配置参数前加上 `+` 号以表示追加配置，例如将命令改为：`+reward_model.reward_kwargs.n_samples_per_prompt=32`。这样可以正确地将新键值对添加到配置字典中，而不是试图覆盖一个不存在的结构。","https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FTTRL\u002Fissues\u002F24",{"id":142,"question_zh":143,"answer_zh":144,"source_url":120},37315,"TTRL 中的 RL(leakage) 实验具体是指什么？它与 GRPO 有何关系？","论文中的 RL(leakage) 实验本质上是对比基于 GRPO 的 TTRL 方法与标准 GRPO 方法。在该设置下，规则奖励（rule-based reward）被替换为无标签的多数投票奖励（label-free majority voting reward）。这是一个非常有前景的研究方向，未来也可以探索将这两种奖励机制结合起来使用。",[146,151],{"id":147,"version":148,"summary_zh":149,"released_at":150},297877,"verl","基于 verl 的 TTRL 实现新版本。","2025-07-11T09:03:41",{"id":152,"version":153,"summary_zh":154,"released_at":155},297878,"OpenRLHF","基于 OpenRLHF 的 TTRL 实现初始版本。","2025-05-23T04:25:42"]