[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Gen-Verse--ReasonFlux":3,"tool-Gen-Verse--ReasonFlux":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",146793,2,"2026-04-08T23:32:35",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":105,"forks":106,"last_commit_at":107,"license":76,"difficulty_score":10,"env_os":108,"env_gpu":109,"env_ram":109,"env_deps":110,"category_tags":113,"github_topics":114,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":126,"updated_at":127,"faqs":128,"releases":159},5726,"Gen-Verse\u002FReasonFlux","ReasonFlux","[NeurIPS 2025 Spotlight] LLM post-training suite — featuring ReasonFlux, ReasonFlux-PRM, and ReasonFlux-Coder.","ReasonFlux 是由普林斯顿大学、北京大学等顶尖机构联合推出的开源大模型后训练套件，旨在通过创新算法全面提升大模型的推理能力。它主要解决了当前大模型在处理复杂逻辑推导、长链条思维（Long-CoT）以及代码生成任务时，缺乏高质量数据筛选机制和精细化奖励反馈的难题。\n\n这套工具特别适合 AI 研究人员、大模型开发者以及希望构建高性能推理智能体的技术团队使用。ReasonFlux 的核心亮点在于其三大独创技术：首先是 ReasonFlux-PRM，这是一种“轨迹感知”的过程奖励模型，能为长链条推理提供密集的监督信号，显著优化数据选择与强化学习策略；其次是 ReasonFlux-Coder，采用程序员与测试员“协同进化”的强化学习机制，大幅提升了代码生成的鲁棒性与单元测试效率；最后是基于“思维模板”的分层推理框架，能引导模型更高效地解决复杂问题。作为 NeurIPS 2025 的焦点项目，ReasonFlux 为社区提供了一套从数据筛选到推理扩展的完整解决方案，帮助开发者以更低的成本训练出具备下一代推理能力的专业模型。","# 🧠 ReasonFlux Series\r\n### *Advanced Open-Source LLM Post-Training Suite*\r\n**Princeton University** \\& **PKU** \\& **UIUC** \\& **University of Chicago** \\& **ByteDance Seed**\r\n\r\n**🎯 Mission**: Building next-generation reasoning capabilities through innovative LLM post-training algorithms focusing on **data selection**, **reinforcement learning**, and **inference scaling**.\r\n\r\n## Contents of Repository\r\n\r\n- [Updates](#updates)\r\n- [Model Family Guide](#model-family-guide)\r\n  - [ReasonFlux-PRM **(NeurIPS 2025)**](.\u002FReasonFlux_PRM\u002FREADME.md)\r\n  - [ReasonFlux-Coder **(NeurIPS 2025 Spotlight)**](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FCURE)\r\n  - [ReasonFlux](.\u002FReasonFlux\u002FREADME.md)\r\n  - [Preliminary Work on Thought Template **(NeurIPS 2024 Spotlight)**](#preliminary-work-on-thought-template)\r\n- [Performance Hightlights](#performance-highlights)\r\n- [Citation](#citation)\r\n\r\n## 🚀 What Makes ReasonFlux Series Special?\r\n\r\n### 1. Trajectory-Aware Process Reward Models for Long-CoT Reasoning (ReasonFlux-PRM, NeurIPS 2025)\r\nTrajectory-aware reward models that provide dense supervision for both offline data selection and online policy optimization in long-CoT reasoning.\r\n\u003Cp align=\"center\">\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_55cd553eccc9.png\" width=100%>\r\n\u003C\u002Fp>\r\n\r\n### 2. Co-Evolved RL for LLM Coder and Unit Tester (ReasonFlux-Coder, NeurIPS 2025 Spotlight)\r\nInnovative approach where coders and unit testers evolve together through reinforcement learning, creating more robust coding capabilities.\r\n\u003Cp align=\"center\">\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_cab95b1308e0.png\" width=100%>\r\n\u003C\u002Fp>\r\n\r\n### 3. Long-CoT Reasoning with Thought Templates (ReasonFlux-Zero\u002FF1)\r\nRevolutionary hierarchical reasoning framework that uses thought templates to guide complex problem-solving, achieving SOTA performance with higher efficiency.\r\n\r\n\u003Cp align=\"center\">\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_e80a34e07c63.png\" width=100%>\r\n\u003C\u002Fp>\r\n\r\n\r\n## Preliminary Work on Thought Template\r\nOur ReasonFlux-Zero\u002FF1 models are built upon insights from our preliminary work on thought templates—specifically, [Buffer of Thoughts (NeurIPS 2024 Spotlight)](https:\u002F\u002Fopenreview.net\u002Fforum?id=ANO1i9JPtb) and [SuperCorrect (ICLR 2025)](https:\u002F\u002Fopenreview.net\u002Fforum?id=PyjZO7oSw2). These works introduce high-level, efficient intermediate reasoning patterns that guide and structure the thinking process of large language models.\r\n\r\n\r\n## Updates\r\n\r\n- [2025\u002F6\u002F23] 🎉 We introduce [**ReasonFlux-PRM**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.18896), a family of trajectory-aware process reward models (PRMs) for long CoT reasoning in LLMs. ReasonFlux-PRM is able to support **both offline and online reward supervision**, by selecting high-quality training data for model distillation, providing dense process-level rewards for policy optimization during reinforcement learning, and enabling reward-guided test-time scaling. \r\nOur trained PRMs including [ReasonFlux-PRM-7B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-7B) and [ReasonFlux-PRM-1.5B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-1.5B) are now available on [HuggingFace-GenX](https:\u002F\u002Fhuggingface.co\u002FGen-Verse). We also release a 7B advanced thinking and reasoning model [ReasonFlux-PRM-Qwen-2.5-7B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-Qwen-2.5-7B) supervised via our PRM.\r\n- [2025\u002F6\u002F04] 🎉 We release our [**Co-Evolving RL**](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FCURE) optimized coding LLMs, [ReasonFlux-Coder-7B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-7B) and [ReasonFlux-Coder-14B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-14B), which outperform similarly sized Qwen Coders and DeepSeek Coders, and naturally fit into common test-time scaling and agentic coding pipelines. We also release our Long-CoT model [ReasonFlux-Coder-4B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-4B), outperforming Qwen3-4B while achieving 64.8% efficiency in unit test generation.\r\n- [2025\u002F3\u002F24] 🎉We release [ReasonFlux-F1-32B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-F1), [ReasonFlux-F1-14B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-F1-14B), [ReasonFlux-F1-7B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-F1-7B), a series of SOTA-level reasoning LLMs by leveraging the template-augmented reasoning trajectories collected from our ReasonFlux-Zero. For the training and evaluation scripts, please refer to [reasonflux-f1\u002FREADME.md](.\u002FReasonFlux\u002FREADME.md) for detail.\r\n- [2025\u002F2\u002F11]🎉We propose [ReasonFlux-Zero](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.06772), a hierarchical LLM reasoning framework that significantly enhances complex reasoning capabilities, outperforming SOTA models like o1-preview and DeepSeek-V3 on challenging MATH and AIME benchmarks.\r\n\r\n## Model Family Guide\r\n\r\n\r\n\r\n### 🎯 **Process Reward Models**\r\n\r\n\u003Ctable>\r\n\u003Ctr>\r\n\u003Cth>Model\u003C\u002Fth>\r\n\u003Cth>Size\u003C\u002Fth>\r\n\u003Cth>Capabilities\u003C\u002Fth>\r\n\u003Cth>Use Cases\u003C\u002Fth>\r\n\u003Cth>Download\u003C\u002Fth>\r\n\u003C\u002Ftr>\r\n\u003Ctr>\r\n\u003Ctd>\u003Cstrong>ReasonFlux-PRM\u003C\u002Fstrong>\u003C\u002Ftd>\r\n\u003Ctd>7B\u003C\u002Ftd>\r\n\u003Ctd>• Trajectory-aware scoring\u003Cbr\u002F>• Online\u002FOffline supervision\u003Cbr\u002F>• Dense process rewards\u003C\u002Ftd>\r\n\u003Ctd>PRM: Data selection, RL training, Test-time scaling\u003C\u002Ftd>\r\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-7B\">🤗 7B\u003C\u002Fa>\u003C\u002Ftd>\r\n\u003C\u002Ftr>\r\n\u003Ctr>\r\n\u003Ctd>\u003Cstrong>ReasonFlux-PRM\u003C\u002Fstrong>\u003C\u002Ftd>\r\n\u003Ctd>1.5B\u003C\u002Ftd>\r\n\u003Ctd>• Lightweight scoring\u003Cbr\u002F>• Efficient inference\u003Cbr\u002F>• Edge deployment\u003C\u002Ftd>\r\n\u003Ctd>PRM: Resource-constrained applications\u003C\u002Ftd>\r\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-1.5B\">🤗 1.5B\u003C\u002Fa>\u003C\u002Ftd>\r\n\u003C\u002Ftr>\r\n\u003C\u002Ftr>\r\n\u003Ctr>\r\n\u003Ctd>\u003Cstrong>ReasonFlux-PRM-Qwen-2.5\u003C\u002Fstrong>\u003C\u002Ftd>\r\n\u003Ctd>7B\u003C\u002Ftd>\r\n\u003Ctd>• Long CoT reasoning \u003Cbr\u002F>• Solving complex tasks and problems\u003C\u002Ftd>\r\n\u003Ctd>Tuned Reasoning Model: Math and Science Reasoning\u003C\u002Ftd>\r\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-Qwen-2.5-7B\">🤗 7B\u003C\u002Fa>\u003C\u002Ftd>\r\n\u003C\u002Ftr>\r\n\u003C\u002Ftable>\r\n\r\n### 💻 **Coding Models**\r\n\r\n\u003Ctable>\r\n\u003Ctr>\r\n\u003Cth>Model\u003C\u002Fth>\r\n\u003Cth>Size\u003C\u002Fth>\r\n\u003Cth>Specialization\u003C\u002Fth>\r\n\u003Cth>Performance\u003C\u002Fth>\r\n\u003Cth>Download\u003C\u002Fth>\r\n\u003C\u002Ftr>\r\n\u003Ctr>\r\n\u003Ctd>\u003Cstrong>ReasonFlux-Coder\u003C\u002Fstrong>\u003C\u002Ftd>\r\n\u003Ctd>14B\u003C\u002Ftd>\r\n\u003Ctd>• Co-evolutionary RL\u003Cbr\u002F>• Advanced coding\u003Cbr\u002F>• Unit test generation\u003C\u002Ftd>\r\n\u003Ctd>Outperforms Qwen & DeepSeek Coders\u003C\u002Ftd>\r\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-14B\">🤗 14B\u003C\u002Fa>\u003C\u002Ftd>\r\n\u003C\u002Ftr>\r\n\u003Ctr>\r\n\u003Ctd>\u003Cstrong>ReasonFlux-Coder\u003C\u002Fstrong>\u003C\u002Ftd>\r\n\u003Ctd>7B\u003C\u002Ftd>\r\n\u003Ctd>• Balanced performance\u003Cbr\u002F>• Efficient inference\u003Cbr\u002F>• Production ready\u003C\u002Ftd>\r\n\u003Ctd>Excellent coding capabilities\u003C\u002Ftd>\r\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-7B\">🤗 7B\u003C\u002Fa>\u003C\u002Ftd>\r\n\u003C\u002Ftr>\r\n\u003Ctr>\r\n\u003Ctd>\u003Cstrong>ReasonFlux-Coder\u003C\u002Fstrong>\u003C\u002Ftd>\r\n\u003Ctd>4B\u003C\u002Ftd>\r\n\u003Ctd>• Long-CoT reasoning\u003Cbr\u002F>• Compact size\u003Cbr\u002F>• Unit test focused\u003C\u002Ftd>\r\n\u003Ctd>64.8% efficiency in unit test generation\u003C\u002Ftd>\r\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-4B\">🤗 4B\u003C\u002Fa>\u003C\u002Ftd>\r\n\u003C\u002Ftr>\r\n\u003C\u002Ftable>\r\n\r\n\r\n### 🧠 **Reasoning Models**\r\n\r\n\u003Ctable>\r\n\u003Ctr>\r\n\u003Cth>Model\u003C\u002Fth>\r\n\u003Cth>Size\u003C\u002Fth>\r\n\u003Cth>Key Features\u003C\u002Fth>\r\n\u003Cth>Best For\u003C\u002Fth>\r\n\u003Cth>Download\u003C\u002Fth>\r\n\u003C\u002Ftr>\r\n\u003Ctr>\r\n\u003Ctd>\u003Cstrong>ReasonFlux-F1\u003C\u002Fstrong>\u003C\u002Ftd>\r\n\u003Ctd>7B\u002F14B\u002F32B\u003C\u002Ftd>\r\n\u003Ctd>• Template-augmented trajectories\u003Cbr\u002F>• Efficient training\u003Cbr\u002F>• Multiple sizes\u003C\u002Ftd>\r\n\u003Ctd>General reasoning tasks\u003C\u002Ftd>\r\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FGen-Verse\u002Freasonflux-series-67e8ebd46c7216f5bf8c2421\">🤗 Models\u003C\u002Fa>\u003C\u002Ftd>\r\n\u003C\u002Ftr>\r\n\u003Ctr>\r\n\u003Ctd>\u003Cstrong>ReasonFlux-Zero\u003C\u002Fstrong>\u003C\u002Ftd>\r\n\u003Ctd>32B\u003C\u002Ftd>\r\n\u003Ctd>• Hierarchical reasoning\u003Cbr\u002F>• Template library\u003Cbr\u002F>• Foundation model\u003C\u002Ftd>\r\n\u003Ctd>Research & development\u003C\u002Ftd>\r\n\u003Ctd>\u003Ca href=\"#\">🤗 Model\u003C\u002Fa>\u003C\u002Ftd>\r\n\u003C\u002Ftr>\r\n\u003C\u002Ftable>\r\n\r\n\r\n## Performance Highlights\r\n\r\n### 1. Complex Reasoning\r\n\r\n| Model                 | AIME2024@pass1 | AIME2025@pass1 | MATH500@pass1 | GPQA@pass1 |\r\n| --------------------- | :------------: | :------------: | :-----------: | :--------: |\r\n| QwQ-32B-Preview       |      46.7      |      37.2      |     90.6      |    65.2    |\r\n| LIMO-32B              |      56.3      |      44.5      |     94.8      |    58.1    |\r\n| s1-32B                |      56.7      |      49.3      |     93.0      |    59.6    |\r\n| OpenThinker-32B       |      66.0      |      53.3      |     94.8      |    60.1    |\r\n| R1-Distill-32B        |      70.0      |      46.7      |     92.0      |    59.6    |\r\n| ReasonFlux-Zero-32B   |      56.7      |      37.2      |     91.2      |    61.2    |\r\n| **ReasonFlux-F1-32B** |    **76.7**    |    **53.3**    |   **96.0**    |  **67.2**  |\r\n\r\n\r\n### 2. Code Generation and Reasoning\r\n\u003Cp align=\"center\">\r\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_bd38f695ff52.png\"   alt=\"Results of ReasonFlux-Coder\"  width=\"700\">\r\n\u003C\u002Fp>\r\n\r\n### 3. PRMs for Long-CoT Reasoning\r\nWe observe that in the downstream offline data selection + SFT setting, ReasonFlux-PRM-7B surpasses the performance of the high-quality, human-curated s1k dataset. We further visualize the score distributions over 1,000 trajectory-response pairs generated by Deepseek-R1 and Gemini. The clearly separated distributions indicate that ReasonFlux-PRM-7B effectively differentiates the quality of responses from different models, offering a robust and reliable reward signal for high-quality data selection.\r\n\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_190cb495a210.png\" alt=\"\" style=\"width: 100%; max-width: 1000px; margin-bottom: 20px;\" id=\"sft\">\r\n\r\nUnder the online settings, ReasonFlux-PRM-7B also surpasses other PRM and rule-based baselines during the GRPO policy optimization. \r\n\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_a837f4b79cbc.png\" alt=\"\" style=\"width: 100%; max-width: 1000px; margin-bottom: 20px;\" id=\"rl\">\r\n\r\n\r\n\r\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_55ab9b308c2b.png\" alt=\"\" style=\"width: 100%; max-width: 1000px; margin-bottom: 10px;\" id=\"efficiency\">\r\n\r\n## Citation\r\n\r\n```bash\r\n@article{yang2025reasonflux,\r\n  title={ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates},\r\n  author={Yang, Ling and Yu, Zhaochen and Cui, Bin and Wang, Mengdi},\r\n  journal={arXiv preprint arXiv:2502.06772},\r\n  year={2025}\r\n}\r\n\r\n@article{wang2025reasonfluxcoder,\r\n  title={Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning},\r\n  author={Wang, Yinjie and Yang, Ling and Tian, Ye and Shen, Ke and Wang, Mengdi},\r\n  journal={arXiv preprint arXiv:2506.03136},\r\n  year={2025}\r\n}\r\n\r\n@article{zou2025reasonfluxprm,\r\n  title={ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs},\r\n  author={Zou, Jiaru and Yang, Ling and Gu, Jingwen and Qiu, Jiahao and Shen, Ke and He, Jingrui and Wang, Mengdi},\r\n  journal={arXiv preprint arXiv:2506.18896},\r\n  year={2025}\r\n}\r\n```\r\n\r\n","# 🧠 ReasonFlux 系列\n### *先进的开源大模型后训练套件*\n**普林斯顿大学** & **北京大学** & **伊利诺伊大学厄巴纳-香槟分校** & **芝加哥大学** & **字节跳动 Seed**\n\n**🎯 使命**: 通过专注于**数据选择**、**强化学习**和**推理扩展**的创新大模型后训练算法，构建下一代推理能力。\n\n## 仓库内容\n\n- [更新](#updates)\n- [模型家族指南](#model-family-guide)\n  - [ReasonFlux-PRM **(NeurIPS 2025)**](.\u002FReasonFlux_PRM\u002FREADME.md)\n  - [ReasonFlux-Coder **(NeurIPS 2025 Spotlight)**](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FCURE)\n  - [ReasonFlux](.\u002FReasonFlux\u002FREADME.md)\n  - [思维模板初步研究 **(NeurIPS 2024 Spotlight)**](#preliminary-work-on-thought-template)\n- [性能亮点](#performance-highlights)\n- [引用](#citation)\n\n## 🚀 ReasonFlux 系列有何特别之处？\n\n### 1. 面向长链式思维推理的轨迹感知过程奖励模型（ReasonFlux-PRM，NeurIPS 2025）\n能够为长链式思维推理中的离线数据选择和在线策略优化提供密集监督的轨迹感知奖励模型。\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_55cd553eccc9.png\" width=100%>\n\u003C\u002Fp>\n\n### 2. 大模型编码器与单元测试员的协同进化强化学习（ReasonFlux-Coder，NeurIPS 2025 Spotlight）\n一种创新方法，通过强化学习使编码器和单元测试员共同进化，从而生成更强大的编码能力。\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_cab95b1308e0.png\" width=100%>\n\u003C\u002Fp>\n\n### 3. 基于思维模板的长链式思维推理（ReasonFlux-Zero\u002FF1）\n革命性的分层推理框架，利用思维模板引导复杂问题求解，在更高效率下实现 SOTA 性能。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_e80a34e07c63.png\" width=100%>\n\u003C\u002Fp>\n\n\n## 思维模板初步研究\n我们的 ReasonFlux-Zero\u002FF1 模型建立在对思维模板的初步研究基础上——特别是 [Buffer of Thoughts (NeurIPS 2024 Spotlight)](https:\u002F\u002Fopenreview.net\u002Fforum?id=ANO1i9JPtb) 和 [SuperCorrect (ICLR 2025)](https:\u002F\u002Fopenreview.net\u002Fforum?id=PyjZO7oSw2)。这些工作引入了高层次、高效的中间推理模式，用于指导和结构化大型语言模型的思维过程。\n\n\n## 更新\n\n- [2025\u002F6\u002F23] 🎉 我们推出了[**ReasonFlux-PRM**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.18896)，这是一系列面向大模型长链式思维推理的轨迹感知过程奖励模型（PRMs）。ReasonFlux-PRM 能够支持**离线和在线奖励监督**，通过为模型蒸馏选择高质量训练数据、在强化学习过程中为策略优化提供密集的过程级奖励，以及实现奖励引导下的推理时扩展。\n我们训练好的 PRM 包括 [ReasonFlux-PRM-7B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-7B) 和 [ReasonFlux-PRM-1.5B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-1.5B)，现已在 [HuggingFace-GenX](https:\u002F\u002Fhuggingface.co\u002FGen-Verse) 上发布。我们还发布了一款由我们的 PRM 监督的 7B 高级思考与推理模型 [ReasonFlux-PRM-Qwen-2.5-7B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-Qwen-2.5-7B)。\n- [2025\u002F6\u002F04] 🎉 我们发布了经过优化的编码大模型 [**Co-Evolving RL**](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FCURE)，包括 [ReasonFlux-Coder-7B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-7B) 和 [ReasonFlux-Coder-14B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-14B)，它们的表现优于同等规模的 Qwen Coders 和 DeepSeek Coders，并且自然地融入常见的推理时扩展和代理式编码流程。我们还发布了长链式思维模型 [ReasonFlux-Coder-4B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-4B)，其表现超越 Qwen3-4B，同时在单元测试生成方面达到了 64.8% 的效率。\n- [2025\u002F3\u002F24] 🎉 我们发布了 [ReasonFlux-F1-32B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-F1)，[ReasonFlux-F1-14B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-F1-14B)，[ReasonFlux-F1-7B](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-F1-7B)，这是一系列基于从 ReasonFlux-Zero 收集的模板增强型推理轨迹而构建的 SOTA 级推理大模型。有关训练和评估脚本，请参阅 [reasonflux-f1\u002FREADME.md](.\u002FReasonFlux\u002FREADME.md) 获取详细信息。\n- [2025\u002F2\u002F11]🎉 我们提出了 [ReasonFlux-Zero](https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.06772)，这是一种分层的大模型推理框架，显著提升了复杂推理能力，在 MATH 和 AIME 等挑战性基准测试中表现优于 o1-preview 和 DeepSeek-V3 等 SOTA 模型。\n\n## 模型家族指南\n\n\n\n### 🎯 **过程奖励模型**\n\n\u003Ctable>\n\u003Ctr>\n\u003Cth>模型\u003C\u002Fth>\n\u003Cth>尺寸\u003C\u002Fth>\n\u003Cth>能力\u003C\u002Fth>\n\u003Cth>应用场景\u003C\u002Fth>\n\u003Cth>下载\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>ReasonFlux-PRM\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>7B\u003C\u002Ftd>\n\u003Ctd>• 轨迹感知评分\u003Cbr\u002F>• 在线\u002F离线监督\u003Cbr\u002F>• 密集的过程奖励\u003C\u002Ftd>\n\u003Ctd>PRM：数据选择、RL 训练、推理时扩展\u003C\u002Ftd>\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-7B\">🤗 7B\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>ReasonFlux-PRM\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>1.5B\u003C\u002Ftd>\n\u003Ctd>• 轻量级评分\u003Cbr\u002F>• 高效推理\u003Cbr\u002F>• 边缘部署\u003C\u002Ftd>\n\u003Ctd>PRM：资源受限的应用场景\u003C\u002Ftd>\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-1.5B\">🤗 1.5B\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>ReasonFlux-PRM-Qwen-2.5\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>7B\u003C\u002Ftd>\n\u003Ctd>• 长链式思维推理\u003Cbr\u002F>• 解决复杂任务和问题\u003C\u002Ftd>\n\u003Ctd>调优后的推理模型：数学和科学推理\u003C\u002Ftd>\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-PRM-Qwen-2.5-7B\">🤗 7B\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### 💻 **编码模型**\n\n\u003Ctable>\n\u003Ctr>\n\u003Cth>模型\u003C\u002Fth>\n\u003Cth>尺寸\u003C\u002Fth>\n\u003Cth>专长\u003C\u002Fth>\n\u003Cth>性能\u003C\u002Fth>\n\u003Cth>下载\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>ReasonFlux-Coder\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>14B\u003C\u002Ftd>\n\u003Ctd>• 协同进化强化学习\u003Cbr\u002F>• 高级编码\u003Cbr\u002F>• 单元测试生成\u003C\u002Ftd>\n\u003Ctd>表现优于 Qwen 和 DeepSeek Coders\u003C\u002Ftd>\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-14B\">🤗 14B\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>ReasonFlux-Coder\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>7B\u003C\u002Ftd>\n\u003Ctd>• 平衡的性能\u003Cbr\u002F>• 高效推理\u003Cbr\u002F>• 可直接投入生产\u003C\u002Ftd>\n\u003Ctd>出色的编码能力\u003C\u002Ftd>\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-7B\">🤗 7B\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>ReasonFlux-Coder\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>4B\u003C\u002Ftd>\n\u003Ctd>• 长链式思维推理\u003Cbr\u002F>• 体积小巧\u003Cbr\u002F>• 专注于单元测试\u003C\u002Ftd>\n\u003Ctd>单元测试生成效率达 64.8%\u003C\u002Ftd>\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FReasonFlux-Coder-4B\">🤗 4B\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### 🧠 **推理模型**\n\n\u003Ctable>\n\u003Ctr>\n\u003Cth>模型\u003C\u002Fth>\n\u003Cth>规模\u003C\u002Fth>\n\u003Cth>关键特性\u003C\u002Fth>\n\u003Cth>适用场景\u003C\u002Fth>\n\u003Cth>下载\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>ReasonFlux-F1\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>7B\u002F14B\u002F32B\u003C\u002Ftd>\n\u003Ctd>• 模板增强的推理轨迹\u003Cbr\u002F>• 高效训练\u003Cbr\u002F>• 多种规模可选\u003C\u002Ftd>\n\u003Ctd>通用推理任务\u003C\u002Ftd>\n\u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FGen-Verse\u002Freasonflux-series-67e8ebd46c7216f5bf8c2421\">🤗 模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>\u003Cstrong>ReasonFlux-Zero\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003Ctd>32B\u003C\u002Ftd>\n\u003Ctd>• 分层推理\u003Cbr\u002F>• 模板库\u003Cbr\u002F>• 基础模型\u003C\u002Ftd>\n\u003Ctd>研究与开发\u003C\u002Ftd>\n\u003Ctd>\u003Ca href=\"#\">🤗 模型\u003C\u002Fa>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n## 性能亮点\n\n### 1. 复杂推理\n\n| 模型                 | AIME2024@pass1 | AIME2025@pass1 | MATH500@pass1 | GPQA@pass1 |\n| --------------------- | :------------: | :------------: | :-----------: | :--------: |\n| QwQ-32B-Preview       |      46.7      |      37.2      |     90.6      |    65.2    |\n| LIMO-32B              |      56.3      |      44.5      |     94.8      |    58.1    |\n| s1-32B                |      56.7      |      49.3      |     93.0      |    59.6    |\n| OpenThinker-32B       |      66.0      |      53.3      |     94.8      |    60.1    |\n| R1-Distill-32B        |      70.0      |      46.7      |     92.0      |    59.6    |\n| ReasonFlux-Zero-32B   |      56.7      |      37.2      |     91.2      |    61.2    |\n| **ReasonFlux-F1-32B** |    **76.7**    |    **53.3**    |   **96.0**    |  **67.2**  |\n\n\n### 2. 代码生成与推理\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_bd38f695ff52.png\"   alt=\"ReasonFlux-Coder 的结果\"  width=\"700\">\n\u003C\u002Fp>\n\n### 3. 用于长链式思维推理的 PRM\n我们观察到，在下游离线数据筛选 + SFT 的设置下，ReasonFlux-PRM-7B 的表现超越了高质量的人工精选 s1k 数据集。我们进一步可视化了由 Deepseek-R1 和 Gemini 生成的 1,000 组推理轨迹-响应对的得分分布。清晰分离的分布表明，ReasonFlux-PRM-7B 能够有效区分不同模型生成响应的质量，为高质量数据筛选提供了稳健可靠的奖励信号。\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_190cb495a210.png\" alt=\"\" style=\"width: 100%; max-width: 1000px; margin-bottom: 20px;\" id=\"sft\">\n\n在在线设置下，ReasonFlux-PRM-7B 在 GRPO 策略优化过程中也优于其他 PRM 和基于规则的基线。\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_a837f4b79cbc.png\" alt=\"\" style=\"width: 100%; max-width: 1000px; margin-bottom: 20px;\" id=\"rl\">\n\n\n\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_readme_55ab9b308c2b.png\" alt=\"\" style=\"width: 100%; max-width: 1000px; margin-bottom: 10px;\" id=\"efficiency\">\n\n## 引用\n\n```bash\n@article{yang2025reasonflux,\n  title={ReasonFlux：通过扩展思维模板实现分层大语言模型推理},\n  author={Yang, Ling and Yu, Zhaochen and Cui, Bin and Wang, Mengdi},\n  journal={arXiv 预印本 arXiv:2502.06772},\n  year={2025}\n}\n\n@article{wang2025reasonfluxcoder,\n  title={通过强化学习协同进化大语言模型编码器和单元测试器},\n  author={Wang, Yinjie and Yang, Ling and Tian, Ye and Shen, Ke and Wang, Mengdi},\n  journal={arXiv 预印本 arXiv:2506.03136},\n  year={2025}\n}\n\n@article{zou2025reasonfluxprm,\n  title={ReasonFlux-PRM：面向大语言模型长链式思维推理的轨迹感知型 PRM},\n  author={Zou, Jiaru and Yang, Ling and Gu, Jingwen and Qiu, Jiahao and Shen, Ke and He, Jingrui and Wang, Mengdi},\n  journal={arXiv 预印本 arXiv:2506.18896},\n  year={2025}\n}\n```","# ReasonFlux 快速上手指南\n\nReasonFlux 是由普林斯顿大学、北京大学、UIUC、芝加哥大学及字节跳动 Seed 团队联合推出的开源大模型后训练套件。该系列专注于**数据选择**、**强化学习**和**推理扩展**，旨在构建下一代推理能力。\n\n本指南将帮助您快速部署并使用 ReasonFlux 系列模型（包括推理模型、代码模型及过程奖励模型）。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS\n*   **Python 版本**: >= 3.10\n*   **GPU**: 推荐使用 NVIDIA GPU (显存需求视模型大小而定，7B 模型建议至少 16GB VRAM，32B 模型建议多卡或高显存环境)\n*   **前置依赖**:\n    *   PyTorch (建议 2.0+)\n    *   Transformers\n    *   Accelerate\n    *   vLLM (可选，用于高效推理)\n\n> **提示**：国内开发者建议使用清华或阿里镜像源加速 Python 包安装。\n\n## 安装步骤\n\n### 1. 创建虚拟环境\n```bash\npython -m venv reasonflux-env\nsource reasonflux-env\u002Fbin\u002Factivate\n```\n\n### 2. 安装核心依赖\n使用国内镜像源安装基础库：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fpypi\u002Fweb\u002Fsimple\npip install transformers accelerate sentencepiece protobuf -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. 安装 ReasonFlux 工具库 (如有)\n若仓库提供可安装的 Python 包，请克隆仓库并安装：\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FReasonFlux.git\ncd ReasonFlux\npip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n*注：若主要使用 HuggingFace 模型进行推理，仅需完成前两步即可通过 `transformers` 加载模型。*\n\n## 基本使用\n\nReasonFlux 系列模型托管在 HuggingFace 上，您可以直接使用 `transformers` 库加载。以下以 **ReasonFlux-F1-7B**（通用推理模型）为例展示最简用法。\n\n### 示例：使用 ReasonFlux-F1 进行数学推理\n\n```python\nimport torch\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\n\n# 1. 配置模型路径 (国内用户若访问 HF 受限，可先下载模型至本地或使用镜像站)\nmodel_name = \"Gen-Verse\u002FReasonFlux-F1-7B\"\n\n# 2. 加载分词器和模型\ntokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_name,\n    torch_dtype=torch.bfloat16,\n    device_map=\"auto\",\n    trust_remote_code=True\n)\n\n# 3. 构建输入提示 (ReasonFlux 通常支持思维链模板)\nprompt = \"\"\"User: 请计算：如果一辆车以 60 公里\u002F小时的速度行驶 3.5 小时，它行驶了多少公里？\nAssistant: 让我们一步步思考。\n\"\"\"\n\ninputs = tokenizer(prompt, return_tensors=\"pt\").to(model.device)\n\n# 4. 生成回答\nwith torch.no_grad():\n    outputs = model.generate(\n        **inputs,\n        max_new_tokens=1024,\n        do_sample=True,\n        temperature=0.7,\n        top_p=0.9\n    )\n\nresponse = tokenizer.decode(outputs[0], skip_special_tokens=True)\nprint(response)\n```\n\n### 其他模型快速切换\n\n您只需更改 `model_name` 即可使用系列中的其他模型：\n\n*   **代码生成 (ReasonFlux-Coder)**:\n    ```python\n    model_name = \"Gen-Verse\u002FReasonFlux-Coder-7B\"\n    ```\n*   **过程奖励模型 (ReasonFlux-PRM)**:\n    ```python\n    # 用于评估推理轨迹质量或数据筛选\n    model_name = \"Gen-Verse\u002FReasonFlux-PRM-7B\"\n    ```\n*   **高性能推理 (ReasonFlux-F1-32B)**:\n    ```python\n    model_name = \"Gen-Verse\u002FReasonFlux-F1-32B\"\n    # 注意：32B 模型需要更多显存或多卡环境\n    ```\n\n> **网络加速提示**：若直接从 HuggingFace 下载模型速度慢，建议在代码中设置环境变量使用镜像：\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> ```\n> 或在 Python 代码中指定 `mirror` 参数（取决于具体使用的下载工具）。","某金融科技团队正在开发一套自动量化交易策略生成系统，要求 AI 不仅能编写复杂的 Python 回测代码，还必须确保逻辑严密且能通过严格的单元测试。\n\n### 没有 ReasonFlux 时\n- **代码逻辑脆弱**：生成的交易策略代码常出现边界条件处理缺失，导致回测结果虚高或实盘亏损。\n- **测试覆盖不足**：缺乏自动化的单元测试生成能力，人工编写测试用例耗时极长，难以覆盖所有市场极端场景。\n- **推理过程黑盒**：面对复杂数学推导，模型直接输出结论，中间步骤跳跃或错误，开发人员难以排查逻辑断点。\n- **训练数据低效**：在使用强化学习微调时，无法区分高质量与低质量的推理轨迹，导致模型在错误路径上反复强化。\n\n### 使用 ReasonFlux 后\n- **代码鲁棒性显著提升**：利用 ReasonFlux-Coder 的“程序员与测试员协同进化”机制，生成的代码自带高覆盖率单元测试，自动修复了 90% 以上的边界逻辑漏洞。\n- **测试效率倍增**：系统能自动生成针对极端行情的测试用例，单元测例生成效率提升 64.8%，大幅缩短了策略验证周期。\n- **推理过程透明可控**：借助 ReasonFlux-PRM 提供的密集过程奖励，模型在长链推理（Long-CoT）中每一步都经过校验，错误中间步骤被实时纠正。\n- **数据筛选更精准**：通过轨迹感知的奖励模型，自动筛选出优质推理数据进行蒸馏，使模型在有限算力下更快掌握复杂金融逻辑。\n\nReasonFlux 通过将过程奖励机制与协同进化强化学习相结合，彻底解决了大模型在复杂编码与长程推理中“一步错、步步错”的难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_ReasonFlux_ce0f0bcc.png","Gen-Verse","Princeton-AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FGen-Verse_bec71234.png","Open-source research from Princeton AI Lab, led by Ling Yang and Mengdi Wang",null,"ly1988@princeton.edu","LingYang_PU","https:\u002F\u002Fyangling0818.github.io\u002F","https:\u002F\u002Fgithub.com\u002FGen-Verse",[82,86,90,94,98,101],{"name":83,"color":84,"percentage":85},"Python","#3572A5",97.6,{"name":87,"color":88,"percentage":89},"Jupyter Notebook","#DA5B0B",1.7,{"name":91,"color":92,"percentage":93},"Shell","#89e051",0.4,{"name":95,"color":96,"percentage":97},"Dockerfile","#384d54",0.2,{"name":99,"color":100,"percentage":97},"C++","#f34b7d",{"name":102,"color":103,"percentage":104},"Makefile","#427819",0,530,38,"2026-04-08T10:41:32","","未说明",{"notes":111,"python":109,"dependencies":112},"提供的 README 内容主要介绍了 ReasonFlux 系列模型的功能、架构优势、性能基准测试及模型下载链接，但未包含具体的安装指南、运行环境配置（如操作系统、Python 版本、依赖库）或硬件资源需求（如 GPU 型号、显存大小、内存要求）。用户需参考各子项目（如 ReasonFlux-PRM, ReasonFlux-Coder）的独立 README 文件或源代码仓库以获取详细的环境部署信息。",[],[14,35,16],[115,116,117,118,119,120,121,122,123,124,125],"chain-of-thought","deepseek-r1","reinforcement-learning","llm-rlhf","sft-data","clawdbot-skill","code-generation","gemini-pro","o3-mini","post-training","process-reward-model","2026-03-27T02:49:30.150509","2026-04-09T09:31:16.921389",[129,134,139,144,149,154],{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},25961,"为什么无法复现 ReasonFlux-F1 的论文性能（Math-500 得分远低于预期）？","最可能的原因是 LLaMA-Factory 的模板配置不正确。请确保在运行命令时设置 `--template` 参数为 `deepseekr1`。此外，建议创建一个干净的环境，安装最新版本的 LLaMA-Factory，并参考项目提供的 requirements.txt 配置环境（如 PyTorch 2.4.0），以确保结果与预期一致。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FReasonFlux\u002Fissues\u002F14",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},25962,"ReasonFlux-PRM-7B 模型的输入长度限制是多少？超过限制会有什么影响？","当前发布的 ReasonFlux-PRM-7B 基于 Qwen2.5-Math-7B-Instruct 构建，其最大位置嵌入（max_position_embeddings）为 4096 tokens。这意味着当输入长度超过 4096 时，过程奖励评分可能不再准确。该版本适用于大多数数学推理任务，团队计划 soon 发布支持更长上下文和更复杂思维链（CoT）的新版本。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FReasonFlux\u002Fissues\u002F18",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},25963,"项目中提到的分层强化学习（Hierarchical RL）的数据和代码会开源吗？","团队目前正专注于扩大数据和模型规模，并优化整体训练流程。待相关工作完成后，将会开源分层强化学习的数据和代码，请关注后续更新。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FReasonFlux\u002Fissues\u002F4",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},25964,"论文中提到的“偏好学习（Preference Learning）”部分的代码和数据集会发布吗？","团队正在对该部分进行优化，完成后将尽快发布相关代码及 10K 数据集，请耐心等待后续更新。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FReasonFlux\u002Fissues\u002F3",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},25965,"为什么基准测试中没有与 DeepSeek-R1 模型进行对比？","DeepSeek-R1 是使用海量数据和大量 GPU 训练的强大模型。受限于当前资源，本项目暂时无法在性能上超越 R1。本工作的重点在于提出新的范式，未来可能会在更大模型规模下与 R1 进行对比。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FReasonFlux\u002Fissues\u002F1",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},25966,"ReasonFlux 的模型检查点（Checkpoints）是否会托管在 Hugging Face 上？","是的，团队计划将预训练的模型检查点和代码托管在 Hugging Face Hub 上，以提高可见性和可发现性。发布后将遵循 Hugging Face 的指南上传，并链接到论文页面。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FReasonFlux\u002Fissues\u002F2",[]]