[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-TideDra--lmm-r1":3,"tool-TideDra--lmm-r1":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,2,"2026-04-10T11:32:46",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":78,"owner_website":78,"owner_url":79,"languages":80,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":10,"env_os":96,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":109,"github_topics":78,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":111,"updated_at":112,"faqs":113,"releases":143},6296,"TideDra\u002Flmm-r1","lmm-r1","Extend OpenRLHF to support LMM RL training for reproduction of DeepSeek-R1 on multimodal tasks.","lmm-r1 是一个专为提升小型多模态大模型（LMM）推理能力而设计的开源强化学习框架。它基于 OpenRLHF 扩展而来，旨在让参数量仅为 3B 的轻量级模型也能具备媲美大型模型的复杂逻辑推理水平。\n\n当前，小型多模态模型常因参数量有限及高质量图文推理数据稀缺，难以有效结合视觉感知与逻辑推导。lmm-r1 通过独特的“两阶段基于规则的强化学习”策略解决了这一难题：首先利用纯文本数据进行“基础推理增强”，夯实逻辑根基；随后进行“多模态泛化训练”，将推理能力迁移至图像理解任务。这种方法不仅降低了对昂贵多模态标注数据的依赖，还显著提升了模型在几何解题、空间规划等任务上的表现。\n\n该工具特别适合 AI 研究人员和开发者使用，尤其是那些希望在有限算力资源下复现 DeepSeek-R1 效果，或致力于探索小模型多模态推理潜力的团队。其技术亮点在于高效的数据利用率和模块化设计，代码库已合并至官方的 OpenRLHF-M 项目，支持 vLLM 加速，并提供了从数据准备到模型训练的完整流程，帮助用户轻松上手并进行二次开发。","\u003Cdiv align=\"center\">\n    \u003Cimg alt=\"LMM-R1 logo\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_625d890f1efd.png\" style=\"height: 140px;\" \u002F>\n\u003C\u002Fdiv>\n\n# LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities\n\n\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fgraphs\u002Fcontributors\">\n        \u003Cimg alt=\"GitHub Contributors\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcontributors\u002FTideDra\u002Flmm-r1\" \u002F>\n      \u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fissues\">\n        \u003Cimg alt=\"Issues\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FTideDra\u002Flmm-r1?color=0088ff\" \u002F>\n      \u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fdiscussions\">\n        \u003Cimg alt=\"Issues\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdiscussions\u002FTideDra\u002Flmm-r1?color=0088ff\" \u002F>\n      \u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fpulls\">\n        \u003Cimg alt=\"GitHub pull requests\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002FTideDra\u002Flmm-r1?color=0088ff\" \u002F>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fstargazers\">\n        \u003Cimg alt=\"GitHub stars\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FTideDra\u002Flmm-r1?color=ccf\" \u002F>\n      \u003C\u002Fa>\n      \u003Cbr>\n      \u003Cem>Open-source \u002F Comprehensive \u002F Lightweight \u002F Easy-to-use\u003C\u002Fem>\n    \u003C\u002Fp>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n\u003Chr>\n\n[![🤗 HF Dataset](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVLM-Reasoner\u002FVerMulti) [![🤗 HF Model](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗-Model-blue)](https:\u002F\u002Fhuggingface.co\u002FVLM-Reasoner\u002FLMM-R1-MGT-PerceReason) [![📄 Paper](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄-Paper-green)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07536) [![🌐 Project Page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐-Project_Page-purple)](https:\u002F\u002Fforjadeforest.github.io\u002FLMM-R1-ProjectPage\u002F)\n\n[Switch to the Chinese version (切换至中文版)](\u002FREADME_zh.md)\n\n## News\n- [2025\u002F3\u002F11] 🚀 Our codebase is merged into [OpenRLHF-M](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF-M), the official multimodal RL infrastructure developed by OpenRLHF.\n- [2025\u002F3\u002F11] ✨ We release our paper \"[LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07536)\"!\n\n- [2025\u002F2\u002F13] We release code of LMM-R1!\n\n## Introduction\n\nSmaller 3B Large Multimodal Models (LMMs) struggle with reasoning tasks due to their limited parameter capacity and the inherent complexity of integrating visual perception with logical reasoning. High-quality multimodal reasoning data is also scarce, further complicating training. To address these challenges, we propose **LMM-R1**, a two-stage rule-based RL framework that efficiently enhances reasoning capabilities:\n\n1. **Foundational Reasoning Enhancement (FRE)**: Uses text-only data to build strong reasoning foundations\n2. **Multimodal Generalization Training (MGT)**: Extends these capabilities to multimodal domains\n\nThis approach overcomes data limitations while significantly improving performance across diverse reasoning tasks.\n\n![pipeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_d11d2a5a11b2.jpg)\n## Demo\n**Geometry Question:**\n\n![motivation](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_10662cf3fbcd.png)\n\n**Sokoban Demo:**\n\n![sobokan_deom](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_d9f7b8828265.gif)\n \n## Quick Start\n\n### Installation\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1.git\ncd lmm-r1\npip install -e .[vllm]\npip install flash_attn --no-build-isolation\n```\n\n> [!NOTE]\n>We recommend using vLLM 0.7.2 or higher.\n>We also provided the [Dockerfiles for vLLM](.\u002Fdockerfile\u002F) and [One-Click Installation Script of Nvidia-Docker](.\u002Fexamples\u002Fscripts\u002Fnvidia_docker_install.sh).\n\n### Prepare Datasets\n\nLMM-R1 requires the multimodal prompt dataset to be in OpenAI-compatible message format:\n```json\n[\n  {\n    \"message\":\"[\n      {\n        \\\"role\\\": \\\"user\\\",\n        \\\"content\\\": [\n            { \\\n                \\\"type\\\": \\\"image\\\",\n                \\\"image\\\": \\\"file:\u002F\u002F\u002Fpath\u002Fto\u002Fyour\u002Fimage.jpg\\\",\n            }, \\\n            {\\\"type\\\": \\\"text\\\", \\\"text\\\": \\\"How many cats in the image?\\\"},\n        ],\n      }\n    ]\",\n    \"answer\": \"$3$\"\n  },\n]\n```\n**Note that message is a stringfied list.**\nAn example dataset `examples\u002Fdata\u002Ftest_message.jsonl` is for reference.\n\n- We can use `--input_key` to specify the `JSON key name` of the input datasets `--prompt_data {name or path}` (PPO) or `--dataset {name or path}`. **Do not** use `--apply_chat_template` for multimodal prompt, the message will be processed internally.\n- OpenRLHF also support mixing multiple datasets using `--prompt_data_probs 0.1,0.4,0.5` (PPO) or `--dataset_probs 0.1,0.4,0.5`.\n\n### Training\n\nOur training process follows the two-stage approach described in the paper. We provide scripts for each stage to facilitate reproduction of our results.\n\n#### Stage 1: Foundational Reasoning Enhancement (FRE)\n\nThis stage focuses on enhancing the model's reasoning capabilities using text-only data.\n\n```bash\n# Train with text-only data (FRE-Text)\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_fre_text.sh\n\n# Train with multimodal data (FRE-Multi) for comparison\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_fre_multi.sh\n```\n\nThe FRE-Text script uses the [DeepScaler-40K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVLM-Reasoner\u002Fdeepscaler) dataset with rule-based RL to enhance the model's foundational reasoning capabilities. This stage is crucial for establishing strong reasoning abilities before moving to multimodal tasks.\n\n#### Stage 2: Multimodal Generalization Training (MGT)\n\nThis stage extends the reasoning capabilities to multimodal domains through continued training on specific tasks.\n\n```bash\n# Train on geometry domain (MGT-Geo)\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_mgt_geo.sh\n\n# Train on perception-reasoning balanced domain (MGT-PerceReason)\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_mgt_percereas.sh\n```\n\nEach MGT script continues training from the FRE-Text checkpoint, focusing on a specific domain:\n- **MGT-Geo**: Uses [VerMulti-Geo](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVLM-Reasoner\u002FVerMulti) dataset (15K geometry problems) to enhance geometric reasoning\n- **MGT-PerceReason**: Uses the full [VerMulti](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVLM-Reasoner\u002FVerMulti) dataset to balance perception and reasoning capabilities.\n\nWe release our final model, [MGT-PerceReason](https:\u002F\u002Fhuggingface.co\u002FVLM-Reasoner\u002FLMM-R1-MGT-PerceReason).\n\n#### Direct RL Training (for comparison)\n\nWe also provide scripts for direct RL training without the FRE stage, which we use as comparison baselines in our paper:\n\n```bash\n# Direct RL training on geometry domain\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_direct_rl_geo.sh\n```\n\nThese scripts train the baseline model directly on domain-specific data, skipping the FRE stage, which helps demonstrate the effectiveness of our two-stage approach.\n\n## Features\n\n\nLMM-R1 is a fork of [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF), aimed at providing high-performance LMM Reinforcement Learning infrastructure for enhancing multimodal reasoning capabilities. We currently support PPO\u002FREINFORCE++\u002FRLOO training for LMM, and achieve 4.7x speedup (RLOO) compared with [R1-V](https:\u002F\u002Fgithub.com\u002FDeep-Agent\u002FR1-V) (GRPO).\n\n![time_compare](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_6e6ceffb3e39.jpg)\n\n\n- Support LMM training (Qwen2.5-VL, Phi3.5-V, Phi4-Multimodal).\n- Distributed [PPO](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_ray.sh) and [REINFORCE++\u002FRLOO](.\u002Fexamples\u002Fscripts\u002Ftrain_reinforce_llama_ray.sh) implementations based on Ray.  \n- [Ray-based Reinforced Finetuning](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_with_reward_fn.sh)\n- Support Ray-based [PPO](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_ray_hybrid_engine.sh) and [REINFORCE++\u002FRLOO](.\u002Fexamples\u002Fscripts\u002Ftrain_reinforce_llama_ray_hybrid_engine.sh) using Hybrid Engine  (`--colocate_all_models`, `--vllm_enable_sleep` and `--vllm_gpu_memory_utilization 0.5`)\n- Full RLHF fine-tuning support for models with [over 70 billion parameters](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_ray_70b.sh).  \n- Integration with vLLM for accelerated generation in RLHF tasks (`--vllm_num_engines`).  \n- Support for multiple reward models (`--reward_pretrain model1,model2...`) and remote reward models (`--remote_rm_url`).\n- Integration of FlashAttention2 (`--flash_attn`).  \n- Support for QLoRA (`--load_in_4bit`) and [LoRA](.\u002Fexamples\u002Fscripts\u002Ftrain_sft_mixtral_lora.sh) (`--lora_rank`, `--target_modules`).  \n- Logging support with Wandb (`--use_wandb`) and TensorBoard (`--use_tensorboard`).  \n- Checkpoint recovery functionality (`--load_checkpoint` and `--save_steps`).  \n- Provided multi-node training scripts, such as [Ray PPO](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_ray_slurm.sh).\n\n## References & Acknowledgements\nWe sincerely thank [DeepSeek](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1) for their exploration on LLM reasoning, and [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF) for their incredible RL infrastructure. We also thank [open-r1](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fopen-r1) and [simpleRL-reason](https:\u002F\u002Fgithub.com\u002Fhkust-nlp\u002FsimpleRL-reason) which give us insights on reproduction of R1. Yingzhe Peng's work was completed during his internship at Ant Group, and Kai Yang is his intern mentor. Special thanks to [Kai Yang](https:\u002F\u002Fgithub.com\u002Fyangkai798), [Jie Liu](https:\u002F\u002Fjieliu.site\u002F), [ZhiYuan You](https:\u002F\u002Fzhiyuanyou.github.io\u002F) for their valuable suggestions, and [the Big Data Computing Center of Southeast University](https:\u002F\u002Fbdcc.seu.edu.cn\u002F) for the hardware support.\n\n- [DeepSeek](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1) \n- [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF)\n- [open-r1](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fopen-r1)\n- [simpleRL-reason](https:\u002F\u002Fgithub.com\u002Fhkust-nlp\u002FsimpleRL-reason)\n\n## Citation\nIf you find LMM-R1 useful for your research and applications, please cite using this BibTeX:\n\n```bib\n@article{peng2025lmmr1,\n  title={LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL},\n  author={Peng, Yingzhe and Zhang, Gongrui and Zhang, Miaosen and You, Zhiyuan and Liu, Jie and Zhu, Qipeng and Yang, Kai and Xu, Xingzhong and Geng, Xin and Yang, Xu},\n  journal={arXiv preprint arXiv:2503.07536},\n  year={2025}\n}\n```\n\n","\u003Cdiv align=\"center\">\n    \u003Cimg alt=\"LMM-R1 logo\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_625d890f1efd.png\" style=\"height: 140px;\" \u002F>\n\u003C\u002Fdiv>\n\n# LMM-R1：通过强大的推理能力赋能3B规模的多模态大模型\n\n\u003Cdiv align=\"center\">\n\u003Cp align=\"center\">\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fgraphs\u002Fcontributors\">\n        \u003Cimg alt=\"GitHub Contributors\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fcontributors\u002FTideDra\u002Flmm-r1\" \u002F>\n      \u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fissues\">\n        \u003Cimg alt=\"Issues\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002FTideDra\u002Flmm-r1?color=0088ff\" \u002F>\n      \u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fdiscussions\">\n        \u003Cimg alt=\"Discussions\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fdiscussions\u002FTideDra\u002Flmm-r1?color=0088ff\" \u002F>\n      \u003C\u002Fa>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fpulls\">\n        \u003Cimg alt=\"Pull Requests\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002FTideDra\u002Flmm-r1?color=0088ff\" \u002F>\n      \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fstargazers\">\n        \u003Cimg alt=\"GitHub Stars\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FTideDra\u002Flmm-r1?color=ccf\" \u002F>\n      \u003C\u002Fa>\n      \u003Cbr>\n      \u003Cem>开源 \u002F 全面 \u002F 轻量 \u002F 易用\u003C\u002Fem>\n    \u003C\u002Fp>\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n\u003Chr>\n\n[![🤗 HF 数据集](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVLM-Reasoner\u002FVerMulti) [![🤗 HF 模型](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗-Model-blue)](https:\u002F\u002Fhuggingface.co\u002FVLM-Reasoner\u002FLMM-R1-MGT-PerceReason) [![📄 论文](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📄-Paper-green)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07536) [![🌐 项目页面](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🌐-Project_Page-purple)](https:\u002F\u002Fforjadeforest.github.io\u002FLMM-R1-ProjectPage\u002F)\n\n[切换至中文版](\u002FREADME_zh.md)\n\n## 最新消息\n- [2025年3月11日] 🚀 我们的代码库已合并到由OpenRLHF开发的官方多模态强化学习基础设施[OpenRLHF-M](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF-M)中。\n- [2025年3月11日] ✨ 我们发布了论文《LMM-R1：通过两阶段基于规则的强化学习赋能3B规模多模态大模型的强大推理能力》（https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.07536）！\n\n- [2025年2月13日] 我们正式发布了LMM-R1的代码！\n\n## 简介\n\n较小的3B规模多模态大模型（LMM）由于参数容量有限，且将视觉感知与逻辑推理相结合的复杂性较高，因此在推理任务上表现欠佳。此外，高质量的多模态推理数据稀缺，进一步增加了训练难度。为应对这些挑战，我们提出了**LMM-R1**——一个高效的两阶段基于规则的强化学习框架，用于提升模型的推理能力：\n\n1. **基础推理增强（FRE）**：利用纯文本数据构建坚实的推理基础。\n2. **多模态泛化训练（MGT）**：将这些能力扩展到多模态领域。\n\n该方法不仅克服了数据不足的问题，还显著提升了模型在各类推理任务中的表现。\n\n![pipeline](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_d11d2a5a11b2.jpg)\n## 演示\n**几何问题：**\n\n![motivation](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_10662cf3fbcd.png)\n\n**推箱子演示：**\n\n![sobokan_deom](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_d9f7b8828265.gif)\n \n## 快速入门\n\n### 安装\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1.git\ncd lmm-r1\npip install -e .[vllm]\npip install flash_attn --no-build-isolation\n```\n\n> [!NOTE]\n>我们建议使用vLLM 0.7.2或更高版本。\n>我们还提供了[vLLM的Dockerfile](.\u002Fdockerfile\u002F)以及[Nvidia-Docker的一键安装脚本](.\u002Fexamples\u002Fscripts\u002Fnvidia_docker_install.sh)。\n\n### 准备数据集\n\nLMM-R1要求多模态提示数据集采用与OpenAI兼容的消息格式：\n```json\n[\n  {\n    \"message\":\"[\n      {\n        \\\"role\\\": \\\"user\\\",\n        \\\"content\\\": [\n            { \\\n                \\\"type\\\": \\\"image\\\",\n                \\\"image\\\": \\\"file:\u002F\u002F\u002Fpath\u002Fto\u002Fyour\u002Fimage.jpg\\\",\n            }, \\\n            {\\\"type\\\": \\\"text\\\", \\\"text\\\": \\\"图片中有几只猫？\\\"},\n        ],\n      }\n    ]\",\n    \"answer\": \"$3$\"\n  },\n]\n```\n**请注意，message是一个字符串化的列表。**\n示例数据集`examples\u002Fdata\u002Ftest_message.jsonl`可供参考。\n\n- 我们可以使用`--input_key`来指定输入数据集的`JSON键名`，例如`--prompt_data {名称或路径}`（PPO）或`--dataset {名称或路径}`。**请勿**对多模态提示使用`--apply_chat_template`，因为消息将在内部进行处理。\n- OpenRLHF还支持通过`--prompt_data_probs 0.1,0.4,0.5`（PPO）或`--dataset_probs 0.1,0.4,0.5`混合多个数据集。\n\n### 训练\n\n我们的训练过程遵循论文中描述的两阶段方法。我们提供了每个阶段的脚本，以方便复现我们的实验结果。\n\n#### 第一阶段：基础推理增强（FRE）\n\n这一阶段专注于利用纯文本数据提升模型的推理能力。\n\n```bash\n# 使用纯文本数据进行训练（FRE-Text）\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_fre_text.sh\n\n# 使用多模态数据进行训练（FRE-Multi），用于对比\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_fre_multi.sh\n```\n\nFRE-Text脚本使用[DeepScaler-40K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVLM-Reasoner\u002Fdeepscaler)数据集，并结合基于规则的强化学习来增强模型的基础推理能力。这一阶段对于在进入多模态任务之前建立强大的推理能力至关重要。\n\n#### 第二阶段：多模态泛化训练（MGT）\n\n这一阶段通过针对特定任务的持续训练，将推理能力扩展到多模态领域。\n\n```bash\n# 在几何领域进行训练（MGT-Geo）\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_mgt_geo.sh\n\n# 在感知与推理平衡的领域进行训练（MGT-PerceReason）\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_mgt_percereas.sh\n```\n\n每个MGT脚本都从FRE-Text检查点继续训练，专注于特定领域：\n- **MGT-Geo**：使用[VerMulti-Geo](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVLM-Reasoner\u002FVerMulti)数据集（1.5万道几何题）来提升几何推理能力。\n- **MGT-PerceReason**：使用完整的[VerMulti](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVLM-Reasoner\u002FVerMulti)数据集，以平衡感知与推理能力。\n\n我们发布了最终模型[MGT-PerceReason](https:\u002F\u002Fhuggingface.co\u002FVLM-Reasoner\u002FLMM-R1-MGT-PerceReason)。\n\n#### 直接强化学习训练（用于对比）\n\n我们还提供了不经过FRE阶段的直接强化学习训练脚本，这些脚本在我们的论文中被用作对比基准：\n\n```bash\n# 在几何领域进行直接强化学习训练\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_direct_rl_geo.sh\n```\n\n这些脚本直接在特定领域的数据上训练基线模型，跳过了FRE阶段，从而有助于展示我们两阶段方法的有效性。\n\n## 特性\n\n\nLMM-R1 是 [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF) 的一个分支，旨在为增强多模态推理能力提供高性能的 LMM 强化学习基础设施。我们目前支持 LMM 的 PPO\u002FREINFORCE++\u002FRLOO 训练，并且相比 [R1-V](https:\u002F\u002Fgithub.com\u002FDeep-Agent\u002FR1-V)（GRPO），在 RLOO 上实现了 4.7 倍的加速。\n\n![time_compare](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_readme_6e6ceffb3e39.jpg)\n\n\n- 支持 LMM 训练（Qwen2.5-VL、Phi3.5-V、Phi4-Multimodal）。\n- 基于 Ray 的分布式 [PPO](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_ray.sh) 和 [REINFORCE++\u002FRLOO](.\u002Fexamples\u002Fscripts\u002Ftrain_reinforce_llama_ray.sh) 实现。\n- [基于 Ray 的强化微调](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_with_reward_fn.sh)\n- 支持使用混合引擎的基于 Ray 的 [PPO](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_ray_hybrid_engine.sh) 和 [REINFORCE++\u002FRLOO](.\u002Fexamples\u002Fscripts\u002Ftrain_reinforce_llama_ray_hybrid_engine.sh)（`--colocate_all_models`、`--vllm_enable_sleep` 和 `--vllm_gpu_memory_utilization 0.5`）。\n- 完整的 RLHF 微调支持，适用于拥有 [超过 700 亿参数](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_ray_70b.sh) 的模型。\n- 集成 vLLM，以加速 RLHF 任务中的生成过程（`--vllm_num_engines`）。\n- 支持多个奖励模型（`--reward_pretrain model1,model2...`）和远程奖励模型（`--remote_rm_url`）。\n- 集成 FlashAttention2（`--flash_attn`）。\n- 支持 QLoRA（`--load_in_4bit`）和 [LoRA](.\u002Fexamples\u002Fscripts\u002Ftrain_sft_mixtral_lora.sh)（`--lora_rank`、`--target_modules`）。\n- 提供 Wandb（`--use_wandb`）和 TensorBoard（`--use_tensorboard`）的日志记录支持。\n- 检查点恢复功能（`--load_checkpoint` 和 `--save_steps`）。\n- 提供多节点训练脚本，例如 [Ray PPO](.\u002Fexamples\u002Fscripts\u002Ftrain_ppo_llama_ray_slurm.sh)。\n\n## 参考文献与致谢\n我们衷心感谢 [DeepSeek](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1) 在 LLM 推理方面的探索，以及 [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF) 提供的卓越 RL 基础设施。同时，我们也感谢 [open-r1](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fopen-r1) 和 [simpleRL-reason](https:\u002F\u002Fgithub.com\u002Fhkust-nlp\u002FsimpleRL-reason)，它们为我们复现 R1 提供了宝贵的见解。彭英哲的工作是在蚂蚁集团实习期间完成的，杨凯是他的实习导师。特别感谢 [杨凯](https:\u002F\u002Fgithub.com\u002Fyangkai798)、[刘杰](https:\u002F\u002Fjieliu.site\u002F)、[游志远](https:\u002F\u002Fzhiyuanyou.github.io\u002F) 提出的宝贵建议，以及 [东南大学大数据计算中心](https:\u002F\u002Fbdcc.seu.edu.cn\u002F) 提供的硬件支持。\n\n- [DeepSeek](https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-R1) \n- [OpenRLHF](https:\u002F\u002Fgithub.com\u002FOpenRLHF\u002FOpenRLHF)\n- [open-r1](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fopen-r1)\n- [simpleRL-reason](https:\u002F\u002Fgithub.com\u002Fhkust-nlp\u002FsimpleRL-reason)\n\n## 引用\n如果您发现 LMM-R1 对您的研究和应用有所帮助，请使用以下 BibTeX 格式引用：\n\n```bib\n@article{peng2025lmmr1,\n  title={LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL},\n  author={Peng, Yingzhe and Zhang, Gongrui and Zhang, Miaosen and You, Zhiyuan and Liu, Jie and Zhu, Qipeng and Yang, Kai and Xu, Xingzhong and Geng, Xin and Yang, Xu},\n  journal={arXiv preprint arXiv:2503.07536},\n  year={2025}\n}\n```","# LMM-R1 快速上手指南\n\nLMM-R1 是一个基于规则的两阶段强化学习（RL）框架，旨在赋予 3B 参数量的大型多模态模型（LMM）强大的推理能力。该项目基于 OpenRLHF 构建，支持 PPO、REINFORCE++ 和 RLOO 等算法，显著提升了多模态推理任务的性能。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python**: 3.8 或更高版本\n*   **GPU**: 支持 CUDA 的 NVIDIA 显卡（建议使用显存充足的设备以运行多模态模型）\n*   **核心依赖**:\n    *   `vLLM` (推荐版本 0.7.2 或更高)\n    *   `flash_attn`\n    *   `ray` (用于分布式训练)\n\n> **提示**: 项目提供了 [vLLM 的 Dockerfile](.\u002Fdockerfile\u002F) 和 [Nvidia-Docker 一键安装脚本](.\u002Fexamples\u002Fscripts\u002Fnvidia_docker_install.sh)，推荐使用 Docker 环境以避免依赖冲突。\n\n## 安装步骤\n\n克隆仓库并安装依赖包。建议先安装基础包，再单独安装 `flash_attn` 以避免编译问题。\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1.git\ncd lmm-r1\npip install -e .[vllm]\npip install flash_attn --no-build-isolation\n```\n\n> **注意**: 如果国内网络下载依赖较慢，建议在 `pip` 命令后添加国内镜像源，例如：`-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`。\n\n## 基本使用\n\nLMM-R1 的核心流程分为两个阶段：**基础推理增强 (FRE)** 和 **多模态泛化训练 (MGT)**。以下是基于官方脚本的最简启动流程。\n\n### 1. 数据准备\n\n模型需要 OpenAI 兼容格式的多模态提示数据集。数据需整理为 JSONL 格式，其中 `message` 字段必须是**字符串化的列表**。\n\n示例数据 (`test_message.jsonl`)：\n```json\n[\n  {\n    \"message\":\"[\n      {\n        \\\"role\\\": \\\"user\\\",\n        \\\"content\\\": [\n            { \n                \\\"type\\\": \\\"image\\\",\n                \\\"image\\\": \\\"file:\u002F\u002F\u002Fpath\u002Fto\u002Fyour\u002Fimage.jpg\"\n            }, \n            {\\\"type\\\": \\\"text\\\", \\\"text\\\": \\\"How many cats in the image?\\\"}\n        ]\n      }\n    ]\",\n    \"answer\": \"$3$\"\n  }\n]\n```\n\n*   **加载数据**: 使用 `--prompt_data` (PPO) 或 `--dataset` 参数指定路径。\n*   **多数据集混合**: 可通过 `--prompt_data_probs` 或 `--dataset_probs` 设置不同数据集的采样比例。\n*   **重要**: 多模态提示**不要**使用 `--apply_chat_template` 参数，消息将在内部处理。\n\n### 2. 第一阶段：基础推理增强 (FRE)\n\n此阶段仅使用文本数据建立强大的推理基础。推荐使用官方提供的 DeepScaler-40K 数据集脚本。\n\n```bash\n# 使用纯文本数据进行训练 (推荐)\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_fre_text.sh\n\n# 或者使用多模态数据进行对比训练\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_fre_multi.sh\n```\n\n### 3. 第二阶段：多模态泛化训练 (MGT)\n\n在 FRE 阶段生成的检查点基础上，继续针对特定多模态领域进行训练。\n\n```bash\n# 针对几何领域训练 (使用 VerMulti-Geo 数据集)\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_mgt_geo.sh\n\n# 针对感知与推理平衡领域训练 (使用完整 VerMulti 数据集，即最终发布模型)\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_mgt_percereas.sh\n```\n\n### 4. 直接 RL 训练（基线对比）\n\n如果不经过 FRE 阶段，直接进行领域特定的 RL 训练（用于基准对比）：\n\n```bash\n# 直接在几何领域进行 RL 训练\nbash examples\u002Fscripts\u002Flmm_r1\u002Ftrain_direct_rl_geo.sh\n```\n\n训练完成后，您可以在 Hugging Face 上找到最终发布的模型：**[LMM-R1-MGT-PerceReason](https:\u002F\u002Fhuggingface.co\u002FVLM-Reasoner\u002FLMM-R1-MGT-PerceReason)**。","某教育科技团队正致力于开发一款面向中小学生的智能解题助手，旨在通过上传几何图形或逻辑谜题图片，引导学生一步步理解解题思路。\n\n### 没有 lmm-r1 时\n- **小模型“智商”不足**：受限于成本，团队只能部署 3B 参数量的多模态模型，但这类模型面对复杂几何题时，往往只能猜答案，无法生成连贯的推导步骤。\n- **推理数据极度匮乏**：市面上缺乏高质量的多模态推理训练数据，导致模型难以学习如何将视觉信息与逻辑规则结合。\n- **训练框架不支持**：现有的强化学习框架主要针对纯文本模型，无法直接处理“图片 + 逻辑推理”的多模态奖励信号，复现类似 DeepSeek-R1 的推理能力几乎不可能。\n- **试错成本高昂**：若强行微调大模型以满足精度要求，显存开销巨大，且推理延迟高，无法在边缘设备或低预算服务器上运行。\n\n### 使用 lmm-r1 后\n- **小模型具备强推理力**：利用 lmm-r1 的两阶段规则强化学习框架，成功将 3B 模型的逻辑推理能力提升至接近大模型水平，能准确输出“因为...所以...\"的解题链条。\n- **突破数据瓶颈**：通过“先纯文本奠基（FRE），再多模态迁移（MGT）”的策略，有效利用了稀缺数据，让模型在几何证明和推箱子等任务上表现优异。\n- **原生支持多模态 RL**：基于扩展后的 OpenRLHF 架构，团队轻松构建了针对图像问答的奖励机制，无需从零搭建复杂的训练基础设施。\n- **低成本高效部署**：在保持 3B 轻量级参数规模的同时实现了高性能，显著降低了推理算力需求，使应用能流畅运行在普通显卡甚至端侧设备上。\n\nlmm-r1 的核心价值在于它打破了“只有大参数模型才能做好推理”的迷思，让轻量级多模态模型也能拥有媲美顶尖模型的逻辑思考能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTideDra_lmm-r1_6e6ceffb.jpg","TideDra","Geary.Z","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FTideDra_c927c9a7.jpg","MSRA Joint PhD\r\nMajored in AI","Microsoft Research Asia","Beijing, CN",null,"https:\u002F\u002Fgithub.com\u002FTideDra",[81,85,89],{"name":82,"color":83,"percentage":84},"Python","#3572A5",99.9,{"name":86,"color":87,"percentage":88},"Dockerfile","#384d54",0.1,{"name":90,"color":91,"percentage":88},"Shell","#89e051",844,53,"2026-04-06T03:20:21","Apache-2.0","Linux","必需 NVIDIA GPU。具体显存需求未说明，但支持 QLoRA (--load_in_4bit) 和 vLLM 混合引擎 (--vllm_gpu_memory_utilization 0.5)，暗示可适配不同显存大小。需安装 flash_attn 且通常依赖 CUDA 环境。","未说明",{"notes":100,"python":98,"dependencies":101},"1. 该工具是 OpenRLHF 的分支，专注于多模态大模型 (LMM) 的强化学习训练。\n2. 强烈建议使用 vLLM 0.7.2 或更高版本以加速生成。\n3. 必须安装 flash_attn 库（建议使用 --no-build-isolation 参数）。\n4. 提供了 Dockerfile 和 Nvidia-Docker 一键安装脚本，推荐在 Docker 环境中运行。\n5. 支持分布式训练 (Ray)、QLoRA 量化训练以及多节点训练 (Slurm)。\n6. 训练分为两个阶段：基于纯文本的基础推理增强 (FRE) 和多模态泛化训练 (MGT)。",[102,103,104,105,106,107,108],"vllm>=0.7.2","flash_attn","ray","torch","transformers","accelerate","peft",[35,15,14,110],"其他","2026-03-27T02:49:30.150509","2026-04-11T00:50:40.249093",[114,119,124,129,134,138],{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},28486,"运行示例代码时遇到 'TypeError: JobSupervisor.__init__() takes 5 positional arguments but 7 were given' 或 'Address already in use' 错误怎么办？","这通常是由于 Ray 的缓存文件或会话状态不一致导致的。解决方案如下：\n1. 删除 Ray 缓存文件：执行 `rm -rf ~\u002F.cache\u002Fray`。\n2. 如果问题依旧，建议在一个干净的 `nvidia\u002Fcuda` Docker 容器中运行，以确保系统环境纯净，避免残留进程或配置干扰。","https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fissues\u002F5",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},28487,"运行脚本时出现 vLLM 导入错误或 Actor 初始化失败（Exception raised in creation task），如何解决？","该问题通常由 `transformers` 库版本不兼容引起。请重新安装项目指定的 `transformers` 版本。根据维护者确认，使用的特定 commit 版本为：`1feebb5b4150882deabddd190a541f336f3be817`。请确保您的环境中安装了与此对应的版本。","https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fissues\u002F9",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},28488,"调用 vllm wake_up 时发生 OOM（显存溢出）或在 deepspeed 创建优化器时卡住怎么办？","如果在从训练切换到 rollout 时遇到 OOM 或在 `DeepspeedStrategy.create_optimizer` 中卡住，可以尝试启用 Adam 优化器卸载功能。在启动参数中添加或设置 `--adam_offload=True`（或在代码配置中设置 `adam_offload=True`），这将把优化器状态移至 CPU，从而缓解 GPU 显存压力并解决卡死问题。","https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fissues\u002F43",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},28489,"训练 3B 和 7B 规模的模型需要什么样的显卡算力配置？","根据维护者回复，使用 GRPO 算法时，单机配备 8 张显卡即可运行 3B 和 7B 模型的训练任务。","https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fissues\u002F27",{"id":135,"question_zh":136,"answer_zh":137,"source_url":133},28490,"如何训练 72B 大模型？目前支持吗？","截至该 Issue 回复时，72B 模型的训练功能正在内测中。维护者表示会在随后的更新中发布相关支持，建议关注项目的最新版本发布说明以获取大模型训练的具体配置和方法。",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},28491,"进行 Qlora 微调时遇到 RayTaskError 或进度条卡住如何处理？","虽然具体报错日志可能因环境而异，但此类问题常与显存管理或 Ray 集群状态有关。参考类似 OOM 问题的解决方案，可以尝试调整显存利用率参数（如 `--vllm_gpu_memory_utilization`），或者检查是否有后台僵尸进程占用资源。若涉及特定版本兼容性，请确保 `vllm` 和 `ray` 的版本与项目要求一致。","https:\u002F\u002Fgithub.com\u002FTideDra\u002Flmm-r1\u002Fissues\u002F55",[144,149,154],{"id":145,"version":146,"summary_zh":147,"released_at":148},189461,"v0.7.3a","- 与 OpenRLHF v0.7.3 同步\n- 支持大模型的 PPO 训练\n- 重构视觉输入","2025-04-23T09:33:25",{"id":150,"version":151,"summary_zh":152,"released_at":153},189462,"v0.7.0a","- 与 OpenRLHF v0.7.0 同步\n- 支持 [DAPO](http:\u002F\u002Farxiv.org\u002Fabs\u002F2503.14476) 中的动态采样\n- 支持多模态混合训练","2025-04-15T16:20:02",{"id":155,"version":156,"summary_zh":157,"released_at":158},189463,"v0.6.2a","- 与 OpenRLHF v0.6.2 同步\n- 支持新模型：Phi3.5-V、Phi4-多模态\n- 支持 [Liger-Kernel](https:\u002F\u002Fgithub.com\u002Flinkedin\u002FLiger-Kernel)，以降低多模态大模型的内存占用\n- 支持使用 LoRA 与 vLLM 集成","2025-03-24T16:10:38"]