[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Tencent-Hunyuan--MixGRPO":3,"tool-Tencent-Hunyuan--MixGRPO":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,2,"2026-04-10T11:39:34",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":68,"readme_en":69,"readme_zh":70,"quickstart_zh":71,"use_case_zh":72,"hero_image_url":73,"owner_login":74,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":93,"env_os":94,"env_gpu":95,"env_ram":96,"env_deps":97,"category_tags":111,"github_topics":112,"view_count":32,"oss_zip_url":77,"oss_zip_packed_at":77,"status":17,"created_at":116,"updated_at":117,"faqs":118,"releases":153},7808,"Tencent-Hunyuan\u002FMixGRPO","MixGRPO","(arXiv) MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE","MixGRPO 是一款由腾讯混元与北京大学联合开源的先进算法工具，旨在显著提升基于流模型（Flow-based Models）的图像生成效率与质量。它主要解决了当前利用强化学习（如 GRPO）微调文生图模型时，采样过程计算成本高、收敛速度慢的痛点。\n\n该工具的核心技术亮点在于创新性地提出了“混合常微分方程 - 随机微分方程”（Mixed ODE-SDE）策略。传统的流模型训练通常依赖单一的确定性或随机性路径，而 MixGRPO 巧妙地将两者结合：在保持生成结果多样性的同时，大幅降低了采样所需的步数，从而解锁了更高的训练与推理效率。此外，项目近期还引入了“系数保持采样”（CPS）技术，进一步提升了采样的理论严谨性与视觉效果。\n\nMixGRPO 特别适合从事 AI 图像生成研究的研究人员、希望优化模型性能的算法工程师，以及需要高效微调大规模扩散模型的开发团队。它基于强大的 FLUX.1 架构，并支持 HPSv2、ImageReward 等多种奖励模型进行多目标优化。对于想要探索下一代高效强化学习对齐技术，或在有限算力下追求更高生成质量的专业用户而言，MixGRPO 提供了一个极具价值的开源","MixGRPO 是一款由腾讯混元与北京大学联合开源的先进算法工具，旨在显著提升基于流模型（Flow-based Models）的图像生成效率与质量。它主要解决了当前利用强化学习（如 GRPO）微调文生图模型时，采样过程计算成本高、收敛速度慢的痛点。\n\n该工具的核心技术亮点在于创新性地提出了“混合常微分方程 - 随机微分方程”（Mixed ODE-SDE）策略。传统的流模型训练通常依赖单一的确定性或随机性路径，而 MixGRPO 巧妙地将两者结合：在保持生成结果多样性的同时，大幅降低了采样所需的步数，从而解锁了更高的训练与推理效率。此外，项目近期还引入了“系数保持采样”（CPS）技术，进一步提升了采样的理论严谨性与视觉效果。\n\nMixGRPO 特别适合从事 AI 图像生成研究的研究人员、希望优化模型性能的算法工程师，以及需要高效微调大规模扩散模型的开发团队。它基于强大的 FLUX.1 架构，并支持 HPSv2、ImageReward 等多种奖励模型进行多目标优化。对于想要探索下一代高效强化学习对齐技术，或在有限算力下追求更高生成质量的专业用户而言，MixGRPO 提供了一个极具价值的开源解决方案。","\u003Cdiv align=\"center\" style=\"font-family: charter;\">\n\u003Ch1>MixGRPO:\u003C\u002Fbr>Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE\u003C\u002Fh1>\n\n\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802\" target=\"_blank\">\n    \u003Cimg alt=\"arXiv\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-MixGRPO-red?logo=arxiv\" height=\"20\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Ftulvgengenr.github.io\u002FMixGRPO-Project-Page\u002F\" target=\"_blank\">\n    \u003Cimg alt=\"Website\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💻_Project-MixGRPO-blue.svg\" height=\"20\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftulvgengenr\u002FMixGRPO\" target=\"_blank\">\n    \u003Cimg alt=\"\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20_Model-MixGRPO-ffc107?color=ffc107&logoColor=white\" height=\"20\" \u002F>\u003C\u002Fa>\n\n\u003Cdiv>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=lQsMoJsAAAAJ&hl=en&oi=ao\" target=\"_blank\">Junzhe Li\u003C\u002Fa>\u003Csup>1,\u003C\u002Fsup>\u003Csup>2,\u003C\u002Fsup>\u003Csup>3\u003C\u002Fsup>\u003Csup>*\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=TSMchWcAAAAJ&hl=en&oi=ao\" target=\"_blank\">Yutao Cui\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>\u003Csup>*\u003C\u002Fsup>, \u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=TaM4e4wAAAAJ\" target=\"_blank\">Tao Huang\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>\u003Csup>*\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"\" target=\"_blank\">Yinping Ma\u003C\u002Fa>\u003Csup>3\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=0ZZamLoAAAAJ&view_op=list_works&sortby=pubdate\" target=\"_blank\">Chun Fan\u003C\u002Fa>\u003Csup>3\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"\" target=\"_blank\">Miles Yang\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=igtXP_kAAAAJ&hl=en\" target=\"_blank\">Zhao Zhong\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=FJwtMf0AAAAJ&hl=zh-CN&oi=ao\" target=\"_blank\">Liefeng Bo\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>\u003C\u002Fspan>\n\u003C\u002Fdiv>\n\n\u003Cdiv>\n    \u003Csup>1\u003C\u002Fsup>Hunyuan, Tencent&emsp;\n    \u003C\u002Fbr>\n    \u003Csup>2\u003C\u002Fsup>School of Computer Science, Peking University&emsp;\n    \u003C\u002Fbr>\n    \u003Csup>3\u003C\u002Fsup>Computer Center, Peking University&emsp;\n\u003C\u002Fdiv>\n\n\n\u003C\u002Fdiv>      \n\n## 📝 News\n- [2026\u002F02\u002F03] We supported [Coefficients-Preserving Sampling](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.05952) (CPS) as a more principled alternative to standard SDE sampling. Comparison tables and enhanced visualization results using CPS have been updated in the [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802) !\n- [2025\u002F10\u002F02] We have updated the comparison and visualization results with Flow-GRPO, Flow-DPO (offline), and Flow-DPO (online) on SD3.5-M LoRA in the [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802) !\n- [2025\u002F7\u002F30] We released the [model checkpoint](https:\u002F\u002Fhuggingface.co\u002Ftulvgengenr\u002FMixGRPO) fine-tuned based on [FLUX.1 Dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev) using the MixGRPO algorithm, with [HPSv2](https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2), [ImageReward](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FImageReward), and [Pick Score](https:\u002F\u002Fgithub.com\u002Fyuvalkirstain\u002FPickScore) as multi-rewards !\n- [2025\u002F7\u002F30] We released the [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802) and [code](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FMixGRPO) !\n\n## 🚀 Quick Start\n\n### Installation\n\n#### 1. Environment setup\n```bash\nconda create -n MixGRPO python=3.12\nconda activate MixGRPO\n```\n\n#### 2. Requirements installation\n```bash\nsudo yum install -y pdsh pssh mesa-libGL # centos\nbash env_setup.sh\n```\nThe environment dependency is basically the same as [DanceGRPO](https:\u002F\u002Fgithub.com\u002FXueZeyue\u002FDanceGRPO).\n\n### Models Preparation\n\n#### 1. FLUX\nDownload the FLUX HuggingFace repository to `\".\u002Fdata\u002Fflux\"`.\n```bash\nmkdir .\u002Fdata\u002Fflux\nhuggingface-cli login\nhuggingface-cli download --resume-download  black-forest-labs\u002FFLUX.1-dev --local-dir .\u002Fdata\u002Fflux\n```\n\n#### 2. Reward Models\n\n##### HPS-v2.1\nDownload the code of [HPSv2](https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2).\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2.git\n```\n\nDownload the `\"HPS_v2.1_compressed.pt\"` and `\"open_clip_model.safetensors\"` to `\".\u002Fhps_ckpt\"`\n```bash\nmkdir hps_ckpt\nhuggingface-cli login\nhuggingface-cli download --resume-download xswu\u002FHPSv2 HPS_v2.1_compressed.pt --local-dir .\u002Fhps_ckpt\u002F\nhuggingface-cli download --resume-download laion\u002FCLIP-ViT-H-14-laion2B-s32B-b79K open_clip_pytorch_model.bin --local-dir .\u002Fhps_ckpt\u002F\n```\n\n##### Pick Score\nRun the demo code to automatically download to `\"~\u002F.cache\u002Fhuggingface\"`:\n```bash\npython fastvideo\u002Fmodels\u002Freward_model\u002Fpick_score.py \\\n    --device cuda \\\n    --http_proxy \u003CYour HTTP_PROXY> \\ # Default is None\n    --https_proxy \u003CYour HTTPS_PROXY>  # Default is None\n```\n\n##### ImageReward\nDown the `\"ImageReward.pt\"` and `\"med_config.json\"` to `\".\u002Fimage_reward_ckpt\"`\n```bash\nhuggingface-cli login\nhuggingface-cli download --resume-download THUDM\u002FImageReward med_config.json --local-dir .\u002Fimage_reward_ckpt\u002F\nhuggingface-cli download --resume-download THUDM\u002FImageReward ImageReward.pt --local-dir .\u002Fimage_reward_ckpt\u002F\n```\n\n##### CLIP Score\nRun the demo code to automatically download to `\"~\u002F.cache\u002Fhuggingface\"`:\n```bash\npython fastvideo\u002Fmodels\u002Freward_model\u002Fclip_score.py \\\n    --device cuda \\\n    --http_proxy \u003CYour HTTP_PROXY> \\ # Default is None\n    --https_proxy \u003CYour HTTPS_PROXY>  # Default is None\n```\n\n### Preprocess Data\nAdjust the `prompt_path` parameter in `\".\u002Fscripts\u002Fpreprocess\u002Fpreprocess_flux_rl_embeddings.sh\"` to obtain the embeddings of the prompt dataset.\n```bash\nbash scripts\u002Fpreprocess\u002Fpreprocess_flux_rl_embeddings.sh\n```\n\n### Run Training\nThe training dataset is the training prompts in [HPDv2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fymhao\u002FHPDv2), as shown in `\".\u002Fdata\u002Fprompts.txt\"`\n\nWe use the `\"pdsh\"` command for multi-node training with `\"torchrun\"`. The default resource configuration consists of 4 nodes, each with 8 GPUs, totaling 32 GPUs.\n\nFirst, set your multi-node IPs in the `data\u002Fhosts\u002Fhostfile`.\n\nThen, run the following script to set the environment variable `INDEX_CUSTOM` on each node to 0, 1, 2, and 3, respectively.\n```bash\nbash scripts\u002Fpreprocess\u002Fset_env_multinode.sh\n```\n\nNext, set the `wandb_key` to your Weights & Biases (WandB) key in `\".\u002Fscripts\u002Ffinetune\u002Ffinetune_flux_grpo_FastGRPO.sh\"`.\n\nFinally, run the following training script:\n```bash\nbash scripts\u002Ffinetune\u002Ffinetune_flux_grpo_FastGRPO.sh\n```\n\n### Run Inference\nThe test dataset is also the test prompts in [HPDv2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fymhao\u002FHPDv2), as shown in `\".\u002Fdata\u002Fprompts_test.txt\"`\n\nFirst, you need to download the MixGRPO model weight `\"diffusion_pytorch_model.safetensors\"` to the `\".\u002Fmix_grpo_ckpt\"` directory.\n```bash\nmkdir mix_grpo_ckpt\nhuggingface-cli login\nhuggingface-cli download --resume-download tulvgengenr\u002FMixGRPO diffusion_pytorch_model.safetensors --local-dir .\u002Fmix_grpo_ckpt\u002F\n```\nThen, adjust the `Input parameters` in \"scripts\u002Finference\u002Finference_flux.sh\" (currently set to default) and then execute the single-node script.\n```bash\nbash scripts\u002Finference\u002Finference_flux.sh\n```\n\n### Run Evaluation\nSet `prompt_file` to the path of the JSON file generated during inference in \"scripts\u002Fevaluate\u002Feval_reward.sh\". Then run the following single-node script.\n```bash\nbash scripts\u002Fevaluate\u002Feval_reward.sh\n```\n\n\n## 🤝 Acknowledgement\n\nWe are deeply grateful for the following GitHub repositories, as their valuable code and efforts have been incredibly helpful:\n\n* [DanceGRPO](https:\u002F\u002Fgithub.com\u002FXueZeyue\u002FDanceGRPO)\n* [Flow-GRPO](https:\u002F\u002Fgithub.com\u002Fyifan123\u002Fflow_grpo)\n* [FastVideo](https:\u002F\u002Fgithub.com\u002Fhao-ai-lab\u002FFastVideo)\n* [HPSv2](https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2)\n\n\n## ✏️ Citation\n\n### License\nMixGRPO is licensed under the License Terms of MixGRPO. See `.\u002FLicense.txt` for more details.\n\n### Bib\nIf you find MixGRPO useful for your research and applications, please cite using this BibTeX:\n```\n@misc{li2025mixgrpounlockingflowbasedgrpo,\n      title={MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE}, \n      author={Junzhe Li and Yutao Cui and Tao Huang and Yinping Ma and Chun Fan and Miles Yang and Zhao Zhong},\n      year={2025},\n      eprint={2507.21802},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802}, \n}\n```\n\n## 🌟 Star History\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent-Hunyuan_MixGRPO_readme_3709346d9757.png)](https:\u002F\u002Fwww.star-history.com\u002F#Tencent-Hunyuan\u002FMixGRPO&Date)\n","\u003Cdiv align=\"center\" style=\"font-family: charter;\">\n\u003Ch1>MixGRPO：\u003C\u002Fbr>利用混合ODE-SDE解鎖基於流的GRPO效率\u003C\u002Fh1>\n\n\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802\" target=\"_blank\">\n    \u003Cimg alt=\"arXiv\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-MixGRPO-red?logo=arxiv\" height=\"20\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Ftulvgengenr.github.io\u002FMixGRPO-Project-Page\u002F\" target=\"_blank\">\n    \u003Cimg alt=\"Website\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F💻_Project-MixGRPO-blue.svg\" height=\"20\" \u002F>\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftulvgengenr\u002FMixGRPO\" target=\"_blank\">\n    \u003Cimg alt=\"\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20_Model-MixGRPO-ffc107?color=ffc107&logoColor=white\" height=\"20\" \u002F>\u003C\u002Fa>\n\n\u003Cdiv>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=lQsMoJsAAAAJ&hl=en&oi=ao\" target=\"_blank\">李俊哲\u003C\u002Fa>\u003Csup>1,\u003C\u002Fsup>\u003Csup>2,\u003C\u002Fsup>\u003Csup>3\u003C\u002Fsup>\u003Csup>*\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=TSMchWcAAAAJ&hl=en&oi=ao\" target=\"_blank\">崔宇涛\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>\u003Csup>*\u003C\u002Fsup>, \u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=TaM4e4wAAAAJ\" target=\"_blank\">黄涛\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>\u003Csup>*\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"\" target=\"_blank\">马银平\u003C\u002Fa>\u003Csup>3\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=en&user=0ZZamLoAAAAJ&view_op=list_works&sortby=pubdate\" target=\"_blank\">范春\u003C\u002Fa>\u003Csup>3\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"\" target=\"_blank\">杨迈尔斯\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=igtXP_kAAAAJ&hl=en\" target=\"_blank\">钟兆\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>,\u003C\u002Fspan>\n    \u003Ca href=\"https:\u002F\u002Fscholar.google.com\u002Fcitations?user=FJwtMf0AAAAJ&hl=zh-CN&oi=ao\" target=\"_blank\">薄立峰\u003C\u002Fa>\u003Csup>1\u003C\u002Fsup>\u003C\u002Fspan>\n\u003C\u002Fdiv>\n\n\u003Cdiv>\n    \u003Csup>1\u003C\u002Fsup>腾讯混元&emsp;\n    \u003C\u002Fbr>\n    \u003Csup>2\u003C\u002Fsup>北京大学计算机学院&emsp;\n    \u003C\u002Fbr>\n    \u003Csup>3\u003C\u002Fsup>北京大学计算中心&emsp;\n\u003C\u002Fdiv>\n\n\n\u003C\u002Fdiv>      \n\n## 📝 新闻\n- [2026\u002F02\u002F03] 我们支持了[系数保持采样](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.05952)（CPS），作為標準SDE采樣的一種更為原則性的替代方案。使用CPS的比較表格和增強的可視化結果已在[論文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802)中更新！\n- [2025\u002F10\u002F02] 我們已在[論文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802)中更新了與SD3.5-M LoRA上的Flow-GRPO、Flow-DPO（離線）和Flow-DPO（在線）的比較及可視化結果！\n- [2025\u002F7\u002F30] 我們發布了基於[MixGRPO算法]微調的[模型檢查點](https:\u002F\u002Fhuggingface.co\u002Ftulvgengenr\u002FMixGRPO)，該算法使用了[FLUX.1 Dev](https:\u002F\u002Fhuggingface.co\u002Fblack-forest-labs\u002FFLUX.1-dev)，並以[HPSv2](https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2)、[ImageReward](https:\u002F\u002Fhuggingface.co\u002Fzai-org\u002FImageReward)和[Pick Score](https:\u002F\u002Fgithub.com\u002Fyuvalkirstain\u002FPickScore)作為多獎勵！\n- [2025\u002F7\u002F30] 我們發布了[論文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802)和[代碼](https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FMixGRPO)！\n\n## 🚀 快速入門\n\n### 安裝\n\n#### 1. 環境設置\n```bash\nconda create -n MixGRPO python=3.12\nconda activate MixGRPO\n```\n\n#### 2. 安裝依賴\n```bash\nsudo yum install -y pdsh pssh mesa-libGL # centos\nbash env_setup.sh\n```\n環境依賴基本與[DanceGRPO](https:\u002F\u002Fgithub.com\u002FXueZeyue\u002FDanceGRPO)相同。\n\n### 準備模型\n\n#### 1. FLUX\n將FLUX的HuggingFace倉庫下載到`\".\u002Fdata\u002Fflux\"`。\n```bash\nmkdir .\u002Fdata\u002Fflux\nhuggingface-cli login\nhuggingface-cli download --resume-download black-forest-labs\u002FFLUX.1-dev --local-dir .\u002Fdata\u002Fflux\n```\n\n#### 2. 奖励模型\n\n##### HPS-v2.1\n下載[有HPSv2](https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2)的代碼。\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2.git\n```\n\n將`\"HPS_v2.1_compressed.pt\"`和`\"open_clip_model.safetensors\"`下載到`\".\u002Fhps_ckpt\"`。\n```bash\nmkdir hps_ckpt\nhuggingface-cli login\nhuggingface-cli download --resume-download xswu\u002FHPSv2 HPS_v2.1_compressed.pt --local-dir .\u002Fhps_ckpt\u002F\nhuggingface-cli download --resume-download laion\u002FCLIP-ViT-H-14-laion2B-s32B-b79K open_clip_pytorch_model.bin --local-dir .\u002Fhps_ckpt\u002F\n```\n\n##### Pick Score\n運行演示代碼，自動下載到`\"~\u002F.cache\u002Fhuggingface\"`：\n```bash\npython fastvideo\u002Fmodels\u002Freward_model\u002Fpick_score.py \\\n    --device cuda \\\n    --http_proxy \u003CYour HTTP_PROXY> \\ # 默认为None\n    --https_proxy \u003CYour HTTPS_PROXY>  # 默认为None\n```\n\n##### ImageReward\n將`\"ImageReward.pt\"`和`\"med_config.json\"`下載到`\".\u002Fimage_reward_ckpt\"`。\n```bash\nhuggingface-cli login\nhuggingface-cli download --resume-download THUDM\u002FImageReward med_config.json --local-dir .\u002Fimage_reward_ckpt\u002F\nhuggingface-cli download --resume-download THUDM\u002FImageReward ImageReward.pt --local-dir .\u002Fimage_reward_ckpt\u002F\n```\n\n##### CLIP Score\n運行演示代碼，自動下載到`\"~\u002F.cache\u002Fhuggingface\"`：\n```bash\npython fastvideo\u002Fmodels\u002Freward_model\u002Fclip_score.py \\\n    --device cuda \\\n    --http_proxy \u003CYour HTTP_PROXY> \\ # 默认为None\n    --https_proxy \u003CYour HTTPS_PROXY>  # 默认为None\n```\n\n### 預處理數據\n調整`\".\u002Fscripts\u002Fpreprocess\u002Fpreprocess_flux_rl_embeddings.sh\"`中的`prompt_path`參數，以獲取提示數據集的嵌入。\n```bash\nbash scripts\u002Fpreprocess\u002Fpreprocess_flux_rl_embeddings.sh\n```\n\n### 運行訓練\n訓練數據集是[HPDv2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fymhao\u002FHPDv2)中的訓練提示，如`\".\u002Fdata\u002Fprompts.txt\"`所示。\n\n我們使用`pdsh`命令配合`torchrun`進行多節點訓練。默認資源配置為4個節點，每個節點配備8張GPU，共計32張GPU。\n\n首先，在`data\u002Fhosts\u002Fhostfile`中設置您的多節點IP地址。\n\n然後，運行以下腳本，分別在每個節點上設置環境變量`INDEX_CUSTOM`為0、1、2和3。\n```bash\nbash scripts\u002Fpreprocess\u002Fset_env_multinode.sh\n```\n\n接下來，在`\".\u002Fscripts\u002Ffinetune\u002Ffinetune_flux_grpo_FastGRPO.sh\"`中將`wandb_key`設置為您的Weights & Biases（WandB）密鑰。\n\n最後，運行以下訓練腳本：\n```bash\nbash scripts\u002Ffinetune\u002Ffinetune_flux_grpo_FastGRPO.sh\n```\n\n### 運行推理\n測試數據集同樣是[HPDv2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fymhao\u002FHPDv2)中的測試提示，如`\".\u002Fdata\u002Fprompts_test.txt\"`所示。\n\n首先，您需要將MixGRPO模型權重`\"diffusion_pytorch_model.safetensors\"`下載到`\".\u002Fmix_grpo_ckpt\"`目錄。\n```bash\nmkdir mix_grpo_ckpt\nhuggingface-cli login\nhuggingface-cli download --resume-download tulvgengenr\u002FMixGRPO diffusion_pytorch_model.safetensors --local-dir .\u002Fmix_grpo_ckpt\u002F\n```\n然後，調整`scripts\u002Finference\u002Finference_flux.sh`中的`輸入參數`（目前設為預設值），再執行單節點腳本。\n```bash\nbash scripts\u002Finference\u002Finference_flux.sh\n```\n\n### 運行評估\n在`scripts\u002Fevaluate\u002Feval_reward.sh`中，將`prompt_file`設置為推理過程中生成的JSON文件路徑，然後運行以下單節點腳本。\n```bash\nbash scripts\u002Fevaluate\u002Feval_reward.sh\n```\n\n## 🤝 致谢\n\n我们对以下 GitHub 仓库深表感谢，它们宝贵的代码和努力对我们帮助极大：\n\n* [DanceGRPO](https:\u002F\u002Fgithub.com\u002FXueZeyue\u002FDanceGRPO)\n* [Flow-GRPO](https:\u002F\u002Fgithub.com\u002Fyifan123\u002Fflow_grpo)\n* [FastVideo](https:\u002F\u002Fgithub.com\u002Fhao-ai-lab\u002FFastVideo)\n* [HPSv2](https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2)\n\n\n## ✏️ 引用\n\n### 许可证\nMixGRPO 根据 MixGRPO 的许可条款进行授权。更多详情请参阅 `.\u002FLicense.txt`。\n\n### Bib\n如果您在研究和应用中发现 MixGRPO 非常有用，请使用以下 BibTeX 格式引用：\n```\n@misc{li2025mixgrpounlockingflowbasedgrpo,\n      title={MixGRPO：利用混合 ODE-SDE 解锁基于流的 GRPO 效率}, \n      author={Junzhe Li 和 Yutao Cui 和 Tao Huang 和 Yinping Ma 和 Chun Fan 和 Miles Yang 和 Zhao Zhong},\n      year={2025},\n      eprint={2507.21802},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.21802}, \n}\n```\n\n## 🌟 星标历史\n[![星标历史图表](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent-Hunyuan_MixGRPO_readme_3709346d9757.png)](https:\u002F\u002Fwww.star-history.com\u002F#Tencent-Hunyuan\u002FMixGRPO&Date)","# MixGRPO 快速上手指南\n\nMixGRPO 是由腾讯混元团队开源的高效图像生成强化学习工具，通过混合 ODE-SDE 策略解锁基于 Flow 的 GRPO 效率。本指南将帮助您快速完成环境搭建、模型准备及训练推理。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐 CentOS 或 Ubuntu)\n- **Python 版本**: 3.12\n- **GPU**: 支持多节点多卡训练（默认配置示例为 4 节点 × 8 卡，共 32 卡）\n- **依赖工具**: `pdsh`, `pssh`, `mesa-libGL`\n\n### 前置依赖安装\n在 CentOS 系统上，请先安装系统级依赖：\n```bash\nsudo yum install -y pdsh pssh mesa-libGL\n```\n\n## 2. 安装步骤\n\n### 2.1 创建虚拟环境\n使用 Conda 创建并激活专属环境：\n```bash\nconda create -n MixGRPO python=3.12\nconda activate MixGRPO\n```\n\n### 2.2 安装项目依赖\n运行官方提供的脚本安装 Python 依赖（依赖项与 DanceGRPO 基本一致）：\n```bash\nbash env_setup.sh\n```\n\n### 2.3 准备基础模型 (FLUX)\n下载 FLUX.1-dev 模型至本地目录：\n```bash\nmkdir .\u002Fdata\u002Fflux\nhuggingface-cli login\n# 建议配置国内镜像加速或使用代理\nhuggingface-cli download --resume-download black-forest-labs\u002FFLUX.1-dev --local-dir .\u002Fdata\u002Fflux\n```\n\n### 2.4 准备奖励模型 (Reward Models)\nMixGRPO 支持多种奖励模型，请按需下载：\n\n**HPS-v2.1:**\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ftgxs002\u002FHPSv2.git\nmkdir hps_ckpt\nhuggingface-cli login\nhuggingface-cli download --resume-download xswu\u002FHPSv2 HPS_v2.1_compressed.pt --local-dir .\u002Fhps_ckpt\u002F\nhuggingface-cli download --resume-download laion\u002FCLIP-ViT-H-14-laion2B-s32B-b79K open_clip_pytorch_model.bin --local-dir .\u002Fhps_ckpt\u002F\n```\n\n**ImageReward:**\n```bash\nmkdir image_reward_ckpt\nhuggingface-cli login\nhuggingface-cli download --resume-download THUDM\u002FImageReward med_config.json --local-dir .\u002Fimage_reward_ckpt\u002F\nhuggingface-cli download --resume-download THUDM\u002FImageReward ImageReward.pt --local-dir .\u002Fimage_reward_ckpt\u002F\n```\n\n**Pick Score & CLIP Score:**\n运行以下脚本自动下载至缓存目录：\n```bash\n# Pick Score\npython fastvideo\u002Fmodels\u002Freward_model\u002Fpick_score.py \\\n    --device cuda \\\n    --http_proxy \u003CYour HTTP_PROXY> \\\n    --https_proxy \u003CYour HTTPS_PROXY>\n\n# CLIP Score\npython fastvideo\u002Fmodels\u002Freward_model\u002Fclip_score.py \\\n    --device cuda \\\n    --http_proxy \u003CYour HTTP_PROXY> \\\n    --https_proxy \u003CYour HTTPS_PROXY>\n```\n\n### 2.5 数据预处理\n修改 `.\u002Fscripts\u002Fpreprocess\u002Fpreprocess_flux_rl_embeddings.sh` 中的 `prompt_path` 参数，然后运行：\n```bash\nbash scripts\u002Fpreprocess\u002Fpreprocess_flux_rl_embeddings.sh\n```\n\n## 3. 基本使用\n\n### 3.1 开始训练 (Training)\n训练数据集默认使用 HPDv2 中的提示词。\n\n1. **配置多节点主机文件**: 编辑 `data\u002Fhosts\u002Fhostfile` 填入各节点 IP。\n2. **设置环境变量**: 在各节点分别执行，设置 `INDEX_CUSTOM` 为 0, 1, 2, 3：\n   ```bash\n   bash scripts\u002Fpreprocess\u002Fset_env_multinode.sh\n   ```\n3. **配置 WandB**: 在 `.\u002Fscripts\u002Ffinetune\u002Ffinetune_flux_grpo_FastGRPO.sh` 中填入您的 `wandb_key`。\n4. **启动训练**:\n   ```bash\n   bash scripts\u002Ffinetune\u002Ffinetune_flux_grpo_FastGRPO.sh\n   ```\n\n### 3.2 模型推理 (Inference)\n首先下载微调后的 MixGRPO 模型权重：\n```bash\nmkdir mix_grpo_ckpt\nhuggingface-cli login\nhuggingface-cli download --resume-download tulvgengenr\u002FMixGRPO diffusion_pytorch_model.safetensors --local-dir .\u002Fmix_grpo_ckpt\u002F\n```\n\n调整 `scripts\u002Finference\u002Finference_flux.sh` 中的输入参数（如提示词文件路径），然后执行：\n```bash\nbash scripts\u002Finference\u002Finference_flux.sh\n```\n\n### 3.3 效果评估 (Evaluation)\n将推理生成的 JSON 结果路径设置为 `scripts\u002Fevaluate\u002Feval_reward.sh` 中的 `prompt_file` 参数，然后运行评估脚本：\n```bash\nbash scripts\u002Fevaluate\u002Feval_reward.sh\n```","某 AIGC 广告公司设计团队正利用 FLUX.1 模型批量生成高精度电商产品图，急需通过强化学习对齐人类审美偏好以提升转化率。\n\n### 没有 MixGRPO 时\n- **训练效率低下**：传统基于流（Flow-based）的 GRPO 方法在采样过程中计算开销巨大，导致单次微调迭代耗时过长，难以快速验证创意。\n- **生成质量不稳定**：仅依赖确定性常微分方程（ODE）采样，生成的图像细节容易僵化，缺乏自然纹理，且在复杂光影下容易出现伪影。\n- **多奖励难以平衡**：同时优化 HPSv2（美学）、ImageReward（语义）和 Pick Score（偏好）等多个奖励模型时，收敛困难，常出现“顾此失彼”的现象。\n- **资源成本高昂**：为了获得可用结果，团队不得不投入大量 GPU 算力进行长时间试错，显著推高了项目预算。\n\n### 使用 MixGRPO 后\n- **采样效率飞跃**：MixGRPO 创新性地混合了 ODE 与随机微分方程（SDE），在保持生成质量的同时大幅减少了采样步数，将微调迭代速度提升了数倍。\n- **图像质感升级**：引入 SDE 的随机性注入了更自然的噪点与纹理，使产品图的材质光泽和光影过渡更加逼真，有效消除了人工痕迹。\n- **多目标完美协同**：该算法能更稳健地同时优化多个奖励信号，生成的图片既符合美学标准，又精准匹配文案描述，且高度契合用户偏好。\n- **算力成本骤降**：凭借更高的收敛效率，团队在更少的显卡机时内即可产出商用级模型，显著降低了研发门槛与运营成本。\n\nMixGRPO 通过混合微分方程策略，成功打破了流模型强化学习的效率瓶颈，让高质量、低成本的定制化图像生成成为现实。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FTencent-Hunyuan_MixGRPO_2f06ec95.png","Tencent-Hunyuan","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FTencent-Hunyuan_c6e5ecd4.png","",null,"https:\u002F\u002Fhunyuan.tencent.com\u002F","https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",97.1,{"name":86,"color":87,"percentage":88},"Shell","#89e051",2.9,1131,49,"2026-04-13T13:22:04","NOASSERTION",4,"Linux","需要 NVIDIA GPU，训练默认配置为 4 节点共 32 卡（每节点 8 卡），推理需支持 CUDA 的设备","未说明",{"notes":98,"python":99,"dependencies":100},"1. 明确基于 CentOS 环境（需安装 pdsh, pssh, mesa-libGL）；2. 训练依赖多节点分布式设置，需配置 hostfile 及环境变量；3. 需手动下载 FLUX.1-dev 基座模型及多种奖励模型（HPSv2, ImageReward, PickScore 等）；4. 代码库依赖 DanceGRPO 和 FastVideo 的环境配置。","3.12",[101,102,103,104,105,106,107,108,109,110],"pdsh","pssh","mesa-libGL","torch","transformers","diffusers","accelerate","hpsv2","ImageReward","PickScore",[15],[113,114,115],"diffusion","grpo","reinforcement-learning","2026-03-27T02:49:30.150509","2026-04-16T01:44:50.977725",[119,124,129,134,139,144,148],{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},34963,"MixGRPO 是否支持减少 sampling_steps 以加速训练？如果可以，需要调整哪些参数？","是的，可以将 `sampling_steps` 减少到 16。建议同时将 `group_size` 调整为约 2，并显著增加 `iters_per_group`（例如设为 50 或更大），以便将训练重点放在低信噪比（SNR）的时间步上。关于噪声参数 `eta`，实验表明 0.7 的效果优于 0.3；过高的值（如 2.0 或 3.0）会导致生成图像噪声过大和奖励计算不准确，因此推荐保持经验最优值 0.7。","https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FMixGRPO\u002Fissues\u002F1",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},34964,"为什么在推理阶段使用 DualFluxPipeline 以及混合采样策略？","这是为了解决训练后期出现的“奖励黑客”（reward hacking）问题（表现为图像中的网格伪影）。研究发现，奖励黑客与奖励模型性能及 SDE 离散步数不足导致的偏离全局最优有关。DualFluxPipeline 采用混合采样方法：在步数小于 `mix_sampling_steps`（通常设为 30）时使用 MixGRPO 训练的模型，而在后续步数使用原始 FLUX.1 Dev 模型。这种策略能有效消除网格伪影，完全解决推理时的奖励黑客问题。","https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FMixGRPO\u002Fissues\u002F6",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},34965,"当前版本使用的统一奖励模型（Unified Reward）具体是哪个版本？如何复现？","当前使用的是 `UnifiedReward-qwen-7b` 版本（HuggingFace 地址：CodeGoat24\u002FUnifiedReward-qwen-7b）。项目已提供统一奖励客户端的代码（见 `fastvideo\u002Fmodels\u002Freward_model\u002Funified_reward.py`），并在训练脚本中保留了相关调用逻辑。若需快速复现，用户可根据客户端接口定义自行搭建奖励模型服务器。","https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FMixGRPO\u002Fissues\u002F2",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},34966,"训练和推理时的数据维度及 Group 构建方式是怎样的？","在推理生图时，每张显卡分配到一个 prompt，依次生成 12 张图组成一个 group（即 `group_size`=12）。训练时 `batch_size` 设为 1 以保持与生图维度一致。对于 group 内的每个样本，模型会在滑动窗口内的所有时间步进行迭代计算，得到 `new_log_prob` 并计算 GRPO loss 进行训练。","https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FMixGRPO\u002Fissues\u002F12",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},34967,"论文图 2 中的 t-SNE 可视化是如何生成的？使用了哪些特征？","t-SNE 可视化使用的是 FLUX 模型最后一层的隐藏状态（hidden states），即 VAE 解码之前的特征。具体实现中，为了效率并未直接计算完整的协方差矩阵，而是采用了数学等价方法：先对数据去均值中心化，然后计算每个维度的方差并求和得到迹（trace）。相关特征提取代码可在项目仓库的讨论中找到。","https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FMixGRPO\u002Fissues\u002F11",{"id":145,"question_zh":146,"answer_zh":147,"source_url":138},34968,"Hybrid Inference（混合推理）的作用是什么？它对分数和视觉效果有何影响？","Hybrid Inference 是 MixGRPO 推理脚本中默认使用的方法，主要用于缓解奖励黑客现象，而不仅仅是为了提升论文中的指标分数。实际上，单纯使用 Hybrid Inference 可能会降低某些指标分数。Hybrid ratio（即论文附录中的 p）越大，指标分数越高但奖励黑客现象越明显（如出现网格纹）。设置 hybrid ratio=80% 是在指标分数和可视化效果之间的权衡折中方案。",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},34969,"当 `args.dpm_apply_strategy` 设为 \"all\" 时，噪声生成器是如何工作的？该设置是否有效？","`args.dpm_apply_strategy == \"all\"` 本意是将 DPM-solver 应用于所有时间步，但实际上该分支从未被使用。因为在这种设置下，GRPO loss 中的策略比率（policy ratio）计算会变得不准确。如果在 DanceGRPO 模式下（`args.training_strategy== \"all\"`）观察到同组样本使用相同的初始噪声，那是为了防止奖励黑客而特意设计的设定。","https:\u002F\u002Fgithub.com\u002FTencent-Hunyuan\u002FMixGRPO\u002Fissues\u002F9",[]]