[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Gen-Verse--MMaDA":3,"tool-Gen-Verse--MMaDA":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":109,"forks":110,"last_commit_at":111,"license":112,"difficulty_score":10,"env_os":113,"env_gpu":114,"env_ram":115,"env_deps":116,"category_tags":126,"github_topics":127,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":131,"updated_at":132,"faqs":133,"releases":163},2197,"Gen-Verse\u002FMMaDA","MMaDA","MMaDA - Open-Sourced Multimodal Large Diffusion Language Models (dLLMs with block diffusion, mixed-CoT, unified RL)","MMaDA 是一款全新的多模态扩散基础模型系列，旨在统一处理文本推理、多模态理解及文生图等多种任务。传统 AI 模型往往需要针对不同数据类型（如文字或图像）设计独立的架构，导致系统复杂且难以协同，而 MMaDA 通过统一的扩散架构和与模态无关的设计，彻底消除了对特定组件的依赖，实现了真正的“多面手”能力。\n\n该工具特别适合人工智能研究人员、开发者以及需要构建复杂多模态应用的技术团队使用。其核心亮点在于三项创新技术：首先，它采用共享概率公式的统一扩散架构，让模型能灵活应对各类数据；其次，引入了“混合长思维链（Mixed-CoT）”微调策略，统一了跨模态的逻辑推理格式，显著提升了复杂问题的解决能力；最后，搭载了专为扩散模型定制的 UniGRPO 强化学习算法，通过多样化奖励机制，确保模型在推理和生成任务上均能获得持续的性能提升。无论是探索前沿的多模态理论，还是开发具备深度推理能力的生成式应用，MMaDA 都提供了一个强大且高效的开源基座。","\u003Cdiv align=\"center\">\n\u003Cbr>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_readme_adffbc3a847a.png\" width=\"166\">\n\u003Ch3>Multimodal Large Diffusion Language Models (NeurIPS 2025)\u003C\u002Fh3>\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15809\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA-Paper-red?logo=arxiv&logoColor=red\"\n      alt=\"MMaDA Paper on arXiv\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FGen-Verse\u002FMMaDA\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA%20Demo-Hugging%20Face%20Space-blue?logo=huggingface&logoColor=blue\" \n        alt=\"MMaDA on Hugging Face\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-Base\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA--8B--Base-Hugging%20Face%20Model-orange?logo=huggingface&logoColor=yellow\" \n        alt=\"MMaDA on Hugging Face\"\n    \u002F>\n  \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-MixCoT\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA--8B--MixCoT-Hugging%20Face%20Model-orange?logo=huggingface&logoColor=yellow\" \n        alt=\"MMaDA on Hugging Face\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftyfeld\u002FMMaDA-Parallel-M\">\n  \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA--Parallel-Hugging%20Face%20Model-orange?logo=huggingface&logoColor=yellow\" \n        alt=\"MMaDA on Hugging Face\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRL%20Infra-TraceRL%20Framework-pink?logo=huggingface&logoColor=brown\" \n        alt=\"MMaDA on Hugging Face\"\n    \u002F>\n  \u003C\u002Fa>  \n\u003C\u002Fp>\n\n\n## 🌌 Introduction\nMMaDA is a new family of **multimodal diffusion foundation models** designed to achieve superior performance across diverse domains such as textual reasoning, multimodal understanding, and text-to-image generation. MMaDA is distinguished by three key innovations:\n1. MMaDA adopts a **unified diffusion architecture** with a shared probabilistic formulation and a modality-agnostic design, eliminating the need for modality-specific components.\n2. MMaDA introduces a **mixed long chain-of-thought (CoT) fine-tuning** strategy that curates a unified CoT format across modalities.\n3. MMaDA adopts a unified policy-gradient-based RL algorithm, which we call **UniGRPO**, tailored for diffusion foundation models. Utilizing diversified reward modeling, **UniGRPO** unifies post-training across both reasoning and generation tasks, ensuring consistent performance improvements.\n\n\u003Cdiv align=\"center\" style=\"width: 600px; margin: auto;\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_readme_34b0919d8cf3.gif\" alt=\"MMaDA decoding demo\" width=\"550\" \u002F>\n  \u003Cp style=\"font-style: italic; font-size: 14px; color: #555; margin-top: 6px;\">\n    MMaDA's decoding demo. This video showcases how a diffusion foundation model generates text and image.\u003Cbr>\n    The \"Text Generation\" part uses a semi-autoregressive sampling method, while the \"Multimodal Generation\" part adopts non-autoregressive diffusion denoising.\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n\n\n\n\n\n\u003C!--\n\n\n\n## Decoding Demo\nWe demonstrate the decoding process of MMaDA with a teaser video to show how a diffusion model generates text and image. The \"Text Generation\" part adopts a \"semi-autoregressive\" sampling method and the \"MultiModal Generation\" part adopts a non-autoregressive sampling method which is purely diffusion denoising.\n\n\u003C!-- \u003Cdiv style=\"display: flex; justify-content: center; flex-wrap: wrap;\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_readme_34b0919d8cf3.gif\" style=\"width: 90%\" \u002F>\n\u003C\u002Fdiv> -->\n\n## 📰 Latest Updates\n* **[2025-11-13]** We release **[MMaDA-Parallel](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.09611)**, a new class of multimodal dLLMs for Thinking-Aware Image Editing and Generation.\n* **[2025-09-09]** We open source a comprehensive RL framework for dLLMs, **[dLLM-RL](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL)** with released SOTA instruct and long-CoT models **[TraDo-8B-Instruct](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FTraDo-8B-Instruct), [TraDo-4B-Instruct](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FTraDo-4B-Instruct), and [TraDo-8B-Thinking](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FTraDo-8B-Thinking)**. \n* **[2025-06-02]** We open source our **[MMaDA-8B-MixCoT](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-MixCoT)**. \n* **[2025-05-24]** We add support for MPS inference, tested on M4.\n* **[2025-05-22]** We release the inference and training code of MMaDA for text generation, multimodal generation and image generation. \n* **[2025-05-22]** We open source our **[MMaDA-8B-Base](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-Base)**.\n* **[2025-05-22]** We release our [research paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15809) and [demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FGen-Verse\u002FMMaDA) for the first unified multimodal diffusion model: MMaDA. \n\n\n## 🧬 MMaDA Series Overview\n\nMMaDA includes a series of checkpoints reflecting different training stages:\n1. **[MMaDA-8B-Base](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-Base)**: After pretraining and instruction tuning. Capable of basic text generation, image generation, image captioning and **thinking ablities**.\n2. **[MMaDA-8B-MixCoT](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-MixCoT)**: After mixed long chain-of-thought (CoT) fine-tuning. Capable of **complex** textual, multimodal and image generation reasoning. \n3. **MMaDA-8B-Max (coming soon)**: After UniGRPO reinforment learning. Excels at complex reasoning and awesome visual generation. Will be released in the future.\n4. **[MMaDA-Parallel-A](https:\u002F\u002Fhuggingface.co\u002Ftyfeld\u002FMMaDA-Parallel-A) and [MMaDA-Parallel-M](https:\u002F\u002Fhuggingface.co\u002Ftyfeld\u002FMMaDA-Parallel-M)**: A **parallel thinking-aware** multimodal diffusion model that enables continuous, bidirectional interaction between text and images throughout the entire denoising trajectory.\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_readme_1839a724481b.png\" width=\"800\">\n\u003Cp>\u003Ci>Overview of MMaDA's capablities.\u003C\u002Fi>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n\n## ⚙️ Quick Start\nFirst, set up the enviroment:\n```\npip install -r requirements.txt\n```\nLaunch local Gradio demo:\n```\npython app.py\n```\nOr try it online via our [Huggingface Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FGen-Verse\u002FMMaDA).\n\n## 🚀 Inference\nFor batch-level inference, we provide our inference scripts here.\n### 1. Text Generation\nFor text generation, we follow LLaDA's configuration and generation script. Simple run:\n```bash\npython generate.py\n```\n\n### 2. MultiModal Generation\nFor multimodal generation and text-to-image generation, first login your wandb account:\n```\nwandb login\n```\nInference demo for MultiModal Generation and you can view the results on wandb:\n```\npython3 inference_mmu.py \\\n  config=configs\u002Fmmada_demo.yaml \\\n  mmu_image_root=.\u002Fmmu_validation \\\n  mmu_prompts_file=.\u002Fmmu_validation\u002Fprompts_with_vqa.json \\\n```\n\n### 3. Text-to-Image Genertion\nFor multimodal generation and text-to-image generation, first login your wandb account:\n```\nwandb login\n```\nInference demo for Text-to-Image Genertion and you can view the results on wandb:\n```\npython3 inference_t2i.py config=configs\u002Fmmada_demo.yaml batch_size=1 validation_prompts_file=validation_prompts\u002Ftext2image_prompts.txt guidance_scale=3.5 generation_timesteps=15\nmode='t2i'\n```\n\n## 🔧 Training\n**Update your training data path in `configs\u002Fxx.yaml`.**\n\n### Stage 0. Prepare your accelerate configs\nPlease first prepare your accelerate configs. You can simple run\n```\naccelerate config\n```\n\nOr use our provided configs in `accelerate_configs`:\n```\n├── accelerate_configs\u002F \n|   ├── 1_gpu.yaml\n|   └── 8_node_8_gpus_deepspeed_zero2.yaml (for 8 * 8 gpus)\n```\n\n### Stage 1.1: Pre-training on ImageNet\nFirst we use LLaDA-8B-Instruct to initialize our model, and train on ImageNet for basic visual capbalities. \n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada.py config=configs\u002Fmmada_pretraining_stage1_llada_instruct.yaml\n```\n\n### Stage 1.2 Pre-training on Image-Text Dataset\nThen we replace the ImageNet dataset in Stage 1.1 with Image-Text Dataset. Please change the pretrained model path in `mmada_pretraining_stage2_llada_instruct.yaml` with your checkpoint in Stage 1.1\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada_stage2.py config=configs\u002Fmmada_pretraining_stage2_llada_instruct.yaml\n```\n\n### Stage 1.3 Pre-training on Text Instruction following\nIn this stage, we begin training on text instruction following and include corresponding validations. Please change the pretrained model path in `mmada_pretraining_stage3_llada_instruct.yaml` with your checkpoint in Stage 1.2\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada_stage3.py config=configs\u002Fmmada_pretraining_stage3_llada_instruct.yaml\n```\n\n### Stage 2.1 Mix-CoT Training (Text Only)\nIn this stage, we begin our Mix-CoT finetuning with text reasoning first, along with improved image quality. Please change the pretrained model path in `mmada_pretraining_stage3_llada_instruct.yaml` with your checkpoint in Stage 1.3 and prepare your CoT data.\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada_stage_cot_sft.py config=configs\u002Fmmada_pretraining_stage3_llada_instruct_512_cot.yaml\n```\n\n### Stage 2.2 Mix-CoT Training (with MultiModal Reasoning)\nIn this stage, we include multimodal reasoning, along with improved image quality. Please change the pretrained model path in `mmada_pretraining_stage3_llada_instruct.yaml` with your checkpoint in Stage 2.1 and prepare your CoT data.\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada_stage4.py config=configs\u002Fmmada_pretraining_stage4_llada_instruct.yaml\n```\n\n### Stage 3 UniGRPO RL\n\n**Note:** The UniGRPO algorithm has been further implemented and integrated in our [dLLM-RL](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL) repository. If you want to aggregate multiple rewards together, the key file to modify is [`.\u002Freward\u002Frl_reward_v.py`](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL\u002Fblob\u002Fmain\u002Freward\u002Frl_reward_v.py) — this should be the only change needed.\n\n\n## 📊 Evaluation\n\nPlease refer to [evaluation\u002Feval.md](evaluation\u002Feval.md) for more details.\n\n## 📖 Citation\n```\n@article{yang2025mmada,\n  title={MMaDA: Multimodal Large Diffusion Language Models},\n  author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},\n  journal={arXiv preprint arXiv:2505.15809},\n  year={2025}\n}\n```\n\n## 🤝 Acknowledgments\nThis work is heavily based on  [dLLM-RL](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL), [Show-o](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FShow-o), [LLaDA](https:\u002F\u002Fgithub.com\u002FML-GSAI\u002FLLaDA), [maskgit](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fmaskgit), [transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers), [accelerate](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Faccelerate) and [webdataset](https:\u002F\u002Fgithub.com\u002Fwebdataset\u002Fwebdataset). Thanks to all the authors for their great work.\n\n\n\n\n","\u003Cdiv align=\"center\">\n\u003Cbr>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_readme_adffbc3a847a.png\" width=\"166\">\n\u003Ch3>多模态大型扩散语言模型（NeurIPS 2025）\u003C\u002Fh3>\u003C\u002Fdiv>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15809\">\n    \u003Cimg\n      src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA-Paper-red?logo=arxiv&logoColor=red\"\n      alt=\"MMaDA论文在arXiv上\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FGen-Verse\u002FMMaDA\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA%20Demo-Hugging%20Face%20Space-blue?logo=huggingface&logoColor=blue\" \n        alt=\"MMaDA在Hugging Face上的演示\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-Base\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA--8B--Base-Hugging%20Face%20Model-orange?logo=huggingface&logoColor=yellow\" \n        alt=\"MMaDA在Hugging Face上的模型\"\n    \u002F>\n  \u003C\u002Fa>\n    \u003Ca href=\"https6:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-MixCoT\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA--8B--MixCoT-Hugging%20Face%20Model-orange?logo=huggingface&logoColor=yellow\" \n        alt=\"MMaDA在Hugging Face上的模型\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Ftyfeld\u002FMMaDA-Parallel-M\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMMaDA--Parallel-Hugging%20Face%20Model-orange?logo=huggingface&logoColor=yellow\" \n        alt=\"MMaDA在Hugging Face上的模型\"\n    \u002F>\n  \u003C\u002Fa>\n  \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL\">\n    \u003Cimg \n        src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FRL%20Infra-TraceRL%20Framework-pink?logo=huggingface&logoColor=brown\" \n        alt=\"MMaDA在Hugging Face上的基础设施\"\n    \u002F>\n  \u003C\u002Fa>  \n\u003C\u002Fp>\n\n\n## 🌌 简介\nMMaDA 是一个全新的 **多模态扩散基础模型** 家族，旨在文本推理、多模态理解以及文生图等多样化任务中实现卓越性能。MMaDA 的三大创新点如下：\n1. MMaDA 采用 **统一的扩散架构**，具备共享的概率公式和模态无关的设计，从而无需针对不同模态单独构建组件。\n2. MMaDA 引入了一种 **混合长链式思维（CoT）微调** 策略，能够跨模态整合并形成统一的 CoT 格式。\n3. MMaDA 采用了基于策略梯度的统一强化学习算法——我们称之为 **UniGRPO**，专为扩散基础模型量身定制。通过多样化的奖励建模方式，**UniGRPO** 能够将推理与生成两类任务的后训练过程统一起来，确保性能持续提升。\n\n\u003Cdiv align=\"center\" style=\"width: 600px; margin: auto;\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_readme_34b0919d8cf3.gif\" alt=\"MMaDA解码演示\" width=\"550\" \u002F>\n  \u003Cp style=\"font-style: italic; font-size: 14px; color: #555; margin-top: 6px;\">\n    MMaDA的解码演示。本视频展示了扩散基础模型如何生成文本和图像。\u003Cbr>\n    其中“文本生成”部分采用半自回归采样方法，“多模态生成”部分则采用非自回归的扩散去噪技术。\n  \u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n\n\n\n\n\n\u003C!--\n\n\n\n## 解码演示\n我们通过一段预告视频展示MMaDA的解码过程，说明扩散模型如何生成文本和图像。其中“文本生成”部分采用“半自回归”采样方法，“多模态生成”部分则采用纯扩散去噪的非自回归采样方法。\n\n\u003C!-- \u003Cdiv style=\"display: flex; justify-content: center; flex-wrap: wrap;\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_readme_34b0919d8cf3.gif\" style=\"width: 90%\" \u002F>\n\u003C\u002Fdiv> -->\n\n## 📰 最新动态\n* **[2025-11-13]** 我们发布了 **[MMaDA-Parallel](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.09611)**，这是一类用于思考感知型图像编辑与生成的新多模态dLLM。\n* **[2025-09-09]** 我们开源了面向dLLM的综合强化学习框架 **[dLLM-RL](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL)**，同时发布了SOTA指令微调及长CoT模型 **[TraDo-8B-Instruct](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FTraDo-8B-Instruct)、[TraDo-4B-Instruct](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FTraDo-4B-Instruct) 和 [TraDo-8B-Thinking](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FTraDo-8B-Thinking)**。\n* **[2025-06-02]** 我们开源了 **[MMaDA-8B-MixCoT](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-MixCoT)**。\n* **[2025-05-24]** 我们新增了对MPS推理的支持，并已在M4设备上进行了测试。\n* **[2025-05-22]** 我们发布了MMaDA用于文本生成、多模态生成和图像生成的推理与训练代码。\n* **[2025-05-22]** 我们开源了 **[MMaDA-8B-Base](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-Base)**。\n* **[2025-05-22]** 我们发布了关于首个统一多模态扩散模型MMaDA的研究论文（https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.15809）及其演示页面（https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FGen-Verse\u002FMMaDA）。\n\n\n## 🧬 MMaDA系列概览\n\nMMaDA包含一系列反映不同训练阶段的检查点：\n1. **[MMaDA-8B-Base](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-Base)**：完成预训练与指令微调后，具备基础的文本生成、图像生成、图像描述以及 **思考能力**。\n2. **[MMaDA-8B-MixCoT](https:\u002F\u002Fhuggingface.co\u002FGen-Verse\u002FMMaDA-8B-MixCoT)**：经过混合长链式思维（CoT）微调后，能够进行 **复杂** 的文本、多模态及图像生成推理。\n3. **MMaDA-8B-Max（即将发布）**：在UniGRPO强化学习完成后，将在复杂推理和惊艳的视觉生成方面表现卓越，未来将正式推出。\n4. **[MMaDA-Parallel-A](https:\u002F\u002Fhuggingface.co\u002Ftyfeld\u002FMMaDA-Parallel-A) 和 [MMaDA-Parallel-M](https:\u002F\u002Fhuggingface.co\u002Ftyfeld\u002FMMaDA-Parallel-M)**：这是一类 **并行思考感知型** 多模态扩散模型，可在整个去噪过程中实现文本与图像之间的连续双向交互。\n\u003Cdiv align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_readme_1839a724481b.png\" width=\"800\">\n\u003Cp>\u003Ci>MMaDA功能概览。\u003C\u002Fi>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n\n## ⚙️ 快速入门\n首先，请搭建环境：\n```\npip install -r requirements.txt\n```\n然后启动本地Gradio演示：\n```\npython app.py\n```\n或者您也可以通过我们的[Hugging Face演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FGen-Verse\u002FMMaDA)在线体验。\n\n## 🚀 推理\n对于批量推理，我们在此提供相应的推理脚本。\n### 1. 文本生成\n在文本生成方面，我们沿用了LLaDA的配置与生成脚本。简单运行如下：\n```bash\npython generate.py\n```\n\n### 2. 多模态生成\n对于多模态生成及文生图任务，首先请登录您的wandb账号：\n```\nwandb login\n```\n随后即可运行多模态生成的推理演示，并在wandb上查看结果：\n```\npython3 inference_mmu.py \\\n  config=configs\u002Fmmada_demo.yaml \\\n  mmu_image_root=.\u002Fmmu_validation \\\n  mmu_prompts_file=.\u002Fmmu_validation\u002Fprompts_with_vqa.json \\\n```\n\n### 3. 文本到图像生成\n对于多模态生成和文本到图像生成，首先登录您的 wandb 账户：\n```\nwandb login\n```\n文本到图像生成的推理演示，您可以在 wandb 上查看结果：\n```\npython3 inference_t2i.py config=configs\u002Fmmada_demo.yaml batch_size=1 validation_prompts_file=validation_prompts\u002Ftext2image_prompts.txt guidance_scale=3.5 generation_timesteps=15\nmode='t2i'\n```\n\n## 🔧 训练\n**请在 `configs\u002Fxx.yaml` 中更新您的训练数据路径。**\n\n### 阶段 0：准备您的 accelerate 配置\n请先准备好您的 accelerate 配置。您可以简单运行：\n```\naccelerate config\n```\n\n或者使用我们提供的 `accelerate_configs` 中的配置文件：\n```\n├── accelerate_configs\u002F \n|   ├── 1_gpu.yaml\n|   └── 8_node_8_gpus_deepspeed_zero2.yaml (用于 8 台机器、每台 8 张 GPU)\n```\n\n### 阶段 1.1：在 ImageNet 数据集上预训练\n首先我们使用 LLaDA-8B-Instruct 初始化模型，并在 ImageNet 数据集上进行训练，以获得基础的视觉能力。\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada.py config=configs\u002Fmmada_pretraining_stage1_llada_instruct.yaml\n```\n\n### 阶段 1.2：在图文数据集上预训练\n接下来，我们将阶段 1.1 中的 ImageNet 数据集替换为图文数据集。请将 `mmada_pretraining_stage2_llada_instruct.yaml` 文件中的预训练模型路径替换为您在阶段 1.1 中得到的检查点。\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada_stage2.py config=configs\u002Fmmada_pretraining_stage2_llada_instruct.yaml\n```\n\n### 阶段 1.3：在文本指令遵循任务上预训练\n在这个阶段，我们开始进行文本指令遵循任务的训练，并加入相应的验证步骤。请将 `mmada_pretraining_stage3_llada_instruct.yaml` 文件中的预训练模型路径替换为您在阶段 1.2 中得到的检查点。\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada_stage3.py config=configs\u002Fmmada_pretraining_stage3_llada_instruct.yaml\n```\n\n### 阶段 2.1：混合 CoT 训练（纯文本）\n在这个阶段，我们首先进行基于文本推理的 Mix-CoT 微调，同时提升图像质量。请将 `mmada_pretraining_stage3_llada_instruct.yaml` 文件中的预训练模型路径替换为您在阶段 1.3 中得到的检查点，并准备好您的 CoT 数据。\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada_stage_cot_sft.py config=configs\u002Fmmada_pretraining_stage3_llada_instruct_512_cot.yaml\n```\n\n### 阶段 2.2：混合 CoT 训练（包含多模态推理）\n在这个阶段，我们加入了多模态推理，并进一步提升图像质量。请将 `mmada_pretraining_stage3_llada_instruct.yaml` 文件中的预训练模型路径替换为您在阶段 2.1 中得到的检查点，并准备好您的 CoT 数据。\n```\naccelerate launch --config_file path\u002Fto\u002Fyour\u002Faccelerate_config --main_process_port=8888 training\u002Ftrain_mmada_stage4.py config=configs\u002Fmmada_pretraining_stage4_llada_instruct.yaml\n```\n\n### 阶段 3 UniGRPO RL\n\n**注意：** UniGRPO 算法已被进一步实现并集成到我们的 [dLLM-RL](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL) 仓库中。如果您希望将多个奖励整合在一起，需要修改的关键文件是 [`.\u002Freward\u002Frl_reward_v.py`](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL\u002Fblob\u002Fmain\u002Freward\u002Frl_reward_v.py)，这应该是唯一的改动。\n\n## 📊 评估\n\n更多详情请参阅 [evaluation\u002Feval.md](evaluation\u002Feval.md)。\n\n## 📖 引用\n```\n@article{yang2025mmada,\n  title={MMaDA: 多模态大型扩散语言模型},\n  author={Yang, Ling 和 Tian, Ye 和 Li, Bowen 和 Zhang, Xinchen 和 Shen, Ke 和 Tong, Yunhai 和 Wang, Mengdi},\n  journal={arXiv 预印本 arXiv:2505.15809},\n  year={2025}\n}\n```\n\n## 🤝 致谢\n本工作大量借鉴了 [dLLM-RL](https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FdLLM-RL)、[Show-o](https:\u002F\u002Fgithub.com\u002Fshowlab\u002FShow-o)、[LLaDA](https:\u002F\u002Fgithub.com\u002FML-GSAI\u002FLLaDA)、[maskgit](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fmaskgit)、[transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)、[accelerate](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Faccelerate) 和 [webdataset](https:\u002F\u002Fgithub.com\u002Fwebdataset\u002Fwebdataset) 的工作。感谢所有作者的杰出贡献。","# MMaDA 快速上手指南\n\nMMaDA 是一个全新的**多模态扩散基础模型**系列，旨在通过统一的扩散架构，在文本推理、多模态理解和文生图任务中实现卓越性能。本指南将帮助您快速搭建环境并运行模型。\n\n## 1. 环境准备\n\n### 系统要求\n- **操作系统**: Linux (推荐) 或 macOS (已支持 MPS 加速，已在 M4 芯片测试)。\n- **Python**: 3.8 或更高版本。\n- **GPU**: 推荐使用 NVIDIA GPU (需安装 CUDA)，Mac Apple Silicon 芯片可使用 MPS 进行推理。\n- **依赖管理**: 建议使用 `conda` 或 `venv` 创建独立虚拟环境。\n\n### 前置依赖\n确保已安装 Git 和基本的编译工具。若使用国内网络环境，建议在安装 Python 依赖时配置清华或阿里镜像源以加速下载。\n\n## 2. 安装步骤\n\n### 克隆项目\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FMMaDA.git\ncd MMaDA\n```\n\n### 安装依赖\n使用 pip 安装所需库。**国内用户推荐添加镜像源参数**：\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 配置 Accelerate (训练必需)\n如果您计划进行模型训练或微调，需先配置分布式训练环境：\n```bash\naccelerate config\n```\n*注：也可直接使用项目中 `accelerate_configs\u002F` 目录下提供的预设配置文件（如单卡或多卡 DeepSpeed 配置）。*\n\n## 3. 基本使用\n\n### 方式一：启动本地演示界面 (推荐新手)\n最简单的方式是启动基于 Gradio 的本地 Web 界面，即可在浏览器中体验文本生成、多模态对话及文生图功能。\n\n```bash\npython app.py\n```\n启动后，终端会显示本地访问地址（通常为 `http:\u002F\u002F127.0.0.1:7860`），在浏览器打开即可使用。\n\n> **在线体验**: 如果不想本地部署，可直接访问 [Hugging Face Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FGen-Verse\u002FMMaDA)。\n\n### 方式二：命令行推理\n\n#### 1. 文本生成\n执行简单的文本生成脚本（默认加载配置）：\n```bash\npython generate.py\n```\n\n#### 2. 多模态生成与文生图\n进行多模态理解或文生图任务前，需登录 Weights & Biases (wandb) 以记录结果（可选，但脚本默认调用）：\n```bash\nwandb login\n```\n\n**多模态生成示例**：\n```bash\npython3 inference_mmu.py \\\n  config=configs\u002Fmmada_demo.yaml \\\n  mmu_image_root=.\u002Fmmu_validation \\\n  mmu_prompts_file=.\u002Fmmu_validation\u002Fprompts_with_vqa.json\n```\n*运行完成后，可在 wandb 面板查看生成的图像和结果。*\n\n**文生图 (Text-to-Image) 示例**：\n```bash\npython3 inference_t2i.py config=configs\u002Fmmada_demo.yaml batch_size=1 validation_prompts_file=validation_prompts\u002Ftext2image_prompts.txt guidance_scale=3.5 generation_timesteps=15 mode='t2i'\n```\n\n### 模型选择\n本项目提供多个预训练权重，可根据需求在 Hugging Face 下载并替换配置文件中的路径：\n- **MMaDA-8B-Base**: 基础版，具备基本的文本\u002F图像生成及思维链能力。\n- **MMaDA-8B-MixCoT**: 混合长思维链微调版，擅长复杂推理和多模态任务。\n- **MMaDA-Parallel**: 并行思维感知版，支持图文双向连续交互（适用于图像编辑等高级任务）。","某电商平台的智能营销团队需要快速生成包含产品深度解析文案与高质量展示图的社交媒体推广内容。\n\n### 没有 MMaDA 时\n- **多模型协作繁琐**：需分别调用文本大模型写文案、专用绘图模型生图，再通过脚本拼接，流程割裂且延迟高。\n- **图文逻辑不一致**：生成的图片细节（如颜色、款式）常与文案描述冲突，缺乏统一的语义理解导致“文不对图”。\n- **复杂推理能力弱**：面对需要多步推导的产品卖点分析（如对比竞品参数），传统模型难以输出连贯的长思维链（CoT）。\n- **微调成本高昂**：若要提升特定领域的图文一致性，需针对不同模态分别构建数据集并进行独立的强化学习训练。\n\n### 使用 MMaDA 后\n- **统一架构端到端生成**：MMaDA 凭借统一的扩散架构，单次推理即可同步输出逻辑严密的文案与高度匹配的图片，大幅降低延迟。\n- **跨模态语义强对齐**：基于混合长思维链（Mixed-CoT）微调，MMaDA 能确保图片中的每一个像素细节都严格呼应文案中的推理结论。\n- **深度推理自然流露**：利用半自回归采样与非自回归去噪的结合，MMaDA 在处理复杂产品对比时，能展现清晰的逐步推导过程。\n- **一体化强化学习优化**：通过 UniGRPO 算法，团队只需一套奖励机制即可同时优化文案质量与图像美感，显著降低训练门槛。\n\nMMaDA 通过统一的扩散基础模型架构，彻底打破了文本推理与图像生成之间的壁垒，实现了真正的多模态智能协同。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FGen-Verse_MMaDA_adffbc3a.png","Gen-Verse","Princeton-AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FGen-Verse_bec71234.png","Open-source research from Princeton AI Lab, led by Ling Yang and Mengdi Wang",null,"ly1988@princeton.edu","LingYang_PU","https:\u002F\u002Fyangling0818.github.io\u002F","https:\u002F\u002Fgithub.com\u002FGen-Verse",[85,89,93,97,100,103,106],{"name":86,"color":87,"percentage":88},"Python","#3572A5",99.4,{"name":90,"color":91,"percentage":92},"Jupyter Notebook","#DA5B0B",0.4,{"name":94,"color":95,"percentage":96},"CSS","#663399",0,{"name":98,"color":99,"percentage":96},"Makefile","#427819",{"name":101,"color":102,"percentage":96},"Shell","#89e051",{"name":104,"color":105,"percentage":96},"HTML","#e34c26",{"name":107,"color":108,"percentage":96},"JavaScript","#f1e05a",1620,86,"2026-04-05T04:35:16","MIT","Linux, macOS","训练需要 NVIDIA GPU (支持 DeepSpeed Zero2 多卡配置，示例为 8x8 GPUs)；推理支持 Apple Silicon (M4\u002FMPS)。具体显存和 CUDA 版本未在文中明确说明，但基于 8B 参数模型及 Diffusion 架构，通常建议 24GB+ 显存及较新 CUDA 版本。","未说明",{"notes":117,"python":115,"dependencies":118},"1. 该项目基于 LLaDA、Show-o 等架构，核心为多模态扩散基础模型 (8B 参数)。\n2. 训练流程复杂，分为预训练 (ImageNet\u002F图文\u002F指令)、Mix-CoT 微调及 UniGRPO 强化学习多个阶段，需配置 accelerate 环境。\n3. 推理部分支持文本生成、多模态生成及文生图，多模态和文生图任务需登录 WandB 查看结果。\n4. 已明确支持 macOS MPS 加速推理 (在 M4 芯片上测试)。\n5. 强化学习算法 UniGRPO 的代码已集成到独立的 dLLM-RL 仓库中。",[119,120,121,122,123,124,125],"torch","transformers","accelerate","gradio","wandb","webdataset","deepspeed",[26,14,54],[128,129,130],"diffusion-models","llm-reasoning","unified-multimodal-understanding-and-generation","2026-03-27T02:49:30.150509","2026-04-06T05:27:03.049859",[134,139,144,149,154,159],{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},10134,"为什么 MMaDA 的多模态理解（图像描述）输出总是很短，只返回 \"a\" 或 \"an image\"？","这是因为项目最近将评估重点转向了需要更长文本输出的推理场景，因此缩短了图像描述任务的默认输出长度。解决方法有两种：\n1. 修改 `inference_mmu.py` 第 101 行，增加生成长度参数：\n   `output_ids = model.mmu_generate(input_ids, max_new_tokens=256, steps=256, block_length=64)`\n2. 参考最新的验证代码 `train_mmada_stage4.py` 中的验证函数，因为现有的 `inference_mmu.py` 主要针对旧检查点优化，稍显过时。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FMMaDA\u002Fissues\u002F54",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},10135,"MMaDA 在文生图（Text-to-Image）任务中是否支持端到端的思维链（CoT）生成？","目前的训练和推理代码中**不包含**用于图像生成的端到端思维链（CoT）。如果在图像生成任务中需要使用 CoT，可以先使用“多模态推理（Multimodal reasoning）”的训练脚本来生成 CoT 轨迹，然后将这些生成的 CoT 作为输入用于后续的图像生成任务。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FMMaDA\u002Fissues\u002F30",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},10136,"MMaDA 的 Token 排列方式是怎样的？为什么配置中的 `llm_vocab_size` 与 tokenizer 的实际长度不一致？","词汇表大小的扩展是为了满足整除性和硬件效率（如张量并行分片和 CUDA 内核对齐）。\n具体排列如下：\n1. `llm_vocab_size` (126464) = 原始文本 tokenizer 大小 (126349) + 少量特殊控制令牌，并填充至 64 的倍数。填充部分不会被 tokenizer 使用。\n2. `new_vocab_size` (134656) = `llm_vocab_size` + 图像码本大小 (8192)。\n\nToken 布局（Logits 维度）：\n- `[0, llm_vocab_size)`：文本令牌\n- `[llm_vocab_size, llm_vocab_size + 8192)`：图像令牌（码本 ID 0..8191 偏移 `llm_vocab_size` 后存放）","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FMMaDA\u002Fissues\u002F49",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},10137,"在使用 VLMEvalKit 评估 MMaDA（如 MME, MMMU, MMB 等数据集）时，应该使用默认参数还是针对特定数据集调整参数？","通常情况下，直接使用 VLMEvalKit 中的默认参数（`DEFAULT_KWARGS`）即可正常评估。\n但在处理数学推理等特定任务时，建议使用带有思维链（CoT）的提示词（prompt），并设置更长的 `max_new_tokens`（例如 1024 或更多），以获得更高的分数。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FMMaDA\u002Fissues\u002F47",{"id":155,"question_zh":156,"answer_zh":157,"source_url":158},10138,"运行 Stage 1.1 (ImageNet 预训练) 时程序卡在 `combined_dataloader` 循环处怎么办？","这通常是由于数据集配置或加载问题导致的。请检查以下几点：\n1. 确认数据集路径配置正确，且数据格式符合预期。\n2. 如果完整数据集过大，尝试仅选取部分数据进行测试时，需确保每个子数据集的结构完整，避免切片操作破坏了数据加载器的索引逻辑。\n3. 检查是否错误地移除了必要的 caption 数据导致加载器行为异常。建议先使用官方提供的完整配置或小规模完整样本复现，再逐步修改以适应本地环境。","https:\u002F\u002Fgithub.com\u002FGen-Verse\u002FMMaDA\u002Fissues\u002F14",{"id":160,"question_zh":161,"answer_zh":162,"source_url":143},10139,"论文中提到文生图使用了统一的 CoT 风格轨迹，这些轨迹具体是如何生成和使用的？","在实验设置中，为了进行具备世界知识的图像生成，作者使用了 GPT-4.1 来合成跨越科学、文化和地标的事实性“物品 - 描述”对，并将它们格式化为统一的 CoT 风格轨迹。这些轨迹并非由模型在推理时实时端到端生成，而是作为预处理数据或在特定训练阶段（多模态推理训练）生成后，再用于指导图像生成任务。",[]]