Lumina-DiMOO

GitHub
959 60 中等 2 次阅读 昨天Apache-2.0其他语言模型图像
AI 解读 由 AI 自动生成,仅供参考

Lumina-DiMOO 是一个强大的多模态生成与理解模型,能够处理文本、图像等多种类型的数据。它通过统一的离散扩散架构,实现了高效的多模态内容生成和理解,支持从文本生成图像到图像编辑、修复等多种任务。相比以往方法,Lumina-DiMOO 在采样效率上有了显著提升,并在多个基准测试中表现优异。适合开发者、研究人员以及需要进行多模态内容创作的设计师使用。其独特的离散扩散建模和高速采样技术,使其在生成质量和速度上都具有明显优势。

使用场景

某游戏开发团队正在为一款开放世界冒险游戏设计一个动态生成的环境系统,需要根据玩家输入的文本描述自动生成高质量的场景图像,并支持对已有图像进行编辑和扩展。

没有 Lumina-DiMOO 时

  • 需要依赖多个独立模型处理不同任务,如文本到图像、图像编辑、图像补全等,导致流程复杂且效率低下
  • 图像生成质量不稳定,尤其在高分辨率和复杂场景下容易出现细节缺失或逻辑错误
  • 图像编辑和补全功能受限,无法实现自然流畅的风格迁移或内容扩展
  • 模型推理速度慢,影响实时生成和迭代效率

使用 Lumina-DiMOO 后

  • 通过单一模型完成多模态任务,简化了开发流程并提升了整体一致性
  • 生成图像质量显著提升,支持高分辨率和复杂场景的准确还原
  • 支持高效的图像编辑与补全,实现更自然的视觉效果和内容扩展
  • 采样速度大幅提升,满足实时生成需求,加快开发周期

Lumina-DiMOO 通过统一的多模态能力,显著提升了游戏场景生成的效率与质量。

运行环境要求

操作系统
  • Linux
  • macOS
GPU

需要 NVIDIA GPU,显存 8GB+,CUDA 11.7+

内存

16GB+

依赖
notes建议使用 conda 管理环境,首次运行需下载约 5GB 模型文件。需要安装 CUDA 工具包和 PyTorch。
python3.10
torch>=2.0
transformers>=4.30
accelerate
diffusers
torchvision
numpy
pillow
scikit-learn
tqdm
Lumina-DiMOO hero image

快速开始

Lumina-DiMOO: 一种用于多模态生成与理解的全能扩散大型语言模型

[📑 技术报告 ]   [🌐 项目页面(演示与基准测试)]   [🤗 模型 ]

¹上海创新研究院,²上海人工智能实验室,³上海交通大学,⁴南京大学

⁵悉尼大学,⁶香港中文大学,⁷清华大学

📚 引言

我们推出了Lumina-DiMOO,这是一种用于无缝多模态生成与理解的全能基础模型。Lumina-DiMOO以四项关键创新而著称:

  • 统一的离散扩散架构: Lumina-DiMOO通过采用完全离散的扩散建模来处理各种模态的输入和输出,从而区别于以往的统一模型。

  • 多功能的多模态能力: Lumina-DiMOO支持广泛的多模态任务,包括文本到图像的生成(允许任意分辨率和高分辨率)、图像到图像的生成(例如图像编辑、主体驱动的生成和图像修复等),以及先进的图像理解。

  • 更高的采样效率: 与之前的AR或混合AR-扩散范式相比,Lumina-DiMOO展现出卓越的采样效率。此外,我们设计了一种定制的缓存方法,可将采样速度进一步提升2倍。

  • 卓越的性能: Lumina-DiMOO在多个基准测试中达到了最先进的水平,超越了现有的开源多模态统一模型,为该领域树立了新的标准。

🔥 新闻

  • [2026-02-26] 🎉 我们的dMLLM-TTS已被CVPR 2026接收。
  • [2025-12-23] 我们为扩散MLLM设计了一种独特的测试时缩放算法。更多详情请参见ArXiv (dMLLM-TTS)
  • [2025-11-27] 我们发布了使用VLMEvalKit的评估代码。
  • [2025-10-24] 🎉 我们发布了一份指南,供希望使用掩码范式构建世界的人参考,更多详情请参见ArXivGithub
  • [2025-10-21] 🎉 我们增加了对DiffusersComfyUI的支持。
  • [2025-10-06] 训练代码已发布。
  • [2025-09-25] 我们发布了技术报告。
  • [2025-09-20] 🎉 在最新的UniGenBench排行榜(由腾讯混元团队维护)中,Lumina-DiMOO的生成评估在所有开源统一模型中排名第一🥇。
  • [2025-09-12] 我们开源了图像修复与外推代码。
  • [2025-09-11] 我们开源了基于最大对数似然值的缓存方案,使采样速度提升了2倍。
  • [2025-09-10] 🎉 我们发布了Lumina-DiMOO的初始版本,其中包括:
    • 🎯 在HuggingFace上的模型检查点!
    • 🎯 文本到图像及图像到图像生成推理代码!
    • 🎯 图像理解推理代码!
    • 🎯 项目页面上的网站与演示! 项目页面

📝 开源计划

  • 图像修复与外推代码
  • 基于最大对数似然值的快速采样缓存
  • Diffusers和ComfyUI
  • 基准评估代码
  • 微调代码
  • 技术报告
  • 测试时缩放

📽️ 定性结果

以下是我们与其他模型的对比生成结果。更多可视化结果,请参阅我们的项目页面

文本到图像比较
图像编辑比较
可控与主体驱动生成比较
图像修复与外推

📊 定量性能

GenEval基准测试
DPG基准测试
OneIG-EN基准测试
TIIF基准测试
图像到图像基准测试
图像理解基准测试

🚀 采样速度分析

  • 由于文本生成是以块为单位进行的,而图像生成则采用单一的全局解码步骤,因此其速度既受块数影响,也受步数影响。所以,图像理解的速度提升不如图像生成那样显著。

  • Lumina-DiMOO设置: 对于图像生成,我们采样64步。对于图像理解,我们将块长度设为256,采样步数设为128。

📌 快速入门

⚙️ 安装

1. 创建一个conda环境

git clone https://github.com/Alpha-VLLM/Lumina-DiMOO.git && cd Lumina-DiMOO
conda create -n lumina_dimoo python=3.10 -y
conda activate lumina_dimoo

2. 安装依赖

pip install -r requirements.txt

🧨 如何微调Lumina-DiMOO

第一步:预先提取训练图像的离散编码。

经过特定处理后的最终格式可参考示例json文件assets/mmu_sample.jsonassets/t2i_sample.json

bash pre_tokenizer/run_pre_token.sh

第二步:训练Lumina-DiMOO模型。

bash train/train.sh

🚗 文本到图像生成推理

1. 普通采样

python inference/inference_t2i.py\
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "一张引人注目的照片,展示木制厨房桌上的一杯橙汁,捕捉了一个俏皮的瞬间。橙汁从杯中飞溅而出,在杯子上方以奇幻、漩涡状的字体拼写出‘Smile’一词。背景柔和地虚化,露出温馨舒适的家常厨房,光线温暖而惬意。" \
    --height 768 \
    --width 1536 \
    --timesteps 64 \
    --cfg_scale 4.0 \
    --seed 65513 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_text_to_image

2. DDP 采样

为了支持大规模采样和测试,我们提供了额外的 DDP 采样脚本,支持多 GPU 并行采样。

torchrun --nproc_per_node=8 inference/inference_t2i_ddp.py \
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt_path /path/to/prompts.jsonl \
    --height 1024 \
    --width 1024 \
    --timesteps 64 \
    --cfg_scale 4.0 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_image_to_image_ddp \
    --output_json output/results_image_to_image_ddp/results.json

3. 使用缓存加速采样

  • 添加 --use-cache 参数,可通过基于最大对数似然的缓存(ML-Cache)加速采样。效率与质量之间的权衡可以通过以下参数进行调整:cache_ratio(取值范围为 (0,1),值越大速度越快)、warmup_ratio(取值范围为 [0,1),值越小速度越快),以及 refresh_interval(取值范围为 (1, timesteps-int(warmup_ratio*timesteps)-1],值越大速度越快)。
python inference/inference_t2i.py\
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "一张引人注目的照片,展示木制厨房桌上的一杯橙汁,捕捉了一个俏皮的瞬间。橙汁从杯中飞溅而出,在杯子上方以奇幻、漩涡状的字体拼写出‘Smile’一词。背景柔和地虚化,露出温馨舒适的家常厨房,光线温暖而惬意。" \
    --height 768 \
    --width 1536 \
    --timesteps 64 \
    --cfg_scale 4.0 \
    --seed 65513 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_text_to_image_usecache \
    --use-cache \
    --cache_ratio 0.9 \
    --warmup_ratio 0.3 \
    --refresh_interval 5
  • 我们提供了一块 A800 显卡上的推理时间和显存占用作为参考:
方法 推理时间 推理显存
Lumina-DiMOO 58.2s 38.9 GB
+ ML-Cache 32.2s 45.9 GB

🌟 图像到图像推理

1. 可控生成:“hed_control”、“depth_control”、“openpose_control”、“subject_driven”。

python inference/inference_i2i.py \
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "一个功能性的木质打印机支架。它坐落在繁华都市街道的一堵砖墙旁,行人匆匆而过,被复古街灯温暖的光芒照亮。" \
    --image_path examples/example_2.jpg \
    --edit_type depth_control \
    --timesteps 64 \
    --cfg_scale 2.5 \
    --cfg_img 4.0 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_image_to_image

2. 主体驱动生成。

python inference/inference_i2i.py \
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "一种浓郁香醇的黑色饮品。在黄昏时分的喧嚣都市街头拍摄,该物品放置于露天咖啡馆的桌面上,城市灯光开始闪烁,路人熙熙攘攘,气氛热闹非凡。" \
    --image_path examples/example_3.jpg \
    --edit_type subject_driven \
    --timesteps 64 \
    --cfg_scale 2.5 \
    --cfg_img 4.0 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_image_to_image

3. 图像编辑:“edit_add”、“edit_remove”、“edit_replace”、“edit_background”、“edit_text_transfer”。

python inference/inference_i2i.py \
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "在图像的右中部添加一座米色小屋,带有棕色装饰条和中央镶嵌菱形图案的双开门,占据画面超过三分之一的空间。" \
    --image_path examples/example_4.png \
    --edit_type edit_add \
    --timesteps 64 \
    --cfg_scale 2.5 \
    --cfg_img 4.0 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_image_to_image

4. 风格迁移(以一张图片作为风格参考)

python inference/inference_i2i.py \
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "将当前图像转换为所提供图片的风格。" \
    --image_path examples/example_5.png \
    --ref_image_path examples/example_5_style.png \
    --edit_type image_ref_transfer \
    --timesteps 64 \
    --cfg_scale 2.5 \
    --cfg_img 4.0 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_image_to_image

5. 密集预测:“canny_pred”、“hed_pred”、“depth_pred”、“openpose_pred”、“canny_control”。

python inference/inference_i2i.py \
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "根据图像生成 Canny 边缘图。" \
    --image_path examples/example_1.png \
    --edit_type canny_pred \
    --timesteps 64 \
    --cfg_scale 2.5 \
    --cfg_img 4.0 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_image_to_image

🏃 图像修复与扩展推理

1. 图像修复

python inference/inference_t2i.py\
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "保时捷展厅。请在车后方的墙上添加一个保时捷标志。" \
    --painting_mode inpainting \
    --painting_image examples/example_8.png \
    --mask_h_ratio 0.5 \
    --mask_w_ratio 0.5 \
    --timesteps 64 \
    --cfg_scale 4.0 \
    --seed 65513 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_text_to_image

2. 图像扩展

python inference/inference_t2i.py\
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "一张照片,展现淡金色的月亮,部分被纤细的卷云遮掩,主宰着壮丽的黄昏天空。月光柔和地洒在下方宁静的湖面上,形成波光粼粼的镜面效果;岸边一艘小巧的木船轻轻摇曳。高大古老的松树环绕着湖泊,枝干如骨骼般伸向天空,低垂的薄雾弥漫其间,柔化了月光,增添了一丝静谧的神秘感。整个场景笼罩在柔和而清冷的光线中,营造出空灵迷人的氛围。" \
    --painting_mode outpainting \
    --painting_image examples/example_7.png \
    --mask_h_ratio 1 \
    --mask_w_ratio 0.2 \
    --timesteps 64 \
    --cfg_scale 4.0 \
    --seed 65513 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/results_text_to_image

⚡️ 图像理解推理

python inference/inference_mmu.py \
    --checkpoint Alpha-VLLM/Lumina-DiMOO \
    --prompt "请描述这张图片。" \
    --image_path examples/example_6.jpg \
    --steps 128 \
    --gen_length 128 \
    --block_length 32 \
    --vae_ckpt Alpha-VLLM/Lumina-DiMOO \
    --output_dir output/outputs_text_understanding

🏆 基准评测

我们使用 OpenCompass 提供的 VLMEvalKit 来对 Lumina_DiMOO 进行多基准测试评估。

1. 准备工作

进入 VLMEvalKit 目录并安装所需的依赖:

cd VLMEvalKit
pip install -r requirements.txt

⚠️ 注意事项: 我们使用一个大语言模型作为评判标准来匹配答案。在运行评测之前,您需要编辑 VLMEvalKit/.env 文件,填写您的 OPENAI_API_KEYOPENAI_API_BASE

2. 支持的基准

我们支持以下 5 个基准的评测。请在命令参数中使用对应的 数据名称

基准 数据名称 (--data)
POPE POPE
MME MME
MMBench MMBench_DEV_EN
SEEDBench SEEDBench_IMG
MMMU MMMU_DEV_VAL

3. 运行评测

您可以使用单 GPU 或多 GPU 来进行评测。

单 GPU 评测:

python3 run.py --data MMMU_DEV_VAL --model Lumina_DiMOO --verbose

多 GPU 评测(8 即):

torchrun --nproc-per-node=8 --master_port=29500 run.py \
    --data MMMU_DEV_VAL \
    --model Lumina_DiMOO \
    --verbose

📜 致谢

本工作还得到了 MindSpeed MM 的支持与实现。MindSpeed MM 是华为计算产品线开发和维护的一个开源大规模多模态模型训练框架,专为分布式训练设计。该框架针对华为 Ascend AI 芯片进行了特别优化,能够全面支持分布式训练,并适用于广泛的多模态任务。

📖 BibTeX

@article{xin2025lumina,
  title={Lumina-DiMOO:一种用于多模态生成与理解的全能扩散型大型语言模型},
  author={Xin, Yi 和 Qin, Qi 和 Luo, Siqi 和 Zhu, Kaiwen 和 Yan, Juncheng 和 Tai, Yan 和 Lei, Jiayi 和 Cao, Yuewen 和 Wang, Keqi 和 Wang, Yibin 等},
  journal={arXiv 预印本 arXiv:2510.06308},
  year={2025}
}

@article{xin2025dmllm,
  title={dMLLM-TTS:扩散型多模态大型语言模型的自验证高效测试时缩放},
  author={Xin, Yi 和 Luo, Siqi 和 Qin, Qi 和 Chen, Haoxing 和 Zhu, Kaiwen 和 Zhang, Zhiwei 和 He, Yangfan 和 Zhang, Rongchao 和 Bai, Jinbin 和 Cao, Shuo 等},
  journal={arXiv 预印本 arXiv:2512.19433},
  year={2025}
}

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架