DreamOmni2

2.2k 186 中等 1 次阅读 2天前Apache-2.0图像

AI 解读由 AI 自动生成，仅供参考

DreamOmni2 是一款强大的开源多模态人工智能模型，专注于基于指令的图像编辑与生成。它旨在解决传统工具在处理复杂需求时的局限性：无论是需要严格保留原图非编辑区域的精细修改，还是仅需参考主体身份或抽象风格（如材质、妆容、艺术流派）进行全新创作，DreamOmni2 都能通过结合文本指令与参考图片来精准执行。

该工具的独特亮点在于其“统一架构”设计，将编辑与生成两项通常分离的任务整合到一个模型中。它不仅支持对具体物体的引用，更能理解并复现抽象属性，在保持主体一致性和姿态准确性方面表现卓越，部分能力甚至媲美商业级模型。此外，项目还配套发布了专用评测基准（Benchmark），推动了该领域的标准化发展。

DreamOmni2 非常适合多元用户群体：研究人员可利用其开源代码和基准数据探索多模态前沿技术；开发者能将其集成到 ComfyUI 等工作流中构建应用；设计师和普通用户则可通过 Hugging Face 提供的在线演示，轻松实现高质量的图像创意编辑与生成，无需深厚的技术背景即可享受先进的 AI 视觉能力。

使用场景

一位电商设计师正在为新款珠宝系列制作营销素材，需要基于产品实拍图快速生成多风格广告图并精准修改细节。

没有 DreamOmni2 时

抽象属性难控制：仅靠文字提示词（如“磨砂质感”、“复古雕花”）难以让模型准确理解并还原珠宝的特定材质与工艺细节，往往需要反复试错。
编辑一致性差：在修改背景或模特姿态时，传统编辑工具容易破坏珠宝本身的光影和结构，导致产品主体失真。
工作流割裂：生成新图和修改旧图需要使用两套不同的模型或软件，切换成本高且风格难以统一。
参考图利用低效：无法直接上传一张“参考风格图”来指导生成，只能依赖设计师手动描述，效率低下且偏差大。

使用 DreamOmni2 后

多模态指令精准执行：直接上传珠宝实拍图作为主体参考，再配合一张“丝绸纹理”图片作为风格指引，DreamOmni2 能瞬间生成兼具精准产品特征与指定抽象质感的广告图。
智能编辑保真度高：输入“将模特手势改为托举”的多模态指令，DreamOmni2 在调整姿态的同时，完美保留珠宝原有的反光细节和金属质感，无需后期修图。
统一模型高效流转：无论是从零生成创意海报，还是对现有素材进行局部微调，DreamOmni2 均在同一框架下完成，确保了整套素材视觉风格的高度一致。
复杂概念一键落地：面对“赛博朋克风镶嵌工艺”等复杂抽象概念，DreamOmni2 能结合图像参考与文本指令，输出超越商业模型水准的创意效果。

DreamOmni2 通过融合具体对象与抽象属性的多模态指令能力，将原本繁琐的“描述 - 试错 - 修补”流程简化为“参考 - 指令 - 成品”，极大提升了视觉内容的生产精度与效率。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU (通过 CUDA_VISIBLE_DEVICES 环境变量指定)，具体型号和显存未说明，但运行多模态大模型通常建议 16GB+ 显存

内存

未说明

依赖

notes1. 需通过 huggingface-cli 下载模型权重至 ./models 目录。2. 编辑任务推理时，必须将待编辑的源图片放在输入图片列表的第一位。3. 提供独立的编辑 (web_edit.py) 和生成 (web_generate.py) Web 演示脚本，可分别部署在不同 GPU 上。4. 支持 ComfyUI 工作流 (通过 Runninghub)。5. 具体依赖版本需查看项目根目录下的 requirements.txt 文件。

python3.x (通过 python3 命令推断，具体小版本未说明)

torch

transformers

accelerate

diffusers

gradio

huggingface-cli

Pillow

opencv-python

快速开始

DreamOmni2：多模态指令驱动的编辑与生成

🔥 新闻

🔥2025年10月10日：发布DreamOmni2 编辑演示和生成演示
🔥2025年10月10日：发布DreamOmni2 基准测试。
🔥2025年10月10日：发布DreamOmni2的代码和模型。
🔥2025年10月9日：发布DreamOmni2 技术报告。

简介

(1) 多模态指令驱动的生成

对于基于具体对象的传统主题驱动生成任务，DreamOmni2在开源模型中表现最佳，展现出卓越的身份和姿态一致性。此外，DreamOmni2还能参考抽象属性（如材质、纹理、妆容、发型、姿势、设计风格、艺术风格等），在这方面甚至超越了商业模型。

(2) 多模态指令驱动的编辑

除了传统的指令式编辑模型外，DreamOmni2还支持多模态指令编辑。在日常编辑任务中，常常存在一些难以仅用语言描述、需要参考图像的元素。我们的模型正好解决了这一需求，支持对任何具体对象和抽象属性的参考，其性能可与商业模型相媲美。

(3) 统一的生成与编辑模型

基于上述两项新任务，我们推出了DreamOmni2，它能够在任何具体或抽象概念的指导下，实现多模态指令驱动的编辑和生成。总体而言，DreamOmni2是一款更加智能、功能更强大的开源统一生成与编辑模型，在多种任务上都具备更强的能力。

编辑与生成模型？

编辑和生成是两种不同的任务。编辑要求严格保持源图像未编辑区域的一致性，而生成则只需根据指令保留参考图像中的ID、IP或归属信息，允许对整张图像进行重新生成，重点在于美学效果。我们发现，生成和编辑的指令往往相似，因此我们将这两项任务分开，以便用户更容易选择合适的任务类型。

快速开始

要求与安装

首先，安装必要的依赖：

git clone https://github.com/dvlab-research/DreamOmni2
cd ./DreamOmni2
pip install -r requirements.txt

接下来，将DreamOmni2的权重下载到models文件夹中。

huggingface-cli download --resume-download --local-dir-use-symlinks False xiabs/DreamOmni2 --local-dir ./models

推理

多模态指令驱动的编辑

值得注意的是，对于编辑任务，由于训练数据的格式设置，我们需要将待编辑的图像放在第一位。

python3 /mnt/bn/unifygen/xiabin_dev/iclr2026/DreamOmni2/inference_edit.py \
    --input_img_path "example_input/edit_tests/src.jpg" "example_input/edit_tests/ref.jpg" \
    --input_instruction "让第二张图片中的女人站在第一张图片的道路中央。" \
    --output_path "example_input/edit_tests/edit_res.png"

多模态指令驱动的生成

python3 /mnt/bn/unifygen/xiabin_dev/iclr2026/DreamOmni2/inference_gen.py \
    --input_img_path "example_input/gen_tests/img1.jpg" "example_input/gen_tests/img2.jpg" \
    --input_instruction "场景中，第一张图片的角色站在左侧，第二张图片的角色站在右侧。两人在飞船内部背景下握手。" \
    --output_path "example_input/gen_tests/gen_res.png" \
    --height 1024 \
    --width 1024

Web演示

CUDA_VISIBLE_DEVICES=0 python web_edit.py \
    --vlm_path PATH_TO_VLM \
    --edit_lora_path PATH_TO_DEIT_LORA \
    --server_name "0.0.0.0" \
    --server_port 7860


CUDA_VISIBLE_DEVICES=1 python web_generate.py \
    --vlm_path PATH_TO_VLM \
    --gen_lora_path PATH_TO_GENERATION_LORA \
    --server_name "0.0.0.0" \
    --server_port 7861

免责声明

本项目致力于以积极的方式影响AI驱动的图像生成领域。用户可以自由使用此工具创作图像，但应遵守当地法律并负责任地使用。开发者不对用户的潜在滥用行为承担任何责任。

引用

如果DreamOmni2对您有所帮助，请为本仓库点个赞⭐。

如果您认为本项目对您的研究有帮助，请考虑引用我们的论文。

联系方式

如有任何意见或问题，请新建议题或联系Bin Xia。

DreamOmni2 快速上手指南

DreamOmni2 是一个强大的多模态指令编辑与生成统一模型。它支持基于具体物体或抽象属性（如材质、风格、姿态等）的图像编辑与生成，在开源模型中表现卓越，甚至媲美商业模型。

环境准备

操作系统: Linux (推荐 Ubuntu)
Python: 3.8 或更高版本
GPU: 支持 CUDA 的 NVIDIA 显卡（建议显存 16GB 以上以获得最佳体验）
依赖管理: pip

安装步骤

1. 克隆代码库

git clone https://github.com/dvlab-research/DreamOmni2
cd ./DreamOmni2

2. 安装依赖

pip install -r requirements.txt

提示：国内用户若下载缓慢，可添加清华源加速： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

3. 下载模型权重

使用 Hugging Face CLI 下载模型至 ./models 目录：

huggingface-cli download --resume-download --local-dir-use-symlinks False xiabs/DreamOmni2 --local-dir ./models

注意：如果无法访问 Hugging Face，请自行配置镜像代理或使用国内镜像站下载后放入 ./models 文件夹。

基本使用

DreamOmni2 将编辑和生成分为两个独立任务，请根据需求选择对应的脚本。

场景一：多模态指令编辑 (Editing)

特点：严格保留源图像未编辑区域，仅根据指令和参考图修改特定内容。 关键点：输入图片列表中，待编辑的原图必须放在第一位。

python3 inference_edit.py \
    --input_img_path "example_input/edit_tests/src.jpg" "example_input/edit_tests/ref.jpg" \
    --input_instruction "Make the woman from the second image stand on the road in the first image." \
    --output_path "example_input/edit_tests/edit_res.png"

src.jpg: 背景/源图像（第一位）
ref.jpg: 参考图像（提供人物或物体特征）
instruction: 英文指令，描述如何将参考图元素融合进源图。

场景二：多模态指令生成 (Generation)

特点：基于参考图的 ID、IP 或属性重新生成整张图像，注重美学效果，不强制保留原图背景。

python3 inference_gen.py \
    --input_img_path "example_input/gen_tests/img1.jpg" "example_input/gen_tests/img2.jpg" \
    --input_instruction "In the scene, the character from the first image stands on the left, and the character from the second image stands on the right. They are shaking hands against the backdrop of a spaceship interior." \
    --output_path "example_input/gen_tests/gen_res.png" \
    --height 1024 \
    --width 1024

img1.jpg, img2.jpg: 参考图像列表（顺序对应指令中的描述）
instruction: 英文指令，描述场景构图、动作及背景。
height/width: 生成图像的分辨率。

启动 Web 演示 (可选)

如果你更喜欢图形化界面，可以分别启动编辑和生成的本地 Web Demo：

启动编辑 Demo:

CUDA_VISIBLE_DEVICES=0 python web_edit.py \
    --vlm_path PATH_TO_VLM \
    --edit_lora_path PATH_TO_DEIT_LORA \
    --server_name "0.0.0.0" \
    --server_port 7860

启动生成 Demo:

CUDA_VISIBLE_DEVICES=1 python web_generate.py \
    --vlm_path PATH_TO_VLM \
    --gen_lora_path PATH_TO_GENERATION_LORA \
    --server_name "0.0.0.0" \
    --server_port 7861

(请将 PATH_TO_VLM 和 PATH_TO_..._LORA 替换为实际的模型路径)

常见问题

你们会发布模型权重吗？

运行推理时遇到 'offload_state_dict' 错误怎么办？

为什么选择基于 Kontext 而不是效果更好的 Qwen-Edit？

是否支持 FP8 量化版本或 ComfyUI 工作流？

训练代码什么时候发布？

运行生成模式示例时出现 Token 长度超限错误或结果异常怎么办？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架