UniPic

863 45 中等 2 次阅读 2天前MIT图像语言模型

AI 解读由 AI 自动生成，仅供参考

UniPic 是由 Skywork 开源的多模态 AI 模型系列，专注于图像编辑、生成和理解三大能力。它通过统一的框架，将图像处理的不同任务整合在一起，让用户可以用一个模型完成多种操作。

该系列目前包含三个版本。UniPic-3 是最新版本，定位为开源 SOTA（当前最优）多图像编辑模型，支持 1 到 6 张图像的输入，既能进行单图精细编辑，也能将多张图像合成为一张新图。它采用了 CM + DMD 蒸馏技术，推理仅需 8 步，速度比传统方法快 12.5 倍。UniPic-2 在文生图和细粒度图像编辑方面表现出色，UniPic-1 则是 15 亿参数的自回归统一模型，兼顾视觉理解和图像生成。

UniPic 适合多种用户群体：设计师可以用它快速完成图像合成和编辑；研究人员可以基于开源代码探索多模态模型；开发者可以将其集成到应用中实现智能化图像处理功能；普通用户也能通过它体验 AI 带来的便捷图像创作。

其核心优势在于统一的多模态架构、高效的推理速度，以及开源可商用的 MIT 许可证，为图像处理领域提供了一个灵活且高性能的解决方案。

使用场景

小李是一名电商公司的平面设计师，负责为新品运动鞋制作产品详情页的展示素材。他需要将产品从白底棚拍图处理成多角度展示图，并合成到真实生活场景中，用于营造“穿上它去运动”的氛围感。

没有 UniPic 时

手动用 Photoshop 逐张调整产品角度、光影和透视，耗时约 2-3 小时才能完成一组 4 张不同角度的展示图
将产品图合成到场景图中需要复杂的蒙版、图层叠加和边缘融合操作，一不小心就会留下明显的拼接痕迹
每次修改产品细节或场景背景都要重新调整所有图层，无法快速迭代多个版本供客户选择
团队没有专业三维建模人员，无法低成本生成产品的“真实场景穿戴图”
多种工具切换使用（PS、AI、Midjourney），输出风格难以统一，后期需要大量统一色调的工作

使用 UniPic 后

只需输入 1 张白底产品图 + 1 张参考场景图 + 文字指令“将这双鞋放置在跑步者的脚上，背景为清晨公园”，UniPic 自动完成角度匹配、光影融合和场景合成，15 分钟内生成 4 张高质量场景图
多图像编辑功能支持同时处理 1-6 张输入，自动保持产品细节一致性和场景透视准确性
8 步推理 + 12.5 倍加速的优化使得批量生成多个版本成为可能，小李可以在一个下午产出 10+ 个不同场景的方案
内置的图像理解和编辑能力消除了手动 PS 的繁琐流程，设计师无需精通图层蒙版等专业技术
统一的多模态框架确保生成结果的风格一致性，避免了多工具混用带来的色调不统一问题

UniPic 将多图像编辑的门槛从专业设计软件操作经验降低到自然语言描述，让电商设计师能够快速产出原本需要专业团队才能完成的高质量场景素材。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notesREADME 中未包含运行环境需求信息。该项目为多模态统一模型，支持图像编辑、生成和理解，包含 UniPic-1、UniPic-2、UniPic-3 三个版本，具体运行环境需求需查阅各子项目的 README 文件

python未说明

快速开始

Skywork-UniPic

用于图像编辑、生成和理解的多模态统一模型

📝 概述

欢迎访问 Skywork-UniPic 仓库！
本仓库托管了 UniPic 统一多模态系列的模型权重和官方实现，包含三种不同的建模范式：

UniPic-3 (README) — 🔥 开源 SOTA 多图像编辑模型。用于单图像编辑和多图像合成的统一框架。支持 1-6 张输入图像，灵活的分辨率支持。通过 CM + DMD 蒸馏实现 8 步推理，速度提升 12.5 倍。
UniPic-2(README) — 基于高效架构的 SD3.5M-Kontext 和 MetaQuery 变体，采用扩散后训练技术，在文本到图像生成、细粒度图像编辑和多模态推理方面提供卓越性能。
UniPic-1(README) — 15 亿参数的统一自回归建模，实现视觉理解和生成的联合建模，使单个 Transformer（变换器）能够同时处理感知和合成任务。

🔥 最新动态

日期	更新内容
2026-01-09	发布 UniPic-3 — 🔥 开源 SOTA 多图像编辑模型。支持单图和多图编辑，1-6 张输入，8 步推理 / 12.5 倍加速
2025-08-13	发布 UniPic-2 — 基于扩散后训练的统一模型权重
2025-07-30	发布 UniPic-1 — 从零开始的自回归统一建模

✨ 核心特性

🎨 文本到图像生成 — 从自然语言提示合成高保真图像。
🛠 图像编辑 — 无缝的修复、扩展和对象操作。
🖼 图像理解 — 强大的视觉任务感知能力。
⚡ 高效架构 — 兼顾精度和部署性能优化。

📜 许可证

本项目采用 MIT 许可证 — 详见 LICENSE 文件。

UniPic 快速上手指南

环境准备

系统要求

操作系统：Linux (推荐 Ubuntu 20.04+)
Python：3.8+
GPU：NVIDIA GPU，显存 ≥ 16GB（推荐 24GB+）

前置依赖

# 创建虚拟环境（推荐）
conda create -n unipic python=3.10
conda activate unipic

# 安装 PyTorch（根据 CUDA 版本选择）
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

# 安装基础依赖
pip install transformers accelerate diffusers

安装步骤

1. 克隆仓库

git clone https://github.com/SkyworkAI/UniPic.git
cd UniPic

2. 安装项目依赖

pip install -r requirements.txt

国内加速：可使用国内镜像源
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

UniPic-3（多图像编辑）

进入目录并查看使用示例：

cd UniPic-3

参考官方推理脚本进行图像编辑：

# 示例命令（请参考具体 README）
python inference.py --input_images path/to/images --prompt "your instruction"

UniPic-2（文本到图像生成）

cd UniPic-2
python inference.py --prompt "your text prompt"

UniPic-1（统一理解与生成）

cd UniPic-1
python inference.py --task generation --input "your input"

模型权重获取

各版本模型权重可通过 HuggingFace 获取：

UniPic-3: https://huggingface.co/collections/Skywork/skywork-unipic3
UniPic-2: https://huggingface.co/collections/Skywork/skywork-unipic2-6899b9e1b038b24674d996fd
UniPic-1: https://huggingface.co/collections/Skywork/skywork-unipic-6888c0789cdb82457b2acf32

注意事项

首次运行会自动下载模型权重，确保网络畅通
显存不足时可尝试降低分辨率或减少输入图像数量
更多详细使用说明请参阅各版本目录下的 README.md

常见问题

deepspeed 是推理必需的吗？在 Windows 上安装很困难怎么办？

为什么推理到后面步骤会变慢且内存占用越来越高？

如何解决运行时的 past_key_values 错误？

UniPic2 中使用的 Flow-GRPO 与原始实现有什么区别？

为什么生成的图像质量不好？

数据集质量不佳，是否有计划重新过滤？

Gradio 界面无法滚动和全屏预览图片怎么办？

如何在 Windows 上正确运行项目？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架