DiffSensei
DiffSensei 是一款专注于黑白漫画生成的开源 AI 工具,能够将多模态大语言模型与扩散模型相结合,实现可控、个性化的漫画创作。只需提供一张角色参考图,即可生成该角色在不同姿势、表情和场景下的多样化漫画分镜,分辨率支持从 64 到 2048 像素的灵活调整。
这款工具主要解决了传统漫画创作中角色一致性难以保持、分镜制作耗时费力的问题。对于希望将真人照片转化为漫画风格,或是需要为原创 IP 批量生成漫画内容的创作者而言,DiffSensei 提供了高效的自动化方案。
DiffSensei 适合两类用户:一是 AI 研究者与开发者,可基于其完整代码和 MangaZero 数据集进行多模态生成模型的深入研究;二是漫画创作者与设计师,可通过 Gradio 界面快速上手,无需编写代码即可生成专业级漫画分镜。项目还贴心提供了"无 MLLM"轻量版本,仅需 24GB 显存即可运行,降低了硬件门槛。
技术亮点在于其"双分支"架构设计:多模态大语言模块负责理解复杂的图文指令与对话气泡内容,扩散生成模块则专注于高质量图像渲染,两者协同实现了文字排版与视觉表现的精准对齐。
使用场景
场景:独立漫画创作者小林正在连载一部科幻题材网络漫画《星际快递员》,需要每周更新 20-30 页,且主角"阿杰"的形象必须保持一致。
没有 DiffSensei 时
- 角色一致性噩梦:每次用 Stable Diffusion 生成主角时,发型、眼睛比例、服装细节都会随机变化,需要反复抽卡 20-30 次才能找到接近的,再用 Photoshop 手动修图统一风格
- 分镜效率低下:画一个 6 格对话场景,先写提示词生成背景,再单独生成人物,最后手动拼合,单页耗时 3-4 小时
- 多角色同框灾难:让两个定制角色出现在同一画面时,面部特征会互相"污染",经常出现"阿杰长了配角的胡子"这种离谱结果
- 分辨率受限:现有工具生成漫画分辨率固定,放大后线条模糊,印刷出版时需要重新描线
使用 DiffSensei 后
- 一键锁定角色形象:上传 3-5 张阿杰的参考图,DiffSensei 自动学习角色特征,后续所有生成严格保持统一画风,无需抽卡修图
- 自然语言驱动分镜:直接输入"阿杰在太空站走廊奔跑,身后追着一个机器人,对话框:'包裹不能丢!'",MLLM 自动理解叙事逻辑,一次性生成完整多格漫画
- 精准多角色控制:通过角色 ID 绑定,阿杰和机器人、老板娘等多个角色同框时,各自特征清晰可辨,支持复杂互动场景
- 灵活输出尺寸:从手机阅读的小格漫画到印刷级 2048px 大图无缝切换,线条始终保持锐利,直接满足 Web 连载和实体出版双需求
核心价值:DiffSensei 让个人创作者用自然语言描述故事即可批量生成角色一致、叙事连贯的专业级漫画,将单页制作时间从数小时压缩到分钟级,真正实现"写故事即画漫画"。
运行环境要求
- Linux
必需 NVIDIA GPU,完整版显存需求未明确说明,无 MLLM 版本最低 24GB(RTX 4090),CUDA 12.1
未说明

快速开始
DiffSensei: 连接多模态大语言模型(Multi-Modal LLMs)与扩散模型(Diffusion Models)实现定制化漫画生成



更多演示请访问我们的项目主页。
一个关于 LeCun、Hinton 和 Bengio 获得诺贝尔奖的故事...

🚀 快速概览
DiffSensei 能够生成可控的黑白漫画分镜,并支持灵活的角色适配。

核心特性:
- 🌟 可变分辨率漫画分镜生成(边长 64-2048 像素!)
- 🖼️ 仅需一张角色输入图像,即可创造多种外观
- ✨ 多样化应用:定制化漫画生成、真人漫画创作
🎉 更新动态
- [2025-2-5] 参考训练代码已发布(t2i + condition + mllm)!
- [2024-12-13] 发布了无 MLLM 组件的新版 Gradio 演示(显存占用大幅降低)!
- [2024-12-10] 模型检查点、数据集和推理代码已发布!
🛠️ 快速开始
环境安装
# 使用 Conda 创建新环境
conda create -n diffsensei python=3.11
conda activate diffsensei
# 安装 PyTorch 和 Diffusers 相关包
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
conda install -c conda-forge diffusers transformers accelerate
pip3 install -U xformers --index-url https://download.pytorch.org/whl/cu121
# 安装其他依赖
pip install -r requirements.txt
# 运行 Gradio 演示所需的第三方库
pip install gradio-image-prompter
模型下载
从 Hugging Face 下载 DiffSensei 模型,并按以下结构放置在 checkpoints 文件夹中:
如果您计划不使用 MLLM 组件,可以下载不含 MLLM 组件的模型,并使用 gradio_wo_mllm.py 生成结果。
checkpoints
|- diffsensei
|- image_generator
|- ...
|- mllm
|- ...
使用 Gradio 进行推理
我们提供了 Gradio 演示用于 DiffSensei 推理。
CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio \
--config_path configs/model/diffsensei.yaml \
--inference_config_path configs/inference/diffsensei.yaml \
--ckpt_path checkpoints/diffsensei
我们还提供了无 MLLM 的版本,专为低显存使用场景设计。如果选择此版本,您可以跳过下载检查点中的 MLLM 组件,显著降低显存消耗。(可在单张 24GB 显存的 4090 GPU 上运行,批次大小为 1,适用于中小尺寸分镜)。虽然此版本的文本兼容性可能略有降低,但整体生成质量基本不受影响。
CUDA_VISIBLE_DEVICES=0 \
python -m scripts.demo.gradio_wo_mllm \
--config_path configs/model/diffsensei.yaml \
--inference_config_path configs/inference/diffsensei.yaml \
--ckpt_path checkpoints/diffsensei
请耐心等待。尝试更多提示词、角色和随机种子,下载您喜爱的漫画分镜吧!🤗
MangaZero 数据集
由于许可证问题,我们无法直接分享图像。取而代之的是,我们提供了 MangaZero 数据集的漫画图像 URL(来自 MangaDex)和标注信息。 请注意,发布的 MangaZero 版本约为训练所用完整数据集的 3/4。缺失的图像是因为部分 URL 已不可用。对于类似的漫画数据使用需求,我们强烈建议有兴趣的所有人按照 MangaDex API 的说明,从 MangaDex 自由收集自己的数据集。
请从 Hugging Face 下载 MangaZero。
下载标注文件后,请将标注文件放置在 data/mangazero/annotations.json,并运行 scripts/dataset/download_mangazero.py 以下载和整理图像。
python -m scripts.dataset.download_mangazero \
--ann_path data/mangazero/annotations.json \
--output_image_root data/mangazero/images
参考训练代码
我们发布了用于 t2i 训练、条件训练和 MLLM 训练的参考训练代码。此代码公开发布以支持未来的研究工作。但请注意,代码仍处于测试阶段,无法保证无需调整即可运行。我们建议根据自身数据集和具体需求修改代码。
训练前,请从 IP-Adapter、SDXL 和 SEED-X(仅 MLLM 训练需要)下载检查点。
第一阶段(t2i 训练)的参考代码位于 scripts/train/train_t2i.py。
accelerate launch \
--multi_gpu \
-m scripts.train.train_t2i.yaml \
--config_path configs/train/diffsensei/t2i.yaml \
第二阶段(条件训练)的参考代码位于 scripts/train/train.py
accelerate launch \
--multi_gpu \
-m scripts.train.train \
--config_path configs/train/diffsensei/self_0.5.yaml
第三阶段(MLLM 训练)的参考代码位于 scripts/train/train_mllm.py
accelerate launch \
--multi_gpu \
-m scripts.train.train_mllm \
--config_path configs/train/diffsensei/mllm.yaml
每个脚本命令中的配置文件包含检查点路径。
引用
article{wu2024diffsensei,
title={DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation},
author={Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, and Yunhai Tong},
journal={arXiv preprint arXiv:2412.07589},
year={2024},
}
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
tesseract
Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中