[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-jianzongwu--DiffSensei":3,"tool-jianzongwu--DiffSensei":64},[4,17,26,40,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,2,"2026-04-03T11:11:01",[13,14,15],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":23,"last_commit_at":32,"category_tags":33,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,34,35,36,15,37,38,13,39],"数据工具","视频","插件","其他","语言模型","音频",{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,38,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[38,14,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},2471,"tesseract","tesseract-ocr\u002Ftesseract","Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。\n\n在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。\n\nTesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中",73286,"2026-04-03T01:56:45",[13,14],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":80,"owner_email":81,"owner_twitter":81,"owner_website":81,"owner_url":82,"languages":83,"stars":88,"forks":89,"last_commit_at":90,"license":81,"difficulty_score":10,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":108,"github_topics":81,"view_count":10,"oss_zip_url":81,"oss_zip_packed_at":81,"status":16,"created_at":109,"updated_at":110,"faqs":111,"releases":151},941,"jianzongwu\u002FDiffSensei","DiffSensei","Implementation of [CVPR 2025] \"DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation\"","DiffSensei 是一款专注于黑白漫画生成的开源 AI 工具，能够将多模态大语言模型与扩散模型相结合，实现可控、个性化的漫画创作。只需提供一张角色参考图，即可生成该角色在不同姿势、表情和场景下的多样化漫画分镜，分辨率支持从 64 到 2048 像素的灵活调整。\n\n这款工具主要解决了传统漫画创作中角色一致性难以保持、分镜制作耗时费力的问题。对于希望将真人照片转化为漫画风格，或是需要为原创 IP 批量生成漫画内容的创作者而言，DiffSensei 提供了高效的自动化方案。\n\nDiffSensei 适合两类用户：一是 AI 研究者与开发者，可基于其完整代码和 MangaZero 数据集进行多模态生成模型的深入研究；二是漫画创作者与设计师，可通过 Gradio 界面快速上手，无需编写代码即可生成专业级漫画分镜。项目还贴心提供了\"无 MLLM\"轻量版本，仅需 24GB 显存即可运行，降低了硬件门槛。\n\n技术亮点在于其\"双分支\"架构设计：多模态大语言模块负责理解复杂的图文指令与对话气泡内容，扩散生成模块则专注于高质量图像渲染，两者协同实现了文字排版与视觉表现的精准对齐。","# DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation\n\n\u003Cdiv align=\"center\">\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2410.08261-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.07589)\n[![Project Page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-blue?logo=github-pages)](https:\u002F\u002Fjianzongwu.github.io\u002Fprojects\u002Fdiffsensei)\n[![Video](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYouTube-Video-FF0000?logo=youtube)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=TLJ0MYZmoXc&source_ve_path=OTY3MTQ)\n[![Checkpoint](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗%20Huggingface-Model-yellow)](https:\u002F\u002Fhuggingface.co\u002Fjianzongwu\u002FDiffSensei)\n[![Dataset](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗%20Huggingface-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fjianzongwu\u002FMangaZero)\n\n\n\u003C\u002Fdiv>\n\n![Page results caption1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_8555e420d57a.png)\n\n![Page results1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_1fff81074434.png)\n\n![Page results2](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_b26a5d4ef71a.png)\n\nMore demos are in our [project page](https:\u002F\u002Fjianzongwu.github.io\u002Fprojects\u002Fdiffsensei).\n\n### A story about LeCun, Hinton, and Benjio winning the Novel Prize...\n\n![Long story](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_d170c439ab9f.png)\n\n## 🚀 TL;DR\n\nDiffSensei can generate controllable black-and-white manga panels with flexible character adaptation.\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_e3e0b25c8da9.png)\n\n**Key Features:**\n- 🌟 Varied-resolution manga panel generation (64-2048 edge size!)\n- 🖼️ One input character image, create various appearances\n- ✨ Versatile applications: customized manga generation, real human manga creation\n\n\n## 🎉 News\n\n- [2025-2-5] The reference training code is released (t2i + condition + mllm)!\n- [2024-12-13] A new version of gradio demo without MLLM is released (Much fewer memory usage)!\n- [2024-12-10] Checkpoint, dataset, and inference code are released!\n\n## 🛠️ Quick Start\n\n### Installation\n\n``` bash\n# Create a new environment with Conda\nconda create -n diffsensei python=3.11\nconda activate diffsensei\n# Install Pytorch and Diffusers related packages\nconda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia\nconda install -c conda-forge diffusers transformers accelerate\npip3 install -U xformers --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121\n# Install other dependencies\npip install -r requirements.txt\n# Third-party repo for running the gradio demo\npip install gradio-image-prompter\n```\n\n### Model Download\n\nDownload our DiffSensei model from [huggingface](https:\u002F\u002Fhuggingface.co\u002Fjianzongwu\u002FDiffSensei) and place it in the `checkpoints` folder like this:\n\nIf you plan not to use the MLLM component, you can download the model without the MLLM component and use the `gradio_wo_mllm.py` to produce your results.\n\n```\ncheckpoints\n  |- diffsensei\n    |- image_generator\n      |- ...\n    |- mllm\n      |- ...\n```\n\n\n### Inference with Gradio\n\nWe provide gradio demo for inferencing DiffSensei.\n\n``` bash\nCUDA_VISIBLE_DEVICES=0 \\\npython -m scripts.demo.gradio \\\n  --config_path configs\u002Fmodel\u002Fdiffsensei.yaml \\\n  --inference_config_path configs\u002Finference\u002Fdiffsensei.yaml \\\n  --ckpt_path checkpoints\u002Fdiffsensei\n```\n\nWe also offer a version without MLLM, designed for lower memory usage. If you choose this version, you can skip downloading the MLLM component in the checkpoint, significantly reducing memory consumption. (Can be run on a single 24GB 4090 GPU with batch-size=1 for small or medium panel sizes). While this version may have slightly reduced text compatibility, the overall quality remains largely unaffected.\n\n``` bash\nCUDA_VISIBLE_DEVICES=0 \\\npython -m scripts.demo.gradio_wo_mllm \\\n  --config_path configs\u002Fmodel\u002Fdiffsensei.yaml \\\n  --inference_config_path configs\u002Finference\u002Fdiffsensei.yaml \\\n  --ckpt_path checkpoints\u002Fdiffsensei\n```\n\nPlease be patient. Try more prompts, characters, and random seeds, and download your favored manga panels! 🤗\n\n### The MangaZero Dataset\n\nFor license issues, we cannot directly share the images. Instead, we provide the manga image urls (in MangaDex) and annotations of our MangaZero dataset.\nNote that the released version of MangaZero is about 3\u002F4 of the full dataset used for training. The missing images is because some urls are not available. For similar usage for manga data, we strongly encourage everyone who is interested to collect their dataset freely from MangaDex, following the instruction of [MangaDex API](https:\u002F\u002Fapi.mangadex.org\u002Fdocs\u002F).\n\nPlease download MangaZero from [Huggingface](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fjianzongwu\u002FMangaZero).\n\nAfter downloading the annotation file, please place the annotation file in `data\u002Fmangazero\u002Fannotations.json` and run `scripts\u002Fdataset\u002Fdownload_mangazero.py` to download and organize the images.\n\n``` bash\npython -m scripts.dataset.download_mangazero \\\n  --ann_path data\u002Fmangazero\u002Fannotations.json \\\n  --output_image_root data\u002Fmangazero\u002Fimages\n```\n\n\n### Reference Training Code\n\nWe release the reference training code for t2i training, condition training, and MLLM training. This code is made publicly available to support future research efforts. However, please note that the code is still in the testing phase and cannot be guaranteed to run without adjustments. We recommend modifying the code to suit your own dataset and specific requirements.\n\nBefore training, please download the checkpoints from [IP-Adaptor](https:\u002F\u002Fhuggingface.co\u002Fh94\u002FIP-Adapter), [SDXL](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fstable-diffusion-xl-base-1.0), and [SEED-X](https:\u002F\u002Fhuggingface.co\u002FAILab-CVC\u002FSEED-X-17B) (For MLLM training only.)\n\nThe reference code for stage 1 (t2i training) is at `scripts\u002Ftrain\u002Ftrian_t2i.py`.\n\n``` bash\naccelerate launch \\\n  --multi_gpu \\\n  -m scripts.train.train_t2i.yaml \\\n  --config_path configs\u002Ftrain\u002Fdiffsensei\u002Ft2i.yaml \\\n```\n\nThe reference code for stage 2 (condition training) is at `scripts\u002Ftrain\u002Ftrain.py`\n\n``` bash\naccelerate launch \\\n  --multi_gpu \\\n  -m scripts.train.train \\\n  --config_path configs\u002Ftrain\u002Fdiffsensei\u002Fself_0.5.yaml\n```\n\nThe reference code for stage 3 (MLLM training) is at `scripts\u002Ftrain\u002Ftrain_mllm.py`\n\n``` bash\naccelerate launch \\\n  --multi_gpu \\\n  -m scripts.train.train_mllm \\\n  --config_path configs\u002Ftrain\u002Fdiffsensei\u002Fmllm.yaml\n```\n\nThe config files in each script command contain the checkpoint paths.\n\n\n## Citation\n\n```\narticle{wu2024diffsensei,\n  title={DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation},\n  author={Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, and Yunhai Tong},\n  journal={arXiv preprint arXiv:2412.07589},\n  year={2024},\n}\n```\n\n\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fstar-history.com\u002F#jianzongwu\u002FDiffSensei&Date\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_514da63e6177.png\" alt=\"Star History Chart\">\n  \u003C\u002Fa>\n\u003C\u002Fp>","# DiffSensei: 连接多模态大语言模型（Multi-Modal LLMs）与扩散模型（Diffusion Models）实现定制化漫画生成\n\n\u003Cdiv align=\"center\">\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2410.08261-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.07589)\n[![Project Page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-blue?logo=github-pages)](https:\u002F\u002Fjianzongwu.github.io\u002Fprojects\u002Fdiffsensei)\n[![Video](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FYouTube-Video-FF0000?logo=youtube)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=TLJ0MYZmoXc&source_ve_path=OTY3MTQ)\n[![Checkpoint](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗%20Huggingface-Model-yellow)](https:\u002F\u002Fhuggingface.co\u002Fjianzongwu\u002FDiffSensei)\n[![Dataset](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗%20Huggingface-Dataset-yellow)](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fjianzongwu\u002FMangaZero)\n\n\n\u003C\u002Fdiv>\n\n![Page results caption1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_8555e420d57a.png)\n\n![Page results1](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_1fff81074434.png)\n\n![Page results2](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_b26a5d4ef71a.png)\n\n更多演示请访问我们的[项目主页](https:\u002F\u002Fjianzongwu.github.io\u002Fprojects\u002Fdiffsensei)。\n\n### 一个关于 LeCun、Hinton 和 Bengio 获得诺贝尔奖的故事...\n\n![Long story](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_d170c439ab9f.png)\n\n## 🚀 快速概览\n\nDiffSensei 能够生成可控的黑白漫画分镜，并支持灵活的角色适配。\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_e3e0b25c8da9.png)\n\n**核心特性：**\n- 🌟 可变分辨率漫画分镜生成（边长 64-2048 像素！）\n- 🖼️ 仅需一张角色输入图像，即可创造多种外观\n- ✨ 多样化应用：定制化漫画生成、真人漫画创作\n\n\n## 🎉 更新动态\n\n- [2025-2-5] 参考训练代码已发布（t2i + condition + mllm）！\n- [2024-12-13] 发布了无 MLLM 组件的新版 Gradio 演示（显存占用大幅降低）！\n- [2024-12-10] 模型检查点、数据集和推理代码已发布！\n\n## 🛠️ 快速开始\n\n### 环境安装\n\n``` bash\n# 使用 Conda 创建新环境\nconda create -n diffsensei python=3.11\nconda activate diffsensei\n# 安装 PyTorch 和 Diffusers 相关包\nconda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia\nconda install -c conda-forge diffusers transformers accelerate\npip3 install -U xformers --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121\n# 安装其他依赖\npip install -r requirements.txt\n# 运行 Gradio 演示所需的第三方库\npip install gradio-image-prompter\n```\n\n### 模型下载\n\n从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fjianzongwu\u002FDiffSensei) 下载 DiffSensei 模型，并按以下结构放置在 `checkpoints` 文件夹中：\n\n如果您计划不使用 MLLM 组件，可以下载不含 MLLM 组件的模型，并使用 `gradio_wo_mllm.py` 生成结果。\n\n```\ncheckpoints\n  |- diffsensei\n    |- image_generator\n      |- ...\n    |- mllm\n      |- ...\n```\n\n\n### 使用 Gradio 进行推理\n\n我们提供了 Gradio 演示用于 DiffSensei 推理。\n\n``` bash\nCUDA_VISIBLE_DEVICES=0 \\\npython -m scripts.demo.gradio \\\n  --config_path configs\u002Fmodel\u002Fdiffsensei.yaml \\\n  --inference_config_path configs\u002Finference\u002Fdiffsensei.yaml \\\n  --ckpt_path checkpoints\u002Fdiffsensei\n```\n\n我们还提供了无 MLLM 的版本，专为低显存使用场景设计。如果选择此版本，您可以跳过下载检查点中的 MLLM 组件，显著降低显存消耗。（可在单张 24GB 显存的 4090 GPU 上运行，批次大小为 1，适用于中小尺寸分镜）。虽然此版本的文本兼容性可能略有降低，但整体生成质量基本不受影响。\n\n``` bash\nCUDA_VISIBLE_DEVICES=0 \\\npython -m scripts.demo.gradio_wo_mllm \\\n  --config_path configs\u002Fmodel\u002Fdiffsensei.yaml \\\n  --inference_config_path configs\u002Finference\u002Fdiffsensei.yaml \\\n  --ckpt_path checkpoints\u002Fdiffsensei\n```\n\n请耐心等待。尝试更多提示词、角色和随机种子，下载您喜爱的漫画分镜吧！🤗\n\n### MangaZero 数据集\n\n由于许可证问题，我们无法直接分享图像。取而代之的是，我们提供了 MangaZero 数据集的漫画图像 URL（来自 MangaDex）和标注信息。\n请注意，发布的 MangaZero 版本约为训练所用完整数据集的 3\u002F4。缺失的图像是因为部分 URL 已不可用。对于类似的漫画数据使用需求，我们强烈建议有兴趣的所有人按照 [MangaDex API](https:\u002F\u002Fapi.mangadex.org\u002Fdocs\u002F) 的说明，从 MangaDex 自由收集自己的数据集。\n\n请从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fjianzongwu\u002FMangaZero) 下载 MangaZero。\n\n下载标注文件后，请将标注文件放置在 `data\u002Fmangazero\u002Fannotations.json`，并运行 `scripts\u002Fdataset\u002Fdownload_mangazero.py` 以下载和整理图像。\n\n``` bash\npython -m scripts.dataset.download_mangazero \\\n  --ann_path data\u002Fmangazero\u002Fannotations.json \\\n  --output_image_root data\u002Fmangazero\u002Fimages\n```\n\n\n### 参考训练代码\n\n我们发布了用于 t2i 训练、条件训练和 MLLM 训练的参考训练代码。此代码公开发布以支持未来的研究工作。但请注意，代码仍处于测试阶段，无法保证无需调整即可运行。我们建议根据自身数据集和具体需求修改代码。\n\n训练前，请从 [IP-Adapter](https:\u002F\u002Fhuggingface.co\u002Fh94\u002FIP-Adapter)、[SDXL](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fstable-diffusion-xl-base-1.0) 和 [SEED-X](https:\u002F\u002Fhuggingface.co\u002FAILab-CVC\u002FSEED-X-17B)（仅 MLLM 训练需要）下载检查点。\n\n第一阶段（t2i 训练）的参考代码位于 `scripts\u002Ftrain\u002Ftrain_t2i.py`。\n\n``` bash\naccelerate launch \\\n  --multi_gpu \\\n  -m scripts.train.train_t2i.yaml \\\n  --config_path configs\u002Ftrain\u002Fdiffsensei\u002Ft2i.yaml \\\n```\n\n第二阶段（条件训练）的参考代码位于 `scripts\u002Ftrain\u002Ftrain.py`\n\n``` bash\naccelerate launch \\\n  --multi_gpu \\\n  -m scripts.train.train \\\n  --config_path configs\u002Ftrain\u002Fdiffsensei\u002Fself_0.5.yaml\n```\n\n第三阶段（MLLM 训练）的参考代码位于 `scripts\u002Ftrain\u002Ftrain_mllm.py`\n\n``` bash\naccelerate launch \\\n  --multi_gpu \\\n  -m scripts.train.train_mllm \\\n  --config_path configs\u002Ftrain\u002Fdiffsensei\u002Fmllm.yaml\n```\n\n每个脚本命令中的配置文件包含检查点路径。\n\n\n## 引用\n\n```\narticle{wu2024diffsensei,\n  title={DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation},\n  author={Jianzong Wu, Chao Tang, Jingbo Wang, Yanhong Zeng, Xiangtai Li, and Yunhai Tong},\n  journal={arXiv preprint arXiv:2412.07589},\n  year={2024},\n}\n```\n\n\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fstar-history.com\u002F#jianzongwu\u002FDiffSensei&Date\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_readme_514da63e6177.png\" alt=\"Star History Chart\">\n  \u003C\u002Fa>\n\u003C\u002Fp>","# DiffSensei 快速上手指南\n\nDiffSensei 是一款基于多模态大语言模型（MLLM）和扩散模型的可控黑白漫画生成工具，支持灵活的角色适配和多种分辨率（64-2048 像素）的漫画面板生成。\n\n---\n\n## 环境准备\n\n### 系统要求\n\n| 项目 | 要求 |\n|:---|:---|\n| GPU | NVIDIA GPU，显存 ≥ 24GB（推荐 RTX 4090 或更高） |\n| CUDA | 12.1 及以上 |\n| Python | 3.11 |\n| 内存 | 建议 32GB 以上 |\n\n> **提示**：若显存不足，可使用无 MLLM 版本，24GB 显存即可运行小\u002F中等尺寸面板。\n\n---\n\n## 安装步骤\n\n### 1. 创建 Conda 环境\n\n```bash\nconda create -n diffsensei python=3.11\nconda activate diffsensei\n```\n\n### 2. 安装 PyTorch 及相关依赖\n\n```bash\n# 安装 PyTorch（CUDA 12.1）\nconda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia\n\n# 安装 Diffusers、Transformers、Accelerate\nconda install -c conda-forge diffusers transformers accelerate\n\n# 安装 xFormers（加速推理）\npip3 install -U xformers --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121\n```\n\n> **国内加速**：如遇下载缓慢，可将 PyTorch 源替换为清华镜像：\n> ```bash\n> conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c https:\u002F\u002Fmirrors.tuna.tsinghua.edu.cn\u002Fanaconda\u002Fcloud\u002Fpytorch\u002Flinux-64\u002F -c nvidia\n> ```\n\n### 3. 安装其他依赖\n\n```bash\npip install -r requirements.txt\npip install gradio-image-prompter\n```\n\n---\n\n## 模型下载\n\n从 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fjianzongwu\u002FDiffSensei) 下载模型权重，放置到 `checkpoints` 目录：\n\n```\ncheckpoints\n└── diffsensei\n    ├── image_generator\u002F    # 图像生成模型（必需）\n    └── mllm\u002F               # 多模态大模型（可选，显存不足可跳过）\n```\n\n> **国内加速**：使用 Hugging Face 镜像站下载\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> huggingface-cli download jianzongwu\u002FDiffSensei --local-dir checkpoints\u002Fdiffsensei\n> ```\n\n---\n\n## 基本使用\n\n### 启动 Gradio 交互界面（完整版）\n\n```bash\nCUDA_VISIBLE_DEVICES=0 \\\npython -m scripts.demo.gradio \\\n  --config_path configs\u002Fmodel\u002Fdiffsensei.yaml \\\n  --inference_config_path configs\u002Finference\u002Fdiffsensei.yaml \\\n  --ckpt_path checkpoints\u002Fdiffsensei\n```\n\n### 启动 Gradio 界面（轻量版，无 MLLM）\n\n适合显存有限的情况，推理质量基本不受影响：\n\n```bash\nCUDA_VISIBLE_DEVICES=0 \\\npython -m scripts.demo.gradio_wo_mllm \\\n  --config_path configs\u002Fmodel\u002Fdiffsensei.yaml \\\n  --inference_config_path configs\u002Finference\u002Fdiffsensei.yaml \\\n  --ckpt_path checkpoints\u002Fdiffsensei\n```\n\n启动后，在浏览器中打开 `http:\u002F\u002Flocalhost:7860` 即可使用。上传角色参考图，输入提示词，调整参数生成定制化漫画面板。\n\n---\n\n## 快速验证\n\n运行成功后，尝试以下操作验证功能：\n1. **上传角色图片** → 生成该角色的不同姿态\u002F表情\n2. **调整分辨率** → 测试 512×512 到 1024×1024 不同尺寸\n3. **修改提示词** → 控制场景、动作、对话气泡等元素","**场景：独立漫画创作者小林正在连载一部科幻题材网络漫画《星际快递员》，需要每周更新 20-30 页，且主角\"阿杰\"的形象必须保持一致。**\n\n### 没有 DiffSensei 时\n\n- **角色一致性噩梦**：每次用 Stable Diffusion 生成主角时，发型、眼睛比例、服装细节都会随机变化，需要反复抽卡 20-30 次才能找到接近的，再用 Photoshop 手动修图统一风格\n- **分镜效率低下**：画一个 6 格对话场景，先写提示词生成背景，再单独生成人物，最后手动拼合，单页耗时 3-4 小时\n- **多角色同框灾难**：让两个定制角色出现在同一画面时，面部特征会互相\"污染\"，经常出现\"阿杰长了配角的胡子\"这种离谱结果\n- **分辨率受限**：现有工具生成漫画分辨率固定，放大后线条模糊，印刷出版时需要重新描线\n\n### 使用 DiffSensei 后\n\n- **一键锁定角色形象**：上传 3-5 张阿杰的参考图，DiffSensei 自动学习角色特征，后续所有生成严格保持统一画风，无需抽卡修图\n- **自然语言驱动分镜**：直接输入\"阿杰在太空站走廊奔跑，身后追着一个机器人，对话框：'包裹不能丢！'\"，MLLM 自动理解叙事逻辑，一次性生成完整多格漫画\n- **精准多角色控制**：通过角色 ID 绑定，阿杰和机器人、老板娘等多个角色同框时，各自特征清晰可辨，支持复杂互动场景\n- **灵活输出尺寸**：从手机阅读的小格漫画到印刷级 2048px 大图无缝切换，线条始终保持锐利，直接满足 Web 连载和实体出版双需求\n\n**核心价值：DiffSensei 让个人创作者用自然语言描述故事即可批量生成角色一致、叙事连贯的专业级漫画，将单页制作时间从数小时压缩到分钟级，真正实现\"写故事即画漫画\"。**","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fjianzongwu_DiffSensei_8555e420.png","jianzongwu","Jianzong Wu","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fjianzongwu_b9e023dc.jpg","PhDing...","Peking University","Beijing, China",null,"https:\u002F\u002Fgithub.com\u002Fjianzongwu",[84],{"name":85,"color":86,"percentage":87},"Python","#3572A5",100,906,97,"2026-03-29T16:53:23","Linux","必需 NVIDIA GPU，完整版显存需求未明确说明，无 MLLM 版本最低 24GB（RTX 4090），CUDA 12.1","未说明",{"notes":95,"python":96,"dependencies":97},"提供两个运行版本：完整版包含多模态大语言模型（MLLM）组件，内存占用较高；无 MLLM 版本可在单张 24GB RTX 4090 上运行（batch_size=1，中小尺寸面板）。训练需下载 IP-Adaptor、SDXL 和 SEED-X 预训练权重。数据集需从 MangaDex 自行下载图片。","3.11",[98,99,100,101,102,103,104,105,106,107],"pytorch>=2.0","torchvision","torchaudio","pytorch-cuda=12.1","diffusers","transformers","accelerate","xformers","gradio","gradio-image-prompter",[14,37],"2026-03-27T02:49:30.150509","2026-04-06T05:36:39.495535",[112,117,122,127,132,137,142,146],{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},4130,"运行 DiffSensei 需要什么显卡配置？","对于不带 MLLM 组件的演示脚本，至少需要 24GB 显存的 GPU。完整版本（包含 MLLM）需要更高的显存配置。","https:\u002F\u002Fgithub.com\u002Fjianzongwu\u002FDiffSensei\u002Fissues\u002F9",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},4131,"显存不足 24GB 如何优化运行？","团队正在开发优化版本，该版本将移除 MLLM 组件（这是显存消耗的主要来源），仅保留图像生成器。这样虽然会减少部分文本兼容性功能，但不会显著影响生成图像的整体质量。关于角色姿势和表情的控制能力，优化版本会略有损失，具体可参考论文中的消融实验。","https:\u002F\u002Fgithub.com\u002Fjianzongwu\u002FDiffSensei\u002Fissues\u002F2",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},4132,"为什么生成的漫画质量与展示示例差距很大？","生成质量受多种因素影响，包括角色\u002F对话框布局和随机种子。团队正在改进演示的可用性和输出一致性。建议关注后续更新，届时将提供更多示例和详细指导来帮助用户获得接近展示效果的结果。","https:\u002F\u002Fgithub.com\u002Fjianzongwu\u002FDiffSensei\u002Fissues\u002F4",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},4133,"训练代码会开源吗？","是的，训练代码已经开源。参考训练代码已发布，可以查看仓库获取。","https:\u002F\u002Fgithub.com\u002Fjianzongwu\u002FDiffSensei\u002Fissues\u002F16",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},4134,"为什么使用 CLIP 视觉编码器而不是只用 Magi 编码器？","使用 CLIP 编码器是因为 IP 模型从 IP-Adapter 初始化，需要使用 CLIP 编码器来适应初始化。虽然 Magi 图像编码器专门针对漫画图像训练，单独使用 CLIP 会显著降低角色身份保持能力，但两者结合使用效果最好。","https:\u002F\u002Fgithub.com\u002Fjianzongwu\u002FDiffSensei\u002Fissues\u002F20",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},4135,"如何扩展模型的风格和构图能力？","可以通过收集特定风格的数据集并添加风格嵌入模块来控制风格和对话框样式。具体训练细节（如所需图像数量、训练轮次等）可参考论文了解更多信息。","https:\u002F\u002Fgithub.com\u002Fjianzongwu\u002FDiffSensei\u002Fissues\u002F3",{"id":143,"question_zh":144,"answer_zh":145,"source_url":141},4136,"能否生成不带文字气泡的图像，以便自定义添加？","当前演示版本生成的是完整面板。如需自定义文字气泡样式，建议关注后续更新或考虑通过后期处理移除文字气泡区域。",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},4137,"Gradio 界面操作后报错怎么办？","团队正在改进 Gradio 演示版本，将在界面顶部添加更详细的操作说明。建议关注更新获取改进后的版本。","https:\u002F\u002Fgithub.com\u002Fjianzongwu\u002FDiffSensei\u002Fissues\u002F1",[]]