[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-MC-E--DragonDiffusion":3,"tool-MC-E--DragonDiffusion":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[27,13,15,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":75,"owner_twitter":75,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":10,"env_os":93,"env_gpu":94,"env_ram":93,"env_deps":95,"category_tags":101,"github_topics":75,"view_count":24,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":102,"updated_at":103,"faqs":104,"releases":134},10052,"MC-E\u002FDragonDiffusion","DragonDiffusion","ICLR 2024 (Spotlight)","DragonDiffusion 是一款基于扩散模型的免训练图像精细编辑工具，荣获 ICLR 2024 Spotlight 提名。它旨在解决传统图像编辑中操作复杂、难以保持细节一致性的痛点，让用户无需重新训练模型即可实现对图像内容的直观操控。\n\n该工具支持多种核心功能：包括物体的自由移动与缩放、参考图驱动的外观替换、人脸轮廓变换、点对点的内容拖拽以及物体无缝粘贴。其后续升级版本 DiffEditor 进一步提升了编辑的精准度与灵活性，使修改结果更加自然逼真。\n\n技术层面，DragonDiffusion 创新性地利用了基于分数的扩散机制（score-based diffusion），通过捕捉图像生成的潜在流形来实现高质量的“拖动”式编辑，在保持背景和其他区域不变的同时，精准调整目标对象。\n\n这款工具非常适合设计师、数字艺术家以及希望快速原型验证的研究人员使用。对于具备一定 Python 和 PyTorch 基础的开发者，项目提供了完整的代码库和 Gradio 演示界面，便于本地部署与二次开发；而普通用户也可通过简易接口体验强大的 AI 编辑能力，轻松完成创意构思。","# [DragonDiffusion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02421) + [DiffEditor](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.02583)\n[Chong Mou](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=SYQoDk0AAAAJ&hl=zh-CN),\n[Xintao Wang](https:\u002F\u002Fxinntao.github.io\u002F),\n[Jiechong Song](),\n[Ying Shan](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=4oXBp9UAAAAJ),\n[Jian Zhang](https:\u002F\u002Fjianzhang.tech\u002F)\n\n[![Project page](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-brightgreen)](https:\u002F\u002Fmc-e.github.io\u002Fproject\u002FDragonDiffusion\u002F)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArXiv-2304.08465-brightgreen)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02421)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArXiv-2402.02583-brightgreen)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.02583)\n\n---\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F54032224\u002F302051504-dac634f3-85ef-4ff1-80a2-bd2805e067ea.mp4\n\n## 🚩 **New Features\u002FUpdates**\n- [2024\u002F02\u002F26] **DiffEditor** is accepted by CVPR 2024.\n- [2024\u002F02\u002F05] Releasing the paper of **DiffEditor**.\n- [2024\u002F02\u002F04] Releasing the code of **DragonDiffusion** and **DiffEditor**.\n- [2024\u002F01\u002F15] **DragonDiffusion** is accepted by ICLR 2024 (**Spotlight**).\n- [2023\u002F07\u002F06] Paper of **DragonDiffusion** is available [here](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02421).\n\n---\n\n# Introduction\n**DragonDiffusion** is a turning-free method for fine-grained image editing. The core idea of DragonDiffusion comes from [score-based diffusion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2011.13456). It can perform various editing tasks, including object moving, object resizing, object appearance replacement, content dragging, and object pasting. **DiffEditor** further improves the editing accuracy and flexibility of DragonDiffusion.\n\n# 🔥🔥🔥 Main Features  \n### **Appearance Modulation**  \nAppearance Modulation can change the appearance of an object in an image. The final appearance can be specified by a reference image.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_9fddb76e9069.png\" height=240>\n\u003C\u002Fp>\n\n### **Object Moving & Resizing**  \nObject Moving can move an object in the image to a specified location.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_6fa634c799c3.png\" height=220>\n\u003C\u002Fp>\n\n### **Face Modulation**  \nFace Modulation can transform the outline of one face into the outline of another reference face.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_5b756a145142.png\" height=250>\n\u003C\u002Fp>\n\n### **Content Dragging**  \nContent Dragging can perform image editing through point-to-point dragging.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_589e44f79d47.png\" height=230>\n\u003C\u002Fp>\n\n### **Object Pasting**  \nObject Pasting can paste a given object onto a background image.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_75c099a48728.png\" height=250>\n\u003C\u002Fp>\n\n# 🔧 Dependencies and Installation\n\n- Python >= 3.8 (Recommend to use [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002Fdownload\u002F#linux) or [Miniconda](https:\u002F\u002Fdocs.conda.io\u002Fen\u002Flatest\u002Fminiconda.html))\n- [PyTorch >= 2.0.1](https:\u002F\u002Fpytorch.org\u002F)\n```bash\npip install -r requirements.txt\npip install dlib==19.14.0\n```\n\n# ⏬ Download Models \nAll models will be automatically downloaded. You can also choose to download manually from this [url](https:\u002F\u002Fhuggingface.co\u002FAdapter\u002FDragonDiffusion).\n\n# 💻 How to Test\nInference requires at least `16GB` of GPU memory for editing a `768x768` image.  \nWe provide a quick start on gradio demo.\n```bash\npython app.py\n```\n\n# Related Works\n[1] \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FXingangPan\u002FDragGAN\">Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp>\n[2] \u003Ca href=\"https:\u002F\u002Fyujun-shi.github.io\u002Fprojects\u002Fdragdiffusion.html\">DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp>\n[3] \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03881\">\nEmergent Correspondence from Image Diffusion\u003C\u002Fa>\u003C\u002Fp>\n\u003Cp>\n[4] \u003Ca href=\"https:\u002F\u002Fdave.ml\u002Fselfguidance\u002F\">Diffusion Self-Guidance for Controllable Image Generation\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp>\n[5] \u003Ca href=\"https:\u002F\u002Fbrowse.arxiv.org\u002Fabs\u002F2308.06721\">IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models\u003C\u002Fa>\n\u003C\u002Fp>\n\n# 🤗 Acknowledgements\nWe appreciate the foundational work done by [score-based diffusion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2011.13456) and [DragGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973).\n\n# BibTeX\n\n    @article{mou2023dragondiffusion,\n      title={Dragondiffusion: Enabling drag-style manipulation on diffusion models},\n      author={Mou, Chong and Wang, Xintao and Song, Jiechong and Shan, Ying and Zhang, Jian},\n      journal={arXiv preprint arXiv:2307.02421},\n      year={2023}\n    }\n    @article{mou2023diffeditor,\n      title={DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing},\n      author={Mou, Chong and Wang, Xintao and Song, Jiechong and Shan, Ying and Zhang, Jian},\n      journal={arXiv preprint arXiv:2402.02583},\n      year={2023}\n    }\n","# [DragonDiffusion](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02421) + [DiffEditor](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.02583)\n[Chong Mou](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=SYQoDk0AAAAJ&hl=zh-CN),\n[Xintao Wang](https:\u002F\u002Fxinntao.github.io\u002F),\n[Jiechong Song](),\n[Ying Shan](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=4oXBp9UAAAAJ),\n[Jian Zhang](https:\u002F\u002Fjianzhang.tech\u002F)\n\n[![项目页面](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FProject-Page-brightgreen)](https:\u002F\u002Fmc-e.github.io\u002Fproject\u002FDragonDiffusion\u002F)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArXiv-2304.08465-brightgreen)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02421)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FArXiv-2402.02583-brightgreen)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.02583)\n\n---\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F54032224\u002F302051504-dac634f3-85ef-4ff1-80a2-bd2805e067ea.mp4\n\n## 🚩 **新功能\u002F更新**\n- [2024\u002F02\u002F26] **DiffEditor** 被 CVPR 2024 接收。\n- [2024\u002F02\u002F05] 发布 **DiffEditor** 论文。\n- [2024\u002F02\u002F04] 发布 **DragonDiffusion** 和 **DiffEditor** 的代码。\n- [2024\u002F01\u002F15] **DragonDiffusion** 被 ICLR 2024 接收（**Spotlight**）。\n- [2023\u002F07\u002F06] **DragonDiffusion** 的论文可在 [这里](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02421) 查阅。\n\n---\n\n# 简介\n**DragonDiffusion** 是一种无需旋转的细粒度图像编辑方法。其核心思想源自 [基于分数的扩散模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2011.13456)。它可以执行多种编辑任务，包括对象移动、对象缩放、对象外观替换、内容拖拽以及对象粘贴。**DiffEditor** 进一步提升了 DragonDiffusion 的编辑精度和灵活性。\n\n# 🔥🔥🔥 主要特性  \n### **外观调节**  \n外观调节可以改变图像中某个对象的外观。最终的外观可以通过参考图像来指定。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_9fddb76e9069.png\" height=240>\n\u003C\u002Fp>\n\n### **对象移动与缩放**  \n对象移动可以将图像中的对象移动到指定位置。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_6fa634c799c3.png\" height=220>\n\u003C\u002Fp>\n\n### **人脸调节**  \n人脸调节可以将一张脸的轮廓转换为另一张参考脸的轮廓。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_5b756a145142.png\" height=250>\n\u003C\u002Fp>\n\n### **内容拖拽**  \n内容拖拽可以通过点对点拖动来进行图像编辑。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_589e44f79d47.png\" height=230>\n\u003C\u002Fp>\n\n### **对象粘贴**  \n对象粘贴可以将给定的对象粘贴到背景图像上。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_readme_75c099a48728.png\" height=250>\n\u003C\u002Fp>\n\n# 🔧 依赖与安装\n\n- Python >= 3.8（推荐使用 [Anaconda](https:\u002F\u002Fwww.anaconda.com\u002Fdownload\u002F#linux) 或 [Miniconda](https:\u002F\u002Fdocs.conda.io\u002Fen\u002Flatest\u002Fminiconda.html)）\n- [PyTorch >= 2.0.1](https:\u002F\u002Fpytorch.org\u002F)\n```bash\npip install -r requirements.txt\npip install dlib==19.14.0\n```\n\n# ⏬ 下载模型 \n所有模型将会自动下载。你也可以选择从这个 [链接](https:\u002F\u002Fhuggingface.co\u002FAdapter\u002FDragonDiffusion) 手动下载。\n\n# 💻 如何测试\n推理时，编辑一张 `768x768` 的图像至少需要 `16GB` 的显存。我们提供了一个基于 Gradio 的快速启动演示。\n```bash\npython app.py\n```\n\n# 相关工作\n[1] \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FXingangPan\u002FDragGAN\">Drag Your GAN：生成图像流形上的交互式基于点的操作\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp>\n[2] \u003Ca href=\"https:\u002F\u002Fyujun-shi.github.io\u002Fprojects\u002Fdragdiffusion.html\">DragDiffusion：利用扩散模型进行交互式基于点的图像编辑\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp>\n[3] \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.03881\">\n从图像扩散中涌现的对应关系\u003C\u002Fa>\u003C\u002Fp>\n\u003Cp>\n[4] \u003Ca href=\"https:\u002F\u002Fdave.ml\u002Fselfguidance\u002F\">扩散自引导用于可控图像生成\u003C\u002Fa>\n\u003C\u002Fp>\n\u003Cp>\n[5] \u003Ca href=\"https:\u002F\u002Fbrowse.arxiv.org\u002Fabs\u002F2308.06721\">IP-Adapter：文本兼容的图像提示适配器，用于文本到图像的扩散模型\u003C\u002Fa>\n\u003C\u002Fp>\n\n# 🤗 致谢\n我们感谢 [基于分数的扩散模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2011.13456) 和 [DragGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F2305.10973) 所做的基础性工作。\n\n# BibTeX\n\n    @article{mou2023dragondiffusion,\n      title={Dragondiffusion：在扩散模型上实现拖拽风格的操作},\n      author={Mou, Chong and Wang, Xintao and Song, Jiechong and Shan, Ying and Zhang, Jian},\n      journal={arXiv 预印本 arXiv:2307.02421},\n      year={2023}\n    }\n    @article{mou2023diffeditor,\n      title={DiffEditor：提升基于扩散的图像编辑的精度和灵活性},\n      author={Mou, Chong and Wang, Xintao and Song, Jiechong and Shan, Ying and Zhang, Jian},\n      journal={arXiv 预印本 arXiv:2402.02583},\n      year={2023}\n    }","# DragonDiffusion 快速上手指南\n\nDragonDiffusion 是一款基于扩散模型的免训练细粒度图像编辑工具，支持物体移动、缩放、外观替换、内容拖拽及物体粘贴等功能。结合 DiffEditor 模块，可进一步提升编辑的精度与灵活性。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux \u002F Windows \u002F macOS\n*   **Python 版本**：>= 3.8（推荐使用 Anaconda 或 Miniconda 管理环境）\n*   **PyTorch 版本**：>= 2.0.1\n*   **硬件要求**：推理编辑 768x768 分辨率图像至少需要 **16GB** 显存。\n\n## 安装步骤\n\n1.  **创建并激活虚拟环境**（可选但推荐）：\n    ```bash\n    conda create -n dragondiffusion python=3.8\n    conda activate dragondiffusion\n    ```\n\n2.  **安装 PyTorch**：\n    请访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002F) 根据您的 CUDA 版本获取安装命令。例如：\n    ```bash\n    pip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n    ```\n    *(国内用户可使用清华源加速：`pip install torch ... -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n3.  **安装项目依赖**：\n    克隆仓库后进入目录，执行以下命令安装基础依赖和特定的 `dlib` 库：\n    ```bash\n    pip install -r requirements.txt\n    pip install dlib==19.14.0\n    ```\n    > **提示**：若 `pip` 下载缓慢，建议添加 `-i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple` 参数使用国内镜像源。\n\n4.  **模型下载**：\n    首次运行时，程序会自动从 HuggingFace 下载所需模型。\n    *   手动下载地址：[HuggingFace - Adapter\u002FDragonDiffusion](https:\u002F\u002Fhuggingface.co\u002FAdapter\u002FDragonDiffusion)\n    *   如需加速，可将下载后的模型文件放置于代码指定的缓存目录中。\n\n## 基本使用\n\n项目提供了一个基于 Gradio 的交互式演示界面，这是最快捷的上手方式。\n\n1.  **启动服务**：\n    在项目根目录下运行：\n    ```bash\n    python app.py\n    ```\n\n2.  **进行操作**：\n    *   等待终端输出本地访问地址（通常为 `http:\u002F\u002F127.0.0.1:7860`）。\n    *   在浏览器中打开该地址。\n    *   上传源图像，选择编辑模式（如 Appearance Modulation, Object Moving, Face Modulation 等），上传参考图或设置拖拽点，点击生成即可预览编辑效果。\n\n### 主要功能模式说明\n*   **Appearance Modulation**：通过参考图改变物体外观。\n*   **Object Moving & Resizing**：将物体移动至指定位置或调整大小。\n*   **Face Modulation**：将人脸轮廓变换为参考人脸的轮廓。\n*   **Content Dragging**：通过点对点的拖拽进行图像内容编辑。\n*   **Object Pasting**：将指定物体粘贴到背景图中。","某电商设计团队需要在促销海报中快速调整商品摆放位置并替换模特面部特征，以适配不同地区的营销需求。\n\n### 没有 DragonDiffusion 时\n- 设计师必须手动使用 Photoshop 进行复杂的抠图、透视变换和光影重绘，调整一个商品位置耗时超过 30 分钟。\n- 若需更换模特脸型或五官，往往需要重新拍摄或依赖昂贵的修图师进行逐像素绘制，难以保持自然的光影融合。\n- 简单的“拖拽”操作无法实现，任何细微的位置移动都可能导致背景穿帮或物体边缘失真，反复修改成本极高。\n- 批量处理多张海报时，由于缺乏自动化的一致性控制，每张图的编辑风格和质量参差不齐。\n\n### 使用 DragonDiffusion 后\n- 利用 Content Dragging 功能，设计师只需在界面上点对点拖拽商品，DragonDiffusion 即可自动完成移动、 resizing 及背景补全，耗时缩短至秒级。\n- 通过 Face Modulation 功能，上传参考人脸即可将原模特的五官轮廓自然转换，无需重拍，且光影与肤色完美融合。\n- 借助 Object Pasting 和 Appearance Modulation，可直接将新商品无缝粘贴至任意背景，并依据参考图自动调整材质与光照，彻底消除人工修图痕迹。\n- 整个工作流实现了精细化编辑的自动化，确保批量输出的海报在视觉风格和编辑精度上高度一致。\n\nDragonDiffusion 将原本需要专业修图师数小时完成的精细图像编辑工作，转化为普通人可通过简单拖拽和参考图即可瞬间完成的自动化流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMC-E_DragonDiffusion_9fddb76e.png","MC-E","Chong Mou","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMC-E_553dad59.jpg",null,"Peking University","Shenzhen, China","https:\u002F\u002Fscholar.google.com\u002Fcitations?user=SYQoDk0AAAAJ&hl=zh-CN","https:\u002F\u002Fgithub.com\u002FMC-E",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",99.9,{"name":86,"color":87,"percentage":88},"CSS","#663399",0.1,785,21,"2026-04-04T09:46:51","Apache-2.0","未说明","必需，编辑 768x768 图像至少需要 16GB 显存",{"notes":96,"python":97,"dependencies":98},"建议使用 Anaconda 或 Miniconda 管理环境。模型文件默认自动下载，也可手动从 HuggingFace 获取。运行 Gradio 演示需执行 python app.py。","3.8+",[99,100],"PyTorch>=2.0.1","dlib==19.14.0",[15],"2026-03-27T02:49:30.150509","2026-04-20T16:46:41.652190",[105,110,115,120,125,130],{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},45160,"为什么论文中的图 3 会给出不同的结果？特征和损失值为什么不固定？","在图 3 所示的实验中，生成分支（generation branch）的输入是随机噪声，而引导分支（guidance branch）的输入是反转结果（inversion result），因此损失值不是固定的。此外，相似性计算涉及的特征来自不同的空间位置，所以相似度也不是固定值（即使掩码设置看似相同，空间位置的差异也会导致结果不同）。","https:\u002F\u002Fgithub.com\u002FMC-E\u002FDragonDiffusion\u002Fissues\u002F4",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},45161,"Dragon Diffusion 的速度和显存占用与 DragGAN 相比如何？","Dragon Diffusion 的时间复杂度与 DragGAN 相当，因为它不需要点进行跟踪（point tracking）。关于详细的性能对比和显存占用情况，作者表示会在论文中展示与相关工作的详细比较。","https:\u002F\u002Fgithub.com\u002FMC-E\u002FDragonDiffusion\u002Fissues\u002F7",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},45162,"代码什么时候开源？是否有重实现的建议？","该工作将以同行评审论文附带代码的形式开源。维护者曾回复代码预计在一周内开源，但如果忙于 CVPR2024 的 rebuttal 可能会有轻微延迟。目前建议参考项目主页或等待正式发布的论文代码。","https:\u002F\u002Fgithub.com\u002FMC-E\u002FDragonDiffusion\u002Fissues\u002F8",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},45163,"我可以修改模型用于研究论文或商业项目吗？许可证在哪里？","代码是完全开源且免费使用的。虽然仓库中可能未明确列出许可证文件，但维护者已确认可以自由使用进行修改和研究，只需确保适当注明出处（credit properly）即可。","https:\u002F\u002Fgithub.com\u002FMC-E\u002FDragonDiffusion\u002Fissues\u002F21",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},45164,"项目代码目前的发布状态是什么？","代码预计将在论文被接收后不久开源。维护者在回复中提到，如果不受会议反驳期（rebuttal）影响，代码通常在承诺的一周内发布。用户需关注仓库更新以获取最新代码。","https:\u002F\u002Fgithub.com\u002FMC-E\u002FDragonDiffusion\u002Fissues\u002F16",{"id":131,"question_zh":132,"answer_zh":133,"source_url":109},45165,"图 3 中当设置掩码矩阵不同时，为什么计算相似度的特征仍来自不同空间位置？","即使在图 3 中将 m^{gen} 和 m^{gud} 设为零矩阵，m^{share} 设为全一矩阵，参与相似度计算的特征依然来自不同的空间位置。这是因为生成分支和引导分支处理的数据源本质不同（一个是随机噪声，一个是反转后的图像特征），导致特征图在空间分布上存在差异，从而使得余弦相似度不为 1。",[]]