[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-omriav--blended-latent-diffusion":3,"similar-omriav--blended-latent-diffusion":130},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":9,"readme_en":10,"readme_zh":11,"quickstart_zh":12,"use_case_zh":13,"hero_image_url":14,"owner_login":15,"owner_name":16,"owner_avatar_url":17,"owner_bio":18,"owner_company":19,"owner_location":20,"owner_email":20,"owner_twitter":20,"owner_website":21,"owner_url":22,"languages":23,"stars":36,"forks":37,"last_commit_at":38,"license":39,"difficulty_score":40,"env_os":41,"env_gpu":42,"env_ram":43,"env_deps":44,"category_tags":52,"github_topics":56,"view_count":40,"oss_zip_url":20,"oss_zip_packed_at":20,"status":70,"created_at":71,"updated_at":72,"faqs":73,"releases":129},903,"omriav\u002Fblended-latent-diffusion","blended-latent-diffusion","Official implementation for \"Blended Latent Diffusion\" [SIGGRAPH 2023]","blended-latent-diffusion 是一个基于文本驱动的智能图像局部编辑开源工具，它能够根据用户提供的文字描述和遮罩区域，对现有图像进行精准、自然的修改。该工具的核心技术源自 SIGGRAPH 2023 发表的论文《Blended Latent Diffusion》，通过结合潜在扩散模型（LDM）与混合扩散技术，实现了在保持图像整体一致性的同时，高效完成局部内容的生成与替换。\n\n它主要解决了传统扩散模型在图像编辑时面临的两大难题：一是生成速度较慢，二是对局部细节（尤其是细长或复杂遮罩区域）的编辑精度不足。blended-latent-diffusion 通过在潜在空间中操作，大幅提升了推理效率，并引入优化方法改善图像重建质量，使得编辑结果更加准确、自然，同时减少了以往方法中常见的伪影问题。\n\n这个工具适合需要精细图像编辑功能的研究人员、AI 开发者、数字艺术创作者以及视觉设计相关从业者使用。它支持多种实用场景，例如修改物体属性、添加新元素、背景替换、文字生成以及涂鸦编辑等，并提供了基于 Stable Diffusion 的更新版本，兼容 SD 2.1 和 SDXL 模型，","blended-latent-diffusion 是一个基于文本驱动的智能图像局部编辑开源工具，它能够根据用户提供的文字描述和遮罩区域，对现有图像进行精准、自然的修改。该工具的核心技术源自 SIGGRAPH 2023 发表的论文《Blended Latent Diffusion》，通过结合潜在扩散模型（LDM）与混合扩散技术，实现了在保持图像整体一致性的同时，高效完成局部内容的生成与替换。\n\n它主要解决了传统扩散模型在图像编辑时面临的两大难题：一是生成速度较慢，二是对局部细节（尤其是细长或复杂遮罩区域）的编辑精度不足。blended-latent-diffusion 通过在潜在空间中操作，大幅提升了推理效率，并引入优化方法改善图像重建质量，使得编辑结果更加准确、自然，同时减少了以往方法中常见的伪影问题。\n\n这个工具适合需要精细图像编辑功能的研究人员、AI 开发者、数字艺术创作者以及视觉设计相关从业者使用。它支持多种实用场景，例如修改物体属性、添加新元素、背景替换、文字生成以及涂鸦编辑等，并提供了基于 Stable Diffusion 的更新版本，兼容 SD 2.1 和 SDXL 模型，便于集成与扩展。\n\n其技术亮点在于将潜在扩散的高效性与混合扩散的局部控制能力相结合，在保持生成多样性的同时，显著提升了编辑速度与区域准确性。无论是替换画面中的一个物体，还是在指定区域生成与上下文融合的新内容，blended-latent-diffusion 都能提供直观、可控的编辑体验。","# Blended Latent Diffusion [SIGGRAPH 2023]\n\u003Ca href=\"https:\u002F\u002Fomriavrahami.com\u002Fblended-latent-diffusion-page\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Project&message=Website&color=blue\">\u003C\u002Fa> \n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02779\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2206.02779-b31b1b.svg\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fpytorch.org\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch->=2.1.0-Red?logo=pytorch\">\u003C\u002Fa>\n\n\u003Ca href=\"https:\u002F\u002Fomriavrahami.com\u002Fblended-latent-diffusion-page\u002F\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_5dad86c493f3.png\" \u002F>\u003C\u002Fa>\n\n> \u003Ca href=\"https:\u002F\u002Fomriavrahami.com\u002Fblended-latent-diffusion-page\u002F\">**Blended Latent Diffusion**\u003C\u002Fa>\n>\n> Omri Avrahami, Ohad Fried, Dani Lischinski\n>\n> Abstract: The tremendous progress in neural image generation, coupled with the emergence of seemingly omnipotent vision-language models has finally enabled text-based interfaces for creating and editing images. Handling *generic* images requires a diverse underlying generative model, hence the latest works utilize diffusion models, which were shown to surpass GANs in terms of diversity. One major drawback of diffusion models, however, is their relatively slow inference time. In this paper, we present an accelerated solution to the task of *local* text-driven editing of generic images, where the desired edits are confined to a user-provided mask. Our solution leverages a recent text-to-image Latent Diffusion Model (LDM), which speeds up diffusion by operating in a lower-dimensional latent space. We first convert the LDM into a local image editor by incorporating Blended Diffusion into it. Next we propose an optimization-based solution for the inherent inability of this LDM to accurately reconstruct images. Finally, we address the scenario of performing local edits using thin masks. We evaluate our method against the available baselines both qualitatively and quantitatively and demonstrate that in addition to being faster, our method achieves better precision than the baselines while mitigating some of their artifacts\n\n\u003Cdiv>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_18abded50288.gif\" width=\"200px\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_d52e5b142515.gif\" width=\"200px\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_025081e1af67.gif\" width=\"200px\"\u002F>\n\u003C\u002Fdiv>\n\n# Applications\n\n### Background Editing\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_64de819edb0e.png\" \u002F>\n\n### Text Generation\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_e334329fd725.png\" \u002F>\n\n### Multiple Predictions\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_57e1da5838cc.png\" \u002F>\n\n### Alter an Existing Object\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_83ba9f970cc6.png\" \u002F>\n\n### Add a New Object\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_4010d7a37089.png\" \u002F>\n\n### Scribble Editing\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_c8f6ea1a52c7.png\" \u002F>\n\n# Installation\nInstall the conda virtual environment:\n```bash\n$ conda env create -f environment.yaml\n$ conda activate ldm\n```\n\n# Usage\n\n## New :fire: - Stable Diffusion Implementation\nYou can use the newer Stable Diffusion implementation based on [Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) library.\nFor that, you need to install PyTorch 2.1 and Diffusers via the following commands:\n```bash\n$ conda install pytorch==2.1.0 torchvision==0.16.0  pytorch-cuda=11.8 -c pytorch -c nvidia\n$ pip install -U diffusers==0.19.3\n```\n\n* For using Stable Diffusion XL (requires a stronger GPU), use the following script:\n\n```bash\n$ python scripts\u002Ftext_editing_SDXL.py --prompt \"a stone\" --init_image \"inputs\u002Fimg.png\" --mask \"inputs\u002Fmask.png\"\n```\nYou can use smaller `--batch_size` in order to save GPU memory.\n\n* For using Stable Diffusion v2.1, use the following script:\n```bash\n$ python scripts\u002Ftext_editing_SD2.py --prompt \"a stone\" --init_image \"inputs\u002Fimg.png\" --mask \"inputs\u002Fmask.png\"\n```\n\n## Old - Latent Diffusion Model Implementation\nFor using the old implementation, based on the Latent Diffusion Model (LDM), you need first to download the pre-trained weights (5.7GB):\n```bash\n$ mkdir -p models\u002Fldm\u002Ftext2img-large\u002F\n$ wget -O models\u002Fldm\u002Ftext2img-large\u002Fmodel.ckpt https:\u002F\u002Fommer-lab.com\u002Ffiles\u002Flatent-diffusion\u002Fnitro\u002Ftxt2img-f8-large\u002Fmodel.ckpt\n```\n\nIf the above link is broken, you can use this [mirror link](https:\u002F\u002Fhuggingface.co\u002Fomriav\u002Fblended-latent-diffusion-ldm\u002Fresolve\u002Fmain\u002Fmodel.ckpt?download=true).\n\nThen, editing the image may require two steps:\n### Step 1 - Generate initial predictions\n```bash\n$ python scripts\u002Ftext_editing_LDM.py --prompt \"a pink yarn ball\" --init_image \"inputs\u002Fimg.png\" --mask \"inputs\u002Fmask.png\"\n```\n\nThe predictions will be saved in `outputs\u002Fedit_results\u002Fsamples`.\n\nYou can use a larger batch size by specifying `--n_samples` to the maximum number that saturates your GPU.\n\n### Step 2 (optional) - Reconstruct the original background\nIf you want to reconstruct the original image background, you can run the following:\n```bash\n$ python scripts\u002Freconstruct.py --init_image \"inputs\u002Fimg.png\" --mask \"inputs\u002Fmask.png\" --selected_indices 0 1\n```\n\nYou can choose the specific image indices that you want to reconstruct. The results will be saved in `outputs\u002Fedit_results\u002Fsamples\u002Freconstructed_optimization`.\n\n# Citation\nIf you find this project useful for your research, please cite the following:\n```bibtex\n@article{avrahami2023blendedlatent,\n        author = {Avrahami, Omri and Fried, Ohad and Lischinski, Dani},\n        title = {Blended Latent Diffusion},\n        year = {2023},\n        issue_date = {August 2023},\n        publisher = {Association for Computing Machinery},\n        address = {New York, NY, USA},\n        volume = {42},\n        number = {4},\n        issn = {0730-0301},\n        url = {https:\u002F\u002Fdoi.org\u002F10.1145\u002F3592450},\n        doi = {10.1145\u002F3592450},\n        journal = {ACM Trans. Graph.},\n        month = {jul},\n        articleno = {149},\n        numpages = {11},\n        keywords = {zero-shot text-driven local image editing}\n}\n\n@InProceedings{Avrahami_2022_CVPR,\n        author    = {Avrahami, Omri and Lischinski, Dani and Fried, Ohad},\n        title     = {Blended Diffusion for Text-Driven Editing of Natural Images},\n        booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR)},\n        month     = {June},\n        year      = {2022},\n        pages     = {18208-18218}\n}\n```\n\n# Acknowledgements\nThis code is based on [Latent Diffusion Models](https:\u002F\u002Fgithub.com\u002FCompVis\u002Flatent-diffusion).\n","# 混合潜在扩散 [SIGGRAPH 2023]\n\u003Ca href=\"https:\u002F\u002Fomriavrahami.com\u002Fblended-latent-diffusion-page\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fstatic\u002Fv1?label=Project&message=Website&color=blue\">\u003C\u002Fa> \n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2206.02779\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2206.02779-b31b1b.svg\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg\">\u003C\u002Fa>\n\u003Ca href=\"https:\u002F\u002Fpytorch.org\u002F\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPyTorch->=2.1.0-Red?logo=pytorch\">\u003C\u002Fa>\n\n\u003Ca href=\"https:\u002F\u002Fomriavrahami.com\u002Fblended-latent-diffusion-page\u002F\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_5dad86c493f3.png\" \u002F>\u003C\u002Fa>\n\n> \u003Ca href=\"https:\u002F\u002Fomriavrahami.com\u002Fblended-latent-diffusion-page\u002F\">**Blended Latent Diffusion**\u003C\u002Fa>\n>\n> Omri Avrahami, Ohad Fried, Dani Lischinski\n>\n> 摘要：神经图像生成技术的巨大进步，加上看似全能的视觉-语言模型的出现，最终使得基于文本的图像创建和编辑界面成为可能。处理*通用*图像需要一个多样化的底层生成模型，因此最新的工作利用了扩散模型，这些模型在多样性方面被证明超越了 GANs。然而，扩散模型的一个主要缺点是推理时间相对较慢。在本文中，我们提出了一种加速解决方案，用于*局部*文本驱动的通用图像编辑任务，其中所需的编辑被限制在用户提供的掩码区域内。我们的解决方案利用了最新的文本到图像潜在扩散模型（Latent Diffusion Model, LDM），该模型通过在低维潜在空间中操作来加速扩散过程。我们首先通过将混合扩散（Blended Diffusion）技术融入其中，将 LDM 转换为局部图像编辑器。接着，我们针对该 LDM 固有的无法精确重建图像的问题，提出了一种基于优化的解决方案。最后，我们解决了使用细长掩码进行局部编辑的场景。我们通过定性和定量评估将我们的方法与现有基线进行比较，结果表明，除了速度更快之外，我们的方法在实现更高精度的同时，还能减轻基线方法产生的一些伪影。\n\n\u003Cdiv>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_18abded50288.gif\" width=\"200px\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_d52e5b142515.gif\" width=\"200px\"\u002F>\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_025081e1af67.gif\" width=\"200px\"\u002F>\n\u003C\u002Fdiv>\n\n# 应用\n\n### 背景编辑\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_64de819edb0e.png\" \u002F>\n\n### 文本生成\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_e334329fd725.png\" \u002F>\n\n### 多重预测\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_57e1da5838cc.png\" \u002F>\n\n### 修改现有物体\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_83ba9f970cc6.png\" \u002F>\n\n### 添加新物体\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_4010d7a37089.png\" \u002F>\n\n### 涂鸦编辑\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_readme_c8f6ea1a52c7.png\" \u002F>\n\n# 安装\n安装 conda 虚拟环境：\n```bash\n$ conda env create -f environment.yaml\n$ conda activate ldm\n```\n\n# 使用方法\n\n## 新功能 :fire: - Stable Diffusion 实现\n您可以使用基于 [Diffusers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers) 库的较新的 Stable Diffusion 实现。\n为此，您需要通过以下命令安装 PyTorch 2.1 和 Diffusers：\n```bash\n$ conda install pytorch==2.1.0 torchvision==0.16.0  pytorch-cuda=11.8 -c pytorch -c nvidia\n$ pip install -U diffusers==0.19.3\n```\n\n* 若要使用 Stable Diffusion XL（需要更强的 GPU），请使用以下脚本：\n\n```bash\n$ python scripts\u002Ftext_editing_SDXL.py --prompt \"a stone\" --init_image \"inputs\u002Fimg.png\" --mask \"inputs\u002Fmask.png\"\n```\n您可以使用较小的 `--batch_size` 来节省 GPU 内存。\n\n* 若要使用 Stable Diffusion v2.1，请使用以下脚本：\n```bash\n$ python scripts\u002Ftext_editing_SD2.py --prompt \"a stone\" --init_image \"inputs\u002Fimg.png\" --mask \"inputs\u002Fmask.png\"\n```\n\n## 旧版本 - 潜在扩散模型实现\n若要使用基于潜在扩散模型（Latent Diffusion Model, LDM）的旧实现，您首先需要下载预训练权重（5.7GB）：\n```bash\n$ mkdir -p models\u002Fldm\u002Ftext2img-large\u002F\n$ wget -O models\u002Fldm\u002Ftext2img-large\u002Fmodel.ckpt https:\u002F\u002Fommer-lab.com\u002Ffiles\u002Flatent-diffusion\u002Fnitro\u002Ftxt2img-f8-large\u002Fmodel.ckpt\n```\n\n如果上述链接失效，您可以使用此[镜像链接](https:\u002F\u002Fhuggingface.co\u002Fomriav\u002Fblended-latent-diffusion-ldm\u002Fresolve\u002Fmain\u002Fmodel.ckpt?download=true)。\n\n然后，编辑图像可能需要两个步骤：\n### 步骤 1 - 生成初始预测\n```bash\n$ python scripts\u002Ftext_editing_LDM.py --prompt \"a pink yarn ball\" --init_image \"inputs\u002Fimg.png\" --mask \"inputs\u002Fmask.png\"\n```\n\n预测结果将保存在 `outputs\u002Fedit_results\u002Fsamples` 目录中。\n\n您可以通过指定 `--n_samples` 参数来使用更大的批处理大小，最大可达您 GPU 的饱和数量。\n\n### 步骤 2（可选）- 重建原始背景\n如果您想重建原始图像背景，可以运行以下命令：\n```bash\n$ python scripts\u002Freconstruct.py --init_image \"inputs\u002Fimg.png\" --mask \"inputs\u002Fmask.png\" --selected_indices 0 1\n```\n\n您可以选择要重建的特定图像索引。结果将保存在 `outputs\u002Fedit_results\u002Fsamples\u002Freconstructed_optimization` 目录中。\n\n# 引用\n如果您发现此项目对您的研究有用，请引用以下内容：\n```bibtex\n@article{avrahami2023blendedlatent,\n        author = {Avrahami, Omri and Fried, Ohad and Lischinski, Dani},\n        title = {Blended Latent Diffusion},\n        year = {2023},\n        issue_date = {August 2023},\n        publisher = {Association for Computing Machinery},\n        address = {New York, NY, USA},\n        volume = {42},\n        number = {4},\n        issn = {0730-0301},\n        url = {https:\u002F\u002Fdoi.org\u002F10.1145\u002F3592450},\n        doi = {10.1145\u002F3592450},\n        journal = {ACM Trans. Graph.},\n        month = {jul},\n        articleno = {149},\n        numpages = {11},\n        keywords = {zero-shot text-driven local image editing}\n}\n\n@InProceedings{Avrahami_2022_CVPR,\n        author    = {Avrahami, Omri and Lischinski, Dani and Fried, Ohad},\n        title     = {Blended Diffusion for Text-Driven Editing of Natural Images},\n        booktitle = {Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition (CVPR)},\n        month     = {June},\n        year      = {2022},\n        pages     = {18208-18218}\n}\n```\n\n# 致谢\n此代码基于 [Latent Diffusion Models](https:\u002F\u002Fgithub.com\u002FCompVis\u002Flatent-diffusion)。","# Blended Latent Diffusion 快速上手指南\n\n## 环境准备\n\n**系统要求**\n- 操作系统：Linux 或 Windows（建议 Linux）\n- GPU：支持 CUDA 的 NVIDIA GPU（至少 8GB 显存）\n- 内存：建议 16GB 以上\n\n**前置依赖**\n- Conda（用于环境管理）\n- Python 3.8+\n- CUDA 11.8（与 PyTorch 版本匹配）\n\n## 安装步骤\n\n### 1. 创建并激活 Conda 环境\n```bash\n# 创建环境（从项目提供的 yaml 文件）\n$ conda env create -f environment.yaml\n\n# 激活环境\n$ conda activate ldm\n```\n\n### 2. 安装 Stable Diffusion 实现（推荐）\n此方法基于 Diffusers 库，安装更简便：\n\n```bash\n# 安装 PyTorch 2.1 及相关组件\n$ conda install pytorch==2.1.0 torchvision==0.16.0 pytorch-cuda=11.8 -c pytorch -c nvidia\n\n# 安装 Diffusers 库\n$ pip install -U diffusers==0.19.3\n```\n\n### 3. 备选方案：安装原版 Latent Diffusion Model\n如需使用原版实现，需下载预训练权重（5.7GB）：\n\n```bash\n# 创建模型目录\n$ mkdir -p models\u002Fldm\u002Ftext2img-large\u002F\n\n# 下载权重文件（如官方链接失效，可使用下方镜像链接）\n$ wget -O models\u002Fldm\u002Ftext2img-large\u002Fmodel.ckpt https:\u002F\u002Fommer-lab.com\u002Ffiles\u002Flatent-diffusion\u002Fnitro\u002Ftxt2img-f8-large\u002Fmodel.ckpt\n\n# 镜像链接（备用）\n# https:\u002F\u002Fhuggingface.co\u002Fomriav\u002Fblended-latent-diffusion-ldm\u002Fresolve\u002Fmain\u002Fmodel.ckpt?download=true\n```\n\n## 基本使用\n\n### 使用 Stable Diffusion XL（效果更好，需要更强 GPU）\n```bash\n$ python scripts\u002Ftext_editing_SDXL.py \\\n    --prompt \"a stone\" \\\n    --init_image \"inputs\u002Fimg.png\" \\\n    --mask \"inputs\u002Fmask.png\"\n```\n\n### 使用 Stable Diffusion v2.1（显存要求较低）\n```bash\n$ python scripts\u002Ftext_editing_SD2.py \\\n    --prompt \"a stone\" \\\n    --init_image \"inputs\u002Fimg.png\" \\\n    --mask \"inputs\u002Fmask.png\"\n```\n\n### 使用原版 Latent Diffusion Model\n**第一步：生成编辑结果**\n```bash\n$ python scripts\u002Ftext_editing_LDM.py \\\n    --prompt \"a pink yarn ball\" \\\n    --init_image \"inputs\u002Fimg.png\" \\\n    --mask \"inputs\u002Fmask.png\" \\\n    --n_samples 4  # 可调整生成数量（根据 GPU 显存）\n```\n结果将保存至 `outputs\u002Fedit_results\u002Fsamples`\n\n**第二步：重建原始背景（可选）**\n```bash\n$ python scripts\u002Freconstruct.py \\\n    --init_image \"inputs\u002Fimg.png\" \\\n    --mask \"inputs\u002Fmask.png\" \\\n    --selected_indices 0 1  # 选择要重建的图片索引\n```\n重建结果将保存至 `outputs\u002Fedit_results\u002Fsamples\u002Freconstructed_optimization`\n\n## 参数说明\n- `--prompt`：编辑提示词（英文）\n- `--init_image`：原始图片路径\n- `--mask`：掩码图片路径（白色区域表示编辑区域）\n- `--n_samples`：生成图片数量（默认 1）\n- `--selected_indices`：选择要处理的图片索引（从 0 开始）\n\n## 文件结构准备\n```\n项目目录\u002F\n├── inputs\u002F\n│   ├── img.png      # 原始图片\n│   └── mask.png     # 掩码图片（黑白图，白色为编辑区域）\n└── scripts\u002F         # 脚本目录\n```\n\n**注意**：首次运行时会自动下载所需模型文件，请确保网络连接正常。","一位电商平台的平面设计师正在为即将到来的“夏日清凉”主题促销活动设计主视觉海报，他需要将一张普通泳池照片中的旧款泳圈，替换为带有品牌Logo的时尚火烈鸟泳圈，并调整背景色调以更符合活动主题。\n\n### 没有 blended-latent-diffusion 时\n- **操作繁琐，流程割裂**：设计师需先在Photoshop中手动圈选泳圈区域并删除，再寻找合适的火烈鸟泳圈素材进行透视、光影匹配和拼接，最后整体调色，整个过程涉及多个软件和步骤，耗时长达数小时。\n- **合成痕迹明显，真实性差**：手动替换的泳圈在光影、纹理和与水面融合度上往往不自然，需要设计师具备极高的修图技巧才能勉强掩盖，最终效果常显“假”或“突兀”。\n- **创意试错成本高**：若想尝试不同风格或颜色的泳圈，或调整背景氛围，每个想法都需要重新执行一遍上述复杂流程，严重限制了创意探索的空间。\n- **高度依赖素材与手动技能**：最终效果极大依赖于能否找到完美匹配的现成素材以及设计师本人的合成技术，结果不可控且难以标准化。\n\n### 使用 blended-latent-diffusion 后\n- **一站式智能编辑，流程无缝**：设计师只需上传泳池原图，用画笔粗略涂抹出旧泳圈区域作为蒙版，并输入文本提示“一个粉红色的时尚火烈鸟泳圈，带有[品牌]Logo，漂浮在清澈的泳池中”。blended-latent-diffusion 基于潜在扩散模型，能在几分钟内自动完成精准去除、内容生成与融合。\n- **生成内容逼真，无缝融合**：工具利用强大的扩散模型在潜在空间中进行推理和生成，新生成的泳圈不仅形态准确，其光影、倒影和与水的交互感都完全符合原图物理环境，达到了以假乱真的融合效果。\n- **实时迭代，激发创意**：设计师可以快速修改文本提示，例如将“粉红色”改为“亮蓝色”，或添加“阳光明媚的午后”来调整背景色调与氛围，在极短时间内预览多种设计方案，高效进行创意决策。\n- **降低技术门槛，提升可控性**：即使是不精通复杂合成技巧的设计师，也能通过直观的蒙版和文本描述，产出高质量、符合要求的专业级合成图像，使创意更聚焦于构思本身。\n\nblended-latent-diffusion 通过将精准的局部编辑与强大的文本驱动生成能力相结合，将原本繁琐、高门槛的专业图像编辑任务，转化为一个高效、直观且创意自由的标准化流程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fomriav_blended-latent-diffusion_5dad86c4.png","omriav","Omri Avrahami","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fomriav_8761366e.jpg","Generative AI Researcher","The Hebrew University of Jerusalem",null,"https:\u002F\u002Fomriavrahami.com","https:\u002F\u002Fgithub.com\u002Fomriav",[24,28,32],{"name":25,"color":26,"percentage":27},"Jupyter Notebook","#DA5B0B",90.4,{"name":29,"color":30,"percentage":31},"Python","#3572A5",9.5,{"name":33,"color":34,"percentage":35},"Shell","#89e051",0.1,629,37,"2026-01-26T16:37:58","MIT",3,"Linux, macOS, Windows","需要 NVIDIA GPU（推荐 RTX 系列），显存 8GB+，CUDA 11.8+","未说明",{"notes":45,"python":46,"dependencies":47},"建议使用 conda 管理环境，首次运行需下载约 5.7GB 模型文件，支持 Stable Diffusion XL（需要更强 GPU）","3.8+",[48,49,50,51],"torch>=2.1.0","torchvision>=0.16.0","diffusers>=0.19.3","pytorch-cuda=11.8",[53,54,55],"开发框架","其他","图像",[57,58,59,60,61,62,63,64,65,66,67,68,69],"deep-learning","multimodal","multimodal-deep-learning","text-guided-manipulation","text-to-image","text-to-image-synthesis","computer-vision","diffusion","diffusion-models","generative-model","image-generation","pytorch","text-driven-editing","ready","2026-03-27T02:49:30.150509","2026-04-06T08:45:21.011191",[74,79,84,89,94,99,104,109,114,119,124],{"id":75,"question_zh":76,"answer_zh":77,"source_url":78},3930,"代码何时发布？","代码已经发布。发布进度取决于我们无法控制的评审流程，因此之前无法提供具体日期。建议“关注”此仓库以在代码发布时获得通知。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F1",{"id":80,"question_zh":81,"answer_zh":82,"source_url":83},3931,"如何获取修复（inpainting）模型？","请参阅项目的【安装指南】(https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion#installation)。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F11",{"id":85,"question_zh":86,"answer_zh":87,"source_url":88},3932,"使用 Stable Diffusion 实现时出现张量尺寸不匹配错误怎么办？","该问题通常是由于使用的图像分辨率与 Stable Diffusion 模型不兼容（例如，基础模型要求 512x512）。解决方案是确保输入图像尺寸符合要求。代码已更新，添加了显式的图像尺寸调整功能，可以拉取最新代码。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F9",{"id":90,"question_zh":91,"answer_zh":92,"source_url":93},3933,"如何训练我自己的数据集？","如果您使用的是 SDXL 实现，可以使用 Hugging Face Diffusers 库中的【训练脚本】(https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fdiffusers\u002Fblob\u002Fmain\u002Fexamples\u002Ftext_to_image\u002Ftrain_text_to_image_sdxl.py)。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F24",{"id":95,"question_zh":96,"answer_zh":97,"source_url":98},3934,"如何实现论文中的涂鸦引导编辑（Scribble-guided editing）？","涂鸦需要使用外部图像编辑软件完成。然后，为涂鸦区域提供蒙版，并执行标准的、由文本提示引导的图像编辑。一个重要的超参数是去噪步数，它控制着输出与输入涂鸦的对应程度。更多细节请参考【Blended Diffusion 论文】中的图32。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F8",{"id":100,"question_zh":101,"answer_zh":102,"source_url":103},3935,"为什么使用演示代码生成的结果与论文中的示例不同？","论文中使用了更详细的文本提示，例如 `a children's book titled \"ECCV\"`。请尝试使用更详细、描述性更强的文本提示。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F7",{"id":105,"question_zh":106,"answer_zh":107,"source_url":108},3936,"该方法是否也适用于 DeepFloyd IF 模型？","作者本人未在 DeepFloyd 模型上测试。但作者此前在基于像素的扩散模型上成功实现了基于蒙版的混合。因此，理论上该方法也应该适用于 DeepFloyd。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F10",{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},3937,"为什么 SD2 和 SDXL 的 edit_image 函数不同？","Diffusers 库对 SDXL 的实现并非完全向后兼容。为了使我们的方法适配 SDXL，需要进行一些代码调整。但两个版本在核心概念上没有区别。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F20",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},3938,"填充物体时图像没有变化怎么办？","可以尝试调整超参数，例如使用更低的 `--blending_start_percentage` 值。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F19",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},3939,"论文中是否考虑了蒙版区域与非蒙版区域生成的协调性？","在本论文中没有。但在一个【后续项目】(https:\u002F\u002Fomeregev.github.io\u002Fclick2mask\u002F) 中，我们实现了动态创建蒙版。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F23",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},3940,"混合潜在扩散如何保证目标编辑精确地位于蒙版区域内？","这并非绝对保证。其核心思想是，渐进式的扩散过程、蒙版和混合操作共同鼓励了这种行为。","https:\u002F\u002Fgithub.com\u002Fomriav\u002Fblended-latent-diffusion\u002Fissues\u002F6",[],[131,140,150,158,166,178],{"id":132,"name":133,"github_repo":134,"description_zh":135,"stars":136,"difficulty_score":40,"last_commit_at":137,"category_tags":138,"status":70},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[53,55,139],"Agent",{"id":141,"name":142,"github_repo":143,"description_zh":144,"stars":145,"difficulty_score":146,"last_commit_at":147,"category_tags":148,"status":70},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[53,139,149],"语言模型",{"id":151,"name":152,"github_repo":153,"description_zh":154,"stars":155,"difficulty_score":146,"last_commit_at":156,"category_tags":157,"status":70},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[53,55,139],{"id":159,"name":160,"github_repo":161,"description_zh":162,"stars":163,"difficulty_score":146,"last_commit_at":164,"category_tags":165,"status":70},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[53,149],{"id":167,"name":168,"github_repo":169,"description_zh":170,"stars":171,"difficulty_score":146,"last_commit_at":172,"category_tags":173,"status":70},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[55,174,175,176,139,54,149,53,177],"数据工具","视频","插件","音频",{"id":179,"name":180,"github_repo":181,"description_zh":182,"stars":183,"difficulty_score":40,"last_commit_at":184,"category_tags":185,"status":70},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[139,55,53,149,54]]