ddrm

664 69 中等 1 次阅读 6天前MIT图像开发框架

AI 解读由 AI 自动生成，仅供参考

ddrm 是一个基于去噪扩散概率模型（DDPM）的开源算法，专为解决各类线性逆问题而设计。它无需针对特定任务进行额外的监督训练，即可高效地从受损或退化的观测数据中恢复出高质量原始图像。无论是图像超分辨率、去模糊、去噪、修复缺失区域，还是压缩感知重建，ddrm 都能利用预训练的生成模型灵活应对。

该工具的核心优势在于其“零样本”适应能力：直接复用现有的预训练扩散模型，通过独特的推理过程处理不同类型的图像退化，大幅降低了重新训练模型的成本与门槛。这一特性使其在学术研究和工程应用中极具价值，特别适合研究人员探索生成模型在逆问题中的潜力，以及开发者快速构建图像恢复原型系统。对于需要处理复杂图像复原任务的设计师或工程师，ddrm 也提供了灵活的命令行接口和详细的配置选项，支持多种数据集和退化类型。作为 NeurIPS 2022 的获奖成果，ddrm 将前沿理论与实用代码紧密结合，为图像复原领域提供了一套高效、通用的解决方案。

使用场景

一家数字档案馆正在紧急修复一批因扫描设备老化而严重模糊且带有噪点的历史照片，需要在不重新拍摄的前提下恢复细节。

没有 ddrm 时

团队必须针对每种退化类型（如高斯模糊、运动模糊或特定噪声）单独收集大量配对数据并训练专用模型，耗时数周且算力成本极高。
传统去噪算法在去除噪点的同时往往抹平纹理，导致人脸五官模糊或建筑砖瓦细节丢失，修复效果显得“塑料感”过重。
面对未知的复杂混合退化情况，现有方法泛化能力差，工程师需要反复手动调整参数尝试不同模型，效率极低且难以保证一致性。
若需处理超分辨率任务，通常需要先降噪再放大，分步处理导致误差累积，最终图像出现伪影或结构失真。

使用 ddrm 后

直接利用预训练的 DDPM 大模型，无需任何针对特定退化任务的监督训练，几分钟内即可部署解决去噪、去模糊及超分辨率等多种问题。
ddrm 基于扩散概率模型的特性，能在恢复清晰度的同时“幻觉”出符合物理规律的高频纹理，使老照片的皮肤质感和衣物褶皱自然逼真。
通过简单修改命令行中的 --deg 参数（如 deblur_gauss 或 sr4），即可灵活应对各种线性逆问题，统一工作流大幅降低运维复杂度。
端到端的恢复过程避免了分步处理的误差累积，即使在低信噪比下也能重建出结构完整、细节丰富的 4 倍超高分辨率图像。

ddrm 的核心价值在于将原本需要定制化训练的复杂图像复原任务，转化为仅需预训练模型即可高效解决的通用流程，极大降低了技术门槛与时间成本。

运行环境要求

操作系统

未说明

GPU

必需（基于 PyTorch 和扩散模型特性推断），具体型号和显存大小未说明，CUDA 版本未说明

内存

未说明

依赖

notes代码已在 PyTorch 1.8 和 1.10 版本上测试通过。建议使用 README 中提供的 `environment.yml` 文件通过 conda 或 mamba 创建运行环境。需要预先下载来自 OpenAI、pytorch_diffusion 或 SDEdit 的预训练模型文件，并按特定目录结构放置在 `exp/` 文件夹中。部分预训练模型（如 CelebA）在无条件下生成的图像质量可能不高。

python未说明

torch>=1.8

conda/mamba (用于环境管理)

快速开始

去噪扩散修复模型 (DDRM)

arXiv | PDF | 项目官网

Bahjat Kawar¹, Michael Elad¹, Stefano Ermon², Jiaming Song²
¹ 特克尼昂理工学院，² 斯坦福大学

DDRM 利用预训练的 DDPMs 来求解一般的线性逆问题。它能够高效地完成这一任务，且无需针对特定问题进行有监督训练。

运行实验

该代码已在 PyTorch 1.8 和 1.10 上测试通过。请参考 environment.yml 文件，了解可用于运行代码的 conda/mamba 环境列表。

预训练模型

我们使用来自以下仓库的预训练模型：https://github.com/openai/guided-diffusion、https://github.com/pesser/pytorch_diffusion 和 https://github.com/ermongroup/SDEdit。

为了与其他方法进行比较，我们使用了 ImageNet 验证集中的 1,000 张图像。这些图像的列表来自 https://github.com/XingangPan/deep-generative-prior/。

模型和数据集被放置在 exp/ 文件夹中，结构如下：

<exp> # 由 main.py 的 --exp 参数命名的文件夹
├── datasets # 所有数据集文件
│   ├── celeba # 所有 CelebA 文件
│   ├── imagenet # 所有 ImageNet 文件
│   ├── ood # 分布外的 ImageNet 图像
│   ├── ood_bedroom # 分布外的卧室图像
│   ├── ood_cat # 分布外的猫图像
│   └── ood_celeba # 分布外的 CelebA 图像
├── logs # 包含训练过程中生成的检查点和样本
│   ├── celeba
│   │   └── celeba_hq.ckpt # CelebA-HQ 的检查点文件
│   ├── diffusion_models_converted
│   │   └── ema_diffusion_lsun_<category>_model
│   │       └── model-x.ckpt # 第 x 次训练迭代保存的检查点文件
│   ├── imagenet # ImageNet 的检查点文件
│   │   ├── 256x256_classifier.pt
│   │   ├── 256x256_diffusion.pt
│   │   ├── 256x256_diffusion_uncond.pt
│   │   ├── 512x512_classifier.pt
│   │   └── 512x512_diffusion.pt
├── image_samples # 包含生成的样本
└── imagenet_val_1k.txt # ImageNet-1K 中使用的 1,000 张图像的列表。

需要注意的是，某些模型在无条件图像生成时可能无法生成高质量的样本，尤其是预训练的 CelebA 模型。

从模型中采样

从模型中采样的通用命令如下：

python main.py --ni --config {CONFIG}.yml --doc {DATASET} --timesteps {STEPS} --eta {ETA} --etaB {ETA_B} --deg {DEGRADATION} --sigma_0 {SIGMA_0} -i {IMAGE_FOLDER}

其中各选项含义如下：

ETA 是论文中的 eta 超参数。（默认值：0.85）
ETA_B 是论文中的 eta_b 超参数。（默认值：1）
STEPS 控制采样过程中使用的步数。
DEGREDATION 是允许的退化类型。（可选：cs2、cs4、inp、inp_lolcat、inp_lorem、deno、deblur_uni、deblur_gauss、deblur_aniso、sr2、sr4、sr8、sr16、sr_bicubic4、sr_bicubic8、sr_bicubic16、color）
SIGMA_0 是 y 中观察到的噪声水平。
CONFIG 是配置文件的名称（详见 configs/ 目录），包含批量大小、网络架构等超参数。
DATASET 是所使用的数据集名称，用于确定检查点文件的位置。
IMAGE_FOLDER 是存放生成图像的文件夹名称。（默认值：images）

例如，使用 ImageNet 256x256 无条件模型，对加噪图像进行 4 倍超分辨率重建，采用 20 步采样：

python main.py --ni --config imagenet_256.yml --doc imagenet --timesteps 20 --eta 0.85 --etaB 1 --deg sr4 --sigma_0 0.05

生成的图像将被放置在 <exp>/image_samples/{IMAGE_FOLDER} 文件夹中，其中 orig_{id}.png、y0_{id}.png、{id}_-1.png 分别对应原始图像、退化图像和恢复后的图像。

配置文件中包含一个设置，用于控制是否在训练数据集的分布内进行测试。

演示用图像

演示用图像列表可在以下链接找到：https://github.com/jiamings/ddrm-exp-datasets。将其放置在 <exp>/datasets 文件夹下，即可直接执行以下命令：

CelebA 加噪 4 倍超分辨率：

python main.py --ni --config celeba_hq.yml --doc celeba --timesteps 20 --eta 0.85 --etaB 1 --deg sr4 --sigma_0 0.05 -i celeba_hq_sr4_sigma_0.05

通用内容图像均匀去模糊：

python main.py --ni --config imagenet_256.yml --doc imagenet_ood --timesteps 20 --eta 0.85 --etaB 1 --deg deblur_uni --sigma_0 0.0 -i imagenet_sr4_sigma_0.0

卧室加噪 4 倍超分辨率：

python main.py --ni --config bedroom.yml --doc bedroom --timesteps 20 --eta 0.85 --etaB 1 --deg sr4 --sigma_0 0.05 -i bedroom_sr4_sigma_0.05

参考文献与致谢

@inproceedings{kawar2022denoising,
    title={Denoising Diffusion Restoration Models},
    author={Bahjat Kawar and Michael Elad and Stefano Ermon and Jiaming Song},
    booktitle={Advances in Neural Information Processing Systems},
    year={2022}
}

本实现基于或受以下项目启发：

https://github.com/hojonathanho/diffusion（DDPM TensorFlow 仓库），
https://github.com/pesser/pytorch_diffusion（用于加载 DDPM 模型的 PyTorch 工具），
https://github.com/ermongroup/ddim（代码结构）。

DDRM 快速上手指南

去噪扩散恢复模型（DDRM）利用预训练的 DDPM 模型高效解决各类线性逆问题（如超分辨率、去模糊、修复等），无需针对特定问题进行监督训练。

环境准备

系统要求：Linux 或 macOS（Windows 需自行配置 PyTorch 环境）。
Python 版本：推荐 Python 3.8+。
核心依赖：
- PyTorch 1.8 或 1.10（已测试版本）。
- Conda 或 Mamba（推荐用于管理虚拟环境）。
国内加速建议：
- 安装 Conda 包时推荐使用清华源或中科大源。
- 下载预训练模型若遇网络问题，可尝试使用镜像工具或手动下载后放入指定目录。

安装步骤

克隆仓库

git clone https://github.com/bahjat-kawar/ddrm.git
cd ddrm

创建并激活虚拟环境 使用项目提供的 environment.yml 创建环境（建议修改 yml 中的源为国内镜像以加速）：

# 使用 conda
conda env create -f environment.yml
conda activate ddrm

# 或使用 mamba (速度更快)
mamba env create -f environment.yml
mamba activate ddrm

准备预训练模型与数据 代码依赖 OpenAI Guided Diffusion 等项目的预训练权重。请确保 exp/ 目录结构如下（需手动下载权重文件放入对应文件夹）：
```
exp/
├── datasets/          # 放置数据集 (CelebA, ImageNet 等)
├── logs/              # 放置预训练权重 (.ckpt 或 .pt 文件)
│   ├── celeba/
│   ├── diffusion_models_converted/
│   └── imagenet/
└── imagenet_val_1k.txt
```
注：具体模型下载地址请参考原文 README 中的 GitHub 链接。演示用图片数据集可从 ddrm-exp-datasets 获取并放入 exp/datasets。

基本使用

以下命令展示了如何使用预训练模型进行图像恢复。生成的图像将保存在 <exp>/image_samples/{IMAGE_FOLDER} 目录下。

通用命令格式

python main.py --ni --config {CONFIG}.yml --doc {DATASET} --timesteps {STEPS} --eta {ETA} --etaB {ETA_B} --deg {DEGRADATION} --sigma_0 {SIGMA_0} -i {IMAGE_FOLDER}

关键参数说明：

--config: 配置文件名（位于 configs/ 目录），定义模型架构和批次大小。
--doc: 数据集名称，用于定位对应的检查点文件。
--timesteps: 采样步数（默认 20 步即可取得较好效果）。
--deg: 退化类型，可选值包括：
- 超分：sr2, sr4, sr8, sr16, sr_bicubic4 等
- 去模糊：deblur_uni, deblur_gauss, deblur_aniso
- 修复：inp, inp_lolcat, inp_lorem
- 去噪：deno
- 压缩感知：cs2, cs4
--sigma_0: 观测噪声强度。

使用示例

示例 1：ImageNet 图像进行 4 倍超分辨率（带噪声） 使用 ImageNet 256x256 无条件模型，20 步采样，噪声标准差 0.05。

python main.py --ni --config imagenet_256.yml --doc imagenet --timesteps 20 --eta 0.85 --etaB 1 --deg sr4 --sigma_0 0.05

示例 2：CelebA 人脸图像进行 4 倍超分辨率 需先将演示数据放入 exp/datasets 目录。

python main.py --ni --config celeba_hq.yml --doc celeba --timesteps 20 --eta 0.85 --etaB 1 --deg sr4 --sigma_0 0.05 -i celeba_hq_sr4_sigma_0.05

示例 3：通用图像均匀去模糊

python main.py --ni --config imagenet_256.yml --doc imagenet_ood --timesteps 20 --eta 0.85 --etaB 1 --deg deblur_uni --sigma_0 0.0 -i imagenet_sr4_sigma_0.0

输出说明： 运行完成后，请在 exp/image_samples/{IMAGE_FOLDER} 中查看结果：

orig_{id}.png: 原始清晰图像（Ground Truth，如有）。
y0_{id}.png: 退化后的输入图像。
{id}_-1.png: DDRM 恢复后的最终图像。

常见问题

运行代码时遇到 CUDA solver failure (cusolver error) 错误怎么办？

如何直接使用已有的模糊图像作为输入，而不是让代码自动模糊清晰图像？

如何为自定义线性逆问题定义新的 H 函数类（例如针对特定区域的超分辨率）？

模型在非训练集数据（如个人照片）上泛化效果不佳是什么原因？

代码是否支持 VE SDEs，还是仅支持 VP SDEs？

运行 image_256_cc.yml 或 image_512_cc.yml 配置时报错缺少 "label_emb.weight" 键怎么办？

实验所需的 datasets 数据包在哪里下载？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型