Chain-of-Zoom

766 76 较难 1 次阅读 4天前MIT图像其他

AI 解读由 AI 自动生成，仅供参考

Chain-of-Zoom 是一款专为突破图像超分辨率极限而设计的开源框架，旨在让现有的超分模型无需重新训练，即可生成远超其原始训练范围的超高清晰度图像。传统模型在强行放大时往往会出现模糊、伪影，且针对新倍数重新训练成本高昂，Chain-of-Zoom 巧妙地将这一难题转化为“尺度自回归”过程：它像链条一样多次复用同一个基础模型，通过逐步放大的中间状态，将复杂的超分任务分解为可管理的子问题。

该工具的独特亮点在于引入了“多尺度感知提示”机制。由于高倍放大下视觉细节容易丢失，Chain-of-Zoom 利用视觉语言模型（VLM）自动生成描述图像内容的文本提示来辅助每一步的放大，并可通过人类偏好对齐技术进一步优化生成效果，确保结果自然逼真且符合审美。此外，它还提供了显存优化选项，使高性能计算更加亲民。

Chain-of-Zoom 非常适合 AI 研究人员探索生成式超分的新范式，也适用于开发者将其集成到图像处理管线中，或是设计师用于需要极致细节的图片修复与增强场景。只要具备基础的深度学习环境配置能力，用户即可利用该工具释放现有模型的潜力，轻松实现从普通清晰到电影级画质的跨越。

使用场景

某刑侦技术团队正在处理一起陈年旧案，需要将一张模糊的监控截图放大以识别嫌疑人面部特征和衣物纹理。

没有 Chain-of-Zoom 时

图像严重失真：强行将低分辨率图片放大 8 倍以上时，传统超分模型生成的面部细节模糊不清，甚至产生奇怪的伪影，导致无法辨认五官。
训练成本高昂：若要获得更高清的结果，必须针对特定的高倍率重新收集数据并训练新模型，耗时数周且算力消耗巨大。
缺乏语义引导：模型仅凭像素猜测细节，无法理解“警徽”、“特定品牌鞋纹”等关键语义信息，导致还原出的细节不符合现实逻辑。
显存资源受限：尝试高分辨率推理时，单张显卡显存迅速爆满，迫使团队不得不租用昂贵的多卡集群才能运行测试。

使用 Chain-of-Zoom 后

极致清晰成像：通过自回归式的多级缩放链，Chain-of-Zoom 将放大过程分解为多个可控步骤，成功在无需重训的情况下生成了照片级的 16 倍超清图像，毛孔与织物纹理清晰可见。
零样本即时应用：直接复用现有的基础超分模型，利用其独特的尺度分解框架，几分钟内即可完成从模糊截图到高清证据的转换，无需任何额外训练。
智能语义增强：集成的视觉语言模型（VLM）自动提取并生成“带有编号的警用夹克”等多尺度提示词，引导模型生成符合人类认知偏好的真实细节，避免了胡乱填充。
高效显存管理：借助高效内存优化策略，Chain-of-Zoom 能够在单张 24GB 显存的消费级显卡上流畅运行极端超分任务，大幅降低了硬件门槛。

Chain-of-Zoom 通过将超分辨率任务转化为带语义引导的自回归缩放链条，让普通模型也能在无训练成本下实现极致的细节还原。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU
推荐双显卡
若使用单卡需 24GB VRAM 并开启 --efficient_memory 模式（会显著增加推理时间）
安装指令暗示支持 CUDA 12.1 (cu121)

内存

未说明

依赖

notes该工具基于 Stable Diffusion v3、Qwen2.5-VL-3B 和 RAM 模型，需手动下载相关检查点。训练骨干网络需额外安装 OSEDiff 依赖。单卡运行时建议使用 --efficient_memory 参数以适配 24GB 显存，但推理速度会变慢，官方推荐使用双显卡。

python3.10

torch (via xformers cu121)

xformers==0.0.28.post1

basicsr==1.4.2

opencv-python

wandb

transformers (implied by SD3/Qwen)

diffusers (implied by SD3)

快速开始

链式缩放：基于尺度自回归与偏好对齐的极端超分辨率（NeurIPS 2025 Spotlight）

本仓库是 Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment 的官方实现，由以下人员主导：

Bryan Sangwoo Kim、Jeongsol Kim、Jong Chul Ye

🔥 摘要

现代单图像超分辨率（SISR）模型在与其训练尺度一致的放大倍数下能够生成照片级逼真的结果，但在超出其训练范围时却存在显著缺陷：

模糊与伪影：当放大倍数超过模型的训练上限时，输出质量会明显下降。
高昂的计算成本与低效性：若需进一步提升放大倍数，通常需要重新训练模型。

这引出了一个根本问题：
我们如何有效地利用超分辨率模型，将其应用到远超原始训练范围的更高分辨率场景中？

为此，我们提出了 Chain-of-Zoom 🔎——一种模型无关的框架，它将 SISR 任务分解为一系列具有多尺度感知提示的中间尺度状态的自回归链。CoZ 可以重复使用同一骨干 SR 模型，通过将条件概率分解为易于处理的子问题，从而在无需额外训练的情况下实现极高的分辨率。由于在高倍率放大时视觉线索会逐渐减弱，我们在每一步缩放过程中都加入了由提示提取 VLM 生成的多尺度感知文本提示。该提示提取器还可以通过 GRPO 方法与评判型 VLM 进行微调，以进一步使文本指导更符合人类偏好。

🗓 新闻

[2025年8月] 发布了更多代码。
[2025年6月] 请查看 @alexnasa 构建的精彩 🤗 Huggingface Space! 感谢他们的出色工作！
[2025年5月] 代码与论文正式发布。

🛠️ 环境搭建

首先，请创建您的运行环境。我们推荐使用以下命令：

git clone https://github.com/bryanswkim/Chain-of-Zoom.git
cd Chain-of-Zoom

conda create -n coz python=3.10
conda activate coz
pip install -r requirements.txt

⏳ 模型

模型	检查点
Stable Diffusion v3	Hugging Face
Qwen2.5-VL-3B-Instruct	Hugging Face
RAM	Hugging Face

⚡ 快速推理

您可以通过以下示例快速体验 CoZ 的效果：

python inference_coz.py \
  -i samples \
  -o inference_results/coz_vlmprompt \
  --rec_type recursive_multiscale \
  --prompt_type vlm \
  --lora_path ckpt/SR_LoRA/model_20001.pkl \
  --vae_path ckpt/SR_VAE/vae_encoder_20001.pt \
  --vlm_lora_path ckpt/VLM_LoRA/checkpoint-10000 \
  --pretrained_model_name_or_path 'stabilityai/stable-diffusion-3-medium-diffusers' \
  --ram_ft_path ckpt/DAPE/DAPE.pth \
  --ram_path ckpt/RAM/ram_swin_large_14m.pth \
  --save_prompts;

运行结果如下所示：

🔬 节省显存

使用 --efficient_memory 参数可以让 CoZ 在仅配备 24GB 显存的单张 GPU 上运行，但因数据交换操作较多，推理时间会显著增加。因此，我们建议使用两张 GPU。

🌄 全图超分辨率

尽管我们的主要目标是局部区域的放大，但 CoZ 同样可以轻松应用于整张图片的超分辨率处理。请尝试以下代码：

python inference_coz_full.py \
  -i samples \
  -o inference_results/coz_full \
  --rec_type recursive_multiscale \
  --prompt_type vlm \
  --lora_path ckpt/SR_LoRA/model_20001.pkl \
  --vae_path ckpt/SR_VAE/vae_encoder_20001.pt \
  --vlm_lora_path ckpt/VLM_LoRA/checkpoint-10000 \
  --pretrained_model_name_or_path 'stabilityai/stable-diffusion-3-medium-diffusers' \
  --ram_ft_path ckpt/DAPE/DAPE.pth \
  --ram_path ckpt/RAM/ram_swin_large_14m.pth;

🚆 训练 SR 骨干模型

Chain-of-Zoom 是模型无关的，可与任意预训练的文本感知 SR 模型搭配使用。在本仓库中，我们采用了基于 Stable Diffusion 3 Medium 训练的 OSEDiff 作为骨干模型。为此，您需要安装一些额外的依赖：

pip install wandb opencv-python basicsr==1.4.2

pip install --no-deps --extra-index-url https://download.pytorch.org/whl/cu121 xformers==0.0.28.post1

有关训练配置（例如准备训练数据等），请参考 OSEDiff 仓库。接下来即可开始训练 SR 骨干模型：

bash scripts/train/train_osediff_sd3.sh

📝 引用

如果您认为我们的方法有所帮助，请按照以下格式引用或为本仓库点亮星标：

@article{kim2025chain,
  title={Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment},
  author={Kim, Bryan Sangwoo and Kim, Jeongsol and Ye, Jong Chul},
  journal={arXiv preprint arXiv:2505.18600},
  year={2025}
}

🤗 致谢

我们感谢 OSEDiff 的作者们分享他们的优秀工作！

Chain-of-Zoom 快速上手指南

Chain-of-Zoom (CoZ) 是一个模型无关的框架，旨在通过尺度自回归和偏好对齐实现极致超分辨率。它无需重新训练即可利用现有的超分辨率模型探索远超其原始训练范围的更高分辨率，有效解决高倍放大下的模糊和伪影问题。

环境准备

操作系统: Linux (推荐 Ubuntu 20.04+)
Python 版本: 3.10
GPU 要求:
- 推荐配置：双 GPU 以获得最佳推理速度。
- 最低配置：单张 24GB 显存 GPU（需开启 --efficient_memory 模式，但推理时间会显著增加）。
前置依赖: Conda (用于环境管理), Git

安装步骤

克隆仓库并进入目录

git clone https://github.com/bryanswkim/Chain-of-Zoom.git
cd Chain-of-Zoom

创建并激活 Conda 环境

conda create -n coz python=3.10
conda activate coz

安装基础依赖
```
pip install -r requirements.txt
```
提示: 如果下载速度较慢，可添加国内镜像源加速，例如：pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

(可选) 安装训练所需的额外依赖 如果您仅需推理，可跳过此步。若需训练骨干模型，请执行：

pip install wandb opencv-python basicsr==1.4.2
pip install --no-deps --extra-index-url https://download.pytorch.org/whl/cu121 xformers==0.0.28.post1

下载预训练模型 确保从以下链接下载模型权重并放置于项目对应的 ckpt 或缓存目录中：
- Stable Diffusion v3: Hugging Face
- Qwen2.5-VL-3B-Instruct: Hugging Face
- RAM: Hugging Face

基本使用

以下命令展示了如何使用 Chain-of-Zoom 对样本图像进行局部区域的高倍超分辨率推理。该示例将自动提取多尺度文本提示以增强生成效果。

python inference_coz.py \
  -i samples \
  -o inference_results/coz_vlmprompt \
  --rec_type recursive_multiscale \
  --prompt_type vlm \
  --lora_path ckpt/SR_LoRA/model_20001.pkl \
  --vae_path ckpt/SR_VAE/vae_encoder_20001.pt \
  --vlm_lora_path ckpt/VLM_LoRA/checkpoint-10000 \
  --pretrained_model_name_or_path 'stabilityai/stable-diffusion-3-medium-diffusers' \
  --ram_ft_path ckpt/DAPE/DAPE.pth \
  --ram_path ckpt/RAM/ram_swin_large_14m.pth \
  --save_prompts;

参数说明：

-i: 输入图像文件夹路径。
-o: 输出结果保存路径。
--efficient_memory: 若显存不足（单卡 24GB），可在命令末尾添加此标志以启用显存优化模式（会降低速度）。
其他路径参数请根据实际下载的模型权重位置进行调整。

运行完成后，超分辨率结果将保存在 inference_results/coz_vlmprompt 目录中。

常见问题

是否有计划发布训练代码？

使用的 VLM 模型是 Qwen2.5-VL-3B-Instruct 的基础版本还是微调版本？

项目是否会添加开源许可证（如 MIT）？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像