4KAgent

GitHub
785 45 较难 1 次阅读 昨天Apache-2.0开发框架图像语言模型Agent
AI 解读 由 AI 自动生成,仅供参考

4KAgent 是一款荣获 NeurIPS 2025 收录的智能图像超分辨率工具,旨在将任意质量的图片“魔法般”地修复并提升至完美的 4K 分辨率。无论是严重模糊的老照片、低清的网络截图,还是复杂的科学显微图像乃至 AI 生成的画面,它都能通用处理,有效解决了传统算法在面对极端退化或特定领域图像时效果不佳的难题。

其核心创新在于采用了多智能体协作架构:由“感知智能体”利用大型视觉语言模型分析图像内容与损伤情况并制定修复策略,再由“恢复智能体”执行包含反思与回滚机制的递归修复流程。此外,4KAgent 引入了质量驱动的混合专家策略(Q-MoE)以在每一步骤中优选最佳结果,并配备了专门的人脸增强管道和无需额外训练即可适配不同任务的配置模块。

这款工具非常适合需要高质量图像放大的设计师、处理科研影像的研究人员、开发计算机视觉应用的工程师,以及希望提升个人照片清晰度的普通用户。通过智能化的流程设计,4KAgent 让高分辨率图像重建变得更加通用、精准且易于定制。

使用场景

一位数字档案管理员正在处理一批珍贵的 20 世纪老照片,这些照片不仅分辨率极低(仅 256x256),还混杂着严重的划痕、噪点以及模糊的人脸细节,急需修复并放大至 4K 标准以供高清展览使用。

没有 4KAgent 时

  • 工具碎片化严重:需要分别使用去噪软件、超分模型和专门的人脸修复工具,手动串联流程极易出错且耗时。
  • 细节丢失与伪影:传统算法在极端低质输入下容易产生模糊或奇怪的纹理伪影,无法还原真实的胶片质感。
  • 人脸修复失败:通用超分模型对老旧照片中模糊不清的五官往往无能为力,导致人物面部扭曲或无法识别。
  • 缺乏智能判断:无法根据照片具体的退化类型(如划痕 vs 噪点)自动调整策略,只能套用固定参数,效果参差不齐。

使用 4KAgent 后

  • 一站式智能代理:4KAgent 的多智能体系统自动分析图像退化情况,一键执行从感知、规划到修复的全流程,无需人工干预。
  • 高质量细节重建:借助质量驱动的混合专家策略(Q-MoE),能精准去除噪点并生成自然的 4K 高频细节,完美保留历史韵味。
  • 专属人脸增强:内置的人脸修复流水线专门针对模糊五官进行优化,即使原图极度模糊也能还原清晰、自然的面部特征。
  • 自适应场景处理:无论是显微图像还是老旧胶片,4KAgent 的配置文件模块能自动适配不同任务,无需额外训练即可达到最佳效果。

4KAgent 将繁琐的多步图像处理转化为智能化的单次交互,让任何低质图像都能以完美的 4K 画质重获新生。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 示例命令使用多卡并行(感知代理、推理主进程、工具执行分别占用不同 GPU)
  • 显存需求较高:运行非参考指标评估时,若显存小于 24GB 需使用低显存脚本
  • 建议大显存显卡以支持 4K 分辨率生成及多模型并发
内存

未说明

依赖
notes1. 架构为多智能体系统,包含感知代理(需调用 LLaMA-Vision 或 DepictQA 等视觉语言模型)和修复代理。 2. 必须配置 API Key 到 config.yml 文件才能运行。 3. 支持多 GPU 部署:感知代理和具体修复工具可指定在不同 GPU 上运行(通过 --tool_run_gpu_id 参数)。 4. 若使用 DepictQA 作为感知模型,需单独启动其服务端口。 5. 数据集 DIV4K-50 需通过 huggingface-cli 下载并解压。
python未说明 (通过 conda 环境管理)
torch
transformers (用于 VLM)
huggingface_hub
conda
4KAgent hero image

快速开始

4KAgent:基于智能体的任意图像至4K超分辨率重建

Yushen Zuo1  Qi Zheng1†  Mingyang Wu1†  Xinrui Jiang2†Renjie Li1
Jian Wang3Yide Zhang4Gengchen Mai5Lihong V. Wang6James Zou2
Xiaoyu Wang7Ming-Hsuan Yang8Zhengzhong Tu1*

1德克萨斯农工大学  2斯坦福大学  3Snap Inc.  4科罗拉多大学博尔德分校
5德克萨斯大学奥斯汀分校  6加州理工学院  7Topaz Labs  8加州大学默塞德分校
表示共同第一作者
*通讯作者

  arXiv  🤗 Dataset visitors


已被NeurIPS 2025接收

引言

我们提出了4KAgent,一个基于智能体的通用图像超分辨率模型,旨在将任意图像无差别地提升至4K分辨率,无论输入类型、退化程度或领域如何。4KAgent具备以下关键特性:

  • 🔥 框架4KAgent是首个用于通用任意图像至4K超分辨率的AI智能体框架,能够处理所有图像类别,从经典和现实中的退化图像、极端低质量输入,到AI生成图像,以及遥感、显微镜和生物医学等科学成像任务。

  • 🔥 系统设计:在4KAgent中,感知智能体采用大型视觉-语言模型(VLM)分析图像内容与失真,并制定修复方案供修复智能体执行。修复智能体则通过执行—反思—回滚的递归流程进行修复与超分辨率重建。

  • 🔥 Q-MoE与人脸修复流水线:在修复方案的每一步中,我们提出了一种基于质量驱动的专家混合(Q-MoE)策略,在执行与反思阶段选择最优图像。此外,我们还开发了人脸修复流水线,以增强图像中的人脸细节。

  • 🔥 配置模块:为扩展4KAgent的适用性,我们提出了配置模块,允许用户根据不同的修复任务自定义系统。4KAgent无需额外训练即可适应多种修复任务。

  • 🔥 DIV4K-50数据集:我们构建了DIV4K-50数据集,作为一项具有挑战性的测试集,用于将256×256分辨率的低质量(LQ)图像,经过多重退化后,提升至4096×4096分辨率的高质量(HQ)4K图像。

流程

依赖与安装

请参阅安装指南,获取关于环境搭建和依赖安装的详细说明。

推理

前提条件:在运行4KAgent之前,请在配置文件中填写API密钥。

4KAgent的推理依赖于配置文件,以下是示例:

使用‘llama_vision’作为感知智能体VLM的配置文件:

经典SR(ExpSR_s4_F)

CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/classicsr \
  --output_dir ./outputs/4KAgent_test/classicsr \
  --profile_name ExpSR_s4_F \
  --tool_run_gpu_id 2

真实世界SR(ExpSR_s4_P)

CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/realworldsr \
  --output_dir ./outputs/4KAgent_test/realworldsr \
  --profile_name ExpSR_s4_P \
  --tool_run_gpu_id 2

使用‘depictqa’作为感知智能体VLM的配置文件:

红外与4K SR联合处理:

# 在门户A中设置depictqa:
cd ./DepictQA
conda activate depictqa
CUDA_VISIBLE_DEVICES=0 python src/app_eval.py

# 在门户B中运行4KAgent推理:
CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/4ksr \
  --output_dir ./outputs/4KAgent_test/4ksr \
  --profile_name FastGen4K_P \
  --tool_run_gpu_id 2

我们推荐FastGen4K_P配置文件,它推理速度更快,且具有良好的感知质量。

tool_run_gpu_id用于指定执行工具(修复方法)的GPU。对于显存较大的GPU,可以将tool_run_gpu_id设置为与CUDA_VISIBLE_DEVICES相同。

老照片4K SR

# 在门户A中设置depictqa:
cd ./DepictQA
conda activate depictqa
CUDA_VISIBLE_DEVICES=0 python src/app_eval.py

# 在门户B中运行4KAgent推理:
CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/opr \
  --output_dir ./outputs/4KAgent_test/opr \
  --profile_name OldP4K_P \
  --tool_run_gpu_id 2

多重退化图像修复

# 在门户A中设置depictqa:
cd ./DepictQA
conda activate depictqa
CUDA_VISIBLE_DEVICES=0 python src/app_eval.py

# 在门户B中运行4KAgent推理:
CUDA_VISIBLE_DEVICES=1 python infer_4kagent.py \
  --input_dir ./assets/profile_test_example/mir \
  --output_dir ./outputs/4KAgent_test/mir \
  --profile_name GenMIR_P \
  --tool_run_gpu_id 2

配置文件设置

我们在pipeline/profiles目录下提供了若干示例配置文件,供不同应用场景参考。用户可根据这些示例自定义自己的配置文件。

DIV4K-50 数据集

我们已在 🤗 Hugging Face 上提供了 DIV4K-50 数据集,方便大家访问和复现实验。要下载该数据集,请确保已安装 huggingface_hub CLI:

python -m pip install "huggingface_hub[cli]"

# 运行以下命令将数据集下载到本地目录:
huggingface-cli download --repo-type dataset YSZuo/DIV4K-50 --local-dir ./dataset/DIV4K-50

# 解压数据集:
cd ./dataset/DIV4K-50
unzip DIV4K-50.zip

实用工具

[1] 提取结果图像:utils/image_export.py

目前,4KAgent 会生成一个包含日志和推理过程中生成图像的文件夹。如果我们仅需要最终输出图像来计算指标(例如 PSNR / SSIM / LPIPS 等),可以使用此脚本将每个 output 图像按其原始文件名提取到一个新的文件夹中。

[2] 提取结果工具链:utils/toolchain_export.py

如果我们对多张图像进行推理,并希望了解每张图像对应的 4KAgent 工具链,可以使用此脚本提取每张图像的工具链。例如:

001: defocus deblurring@diffplugin-brightening@gamma_correction-super-resolution@diffbir.
002: defocus deblurring@drbnet-super-resolution@diffbir.
003: defocus deblurring@restormer-super-resolution@pisasr.

[3] 提取人脸修复结果工具:utils/face_restoration_tool_export.py

如果在配置文件中启用了“人脸修复”功能(将 FaceRestore 设置为 true),并想查看具体使用了哪种人脸修复方法,可以使用此脚本。例如:

00006_01: codeformer
00006_02: gfpgan
00006_03: img

其中,“img”表示原始人脸图像。

评估

我们在 eval 文件夹中提供了多个评估脚本,分别对应不同的任务:

[1] test_metrics_classiccrop_border=4,用于评估经典超分辨率任务中的图像。(Set5、Set14、B100、Urban100、Manga109)

[2] test_metrics:用于评估真实世界超分辨率任务中的图像。(RealSR、DRealSR)

[3] test_metrics_mio:用于评估多退化修复任务中的图像。(MiO100)

[4] test_metrics_nr:用于评估无参考指标的图像。(NIQE、MUSIQ、MANIQA (pipal)、CLIPIQA)。(RealSRSet(16倍超分辨率)、DIV4K-50)如果 GPU 显存有限(小于 24G),也可以使用 test_metrics_nr_low_gpu

实验结果

我们在11个不同的图像超分辨率任务上评估了4KAgent。总体实验结果总结如下:

任务 数据集 配置文件 缩放因子 结果
经典超分辨率 Set5 ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P 4 结果
经典超分辨率 Set14 ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P 4 结果
经典超分辨率 B100 ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P 4 结果
经典超分辨率 Urban100 ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P 4 结果
经典超分辨率 Manga109 ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P 4 结果
现实场景超分辨率 DRealSR ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P 4 结果
现实场景超分辨率 RealSR ExpSR-s4-F, ExpSR-s4-P, GenSR-s4-P 4 结果
多重退化红外图像超分辨率 MiO100 GenMIR-P 4 * 结果
人脸修复 WebPhoto-Test GenSRFR-s4-P 4 结果
16倍超分辨率 RealSRSet Gen4K-P 16 结果
红外与4K超分辨率联合处理 DIV4K-50 Gen4K-P 16 结果
AIGC 4K超分辨率 ** GenAIBench-4K ExpSR-s4-P 4 结果
AIGC 4K超分辨率 ** DiffusionDB-4K ExpSR-s4-P 4 结果
遥感图像超分辨率 AID AerSR-s4-F, AerSR-s4-P 4 结果
遥感图像超分辨率 DIOR AerSR-s4-F, AerSR-s4-P 4 结果
遥感图像超分辨率 DOTA AerSR-s4-F, AerSR-s4-P, Aer4K-F, Aer4K-P 4, 16 结果
遥感图像超分辨率 WorldStrat AerSR-s4-F, AerSR-s4-P 4 结果
荧光显微镜图像超分辨率 SR-CACO-2 ExpSR-s2-F, ExpSR-s4-F, ExpSR-s8-F 2, 4, 8 结果
病理图像超分辨率 bcSR ExpSR-s4-F, ExpSR-s8-F 4, 8 结果
医学图像超分辨率 胸部X光2017 ExpSR-s4-F 4 结果
医学图像超分辨率 胸部X光14 ExpSR-s4-F 4 结果
医学图像超分辨率 US-CASE ExpSR-s4-F 4 结果
医学图像超分辨率 MMUS1K ExpSR-s4-F 4 结果
医学图像超分辨率 DRIVE ExpSR-s4-F 4 结果

*: 对于使用GenMIR-P配置文件在4KAgent中触发超分辨率的低质量图像(基于低质量图像的分辨率),缩放因子被设置为4。

**: 我们使用标准样本提示来评估4KAgent在AIGC领域的性能。我们未采用无参考指标(NIQE、MUSIQ-P、MANIQA、CLIPIQA)进行评估,并提供了用于生成的测试提示。(MUSIQ-P:一种应用于补丁的方法,它在不重叠的512×512补丁上计算MUSIQ分数并取平均值,从而提高对超高分辨率内容中局部伪影的敏感性。)

我们在profile_setup中介绍了这些任务中使用的配置文件命名规范及详细信息。

许可证

本项目根据Apache 2.0许可证发布。

联系方式

如有任何问题,请随时联系:zuoyushen12@gmail.com

引用

如果您在研究中使用了我们的工作,我们诚挚地希望您能考虑引用我们的论文:

@article{zuo20254kagent,
      title={4KAgent: 基于智能体的任意图像至4K超分辨率}, 
      author={Yushen Zuo 和 Qi Zheng 和 Mingyang Wu 和 Xinrui Jiang 和 Renjie Li 和 Jian Wang 和 Yide Zhang 和 Gengchen Mai 和 Lihong V. Wang 和 James Zou 和 Xiaoyu Wang 和 Ming-Hsuan Yang 和 Zhengzhong Tu},
      year={2025},
      eprint={2507.07105},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.07105}, 
}

致谢

我们的代码基于 AgenticIR,同时还借鉴了若干优秀的开源图像修复工具和视觉语言模型,这些内容已在 工具箱 中列出。我们衷心感谢各位作者对社区所做的宝贵贡献。

版本历史

v1.02025/09/24

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

159.6k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|昨天
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|1周前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像