InstructIR

GitHub
718 45 简单 1 次阅读 4天前MIT语言模型其他开发框架图像
AI 解读 由 AI 自动生成,仅供参考

InstructIR 是一款基于人工智能的图像修复工具,能够根据用户输入的自然语言指令,将受损或低质量的图片恢复为清晰、高质量的状态。它解决了传统修复模型通常只能针对单一类型退化(如仅去噪或仅去模糊)的局限,实现了“全能型”修复。无论是去除噪点、雨纹、模糊、雾气,还是提升低光环境下的画面亮度,用户只需简单描述需求(例如“去除照片中的雨水”或“提亮这张夜景图”),InstructIR 即可自动识别并执行相应的修复操作。

该工具特别适合设计师、摄影师、内容创作者以及计算机视觉研究人员使用。对于非技术背景的普通用户,其提供的 Hugging Face 在线演示和 Google Colab 教程让零代码体验成为可能;而对于开发者与科研人员,InstructIR 开源的代码、预训练模型及新构建的文本引导修复基准数据集,则为深入研究和二次开发提供了坚实基础。

作为 ECCV 2024 收录的前沿成果,InstructIR 的创新之处在于首次将人类自然语言指令引入图像修复领域,打破了以往依赖特定退化类型标签的限制。实验表明,其在多项修复任务上的表现优于现有全能型方法,峰值信噪比(PSNR)平均提升超过 1dB,代表了文本引导图像增强方向的重要突破。

使用场景

一位户外摄影师在暴雨后整理素材时,发现一批珍贵的风景照因镜头沾水、光线昏暗及手抖模糊而严重受损,急需快速修复以交付客户。

没有 InstructIR 时

  • 需要针对噪点、雨纹、模糊和低光等不同问题,分别寻找并运行多个专用修复模型,工作流极其繁琐。
  • 传统“全能型”模型往往无法精准识别具体退化类型,容易在去雨时过度抹除细节,导致画面失真。
  • 调整参数依赖大量试错,非算法专家的摄影师难以通过微调获得理想效果,沟通成本高昂。
  • 处理多张不同受损程度的照片时,无法统一标准,导致最终交付的图集质量参差不齐。

使用 InstructIR 后

  • 只需输入一张受损图片和一句自然语言指令(如“去除雨纹并提亮暗部”),InstructIR 即可自动完成所有修复步骤。
  • 基于人类指令的引导,InstructIR 能精准理解“保留纹理”或“增强对比度”等细微需求,在去雾去雨的同时完美保留画面细节。
  • 摄影师无需关心底层算法参数,直接用日常语言描述预期效果,InstructIR 便能一次性输出高质量结果,大幅降低技术门槛。
  • 面对批量的复杂受损照片,通过统一的自然语言指令,InstructIR 能确保所有图片风格一致且质量稳定,显著提升交付效率。

InstructIR 通过将自然语言指令转化为精准的图像修复操作,彻底打破了传统多任务修复的流程壁垒,让非技术人员也能轻松实现专业级的画质重生。

运行环境要求

操作系统
  • 未说明
GPU

需要 GPU (README 提及在 Google Colab 上使用免费 GPU 运行,且命令行参数支持 --device 指定设备),具体型号、显存大小及 CUDA 版本未说明

内存

未说明

依赖
notes1. Gradio 演示程序明确要求 Python>=3.9 并需安装 requirements_gradio.txt 中的依赖。2. 项目提供 Google Colab 教程,表明支持云端 GPU 环境。3. 测试数据集和模型权重需单独下载(模型托管于 Hugging Face,测试集约 1.9GB)。4. 运行评估脚本需修改配置文件中的数据集路径。5. 该工具主要用于图像恢复(去噪、去雨、去模糊等),接受自然语言指令作为输入。
python3.9+
gradio
torch (隐含)
yaml (隐含,用于配置文件)
InstructIR hero image

快速开始

InstructIR:遵循人类指令的高质量图像修复(ECCV 2024)

arXiv google colab logo Hugging Face Replicate Paper page

Marcos V. Conde, Gregor Geigle, Radu Timofte

伍尔茨堡大学计算机视觉实验室 | 索尼 PlayStation, FTG

InstructIR

视频由 Gradio 提供(查看他们关于 InstructIR 的帖子)。同时也要感谢 AK——查看他的推文

简而言之:快速入门

InstructIR 的输入是一张图像和一段人类编写的关于如何改进该图像的指令。神经网络模型能够完成一体化的图像修复任务。InstructIR 在多项修复任务上取得了最先进的成果,包括图像去噪、去雨、去模糊、去雾以及低光图像增强等。

🚀 您可以从演示教程开始

摘要(点击展开)

图像修复是一个基础性问题,其目标是从退化的观测中恢复出高质量的干净图像。一体化图像修复模型可以通过利用针对不同退化类型的提示信息来有效修复各种类型和程度的退化图像。在本工作中,我们提出了首个使用人类编写的指令来引导图像修复模型的方法。给定自然语言提示,我们的模型能够从退化的图像中恢复出高质量的图像,并同时考虑多种退化类型。我们的方法 InstructIR 在图像去噪、去雨、去模糊、去雾以及低光图像增强等多个修复任务上均达到了当前最佳水平。相比之前的全功能修复方法,InstructIR 的性能提升了 +1dB。此外,我们的数据集和实验结果为文本引导的图像修复与增强研究提供了一个全新的基准。

待办事项 / 最新消息 🔥

试用 / 教程

试用 直接在 🤗 Hugging Face 上进行,无需任何费用,也无需编写代码。

🚀 您可以从演示教程开始。我们还在 google colab 上提供了相同的教程,您可以在免费的 GPU 上运行它!

InstructIR

结果

请查看 test.pyeval_instructir.py。以下命令使用 models/ 中的预训练模型,为所有基准测试提供全部指标。InstructIR 的结果将保存到指定的文件夹 results/ 中:

python eval_instructir.py --model models/im_instructir-7d.pt --lm models/lm_instructir-7d.pt --device 0 --config configs/eval5d.yml --save results/

输出日志示例如下:

>>> 在 CBSD68_15 噪声 0 上评估
CBSD68_15_base 24.84328738380881
CBSD68_15_psnr 33.98722295200123 68
CBSD68_15_ssim 0.9315137801801457

....

您可以**下载所有测试数据集**,并将它们放置在 test-data/ 目录中。请确保在配置文件 configs/eval5d.yml 中更新路径。


您还可以**下载论文中的所有结果**——请查看发布页面。我们在以下基准测试中对 InstructIR 进行了测试:

数据集 任务 测试结果
BSD68 去噪 下载
Urban100 去噪 下载
Rain100 去雨 下载
GoPro 去模糊 下载
LOL LOL 图像增强 下载
MIT5K 图像增强 下载

在发布页面或通过上述链接,您可以下载包含这些数据集所有定性结果的 instructir_results.zip,文件大小约为 1.9 GB。


多任务去雾、去雨、去噪结果
去噪结果(点击阅读)
低光图像增强(LOL)结果(点击阅读)
彩色图像增强(MIT5K)结果(点击阅读)


控制与交互

有时,模糊、雨水或胶片颗粒噪声是令人愉悦的效果,也是“美学”的一部分。这里我们展示一个简单的例子,说明如何与 InstructIR 互动。

输入 (1) 我很喜欢这张照片,能帮我把雨滴去掉吗?请保持内容不变 (2) 能让它看起来更惊艳吗?就像专业照片一样
输入 (1) 我的图片太暗了,什么都看不清,你能帮我看清楚吗? (2) 太好了,看起来不错!能再应用一下色调映射吗?
输入 (1) 能把图片里的小点去掉吗?实在太难看了 (2) 现在请提高图片的质量和分辨率

正如您所见,我们的模型可以接受各种人类编写的提示,从模糊到精确的指令。它是如何工作的呢? 假设我们有如下输入图像:

现在我们可以使用 InstructIR,并给出以下提示 (1):

我很喜欢这张照片,能帮我把雨滴去掉 吗?请保持内容不变

接下来,我们再进一步优化一下图像 (2):

能让它看起来更惊艳吗?就像专业照片一样

最终效果确实非常惊艳 🤗 您也可以在演示教程中亲自尝试。

常见问题解答

免责声明:请注意,这并非正式产品,因此您可能会注意到一些局限性。与大多数一体化修复方法类似,它在处理真实世界图像时难以泛化——我们正在努力改进这一点。

  • 我该如何开始? 请查看我们的演示教程以及我们的Google Colab 笔记本。

  • 我如何将自己的方法与你们的方法进行比较? 您可以在上面的结果部分下载多个基准测试的结果。

  • 我如何测试这个模型?我只是想玩一玩:请访问我们的🤗 Hugging Face 演示,免费体验。

  • 为什么你们不使用基于扩散的模型? (1) 我们希望保持解决方案的简单和高效。(2) 我们的首要任务是高保真度——正如许多与计算摄影相关的行业场景一样。

Gradio 演示

我们制作了一个简单的 Gradio 演示,您可以在本地机器上运行这里。您需要 Python>=3.9 以及以下依赖项:pip install -r requirements_gradio.txt

python app.py

InstructIR Gradio

致谢

本研究部分得到了洪堡基金会(AvH)的支持。Marcos Conde 还得到了索尼互动娱乐和 FTG 的支持。

本研究受到 InstructPix2Pix 的启发。

联系方式

如有任何疑问,请联系 Marcos V. Conde: marcos.conde [at] uni-wuerzburg.de

BibTeX 引用

@inproceedings{conde2024high,
  title={InstructIR:遵循人类指令的高质量图像恢复},
  author={Conde, Marcos V 和 Geigle, Gregor 和 Timofte, Radu},
  booktitle    = {欧洲计算机视觉会议(ECCV)论文集},
  year={2024}
}

版本历史

instructir-results2024/02/23

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架