SRCNN-pytorch

661 131 简单 1 次阅读 2天前图像

AI 解读由 AI 自动生成，仅供参考

SRCNN-pytorch 是经典图像超分辨率论文《Image Super-Resolution Using Deep Convolutional Networks》的 PyTorch 复现版本。它的核心功能是利用深度学习技术，将模糊或低分辨率的图片智能放大，在提升尺寸的同时恢复清晰的细节纹理，有效解决了传统插值算法（如双三次插值）导致的图像边缘模糊和锯齿问题。

相较于原始论文实现，该项目进行了多项实用化改进：采用收敛更快的 Adam 优化器替代 SGD，引入零填充（zero-padding）以保持特征图尺寸，并简化了权重初始化流程，使得模型更易于在现代硬件上训练和部署。项目不仅提供了完整的训练脚本和预训练模型（支持 2/3/4 倍放大），还包含了从数据预处理到结果评估的全套工具链。

这款工具非常适合计算机视觉领域的研究人员、AI 开发者以及希望深入理解超分辨率原理的学生使用。通过它，用户可以快速复现学术成果，基于自定义数据集进行实验，或将成熟的预训练模型集成到自己的图像处理应用中。虽然普通用户也可借此体验高清修复效果，但其主要价值在于为专业人群提供了一个轻量、透明且高度可定制的算法基准。

使用场景

某数字档案馆正在对一批珍贵的低分辨率历史照片进行数字化修复，以便在高清显示屏上展出。

没有 SRCNN-pytorch 时

传统的双三次插值（Bicubic）放大算法导致图像边缘模糊，蝴蝶翅膀纹理和斑马条纹等细节严重丢失，无法满足展览的清晰度要求。
团队缺乏现成的深度学习超分方案，若从零复现 ECCV 2014 的经典论文，需自行处理数据转换、网络搭建及训练策略，开发周期长达数周。
手动调整优化器和初始化参数难度极大，难以在保证重建质量（PSNR）的同时维持训练过程的稳定性，容易陷入局部最优解。

使用 SRCNN-pytorch 后

直接加载预训练的 srcnn_x3.pth 权重文件，一键将低清图片放大 3 倍，显著恢复了生物纹理的高频细节，视觉效果远超传统插值算法。
利用其成熟的 PyTorch 实现和内置的 HDF5 数据集准备脚本，团队在几小时内即可完成环境部署并启动自定义数据集的训练流程。
得益于代码中集成的 Adam 优化器和零填充改进，模型收敛更快且更稳定，轻松复现了论文中 33.29 dB 的高 PSNR 指标，确保了修复质量的可靠性。

SRCNN-pytorch 通过提供开箱即用的经典超分实现，让开发者能以极低的成本将模糊的历史影像转化为清晰的高清数字资产。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该工具是经典论文 SRCNN 的 PyTorch 实现。训练和评估需要使用转换为 HDF5 格式的数据集（如 91-image 或 Set5），README 中提供了下载链接或使用 prepare.py 自定义数据集的方法。与原始论文相比，此版本增加了零填充，使用 Adam 优化器替代了 SGD，并移除了权重初始化步骤。预训练模型支持 2x、3x、4x 放大倍率。

python未说明

PyTorch==1.0.0

Numpy==1.15.4

Pillow==5.4.1

h5py==2.8.0

tqdm==4.30.0

快速开始

SRCNN

本仓库是论文《基于深度卷积网络的图像超分辨率重建》（arXiv:1501.00092）的实现。

与原文的区别

增加了零填充
使用Adam优化器代替SGD
移除了权重初始化

环境要求

PyTorch 1.0.0
Numpy 1.15.4
Pillow 5.4.1
h5py 2.8.0
tqdm 4.30.0

训练

已转换为HDF5格式的91张图像数据集和Set5数据集可从以下链接下载：

数据集	缩放倍数	类型	链接
91张图像	2	训练	下载
91张图像	3	训练	下载
91张图像	4	训练	下载
Set5	2	评估	下载
Set5	3	评估	下载
Set5	4	评估	下载

此外，您也可以使用prepare.py来创建自定义数据集。

python train.py --train-file "BLAH_BLAH/91-image_x3.h5" \
                --eval-file "BLAH_BLAH/Set5_x3.h5" \
                --outputs-dir "BLAH_BLAH/outputs" \
                --scale 3 \
                --lr 1e-4 \
                --batch-size 16 \
                --num-epochs 400 \
                --num-workers 8 \
                --seed 123

测试

预训练权重可从以下链接下载：

模型	缩放倍数	链接
9-5-5	2	下载
9-5-5	3	下载
9-5-5	4	下载

结果将保存在与查询图像相同的路径中。

python test.py --weights-file "BLAH_BLAH/srcnn_x3.pth" \
               --image-file "data/butterfly_GT.bmp" \
               --scale 3

结果

我们使用了论文中的网络设置进行实验，即： ${ f }_{ 1 }=9,{ f }_{ 2 }=5,{ f }_{ 3 }=5,{ n }_{ 1 }=64,{ n }_{ 2 }=32,{ n }_{ 3 }=1$ 。

PSNR是在Y通道上计算的。

Set5

评估图像	缩放倍数	SRCNN	SRCNN（我们的实现）
PSNR	2	36.66	36.65
PSNR	3	32.75	33.29
PSNR	4	30.49	30.25

原图	BICUBIC ×3	SRCNN ×3（27.53 dB）

原图	BICUBIC ×3	SRCNN ×3（29.30 dB）

原图	BICUBIC ×3	SRCNN ×3（28.58 dB）

SRCNN-pytorch 快速上手指南

SRCNN 是基于深度卷积网络的图像超分辨率经典模型。本仓库提供了该论文的 PyTorch 实现，支持训练与测试。

环境准备

在开始之前，请确保您的系统已安装 Python 3 和 PyTorch。本项目主要依赖以下库：

PyTorch >= 1.0.0
Numpy
Pillow
h5py
tqdm

建议使用 pip 进行安装。国内用户可使用清华源或阿里源加速下载：

pip install torch numpy pillow h5py tqdm -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

本项目无需复杂的编译过程，直接克隆仓库即可使用：

git clone https://github.com/your-repo/SRCNN-pytorch.git
cd SRCNN-pytorch

(注：请将上述 git 地址替换为实际的项目仓库地址)

基本使用

1. 快速测试（使用预训练模型）

这是最简单的使用方式。首先下载预训练权重文件（以放大倍数 3 为例）：

模型架构	放大倍数	下载链接
9-5-5	x2	下载 srcnn_x2.pth
9-5-5	x3	下载 srcnn_x3.pth
9-5-5	x4	下载 srcnn_x4.pth

将下载的 .pth 文件放入项目目录后，运行以下命令对单张图片进行超分辨率处理：

python test.py --weights-file "srcnn_x3.pth" \
               --image-file "data/butterfly_GT.bmp" \
               --scale 3

--weights-file: 预训练权重文件路径。
--image-file: 待处理的低分辨率图片路径。
--scale: 放大倍数（2, 3, 或 4）。

处理结果将保存在与输入图片相同的路径下。

2. 模型训练（可选）

如需从头训练模型，需先准备 HDF5 格式的数据集。你可以从下方链接下载转换好的 91-image (训练集) 和 Set5 (评估集)：

训练集 (91-image): x2 | x3 | x4
评估集 (Set5): x2 | x3 | x4

下载完成后，使用以下命令启动训练（以 scale=3 为例）：

python train.py --train-file "91-image_x3.h5" \
                --eval-file "Set5_x3.h5" \
                --outputs-dir "outputs" \
                --scale 3 \
                --lr 1e-4 \
                --batch-size 16 \
                --num-epochs 400 \
                --num-workers 8 \
                --seed 123

若需使用自定义数据集，可运行 python prepare.py 进行数据预处理。

常见问题

SRCNN 测试时为什么没有对图像进行插值放大？输入图像尺寸为何需要调整？

运行推理后输出的图像尺寸没有按倍数（如 2x 或 3x）放大，如何解决？

为什么在评估数据集（EvalDataset）中低分辨率（LR）图像和高分辨率（HR）图像看起来是一样的？

代码中的 `//` 运算符在图像尺寸计算中起什么作用？

SRCNN 预处理中连续三次 resize 的具体目的分别是什么？

训练数据集中 HR 和 LR 图片大小相同（如都是 33x33）是否正常？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent