[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-sanghyun-son--EDSR-PyTorch":3,"tool-sanghyun-son--EDSR-PyTorch":62},[4,18,26,35,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,2,"2026-04-10T11:39:34",[14,15,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":32,"last_commit_at":41,"category_tags":42,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[43,13,15,14],"插件",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[52,15,13,14],"语言模型",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,61],"视频",{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":80,"owner_website":81,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":95,"difficulty_score":10,"env_os":96,"env_gpu":97,"env_ram":98,"env_deps":99,"category_tags":110,"github_topics":80,"view_count":32,"oss_zip_url":80,"oss_zip_packed_at":80,"status":17,"created_at":111,"updated_at":112,"faqs":113,"releases":143},8360,"sanghyun-son\u002FEDSR-PyTorch","EDSR-PyTorch","PyTorch version of the paper 'Enhanced Deep Residual Networks for Single Image Super-Resolution' (CVPRW 2017) ","EDSR-PyTorch 是经典论文《Enhanced Deep Residual Networks for Single Image Super-Resolution》的官方 PyTorch 实现，专注于单图像超分辨率任务。它旨在解决低分辨率图像模糊、细节丢失的问题，通过深度学习算法将小图放大并重建出清晰的高清细节，显著提升图像的视觉质量与 PSNR 指标。\n\n这款工具特别适合计算机视觉领域的研究人员、算法开发者以及需要高质量图像放大的技术人员使用。相比于原始代码版本，EDSR-PyTorch 进行了深度优化：代码结构更加紧凑，去除了冗余部分；模型参数量缩减至原来的一半左右，大幅降低了训练和推理时的显存占用；同时在保持甚至略微提升性能的前提下，实现了更高效的 Python 原生运行体验。\n\n项目提供了完整的复现脚本，支持用户从零开始训练模型，或直接使用预训练模型（涵盖 EDSR 和 MDSR 架构，支持 2 倍至 4 倍放大）快速处理自己的图片。无论是为了学术实验对比，还是实际工程中的图像增强需求，EDSR-PyTorch 都是一个轻量、高效且易于上手的选择。","**About PyTorch 1.2.0**\n  * Now the master branch supports PyTorch 1.2.0 by default.\n  * Due to the serious version problem (especially torch.utils.data.dataloader), MDSR functions are temporarily disabled. If you have to train\u002Fevaluate the MDSR model, please use legacy branches.\n\n# EDSR-PyTorch\n\n**About PyTorch 1.1.0**\n  * There have been minor changes with the 1.1.0 update. Now we support PyTorch 1.1.0 by default, and please use the legacy branch if you prefer older version.\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanghyun-son_EDSR-PyTorch_readme_253469b62c4d.png)\n\nThis repository is an official PyTorch implementation of the paper **\"Enhanced Deep Residual Networks for Single Image Super-Resolution\"** from **CVPRW 2017, 2nd NTIRE**.\nYou can find the original code and more information from [here](https:\u002F\u002Fgithub.com\u002FLimBee\u002FNTIRE2017).\n\nIf you find our work useful in your research or publication, please cite our work:\n\n[1] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah, and Kyoung Mu Lee, **\"Enhanced Deep Residual Networks for Single Image Super-Resolution,\"** \u003Ci>2nd NTIRE: New Trends in Image Restoration and Enhancement workshop and challenge on image super-resolution in conjunction with **CVPR 2017**. \u003C\u002Fi> [[PDF](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2017_workshops\u002Fw12\u002Fpapers\u002FLim_Enhanced_Deep_Residual_CVPR_2017_paper.pdf)] [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1707.02921)] [[Slide](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002FPresentation_v3(release).pptx)]\n```\n@InProceedings{Lim_2017_CVPR_Workshops,\n  author = {Lim, Bee and Son, Sanghyun and Kim, Heewon and Nah, Seungjun and Lee, Kyoung Mu},\n  title = {Enhanced Deep Residual Networks for Single Image Super-Resolution},\n  booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops},\n  month = {July},\n  year = {2017}\n}\n```\nWe provide scripts for reproducing all the results from our paper. You can train your model from scratch, or use a pre-trained model to enlarge your images.\n\n**Differences between Torch version**\n* Codes are much more compact. (Removed all unnecessary parts.)\n* Models are smaller. (About half.)\n* Slightly better performances.\n* Training and evaluation requires less memory.\n* Python-based.\n\n## Dependencies\n* Python 3.6\n* PyTorch >= 1.0.0\n* numpy\n* skimage\n* **imageio**\n* matplotlib\n* tqdm\n* cv2 >= 3.xx (Only if you want to use video input\u002Foutput)\n\n## Code\nClone this repository into any place you want.\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fthstkdgus35\u002FEDSR-PyTorch\ncd EDSR-PyTorch\n```\n\n## Quickstart (Demo)\nYou can test our super-resolution algorithm with your images. Place your images in ``test`` folder. (like ``test\u002F\u003Cyour_image>``) We support **png** and **jpeg** files.\n\nRun the script in ``src`` folder. Before you run the demo, please uncomment the appropriate line in ```demo.sh``` that you want to execute.\n```bash\ncd src       # You are now in *\u002FEDSR-PyTorch\u002Fsrc\nsh demo.sh\n```\n\nYou can find the result images from ```experiment\u002Ftest\u002Fresults``` folder.\n\n| Model | Scale | File name (.pt) | Parameters | ****PSNR** |\n|  ---  |  ---  | ---       | ---        | ---  |\n| **EDSR** | 2 | EDSR_baseline_x2 | 1.37 M | 34.61 dB |\n| | | *EDSR_x2 | 40.7 M | 35.03 dB |\n| | 3 | EDSR_baseline_x3 | 1.55 M | 30.92 dB |\n| | | *EDSR_x3 | 43.7 M | 31.26 dB |\n| | 4 | EDSR_baseline_x4 | 1.52 M | 28.95 dB |\n| | | *EDSR_x4 | 43.1 M | 29.25 dB |\n| **MDSR** | 2 | MDSR_baseline | 3.23 M | 34.63 dB |\n| | | *MDSR | 7.95 M| 34.92 dB |\n| | 3 | MDSR_baseline | | 30.94 dB |\n| | | *MDSR | | 31.22 dB |\n| | 4 | MDSR_baseline | | 28.97 dB |\n| | | *MDSR | | 29.24 dB |\n\n*Baseline models are in ``experiment\u002Fmodel``. Please download our final models from [here](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002Fmodel_pytorch.tar) (542MB)\n**We measured PSNR using DIV2K 0801 ~ 0900, RGB channels, without self-ensemble. (scale + 2) pixels from the image boundary are ignored.\n\nYou can evaluate your models with widely-used benchmark datasets:\n\n[Set5 - Bevilacqua et al. BMVC 2012](http:\u002F\u002Fpeople.rennes.inria.fr\u002FAline.Roumy\u002Fresults\u002FSR_BMVC12.html),\n\n[Set14 - Zeyde et al. LNCS 2010](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fromanzeyde\u002Fresearch-interests),\n\n[B100 - Martin et al. ICCV 2001](https:\u002F\u002Fwww2.eecs.berkeley.edu\u002FResearch\u002FProjects\u002FCS\u002Fvision\u002Fbsds\u002F),\n\n[Urban100 - Huang et al. CVPR 2015](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fjbhuang0604\u002Fpublications\u002Fstruct_sr).\n\nFor these datasets, we first convert the result images to YCbCr color space and evaluate PSNR on the Y channel only. You can download [benchmark datasets](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002Fbenchmark.tar) (250MB). Set ``--dir_data \u003Cwhere_benchmark_folder_located>`` to evaluate the EDSR and MDSR with the benchmarks.\n\nYou can download some results from [here](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002Fresult_image\u002Fedsr-results.tar).\nThe link contains **EDSR+_baseline_x4** and **EDSR+_x4**.\nOtherwise, you can easily generate result images with ``demo.sh`` scripts.\n\n## How to train EDSR and MDSR\nWe used [DIV2K](http:\u002F\u002Fwww.vision.ee.ethz.ch\u002F%7Etimofter\u002Fpublications\u002FAgustsson-CVPRW-2017.pdf) dataset to train our model. Please download it from [here](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002FDIV2K.tar) (7.1GB).\n\nUnpack the tar file to any place you want. Then, change the ```dir_data``` argument in ```src\u002Foption.py``` to the place where DIV2K images are located.\n\nWe recommend you to pre-process the images before training. This step will decode all **png** files and save them as binaries. Use ``--ext sep_reset`` argument on your first run. You can skip the decoding part and use saved binaries with ``--ext sep`` argument.\n\nIf you have enough RAM (>= 32GB), you can use ``--ext bin`` argument to pack all DIV2K images in one binary file.\n\nYou can train EDSR and MDSR by yourself. All scripts are provided in the ``src\u002Fdemo.sh``. Note that EDSR (x3, x4) requires pre-trained EDSR (x2). You can ignore this constraint by removing ```--pre_train \u003Cx2 model>``` argument.\n\n```bash\ncd src       # You are now in *\u002FEDSR-PyTorch\u002Fsrc\nsh demo.sh\n```\n\n**Update log**\n* Jan 04, 2018\n  * Many parts are re-written. You cannot use previous scripts and models directly.\n  * Pre-trained MDSR is temporarily disabled.\n  * Training details are included.\n\n* Jan 09, 2018\n  * Missing files are included (```src\u002Fdata\u002FMyImage.py```).\n  * Some links are fixed.\n\n* Jan 16, 2018\n  * Memory efficient forward function is implemented.\n  * Add --chop_forward argument to your script to enable it.\n  * Basically, this function first split a large image to small patches. Those images are merged after super-resolution. I checked this function with 12GB memory, 4000 x 2000 input image in scale 4. (Therefore, the output will be 16000 x 8000.)\n\n* Feb 21, 2018\n  * Fixed the problem when loading pre-trained multi-GPU model.\n  * Added pre-trained scale 2 baseline model.\n  * This code now only saves the best-performing model by default. For MDSR, 'the best' can be ambiguous. Use --save_models argument to keep all the intermediate models.\n  * PyTorch 0.3.1 changed their implementation of DataLoader function. Therefore, I also changed my implementation of MSDataLoader. You can find it on feature\u002Fdataloader branch.\n\n* Feb 23, 2018\n  * Now PyTorch 0.3.1 is a default. Use legacy\u002F0.3.0 branch if you use the old version.\n  * With a new ``src\u002Fdata\u002FDIV2K.py`` code, one can easily create new data class for super-resolution.\n  * New binary data pack. (Please remove the ``DIV2K_decoded`` folder from your dataset if you have.)\n  * With ``--ext bin``, this code will automatically generate and saves the binary data pack that corresponds to previous ``DIV2K_decoded``. (This requires huge RAM (~45GB, Swap can be used.), so please be careful.)\n  * If you cannot make the binary pack, use the default setting (``--ext img``).\n\n  * Fixed a bug that PSNR in the log and PSNR calculated from the saved images does not match.\n  * Now saved images have better quality! (PSNR is ~0.1dB higher than the original code.)\n  * Added performance comparison between Torch7 model and PyTorch models.\n\n* Mar 5, 2018\n  * All baseline models are uploaded.\n  * Now supports half-precision at test time. Use ``--precision half``  to enable it. This does not degrade the output images.\n\n* Mar 11, 2018\n  * Fixed some typos in the code and script.\n  * Now --ext img is default setting. Although we recommend you to use --ext bin when training, please use --ext img when you use --test_only.\n  * Skip_batch operation is implemented. Use --skip_threshold argument to skip the batch that you want to ignore. Although this function is not exactly the same with that of Torch7 version, it will work as you expected.\n\n* Mar 20, 2018\n  * Use ``--ext sep-reset`` to pre-decode large png files. Those decoded files will be saved to the same directory with DIV2K png files. After the first run, you can use ``--ext sep`` to save time.\n  * Now supports various benchmark datasets. For example, try ``--data_test Set5`` to test your model on the Set5 images.\n  * Changed the behavior of skip_batch.\n\n* Mar 29, 2018\n  * We now provide all models from our paper.\n  * We also provide ``MDSR_baseline_jpeg`` model that suppresses JPEG artifacts in the original low-resolution image. Please use it if you have any trouble.\n  * ``MyImage`` dataset is changed to ``Demo`` dataset. Also, it works more efficient than before.\n  * Some codes and script are re-written.\n\n* Apr 9, 2018\n  * VGG and Adversarial loss is implemented based on [SRGAN](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2017\u002Fpapers\u002FLedig_Photo-Realistic_Single_Image_CVPR_2017_paper.pdf). [WGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.07875) and [gradient penalty](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.00028) are also implemented, but they are not tested yet.\n  * Many codes are refactored. If there exists a bug, please report it.\n  * [D-DBPN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1803.02735) is implemented. The default setting is D-DBPN-L.\n\n* Apr 26, 2018\n  * Compatible with PyTorch 0.4.0\n  * Please use the legacy\u002F0.3.1 branch if you are using the old version of PyTorch.\n  * Minor bug fixes\n\n* July 22, 2018\n  * Thanks for recent commits that contains RDN and RCAN. Please see ``code\u002Fdemo.sh`` to train\u002Ftest those models.\n  * Now the dataloader is much stable than the previous version. Please erase ``DIV2K\u002Fbin`` folder that is created before this commit. Also, please avoid using ``--ext bin`` argument. Our code will automatically pre-decode png images before training. If you do not have enough spaces(~10GB) in your disk, we recommend ``--ext img``(But SLOW!).\n\n* Oct 18, 2018\n  * with ``--pre_train download``, pretrained models will be automatically downloaded from the server.\n  * Supports video input\u002Foutput (inference only). Try with ``--data_test video --dir_demo [video file directory]``.\n\n* About PyTorch 1.0.0\n  * We support PyTorch 1.0.0. If you prefer the previous versions of PyTorch, use legacy branches.\n  * ``--ext bin`` is not supported. Also, please erase your bin files with ``--ext sep-reset``. Once you successfully build those bin files, you can remove ``-reset`` from the argument.\n","**关于 PyTorch 1.2.0**\n  * 现在主分支默认支持 PyTorch 1.2.0。\n  * 由于严重的版本问题（尤其是 torch.utils.data.dataloader），MDSR 功能暂时禁用。如果您必须训练\u002F评估 MDSR 模型，请使用旧版分支。\n\n# EDSR-PyTorch\n\n**关于 PyTorch 1.1.0**\n  * 1.1.0 更新带来了一些细微变化。现在我们默认支持 PyTorch 1.1.0，如果您更倾向于使用旧版本，请使用旧版分支。\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanghyun-son_EDSR-PyTorch_readme_253469b62c4d.png)\n\n本仓库是论文 **“用于单幅图像超分辨率的增强深度残差网络”** 的官方 PyTorch 实现，该论文发表于 **CVPRW 2017, 第二届 NTIRE**。\n您可以在 [这里](https:\u002F\u002Fgithub.com\u002FLimBee\u002FNTIRE2017) 找到原始代码及更多信息。\n\n如果您在研究或出版物中使用了我们的工作，请引用如下：\n\n[1] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah, 和 Kyoung Mu Lee, **“用于单幅图像超分辨率的增强深度残差网络”，** \u003Ci>第二届 NTIRE：图像修复与增强新趋势研讨会暨与 **CVPR 2017** 联合举办的图像超分辨率挑战赛。\u003C\u002Fi> [[PDF](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2017_workshops\u002Fw12\u002Fpapers\u002FLim_Enhanced_Deep_Residual_CVPR_2017_paper.pdf)] [[arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F1707.02921)] [[幻灯片](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002FPresentation_v3(release).pptx)]\n```\n@InProceedings{Lim_2017_CVPR_Workshops,\n  author = {Lim, Bee and Son, Sanghyun and Kim, Heewon and Nah, Seungjun and Lee, Kyoung Mu},\n  title = {Enhanced Deep Residual Networks for Single Image Super-Resolution},\n  booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops},\n  month = {July},\n  year = {2017}\n}\n```\n我们提供了用于复现论文中所有结果的脚本。您可以从头开始训练模型，也可以使用预训练模型来放大您的图像。\n\n**Torch 版本之间的差异**\n* 代码更加简洁。（移除了所有不必要的部分。）\n* 模型体积更小。（大约缩小了一半。）\n* 性能略有提升。\n* 训练和评估所需内存更少。\n* 基于 Python。\n\n## 依赖项\n* Python 3.6\n* PyTorch >= 1.0.0\n* numpy\n* skimage\n* **imageio**\n* matplotlib\n* tqdm\n* cv2 >= 3.xx（仅当您希望使用视频输入\u002F输出时）\n\n## 代码\n将此仓库克隆到您希望的任何位置。\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fthstkdgus35\u002FEDSR-PyTorch\ncd EDSR-PyTorch\n```\n\n## 快速入门（演示）\n您可以用自己的图像测试我们的超分辨率算法。请将图像放入 ``test`` 文件夹中。（例如 ``test\u002F\u003Cyour_image>``）我们支持 **png** 和 **jpeg** 文件。\n\n运行 ``src`` 文件夹中的脚本。在运行演示之前，请取消注释 ```demo.sh``` 中您想要执行的相应行。\n```bash\ncd src       # 您现在位于 *\u002FEDSR-PyTorch\u002Fsrc\nsh demo.sh\n```\n\n您可以在 ```experiment\u002Ftest\u002Fresults``` 文件夹中找到结果图像。\n\n| 模型 | 缩放倍数 | 文件名 (.pt) | 参数量 | ****PSNR** |\n|  ---  |  ---  | ---       | ---        | ---  |\n| **EDSR** | 2 | EDSR_baseline_x2 | 1.37 M | 34.61 dB |\n| | | *EDSR_x2 | 40.7 M | 35.03 dB |\n| | 3 | EDSR_baseline_x3 | 1.55 M | 30.92 dB |\n| | | *EDSR_x3 | 43.7 M | 31.26 dB |\n| | 4 | EDSR_baseline_x4 | 1.52 M | 28.95 dB |\n| | | *EDSR_x4 | 43.1 M | 29.25 dB |\n| **MDSR** | 2 | MDSR_baseline | 3.23 M | 34.63 dB |\n| | | *MDSR | 7.95 M| 34.92 dB |\n| | 3 | MDSR_baseline | | 30.94 dB |\n| | | *MDSR | | 31.22 dB |\n| | 4 | MDSR_baseline | | 28.97 dB |\n| | | *MDSR | | 29.24 dB |\n\n* 基线模型位于 ``experiment\u002Fmodel``。请从 [这里](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002Fmodel_pytorch.tar) 下载我们的最终模型（542MB）。\n** 我们使用 DIV2K 0801 ~ 0900 数据集、RGB 通道，并且未采用自集成方法来测量 PSNR。（图像边界处会忽略缩放倍数 + 2 像素的部分。）\n\n您可以通过广泛使用的基准数据集来评估您的模型：\n\n[Set5 - Bevilacqua 等人 BMVC 2012](http:\u002F\u002Fpeople.rennes.inria.fr\u002FAline.Roumy\u002Fresults\u002FSR_BMVC12.html),\n\n[Set14 - Zeyde 等人 LNCS 2010](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fromanzeyde\u002Fresearch-interests),\n\n[B100 - Martin 等人 ICCV 2001](https:\u002F\u002Fwww2.eecs.berkeley.edu\u002FResearch\u002FProjects\u002FCS\u002Fvision\u002Fbsds\u002F),\n\n[Urban100 - Huang 等人 CVPR 2015](https:\u002F\u002Fsites.google.com\u002Fsite\u002Fjbhuang0604\u002Fpublications\u002Fstruct_sr)。\n\n对于这些数据集，我们首先将结果图像转换为 YCbCr 颜色空间，并仅在 Y 通道上评估 PSNR。您可以下载 [基准数据集](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002Fbenchmark.tar)（250MB）。设置 ``--dir_data \u003Cwhere_benchmark_folder_located>`` 即可使用这些基准数据集评估 EDSR 和 MDSR。\n\n您还可以从 [这里](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002Fresult_image\u002Fedsr-results.tar) 下载一些结果。\n该链接包含 **EDSR+_baseline_x4** 和 **EDSR+_x4**。\n此外，您也可以通过 ``demo.sh`` 脚本轻松生成结果图像。\n\n## 如何训练 EDSR 和 MDSR\n我们使用 [DIV2K](http:\u002F\u002Fwww.vision.ee.ethz.ch\u002F%7Etimofter\u002Fpublications\u002FAgustsson-CVPRW-2017.pdf) 数据集来训练我们的模型。请从 [这里](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002FDIV2K.tar) 下载（7.1GB）。\n\n将 tar 文件解压到您希望的任何位置。然后，在 `src\u002Foption.py` 中将 `dir_data` 参数修改为 DIV2K 图像所在的路径。\n\n我们建议您在训练之前对图像进行预处理。此步骤会解码所有 **png** 文件并将其保存为二进制文件。首次运行时，请使用 `--ext sep_reset` 参数。如果您想跳过解码步骤并直接使用已保存的二进制文件，可以使用 `--ext sep` 参数。\n\n如果您有足够的内存（>= 32GB），可以使用 `--ext bin` 参数将所有 DIV2K 图像打包成一个二进制文件。\n\n您可以自行训练 EDSR 和 MDSR。所有脚本都包含在 `src\u002Fdemo.sh` 中。请注意，EDSR（x3、x4）需要预先训练好的 EDSR（x2）。您可以通过移除 `--pre_train \u003Cx2 模型>` 参数来忽略此限制。\n\n```bash\ncd src       # 现在您位于 *\u002FEDSR-PyTorch\u002Fsrc\nsh demo.sh\n```\n\n**更新日志**\n* 2018年1月4日\n  * 许多部分被重写。您无法直接使用之前的脚本和模型。\n  * 预训练的 MDSR 暂时禁用。\n  * 包含了训练细节。\n\n* 2018年1月9日\n  * 补充了缺失的文件（`src\u002Fdata\u002FMyImage.py`）。\n  * 修复了一些链接。\n\n* 2018年1月16日\n  * 实现了内存高效的前向传播函数。\n  * 在您的脚本中添加 `--chop_forward` 参数以启用该功能。\n  * 基本上，该函数会先将大图像分割成小块，超分辨率处理后再将这些小块拼接起来。我曾在 12GB 内存下测试过该功能，输入分辨率为 4000 x 2000，放大倍率为 4。（因此，输出将是 16000 x 8000。）\n\n* 2018年2月21日\n  * 修复了加载预训练多 GPU 模型时的问题。\n  * 添加了预训练的缩放因子为 2 的基准模型。\n  * 此代码现在默认只保存表现最好的模型。对于 MDSR 而言，“最好”可能有些模糊。请使用 `--save_models` 参数来保留所有中间模型。\n  * PyTorch 0.3.1 更改了 DataLoader 函数的实现方式。因此，我也更改了自己的 MSDataLoader 实现。您可以在 feature\u002Fdataloader 分支中找到它。\n\n* 2018年2月23日\n  * 现在默认使用 PyTorch 0.3.1。如果您使用旧版本，请使用 legacy\u002F0.3.0 分支。\n  * 通过新的 `src\u002Fdata\u002FDIV2K.py` 代码，用户可以轻松创建用于超分辨率的新数据类。\n  * 新的二进制数据包。（如果您已有 `DIV2K_decoded` 文件夹，请将其删除。）\n  * 使用 `--ext bin` 参数后，代码会自动生成并保存与之前 `DIV2K_decoded` 对应的二进制数据包。（这需要大量内存（约 45GB，可使用交换空间），请务必小心。）\n  * 如果无法生成二进制包，请使用默认设置（`--ext img`）。\n\n  * 修复了一个错误：日志中的 PSNR 与从保存图像计算出的 PSNR 不一致。\n  * 现在保存的图像质量更好！（PSNR 比原始代码高约 0.1dB。）\n  * 添加了 Torch7 模型与 PyTorch 模型之间的性能对比。\n\n* 2018年3月5日\n  * 所有基准模型均已上传。\n  * 现在支持测试时的半精度计算。使用 `--precision half` 参数即可启用。这不会降低输出图像的质量。\n\n* 2018年3月11日\n  * 修复了代码和脚本中的部分错别字。\n  * 现在默认设置为 `--ext img`。虽然我们建议您在训练时使用 `--ext bin`，但在仅进行测试时请使用 `--ext img`。\n  * 实现了 skip_batch 功能。使用 `--skip_threshold` 参数可以跳过您想要忽略的批次。尽管此功能与 Torch7 版本并不完全相同，但它仍能按预期工作。\n\n* 2018年3月20日\n  * 使用 `--ext sep-reset` 可以预先解码大型 png 文件。这些解码后的文件将保存在与 DIV2K png 文件相同的目录中。首次运行后，您可以使用 `--ext sep` 来节省时间。\n  * 现在支持多种基准数据集。例如，尝试使用 `--data_test Set5` 来在 Set5 图像上测试您的模型。\n  * 改变了 skip_batch 的行为。\n\n* 2018年3月29日\n  * 我们现在提供了论文中所有的模型。\n  * 同时提供 `MDSR_baseline_jpeg` 模型，该模型可以抑制原始低分辨率图像中的 JPEG 码块效应。如果您遇到相关问题，可以使用该模型。\n  * `MyImage` 数据集已更改为 `Demo` 数据集，并且运行效率比以前更高。\n  * 部分代码和脚本被重写。\n\n* 2018年4月9日\n  * 基于 [SRGAN](http:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2017\u002Fpapers\u002FLedig_Photo-Realistic_Single_Image_CVPR_2017_paper.pdf) 实现了 VGG 和对抗损失。[WGAN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1701.07875) 和 [梯度惩罚](https:\u002F\u002Farxiv.org\u002Fabs\u002F1704.00028) 也已实现，但尚未经过测试。\n  * 多个代码模块被重构。如果发现任何错误，请及时报告。\n  * 实现了 [D-DBPN](https:\u002F\u002Farxiv.org\u002Fabs\u002F1803.02735)。默认设置为 D-DBPN-L。\n\n* 2018年4月26日\n  * 兼容 PyTorch 0.4.0。\n  * 如果您仍在使用旧版本的 PyTorch，请使用 legacy\u002F0.3.1 分支。\n  * 进行了少量错误修复。\n\n* 2018年7月22日\n  * 感谢最近的提交，其中包含了 RDN 和 RCAN。请参阅 `code\u002Fdemo.sh` 以训练和测试这些模型。\n  * 现在的数据加载器比以前更加稳定。请删除在此提交之前创建的 `DIV2K\u002Fbin` 文件夹。同时，请避免使用 `--ext bin` 参数。我们的代码会在训练前自动解码 png 图像。如果您磁盘空间不足（约 10GB），我们建议使用 `--ext img`（但速度较慢）。\n\n* 2018年10月18日\n  * 使用 `--pre_train download` 参数，预训练模型将自动从服务器下载。\n  * 支持视频输入\u002F输出（仅推理）。尝试使用 `--data_test video --dir_demo [视频文件目录]`。\n\n* 关于 PyTorch 1.0.0\n  * 我们支持 PyTorch 1.0.0。如果您更喜欢旧版本的 PyTorch，请使用旧分支。\n  * 不再支持 `--ext bin` 参数。请使用 `--ext sep-reset` 删除现有的二进制文件。成功构建二进制文件后，您可以移除参数中的 `-reset`。","# EDSR-PyTorch 快速上手指南\n\nEDSR (Enhanced Deep Residual Networks) 是 CVPRW 2017 提出的单图像超分辨率经典模型。本仓库提供了该论文的官方 PyTorch 实现，支持从预训练模型直接放大图片，也支持从头训练。\n\n## 1. 环境准备\n\n### 系统要求\n*   **Python**: 3.6+\n*   **PyTorch**: >= 1.0.0 (默认分支支持 PyTorch 1.2.0+)\n*   **GPU**: 推荐 NVIDIA GPU 以加速训练和推理（可选，但强烈推荐）\n\n### 依赖安装\n请确保已安装以下 Python 库。建议使用 `pip` 并配置国内镜像源（如清华源）以加速下载：\n\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple torch torchvision numpy scikit-image imageio matplotlib tqdm opencv-python\n```\n\n> **注意**：`cv2` (opencv-python) 仅在需要处理视频输入\u002F输出时才必须安装。\n\n## 2. 安装步骤\n\n克隆仓库并进入项目目录：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fthstkdgus35\u002FEDSR-PyTorch\ncd EDSR-PyTorch\n```\n\n本项目无需额外的 `setup.py` 安装步骤，代码直接在 `src` 目录下运行。\n\n### 获取预训练模型\n为了直接测试效果，你需要下载预训练模型。\n*   **手动下载**：访问 [模型下载地址](https:\u002F\u002Fcv.snu.ac.kr\u002Fresearch\u002FEDSR\u002Fmodel_pytorch.tar) (542MB)，解压后将文件放入 `experiment\u002Fmodel` 目录。\n*   **自动下载**：在运行脚本时添加 `--pre_train download` 参数，程序会自动从服务器下载。\n\n## 3. 基本使用 (Demo)\n\n最简单的用法是使用预训练模型对本地图片进行超分辨率放大。\n\n### 步骤 1: 准备图片\n将你需要放大的图片（支持 **.png** 或 **.jpeg** 格式）放入项目根目录下的 `test` 文件夹中。\n例如：`EDSR-PyTorch\u002Ftest\u002Fmy_image.png`\n\n### 步骤 2: 配置脚本\n进入 `src` 目录，编辑 `demo.sh` 文件。\n```bash\ncd src\n```\n找到你希望执行的命令行（通常对应不同的缩放倍数，如 x2, x3, x4），**取消该行前面的注释符号 (`#`)**。确保其他不需要的行保持注释状态。\n\n示例 `demo.sh` 内容（启用 x4 放大）：\n```bash\n# python main.py --data_test Demo --scale 4 --pre_train download --test_only --save_results\npython main.py --data_test Demo --scale 4 --pre_train download --test_only --save_results\n```\n\n### 步骤 3: 运行推理\n执行脚本：\n\n```bash\nsh demo.sh\n```\n\n### 步骤 4: 查看结果\n处理完成后，生成的超分辨率图片将保存在以下目录：\n`experiment\u002Ftest\u002Fresults`\n\n---\n\n### 进阶提示：显存优化\n如果你在处理高分辨率图片时遇到显存不足（OOM）问题，可以在命令中添加 `--chop_forward` 参数。该功能会将大图切分为小块分别处理后再合并，显著降低显存占用：\n\n```bash\npython main.py --data_test Demo --scale 4 --pre_train download --test_only --save_results --chop_forward\n```","一家数字档案馆正在对一批珍贵的低分辨率历史照片进行数字化修复，以便在高清显示屏上展出。\n\n### 没有 EDSR-PyTorch 时\n- 直接使用传统插值算法放大图片，导致人脸纹理模糊、建筑边缘出现明显锯齿，完全无法满足展览的清晰度要求。\n- 尝试寻找其他深度学习方案时，发现模型参数量过大（往往超过 40M），普通工作站的显存无法支撑训练或推理，频繁报错溢出。\n- 复现论文代码过程繁琐，依赖环境冲突不断，团队花费数周时间仍在调试数据加载器（dataloader）等基础组件，进度严重滞后。\n- 缺乏预训练模型支持，若从头训练需要海量算力和时间，对于急需上线的项目来说成本过高且不现实。\n\n### 使用 EDSR-PyTorch 后\n- 利用 EDSR-PyTorch 提供的预训练模型（如 EDSR_x4），直接将老照片放大 4 倍，成功还原了衣物褶皱和砖墙细节，PSNR 指标显著提升，画面锐利自然。\n- 得益于其精简的代码结构和更小的模型体积（基线模型仅约 1.5M 参数），在单张消费级显卡上即可流畅运行，大幅降低了硬件门槛。\n- 基于成熟的 PyTorch 实现，团队通过简单的 `demo.sh` 脚本即可完成测试，无需处理复杂的版本兼容问题，半天内便打通了全流程。\n- 支持自定义输入输出，工作人员只需将扫描好的 JPEG 图片放入指定文件夹，即可批量生成高质量修复结果，极大提升了工作效率。\n\nEDSR-PyTorch 以其高效的架构和易用的特性，让低资源团队也能轻松实现电影级的图像超分辨率重建，让历史影像重现清晰光彩。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fsanghyun-son_EDSR-PyTorch_253469b6.png","sanghyun-son","Sanghyun Son (Shane)","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fsanghyun-son_ee465aa8.png","Machine Learning Research Engineer @twelvelabs-io \u002F Ex. Samsung Electronics, SNU","ML Research Engineer, TwelveLabs","Seoul, South Korea","devssh35@gmail.com",null,"https:\u002F\u002Fsanghyun-son.github.io","https:\u002F\u002Fgithub.com\u002Fsanghyun-son",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",95.9,{"name":89,"color":90,"percentage":91},"Shell","#89e051",4.1,2613,683,"2026-04-13T05:34:41","MIT","未说明","未明确说明必需，但支持多 GPU 训练；提及使用 12GB 显存可处理 4000x2000 输入图像（4 倍缩放），建议使用大显存显卡","最低未说明，推荐 >= 32GB（用于 --ext bin 模式打包数据），普通训练建议充足内存",{"notes":100,"python":101,"dependencies":102},"1. 默认主分支支持 PyTorch 1.2.0，若需使用 MDSR 模型训练\u002F评估请使用旧版分支（因 DataLoader 版本问题暂时禁用）。2. 训练前建议预处理 DIV2K 数据集：内存 >=32GB 可使用 '--ext bin' 打包为二进制文件以提升速度，否则使用默认 '--ext img' 或 '--ext sep'。3. 测试大图像时可添加 '--chop_forward' 参数以节省显存。4. 预训练模型约 542MB，基准数据集约 250MB，DIV2K 数据集约 7.1GB。5. 支持半精度测试 ('--precision half')。","3.6",[103,104,105,106,107,108,109],"PyTorch>=1.0.0 (默认支持 1.2.0)","numpy","scikit-image","imageio","matplotlib","tqdm","opencv-python (cv2>=3.xx, 仅视频输入输出时需要)",[15],"2026-03-27T02:49:30.150509","2026-04-17T10:19:44.530047",[114,119,124,129,134,139],{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},37415,"遇到 'ValueError: num_samples should be a positive integer value, but got num_samples=0' 错误如何解决？","该错误通常由以下两个原因引起：\n1. 批量大小（batch size）设置过小，而数据集较大。尝试增大 batch size 即可解决。\n2. 数据文件路径配置错误，导致无法加载任何数据样本。请仔细检查配置文件中的数据集路径是否正确。","https:\u002F\u002Fgithub.com\u002Fsanghyun-son\u002FEDSR-PyTorch\u002Fissues\u002F185",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},37416,"运行代码时出现 'ImportError: cannot import name '_worker_manager_loop'' 错误怎么办？","这是 PyTorch 版本不兼容导致的导入错误。请确保更新代码库到最新版本，维护者已通过提交（commit 9a9d7d7）修复了此问题。如果问题依旧，请检查您的 PyTorch 版本是否与项目要求匹配。","https:\u002F\u002Fgithub.com\u002Fsanghyun-son\u002FEDSR-PyTorch\u002Fissues\u002F98",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},37417,"在 Windows 上运行 demo.sh 或训练时遇到多进程（multiprocessing）相关报错如何处理？","Windows 下的多进程启动方式与 Linux 不同，常导致此类错误。解决方案是修改 `src\u002Futility.py` 文件：\n1. 在文件顶部添加 `matplotlib.use('Agg')` 以避免图形后端冲突。\n2. 确保正确导入 multiprocessing 模块。\n3. 如果是在命令行直接运行脚本，尝试将执行命令改为 `python main.py --demo` 而不是直接运行 shell 脚本，或者在代码入口处添加 `if __name__ == '__main__':` 保护逻辑。","https:\u002F\u002Fgithub.com\u002Fsanghyun-son\u002FEDSR-PyTorch\u002Fissues\u002F50",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},37418,"如何使用 WGAN-GP 训练 EDSR_baseline_x4 模型？","当前官方代码库尚未内置 WGAN-GP 的高级实现。维护者表示由于时间限制暂未实施，欢迎社区提交 Pull Request。建议参考其他开源实现（如 SRGAN_Wasserstein 仓库）来获取关于判别器中是否移除 BatchNorm、Adam 优化器参数设置（beta1, beta2, lr）以及对抗损失权重 k 值的具体配置思路。","https:\u002F\u002Fgithub.com\u002Fsanghyun-son\u002FEDSR-PyTorch\u002Fissues\u002F27",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},37419,"训练过程中每个 epoch 耗时正常，但 epoch 之间间隔极长是什么原因？","这通常是数据预处理或 Patch 生成成为了瓶颈。请查看日志中的时间信息（格式为 time: 模型时间 + 数据时间）。如果“数据时间”远大于“模型时间”，说明数据加载过慢。建议预先处理并保存 Patch 数据，以减少训练时的实时数据处理开销。","https:\u002F\u002Fgithub.com\u002Fsanghyun-son\u002FEDSR-PyTorch\u002Fissues\u002F53",{"id":140,"question_zh":141,"answer_zh":142,"source_url":138},37420,"如何自定义训练数据的 Patch 提取逻辑（例如基于 CSV 文件中的边界框）？","若要基于自定义坐标（如 CSV 记录的 box location）提取 Patch，需进行以下修改：\n1. 在 `option.py` 中添加读取 CSV 文件的参数。\n2. 修改 `common.py` 中的 `get_patch` 函数，使其能返回指定的 box 坐标。\n3. 在 `srdata.py` 中添加对应属性，并修改其 `get_patch` 调用以传递额外参数。\n注意需处理每张图像 box 数量不一致的情况，可能需要重写采样逻辑。",[]]