[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-fh2019ustc--Awesome-Document-Image-Rectification":3,"tool-fh2019ustc--Awesome-Document-Image-Rectification":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":83,"stars":86,"forks":87,"last_commit_at":88,"license":83,"difficulty_score":89,"env_os":90,"env_gpu":91,"env_ram":91,"env_deps":92,"category_tags":95,"github_topics":96,"view_count":23,"oss_zip_url":83,"oss_zip_packed_at":83,"status":16,"created_at":103,"updated_at":104,"faqs":105,"releases":135},3967,"fh2019ustc\u002FAwesome-Document-Image-Rectification","Awesome-Document-Image-Rectification","A comprehensive list of awesome document image rectification papers.","Awesome-Document-Image-Rectification 是一个专注于文档图像矫正技术的开源资源合集，旨在帮助开发者和研究人员轻松获取该领域最前沿的深度学习成果。在日常生活中，拍摄书本、试卷或纸质文件时，常因纸张弯曲、褶皱或光照不均导致图像变形、出现阴影，严重影响后续的文字识别（OCR）准确率与阅读体验。这份清单系统地梳理了从 2018 年至今发表在 CVPR、ICCV 等顶级会议上的优秀论文，涵盖了如 DocUNet、DewarpNet、DocTr 等经典模型，不仅提供了论文链接，还尽可能附带了代码仓库和演示结果。\n\n其核心价值在于将分散的学术成果整合为一张清晰的“技术地图”，特别适合计算机视觉领域的科研人员、算法工程师以及需要处理文档扫描任务的技术团队使用。通过参考这些基于堆叠 U-Net、3D\u002F2D 回归网络、Transformer 架构以及对抗生成网络（GAN）的创新方法，用户可以快速复现高效的去弯曲、阴影去除及几何校正算法。无论是想深入了解文档复原的理论基础，还是寻找可落地的工程方案，Awesome-Document-Image-Rectification 都","Awesome-Document-Image-Rectification 是一个专注于文档图像矫正技术的开源资源合集，旨在帮助开发者和研究人员轻松获取该领域最前沿的深度学习成果。在日常生活中，拍摄书本、试卷或纸质文件时，常因纸张弯曲、褶皱或光照不均导致图像变形、出现阴影，严重影响后续的文字识别（OCR）准确率与阅读体验。这份清单系统地梳理了从 2018 年至今发表在 CVPR、ICCV 等顶级会议上的优秀论文，涵盖了如 DocUNet、DewarpNet、DocTr 等经典模型，不仅提供了论文链接，还尽可能附带了代码仓库和演示结果。\n\n其核心价值在于将分散的学术成果整合为一张清晰的“技术地图”，特别适合计算机视觉领域的科研人员、算法工程师以及需要处理文档扫描任务的技术团队使用。通过参考这些基于堆叠 U-Net、3D\u002F2D 回归网络、Transformer 架构以及对抗生成网络（GAN）的创新方法，用户可以快速复现高效的去弯曲、阴影去除及几何校正算法。无论是想深入了解文档复原的理论基础，还是寻找可落地的工程方案，Awesome-Document-Image-Rectification 都是探索文档图像智能处理不可或缺的入门指南与灵感来源。","# Awesome Document Image Rectification [![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome#readme)\n> A comprehensive list of awesome document image rectification methods based on deep learning.\n## Table of contents\n\n- [Papers](#papers)\n- [Datasets](#datasets)\n- [Demos](#demos)\n\n\n# Papers\n\n\n|***Year***|***Venue***|***Title***|***Repo***|***Result***|\n|----|----|-----|----|----|\n|2018|CVPR|[DocUNet: Document Image Unwarping via A Stacked U-Net](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2018\u002Fpapers\u002FMa_DocUNet_Document_Image_CVPR_2018_paper.pdf)|||\n|2019|TOG|[Document Rectification and Illumination Correction using a Patch-based CNN*](https:\u002F\u002FarXiv.org\u002Fpdf\u002F1909.09470.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Fxiaoyu258\u002FDocProj)||\n|2019|ICCV|[DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regression Networks](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2019\u002Fpapers\u002FDas_DewarpNet_Single-Image_Document_Unwarping_With_Stacked_3D_and_2D_Regression_ICCV_2019_paper.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FDewarpNet)|[Link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1aPfQHGrGxpuIbYLONydbSkGNygRX2z2P?usp=sharing)|\n|2020|PR|[Geometric Rectification of Document Images using Adversarial Gated Unwarping Network](https:\u002F\u002Freader.elsevier.com\u002Freader\u002Fsd\u002Fpii\u002FS0031320320303794?token=52ED03E7C85352F1F088C41DA2BEED447A34798498EBC41ADF333A84742F53C1904FFED32E91578195D63663F9006F3D&originRegion=us-east-1&originCreation=20220801125708)|||\n|2020|CVPR|[BEDSR-Net: A Deep Shadow Removal Network From a Single Document Image*](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2020\u002Fpapers\u002FLin_BEDSR-Net_A_Deep_Shadow_Removal_Network_From_a_Single_Document_CVPR_2020_paper.pdf)|||\n|2020|ECCV|[Can You Read Me Now? Content Aware Rectification using Angle Supervision](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2008.02231.pdf)|||\n|2020|DAS|[Dewarping Document Image by Displacement Flow Estimation with Fully Convolutional Network](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2104.06815.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Fgwxie\u002FDewarping-Document-Image-By-Displacement-Flow-Estimation)||\n|2020|BMVC|[Intrinsic Decomposition of Document Images In-the-wild*](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2011.14447.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FDocIIW)||\n|2021|ACM MM|[DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction*](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2110.12942.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocTr)|[Link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1kJ34Nk18RVPwYK8mdfcQvU_67whD9tMe?usp=sharing)|\n|2021|ICCV|[End-to-end Piece-wise Unwarping of Document Images](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2021\u002Fpapers\u002FDas_End-to-End_Piece-Wise_Unwarping_of_Document_Images_ICCV_2021_paper.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Fsagniklp\u002FPiecewiseUnwarp)||\n|2021|ICDAR|[Document Dewarping with Control Points](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2203.10543.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Fgwxie\u002FDocument-Dewarping-with-Control-Points)|\n|2022|CVPR|[Fourier Document Restoration for Robust Document Dewarping and Recognition](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fpapers\u002FXue_Fourier_Document_Restoration_for_Robust_Document_Dewarping_and_Recognition_CVPR_2022_paper.pdf)|||\n|2022|CVPR|[Revisiting Document Image Dewarping by Grid Regularization](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fpapers\u002FJiang_Revisiting_Document_Image_Dewarping_by_Grid_Regularization_CVPR_2022_paper.pdf)||[Link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1Czgy0s2CbLrs__a-Q838fzre3tWhaTjq?usp=share_link)|\n|2022|ACM MM|[Marior: Margin Removal and Iterative Content Rectification for Document Dewarping in the Wild](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2207.11515.pdf)||[Link](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FMarior)|\n|2022|ACM MM|[UDoc-GAN: Unpaired Document Illumination Correction with Background Light Prior*](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3503161.3547916)|[Code](https:\u002F\u002Fgithub.com\u002Fharrytea\u002FUDoc-GAN)||\n|2022|SIGGRAPH|[Learning From Documents in the Wild to Improve Document Unwarping](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F3528233.3530756)|[Code](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FPaperEdge)|[Link](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1QM3Y5Ty96ydVCQPNqR0_bnMG9oqIQkGm\u002Fview?usp=sharing)|\n|2022|ECCV|[Geometric Representation Learning for Document Image Rectification](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2210.08161.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocGeoNet)|[Link](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F16xnV2Sv7xliUO_5bVGDo-Q?pwd=nszy)|\n|2022|ECCV|[Learning an Isometric Surface Parameterization for Texture Unwrapping](https:\u002F\u002Fwww.ecva.net\u002Fpapers\u002Feccv_2022\u002Fpapers_ECCV\u002Fpapers\u002F136970568.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FIso-UVField)||\n|2022|ICPR|[Document Image Rectification in Complex Scene Using Stacked Siamese Networks](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?arnumber=9956331&casa_token=3EP6PWPjea0AAAAA:5-ijMq2DXm9fcefC_Y4ryNM3d4deZpi_u6EOIjmZ6K-qp4tNwsHq2Y81xbr42aczVvyuR3xZiT_h)|||\n|2023|arXiv|[Geometric Rectification of Creased Document Images based on Isometric Mapping](https:\u002F\u002FarXiv.org\u002Fabs\u002F2212.08365)|||\n|2023|IJDAR|[Adaptive Dewarping of Severely Warped Camera-captured Document Images Based on Document Map Generation](https:\u002F\u002Flink.springer.com\u002Fcontent\u002Fpdf\u002F10.1007\u002Fs10032-022-00425-4.pdf?pdf=button)|||\n|2023|TMM|[Deep Unrestricted Document Image Rectification](https:\u002F\u002FarXiv.org\u002Fabs\u002F2304.08796)|[Code](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocTr-Plus)|\n|2023|IJDAR|[Inv3D: A High-resolution 3D Invoice Dataset for Template-guided Single-image Document Unwarping](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002Fs10032-023-00434-x)|[Code](https:\u002F\u002Fgithub.com\u002FFelixHertlein\u002Finv3d-model)||\n|2023|arXiv|[DocAligner: Annotating Real-world Photographic Document Images by Simply Taking Pictures](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2306.05749.pdf)|[Code](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FDocAligner)||\n|2023|arXiv|[MataDoc: Margin and Text Aware Document Dewarping for Arbitrary Boundary](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2307.12571)|||\n|2023|ICCVW|[Template-guided Illumination Correction for Document Images with Imperfect Geometric Reconstruction](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2023W\u002FNIVT\u002Fpapers\u002FHertlein_Template-Guided_Illumination_Correction_for_Document_Images_with_Imperfect_Geometric_Reconstruction_ICCVW_2023_paper.pdf)|[Code](https:\u002F\u002Fgithub.com\u002FFelixHertlein\u002Filltrtemplate-model)||\n|2023|ICCV|[Foreground and Text-lines Aware Document Image Rectification](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2023\u002Fpapers\u002FLi_Foreground_and_Text-lines_Aware_Document_Image_Rectification_ICCV_2023_paper.pdf)|[Code](https:\u002F\u002Fgithub.com\u002Fxiaomore\u002Fdocument-image-dewarping)||\n|2023|TAI|[Appearance Enhancement for Camera-captured Document Images in the Wild*](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?tp=&arnumber=10268585)|[Code](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FGCDRNet)||\n|2023|ACM TOG|[Layout-Aware Single-Image Document Flatening](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F3627818)|[Code](https:\u002F\u002Fgithub.com\u002FBunnySoCrazy\u002FLA-DocFlatten)|[Link](https:\u002F\u002Fgithub.com\u002FBunnySoCrazy\u002FLA-DocFlatten)|\n|2023|WACV|[DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FWACV2024\u002Fpapers\u002FYu_DocReal_Robust_Document_Dewarping_of_Real-Life_Images_via_Attention-Enhanced_Control_WACV_2024_paper.pdf)|[Code](https:\u002F\u002Fgithub.com\u002FirisXcoding\u002FDocReal)||\n|2023|TCSVT|[Rethinking Supervision in Document Unwarping: A Self-consistent Flow-free Approach](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10327775)|||\n|2023|SIGGRAPH|[UVDoc: Neural Grid-based Document Unwarping](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002FfullHtml\u002F10.1145\u002F3610548.3618174)|[Code](https:\u002F\u002Fgithub.com\u002Ftanguymagne\u002FUVDoc)||\n|2023|arXiv|[Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation](https:\u002F\u002FarXiv.org\u002Fabs\u002F2312.07925)|||\n|2024|ACM MM|[Document Registration: Towards Automated Labeling of Pixel-Level Alignment Between Warped-Flat Documents](https:\u002F\u002Fopenreview.net\u002Fpdf?id=EjjY5yJzQG)|||\n|2024|AAAI|[DocNLC: A Document Image Enhancement Framework with Normalized and Latent Contrastive Representation for Multiple Degradations](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F28366)|[Code](https:\u002F\u002Fgithub.com\u002FRylonW\u002FDocNLC)||\n|2024|ICPR|[DocHFormer: Document Image Dewarping via Harmonized Modeling of Hierarchical Priors](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-78119-3_3)|||\n|2024|CVPR|[DocRes: a generalist model toward unifying document image restoration tasks](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2024\u002Fpapers\u002FZhang_DocRes_A_Generalist_Model_Toward_Unifying_Document_Image_Restoration_Tasks_CVPR_2024_paper.pdf)|[Code](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FDocRes)||\n|2025|IJCV|[DocScanner: Robust Document Image Rectification with Progressive Learning](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1mmCUj90rHyuO1SmpLt361youh-07Y0sD\u002Fview?usp=share_link)|[Code](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocScanner)|[Link](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1QBe26xJwIl38sWqK2ZE9ke5nu0Mpr4dW?usp=sharing)|\n|2025|WACV|[DocMatcher: Document Image Dewarping via Structural and Textual Line Matching](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FWACV2025\u002Fpapers\u002FHertlein_DocMatcher_Document_Image_Dewarping_via_Structural_and_Textual_Line_Matching_WACV_2025_paper.pdf)|[Code](https:\u002F\u002Fgithub.com\u002FFelixHertlein\u002Fdoc-matcher)||\n|2025|ICDAR|[DAA-Net: Dynamic Adaptive Aggregation Network for Document Image Rectification](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-032-09371-4_8)|||\n|2025|ACM MM|[Uni-DocDiff: A Unified Document Restoration Model Based on Diffusion](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2508.04055)|||\n|2025|CVPR|[Document Image Rectification using Stable Diffusion Transformer](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2025W\u002FWiCV\u002Fpapers\u002FKumari_Document_Image_Rectification_using_Stable_Diffusion_Transformer_CVPRW_2025_paper.pdf)|||\n|2025|arXiv|[DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21975)|||\n|2025|ICCV|[ForCenNet: Foreground-Centric Network for Document Image Rectification](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2507.19804v1)|[Code](https:\u002F\u002Fgithub.com\u002Fcaipeng328\u002FForCenNet)||\n|2025|arXiv|[TADoc: Robust Time-Aware Document Image Dewarping](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2508.06988)|||\n|2026|arXiv|[BookNet: Book Image Rectification via Cross-Page Attention Network](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2601.21938)|||\n\n- The ***results*** are the rectified images on the [DocUNet Benchmark Dataset](https:\u002F\u002Fwww3.cs.stonybrook.edu\u002F~cvl\u002Fdocunet.html).\n- The \"*\" means that the work involves the illumination correction for document images.\n\n# Datasets\n\n|***Year***|***Venue***|***Title***|***Type***|***Link***|\n|----|----|-----|----|----|\n|2018|CVPR|[DocUNet: Document Image Unwarping via A Stacked U-Net](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2018\u002Fpapers\u002FMa_DocUNet_Document_Image_CVPR_2018_paper.pdf)|Real|[Dataset](https:\u002F\u002Fwww3.cs.stonybrook.edu\u002F~cvl\u002Fdocunet.html)|\n|2019|TOG|[Document Rectification and Illumination Correction using a Patch-based CNN](https:\u002F\u002FarXiv.org\u002Fpdf\u002F1909.09470.pdf)|Synthetic|[Dataset](https:\u002F\u002Fgithub.com\u002Fxiaoyu258\u002FDocProj)|\n|2019|ICCV|[DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regression Networks](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2019\u002Fpapers\u002FDas_DewarpNet_Single-Image_Document_Unwarping_With_Stacked_3D_and_2D_Regression_ICCV_2019_paper.pdf)|Synthetic|[Dataset](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002Fdoc3D-dataset)|\n|2020|DAS|[Dewarping Document Image by Displacement Flow Estimation with Fully Convolutional Network](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2104.06815.pdf)|Synthetic|[Dataset](https:\u002F\u002Fgithub.com\u002Fgwxie\u002FDistorted-Image-With-Flow)|\n|2021|ICDAR|[Document Dewarping with Control Points](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2203.10543.pdf)|Synthetic|[Dataset](https:\u002F\u002Fgithub.com\u002Fgwxie\u002FSynthesize-Distorted-Image-and-Its-Control-Points)|\n|2022|CVPR|[Fourier Document Restoration for Robust Document Dewarping and Recognition](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fpapers\u002FXue_Fourier_Document_Restoration_for_Robust_Document_Dewarping_and_Recognition_CVPR_2022_paper.pdf)|Real|[Dataset](https:\u002F\u002Fsg-vilab.github.io\u002Fevent\u002Fwarpdoc\u002F)|\n|2022|SIGGRAPH|[Learning From Documents in the Wild to Improve Document Unwarping](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F3528233.3530756)|Real|[Dataset](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FPaperEdge)|\n|2022|ECCV|[Geometric Representation Learning for Document Image Rectification](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2210.08161.pdf)|Real|[Dataset](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1yySouQQ3BlH7OjnUhq4CLuvpX2KXtifX?usp=sharing)|\n|2022|ICBD|[ADIU: An Antiquarian Document Image Unwarping Dataset](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?tp=&arnumber=10020521)|Both||\n|2023|IJDAR|[Adaptive Dewarping of Severely Warped Camera-captured Document Images Based on Document Map Generation](https:\u002F\u002Flink.springer.com\u002Fcontent\u002Fpdf\u002F10.1007\u002Fs10032-022-00425-4.pdf?pdf=button)|Real|[Dataset](https:\u002F\u002Fgithub.com\u002FNachappaCH\u002FDewarping-Dataset-Annotations)|\n|2023|TMM|[Deep Unrestricted Document Image Rectification](https:\u002F\u002FarXiv.org\u002Fabs\u002F2304.08796)|Real|[Dataset](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocTr-Plus)|\n|2023|SIGGRAPH|[UVDoc: Neural Grid-based Document Unwarping](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2302.02887.pdf)|Synthetic|[Dataset](https:\u002F\u002Fgithub.com\u002Ftanguymagne\u002FUVDoc-Dataset)|\n|2023|arXiv|[DocAligner: Annotating Real-world Photographic Document Images by Simply Taking Pictures](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2306.05749.pdf)|Real|[Dataset](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FDocAligner)|\n|2023|IJDAR|[Inv3D: A High-resolution 3D Invoice Dataset for Template-guided Single-image Document Unwarping](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002Fs10032-023-00434-x)|Synthetic|[Dataset](https:\u002F\u002Ffelixhertlein.github.io\u002Finv3d\u002F#Downloads)|\n\n# Demos\n|***Year***|***Name***|***Host***|***Type***|\n|----|-----|----|----|\n|2019|[DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regression Networks](https:\u002F\u002Fsagniklp.github.io\u002Fdewarpnet-demo\u002F)|  | Online Demo |\n|2021|[DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHaoFeng2019\u002FDocTr)| huggingface | Online Demo |\n|2022|[DocGeoNet: Geometric Representation Learning for Document Image Rectification](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHaoFeng2019\u002FDocGeoNet)| huggingface | Online Demo |\n|2022|[dewarp](https:\u002F\u002Fwww.textin.com\u002Fexperience\u002Fdewarp)| textin | Online Demo |\n|2023|[Deep Unrestricted Document Image Rectification](https:\u002F\u002Fdemo.doctrp.top\u002F)| self-hosted | Online Demo |\n|2023|[Inv3D: GeoTrTemplate & IllTrTemplate](https:\u002F\u002Ffelixhertlein.de\u002Fdocrefine\u002Fhome)| self-hosted | Online Demo |\n\n\n## Acknowledgment\n* This repository is scheduled to be updated regularly in accordance with schedules of major AI Conferences and Journals.\n","# 令人惊叹的文档图像校正 [![Awesome](https:\u002F\u002Fcdn.rawgit.com\u002Fsindresorhus\u002Fawesome\u002Fd7305f38d29fed78fa85652e3a63e154dd8e8829\u002Fmedia\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002Fsindresorhus\u002Fawesome#readme)\n> 基于深度学习的优秀文档图像校正方法的全面列表。\n## 目录\n\n- [论文](#papers)\n- [数据集](#datasets)\n- [演示](#demos)\n\n\n# 论文\n\n|***年份***|***会议\u002F期刊***|***标题***|***代码***|***结果***|\n|----|----|-----|----|----|\n|2018|CVPR|[DocUNet: 基于堆叠U-Net的文档图像去卷曲](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2018\u002Fpapers\u002FMa_DocUNet_Document_Image_CVPR_2018_paper.pdf)|||\n|2019|TOG|[基于补丁的CNN进行文档校正与光照校正*](https:\u002F\u002FarXiv.org\u002Fpdf\u002F1909.09470.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Fxiaoyu258\u002FDocProj)||\n|2019|ICCV|[DewarpNet: 基于堆叠3D和2D回归网络的单张文档去卷曲](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2019\u002Fpapers\u002FDas_DewarpNet_Single-Image_Document_Unwarping_With_Stacked_3D_and_2D_Regression_ICCV_2019_paper.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FDewarpNet)|[链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1aPfQHGrGxpuIbYLONydbSkGNygRX2z2P?usp=sharing)|\n|2020|PR|[利用对抗门控去卷曲网络进行文档图像几何校正](https:\u002F\u002Freader.elsevier.com\u002Freader\u002Fsd\u002Fpii\u002FS0031320320303794?token=52ED03E7C85352F1F088C41DA2BEED447A34798498EBC41ADF333A84742F53C1904FFED32E91578195D63663F9006F3D&originRegion=us-east-1&originCreation=20220801125708)|||\n|2020|CVPR|[BEDSR-Net: 基于单张文档图像的深度阴影去除网络*](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_CVPR_2020\u002Fpapers\u002FLin_BEDSR-Net_A_Deep_Shadow_Removal_Network_From_a_Single_Document_CVPR_2020_paper.pdf)|||\n|2020|ECCV|[现在你能读懂我吗？基于角度监督的内容感知校正](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2008.02231.pdf)|||\n|2020|DAS|[通过全卷积网络进行位移场估计实现文档图像去卷曲](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2104.06815.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Fgwxie\u002FDewarping-Document-Image-By-Displacement-Flow-Estimation)||\n|2020|BMVC|[野外文档图像的内在分解*](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2011.14447.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FDocIIW)||\n|2021|ACM MM|[DocTr: 用于几何去卷曲和光照校正的文档图像Transformer*](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2110.12942.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocTr)|[链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1kJ34Nk18RVPwYK8mdfcQvU_67whD9tMe?usp=sharing)|\n|2021|ICCV|[文档图像的端到端分段去卷曲](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2021\u002Fpapers\u002FDas_End-to-End_Piece-Wise_Unwarping_of_Document_Images_ICCV_2021_paper.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Fsagniklp\u002FPiecewiseUnwarp)||\n|2021|ICDAR|[基于控制点的文档去卷曲](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2203.10543.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Fgwxie\u002FDocument-Dewarping-with-Control-Points)|\n|2022|CVPR|[傅里叶文档修复用于鲁棒的文档去卷曲与识别](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fpapers\u002FXue_Fourier_Document_Restoration_for_Robust_Document_Dewarping_and_Recognition_CVPR_2022_paper.pdf)|||\n|2022|CVPR|[重新审视基于网格正则化的文档图像去卷曲](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fpapers\u002FJiang_Revisiting_Document_Image_Dewarping_by_Grid_Regularization_CVPR_2022_paper.pdf)||[链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1Czgy0s2CbLrs__a-Q838fzre3tWhaTjq?usp=share_link)|\n|2022|ACM MM|[Marior: 边距去除与内容迭代校正用于野外文档去卷曲](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2207.11515.pdf)||[链接](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FMarior)|\n|2022|ACM MM|[UDoc-GAN: 基于背景光照先验的无配对文档光照校正*](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fabs\u002F10.1145\u002F3503161.3547916)|[代码](https:\u002F\u002Fgithub.com\u002Fharrytea\u002FUDoc-GAN)||\n|2022|SIGGRAPH|[从野外文档中学习以提升文档去卷曲效果](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F3528233.3530756)|[代码](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FPaperEdge)|[链接](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1QM3Y5Ty96ydVCQPNqR0_bnMG9oqIQkGm\u002Fview?usp=sharing)|\n|2022|ECCV|[用于文档图像校正的几何表示学习](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2210.08161.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocGeoNet)|[链接](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F16xnV2Sv7xliUO_5bVGDo-Q?pwd=nszy)|\n|2022|ECCV|[学习等距曲面参数化以进行纹理展开](https:\u002F\u002Fwww.ecva.net\u002Fpapers\u002Feccv_2022\u002Fpapers_ECCV\u002Fpapers\u002F136970568.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FIso-UVField)||\n|2022|ICPR|[使用堆叠暹罗网络在复杂场景中进行文档图像校正](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?arnumber=9956331&casa_token=3EP6PWPjea0AAAAA:5-ijMq2DXm9fcefC_Y4ryNM3d4deZpi_u6EOIjmZ6K-qp4tNwsHq2Y81xbr42aczVvyuR3xZiT_h)|||\n|2023|arXiv|[基于等距映射的折痕文档图像几何校正](https:\u002F\u002FarXiv.org\u002Fabs\u002F2212.08365)|||\n|2023|IJDAR|[基于文档地图生成的严重扭曲相机拍摄文档图像的自适应去卷曲](https:\u002F\u002Flink.springer.com\u002Fcontent\u002Fpdf\u002F10.1007\u002Fs10032-022-00425-4.pdf?pdf=button)|||\n|2023|TMM|[深度无限制文档图像校正](https:\u002F\u002FarXiv.org\u002Fabs\u002F2304.08796)|[代码](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocTr-Plus)|\n|2023|IJDAR|[Inv3D: 高分辨率3D发票数据集用于模板引导的单张文档去卷曲](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002Fs10032-023-00434-x)|[代码](https:\u002F\u002Fgithub.com\u002FFelixHertlein\u002Finv3d-model)||\n|2023|arXiv|[DocAligner: 通过简单拍照标注真实世界摄影文档图像](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2306.05749.pdf)|[代码](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FDocAligner)||\n|2023|arXiv|[MataDoc: 边距和文本感知的任意边界文档去卷曲](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2307.12571)|||\n|2023|ICCVW|[针对几何重建不完善的文档图像的模板引导光照校正](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2023W\u002FNIVT\u002Fpapers\u002FHertlein_Template-Guided_Illumination_Correction_for_Document_Images_with_Imperfect_Geometric_Reconstruction_ICCVW_2023_paper.pdf)|[代码](https:\u002F\u002Fgithub.com\u002FFelixHertlein\u002Filltrtemplate-model)||\n|2023|ICCV|[前景和文本行感知的文档图像校正](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FICCV2023\u002Fpapers\u002FLi_Foreground_and_Text-lines_Aware_Document_Image_Rectification_ICCV_2023_paper.pdf)|[代码](https:\u002F\u002Fgithub.com\u002Fxiaomore\u002Fdocument-image-dewarping)||\n|2023|TAI|[野外相机拍摄文档图像的外观增强*](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?tp=&arnumber=10268585)|[代码](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FGCDRNet)||\n|2023|ACM TOG|[布局感知的单张文档展平](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F3627818)|[代码](https:\u002F\u002Fgithub.com\u002FBunnySoCrazy\u002FLA-DocFlatten)|[链接](https:\u002F\u002Fgithub.com\u002FBunnySoCrazy\u002FLA-DocFlatten)|\n|2023|WACV|[DocReal: 基于注意力增强控制点预测的鲁棒真实生活图像文档去卷曲](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FWACV2024\u002Fpapers\u002FYu_DocReal_Robust_Document_Dewarping_of_Real-Life_Images_via_Attention-Enhanced_Control_WACV_2024_paper.pdf)|[代码](https:\u002F\u002Fgithub.com\u002FirisXcoding\u002FDocReal)||\n|2023|TCSVT|[重新思考文档去卷曲中的监督：一种自洽的无流方法](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F10327775)|||\n|2023|SIGGRAPH|[UVDoc: 基于神经网格的文档去卷曲](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002FfullHtml\u002F10.1145\u002F3610548.3618174)|[代码](https:\u002F\u002Fgithub.com\u002Ftanguymagne\u002FUVDoc)||\n|2023|arXiv|[Polar-Doc: 基于极坐标表示的多尺度约束单阶段文档去卷曲](https:\u002F\u002FarXiv.org\u002Fabs\u002F2312.07925)|||\n|2024|ACM MM|[文档注册：迈向扭曲与平坦文档之间像素级对齐的自动化标注](https:\u002F\u002Fopenreview.net\u002Fpdf?id=EjjY5yJzQG)|||\n|2024|AAAI|[DocNLC: 具有归一化和潜在对比表示的多退化文档图像增强框架](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F28366)|[代码](https:\u002F\u002Fgithub.com\u002FRylonW\u002FDocNLC)||\n|2024|ICPR|[DocHFormer: 通过层次化先验的协调建模进行文档图像去卷曲](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-031-78119-3_3)|||\n|2024|CVPR|[DocRes: 一种面向统一文档图像修复任务的通用模型](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2024\u002Fpapers\u002FZhang_DocRes_A_Generalist_Model_Toward_Unifying_Document_Image_Restoration_Tasks_CVPR_2024_paper.pdf)|[代码](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FDocRes)||\n|2025|IJCV|[DocScanner: 基于渐进式学习的鲁棒文档图像校正](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1mmCUj90rHyuO1SmpLt361youh-07Y0sD\u002Fview?usp=share_link)|[代码](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocScanner)|[链接](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1QBe26xJwIl38sWqK2ZE9ke5nu0Mpr4dW?usp=sharing)|\n|2025|WACV|[DocMatcher: 基于结构和文本行匹配的文档图像去卷曲](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FWACV2025\u002Fpapers\u002FHertlein_DocMatcher_Document_Image_Dewarping_via_Structural_and_Textual_Line_Matching_WACV_2025_paper.pdf)|[代码](https:\u002F\u002Fgithub.com\u002FFelixHertlein\u002Fdoc-matcher)||\n|2025|ICDAR|[DAA-Net: 用于文档图像校正的动态适应性聚合网络](https:\u002F\u002Flink.springer.com\u002Fchapter\u002F10.1007\u002F978-3-032-09371-4_8)|||\n|2025|ACM MM|[Uni-DocDiff: 基于扩散的统一文档修复模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2508.04055)|||\n|2025|CVPR|[利用稳定扩散Transformer进行文档图像校正](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2025W\u002FWiCV\u002Fpapers\u002FKumari_Document_Image_Rectification_using_Stable_Diffusion_Transformer_CVPRW_2025_paper.pdf)|||\n|2025|arXiv|[DvD: 基于坐标扩散模型释放文档去卷曲的生成范式](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21975)|||\n|2025|ICCV|[ForCenNet: 以前景为中心的文档图像校正网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2507.19804v1)|[代码](https:\u002F\u002Fgithub.com\u002Fcaipeng328\u002FForCenNet)||\n|2025|arXiv|[TADoc: 鲁棒的时间感知文档图像去卷曲](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2508.06988)|||\n|2026|arXiv|[BookNet: 基于跨页注意力网络的书籍图像校正](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2601.21938)|||\n\n- ***结果*** 是 [DocUNet 基准数据集](https:\u002F\u002Fwww3.cs.stonybrook.edu\u002F~cvl\u002Fdocunet.html) 上的校正图像。\n- 符号 \"*\" 表示该工作涉及文档图像的光照校正。\n\n\n\n# 数据集\n\n|***年份***|***会议\u002F期刊***|***标题***|***类型***|***链接***|\n|----|----|-----|----|----|\n|2018|CVPR|[DocUNet: 基于堆叠 U-Net 的文档图像去畸变](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2018\u002Fpapers\u002FMa_DocUNet_Document_Image_CVPR_2018_paper.pdf)|真实|[数据集](https:\u002F\u002Fwww3.cs.stonybrook.edu\u002F~cvl\u002Fdocunet.html)|\n|2019|TOG|[基于补丁的 CNN 进行文档校正与光照校正](https:\u002F\u002FarXiv.org\u002Fpdf\u002F1909.09470.pdf)|合成|[数据集](https:\u002F\u002Fgithub.com\u002Fxiaoyu258\u002FDocProj)|\n|2019|ICCV|[DewarpNet: 使用堆叠 3D 和 2D 回归网络的单张文档去畸变](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_ICCV_2019\u002Fpapers\u002FDas_DewarpNet_Single-Image_Document_Unwarping_With_Stacked_3D_and_2D_Regression_ICCV_2019_paper.pdf)|合成|[数据集](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002Fdoc3D-dataset)|\n|2020|DAS|[通过全卷积网络进行位移场估计实现文档图像去畸变](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2104.06815.pdf)|合成|[数据集](https:\u002F\u002Fgithub.com\u002Fgwxie\u002FDistorted-Image-With-Flow)|\n|2021|ICDAR|[基于控制点的文档去畸变](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2203.10543.pdf)|合成|[数据集](https:\u002F\u002Fgithub.com\u002Fgwxie\u002FSynthesize-Distorted-Image-and-Its-Control-Points)|\n|2022|CVPR|[用于鲁棒文档去畸变和识别的傅里叶文档修复](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent\u002FCVPR2022\u002Fpapers\u002FXue_Fourier_Document_Restoration_for_Robust_Document_Dewarping_and_Recognition_CVPR_2022_paper.pdf)|真实|[数据集](https:\u002F\u002Fsg-vilab.github.io\u002Fevent\u002Fwarpdoc\u002F)|\n|2022|SIGGRAPH|[从野外文档中学习以改进文档去畸变](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F3528233.3530756)|真实|[数据集](https:\u002F\u002Fgithub.com\u002Fcvlab-stonybrook\u002FPaperEdge)|\n|2022|ECCV|[用于文档图像校正的几何表征学习](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2210.08161.pdf)|真实|[数据集](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1yySouQQ3BlH7OjnUhq4CLuvpX2KXtifX?usp=sharing)|\n|2022|ICBD|[ADIU: 古籍文档图像去畸变数据集](https:\u002F\u002Fieeexplore.ieee.org\u002Fstamp\u002Fstamp.jsp?tp=&arnumber=10020521)|两者||\n|2023|IJDAR|[基于文档地图生成的严重畸变相机拍摄文档图像自适应去畸变](https:\u002F\u002Flink.springer.com\u002Fcontent\u002Fpdf\u002F10.1007\u002Fs10032-022-00425-4.pdf?pdf=button)|真实|[数据集](https:\u002F\u002Fgithub.com\u002FNachappaCH\u002FDewarping-Dataset-Annotations)|\n|2023|TMM|[深度无限制文档图像校正](https:\u002F\u002FarXiv.org\u002Fabs\u002F2304.08796)|真实|[数据集](https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocTr-Plus)|\n|2023|SIGGRAPH|[UVDoc: 基于神经网格的文档去畸变](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2302.02887.pdf)|合成|[数据集](https:\u002F\u002Fgithub.com\u002Ftanguymagne\u002FUVDoc-Dataset)|\n|2023|arXiv|[DocAligner: 通过简单拍照标注真实世界摄影文档图像](https:\u002F\u002FarXiv.org\u002Fpdf\u002F2306.05749.pdf)|真实|[数据集](https:\u002F\u002Fgithub.com\u002FZZZHANG-jx\u002FDocAligner)|\n|2023|IJDAR|[Inv3D: 高分辨率 3D 发票数据集，用于模板引导的单张文档去畸变](https:\u002F\u002Flink.springer.com\u002Farticle\u002F10.1007\u002Fs10032-023-00434-x)|合成|[数据集](https:\u002F\u002Ffelixhertlein.github.io\u002Finv3d\u002F#Downloads)|\n\n# 演示\n|***年份***|***名称***|***平台***|***类型***|\n|----|-----|----|----|\n|2019|[DewarpNet: 使用堆叠 3D 和 2D 回归网络的单张文档去畸变](https:\u002F\u002Fsagniklp.github.io\u002Fdewarpnet-demo\u002F)|  | 在线演示 |\n|2021|[DocTr: 用于几何去畸变和光照校正的文档图像 Transformer](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHaoFeng2019\u002FDocTr)| Hugging Face | 在线演示 |\n|2022|[DocGeoNet: 用于文档图像校正的几何表征学习](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHaoFeng2019\u002FDocGeoNet)| Hugging Face | 在线演示 |\n|2022|[dewarp](https:\u002F\u002Fwww.textin.com\u002Fexperience\u002Fdewarp)| TextIn | 在线演示 |\n|2023|[深度无限制文档图像校正](https:\u002F\u002Fdemo.doctrp.top\u002F)| 自托管 | 在线演示 |\n|2023|[Inv3D: GeoTrTemplate & IllTrTemplate](https:\u002F\u002Ffelixhertlein.de\u002Fdocrefine\u002Fhome)| 自托管 | 在线演示 |\n\n\n## 致谢\n* 本仓库将根据主要人工智能会议和期刊的日程安排定期更新。","# Awesome-Document-Image-Rectification 快速上手指南\n\n本指南旨在帮助开发者快速了解并上手基于深度学习的文档图像矫正（Document Image Rectification）技术。由于本项目是一个**资源汇总列表**（Awesome List），而非单一的可执行软件，因此“安装”和“使用”通常指代列表中具体的某个算法模型（如 DocTr, DewarpNet, DocScanner 等）。\n\n以下以列表中较新且通用的 **DocTr (Document Image Transformer)** 或类似主流模型为例，展示标准的上手流程。请根据实际需求替换为列表中其他具体项目的仓库地址。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04) 或 macOS。Windows 用户建议使用 WSL2。\n*   **Python 版本**: Python 3.7 - 3.9 (大多数深度学习项目对此范围支持最好)。\n*   **GPU 支持**: 推荐使用 NVIDIA GPU 以加速推理和训练（需安装对应的 CUDA 驱动）。\n*   **前置依赖**:\n    *   `git`: 用于克隆代码库。\n    *   `pip` 或 `conda`: 包管理工具。\n    *   `PyTorch`: 核心深度学习框架。\n\n> **国内加速建议**：\n> *   安装 PyTorch 时，推荐使用清华或中科大镜像源。\n> *   克隆 GitHub 仓库如遇网络问题，可使用 Gitee 镜像（若作者同步）或通过代理加速。\n\n## 2. 安装步骤\n\n以下命令以 **DocTr** 为例（其他项目步骤类似，请参考对应 Repo 链接）：\n\n### 2.1 克隆项目代码\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocTr.git\ncd DocTr\n```\n*(注：若访问 GitHub 缓慢，可尝试搜索该项目的 Gitee 镜像或使用 `git clone https:\u002F\u002Fghproxy.com\u002Fhttps:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FDocTr.git`)*\n\n### 2.2 创建虚拟环境 (推荐)\n使用 Conda 创建隔离环境：\n```bash\nconda create -n doc_rect python=3.8\nconda activate doc_rect\n```\n\n### 2.3 安装深度学习框架\n根据是否有 GPU 选择安装命令（推荐使用清华镜像源）：\n\n**CPU 版本:**\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n**GPU 版本 (以 CUDA 11.8 为例):**\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n### 2.4 安装项目依赖\n进入项目目录并安装 `requirements.txt` 中的依赖：\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n*如果项目中没有 `requirements.txt`，通常需要手动安装 `opencv-python`, `numpy`, `scipy`, `pillow` 等基础库。*\n\n## 3. 基本使用\n\n大多数文档矫正模型的使用流程分为：**下载预训练权重** -> **准备输入图片** -> **运行推理脚本**。\n\n### 3.1 下载预训练模型\n许多项目在 README 中提供了 Google Drive 或百度网盘的权重链接。以 DocTr 为例，下载预训练权重文件（例如 `doc_tr.pth`）并放入项目指定的文件夹（通常是 `weights\u002F` 或 `checkpoints\u002F`）。\n\n*若原链接为百度网盘，请使用提取码下载；若为 Google Drive 且无法访问，可寻找社区提供的镜像链接。*\n\n### 3.2 准备测试图片\n将需要矫正的弯曲文档图片放入 `input\u002F` 目录，或记住图片的绝对路径。\n```bash\n# 示例：假设你有一张名为 curved_doc.jpg 的图片\nmkdir -p input\ncp \u002Fpath\u002Fto\u002Fyour\u002Fcurved_doc.jpg input\u002F\n```\n\n### 3.3 运行推理\n执行官方提供的测试脚本。命令格式通常如下（具体参数请参照各子项目的 README）：\n\n```bash\npython test.py --config configs\u002Fdoc_tr.yaml --checkpoint weights\u002Fdoc_tr.pth --input_dir input\u002F --output_dir output\u002F\n```\n\n或者针对单张图片的简单调用：\n```bash\npython demo.py --image_path input\u002Fcurved_doc.jpg --save_path output\u002Fresult.jpg\n```\n\n### 3.4 查看结果\n运行完成后，矫正后的平整文档图像将保存在 `output\u002F` 目录中。您可以使用图片查看器对比原图与结果图。\n\n---\n**提示**：本列表包含了从 2018 年到 2026 年的多种方法。\n*   若需处理**严重阴影**，请选择标题带 \"Illumination Correction\" 的项目（如 UDoc-GAN, DocNLC）。\n*   若需处理**复杂背景**，请关注 \"In-the-wild\" 相关项目（如 Marior, DocReal）。\n*   若追求**最新 SOTA 效果**，建议优先尝试 2023-2025 年间的项目（如 DocScanner, DocRes, ForCenNet）。","某数字化档案团队正在处理一批历史文献的扫描图像，这些纸质文档因年代久远且拍摄环境受限，普遍存在严重的卷曲、褶皱和光照不均问题。\n\n### 没有 Awesome-Document-Image-Rectification 时\n- **预处理效率低下**：工程师需手动编写复杂的传统几何变换算法来尝试拉平文档，但面对不规则卷曲往往失效，耗费大量调试时间。\n- **OCR 识别率惨淡**：由于页面扭曲和阴影干扰，直接接入 OCR 引擎后文字错位严重，生僻字和边缘文字几乎无法识别，准确率不足 60%。\n- **模型选型盲目**：团队在寻找深度学习解决方案时，需在海量论文中大海捞针，难以快速定位如 DocUNet、DewarpNet 或 DocTr 等经过验证的 SOTA（最先进）模型及其开源代码。\n- **数据增强困难**：缺乏权威的形变数据集参考，导致自训练模型泛化能力差，无法应对“野外”复杂拍摄角度下的文档修复。\n\n### 使用 Awesome-Document-Image-Rectification 后\n- **技术落地加速**：通过该清单直接锁定 CVPR 和 ICCV 收录的成熟项目（如带有代码链接的 DewarpNet），团队仅需数天即可集成高效的端到端展平网络。\n- **识别精度飞跃**：利用清单推荐的几何校正与光照去除联合模型，文档被自动还原为平整状态，阴影被消除，OCR 识别率瞬间提升至 95% 以上。\n- **研发路径清晰**：清单按年份和会议分类，帮助团队快速对比不同算法优劣，直接复用现成的 Demo 和预训练权重，避免了重复造轮子。\n- **数据基准统一**：依托清单整理的专用数据集，团队能够快速构建高质量的训练集，显著提升了模型对各类破损文档的鲁棒性。\n\nAwesome-Document-Image-Rectification 将原本耗时数周的算法调研与验证过程压缩至几天，让团队能专注于核心业务逻辑，而非底层图像矫正难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Ffh2019ustc_Awesome-Document-Image-Rectification_d1437f20.png","fh2019ustc","Hao Feng","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Ffh2019ustc_d18ce98f.jpg","PhD of University of Science and Technology of China. &\r\n\r\nI’m currently a researcher working on Document AI at ByteDance.","ByteDance","Shanghai, China","haof@mail.ustc.edu.cn",null,"https:\u002F\u002Ffh2019ustc.github.io\u002F","https:\u002F\u002Fgithub.com\u002Ffh2019ustc",534,40,"2026-04-04T19:03:36",5,"","未说明",{"notes":93,"python":91,"dependencies":94},"该 README 是一个文档图像矫正（Document Image Rectification）相关论文、数据集和代码库的汇总列表（Awesome List），而非单一软件工具的说明书。列表中包含了数十个不同的开源项目（如 DocUNet, DewarpNet, DocTr 等），每个项目都有独立的代码仓库和运行环境要求。因此，无法从当前文本中提取出统一的操作系统、GPU、内存、Python 版本或依赖库信息。用户需点击表中具体项目的 'Code' 链接，查阅各自仓库的 README 以获取详细的安装和运行指南。",[],[14,13],[97,98,99,100,101,102],"document-unwarping","document-image-rectification","document-image-processing","deep-learning","awesome","document-dewarping","2026-03-27T02:49:30.150509","2026-04-06T07:13:37.241163",[106,111,116,121,126,131],{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},18109,"Doc3D 数据集无法通过官方 Google Form 获取，是否有其他下载方式？","如果填写官方表格后未收到回复，可以直接通过邮箱联系维护者或其他社区成员。维护者表示可以通过邮件分享百度网盘链接来获取该数据集。","https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FAwesome-Document-Image-Rectification\u002Fissues\u002F3",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},18110,"列表中某篇论文的结果链接指向了错误的数据集，如何获取正确的结果？","维护者已修复了错误的链接。此外，维护者已从原论文作者处获得了《Revisiting Document Image Dewarping by Grid Regularization》论文的实验结果，并在获得许可后发布，用户可直接在项目中查找或联系维护者获取。","https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FAwesome-Document-Image-Rectification\u002Fissues\u002F1",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},18111,"项目中的在线 Demo 链接失效了怎么办？","该问题通常是由于临时服务器波动导致的。维护者在接到报告后会尽快恢复服务。如果遇到链接失效，请稍后再试或关注 Issue 区的最新回复确认恢复状态。","https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FAwesome-Document-Image-Rectification\u002Fissues\u002F13",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},18112,"DocUNet Benchmark 数据集官网无法访问或下载失败怎么办？","官网服务器可能暂时关闭或出现 403 Forbidden 错误。此时可以直接发送邮件联系维护者（@fh2019ustc），维护者可以提供其之前下载好的数据集副本。","https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FAwesome-Document-Image-Rectification\u002Fissues\u002F9",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},18113,"下载 DocUNet 数据集时遇到 403 Forbidden 错误是什么原因？","这通常是因为托管数据集的服务器暂时关闭或限制了访问。如果遇到此问题，建议直接联系维护者，他们可以分享本地备份的数据集文件。","https:\u002F\u002Fgithub.com\u002Ffh2019ustc\u002FAwesome-Document-Image-Rectification\u002Fissues\u002F2",{"id":132,"question_zh":133,"answer_zh":134,"source_url":110},18114,"如何获取 UDIR 或其他相关文档矫正数据集？","部分数据集（如 UDIR）若官方渠道不可用，可以通过邮件联系社区成员或维护者请求分享。已有用户在 Issue 中通过留下邮箱成功获取了百度网盘分享链接。",[]]