image-text-localization-recognition

959 231 困难 1 次阅读 1个月前图像开发框架

AI 解读由 AI 自动生成，仅供参考

image-text-localization-recognition 是一个专注于场景文本定位与识别的开源资源合集，旨在为相关领域的研究者和开发者提供一站式的论文索引与代码实现参考。在复杂的自然场景中，如何精准地从图片里框出文字位置（定位）并准确读出内容（识别），一直是计算机视觉领域的难点。该资源库系统性地整理了来自牛津大学、深圳先进院等顶尖机构的经典成果，涵盖了从早期的深度特征提取到最新的统一网络架构（如 FOTS、CTPN 等）等多种技术方案。

它不仅解决了研究人员在海量文献中难以快速筛选高质量模型的问题，还通过提供对应的代码链接和数据集地址，极大地降低了复现前沿算法的门槛。无论是希望深入了解行业发展的学术研究人员，还是需要将文字识别功能落地到实际产品中的 AI 工程师，都能从中找到极具价值的参考素材。此外，对于想要探索合成数据训练或无约束文本识别等独特技术路径的开发者，这里也收录了诸多具有启发性的创新工作。作为一份持续更新的指南，它帮助用户紧跟“深度学习时代”的场景文本处理趋势，是进入该领域不可或缺的入门向导与进阶宝典。

使用场景

某跨境电商运营团队需要每日从海外社交媒体抓取数千张包含商品促销信息的图片，并提取其中的价格与折扣文字以更新数据库。

没有 image-text-localization-recognition 时

人工成本极高：团队成员需手动查看每张截图，肉眼定位文字区域并逐字录入，处理一张图片平均耗时 2 分钟。
复杂场景识别率低：面对倾斜拍摄、背景杂乱或艺术字体的促销海报，人工转录极易出错，导致价格数据频繁偏差。
流程无法自动化：由于缺乏统一的文本检测与识别接口，无法将图片解析环节接入现有的自动爬虫 pipeline，数据更新滞后严重。
多语言支持困难：遇到非拉丁语系（如日文、韩文）的场景文本时，团队缺乏现成模型，只能外包翻译，进一步拉长周期。

使用 image-text-localization-recognition 后

全流程自动化：调用该资源合集中成熟的算法（如 CTPN 或 FOTS），系统可自动定位图片中的文本框并识别内容，单张处理缩短至秒级。
鲁棒性显著提升：利用深度学习模型对扭曲、模糊及复杂背景的强大适应性，准确提取各类创意字体中的关键促销信息，错误率降低 90%。
无缝集成开发：直接复用 GitHub 上经过验证的代码实现，快速构建端到端的图像文字提取服务，实时同步最新竞品数据。
全球化覆盖：基于合集内涵盖的多语言预训练模型，无需额外开发即可支持全球主流语种的文字识别，打破语言壁垒。

image-text-localization-recognition 通过将分散的顶尖学术成果转化为可调用的工程能力，帮助团队实现了从“人工抄录”到“智能感知”的效率飞跃。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes提供的 README 内容仅为场景文本定位与识别领域的论文和代码资源列表（综述），并非具体某个 AI 工具的安装文档。文中列出了来自牛津大学、复旦大学等多个机构的研究成果链接，但未包含任何关于运行环境、依赖库、硬件需求或安装步骤的具体说明。用户需点击具体的代码仓库链接（如 GitHub）以获取相应项目的详细环境需求。

python未说明

image-text-localization-recognition hero image

快速开始

场景文本定位与识别资源

按研究所阅读：英文，简体中文。

按年份阅读：英文，简体中文。

标签：[STL]（场景文本定位），[TR]（文本识别）

[STL]（场景文本定位）从场景输入图像中检测文本区域

[TR]（文本识别）识别文本内容

最后更新：2023年9月17日

1. 论文与代码

概述

[2020-arxiv] 自然场景下的文本检测与识别：综述 paper
[2020-arxiv] 自然场景下的文本识别：综述 paper
[2020-IJCV] 场景文本检测与识别：深度学习时代 paper
[2019-ICCV] 场景文本识别模型比较存在什么问题？数据集与模型分析 paper code
[2016-TIP] 视频中的文本检测、跟踪与识别：全面综述 paper
[2015-PAMI] 图像中的文本检测与识别：综述 paper
[2014-Front.Comput.Sci] 场景文本检测与识别：最新进展与未来趋势 paper

牛津大学

[2020-ECCV][STL][TR] 基于视觉匹配的自适应文本识别 paper code
[2018-BMVC][TR] 归纳式视觉定位：分解训练以实现更优的泛化能力 paper
[2016-IJCV][STL][TR] 使用卷积神经网络在自然场景中阅读文本 paper demo homepage
[2016-CVPR][STL] 用于自然图像中文本定位的合成数据 paper code data
[2015-ICLR][TR] 非约束条件下文本识别的深度结构化输出学习 paper
[2015-博士论文][STL] 文本定位的深度学习 paper code
[2014-ECCV][STL] 文本定位的深度特征 paper code model
[2014-NIPS][TR] 用于自然场景文本识别的合成数据和人工神经网络 paper homepage model

深圳先进技术研究院

[2018-arxiv][STL][TR] FOTS：统一网络的快速方向性文本定位 paper
[2016-ECCV][STL] CTPN：基于连接主义文本提案网络的自然图像中文本检测 paper code
[2016-CVPR][STL] 级联卷积文本网络在自然图像中实现精确的文本定位 paper
[2016-AAAI][STL] 在深度卷积序列中阅读场景文本 paper
[2016-TIP][STL] 基于文本注意力机制的卷积神经网络用于场景文本检测 paper
[2016-TIP][STL] 基于文本注意力机制的卷积神经网络用于场景文本检测 paper
[2014-ECCV][STL] 使用卷积神经网络诱导的MSER树进行鲁棒的场景文本检测 paper

华南理工大学

[2021-IJCV][STL] 探索无序边界框离散化网络在多方向场景文本检测中的能力 paper code
[2021-CVPR][STL] 用于任意形状文本检测的傅里叶轮廓嵌入 paper
[2021-CVPR][TR][STL] 隐式特征对齐：学习将文本识别器转换为文本定位器 paper code
[2020-CVPR][TR] 学习增强：面向文本识别的联合数据增强与网络优化 paper code
[2020-AAAI][STL][TR] 用于文本识别的解耦注意力网络 paper
[2020-CVPR][STL][TR] ABCNet：基于自适应贝塞尔曲线网络的实时场景文本定位 paper code
[2020-IJCV][TR] 使用对抗学习分离内容与风格以识别野外文本 paper
[2019-Pattern Recognition][TR] 用于场景文本识别的多目标校正注意力网络 paper code
[2019-CVPR][TR] 用于序列识别的聚合交叉熵 paper code
[2019-arxiv][STL] 探索无序边界框离散化网络在多方向场景文本检测中的能力 paper code code
[2019-CVPR][STL] 场景文本检测的紧致度感知评估协议 paper
[2018-AAAI][STL] 特征增强网络：一种改进的场景文本检测器 paper
[2017-arXiv][STL] 野外曲线文本检测：新数据集与新方案 paper
[2020-arxiv][TR] 基于注意力的场景文本识别中的自适应嵌入门控 paper
[2017-PAMI][TR] 利用全卷积循环网络学习空间语义上下文，用于在线手写中文文本识别 paper
[2017-CVPR][STL] 深度匹配先验网络：迈向更紧密的多方向文本检测 paper
[2016-arXiv][STL] DeepText：自然图像中统一的文本提案生成与文本检测框架 paper
[2016-IEEE Transactions on Multimedia][STL] 基于卷积神经网络、通过文本结构建模的中文文本检测算法 paper

复旦大学

[2022-AAAI][TR] Text Gestalt：笔画感知的场景文本图像超分辨率 paper code
[2023-MM][TR] 基于增强字符轮廓匹配的汉字识别 paper code
[2023-ICCV][TR] 通过图像-ID对齐使用预训练CLIP-like模型进行中文文本识别 paper code
[2023-arxiv][STL][TR] 弱监督文本实例分割 paper code
[2023-IJCAI][TR] 场景图像中与方向无关的中文文本识别 paper
[2023-IJCAI][TR] TPS++：用于场景文本识别的注意力增强薄板样条 paper code
[2023-IJCAI][STL][TR] 基于文本语义推理实现精准视频文本定位 paper code
[2022-MM][TR] 基于增强字符轮廓匹配的汉字识别 paper code
[2022-WACV][TR] 通过校正主要不规则性稳健地识别不规则场景文本 paper
[2021-IJCAI][TR] 基于笔画级分解的零样本汉字识别 paper code
[2022-IJCAI][TR] C3-STISR：基于三重线索的场景文本图像超分辨率 paper code
[2021-CVPR][TR] 场景文本望远镜：以文本为中心的场景图像超分辨率 paper
[2020-arxiv][TR] 在真实场景中使用少量标注样本进行文本识别 paper
[2018-CVPR][TR] 场景文本识别中的编辑概率 paper
[2017-arXiv][STL] 通过旋转提案进行任意方向场景文本检测 paper code

华中科技大学

[2021-CVPR][STL][TR] 基于联合文本检测与相似度学习的场景文本检索 论文 代码
[2021-CVPR][STL] MOST：一种具有定位精修功能的多方向场景文本检测器 论文
[2020-ECCV][TR] AutoSTR：面向场景文本识别的高效骨干网络搜索 论文
[2020-AAAI][STL][TR] 一切尽在边界：迈向任意形状文本定位 论文
[2020-AAAI][STL] 基于可微二值化的实时场景文本检测 论文 代码
[2020-ECCV][STL][TR] Mask TextSpotter V3：用于鲁棒场景文本定位的分割提议网络 论文 代码
[2019-PAMI][TR] ASTER：一种带有灵活校正机制的注意力场景文本识别器 论文 代码
[2019-AAAI][TR] 从二维视角进行场景文本识别 论文
[2019-PAMI][STL] 水平包围盒上的滑动顶点用于多方向目标检测 论文 代码
[2019-ICCV][TR] 用于场景文本识别的对称约束校正网络 论文
[2018-arxiv][STL] TextField：为不规则场景文本检测学习深度方向场 论文 代码
[2018-ECCV][TR][STL] Mask TextSpotter：一种端到端可训练的神经网络，用于检测任意形状的文本 论文
[2018-ICIP][STL] 用于场景文本检测的特征融合网络 论文
[2018-CVPR][STL] 基于角点定位和区域分割的多方向场景文本检测 论文
[2018-CVPR][STL] 用于定向场景文本检测的旋转敏感回归 论文
[2018-TIP][STL] TextBoxes++：一种单次通过的定向场景文本检测器 论文 代码
[2017-AAAI][STL] TextBoxes：一种基于单个深度神经网络的快速文本检测器 论文 代码
[2017-CVPR][STL] 通过连接片段检测自然图像中的定向文本 论文 代码
[2016-CVPR][TR] 带自动校正的鲁棒场景文本识别 论文
[2016-arXiv][STL] 基于整体多通道预测的场景文本检测 论文
[2016-CVPR][STL] 使用全卷积网络进行多方向文本检测 论文
[2015-PAMI][TR] 一种端到端可训练的神经网络，用于基于图像的序列识别及其在场景文本识别中的应用 论文 代码 代码
[2014-CVPR][TR] Strokelets：一种用于场景文本识别的多尺度学习表示 论文

巴塞罗那自治大学

[2019-ICCV][STL][TR] 场景文本视觉问答 论文
[2018-ECCV][STL] 单次通过场景文本检索 论文
[2017-arXiv][STL] 使用全卷积网络改进场景图像中的文本提议 论文
[2016-arXiv][STL] TextProposals：一种针对野外单词定位的文本专用选择性搜索算法 论文 代码
[2015-ICDAR][STL] 用于野外文本提取的对象提议 论文 代码
[2014-PAMI][TR] 带嵌入式属性的单词定位与识别 论文 主页 代码

斯坦福大学

[2012-ICPR][TR] 基于卷积神经网络的端到端文本识别 论文 代码 SVHN数据集
[2012-博士论文][TR] 基于卷积神经网络的端到端文本识别 论文

首尔国立大学

[2017-AAAI][STL][TR] 基于神经上下文模型在线图像中文本嵌入的检测与识别 论文

梅花科技有限公司：Face++

[2020-CVPR][TR] 场景文本识别中的词汇依赖性 paper
[2020-AAAI][STL][TR] TextScanner：按顺序读取字符以实现鲁棒的场景文本识别 paper
[2017-CVPR][STL] EAST：高效准确的场景文本检测器 paper code 改进版代码

中国科学院自动化研究所

[2020-IJCV][STL][TR] 通过融合自底向上和自顶向下处理的残差双尺度场景文本定位 paper
[2019-CVPR][TR] 面向鲁棒文本图像识别的序列到序列领域适应网络 paper
[2019-ICCV][STL][TR] TextDragon：任意形状文本定位的端到端框架 paper
[2018-arxiv][TR] NRTR：用于场景文本识别的无循环序列到序列模型 paper code
[2018-arxiv][TR] SCAN：用于场景文本识别的滑动卷积注意力网络 paper code
[2018-arxiv][TR] 用于不规则文本识别的循环校准网络 paper
[2017-arxiv][TR] 基于滑动卷积字符模型的场景文本识别 paper code
[2017-arXiv][STL] 多方向场景文本检测的深度直接回归方法 paper
[2017-IAPR][STL] 基于新型超像素的字符候选提取的场景文本检测 paper

加州大学圣地亚哥分校

[2016-CVPR][TR] 具有注意力机制的递归循环网络用于野外OCR paper

加州大学圣克鲁斯分校

[2017-arXiv][STL] 用于单词级文本定位的级联分割-检测网络 paper

康奈尔大学

[2016-arXiv][STL][TR] COCO-Text：自然图像中文本检测与识别的数据集和基准 paper

宾夕法尼亚州立大学

[2017-WACV][STL] TextContourNet：一种灵活有效的框架，通过多任务级联改进场景文本检测架构 paper
[2016-博士论文][STL] 用于语义文本匹配和场景文本检测的上下文建模 paper

北京科技大学

[2021-ICCV][STL] 用于任意形状文本检测的自适应边界提案网络 paper code
[2020-CVPR][STL] 用于任意形状文本检测的深度关系推理图网络 paper
[2017-arxiv][TR] AdaDNNs：用于场景文本识别的深度神经网络自适应集成 paper
[2016-IJCAI][STL] 通过局部和全局学习进行视频中的场景文本检测 paper
[2014-PAMI][TR] 自然场景图像中的鲁棒文本检测 paper

浦项工科大学

[2016-CVPR][STL] CannyText检测器：快速且鲁棒的场景文本定位算法 paper

计算机工程学院

[2016-IJDAR][STL] TextCatcher：一种在自然场景中检测弯曲及复杂文本的方法 paper

布拉格捷克理工大学

[2018-ACCV][STL][TR] E2E-MLT——一种不受约束的多语言场景文本端到端方法 paper code
[2017-ICCV][STL][TR] Deep TextSpotter：一个可训练的场景文本定位与识别端到端框架 paper code
[2015-PAMI][STL][TR] 实时无词典场景文本定位与识别 paper
[2015-ICCV][STL] FASText：高效的无约束场景文本检测器 paper code
[2012-CVPR][STL][TR] 实时场景文本定位与识别 paper code

Google公司

[2019-ICCV][STL] 向无约束的端到端文本定位迈进 paper
[2013-ICCV][STL][TR] Photo OCR：在不可控条件下读取文本 paper

Microsoft公司

[2010-CVPR][STL] SWT：利用笔画宽度变换检测自然场景中的文本 paper code

三星中国研究院

[2019-CVPR][STL] 基于自适应文本区域表示的任意形状场景文本检测 paper
[2017-arXiv][STL] R2CNN：用于方向鲁棒场景文本检测的旋转区域CNN paper
[2017-IAPR][STL] 用于场景文本的深度残差文本检测网络 paper

Vicarious FPC公司

[2016-NIPS][TR] 生成式形状模型：在极少训练数据下实现文本识别与分割的联合方法 paper

中国科学院管理与控制复杂系统国家重点实验室

[2013-CVPR][TR] 基于部件树结构字符检测的场景文本识别 paper

斯坦福大学

[2012-ICPR][TR] 基于CNN的端到端文本识别 paper code

信息通信研究院视觉计算部

[2017-ICCV][STL] WeText：弱监督下的场景文本检测 paper

佛罗里达大学

[2017-ICCV][STL] 具有区域注意力的单阶段文本检测器 paper code

南加州大学

[2017-ICCV][STL] 通过边界学习实现最小后处理的自组织文本检测 paper

海康威视研究院

[2021-AAAI][STL][TR] MANGO：基于掩码注意力引导的一阶段场景文本检测器 paper
[2020-AAAI][STL][TR] Text Perceptron：迈向端到端任意形状文本检测 paper
[2018-CVPR][TR] AON：迈向任意方向文本识别 paper code
[2017-ICCV][TR] 聚焦注意力：迈向自然图像中的准确文本识别 paper

阿德莱德大学

[2019-AAAI][TR] 展示、注意并阅读：一种简单而强大的不规则文本识别基线 paper code
[2017-ICCV][STL][TR] 基于卷积循环神经网络的端到端文本检测 paper

纽约市立大学

[2017-CVPR][STL] 杂乱场景中无歧义的文本定位与检索 paper

香港大学

[2020-ECCV][STL][TR] AE TextSpotter：为歧义文本检测学习视觉和语言表征 paper
[2018-AAAI][TR] Char-Net：一种针对扭曲场景文本的字符感知神经网络 paper

浙江大学

[2021-TIP][STL][TR] FREE：一种快速且鲁棒的端到端视频文本检测器 paper
[2020-arxiv][TR] 精细化门控：一种简单有效的循环单元门控机制 paper
[2018-AAAI][STL] PixelLink：通过实例分割检测场景文本 paper

波茨坦大学

[2018-AAAI][STL][TR] SEE：迈向半监督端到端场景文本识别 paper code

亚利桑那州立大学

[2018-AAAI][TR] SqueezedText：一种基于二值卷积编码器-解码器网络的实时场景文本识别 paper

史蒂文斯理工学院

[2018-CVPR][STL] 基于实例变换网络的几何感知场景文本检测 paper

南洋理工大学

[2020-IJCV][STL] 基于马尔可夫聚类网络的自底向上场景文本检测 paper
[2020-AAAI][STL][TR] GTC：指导CTC训练以实现高效准确的场景文本识别 paper
[2019-ICCV][STL][TR] GA-DAN：面向场景文本检测与识别的几何感知领域适应网络 paper
[2019-CVPR][STL] ESIR：通过迭代图像校正实现端到端场景文本识别 paper
[2019-CVPR][STL] 向着鲁棒的曲线文本检测迈进：利用条件空间扩张 paperLiu_Towards_Robust_Curve_Text_Detection_With_Conditional_Spatial_Expansion_CVPR_2019_paper.html)
[2018-ECCV][STL] 真实感图像合成用于场景中文本的准确检测与识别 paper
[2018-ECCV][STL] 通过边界语义意识和自举法实现准确的场景文本检测 paper
[2018-ECCV][STL] 利用目标信息进行文本检测 paper
[2018-CVPR][STL] 学习马尔可夫聚类网络用于场景文本检测 paper

阿里巴巴集团

[2018-ICPR][STL][TR] 一种新颖的集成框架，用于同时学习文本检测与识别 paper
[2018-IJCAI][STL] IncepText：一种带有可变形PSROI池化的新Inception-Text模块，用于多方向场景文本检测 paper

中国科学院

[2020-CVPR][STL][TR] 用于视觉与场景文本联合推理的多模态图神经网络 paper
[2018-ICIP][STL] 焦点文本：一种基于焦点损失的精确文本检测方法 paper
[2018-ICIP][STL] 用于场景文本识别的密集链式注意力网络 paper

剑桥大学

[2018-ECCV][STL] 面向场景文本识别的合成监督特征学习 paper

北京大学

[2021-NIPS][TR] 向心文本：一种用于场景文本检测的高效文本实例表示方法 paper code
[2020-ICASSP][TR] 通过字符锚点池化实现场景文本识别中灵活特征提取的新视角 paper
[2020-ICASSP][STL] 只需再看一眼：迈向更紧密的任意形状文本检测 paper
[2019-WACV][STL] 基于金字塔注意力网络的Mask R-CNN用于场景文本检测 paper
[2018-ECCV][STL] TextSnake：一种用于检测任意形状文本的灵活表示方法 paper code

商汤科技研究院

[2021-WACV][STL] 用于四边形文本检测的解耦轮廓学习 paper code
[2020-ECCV][TR] RobustScanner：动态增强位置线索以实现鲁棒文本识别 paper
[2020-ECCV][TR] 野外场景文本图像超分辨率 paper
[2019-arxiv][STL] 金字塔掩码文本检测器 paper
[2019-ICCV][STL] 用于精确场景文本检测的几何归一化网络 paper
[2018-BMVC][STL] 通过引导卷积神经网络提升场景文本检测性能 paper

Naver Clova AI Research

[2020-ECCV][STL] 用于文本定位的字符区域注意力 paper
[2019-CVPR][STL][TR] 用于文本检测的字符区域感知能力 paper code

百度

[2020-arxiv][STL][TR] PP-OCR：一个实用的超轻量级OCR系统 paper
[2019-ICCV][STL][TR] 中文街景文本：基于部分监督学习的大规模中文文本阅读 paper
[2019-CVPR][STL] 多看几眼：一种精确的任意形状文本检测器 paper
[2018-arxiv][STL] 使用深度字符嵌入网络在野外检测文本 paper
[2018-ACCV][STL][TR] TextNet：一种端到端可训练网络，用于从图像中读取不规则文本 paper

阿德莱德大学

[2018-CVPR][STL][TR] 具有显式对齐和注意力机制的端到端文本定位器 paper code

南京大学

[2020-BMVC][TR] 通过自适应图像增强实现鲁棒场景文本识别 paper
[2019-ICCV][STL] 基于像素聚合网络的高效且精确的任意形状文本检测 paper code
[2019-CVPR][STL] 基于渐进尺度扩展网络的形状鲁棒文本检测 paper code

香港中文大学

[2022-AAAI][TR] 基于上下文的对比学习用于场景文本识别 paper
[2019-CVPR][STL] 学习面向场景文本检测的形状感知嵌入 paper

马龙科技

[2019-ICCV][STL][TR] 卷积字符网络 paper code

罗切斯特大学

[2019-ICCV][TR] 基于生成特征学习的大规模标签驱动字体检索 paper

Facebook AI Research

[2021-CVPR][STL][TR] TextOCR：迈向大规模的任意形状场景文本端到端推理 paper code
[2020-CVPR][STL][TR] 基于指针增强型多模态Transformer的迭代答案预测用于TextVQA paper
[2018-arxiv][STL] 利用旋转区域建议网络改进旋转文本检测 paper

马里兰大学

[2020-WACV][TR] 为有关注视序列识别调整风格与内容 paper

Penta-AI

[2020-WACV][STL] 一切在于尺度——基于自适应缩放的高效文本检测 paper

华中师范大学

[2020-ECCV][STL][TR] PlugNet：由可插拔超分辨率单元监督的退化感知场景文本识别 paper

腾讯

[2022-AAAI][TR] 理解笔画语义上下文：用于鲁棒场景文本识别的层次化对比学习 paper
[2020-arxiv][STL] PuzzleNet：通过分割上下文图学习进行场景文本检测 paper
[2020-AAAI][STL][TR] 针对算术练习批改的精确结构化文本定位 paper
[2019-arxiv][TR] 二维注意力机制不规则场景文本识别器 paper code

清华大学

[2023-IJCAI][TR] 通过显式位置增强实现鲁棒场景文本图像超分辨率 paper code
[2021-CVPR][STL] 场景文本识别中的基元表示学习 paper
[2020-ECCV][STL] 用于精确场景文本检测的序列变形方法 paper

中国科学技术大学

[2023-IJCAI][TR] Linguistic More：迈向高效准确场景文本识别的新一步 paper code
[2021-ICCV][TR] 从二到一：一种基于视觉语言建模网络的新场景文本识别器 paper
[2021-CVPR][STL] 像人类一样阅读：场景文本识别中的自主、双向和迭代语言建模 paper code
[2020-CVPR][STL] ContourNet：迈向精确任意形状场景文本检测的新一步 paper code
[2020-arxiv][TR] 基于可变形卷积的焦点增强场景文本识别 paper code
[2018-Pattern Recognition][STL] TextMountain：通过实例分割实现精确场景文本检测 paper

电子科技大学

[2020-CVPR][TR] 机器所见并非所得：用对抗性文本图像愚弄场景文本识别模型 paper

印度统计研究所

[2020-CVPR][STL][TR] STEFANN：使用字体自适应神经网络的场景文本编辑器 paper

中国科学院信息工程研究所

[2021-CVPR][STL] 用于任意形状场景文本检测的渐进轮廓回归 paper code
[2020-CVPR][TR] SEED：用于场景文本识别的语义增强编码器-解码器框架 paper
[2020-ICPR][TR] 用于场景文本识别的高斯约束注意力网络 paper
[2020-arxiv][STL] 用于领域自适应场景文本检测的自训练 paper
[2019-ICDAR][STL] 基于半监督和弱监督学习的自然场景图像中曲线文本检测 paper
[2019-BMVC][TR] 使用局部相关性的文本识别 paper

中国科学院大学

[2020-CVPR][STL][TR] 借助语义推理网络迈向精确场景文本识别 paper

亚马逊

[2020-CVPR][STL] SCATTER：选择性上下文注意力场景文本识别器 paper

Heritage Institute of Technology

[2020-ICIP][STL] 野外场景图像中尺度不变的多方向文本检测 paper

印度理工学院

[2020-arxiv][STL] NENET：用于场景文本中链接预测的边缘可学习网络 paper

西安电子科技大学

[2021-AAAI][STL][TR] PGNet：基于点聚集网络的实时任意形状文本定位 paper code
[2020-ICASSP][STL] 基于文本注意力塔的高效场景文本检测 paper
[2019-ACM-MM][STL] 基于上下文注意力多任务学习的单次通过任意形状文本检测器 paper

同济大学

[2019-AAAI][STL] 基于监督金字塔上下文网络的场景文本检测 paper code

哈尔滨工业大学

[2017-TIP][STL] 基于级联卷积神经网络的场景文本检测与分割（论文）[https://ieeexplore.ieee.org/document/7828014]

上海交通大学

[2018-ICPR][STL] 用于多方向场景文本检测的融合文本分割网络 论文

平安财产保险

[2020-arxiv][TR] 汉明OCR：一种用于场景文本识别的局部敏感哈希神经网络 论文

合肥工业大学

[2020-arxiv][TR] 快速密集残差网络：增强全局密集特征流以提升文本识别性能 论文

北京航空航天大学

[2020-arxiv][TR] 一种适用于任意形状场景文本识别的可行框架 论文 [代码](https: //github.com/zhang0jhon/AttentionOCR)

波士顿大学

[2020-arxiv][TR] 基于语义的图像文本识别深度神经网络 论文

卡内基梅隆大学

[2019-ICDAR][TR] 重新思考不规则场景文本识别 论文 代码

西北工业大学

[2019-CVPR][STL][TR] 向自然场景中的端到端文本定位迈进 论文

VinAI Research

[2021-CVPR][STL] 字典引导的场景文本识别 论文 代码

东京大学

[2021-CVPR][TR] 如果我们只使用真实数据集进行场景文本识别会怎样？迈向少标签场景文本识别 论文 代码

萨里大学

[2021-ICCV][TR] 迈向未知领域：通过从错误中提炼知识实现迭代式文本识别 论文
[2021-ICCV][TR] 联合视觉语义推理：用于文本识别的多阶段解码器 论文
[2021-CVPR][TR] MetaHTR：迈向书写者自适应的手写文本识别 论文

特克尼昂理工学院

[2021-CVPR][TR] 面向文本识别的序列到序列对比学习 论文

伊利诺伊大学厄巴纳-香槟分校

[2021-CVPR][TR] 重新思考文本分割：一个新颖的数据集和一种针对文本的精细化方法 论文 代码

国家模式识别实验室

[2021-CVPR][STL] 语义感知的视频文本检测 论文

深圳大学

[2021-CVPR][STL][TR] 基于自注意力机制的文本知识挖掘用于文本检测 论文 代码

菲律宾大学

[2021-ICDAR][TR] 用于快速高效场景文本识别的视觉Transformer 论文 '代码'

北京交通大学

[2022-IJCAI][TR] SVTR：基于单一视觉模型的场景文本识别 论文 代码

武汉大学

[2022-AAAI][TR] 视觉语义有助于在场景文本识别中更好地进行文本推理 论文 代码

Helsing AI

[2022-WACV][TR] 针对低资源手写文本识别的一次性组合数据生成 论文

普渡大学

[2023-WACV][TR] Seq-UPS：面向半监督文本识别的序列化不确定性感知伪标签选择 论文

2. 数据集

`SCUT-CTW1500` `2018`

任务：文本定位（不同风格）及识别

下载

`Total Text 数据集` `2017`

包含1,555张图像，涵盖水平、多方向和弯曲三种不同的文本方向，独一无二。

任务：文本定位（不同风格）及识别

下载

`PowerPoint 文本检测与识别数据集` `2017`

共21,384张图像，包含21,384个以上的文本实例。

任务：文本定位与识别

下载

`COCO-Text（康奈尔大学计算机视觉组）` `2016`

包含63,686张图像，173,589个文本实例，以及3种细粒度的文本属性。

任务：文本定位与识别

下载

`合成单词数据集（牛津大学VGG）` `2014`

包含900万张图像，覆盖9万个英文单词。

任务：文本识别、分割

下载

`街景房屋号码数据集（SVHN）` `2012`

真实世界中的街景数字图像，附有位置和分类标签。

任务：数字定位检测、文本识别

下载

`IIIT 5K-Words` `2012`

来自场景文本和原生数字图像的5,000张图片（2,000张用于训练，3,000张用于测试）。

每张图像是场景文本中裁剪出的一个单词图像，并配有不区分大小写的标签。

任务：文本识别

下载

`StanfordSynth（斯坦福大学人工智能小组）` `2012`

包含62个字符的小型单字符图像（0-9、a-z、A-Z）。

任务：文本识别

下载

`MSRA 文本检测500数据库（MSRA-TD500）` `2012`

包含500张自然图像（图像分辨率从1296×864到1920×1280不等）。

文本为中文、英文或中英文混合。

任务：文本检测

`街景文本（SVT）` `2010`

包含350张高分辨率图像（平均尺寸为1260×860），其中100张用于训练，250张用于测试。

仅提供单词级别的边界框，并附有不区分大小写的标签。

任务：文本定位

`KAIST 场景文本数据库` `2010`

包含3,000张室内外场景图像，图像中均含有文本。

文本类型包括韩语、英语（数字）以及混合文本（韩语+英语+数字）。

任务：文本定位、分割及识别。

`Chars74k` `2009`

包含超过74,000张自然图像，以及一组合成生成的字符图像。

小型单字符图像，涵盖62个字符（0-9、a-z、A-Z）。

任务：文本识别。

`ICDAR 基准数据集`

数据集	描述	竞赛论文
ICDAR 2017	超过63,686张图像中包含173,589个标注文本区域	`论文`
ICDAR 2015	1,000张训练图像和500张测试图像	`论文`
ICDAR 2013	229张训练图像和233张测试图像	`论文`
ICDAR 2011	229张训练图像和255张测试图像	`论文`
ICDAR 2005	1,001张训练图像和489张测试图像	`论文`
ICDAR 2003	181张训练图像和251张测试图像（单词级别和字符级别）	`论文`

3. 竞赛

ICDAR - Robust Reading 竞赛

4. 在线OCR服务

名称	描述
Tesseract OCR	API，免费
Online OCR	API，免费
Free OCR	API，免费
New OCR	API，免费
ABBYY FineReader Online	无API，收费
超级在线转换工具（中文）	API，免费
在线中文识别	API，免费

5. 博客

image-text-localization-recognition 快速上手指南

本工具集合了场景文本定位（STL）与识别（TR）的前沿开源资源，涵盖从经典算法到最新深度学习模型。以下指南基于该领域通用的深度学习环境配置及代表性项目（如 CTPN、FOTS、ABCNet 等）的部署流程整理而成。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求。推荐使用 Linux (Ubuntu 18.04/20.04) 系统以获得最佳兼容性。

系统要求

操作系统: Linux (推荐) 或 macOS (部分项目支持)，Windows 需使用 WSL2。
GPU: NVIDIA 显卡 (显存建议 ≥ 4GB)，用于加速推理和训练。
CUDA: 版本需与 PyTorch/TensorFlow 版本匹配 (通常推荐 CUDA 11.x)。

前置依赖

Python: 3.7 - 3.9 (大多数 OCR 项目在此范围兼容最好)
包管理器: pip 或 conda
基础库: git, cmake, build-essential

安装系统级依赖 (Ubuntu):

sudo apt-get update
sudo apt-get install -y git cmake build-essential libgl1-mesa-glx libglib2.0-0

2. 安装步骤

由于该 README 汇总了多个不同机构（如牛津大学、华南理工大学、复旦大学等）的独立项目，安装时需选择您具体需要的模型仓库。以下以通用的 Conda 环境搭建 及 典型项目安装 为例。

第一步：创建虚拟环境

建议使用 Conda 隔离环境，避免依赖冲突。

conda create -n ocr_env python=3.8
conda activate ocr_env

第二步：安装深度学习框架

根据您的需求选择 PyTorch 或 TensorFlow。目前大多数 SOTA 模型基于 PyTorch。

安装 PyTorch (推荐使用国内清华镜像源加速):

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# 若需纯 CPU 版本：
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

第三步：克隆并安装具体项目

从 README 列表中选择一个项目，例如华南理工大学的 ABCNet (实时场景文本检测) 或深圳先进院的 CTPN。

示例：安装 ABCNet

# 克隆代码
git clone https://github.com/Yuliang-Liu/bezier_curve_text_spotting.git
cd bezier_curve_text_spotting

# 安装项目依赖
pip install -r requirements.txt
# 如果包含 setup.py，通常还需要运行：
pip install -e .

提示: 对于复旦大学的项目 (如 FudanOCR)，部分支持中文识别的模型可能提供了专门的中文文档或镜像，请优先查看其仓库内的 README.zh-cn.md。

3. 基本使用

安装完成后，通常可以通过命令行脚本或 Python API 进行文本定位与识别。以下提供一个通用的 Python 调用示例逻辑（具体参数请参考所选项目的官方文档）。

简单推理示例

假设您已下载好预训练模型权重文件 model.pth，并准备了一张测试图片 test.jpg。

import cv2
import torch
from model import build_model  # 具体导入路径依项目而定
from utils import preprocess, postprocess

# 1. 加载模型
device = "cuda" if torch.cuda.is_available() else "cpu"
model = build_model(pretrained="model.pth")
model.to(device).eval()

# 2. 读取并预处理图像
image = cv2.imread("test.jpg")
input_tensor = preprocess(image).to(device)

# 3. 推理 (定位 + 识别)
with torch.no_grad():
    predictions = model(input_tensor)

# 4. 后处理与结果输出
boxes, texts = postprocess(predictions, image.shape)

for box, text in zip(boxes, texts):
    print(f"Detected Text: {text}, Location: {box}")
    # 可选：在原图上绘制框
    # cv2.rectangle(image, ...)

命令行快速测试 (以部分支持 CLI 的项目为例)

许多项目提供了直接的推理脚本：

python demo.py --image_path ./test.jpg --weights ./model.pth --device cuda

输出说明：

STL (定位): 返回文本区域的坐标框（矩形或多边形）。
TR (识别): 返回坐标框内对应的文本内容。

注：由于本资源列表包含数十个独立项目，具体模型的输入输出格式、数据增强策略及评估指标请务必查阅对应项目仓库的详细说明。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.1k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像