PSENet

1.2k 341 较难 1 次阅读 1个月前Apache-2.0图像

AI 解读由 AI 自动生成，仅供参考

PSENet 是一款基于 PyTorch 实现的开源文本检测工具，核心专注于解决自然场景中复杂形状文字的识别难题。在传统算法难以应对弯曲、倾斜或不规则排列文字的情况下，PSENet 通过其独创的“渐进式尺度扩展网络”技术，能够先生成文字的核心区域，再逐步向外扩展至完整轮廓。这种方法不仅有效分离了紧密相邻的文本行，还显著提升了对任意形状文本的检测鲁棒性。

该工具主要面向计算机视觉领域的研究人员、AI 开发者以及需要部署高精度 OCR 系统的工程师。它提供了完整的训练、测试与评估流程，支持在 ICDAR 2015、Total-Text 和 CTW1500 等主流基准数据集上复现论文结果，并兼容 ResNet50 等多种骨干网络。此外，PSENet 生态丰富，除了官方 PyTorch 版本外，社区还提供了 PaddlePaddle 实现及在线体验环境，并已集成至 MMOCR 工具箱中，便于用户根据实际需求灵活选择。无论是进行学术算法研究，还是开发涉及文档分析、街景文字提取的实际应用，PSENet 都是一个值得尝试的高效解决方案。

使用场景

某智慧物流团队正在开发一套自动化系统，旨在从复杂的快递面单和弯曲的货运标签中提取关键信息，以替代人工录入。

没有 PSENet 时

弯曲文本识别失败：面对货运标签上常见的弧形或扭曲文字，传统矩形检测框算法无法紧密贴合，导致大量字符被截断或遗漏。
密集文字粘连误检：在条码旁密集排列的小号字体区域，旧模型难以区分相邻字符，经常将多行文字错误地合并为一个检测块。
人工复核成本高昂：由于自动提取准确率低下（尤其在非规则场景下），团队不得不安排专人进行二次校对，严重拖慢了分拣效率。
多尺度适配困难：调整模型以适应不同尺寸的面单需要大量重复训练和参数微调，开发周期长且维护成本高。

使用 PSENet 后

精准捕捉任意形状：利用 PSENet 的渐进式尺度扩展网络，系统能完美贴合弯曲、折叠的文本轮廓，显著提升了异形标签的检出率。
有效分离密集字符：通过多尺度特征融合，PSENet 成功解决了近距离文本粘连问题，即使在小字号密集区也能清晰划分独立文本行。
全流程自动化落地：得益于在 ICDAR 2015 和 Total-Text 等数据集上验证的高鲁棒性，自动识别准确率大幅提升，基本消除了人工复核环节。
灵活部署与迭代：基于 PyTorch 的官方实现支持快速训练与推理速度测试，团队能迅速针对不同物流场景的微调需求完成模型更新。

PSENet 凭借其处理任意形状文本的卓越能力，将复杂物流单据的数字化效率提升了数倍，真正实现了端到端的智能识别闭环。

运行环境要求

操作系统

未说明

GPU

训练脚本示例中使用了 CUDA_VISIBLE_DEVICES，表明需要 NVIDIA GPU 支持
具体显存大小和 CUDA 版本未在文中明确说明

内存

未说明

依赖

notes安装依赖后需运行 ./compile.sh 编译部分组件；该工具已升级至 Python 3 环境，旧版 Python 2 代码可单独获取；支持 PaddlePaddle 版本但本仓库主要为 PyTorch 实现。

python3.6+

Pytorch 1.1.0

torchvision 0.3

mmcv 0.2.12

editdistance

Polygon3

pyclipper

opencv-python 3.4.2.17

Cython

快速开始

新闻

PSENet 已被纳入 MMOCR。
我们已将 PSENet 从 Python 2 升级到 Python 3。旧版本可在此处找到：PSENet python2 分支。
我们使用 Paddle 实现了 PSENet，访问地址为：PSENet_paddle。
PAN 的代码可以在这里找到：PAN 代码库。
另一组也使用 Paddle 实现了 PSENet，访问地址为：PaddleEdu OCR 模型仓库中的 PSENet。你也可以在以下链接中在线体验，环境已配置好：百度飞桨 AI Studio。

简介

PSENet 的官方 PyTorch 实现 [1]。

[1] W. Wang, E. Xie, X. Li, W. Hou, T. Lu, G. Yu, 和 S. Shao. 基于渐进尺度扩展网络的形状鲁棒文本检测。载于 IEEE 计算机视觉与模式识别会议论文集，第 9336–9345 页，2019 年。

安装

pip install -r requirement.txt
./compile.sh

训练

CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py ${CONFIG_FILE}

例如：

CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py config/psenet/psenet_r50_ic15_736.py

测试

python test.py ${CONFIG_FILE} ${CHECKPOINT_FILE}

例如：

python test.py config/psenet/psenet_r50_ic15_736.py checkpoints/psenet_r50_ic15_736/checkpoint.pth.tar

速度测试

python test.py ${CONFIG_FILE} ${CHECKPOINT_FILE} --report_speed

例如：

python test.py config/psenet/psenet_r50_ic15_736.py checkpoints/psenet_r50_ic15_736/checkpoint.pth.tar --report_speed

评估

简介

ICDAR 2015 (IC15)、Total-Text (TT) 和 CTW1500 (CTW) 数据集的评估脚本。

ICDAR 2015

文本检测

./eval_ic15.sh

Total-Text

文本检测

./eval_tt.sh

CTW1500

文本检测

./eval_ctw.sh

基准测试

结果

ICDAR 2015

方法	主干网络	微调	尺寸	配置文件	精度 (%)	召回率 (%)	F1 分数 (%)	模型
PSENet	ResNet50	否	较短边：736	psenet_r50_ic15_736.py	83.6	74.0	78.5	发布页面
PSENet	ResNet50	否	较短边：1024	psenet_r50_ic15_1024.py	84.4	76.3	80.2	发布页面
PSENet（论文）	ResNet50	否	较长边：2240	-	81.5	79.7	80.6	-
PSENet	ResNet50	是	较短边：736	psenet_r50_ic15_736_finetune.py	85.3	76.8	80.9	发布页面
PSENet	ResNet50	是	较短边：1024	psenet_r50_ic15_1024_finetune.py	86.2	79.4	82.7	发布页面
PSENet（论文）	ResNet50	是	较长边：2240	-	86.9	84.5	85.7	-

CTW1500

方法	主干网络	微调	配置文件	精度 (%)	召回率 (%)	F1 分数 (%)	模型
PSENet	ResNet50	否	psenet_r50_ctw.py	82.6	76.4	79.4	发布页面
PSENet（论文）	ResNet50	否	-	80.6	75.6	78	-
PSENet	ResNet50	是	psenet_r50_ctw_finetune.py	84.5	79.2	81.8	发布页面
PSENet（论文）	ResNet50	是	-	84.8	79.7	82.2	-

Total-Text

方法	主干网络	微调	配置文件	精度 (%)	召回率 (%)	F1 分数 (%)	模型
PSENet	ResNet50	否	psenet_r50_tt.py	87.3	77.9	82.3	发布页面
PSENet（论文）	ResNet50	否	-	81.8	75.1	78.3	-
PSENet	ResNet50	是	psenet_r50_tt_finetune.py	89.3	79.6	84.2	发布页面
PSENet（论文）	ResNet50	是	-	84.0	78.0	80.9	-

引用

@inproceedings{wang2019shape,
  title={Shape robust text detection with progressive scale expansion network},
  author={Wang, Wenhai and Xie, Enze and Li, Xiang and Hou, Wenbo and Lu, Tong and Yu, Gang and Shao, Shuai},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  pages={9336--9345},
  year={2019}
}

许可证

本项目由南京大学新型软件技术国家重点实验室 IMAGINE 实验室开发并维护。

本项目采用 Apache 2.0 许可证发布。

PSENet 快速上手指南

PSENet (Progressive Scale Expansion Network) 是一种用于场景文本检测的深度学习模型，特别擅长处理任意形状的文本。本指南基于官方 PyTorch 实现（Python 3 版本），帮助开发者快速完成环境配置、安装及基础运行。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux (推荐)
Python: 3.6 及以上版本
GPU: 支持 CUDA 的 NVIDIA 显卡（训练和高效推理必需）
核心依赖:
- Pytorch >= 1.1.0
- torchvision >= 0.3
- mmcv == 0.2.12
- opencv-python == 3.4.2.17
- 其他依赖：Cython, editdistance, Polygon3, pyclipper

提示：国内用户建议使用清华源或阿里源加速 pip 包的安装。

安装步骤

克隆项目代码

git clone https://github.com/whai362/PSENet.git
cd PSENet

安装 Python 依赖 建议先配置好 PyTorch 环境，然后安装 requirements.txt 中的其他依赖。

# 推荐使用国内镜像源加速安装
pip install -r requirement.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

编译自定义算子 PSENet 包含需要编译的 C++/CUDA 扩展，执行以下脚本进行编译：
```
./compile.sh
```
注：如果提示权限不足，请先执行 chmod +x compile.sh。

基本使用

1. 训练模型 (Training)

使用多卡进行训练示例（以 ICDAR2015 数据集配置为例）：

CUDA_VISIBLE_DEVICES=0,1,2,3 python train.py config/psenet/psenet_r50_ic15_736.py

CUDA_VISIBLE_DEVICES: 指定使用的 GPU 编号。
config/...: 指定配置文件路径。

2. 测试与推理 (Testing)

使用预训练权重对数据集进行测试：

python test.py config/psenet/psenet_r50_ic15_736.py checkpoints/psenet_r50_ic15_736/checkpoint.pth.tar

请将 checkpoints/... 替换为您实际下载的模型权重路径。
官方预训练模型可在项目的 Releases 页面获取。

3. 速度评估 (Speed Benchmark)

如果您想测试模型的推理速度（FPS），可添加 --report_speed 参数：

python test.py config/psenet/psenet_r50_ic15_736.py checkpoints/psenet_r50_ic15_736/checkpoint.pth.tar --report_speed

4. 数据集评估 (Evaluation)

项目提供了针对主流文本检测数据集的评估脚本：

ICDAR 2015: ./eval_ic15.sh
Total-Text: ./eval_tt.sh
CTW1500: ./eval_ctw.sh

运行前请确保已按照各数据集官网要求准备好标注文件和测试结果文件。

版本历史

checkpoint2023/04/07

常见问题

编译 adaptor.so 时遇到 'undefined symbol: _Py_ZeroStruct' 或 'Python.h: No such file or directory' 错误怎么办？

编译时出现 'RuntimeError: Cannot compile pse' 或打印 'rm -rf' 错误如何解决？

训练模型测试时，检测框位置比实际位置偏上（有偏移）是什么原因？

论文中提到的数据增强（Data Augmentation）具体是如何裁剪图片的？裁剪掉文本会有影响吗？

训练过程中前五层（Kernel）的效果不如最后一层，且 IOU_k 卡在 0.8 左右不上升，是代码问题吗？

为什么测试时需要将图片 Resize 到非常大（如 2000 多像素），而训练时并没有这么大？

训练时发现大量裁剪样本不包含任何有效文本实例（pos_num=0），这是正常的吗？

项目目前支持 Python 3 吗？之前的代码似乎只支持 Python 2。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|2天前

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|2天前

图像数据工具视频

使用场景

没有 PSENet 时

使用 PSENet 后

运行环境要求

快速开始

新闻

简介

推荐环境

安装

训练

测试

速度测试

评估

简介

ICDAR 2015

Total-Text

CTW1500

基准测试

结果

引用

许可证

PSENet 快速上手指南

环境准备

安装步骤

基本使用

1. 训练模型 (Training)

2. 测试与推理 (Testing)

3. 速度评估 (Speed Benchmark)

4. 数据集评估 (Evaluation)

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

ComfyUI

LLMs-from-scratch

Deep-Live-Cam

ML-For-Beginners