crnn

2.1k 550 较难 1 次阅读昨天MIT开发框架图像

AI 解读由 AI 自动生成，仅供参考

crnn 是一款专为图像序列识别设计的开源深度学习模型，核心应用场景包括场景文字识别和光学字符识别（OCR）。它巧妙地将卷积神经网络（CNN）、循环神经网络（RNN）与 CTC 损失函数相结合，能够直接从包含文本的图像中识别出连续的字符序列，无需对单个字符进行繁琐的分割预处理。

这一架构有效解决了传统 OCR 方法在处理弯曲、模糊或背景复杂文字时准确率低的难题，实现了端到端的训练与推理。其独特的技术亮点在于利用 CNN 提取图像特征，通过 RNN 捕捉序列上下文依赖，并借助 CTC 算法自动对齐预测结果与真实标签，大幅提升了识别的鲁棒性。

crnn 主要面向 AI 研究人员、计算机视觉开发者以及需要构建自定义文字识别系统的工程师。虽然项目提供了基于 Torch 和 PyTorch 的实现及 Docker 部署方案，但使用者仍需具备一定的深度学习框架操作能力和环境配置经验。对于希望深入研究序列识别算法或在特定领域（如车牌识别、文档数字化）开发专用识别模型的团队来说，crnn 是一个经典且极具参考价值的基准工具。

使用场景

某物流科技公司需要自动化处理每日数万张手写快递面单，以提取收件人姓名和地址信息。

没有 crnn 时

传统 OCR 引擎难以应对面单上倾斜、模糊或连笔的手写字体，识别准确率不足 60%。
必须依赖人工对图像进行复杂的预处理（如二值化、纠偏），且需针对每个字段单独切割字符，开发维护成本极高。
遇到未预设字典的生僻字或新地名时，系统直接报错或输出乱码，无法实现端到端的序列识别。
整体流程耗时冗长，大量面单积压，导致包裹分拣效率严重滞后于业务增长速度。

使用 crnn 后

利用 CNN 提取特征结合 RNN 处理序列上下文的能力，crnn 直接对整行图像进行识别，手写体准确率提升至 92% 以上。
无需繁琐的字符分割步骤，crnn 原生支持变长输入，自动适应不同长度的姓名和地址行，大幅简化了数据流水线。
借助 CTC 损失函数，crnn 实现了无词典（lexicon-free）识别，能够灵活输出训练集中未见过的生僻字或新组合词汇。
部署预训练模型后，单张面单处理时间从秒级降低至毫秒级，成功支撑起全天候的自动化分拣作业。

crnn 通过将卷积与循环神经网络深度融合，彻底解决了复杂场景下图像序列识别的痛点，让非结构化图片数据转化为高效可用的文本信息。

运行环境要求

操作系统

Linux (Ubuntu 14.04 x64)

GPU

必需 NVIDIA GPU (支持 CUDA)

内存

未说明

依赖

notes该项目主要基于 Lua (Torch7) 开发，非纯 Python 项目。仅在 Ubuntu 14.04 (x64) 上经过测试。构建项目需编译 C++ 代码生成 libcrnn.so。提供 Docker 镜像以简化环境配置（需安装 nvidia-docker）。训练数据需转换为 LMDB 格式（可使用提供的 Python 脚本，需安装 lmdb 包）。另有社区维护的 PyTorch 版本可供参考。

python未说明 (主要基于 Lua/Torch7，创建数据集脚本需 Python)

Torch7

fblualib

LMDB (liblmdb-dev)

CUDA

快速开始

卷积循环神经网络

本软件实现了卷积循环神经网络（CRNN），它结合了卷积神经网络、循环神经网络和CTC损失函数，适用于基于图像的序列识别任务，例如场景文本识别和光学字符识别。有关详细信息，请参阅我们的论文：http://arxiv.org/abs/1507.05717。

更新 2017年3月14日 项目中已添加Docker文件。感谢@varun-suresh。

更新 2017年5月1日 @meijieru 已将其移植到PyTorch，详见此处。

更新 2017年6月19日 对于端到端的文本检测与识别系统，请查看@AKSHAYUBHAT实现的CTPN+CRNN。

构建

该软件仅在Ubuntu 14.04 (x64)上进行了测试。需要支持CUDA的GPU。要构建该项目，首先安装最新版本的Torch7、fblualib和LMDB。请分别按照它们的安装说明进行操作。在Ubuntu上，可以通过apt-get install liblmdb-dev来安装lmdb。

要构建项目，进入src/目录并执行sh build_cpp.sh以编译C++代码。如果成功，将在src/目录下生成名为libcrnn.so的文件。

运行示例

示例程序位于src/demo.lua。在运行示例之前，请从这里下载预训练模型。将下载的模型文件crnn_demo_model.t7放入model/crnn_demo/目录中。然后通过以下命令启动示例：

th demo.lua

该示例会读取一张示例图像并识别其中的文本内容。

示例图像： Example Image

预期输出：

Loading model...
Model loaded from ../model/crnn_demo/model.t7
Recognized text: available (raw: a-----v--a-i-l-a-bb-l-e---)

另一个示例： Example Image2

Recognized text: shakeshack (raw: ss-h-a--k-e-ssh--aa-c--k--)

使用预训练模型

预训练模型可用于无词典和有词典的识别任务。有关详细信息，请参考utilities.lua文件中的recognizeImageLexiconFree和recognizeImageWithLexicion函数。

训练新模型

请按照以下步骤在您自己的数据集上训练新模型。

创建一个新的LMDB数据集。工具脚本tool/create_dataset.py中提供了一个Python程序。请参考createDataset函数了解详情（需先运行pip install lmdb）。
在model/目录下创建一个新的模型目录，例如model/foo_model。然后在该目录下创建配置文件config.lua。您可以复制model/crnn_demo/config.lua并进行修改。
进入src/目录，执行th main_train.lua ../models/foo_model/。模型快照和日志文件将保存到该模型目录中。

使用Docker构建

安装Docker。请按照此处的说明进行操作。
安装nvidia-docker - 请按照此处的说明进行操作。
克隆本仓库，在该目录下运行docker build -t crnn_docker .
镜像构建完成后，可以使用nvidia-docker run -it crnn_docker来运行容器。

引用

如果您在研究论文中使用了本代码或模型，请引用以下论文：

@article{ShiBY17,
  author    = {Baoguang Shi and
               Xiang Bai and
               Cong Yao},
  title     = {An End-to-End Trainable Neural Network for Image-Based Sequence Recognition
               and Its Application to Scene Text Recognition},
  journal   = {{IEEE} Trans. Pattern Anal. Mach. Intell.},
  volume    = {39},
  number    = {11},
  pages     = {2298--2304},
  year      = {2017}
}

致谢

作者谨向Torch7、TH++、lmdb-lua-ffi和char-rnn的开发者表示感谢。

如果您遇到任何问题，请随时告知我。

CRNN 快速上手指南

CRNN（Convolutional Recurrent Neural Network）是一个结合 CNN、RNN 和 CTC 损失函数的深度学习模型，专为基于图像的序列识别任务设计，广泛应用于场景文本识别和 OCR 领域。

环境准备

本项目主要基于 Torch7 框架开发，对运行环境有特定要求：

操作系统：仅在 Ubuntu 14.04 (x64) 上经过测试（其他 Linux 发行版可能需自行调整）。
硬件要求：必须配备支持 CUDA 的 NVIDIA GPU。
核心依赖：
- Torch7 (最新版)
- fblualib
- LMDB (Ubuntu 下可通过 apt-get install liblmdb-dev 安装)
- Python (用于数据集制作，需安装 lmdb 包：pip install lmdb)

注意：官方也提供了 PyTorch 版本的移植实现（crnn.pytorch），如果您更熟悉 PyTorch 生态，建议优先使用该版本。本指南针对原始 Torch7 版本。

安装步骤

1. 安装基础依赖

请参照各官方文档安装 Torch7 和 fblualib。安装 LMDB 开发库：

sudo apt-get install liblmdb-dev

2. 编译 C++ 代码

进入源码目录并执行构建脚本：

cd src/
sh build_cpp.sh

构建成功后，src/ 目录下将生成 libcrnn.so 文件。

3. (可选) 使用 Docker 部署

如果您希望避免复杂的环境配置，可以使用 Docker：

# 构建镜像
docker build -t crnn_docker .

# 运行容器 (需预先安装 nvidia-docker)
nvidia-docker run -it crnn_docker

基本使用

以下演示如何加载预训练模型进行简单的文本识别。

1. 下载预训练模型

从以下地址下载演示模型 crnn_demo_model.t7：下载链接

2. 放置模型文件

将下载的模型文件放入指定目录（若目录不存在请自行创建）：

mkdir -p model/crnn_demo
mv crnn_demo_model.t7 model/crnn_demo/
# 注意：根据 demo 代码逻辑，可能需要将文件重命名为 model.t7 或修改 demo.lua 中的路径
# 此处假设按照 README 默认逻辑，文件名为 crnn_demo_model.t7 且代码已适配，
# 若运行报错找不到文件，请检查 demo.lua 中的加载路径。

注：根据原文描述，demo 期望加载 ../model/crnn_demo/model.t7，建议将下载的文件重命名：

mv model/crnn_demo/crnn_demo_model.t7 model/crnn_demo/model.t7

3. 运行演示

在 src/ 目录下运行演示程序：

th demo.lua

预期输出示例：

Loading model...
Model loaded from ../model/crnn_demo/model.t7
Recognized text: available (raw: a-----v--a-i-l-a-bb-l-e---)

4. 训练新模型（简要流程）

若需使用自己的数据集训练：

制作数据集：使用 tool/create_dataset.py 创建 LMDB 格式数据集。
配置模型：在 model/ 下新建目录（如 foo_model），复制并修改 config.lua。

开始训练：

cd src/
th main_train.lua ../models/foo_model/

常见问题

如何让模型识别行级文本（包含空格）而不是仅识别单词？

模型训练损失很低但测试准确率低且不再提升（过拟合），该如何解决？

编译 C++ 部分时出现类型转换错误（conversion to non-scalar type requested），如何修复？

编译时遇到 'THC_LIBRARY not found' CMake 错误，如何解决？

在 Python 3 环境下运行 create_dataset.py 创建数据集时遇到编码错误和 API 弃用问题，如何修复？

微调模型时需要多少样本量？原始模型每个样本包含多少示例？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 155.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|5天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架