captcha_trainer

3.2k 826 中等 1 次阅读 2天前Apache-2.0图像开发框架

AI 解读由 AI 自动生成，仅供参考

captcha_trainer 是一款基于深度学习的开源工具，专门用于训练图像验证码识别模型。它能有效应对字符粘连、重叠、透视变形、模糊及噪声干扰等复杂场景，不仅适用于各类验证码破解，也能拓展至其他 OCR 文字识别任务。

该工具核心解决了传统验证码识别中模型构建门槛高、定制开发耗时长的痛点。通过可视化配置界面，用户无需修改任何代码，即可根据样本特征自动生成模型配置文件，实现从数据准备到模型训练的全流程管理。其独特的“项目化”管理模式支持多任务并行与热插拔部署，极大提升了复用效率。

在技术架构上，captcha_trainer 灵活组合了 CNN（如 ResNet、DenseNet）提取图像特征，配合 RNN（如 GRU、LSTM）序列预测，并采用 CTC 或交叉熵损失函数进行转录输出。它支持不定长输入、智能参数推荐以及丰富的数据增广策略，确保模型在多样化数据下的鲁棒性。

无论是希望快速落地生产环境的中小企业、需要灵活调整网络结构的算法工程师，还是零编程基础但急需解决方案的个人用户，都能通过其提供的 Windows GPU 编译版轻松上手。只需简单配置，即可将复杂的深度学习技术转化为可用的识别服务，显著降低技术应用成本。

使用场景

某电商风控团队需紧急上线一套新注册页面的验证码识别系统，以拦截机器批量注册攻击，但面临的验证码包含字符粘连、透视变形及高强度噪声干扰。

没有 captcha_trainer 时

开发门槛极高：算法工程师需从零搭建 CNN+RNN+CTC 复杂网络架构，手动调试 TensorFlow 代码，耗时数周才能跑出基线模型。
数据预处理繁琐：面对尺寸不一的样本，需编写大量脚本进行人工裁剪和归一化，一旦新增样本类型，整个数据集需重新打包。
泛化能力不足：传统 OCR 库难以处理严重的字符重叠和模糊噪声，识别率低下，导致大量误拦正常用户或漏放黑产脚本。
部署维护困难：模型训练与生产环境割裂，每次迭代需重新编译部署，无法实现多模型热切换，运维成本高昂。

使用 captcha_trainer 后

零代码快速建模：通过可视化界面选择"ResNet50+GRU"模板，智能推荐字符集与参数，无需修改一行代码即可生成针对粘连噪声优化的模型配置。
增量训练高效便捷：支持直接加载新的 TFRecords 样本文件进行增量训练，自动处理不定宽图像缩放，大幅缩短数据准备周期。
抗干扰能力卓越：内置二值化、模糊、旋转等数据增广策略，结合深度网络特征提取，轻松秒杀透视变形与高强度噪声场景，识别准确率显著提升。
生产级无缝衔接：生成的配置文件可直接用于部署服务，支持多模型并发与热拔插，业务层可灵活拓展算术运算等逻辑，实现从训练到上线的闭环。

captcha_trainer 将原本需要资深算法团队数周的工作压缩至小时级，让中小企业也能以极低门槛拥有工业级的验证码识别能力。

运行环境要求

操作系统

Windows
Linux

GPU

训练可选：需要 NVIDIA GPU
官方测试组合为 CUDA 11.4.1 + cuDNN 8.2 + TensorFlow 2.8-DEV (tf-nightly-gpu)
提供无需安装环境的 Windows GPU 编译版

内存

未说明（配置文件中提及显存占用率推荐设为 0.6-0.8）

依赖

notes1. 项目基于 TensorFlow 1.14 开发，但推荐使用 tf-nightly-gpu 2.8 版本。2. 提供 Windows 平台的 GPU 编译版，无需手动安装环境即可运行。3. 建议使用虚拟环境 (virtualenv) 或 conda 管理依赖。4. 数据需打包为 TFRecords 格式方可进行训练。5. 支持多种网络结构组合（如 CNN5+GRU, ResNet50+CTC 等）。

python3.8

tensorflow-gpu==2.8.0.dev20211021 (或 tensorflow)

virtualenv

快速开始

1. 项目介绍

基于深度学习的图片验证码解决方案——该项目能够秒杀字符粘连重叠、透视变形、模糊、噪声等各种干扰情况，足以解决市面上绝大多数复杂的验证码场景，目前也被用于其他OCR场景。

该项目基于 TensorFlow 1.14 开发，旨在帮助中小企业或个人用户快速构建图像分类模型并投入生产环境使用，降低技术应用门槛。

面向算法工程师：提供了可拓展的结构支持，允许通过源码灵活方便的添加自己设计的网络结构及其他组件。

面向零基础用户：有需求？但是不会编程？时间就是金钱，学习成本太高我想白嫖。它简直为你而生！

面向需求频繁者：同样的类型的需求一天10个，它的复用程度让您无需一份代码一个需求，一套服务全部搞定。

编译版下载地址： https://github.com/kerlomz/captcha_trainer/releases/

其使用的网络结构主要包含三部分，从下至上依次为：

> 输入OP: **input** ，输出OP: **dense_decoded**

卷积层：从输入图像中提取特征序列;

循环层，预测从卷积层获取的特征序列的标签（真实值）分布;

转录层，把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果;

1. 可视化模型配置

为每个图像分类任务创建一个独立的项目，每个项目拥有完全独立的管理空间，方便多任务切换和管理。全程无需修改一行代码，根据模板生成模型配置，生成的配置文件可直接用模型部署服务。

本项目对应的部署服务支持同时部署多套模型，模型支持热拔插，版本迭代等，业务层可拓展颜色提取，算术运算等常见的验证码解决方案。详情可以移步：https://github.com/kerlomz/captcha_platform

2. 特性

目前支持Windows平台的GPU编译版，无需安装环境，0基础建模。
项目化管理，适合容易被任务优先级安排的程序员们，同一份代码，不同的项目，随心切换，互不干扰。
新增样本集无需重新打包，可直接增量添加新的样本集，每个训练任务支持加载多个TFRecords文件。
解除循环层依赖的必须性，支持CNN5/ResNet50/DenseNet+CrossEntropy的怀旧组合模式。
提供智能建议性配置功能，选择样本源路径时可根据样本特性自动推荐字符集，设置尺寸，标签数等。
支持不定宽[-1, HEIGHT]的网络输入，在样本尺寸多样的场景下自动按比例缩放。
支持训练中的数据增广，如：指定范围的二值化/模糊/旋转/椒盐噪声等。

3. 模板参数介绍

# - requirement.txt  -  GPU: tensorflow-gpu, CPU: tensorflow
# - If you use the GPU version, you need to install some additional applications.
# MemoryUsage: 显存占用率，推荐0.6-0.8之间
System:
  MemoryUsage: {MemoryUsage}
  Version: 2

# CNNNetwork: [CNN5, ResNet50, DenseNet] 
# RecurrentNetwork: [CuDNNBiLSTM, CuDNNLSTM, CuDNNGRU, BiLSTM, LSTM, GRU, BiGRU, NoRecurrent]
# - 推荐配置为 不定长问题：CNN5+GRU ，定长：CNN5/DenseNet/ResNet50
# UnitsNum: RNN层的单元数 [16, 64, 128, 256, 512] 
# - 神经网络在隐层中使用大量神经元，就是做升维，将纠缠在一起的特征或概念分开。
# Optimizer: 优化器算法 [AdaBound, Adam, Momentum]
# OutputLayer: [LossFunction, Decoder]
# - LossFunction: 损失函数 [CTC, CrossEntropy] 
# - Decoder: 解码器 [CTC, CrossEntropy] 
NeuralNet:
  CNNNetwork: {CNNNetwork}
  RecurrentNetwork: {RecurrentNetwork}
  UnitsNum: {UnitsNum}
  Optimizer: {Optimizer}
  OutputLayer:
    LossFunction: {LossFunction}
    Decoder: {Decoder}


# ModelName: 模型名/项目名，同时也对应编译后的pb模型文件名
# ModelField: 模型处理的数据类型，目前只支持图像 [Image, Text]
# ModelScene: 模型处理的场景类型，目前只支持分类场景 [Classification]
# - 目前只支持 “图像分类” 这一种场景.
Model:
  ModelName: {ModelName}
  ModelField: {ModelField}
  ModelScene: {ModelScene}

# FieldParam 分为 Image, Text 两种，不同数据类型时可配置的参数不同，目前只提供 Image 一种。
# ModelField 为 Image 时:
# - Category: 提供默认的内置解决方案:
# -- [ALPHANUMERIC（含大小写英文数字）, ALPHANUMERIC_LOWER（小写英文数字）, 
# -- ALPHANUMERIC_UPPER（大写英文数字）,NUMERIC（数字）, ALPHABET_LOWER（小写字母）, 
# -- ALPHABET_UPPER（大写字母）, ALPHABET（大小写字母）, 
# -- ALPHANUMERIC_CHS_3500_LOWER（小写字母数字混合中文常用3500）]
# - 或者可以自定义指定分类集如下（中文亦可）:
# -- ['Cat', 'Lion', 'Tiger', 'Fish', 'BigCat']
# - Resize: 重置尺寸，对应网络的输入： [ImageWidth, ImageHeight/-1, ImageChannel]
# - ImageChannel: 图像通道，3为原图，1为灰度 [1, 3]
# - 为了配合部署服务根据图片尺寸自动选择对应的模型，由此诞生以下参数（ImageWidth，ImageHeight）:
# -- ImageWidth: 图片宽度.
# -- ImageHeight: 图片高度.
# - MaxLabelNum: 该参数在使用CTC损失函数时将被忽略，仅用于使用交叉熵作为损失函数/标签数固定时使用
# ModelField 为 Text 时:
# - 该类型暂时不支持
FieldParam:
  Category: {Category}
  Resize: {Resize}
  ImageChannel: {ImageChannel}
  ImageWidth: {ImageWidth}
  ImageHeight: {ImageHeight}
  MaxLabelNum: {MaxLabelNum}
  OutputSplit: {OutputSplit}


# 该配置应用于数据源的标签获取.
# LabelFrom: 标签来源，目前只支持 从文件名提取 [FileName, XML, LMDB]
# ExtractRegex: 正则提取规则，对应于 从文件名提取 方案 FileName:
# - 默认匹配形如 apple_20181010121212.jpg 的文件.
# - 默认正则为 .*?(?=_.*\.)
# LabelSplit: 该规则仅用于 从文件名提取 方案:
# - 文件名中的分割符形如: cat&big cat&lion_20181010121212.png，那么分隔符为 &
# - The Default is null.
Label:
  LabelFrom: {LabelFrom}
  ExtractRegex: {ExtractRegex}
  LabelSplit: {LabelSplit}


# DatasetPath: [Training/Validation], 打包为TFRecords格式的训练集/验证集的本地绝对路径。
# SourcePath:  [Training/Validation], 未打包的训练集/验证集源文件夹的本地绝对路径。
# ValidationSetNum: 验证集数目，仅当未配置验证集源文件夹时用于系统随机抽样用作验证集使用。
# - 该选项用于懒人训练模式，当样本极度不均衡时建议手动设定合理的验证集。
# SavedSteps: 当 Session.run() 被执行一次为一步（1.x版本），保存训练过程的步数，默认为100。
# ValidationSteps: 用于计算准确率，验证模型的步数，默认为每500步验证一次。
# EndAcc: 结束训练的条件之准确率 [EndAcc*100]% 到达该条件时结束任务并编译模型。
# EndCost: 结束训练的条件之Cost值 EndCost 到达该条件时结束任务并编译模型。
# EndEpochs: 结束训练的条件之样本训练轮数 Epoch 到达该条件时结束任务并编译模型。
# BatchSize: 批次大小，每一步用于训练的样本数量，不宜过大或过小，建议64。
# ValidationBatchSize: 验证集批次大小，每个验证准确率步时，用于验证的样本数量。
# LearningRate: 学习率 [0.1, 0.01, 0.001, 0.0001] fine-tuning 时选用较小的学习率。
Trains:
  DatasetPath:
    Training: {DatasetTrainsPath}
    Validation: {DatasetValidationPath}
  SourcePath:
    Training: {SourceTrainPath}
    Validation: {SourceValidationPath}
  ValidationSetNum: {ValidationSetNum}
  SavedSteps: {SavedSteps}
  ValidationSteps: {ValidationSteps}
  EndAcc: {EndAcc}
  EndCost: {EndCost}
  EndEpochs: {EndEpochs}
  BatchSize: {BatchSize}
  ValidationBatchSize: {ValidationBatchSize}
  LearningRate: {LearningRate}

# 以下为数据增广的配置
# Binaryzation: 该参数为 list 类型，包含二值化的上界和下界，值为 int 类型，参数为 -1 表示未启用。
# MedianBlur: 该参数为 int 类型，参数为 -1 表示未启用。
# GaussianBlur: 该参数为 int 类型，参数为 -1 表示未启用。
# EqualizeHist: 该参数为 bool 类型。
# Laplace: 该参数为 bool 类型。
# WarpPerspective: 该参数为 bool 类型。
# Rotate: 该参数为大于 0 的 int 类型，参数为 -1 表示未启用。
# PepperNoise: 该参数为小于 1 的 float 类型，参数为 -1 表示未启用。
# Brightness: 该参数为 bool 类型。
# Saturation: 该参数为 bool 类型。
# Hue: 该参数为 bool 类型。
# Gamma: 该参数为 bool 类型。
# ChannelSwap: 该参数为 bool 类型。
# RandomBlank: 该参数为大于 0 的 int 类型，参数为 -1 表示未启用。
# RandomTransition: 该参数为大于 0 的 int 类型，参数为 -1 表示未启用。
DataAugmentation:
  Binaryzation: {DA_Binaryzation}
  MedianBlur: {DA_MedianBlur}
  GaussianBlur: {DA_GaussianBlur}
  EqualizeHist: {DA_EqualizeHist}
  Laplace: {DA_Laplace}
  WarpPerspective: {DA_WarpPerspective}
  Rotate: {DA_Rotate}
  PepperNoise: {DA_PepperNoise}
  Brightness: {DA_Brightness}
  Saturation: {DA_Saturation}
  Hue: {DA_Hue}
  Gamma: {DA_Gamma}
  ChannelSwap: {DA_ChannelSwap}
  RandomBlank: {DA_RandomBlank}
  RandomTransition: {DA_RandomTransition}
  
# 以下为预处理的配置 
# Binaryzation: 该参数为 list 类型，包含二值化的上界和下界，值为 int 类型，参数为 -1 表示未启用。
# ReplaceTransparent: 使用白色替换透明背景
# HorizontalStitching: 水平拆分拼接，适用于上下分层
# ConcatFrames: 根据帧索引列表水平合并帧
# BlendFrames: 根据帧索引列表融合帧内容
Pretreatment:
  Binaryzation: {Pre_Binaryzation}
  ReplaceTransparent: {Pre_ReplaceTransparent}
  HorizontalStitching: {Pre_HorizontalStitching}
  ConcatFrames: {Pre_ConcatFrames}
  BlendFrames: {Pre_BlendFrames}

2. 基本操作流程介绍

2.1 GPU环境

注意：如果你使用笔者编译好的版本，只需更新显卡驱动至最新，可以无视2.1、2.2的环境安装步骤。

如果你准备使用GPU训练，请先更新显卡驱动并安装CUDA和cuDNN，可以了解下官方测试过的编译版本对应: https://www.tensorflow.org/install/install_sources#tested_source_configurations

Github上可以下载到第三方编译好的TensorFlow的WHL安装包：

Windows : https://github.com/fo40225/tensorflow-windows-wheel
Linux: https://github.com/mind/wheels

CUDA下载地址：https://developer.nvidia.com/cuda-downloads

cuDNN下载地址：https://developer.nvidia.com/rdp/form/cudnn-download-survey （需要注册账号）

笔者使用的版本为：CUDA11.4.1 + cuDNN8.2 + TensorFlow 2.8-DEV，此种组合可使用pip安装无需下载第三方编译的whl安装包。

pip install tf-nightly-gpu==2.8.0.dev20211021

2.2 Python环境

安装Python 3.8 环境（包含pip），可用conda替换。
安装虚拟环境 virtualenv pip3 install virtualenv

为该项目创建独立的虚拟环境:

virtualenv -p /usr/bin/python3 venv # venv is the name of the virtual environment.
cd venv/ # venv is the name of the virtual environment.
source bin/activate # to activate the current虚拟环境.
cd captcha_trainer # captcha_trainer is the project path.

安装本项目的依赖列表：pip install -r requirements.txt
建议开发者们使用 PyCharm 作为Python IDE

2.3 采集标注样本

笔者这个项目的初衷其实是爬虫遭遇各种验证码，验证码无处不在且需求堆积如山，由此，懒诞生了创造力。

图像分类问题，以验证码为例，用深度学习来解决无非就是训练标注样本。那么样本从何而来？这就是建模流程的第一步。

采集样本： 一般可以通过抓包得到对方网站的接口请求及参数，通过构造请求采集样本。

标注样本： 标注渠道是有一定讲究的，一般采用多个渠道组合，因为现在大多是机器识别，导致保存过滤下来的正确样本可能存在特征缺失，举个例子，这个渠道把所有的b都识别成a，为了避免这种情况建议通过多个渠道组合采集样本，以此保证图片特征的覆盖率。

验证样本：如何提交验证？比如如何从登录页面中获取样本，其实大多时候后端设计都会为了避免过多恶意的数据库访问而先验证验证码的准确性，例如可以提交明显错误的信息，输入不存在的用户名，将对方网站返回的“用户名不存在”作为验证码正确性的判断条件，当验证码错误时如返回“验证码错误”，则验证样本的流程便成立了。

2.2 打包样本

本框架喂数据只接收从TFRecords中读取，也就是样本需要先打包成TFRecords文件格式，样本打包的源目录路径关联的参数为：

SourcePath:
    Training: {SourceTrainPath}
    Validation: {SourceValidationPath}

打包完的TFRecords文件的路径关联的参数为：

DatasetPath:
  Training: {DatasetTrainsPath}
  Validation: {DatasetValidationPath}

项目配置好之后 ，可通过两种方法进行打包

make_dataset.py 打包

运行python make_dataset.py 项目名 方式打包，则需要加启动参数指定训练项目，请确保 projects/项目名路径下存放各个项目的 model.yaml 配置文件。
app.py训练：

在界面中选择欲使用的网络结构，输入项目名并[回车]或者点击空白处 创建一个新项目 或者 选择一个已有的项目 ，通过 [Browse] 选择训练集路径 后，点击 [Make Dataset] 开始打包 ，中途若终止进程文件将损坏，需要手动至项目路径中删除其未打包完成的样本集，[Validation Path] 可以不选，如若不选，系统将根据 [Validation Set Num] 配置的参数自动分配该数量的验证集，

注意：手动配置训练集的时候请保证验证集的随机性以及特征覆盖率，如若不明笔者所语，请勿手动配置

2.3 设置训练配置

使用app.py运行的界面化配置生成器在选择样本源的时候会自动进行基本的配置如：[Resize]，[Size]，[Label Num] 等。至于 [Label Num] 只在使用CrossEntropy为损失函数时有效。

Resize的使用

因为网络为多标签而设计，卷积层的输出 outputs 经过了以下变换：

Reshape([label_num, int(outputs_shape[1] / label_num)])

为了保证运算 int(outputs_shape[1] / label_num) 能够取得正整数，也意味着他们之间存在某种关系，对于CNN5+Cross Entropy的网络结构，Conv2D层的步长皆为1，那么需要保证以下关系成立：

$$ mod(\frac{ 输入宽度×输入高度×输出层参数}{池化步长^{池化层数}×标签数})= 0 $$

所以有时候需要Resize网络输入的Shape

网络	池化步长^池化层数	输出层参数
CNN5	16	64
CNNX	8	64
ResNet50	16	1024
DenseNet	32	2048

例如使用CNN5+CrossEntropy组合，则输入宽度与输入高度需要满足： $$ mod(\frac{ 输入宽度×输入高度×64}{16×标签数})= 0 $$ 同理如果CNN5+RNN+CTC，卷积层之后的输出经过以下变换：

Reshape([-1, outputs_shape[2] * outputs_shape[3]])

原输出(batch_size, outputs_shape[1], outputs_shape[2], outputs_shape[3])，RNN层的输入输出要求为(batch, timesteps, num_classes)，为了接入RNN经过以上操作，那么又引出一个Time Step的概念，所以timesteps的值也是 outputs_shape[1]，而CTC Loss要求的输入为 [batch_size, frames, num_labels]，若是 timesteps 小于标签数则无法计算损失，也就无法找损失函数中找到极小值，梯度何以下降。timesteps 最合理的值一般是标签数的2倍，为了达到目的，也可以通过Resize网络输入的Shape解决，一般情况timesteps直接关联于图片宽度。

ExtractRegex 参数：

正则匹配，请各位采集样本的时候，尽量和我给的示例保持一致吧，正则问题请谷歌，如果是为1111.jpg这种命名的话，这里提供了一个批量转换的代码：

import re
import os
import hashlib

# 训练集路径
root = r"D:\TrainSet\***"
all_files = os.listdir(root)

for file in all_files:
    old_path = os.path.join(root, file)
    
    # 已被修改过忽略
    if len(file.split(".")[0]) > 32:
        continue
    
    # 采用标注_文件md5码.图片后缀 进行命名
    with open(old_path, "rb") as f:
        _id = hashlib.md5(f.read()).hexdigest()
    new_path = os.path.join(root, file.replace(".", "_{}.".format(_id)))
    
    # 重复标签的时候会出现形如：abcd (1).jpg 这种形式的文件名
    new_path = re.sub(" \(\d+\)", "", new_path)
    print(new_path)
    os.rename(old_path, new_path)

2.4 开始训练

trains.py训练：

如果单独调用 python trains.py 项目名 方式训练，则需要加启动参数指定训练项目，请确保 projects/项目名路径下存放各个项目的 model.yaml 配置文件。
app.py训练：

在界面中配置好参数后，点击 [Start Training] 开始训练，中途若需终止训练可点击 [Stop] 停止，若是未达到结束条件而终止任务，可以手动点击 [Compile] 编译。

3. 项目结构

|-- fc										// 全连接层
|   |-- cnn.py									// 卷积层的全连接
|   `-- rnn.py									// 循环层的全连接
|-- logs									// Tensor Board 日志
|-- network									// 神经网络实现
|   |   |-- CNN.py								// CNN5/CNNX
|   |   |-- DenseNet.py								// DenseNet
|   |   |-- GRU.py								// GRU/BiBRU/GRUcuDNN
|   |   |-- LSTM.py								// LSTM/BiLSTM/LSTMcuDNN
|   |   |-- ResNet.py								// ResNet50
|   |   `-- utils.py								// 各种网络 block 的实现
|-- optimizer									// 优化器
|   |   `-- AdaBound.py								// AdaBound 优化算法实现
|-- projects									// 项目存放路径
|   `-- demo									// 项目名
|       |-- dataset 								// 数据集存放
|       |-- model								// 训练过程记录存放
|       `-- out									// 模型编译输出
|           |-- graph								// 存放编译pb模型
|           `-- model								// 存放编译yaml配置
|-- resource									// 资源：图标，README 所需图片
|-- tools
|   `-- package.py								// PyInstaller编译脚本
|-- utils
|   |-- data.py									// 数据加载工具类
|   `-- sparse.py								// 稀疏矩阵处理工具类
|-- app.py									// GUI配置生成器
|-- app.spec									// PyInstaller编译配置文件
|-- category.py									// 内置类别模块
|-- config.py									// 配置实体模块
|-- constants.py								// 各种枚举类
|-- core.py									// 神经网络模块
|-- decoder.py									// 解码器
|-- encoder.py									// 编码器
|-- exception.py								// 异常模块
|-- loss.py									// 损失函数
|-- make_dataset.py								// 样本集打包
|-- model.template								// 配置模板
|-- predict_testing.py								// 预测测试
|-- pretreatment.py								// 预处理
|-- requirements.txt								// 项目依赖
|-- trains.py									// 训练模块
`-- validation.py								// 验证模块

4. 注意事项

如何使用CPU训练：

本项目默认安装TensorFlow-GPU版，建议使用GPU进行训练，如需换用CPU训练请替换 requirements.txt 文件中的tensorflow-gpu 为tensorflow，其他无需改动。
参数修改：

切记，[ModelName] 是绑定一个模型的唯一标志，如果修改了训练参数如：[Resize]，[Category]，[CNNNetwork]，[RecurrentNetwork]，[UnitsNum] 这类影响计算图的参数，需要删除model路径下的旧文件，重新训练，或者使用新的 [ModelName] 重新训练，否则默认作为断点续练。

在可视化版本中，[Neural Net] 组中的配置，除了学习率 [Learning Rate] 和图片尺寸 [Size] 设置以外，任何改动都需要先 [Reset History]

7. 附言

问题一： 有人问，验证码是什么，简单送上一幅图，验证码早已不是Tesseract能解决的时代了，为什么选择验证码作为图像分类的入门，其一因为随处可见，对于深度学习样本不可或缺，验证码的采集难度及成本低。其二，现在的验证码越来越难也越来越具备研究价值，因为它本为安全而生，各种人为的干扰甚至于机器学习对抗等等，也在不断促进图像识别的发展。

问题二： 部署识别也需要GPU吗？我的答案是，完全没必要。理想中是用GPU训练，使用CPU部署识别服务，部署如果也需要这么高的成本，那还有什么现实意义和应用场景呢，实测CNN5网络，我的i7-9700k大约1-15ms之间 (图片尺寸60x60-200x200)。

此项目以研究学习为目的，禁止用于非法用途，本项目永久开源，笔者将持续维护此项目，并逐步扩展其成为一个完善的深度学习框架。

如有需要欢迎进群交流，落魄算法，在线答疑：

图像识别技术：857149419 (群已满)/ 934889548(2群)

数据矿工：778910502

思知人工智能：90780053

captcha_trainer 快速上手指南

captcha_trainer 是一个基于深度学习的图像验证码识别训练工具，能够高效处理字符粘连、透视变形、噪声干扰等复杂场景。本项目支持可视化配置，无需修改代码即可构建模型，适合从零开始快速搭建验证码识别服务。

1. 环境准备

系统要求

操作系统: Windows (推荐 GPU 编译版) 或 Linux
Python 版本: Python 3.8
硬件要求:
- CPU 模式：无特殊要求
- GPU 模式：NVIDIA 显卡，需安装对应的 CUDA 和 cuDNN
  - 推荐组合：CUDA 11.4.1 + cuDNN 8.2 + TensorFlow 2.8

前置依赖

若使用源码运行（非编译版），需手动安装以下环境：

更新显卡驱动 (仅 GPU 用户) 前往 NVIDIA 官网下载最新驱动。
安装 CUDA 和 cuDNN (仅 GPU 用户)
- CUDA: https://developer.nvidia.com/cuda-downloads
- cuDNN: https://developer.nvidia.com/rdp/form/cudnn-download-survey
安装 Python 虚拟环境工具
```
pip3 install virtualenv
```

提示：如果你下载的是官方发布的**编译版 **(Release)，只需更新显卡驱动即可跳过上述环境配置步骤，直接运行。

2. 安装步骤

方式一：源码安装 (适合开发者)

创建并激活虚拟环境

virtualenv -p /usr/bin/python3 venv
# Windows 下激活命令:
# venv\Scripts\activate
# Linux/Mac 下激活命令:
source venv/bin/activate

克隆项目并进入目录

git clone https://github.com/kerlomz/captcha_trainer.git
cd captcha_trainer

安装依赖库

GPU 版本 (推荐):
```
pip install tf-nightly-gpu==2.8.0.dev20211021
pip install -r requirements.txt
```
(注：国内用户可使用清华源加速：pip install ... -i https://pypi.tuna.tsinghua.edu.cn/simple)

CPU 版本:
```
pip install tensorflow
pip install -r requirements.txt
```

方式二：编译版使用 (适合零基础/快速部署)

访问 Releases 页面下载最新的 Windows GPU 编译包。
解压后无需安装任何 Python 环境，直接运行内置程序即可。

3. 基本使用流程

本工具采用“项目化管理”模式，全程可通过图形界面或配置文件操作，无需修改代码。

第一步：准备样本数据

将采集到的验证码图片整理为文件夹，命名格式建议为：标签_随机字符串.jpg (例如：a3b9_x7y2z.jpg)。

训练集: 放入一个文件夹 (如 train_data)
验证集: 放入另一个文件夹 (可选，若不提供系统将自动从训练集划分)

第二步：启动可视化界面

在项目根目录下运行：

python app.py

(编译版用户直接运行对应的 .exe 启动程序)

第三步：创建项目与配置

在打开的界面中执行以下操作：

新建项目: 输入项目名称 (如 my_captcha)，按回车或点击空白处创建。
选择路径: 点击 [Browse] 选择你的训练集文件夹路径。
自动生成配置: 系统会根据样本自动推荐字符集 (Category)、图片尺寸 (Resize) 等参数。
- 如需自定义网络结构，可在界面上方选择 (推荐不定长验证码使用 CNN5+GRU，定长使用 CNN5 或 ResNet50)。
打包数据集: 点击 [Make Dataset] 按钮。
- 系统将把图片转换为 TFRecords 格式，这是训练所需的输入格式。
- 注意：打包过程中请勿强制终止程序，否则需删除未完成的文件重新打包。

第四步：开始训练

配置完成后，点击 [Start Training] 开始训练。

监控: 界面会实时显示准确率 (Acc) 和损失值 (Cost)。
停止条件: 当达到设定的准确率 (EndAcc) 或轮数 (EndEpochs) 时自动停止。
手动停止: 可随时点击 [Stop]，若未达结束条件但想保存模型，可点击 [Compile] 手动编译导出 .pb 模型文件。

第五步：模型部署

训练完成后，生成的模型文件位于 projects/项目名/ 目录下。该模型可直接配合 captcha_platform 部署服务使用，支持热拔插和多模型并发。

进阶提示:

所有配置均保存在 projects/项目名/model.yaml 中，高级用户可直接编辑该 YAML 文件调整超参数（如学习率、数据增强策略等）。
支持增量训练：新增样本无需重新打包所有数据，可直接添加新的 TFRecords 文件继续训练。

常见问题

训练过程中出现 MemoryError 或 CUDA out of memory 报错怎么办？

遇到 'cannot import name loader from tf2onnx' 导入错误如何解决？

为什么识别结果中连续的相同字符容易被漏掉（例如将 ABCCDE 识别为 ABCDE）？

如何获取和处理验证码样本数据用于训练？

向训练集中加入新数据后，为什么准确率反而下降了？

muggle-ocr 的 pip 包还能安装吗？

框架是否支持识别双行文字或特殊结构的验证码？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 157.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架