keras-yolo2

1.7k 775 中等 1 次阅读 6天前MIT开发框架

AI 解读由 AI 自动生成，仅供参考

keras-yolo2 是一个基于 Keras 框架实现的 YOLOv2 目标检测开源项目，旨在帮助用户轻松地在自定义数据集上训练高性能的检测模型。它有效解决了传统目标检测算法在特定场景下数据适配难、模型部署门槛高的问题，让开发者能够快速构建从浣熊识别到自动驾驶车辆检测等各类应用。

该工具非常适合具有一定 Python 基础的 AI 开发者、研究人员以及需要快速验证原型的技术团队使用。其核心亮点在于极高的灵活性：不仅支持完整的 YOLOv2 架构，还兼容 MobileNet、SqueezeNet、InceptionV3 和 ResNet50 等多种轻量级或高精度后端网络，方便用户根据实际算力需求进行权衡。此外，keras-yolo2 提供了详尽的数据准备指南和灵活的 JSON 配置文件，支持断点续训与多版本 Python 环境，甚至包含可在浏览器中直接运行的演示案例。无论是学术研究还是工程落地，它都能为用户提供一条从数据标注到模型推理的清晰路径。

使用场景

某农业科技公司正在开发一套智能监控系统，旨在自动识别并统计果园中频繁出没、破坏作物的浣熊数量，以指导防护部署。

没有 keras-yolo2 时

定制训练门槛高：团队需从零编写复杂的 YOLOv2 底层代码，难以快速适配仅包含“浣熊”这一特定类别的自定义数据集。
部署灵活性差：缺乏对 MobileNet 等轻量级后端的支持，导致模型体积过大，无法在边缘设备或浏览器端进行实时推理。
数据准备繁琐：缺少标准化的 VOC 格式数据加载与增强流程，研究人员需花费大量时间手动处理图像与标注文件的对应关系。
试错成本高昂：调整锚框（Anchors）和网络架构需反复修改核心源码，严重拖慢了从实验到落地的迭代速度。

使用 keras-yolo2 后

开箱即用的定制训练：只需简单配置 JSON 文件定义标签为"raccoon"，即可直接利用内置脚本启动针对浣熊数据集的高效训练。
多后端灵活切换：轻松切换至 MobileNet 或 SqueezeNet 后端，成功将模型部署于浏览器端，实现了无需服务器支持的实时浣熊检测演示。
标准化数据流水线：工具自动处理训练集与验证集的划分及 VOC 格式解析，配合 imgaug 增强，大幅缩短了数据预处理周期。
架构调整便捷：通过修改配置文件即可尝试 Tiny YOLO 或 Full YOLO 等不同架构，快速找到精度与速度的最佳平衡点。

keras-yolo2 通过极简的配置化流程和多样的后端支持，让开发者能专注于业务数据本身，迅速将自定义物体检测算法从概念验证推向实际应用。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明（基于 TensorFlow 后端，通常建议使用 NVIDIA GPU 加速，但 README 未明确指定型号、显存或 CUDA 版本
目前不支持多 GPU 训练）

内存

未说明

依赖

notes1. 必须下载预训练权重文件并放置在仓库根目录，否则代码无法运行。2. 支持多种后端架构（MobileNet, InceptionV3, SqueezeNet, ResNet50, Tiny Yolo, Full Yolo）。3. 数据标注需采用 VOC 格式。4. 浏览器演示项目在 Windows 上可能存在兼容性问题。5. 当前版本尚未支持多 GPU 训练和多尺度训练。

keras>=2.0.8

tensorflow (作为后端)

imgaug

快速开始

Keras中的YOLOv2及其应用

本仓库包含使用TensorFlow后端在Keras中实现的YOLOv2。它支持使用MobileNet、InceptionV3等多种主干网络训练YOLOv2模型。下方提供了演示应用的链接。请访问https://experiencor.github.io/yolo_demo/demo.html，查看完全在浏览器中运行、基于DeepLearn.js和MobileNet主干的浣熊检测器演示（该演示在Windows系统下会出错）。此演示的源代码位于https://git.io/vF7vG。

待办事项：

热身训练
浣熊检测、自动驾驶汽车和袋鼠检测
SqueezeNet、MobileNet、InceptionV3和ResNet50主干支持
支持Python 2.7和3.6
多GPU训练
多尺度训练
mAP评估

一些示例应用（点击观看视频）：

Python代码使用说明

0. 环境要求

Python 2.7

Keras >= 2.0.8

imgaug

1. 数据准备

从https://github.com/experiencor/raccoon_dataset下载浣熊数据集。

将数据集整理成4个文件夹：

train_image_folder <= 包含训练图像的文件夹。
train_annot_folder <= 包含VOC格式训练标注的文件夹。
valid_image_folder <= 包含验证图像的文件夹。
valid_annot_folder <= 包含VOC格式验证标注的文件夹。

图像和标注之间按文件名一一对应。如果验证集为空，则训练集会自动按照0.8的比例拆分为训练集和验证集。

2. 编辑配置文件

配置文件为JSON格式，内容如下：

{
    "model" : {
        "architecture":         "Full Yolo",    # "Tiny Yolo"或"Full Yolo"或"MobileNet"或"SqueezeNet"或"Inception3"
        "input_size":           416,
        "anchors":              [0.57273, 0.677385, 1.87446, 2.06253, 3.33843, 5.47434, 7.88282, 3.52778, 9.77052, 9.16828],
        "max_box_per_image":    10,        
        "labels":               ["raccoon"]
    },

    "train": {
        "train_image_folder":   "/home/andy/data/raccoon_dataset/images/",
        "train_annot_folder":   "/home/andy/data/raccoon_dataset/anns/",      
          
        "train_times":          10,             # 遍历训练集的次数，对小数据集有用
        "pretrained_weights":   "",             # 指定预训练权重的路径，但也可以从头开始训练
        "batch_size":           16,             # 每批读取的图像数量
        "learning_rate":        1e-4,           # 默认Adam优化器的基础学习率
        "nb_epoch":             50,             # 训练轮数
        "warmup_epochs":        3,              # 初始几轮强制每个单元格中的5个边界框大小与5个锚框大小匹配，这一技巧在经验上似乎能提高精度

        "object_scale":         5.0 ,           # 决定对目标预测器置信度错误预测的惩罚程度
        "no_object_scale":      1.0,            # 决定对非目标预测器置信度错误预测的惩罚程度
        "coord_scale":          1.0,            # 决定对位置和尺寸预测错误的惩罚程度（x, y, w, h）
        "class_scale":          1.0,            # 决定对类别预测错误的惩罚程度

        "debug":                true            # 开启或关闭打印当前置信度、位置、尺寸、类别损失及召回率的输出
    },

    "valid": {
        "valid_image_folder":   "",
        "valid_annot_folder":   "",

        "valid_times":          1
    }
}

模型部分定义了要构建的模型类型以及输入图像尺寸、锚框列表等参数。labels设置列出了要训练的标签。只有包含这些标签的图像才会被送入网络，其余图像则会被忽略。通过这种方式，只需将labels设置为['dog']，即可利用VOC或COCO数据集轻松训练一个狗检测器。

可从以下链接下载各主干网络的预训练权重（tiny yolo、full yolo、squeezenet、mobilenet和inceptionV3）：

https://drive.google.com/drive/folders/10oym4eL2RxJa0gro26vzXK__TtYOP5Ng

这些权重必须放置在仓库的根目录下。它们仅是主干网络的预训练权重，将在模型创建时加载。没有这些权重，代码将无法运行。

浣熊检测器的完整模型（包括前端和后端）的预训练权重链接如下：

https://drive.google.com/drive/folders/10oym4eL2RxJa0gro26vzXK__TtYOP5Ng

这些权重可用作任何单类目标检测器的预训练权重。

3. 为您的数据集生成锚框（可选）

python gen_anchors.py -c config.json

将终端中打印的生成锚框复制到config.json中的anchors设置中。

4. 开始训练过程

python train.py -c config.json

训练结束后，代码会将最佳模型的权重保存到文件best_weights.h5（或根据config.json中saved_weights_name设置指定的名称）。当验证集上的损失连续3个epoch未改善时，训练过程将停止。

5. 使用训练好的权重对图像进行检测，运行以下命令：

python predict.py -c config.json -w /path/to/best_weights.h5 -i /path/to/image/or/video

该命令会对图像进行检测，并将带有检测框的图像保存到同一文件夹中。

Jupyter Notebook 的使用方法

请参阅该笔记本（https://github.com/experiencor/basic-yolo-keras/blob/master/Yolo%20Step-by-Step.ipynb），其中提供了从零开始完整实现 YOLOv2 的教程，包括训练、测试和评估。

当前实现的评估结果：

训练集	测试集	mAP（本实现）	mAP（使用官方权重）
COCO 训练集	COCO 验证集	28.6	42.1

用于评估检测结果的代码可在 https://github.com/experiencor/basic-yolo-keras/issues/27 找到。

版权声明

详情请参阅 LICENSE 文件。

keras-yolo2 快速上手指南

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux 或 macOS (Windows 下部分演示可能不稳定)
Python 版本: 2.7 或 3.6
核心依赖:
- Keras >= 2.0.8 (后端需配置为 TensorFlow)
- TensorFlow
- imgaug (用于数据增强)

提示：国内用户建议使用清华源或阿里源加速 Python 包安装。

安装步骤

克隆仓库

git clone https://github.com/experiencor/keras-yolo2.git
cd keras-yolo2

安装 Python 依赖

pip install -r requirements.txt
# 如果仓库中无 requirements.txt，请手动安装核心包：
pip install keras tensorflow imgaug

下载预训练权重 (必需) 本项目必须下载后端预训练权重才能运行模型。
- 下载地址: Google Drive 链接
- 操作: 下载对应架构（如 full_yolo_weights.h5, mobilenet_weights.h5 等）的权重文件。
- 放置位置: 将下载的 .h5 文件直接放入项目根目录下。

基本使用

以下以训练一个“浣熊检测器”为例，展示最简工作流程。

1. 准备数据

下载 Raccoon 数据集，并按以下结构组织文件夹：

data/
├── train_image_folder/      # 训练图片
├── train_annot_folder/      # 训练标注 (VOC 格式 XML)
├── valid_image_folder/      # 验证图片 (可选)
└── valid_annot_folder/      # 验证标注 (可选)

注：若未提供验证集，代码会自动按 8:2 比例分割训练集。

2. 配置模型

复制并编辑 config.json 配置文件。主要修改 train 部分的路径和 model 部分的标签：

{
    "model" : {
        "architecture":         "Full Yolo",
        "input_size":           416,
        "anchors":              [0.57273, 0.677385, 1.87446, 2.06253, 3.33843, 5.47434, 7.88282, 3.52778, 9.77052, 9.16828],
        "max_box_per_image":    10,
        "labels":               ["raccoon"]
    },
    "train": {
        "train_image_folder":   "/path/to/your/data/train_image_folder/",
        "train_annot_folder":   "/path/to/your/data/train_annot_folder/",
        "train_times":          10,
        "pretrained_weights":   "full_yolo_weights.h5", 
        "batch_size":           16,
        "learning_rate":        1e-4,
        "nb_epoch":             50,
        "warmup_epochs":        3,
        "object_scale":         5.0,
        "no_object_scale":      1.0,
        "coord_scale":          1.0,
        "class_scale":          1.0,
        "debug":                true
    },
    "valid": {
        "valid_image_folder":   "",
        "valid_annot_folder":   "",
        "valid_times":          1
    }
}

3. (可选) 生成自定义 Anchors

如果您使用的是全新数据集，建议先运行脚本生成适合该数据集的 Anchors，并更新到 config.json 中：

python gen_anchors.py -c config.json

4. 开始训练

运行训练脚本，最佳模型权重将自动保存为 best_weights.h5：

python train.py -c config.json

训练将在验证集损失连续 3 个 epoch 未提升时自动停止。

5. 执行检测

使用训练好的权重对图片或视频进行检测：

python predict.py -c config.json -w best_weights.h5 -i /path/to/image.jpg

检测结果（带有边界框的图片）将保存在同一文件夹下。

版本历史

v0.12018/02/08

常见问题

如何训练 Tiny YOLO 检测多个类别或解决多类别训练困难的问题？

训练多类别时出现形状不匹配的 ValueError (例如 shape (30,) vs (35,)) 怎么办？

VOC 格式的标注文件是如何生成的？标注的具体含义是什么？

遇到 'UnboundLocalError: local variable epoch_logs is not assigned' 错误如何解决？

这个项目有 Keras 版本的 YOLOv3 吗？

运行训练时遇到 'No module named expat' 或 XML 解析错误怎么办？

如何检测微小物体（如塑料袋、U 盘）？

预测时出现 OpenCV 错误 'could not find a writer for the specified extension' 是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 keras-yolo2 时

使用 keras-yolo2 后

运行环境要求

快速开始

Keras中的YOLOv2及其应用

待办事项：

一些示例应用（点击观看视频）：

浣熊检测

袋鼠检测

自动驾驶汽车

红细胞检测

手部检测

Python代码使用说明

0. 环境要求

1. 数据准备

2. 编辑配置文件

3. 为您的数据集生成锚框（可选）

4. 开始训练过程

5. 使用训练好的权重对图像进行检测，运行以下命令：

Jupyter Notebook 的使用方法

当前实现的评估结果：

版权声明

keras-yolo2 快速上手指南

环境准备

安装步骤

基本使用

1. 准备数据

2. 配置模型

3. (可选) 生成自定义 Anchors

4. 开始训练

5. 执行检测

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown