FastestDet

856 153 简单 1 次阅读 4天前BSD-3-Clause图像开发框架

AI 解读由 AI 自动生成，仅供参考

FastestDet 是一款专为边缘设备设计的超轻量级目标检测算法。它致力于解决在算力有限的硬件（如手机、嵌入式开发板）上运行检测模型时，速度与精度难以兼顾的痛点。相比前代知名轻量模型 Yolo-fastest，FastestDet 在保持极低参数量（仅约 250K）的同时，将推理速度提升了约 10%，并显著简化了后处理流程，使其更易于工程部署。

该工具特别适合需要在移动端或 IoT 设备上实现实时视觉应用的开发者与研究人员。其核心技术亮点在于采用了无锚框（Anchor-Free）设计、单尺度检测头以及动态正负样本分配策略。这些创新不仅去除了繁琐的锚框计算，还通过引入基于 Smooth L1 的 IOU 感知损失函数，有效提升了检测精度（mAP）。此外，FastestDet 支持 NCNN、RKNN 等多种主流推理框架，在 ARM CPU、NPU 及 x86 平台上均有优秀的性能表现，且数据标注格式兼容经典的 Darknet Yolo 标准，极大降低了用户的使用门槛和迁移成本。

使用场景

某嵌入式开发团队正在为基于 RK3568 芯片的工业巡检机器人开发实时缺陷检测系统，需在资源受限的边缘端实现高帧率运行。

没有 FastestDet 时

模型参数量过大（如 YOLOv5s 达 7.2M），导致内存占用高，机器人主控芯片频繁出现内存溢出报警。
推理延迟严重，单核 CPU 下耗时超过 1000ms，无法满足产线高速流转下的实时反馈需求。
后处理逻辑复杂，锚框（Anchor）机制引入了大量冗余计算，进一步拖慢了整体检测速度。
在低算力设备上部署困难，不得不降低输入分辨率，导致小目标缺陷漏检率居高不下。

使用 FastestDet 后

模型权重仅 250K 参数，内存占用极低，完美适配机器人有限的硬件资源，系统运行稳定无溢出。
推理速度显著提升，在同等单核 CPU 环境下耗时降至约 70ms，实现了流畅的实时视频流检测。
采用无锚框（Anchor-Free）设计与简化的后处理流程，大幅减少了无效计算，算法逻辑更加轻量高效。
保持了 352x352 的较高输入分辨率，结合优化的损失函数，使微小裂纹等缺陷的检出精度提升了 1.2%。

FastestDet 通过极致的轻量化设计与高效的推理性能，成功解决了边缘设备在实时目标检测中“跑得动”与“测得准”难以兼得的核心难题。

运行环境要求

操作系统

Linux
Android

GPU

非必需
训练阶段依赖 PyTorch（README 提示需注意 CUDA 版本选择），推理阶段主要基于 CPU (NCNN) 或 NPU (RKNN)，支持 ARM Cortex-A55 及 x86 架构

内存

未说明

依赖

notes1. 该工具主打轻量级和边缘端部署，推理后端主要支持 NCNN (CPU) 和 RKNN (NPU)。2. 训练数据格式需遵循 Darknet Yolo 标准。3. 部署到 NCNN 需预先编译 ncnn 和 opencv 库。4. 支持导出 ONNX 和 TorchScript 格式。

python3.x (示例命令使用 python3)

torch

ncnn

opencv

onnx-runtime

快速开始

2022年7月14日：优化损失函数，采用基于平滑L1的IOU感知方法，AP显著提升0.7个百分点

:zap:FastestDet:zap:

更快！更强！更简单！
相比Yolo-fastest，性能更好且特征图后处理更简单
性能比Yolo-fastest高出10%
与Yolo-fastestv2的map0.5相比，COCO评估指标提升了1.2%
算法介绍：https://zhuanlan.zhihu.com/p/536500269 交流qq群:1062122604

评估指标/基准

网络	mAPval 0.5	mAPval 0.5:0.95	分辨率	运行时间(4核)	运行时间(1核)	参数量(M)
yolov5s	56.8%	37.4%	640X640	395.31ms	1139.16ms	7.2M
yolov6n	-	30.8%	416X416	109.24ms	445.44ms	4.3M
yolox-nano	-	25.8%	416X416	76.31ms	191.16ms	0.91M
nanodet_m	-	20.6%	320X320	49.24ms	160.35ms	0.95M
yolo-fastestv1.1	24.40%	-	320X320	26.60ms	75.74ms	0.35M
yolo-fastestv2	24.10%	-	352X352	23.8ms	68.9ms	0.25M
FastestDet	25.3%	13.0%	352X352	23.51ms	70.62ms	0.24M

测试平台为Radxa Rock3A RK3568 ARM Cortex-A55 CPU，基于NCNN
CPU主频锁定为2.0GHz

改进点

无锚框
单尺度检测头
跨网格多候选目标
动态正负样本分配

多平台基准测试

设备	计算后端	系统	框架	单核运行时间	多核运行时间
Radxa rock3a	RK3568(arm-cpu)	Linux(aarch64)	ncnn	70.62ms	23.51ms
Radxa rock3a	RK3568(NPU)	Linux(aarch64)	rknn	28ms	-
Qualcomm	Snapdragon 835(arm-cpu)	Android(aarch64)	ncnn	32.34ms	16.24ms
Intel	i7-8700(X86-cpu)	Linux(amd64)	ncnn	4.51ms	4.33ms

使用方法

依赖安装

PiP（注意选择PyTorch CUDA版本）
```
pip install -r requirements.txt
```

测试

图片测试

python3 test.py --yaml configs/coco.yaml --weight weights/weight_AP05:0.253207_280-epoch.pth --img data/3.jpg

训练方法

数据集构建（数据集构建方式与Darknet YOLO相同）

数据集格式与Darknet YOLO一致，每张图片对应一个.txt标签文件。标签格式也遵循Darknet YOLO的数据集标签格式：“类别 cx cy wh”，其中类别为类别下标，cx、cy为归一化标签框中心点坐标，w、h为归一化标签框的宽和高。.txt标签文件内容示例如下：
```
11 0.344192634561 0.611 0.416430594901 0.262
14 0.509915014164 0.51 0.974504249292 0.972
```

图片与其对应的标签文件同名并存放在同一目录中。数据文件结构如下：

.
├── train
│   ├── 000001.jpg
│   ├── 000001.txt
│   ├── 000002.jpg
│   ├── 000002.txt
│   ├── 000003.jpg
│   └── 000003.txt
└── val
    ├── 000043.jpg
    ├── 000043.txt
    ├── 000057.jpg
    ├── 000057.txt
    ├── 000070.jpg
    └── 000070.txt

生成数据集路径.txt文件，示例内容如下：

train.txt

/home/qiuqiu/Desktop/dataset/train/000001.jpg
/home/qiuqiu/Desktop/dataset/train/000002.jpg
/home/qiuqiu/Desktop/dataset/train/000003.jpg

val.txt

/home/qiuqiu/Desktop/dataset/val/000070.jpg
/home/qiuqiu/Desktop/dataset/val/000043.jpg
/home/qiuqiu/Desktop/dataset/val/000057.jpg

生成.names类别标签文件，示例内容如下：

category.names

人
自行车
汽车
摩托车
...

最终构建的训练数据集目录结构如下：

.
├── category.names        # .names类别标签文件
├── train                 # 训练数据集
│   ├── 000001.jpg
│   ├── 000001.txt
│   ├── 000002.jpg
│   ├── 000002.txt
│   ├── 000003.jpg
│   └── 000003.txt
├── train.txt              # 训练数据集路径.txt文件
├── val                    # 验证数据集
│   ├── 000043.jpg
│   ├── 000043.txt
│   ├── 000057.jpg
│   ├── 000057.txt
│   ├── 000070.jpg
│   └── 000070.txt
└── val.txt                # 验证数据集路径.txt文件

构建训练.yaml配置文件

参考./configs/coco.yaml

DATASET:
  TRAIN: "/home/qiuqiu/Desktop/coco2017/train2017.txt"  # 训练数据集路径.txt文件
  VAL: "/home/qiuqiu/Desktop/coco2017/val2017.txt"      # 验证数据集路径.txt文件 
  NAMES: "dataset/coco128/coco.names"                   # .names类别标签文件
MODEL:
  NC: 80                                                # 检测类别数
  INPUT_WIDTH: 352                                      # 模型输入图像宽度
  INPUT_HEIGHT: 352                                     # 模型输入图像高度
TRAIN:
  LR: 0.001                                             # 训练学习率
  THRESH: 0.25                                          # ？？？？
  WARMUP: true                                          # 开启预热
  BATCH_SIZE: 64                                        # 批量大小
  END_EPOCH: 350                                        # 训练轮次
  MILESTIONES:                                          # 学习率衰减步骤
    - 150
    - 250
    - 300

训练

执行训练任务

python3 train.py --yaml configs/coco.yaml

评估

计算地图评估

python3 eval.py --yaml configs/coco.yaml --weight weights/weight_AP05:0.253207_280-epoch.pth

COCO2017 评估

创建索引中…
索引创建完成！
创建索引中…
索引创建完成！
正在进行逐张图像的评估…
评估标注类型 *bbox*
完成（耗时30.85秒）。
累积评估结果中…
完成（耗时4.97秒）。
平均精度（AP）@[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.130
平均精度（AP）@[ IoU=0.50      | area=   all | maxDets=100 ] = 0.253
平均精度（AP）@[ IoU=0.75      | area=   all | maxDets=100 ] = 0.119
平均精度（AP）@[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.021
平均精度（AP）@[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.129
平均精度（AP）@[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.237
平均召回率（AR）@[ IoU=0.50:0.95 | area=   all | maxDets=  1 ] = 0.142
平均召回率（AR）@[ IoU=0.50:0.95 | area=   all | maxDets= 10 ] = 0.208
平均召回率（AR）@[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.214
平均召回率（AR）@[ IoU=0.50:0.95 | area= small | maxDets=100 ] = 0.043
平均召回率（AR）@[ IoU=0.50:0.95 | area=medium | maxDets=100 ] = 0.236
平均召回率（AR）@[ IoU=0.50:0.95 | area= large | maxDets=100 ] = 0.372

部署

导出 onnx

在执行 test.py 时添加 --onnx 选项即可导出 .onnx 文件

python3 test.py --yaml configs/coco.yaml --weight weights/weight_AP05:0.253207_280-epoch.pth --img data/3.jpg --onnx

导出 torchscript

在执行 test.py 时添加 --torchscript 选项即可导出 .pt 文件

python3 test.py --yaml configs/coco.yaml --weight weights/weight_AP05:0.253207_280-epoch.pth --img data/3.jpg --torchscript

NCNN

需要提前编译 ncnn 和 opencv，并修改 build.sh 中的路径
```
cd example/ncnn/
sh build.sh
./FastestDet
```

onnx-runtime

可以在此示例中了解 FastestDet 的预处理和后处理方法

cd example/onnx-runtime
pip install onnx-runtime
python3 runtime.py

引用

如果您在研究中发现本项目有用，请考虑引用：

@misc{=FastestDet,
      title={FastestDet：超轻量级无锚点实时目标检测算法。},
      author={xuehao.ma},
      howpublished = {\url{https://github.com/dog-qiuqiu/FastestDet}},
      year={2022}
}

参考文献

https://github.com/Tencent/ncnn

FastestDet 快速上手指南

FastestDet 是一款超轻量级、无锚框（Anchor-Free）的实时目标检测算法。相比 Yolo-fastest，它在保持极简结构的同时，实现了更高的检测精度（mAP 提升约 10%）和更简单的特征图后处理流程，非常适合在 ARM CPU、NPU 等资源受限的边缘设备上部署。

环境准备

操作系统: Linux (推荐 Ubuntu), Android, 或 macOS
Python 版本: Python 3.6+
深度学习框架: PyTorch (建议安装带有 CUDA 支持的版本以加速训练)
硬件要求:
- 训练: 建议使用支持 CUDA 的 GPU。
- 推理: 支持 x86 CPU, ARM CPU (如 RK3568, Snapdragon), NPU 等。

安装步骤

克隆项目代码

git clone https://github.com/dog-qiuqiu/FastestDet.git
cd FastestDet

安装依赖库 建议使用国内镜像源（如清华源）加速 pip 安装过程。请确保已安装对应 CUDA 版本的 PyTorch。
```
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
```

基本使用

1. 快速测试（图片推理）

下载预训练权重后，即可对单张图片进行推理测试。以下命令将加载模型并输出检测结果图。

python3 test.py --yaml configs/coco.yaml --weight weights/weight_AP05:0.253207_280-epoch.pth --img data/3.jpg

--yaml: 配置文件路径。
--weight: 预训练权重文件路径。
--img: 待检测图片路径。

2. 模型导出（部署准备）

若需部署到移动端或嵌入式设备，可导出为 ONNX 或 TorchScript 格式。

导出为 ONNX:

python3 test.py --yaml configs/coco.yaml --weight weights/weight_AP05:0.253207_280-epoch.pth --img data/3.jpg --onnx

导出为 TorchScript (.pt):

python3 test.py --yaml configs/coco.yaml --weight weights/weight_AP05:0.253207_280-epoch.pth --img data/3.jpg --torchscript

3. 开始训练（自定义数据集）

FastestDet 的数据集格式与 Darknet YOLO 一致。

数据准备结构示例：

.
├── category.names        # 类别名称文件
├── train                 # 训练集图片与标签
│   ├── 000001.jpg
│   ├── 000001.txt
│   └── ...
├── train.txt             # 训练集图片路径列表
├── val                   # 验证集图片与标签
│   ├── 000043.jpg
│   ├── 000043.txt
│   └── ...
└── val.txt               # 验证集图片路径列表

配置文件修改： 编辑 configs/coco.yaml，修改 DATASET 部分的路径指向你的数据文件，并设置 NC (类别数量)。

启动训练：

python3 train.py --yaml configs/coco.yaml

评估模型： 训练完成后，使用以下命令计算 mAP：

python3 eval.py --yaml configs/coco.yaml --weight weights/your_best_weight.pth

版本历史

v1.02022/07/02

常见问题

在 Windows 系统上训练时，为什么模型权重文件无法保存或生成空文件？

将自定义类别的模型转换为 NCNN 格式后，输出维度错误或精度大幅下降怎么办？

如何获取该项目的网络结构示意图？

项目缺少 requirements.txt 依赖文件，具体的环境依赖有哪些？

是否有 NCNN 的实现版本或推理示例？

预训练模型（Backbone）的权重来源是什么？

使用 PNNX 转换模型时出现 Segmentation fault (core dumped) 或生成异常大的 bin 文件怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架