opencv_zoo

922 281 简单 1 次阅读今天Apache-2.0其他图像开发框架

AI 解读由 AI 自动生成，仅供参考

opencv_zoo 是一个专为 OpenCV 深度学习模块（DNN）打造的模型库与性能基准测试平台。它收录了经过专门优化、可直接在 OpenCV 中高效运行的各类预训练模型，并提供了在不同硬件平台上的详细速度对比数据。

在 AI 模型落地过程中，开发者常面临模型兼容性差或在特定设备上运行效率低的难题。opencv_zoo 通过提供“开箱即用”的调优模型和直观的基准测试结果，帮助用户快速筛选出最适合自己硬件环境的模型方案，从而大幅降低部署门槛和调试成本。

这套工具非常适合计算机视觉开发者、嵌入式工程师以及算法研究人员使用。无论是想在树莓派、NVIDIA Jetson 等边缘设备上部署应用，还是需要在 Intel x86 服务器上进行推理加速，都能从中找到参考依据。

其独特亮点在于覆盖范围极广，不仅支持主流的 x86 和 ARM 架构，还深入适配了华为昇腾、地平线、算能等多种国产 NPU 芯片，甚至包含了 RISC-V 架构的最新测试数据。此外，项目已迁移至 Hugging Face 平台，方便用户直接获取模型并体验在线演示，让跨平台的 AI 开发变得更加简单透明。

使用场景

某嵌入式视觉团队正在为一款基于瑞芯微 RK3588 芯片的智能安防摄像头开发实时人脸检测功能，需在资源受限的边缘端实现高帧率运行。

没有 opencv_zoo 时

模型适配困难：开发者需手动将通用深度学习模型转换为 OpenCV DNN 支持的格式，常因算子不兼容导致推理失败或精度大幅下降。
性能基准缺失：缺乏针对 ARM NPU 等特定硬件的权威测试数据，团队只能盲目尝试不同量化策略，耗时数周仍无法确定最优配置。
部署门槛极高：为了启用 NPU 加速，工程师需自行查阅繁杂的后端编译指南（如 TIM-VX 或 CANN），环境搭建过程极易出错且难以复现。
调试周期漫长：在没有预置 Demo 脚本的情况下，从模型加载到结果可视化的每一步都需要从头编写代码，严重拖慢原型验证进度。

使用 opencv_zoo 后

开箱即用模型：直接下载经官方针对 OpenCV DNN 深度调优的模型文件，完美适配 RK3588 的 NPU 架构，无需任何格式转换即可加载。
明确性能预期：参考项目中提供的详细基准测试表，团队迅速锁定适合该芯片的量化模型版本，确认在 6 TOPS 算力下可稳定达到 30+ FPS。
简化后端配置：依据项目文档中的构建指南，快速完成支持 NPU 后端的 OpenCV 编译，避免了底层驱动与框架对接的“踩坑”过程。
极速原型验证：复用仓库中现成的 Python 演示脚本，仅需修改摄像头输入源，半天内即完成了从算法集成到实地效果演示的全流程。

opencv_zoo 通过提供经过严格硬件基准测试的预训练模型与标准化部署路径，将边缘侧 AI 功能的落地周期从数周缩短至数天。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需
支持多种硬件后端：1. NVIDIA GPU (Jetson Nano/Orin, 需 Maxwell/Ampere 架构)
2. NPU (华为 Ascend 310/310B, Rockchip, Amlogic, Horizon BPU 等，需特定后端如 CANN/TIM-VX)
3. CPU (x86-64, ARM, RISC-V)
未指定具体显存大小或 CUDA 版本，取决于具体设备和模型量化方式（如 INT8）

内存

未说明

依赖

notes1. 项目已迁移至 Hugging Face，可在线获取模型和演示。2. 必须安装 git-lfs 以拉取模型文件。3. 针对特定 NPU 设备（如华为 Ascend、Amlogic、Rockchip 等），需要按照官方指南重新编译开启对应后端（CANN 或 TIM-VX）的 OpenCV 版本。4. 部分 ARM/RISC-V 设备测试使用了 per-tensor 量化模型。5. 基准测试数据基于 Batch size=1，时间为预处理、推理和后处理的总耗时平均值。

python未说明 (需支持 python3)

opencv-python

git-lfs

快速开始

该项目现已托管在 Hugging Face 上。请访问 https://huggingface.co/opencv 获取模型和在线演示！

OpenCV Zoo 与基准测试

一个为 OpenCV DNN 调优的模型动物园，并在不同平台上提供基准测试。

使用指南：

安装最新版 opencv-python：

python3 -m pip install opencv-python
# 或升级到最新版本
python3 -m pip install --upgrade opencv-python

克隆本仓库以下载所有模型和示例脚本：

# 从 https://git-lfs.github.com/ 安装 git-lfs
git clone https://github.com/opencv/opencv_zoo && cd opencv_zoo
git lfs install
git lfs pull

如需在您的硬件环境下运行基准测试，请参阅 benchmark/README。

模型与基准测试结果

硬件配置：

x86-64：

Intel Core i7-12700K：8 个性能核心（3.60 GHz，睿频最高 4.90 GHz），4 个能效核心（2.70 GHz，睿频最高 3.80 GHz），20 线程。

ARM：

Khadas VIM3：Amlogic A311D SoC，包含 2.2GHz 四核 ARM Cortex-A73 + 1.8GHz 双核 Cortex-A53 CPU，以及 5 TOPS 的 NPU。基准测试采用 逐张量量化 模型进行。请按照此指南构建启用 TIM-VX 后端的 OpenCV。
Khadas VIM4：Amlogic A311D2 SoC，配备 2.2GHz 四核 ARM Cortex-A73 和 2.0GHz 四核 Cortex-A53 CPU，内置 3.2 TOPS 的 NPU。
Khadas Edge 2：Rockchip RK3588S SoC，包含 2.25 GHz 四核 ARM Cortex-A76 + 1.8 GHz 四核 Cortex-A55，以及 6 TOPS 的 NPU。
Atlas 200 DK：Ascend 310 NPU，INT8 下可达 22 TOPS。请按照此指南构建启用 CANN 后端的 OpenCV。
Atlas 200I DK A2：SoC 配备 1.0GHz 四核 CPU 和 Ascend 310B NPU，INT8 下可达 8 TOPS。
NVIDIA Jetson Nano B01：四核 ARM A57 处理器，主频 1.43 GHz，以及 128 核 NVIDIA Maxwell GPU。
NVIDIA Jetson Nano Orin：六核 Arm® Cortex®-A78AE v8.2 64 位处理器，以及 1024 核 NVIDIA Ampere 架构 GPU，配备 32 个 Tensor Core（最高频率 625MHz）。
Raspberry Pi 4B：Broadcom BCM2711 SoC，四核 Cortex-A72（ARM v8）64 位处理器，主频 1.5 GHz。
Horizon Sunrise X3：来自 Horizon Robotics 的 SoC，配备四核 ARM Cortex-A53 1.2 GHz CPU 和 5 TOPS 的 BPU（即 NPU）。
MAIX-III AXera-Pi：Axera AX620A SoC，包含四核 ARM Cortex-A7 CPU 和 3.6 TOPS @ int8 的 NPU。
Toybrick RV1126：Rockchip RV1126 SoC，配备四核 ARM Cortex-A7 CPU 和 2.0 TOPS 的 NPU。

RISC-V：

StarFive VisionFive 2：StarFive JH7110 SoC，搭载 RISC-V 四核处理器，可睿频至 1.5GHz，以及 Imagination 公司的 IMG BXE-4-32 MC1 GPU，工作频率最高可达 600MHz。
Allwinner Nezha D1：Allwinner D1 SoC，配备 1.0 GHz 单核 RISC-V Xuantie C906 CPU，支持 RVV 0.7.1。目前仅对 YuNet 进行了测试。更多详情请访问此处。

重要提示：

上表中各硬件配置列下的数据表示一次推理（预处理、前向传播和后处理）所用的时间。
时间数据为经过若干次预热后 10 次运行的平均值。针对某些特定模型可能会采用不同的度量标准。
所有基准测试结果的批大小均为 1。
--- 表示该模型无法在该设备上运行。
更多关于不同模型基准测试的详细信息，请查看 benchmark/config。

示例展示

以下列出部分示例。更多内容可在各模型目录中找到！

人脸检测：YuNet

最大自拍

人脸识别：SFace

SFace 演示

面部表情识别：Progressive Teacher

FER 演示

人体分割：PP-HumanSeg

图像分割：EfficientSAM

SAM 展示

车牌检测：LPD_YuNet

车牌检测

物体检测：NanoDet 和 YOLOX

NanoDet 演示

YOLOX 演示

物体跟踪：VitTrack

摄像头演示

手掌检测：MP-PalmDet

手掌检测

手部姿态估计：MP-HandPose

手部姿态估计

人员检测：MP-PersonDet

人员检测

姿态估计：MP-Pose

姿态估计

QR码检测与解析：WeChatQRCode

QR码

中文文本检测：PPOCR-Det

英文文本检测 PPOCR-Det

gsoc

使用 CRNN 进行文本检测

crnn_demo

许可证

OpenCV Zoo 采用 Apache 2.0 许可证许可。请参阅各模型的许可证信息。

OpenCV Zoo 快速上手指南

OpenCV Zoo 是一个专为 OpenCV DNN 模块优化的模型库，提供了多种计算机视觉任务（如人脸检测、物体识别、图像分割等）的预训练模型及多平台性能基准测试。

1. 环境准备

操作系统：支持 Linux, Windows, macOS (x86-64, ARM, RISC-V 架构均经过测试)。
Python 版本：建议 Python 3.6 及以上。
前置依赖：
- git 和 git-lfs (用于下载大文件模型)。
- pip (Python 包管理工具)。

注意：部分高性能硬件（如华为 Ascend NPU、Amlogic NPU 等）需要编译开启特定后端（CANN 或 TIM-VX）的 OpenCV 版本，普通用户直接使用 CPU/GPU 后端即可。

2. 安装步骤

第一步：安装/升级 OpenCV Python 包

建议使用国内镜像源加速安装：

python3 -m pip install opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple
# 若已安装，请升级至最新版
python3 -m pip install --upgrade opencv-python -i https://pypi.tuna.tsinghua.edu.cn/simple

第二步：克隆项目并下载模型

本项目使用 Git LFS 存储模型文件，需确保已安装 git-lfs。

# 1. 安装 git-lfs (Ubuntu/Debian 示例)
sudo apt-get install git-lfs

# 2. 初始化 git-lfs
git lfs install

# 3. 克隆仓库 (推荐使用国内镜像或代理加速，若网络通畅可直接使用官方地址)
git clone https://github.com/opencv/opencv_zoo && cd opencv_zoo

# 4. 拉取模型文件
git lfs pull

3. 基本使用

每个模型目录下都包含独立的演示脚本。以下以 YuNet 人脸检测 为例展示最简使用流程。

运行示例脚本

进入对应模型目录并运行演示代码：

cd models/face_detection_yunet
python3 demo.py --input ../../images/selfie.jpg

代码调用示例

你也可以在自己的 Python 项目中直接调用模型。以下是加载 YuNet 并进行推理的最小化代码示例：

import cv2 as cv
import cv2.dnn as dnn

# 1. 加载模型文件路径
model_path = "models/face_detection_yunet/face_detection_yunet_2023mar.onnx"
config_path = "models/face_detection_yunet/face_detection_yunet_2023mar.py"

# 2. 创建检测器对象 (OpenCV Zoo 提供的辅助类通常在模型目录的 python 文件夹中，或直接使用 DNN 接口)
# 这里展示通用的 DNN 加载方式
net = cv.dnn.readNetFromONNX(model_path)

# 3. 读取图像
img = cv.imread("images/selfie.jpg")
h, w = img.shape[:2]

# 4. 预处理 (具体参数需参考各模型的文档，此处为 YuNet 典型配置)
blob = cv.dnn.blobFromImage(img, 1.0, (w, h), (104, 117, 123), swapRB=False)

# 5. 推理
net.setInput(blob)
outputs = net.forward()

# 6. 后处理与结果解析
# (具体解码逻辑请参考 models/face_detection_yunet/demo.py 中的实现)
print("Inference completed. Check demo.py for full post-processing logic.")

提示：为了获得最佳体验，建议直接阅读各模型文件夹下的 demo.py 脚本，其中包含了完整的预处理、推理和后处理逻辑。所有支持的模型列表及详细用法请参阅项目根目录下的 models 文件夹。

版本历史

4.10.02024/06/04

4.9.02023/12/28

常见问题

使用 face_detection_yunet 模型时，为什么大尺寸人脸无法被检测到或报错？

在 Java 中使用 FaceRecognizerSF.feature() 时遇到 'shape[i] == 1' 断言失败错误怎么办？

pose_estimation_mediapipe 模型的输出结果为何与预期不符或存在偏差？

VitTracker 在处理包含大量黑色像素的视频帧时为何会因内存不足崩溃？

object_tracking_vittrack 模型是基于什么论文训练的？是否支持 TensorRT？

FaceDetectorYN 和 FaceRecognizerSF 在较大尺寸的人像图片上表现不佳怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 141.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent