FastMOT

1.2k 255 中等 2 次阅读 3周前MIT开发框架图像视频

AI 解读由 AI 自动生成，仅供参考

FastMOT 是一个高效多目标跟踪系统，专为实时视频分析设计，结合了 YOLO 目标检测、Deep SORT 跟踪与 KLT 光流插值技术，在保持高精度的同时大幅提升运行速度。它解决了传统跟踪方法在复杂场景（如摄像头移动、目标密集）中速度慢、易丢失的问题，通过“隔 N 帧检测、中间帧用光流补全”的策略，显著降低计算负担，即使在 Jetson 等嵌入式设备上也能稳定运行。系统还支持相机运动补偿，能有效应对航拍或移动摄像头场景，这是许多同类工具难以处理的痛点。FastMOT 使用 TensorRT 加速推理，核心算法通过 Numba 优化，兼顾性能与灵活性，支持 YOLOv4、SSD 多种检测器，并兼容多类别跟踪。适合计算机视觉开发者、机器人与安防系统研究人员使用，尤其适合需要在边缘设备部署实时跟踪的项目。普通用户无需直接使用，但可通过集成其成果应用于智能监控、交通分析等场景。在 Jetson Xavier NX 上最高可达 42 FPS，桌面端更可突破 150 FPS，是兼顾精度与效率的实用之选。

使用场景

某智慧物流园区的运维团队正在部署一套自动巡检系统，需实时追踪搬运机器人、叉车和人员的运动轨迹，以优化路径规划并预防碰撞事故。系统部署在Jetson Xavier NX边缘设备上，要求7×24小时稳定运行。

没有 FastMOT 时

原有基于Deep SORT的方案每秒仅能处理8~10帧，无法满足实时监控需求，频繁出现目标丢失。
移动摄像头因园区AGV运行导致画面抖动，传统跟踪器无法补偿运动，轨迹出现严重漂移。
每帧都运行YOLO检测，导致GPU负载过高，设备持续过热，每天需重启2~3次。
多目标交叉时ID频繁切换，运维人员需手动核对异常轨迹，日均处理30+误报。
系统延迟高达1.5秒，当机器人突然变向时，预警系统无法及时响应，已发生2起轻微剐蹭。

使用 FastMOT 后

通过KLT插值与每5帧检测一次的策略，系统稳定运行在18~22 FPS，响应延迟降至0.3秒内。
内置相机运动补偿模块有效消除AGV震动带来的画面偏移，轨迹平滑度提升70%。
TensorRT加速+异步推理使GPU负载降低40%，设备连续运行72小时无过热宕机。
ID切换率下降85%，目标在遮挡后仍能准确重识别，误报数量减少至每周不足5次。
实时轨迹数据直接接入调度系统，自动优化机器人路径，碰撞事故归零。

FastMOT 让边缘端的多目标跟踪从“勉强可用”升级为“可靠支撑”，真正实现了高精度、低延迟、零宕机的工业级实时监控。

运行环境要求

操作系统

Linux

GPU

需要 NVIDIA GPU，显存建议 8GB+，CUDA >= 10

内存

未说明

依赖

notes建议使用 NVIDIA JetPack 4.4+ 在 Jetson 设备上部署；首次运行需下载约数GB模型文件并编译 TensorRT 插件；x86 系统推荐使用 Docker 部署；需 NVIDIA 驱动版本 >= 450（Ubuntu 18.04）或 >= 465.19.01（Ubuntu 20.04）；SSD 模型需 VOC 数据集进行 INT8 校准（不支持 Ubuntu 20.04）；首次运行因 Numba 编译会较慢。

python3.x

opencv-python>=3.3

numpy>=1.17

scipy>=1.5

numba==0.48

cupy==9.2

tensorflow<2.0

onnx==1.4.1

快速开始

FastMOT

说明

FastMOT是一款自定义的多目标跟踪器，实现了以下功能：

YOLO检测器
SSD检测器
Deep SORT + OSNet ReID
KLT跟踪器
相机运动补偿

像Deep SORT这样的两阶段跟踪器依次运行检测和特征提取，这往往成为性能瓶颈。FastMOT大幅提升了整个系统的运行速度，即使在Jetson上也能实现实时运行。运动补偿则改善了相机移动场景下的跟踪效果，而Deep SORT和FairMOT在此类场景中表现不佳。

为了实现更快的处理速度，FastMOT仅每隔N帧运行一次检测器和特征提取器，而KLT则高效地填补空缺。FastMOT还会重新识别那些移出画面的目标，以保持它们的ID不变。

YOLOv4是在CrowdHuman数据集上训练的（mAP@0.5为82%），SSD使用的是TensorFlow预训练的COCO模型。检测和特征提取均采用TensorRT后端，并进行异步推理。此外，包括KLT、卡尔曼滤波器和数据关联在内的大部分算法都通过Numba进行了优化。

性能

在MOT20训练集上的结果

检测器跳帧	MOTA	IDF1	HOTA	MOTP	MT	ML
N = 1	66.8%	56.4%	45.0%	79.3%	912	274
N = 5	65.1%	57.1%	44.3%	77.9%	860	317

在MOT17序列上的FPS

序列	密度	FPS
MOT17-13	5 - 30	42
MOT17-04	30 - 50	26
MOT17-03	50 - 80	18

性能评估使用了YOLOv4，并基于TrackEval工具。需要注意的是，YOLOv4和OSNet均未在MOT20数据集上进行训练或微调，因此训练集上的结果具有良好的泛化能力。FPS结果是在Jetson Xavier NX上获得的（20W双核模式）。

FastMOT的MOTA得分接近MOT Challenge中的最先进跟踪器。增加N对MOTA的影响较小。跟踪速度最高可达42 FPS，具体取决于目标数量。对于像Jetson Nano这样资源受限的设备，建议使用更轻量级的模型（例如YOLOv4-tiny）。在桌面CPU/GPU上，FPS预计在50 - 150之间。

要求

CUDA >= 10
cuDNN >= 7
TensorRT >= 7
OpenCV >= 3.3
Numpy >= 1.17
Scipy >= 1.5
Numba == 0.48
CuPy == 9.2
TensorFlow < 2.0（用于支持SSD）

x86 Ubuntu安装步骤

确保已安装nvidia-docker。镜像要求Ubuntu 18.04的NVIDIA驱动版本>=450，Ubuntu 20.04的驱动版本>=465.19.01。构建并运行Docker镜像：

# 对于Ubuntu 20.04，添加--build-arg TRT_IMAGE_VERSION=21.05
# 添加--build-arg CUPY_NVCC_GENERATE_CODE=...以加速针对你的GPU的构建，例如“arch=compute_75,code=sm_75”
docker build -t fastmot:latest .

# 如果无法在容器内可视化，请先运行xhost local:root
docker run --gpus all --rm -it -v $(pwd):/usr/src/app/FastMOT -v /tmp/.X11-unix:/tmp/.X11-unix -e DISPLAY=unix$DISPLAY -e TZ=$(cat /etc/timezone) fastmot:latest

Jetson Nano/TX2/Xavier NX/Xavier安装步骤

确保已安装JetPack >= 4.4，并运行脚本：

./scripts/install_jetson.sh

下载模型

包含预训练的OSNet、SSD以及我的YOLOv4 ONNX模型。

./scripts/download_models.sh

构建YOLOv4 TensorRT插件

cd fastmot/plugins
make

下载VOC数据集用于INT8校准

仅适用于SSD（不支持Ubuntu 20.04）

./scripts/download_data.sh

使用方法

  python3 app.py --input-uri ... --mot

图片序列：--input-uri %06d.jpg
视频文件：--input-uri file.mp4
USB网络摄像头：--input-uri /dev/video0
MIPI CSI摄像头：--input-uri csi://0
RTSP流：--input-uri rtsp://<user>:<password>@<ip>:<port>/<path>
HTTP流：--input-uri http://<user>:<password>@<ip>:<port>/<path>

使用--show可视化，--output-uri保存输出，--txt生成符合MOT标准的结果。

查看所有选项的帮助信息：

  python3 app.py -h

注意，首次运行会因Numba编译而较慢。若要在x86上使用FFMPEG后端，请将此处的WITH_GSTREAMER设为False。

更多选项可在cfg/mot.json中配置

设置与源数据或相机配置相对应的resolution和frame_rate（可选）。这些参数对于图片序列、相机源和保存txt结果是必需的。列出USB/CSI摄像头的所有配置：
```
v4l2-ctl -d /dev/video0 --list-formats-ext
```
若需切换网络，修改检测器下的model。例如，你可以从SSDInceptionV2、SSDMobileNetV1或SSDMobileNetV2中选择SSD。
如果追求更高的精度且FPS不是问题，可以降低detector_frame_skip。同样，提高detector_frame_skip以提升跟踪速度，但会牺牲一些精度。你还可以调整max_age，使max_age × detector_frame_skip ≈ 30。
修改visualizer_cfg以切换绘图选项。
所有参数都在API中详细说明。

跟踪自定义类别

FastMOT可以轻松扩展到自定义类别（例如车辆）。你需要分别对YOLO和ReID网络进行该对象类别的训练。关于YOLO训练，请参考Darknet，ReID训练请参考fast-reid。训练完成后，将权重转换为ONNX格式。从tensorrt_demos改编的TensorRT插件仅兼容Darknet。

FastMOT还支持多类别跟踪。建议为每个类别单独训练ReID网络，以便分别提取特征。

将YOLO转换为ONNX

安装ONNX 1.4.1版本（而非最新版本）
```
pip3 install onnx==1.4.1
```

使用您的自定义cfg和权重进行转换

./scripts/yolo2onnx.py --config yolov4.cfg --weights yolov4.weights

添加自定义YOLOv3/v4

继承fastmot.models.YOLO类，方法参考这里：https://github.com/GeekAlexis/FastMOT/blob/32c217a7d289f15a3bb0c1820982df947c82a650/fastmot/models/yolo.py#L100-L109

ENGINE_PATH : Path
    TensorRT引擎的路径。
    如果未找到，则会在运行时从ONNX模型转换TensorRT引擎，并缓存以备后续使用。
MODEL_PATH : Path
    ONNX模型的路径。
NUM_CLASSES : int
    训练过的总类别数。
LETTERBOX : bool
    调整大小时保持宽高比。
NEW_COORDS : bool
    每个YOLO层的new_coords Darknet参数。
INPUT_SHAPE : tuple
    输入尺寸，格式为`(channel, height, width)`。
LAYER_FACTORS : List[int]
    每个YOLO层相对于输入尺寸的缩放因子。
SCALES : List[float]
    每个YOLO层的scale_x_y Darknet参数。
ANCHORS : List[List[int]]
    按每个YOLO层分组的锚点。

注意：锚点顺序可能与Darknet cfg文件中的顺序不一致。您需要根据Darknet cfg中的mask索引，为每个YOLO层屏蔽掉不需要的锚点。与YOLOv4不同，YOLOv3和YOLOv3/v4-tiny的锚点通常采用反序排列。

使用fastmot.models.set_label_map设置类标签为您的目标类别。
修改cfg/mot.json：将yolo_detector_cfg中的model设置为添加的Python类名，并设置感兴趣的class_ids。您可能需要根据模型表现调整conf_thresh。

添加自定义ReID

继承fastmot.models.ReID类，方法参考这里：https://github.com/GeekAlexis/FastMOT/blob/32c217a7d289f15a3bb0c1820982df947c82a650/fastmot/models/reid.py#L50-L55

ENGINE_PATH : Path
    TensorRT引擎的路径。
    如果未找到，则会在运行时从ONNX模型转换TensorRT引擎，并缓存以备后续使用。
MODEL_PATH : Path
    ONNX模型的路径。
INPUT_SHAPE : tuple
    输入尺寸，格式为`(channel, height, width)`。
OUTPUT_LAYOUT : int
    模型输出的特征维度。
METRIC : {'euclidean', 'cosine'}
    用于匹配特征的距离度量。

修改cfg/mot.json：将feature_extractor_cfgs中的model设置为添加的Python类名。如果有多于一个类，需在列表feature_extractor_cfgs中添加更多特征提取器配置。您可能需要根据模型表现调整max_assoc_cost和max_reid_cost。

引用

如果您在项目或研究中觉得本仓库有用，请点赞并考虑引用：

@software{yukai_yang_2020_4294717,
  author       = {Yukai Yang},
  title        = {{FastMOT: 高性能基于Deep SORT和KLT的多目标跟踪}},
  month        = nov,
  year         = 2020,
  publisher    = {Zenodo},
  version      = {v1.0.0},
  doi          = {10.5281/zenodo.4294717},
  url          = {https://doi.org/10.5281/zenodo.4294717}
}

FastMOT 快速上手指南

环境准备

系统要求

CUDA ≥ 10
cuDNN ≥ 7
TensorRT ≥ 7
OpenCV ≥ 3.3
Python 3.6+

前置依赖

pip3 install numpy>=1.17 scipy>=1.5 numba==0.48 cupy==9.2
# SSD 支持需 TensorFlow < 2.0
pip3 install tensorflow<2.0

Jetson 用户：请确保已安装 JetPack ≥ 4.4

安装步骤

1. 克隆仓库

git clone https://github.com/GeekAlexis/FastMOT.git
cd FastMOT

2. 下载预训练模型

./scripts/download_models.sh

3. 构建 YOLOv4 TensorRT 插件

cd fastmot/plugins
make
cd ..

4. （可选）下载 VOC 数据集（仅 SSD 需要）

./scripts/download_data.sh

5. Jetson 设备一键安装（推荐）

./scripts/install_jetson.sh

x86 用户：如需使用 Docker，推荐使用国内镜像加速构建：
docker build --build-arg TRT_IMAGE_VERSION=21.05 -t fastmot:latest .

基本使用

最简运行命令（视频文件跟踪）

python3 app.py --input-uri file.mp4 --mot --show

支持的输入源

类型	示例
视频文件	`--input-uri file.mp4`
图像序列	`--input-uri %06d.jpg`
USB 摄像头	`--input-uri /dev/video0`
RTSP 流	`--input-uri rtsp://<user>:<password>@<ip>:<port>/<path>`

保存结果

python3 app.py --input-uri file.mp4 --mot --show --output-uri output.mp4 --txt

首次运行会编译 Numba，耗时较长，后续运行将显著加速。
所有参数配置可修改 cfg/mot.json 文件调整。

版本历史

v2.0.02021/08/11

v1.0.02020/11/28

常见问题

如何在 Jetson Xavier NX 上运行 FastMOT 并提升推理速度？

FastMOT 是否支持 RTX 3090 GPU 和 Ubuntu 20.04？

运行 app.py 时出现 'Unable to read video stream' 错误如何解决？

如何同时跟踪多个类别（如人和车）并使用不同的 ReID 模型？

FastMOT 是否支持 YOLOv4-Tiny + DeepSORT？

如何解决小目标高速运动时 ID 切换频繁的问题？

是否可以使用自定义训练的 YOLOv4 模型来跟踪自定义类别？

如何设置视频流的 buffer_size 参数以适配 1280x720@24fps 流？

在 Jetson 设备上运行时出现 TBB 版本过低错误如何修复？

FastMOT 是否支持多类别同时跟踪？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

使用场景

没有 FastMOT 时

使用 FastMOT 后

运行环境要求

快速开始

FastMOT

最新动态

说明

性能

在MOT20训练集上的结果

在MOT17序列上的FPS

要求

x86 Ubuntu安装步骤

Jetson Nano/TX2/Xavier NX/Xavier安装步骤

下载模型

构建YOLOv4 TensorRT插件

下载VOC数据集用于INT8校准

使用方法

跟踪自定义类别

将YOLO转换为ONNX

添加自定义YOLOv3/v4

添加自定义ReID

引用

FastMOT 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

1. 克隆仓库

2. 下载预训练模型

3. 构建 YOLOv4 TensorRT 插件

4. （可选）下载 VOC 数据集（仅 SSD 需要）

5. Jetson 设备一键安装（推荐）

基本使用

最简运行命令（视频文件跟踪）

支持的输入源

保存结果

版本历史

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow