Multi-Camera-Live-Object-Tracking

1.1k 292 较难 1 次阅读 4天前GPL-3.0图像

AI 解读由 AI 自动生成，仅供参考

Multi-Camera-Live-Object-Tracking 是一款基于 YOLO v4、Deep SORT 和 Flask 构建的开源系统，专为多摄像头实时交通监控与目标计数设计。它有效解决了传统单视角监控覆盖范围有限、跨镜头目标追踪困难以及复杂场景下计数不准等痛点，特别适用于需要统计人流车流或分析交通流向的场景。

该工具非常适合开发者、计算机视觉研究人员及智能交通系统的构建者使用。其核心亮点在于支持异步视频流处理，允许用户通过 ImageZMQ 将普通智能手机模拟为 IP 摄像头，从而以低成本搭建分布式监控网络。在算法层面，项目采用了基于 DETRAC 数据集训练的专业模型，并引入了低置信度过滤机制，显著降低了误检率。此外，它具备独特的“交叉线计数”逻辑，即使目标短暂丢失追踪后重新锁定，也能确保只被计数一次，同时支持按角度统计方向性流量并记录详细的时空数据。虽然模型主要针对中国交通场景优化，但其灵活的架构允许用户在云端部署并根据实际需求进行微调，是进行实时物体检测与追踪研究的优秀参考方案。

使用场景

某大型物流园区的安保团队需要实时统计进出闸口的货车流量，并监控仓储区的人员密度以优化调度。

没有 Multi-Camera-Live-Object-Tracking 时

依赖人工轮询多个监控屏幕进行计数，高峰期极易因视觉疲劳导致漏记或重复统计。
无法区分同一车辆在不同摄像头的反复出现，导致跨镜头的流量数据严重失真。
缺乏方向性识别能力，难以自动分辨车辆的“进入”与“离开”状态，需人工二次核对。
历史数据仅能依靠人工填写表格，无法按小时自动生成分类报表，数据分析滞后。
现有普通摄像头无法联动，若想增加覆盖范围需购买昂贵的专用智能分析硬件。

使用 Multi-Camera-Live-Object-Tracking 后

基于 YOLO v4 和 Deep SORT 算法自动完成多路视频流的实时检测与追踪，彻底消除人工计数误差。
利用唯一追踪 ID 和交叉线计数逻辑，确保每辆车无论经过几个镜头只被统计一次，数据精准可靠。
支持自定义角度配置方向计数，系统自动记录物体穿越的时间、坐标及角度，清晰区分进出流向。
自动按小时间隔生成总数量及分类（如轿车、卡车）报表，并详细记录每次穿越的具体细节供追溯。
可直接复用园区现有的普通 IP 摄像头甚至员工手机作为推流端，无需额外硬件投入即可部署上云。

Multi-Camera-Live-Object-Tracking 将原本分散且低效的人工监控转变为自动化、可量化的智能数据流，显著提升了物流调度的响应速度与决策准确性。

运行环境要求

操作系统

Linux
Windows

GPU

需要 NVIDIA GPU (测试使用 GTX 1070)，需安装 Tensorflow-GPU，具体 CUDA 版本未说明 (依赖 TF 1.14)

内存

未说明

依赖

notes项目提供 conda 环境配置文件 (environment.yml 用于 Linux/Mac, environment_windows.yml 用于 Windows)。作者测试硬件为 i7-8700K CPU 和 GTX 1070 GPU，在此配置下可运行两路约 10fps 的交通计数流。若不使用自定义训练的车辆模型，默认的人行追踪模型 (mars-small128.pb) 在车辆追踪任务上表现可能较差。模型训练涉及 Darknet 和 Keras 格式转换。

python3.6

tensorflow-gpu==1.14

keras==2.3.1

opencv-python==4.2.0

imagezmq

numpy==1.18.2

flask==1.1.1

pillow

Multi-Camera-Live-Object-Tracking hero image

快速开始

多摄像头实时目标跟踪

这个仓库包含了我关于目标检测与跟踪的一些项目。所有这些项目都可以部署在云服务器上。

你也可以利用自己的IP摄像头，并借助ImageZMQ实现异步处理。我写了一篇博客，介绍了如何使用ImageZMQ通过自己的智能手机进行视频流传输，点击这里查看。

Deep SORT与YOLO v4

请查看我的Deep SORT仓库，其中包含了我所使用的跟踪算法，支持TensorFlow 2.0、异步视频处理以及低置信度轨迹过滤等功能。

交通流量计数（链接）

该项目是目标计数应用的扩展版本。

（完整视频这里）

功能特点

使用来自DETRAC数据集生成的共计244,617张图像进行训练。我编写的转换代码可以在这里找到。
- 我参考了这篇论文，作为数据准备和训练的指导。
每个跟踪ID只计数一次。
通过检测被跟踪物体的运动轨迹与计数线的交点来统计数量。
- 因此，即使暂时丢失跟踪但随后以相同ID重新跟踪到的物体仍会被计入。
跟踪过程中采用了来自同一论文的低置信度轨迹过滤技术。
- 这种方法显著降低了误报率。
- 显示的跟踪对象会标注平均检测置信度。
- 跟踪到的类别由出现频率最高的检测类别决定。
可选择是否显示检测结果（但会隐藏平均检测置信度）。
支持连接多个IP摄像头。
可通过模拟IP摄像头进行视频流传输。
可根据角度配置不同方向的计数。
按设定的时间间隔记录每小时的计数结果。
- 总计数。
- 按类别计数。
记录每个被计数对象的交点详情。
- 交点发生时间。
- 交点坐标。
- 交点角度。
可部署在云服务器上。

需要注意的是，由于DETRAC数据集中不包含摩托车，因此摩托车将被忽略。此外，DETRAC数据集仅包含中国地区的交通图像，所以在其他国家可能难以正确检测某些车辆，因为缺乏相应的训练数据。例如，它可能会经常把两厢车误判为SUV，或者因颜色方案不同而无法识别出租车。

目标计数（链接）

该项目最初设计用于通过我自己的智能手机统计多个房间内当前的人数，服务器则远程托管。下图展示了对人和汽车的检测、跟踪及计数过程。

功能特点

统计当前视野内的对象数量。
跟踪功能可选。
支持连接多个IP摄像头。
按设定的时间间隔记录当前计数。
- 当前总人数。
- 按类别统计的人数。
可部署在云服务器上。

使用自己的智能手机作为IP摄像头

训练属于你自己的车辆跟踪模型（链接）

我使用带有v3标注的DETRAC训练数据集，训练了一个YOLO v4和Deep SORT模型。我提供了脚本，可以将DETRAC的训练图像和v3标注转换成适合YOLO v4模型以及Deep SORT跟踪模型训练的格式。

我先用Darknet框架训练了YOLO v4模型，然后使用Keras-to-YOLOv4仓库中的convert.py将其转换为Keras格式。Deep SORT模型则是基于余弦度量学习进行训练的。

如果你不想自己训练模型，这个仓库已经包含了来自原版Deep SORT仓库的预训练Deep SORT模型（mars-small128.pb）。你可以按照Keras-to-YOLOv4仓库中的说明，下载并转换一个已训练好的Darknet YOLO v4模型至Keras格式。另外，你也可以在我的Deep SORT与YOLOv4仓库中找到这些模型。

请注意，如果你选择不自己训练模型，那么车辆跟踪性能很可能会比你自己在DETRAC或其他交通数据集上训练的效果差。这主要是因为原版Deep SORT模型（mars-small128.pb）是针对人员跟踪训练的，而非车辆。不过，如果你的目标只是用这个应用来统计人数，那这应该不会成为大问题。

Deep SORT转换参数

DETRAC图像被转换为Market 1501训练格式。

遮挡阈值：忽略遮挡比例过高的车辆序列。
截断阈值：忽略截断比例过高的车辆序列。
出现次数：对于过于短暂的车辆序列（即图像数量不足），在考虑遮挡和截断比例后将被丢弃。

YOLO转换参数

DETRAC图像被转换为Darknet YOLO训练格式。

遮挡阈值：忽略遮挡比例过高的车辆序列。
截断阈值：忽略截断比例过高的车辆序列。

这两个模型均在DETRAC训练集上进行了训练和评估，但由于缺乏v3标注，目前尚未在测试集上进行评估，而且我也没有用于Deep SORT评估软件的MATLAB。不过，就我目前的使用场景而言，这样的效果已经足够好了。

使用的硬件

Nvidia GTX 1070显卡
i7-8700K处理器

简单来说，我可以同时运行两条大约10fps的交通流量计数流（如交通流量计数gif所示）。当然，这很大程度上取决于视频流的分辨率以及用于检测和跟踪的帧数。

YOLO v3 与 YOLO v4

我在刚开始进行目标计数项目时使用的是 YOLO v3，当时在开启跟踪功能的情况下只能达到约 10 FPS 的帧率，因此难以同时处理多个视频流。而改用 YOLO v4 后，不仅能够更轻松地以更高分辨率同时运行两个视频流，检测精度也有所提升。

依赖项

Tensorflow-GPU 1.14
Keras 2.3.1
opencv-python 4.2.0
ImageZMQ
numpy 1.18.2
Flask 1.1.1
pillow

本项目是在 Python 3.6 环境下构建并测试的。您可以使用 conda 环境文件来一次性安装所有依赖项。如果 environment.yml 文件无法正常工作，请在 Windows 系统上尝试使用 environment_windows.yml 文件。

致谢

Multi-Camera-Live-Object-Tracking 快速上手指南

本指南帮助开发者快速部署基于 YOLO v4 和 Deep SORT 的多摄像头实时目标跟踪与计数系统。该项目支持云端部署，并可通过 ImageZMQ 利用智能手机作为 IP 摄像头进行异步视频流处理。

环境准备

系统要求

操作系统: Linux (推荐) 或 Windows
Python 版本: 3.6 (项目构建与测试版本)
硬件建议:
- GPU: Nvidia GTX 1070 或更高 (用于加速推理)
- CPU: i7-8700K 或同等性能
- 注：在 GTX 1070 上可同时运行两路约 10fps 的交通计数流，具体帧率取决于分辨率和处理帧数。

前置依赖

项目主要依赖以下库：

Tensorflow-GPU 1.14
Keras 2.3.1
opencv-python 4.2.0
ImageZMQ
numpy 1.18.2
Flask 1.1.1
pillow

注意：本项目使用较旧版本的 TensorFlow (1.x) 和 Keras。若在中国大陆地区安装，建议配置国内镜像源以加速下载：

Pip 镜像：https://pypi.tuna.tsinghua.edu.cn/simple

Conda 镜像：https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/

安装步骤

推荐使用 Conda 管理环境，以确保依赖版本兼容。

克隆仓库

git clone https://github.com/LeonLok/Multi-Camera-Live-Object-Tracking.git
cd Multi-Camera-Live-Object-Tracking

创建并激活 Conda 环境

Linux/Mac 用户:

conda env create -f environment.yml
conda activate multi-camera-tracking

Windows 用户 (若上述文件失效):

conda env create -f environment_windows.yml
conda activate multi-camera-tracking

手动安装 (若 conda 文件不可用):

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow-gpu==1.14 keras==2.3.1 opencv-python==4.2.0 imagezmq numpy==1.18.2 flask==1.1.1 pillow

模型准备
- Deep SORT 模型: 仓库已包含预训练模型 mars-small128.pb (源自原始 Deep SORT 仓库，主要针对行人优化)。
- YOLO v4 模型:
  - 方案 A (推荐): 自行使用 DETRAC 数据集训练车辆检测模型以获得最佳效果（脚本位于 detrac_tools 目录）。
  - 方案 B (快速开始): 下载预训练的 Darknet YOLO v4 权重，并使用 keras-yolo4 仓库中的 convert.py 转换为 Keras 格式。
  - 注意: 若不针对交通数据微调，直接使用通用预训练模型可能导致车辆分类不准（如将掀背车误判为 SUV），但用于人数统计影响较小。

基本使用

本项目包含两个主要应用场景：交通计数 (Traffic Counting) 和 通用目标计数 (Object Counting)。

1. 启动交通计数服务

该模块专门用于统计通过特定线的车辆数量，支持方向判定和每小时记录。

cd traffic_counting
python main.py

功能特点:

基于轨迹与计数线的交点进行去重计数。
支持低置信度过滤以降低误报。
记录相交时间、坐标及角度。
局限: 由于训练数据 (DETRAC) 仅包含中国交通场景且无摩托车数据，摩托车将被忽略，部分国外车型可能识别不准。

2. 启动通用目标计数服务

该模块用于统计视野内的当前目标数量（如房间内的人数），支持多房间监控。

cd object_counting
python main.py

功能特点:

实时显示视野内目标总数及各类别数量。
跟踪功能可选。
按小时区间记录当前存量数据。

3. 使用智能手机作为 IP 摄像头

利用 ImageZMQ 将手机摄像头画面异步传输至服务器。

手机端: 安装支持 ZMQ 推流的 App 或使用作者提供的脚本（参考作者博客关于使用手机推流的教程）。
服务端: 确保 main.py 中配置了正确的 ZMQ 连接地址，即可接收多路手机视频流进行处理。

4. 云端部署

所有模块均可部署在云端服务器。启动后，通过 Flask 提供的 Web 接口访问视频流和统计数据。确保服务器防火墙开放相应端口。

常见问题

运行 camera_client.py 时出现 'AttributeError: NoneType object has no attribute flags' 错误怎么办？

如何获取或替换项目中的摄像头流地址（RTSP/HTTP）？

程序运行成功但浏览器中不显示视频画面，可能是什么原因？

遇到 'KeyError: ("yolo", "1")' 或 YOLO 流无法显示的问题如何解决？

没有网络摄像头或 IP 摄像头，如何使用本地视频文件进行测试？

修改代码使用本地视频后，摄像头流正常但 YOLO 检测流仍不显示怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|今天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频