dlstreamer

600 190 中等 1 次阅读昨天MIT插件开发框架

AI 解读由 AI 自动生成，仅供参考

DL Streamer 是一款基于 GStreamer 构建的开源流媒体分析框架，专为在云端或边缘端打造复杂的媒体分析流水线而设计。它核心解决的是如何高效处理音视频流并从中提取价值的问题，能够实时检测、分类、追踪和统计画面中的人、物体及事件，广泛适用于零售分析、仓储管理、工业质检及安全监控等场景。

这款工具主要面向需要开发视频智能分析应用的开发者与系统架构师。其独特亮点在于深度的硬件优化与灵活的扩展性：推理插件基于 OpenVINO™ 引擎，充分释放 Intel CPU、GPU 及 VPU 的性能潜力；视频编解码利用 VA-API 实现 GPU 加速；图像处理则融合了 OpenCV 与 DPC++ 技术。此外，DL Streamer 支持 OpenVINO IR 和 ONNX 多种模型格式，兼容 YOLO、ResNet 等主流算法骨架，并提供丰富的 C/C++ 与 Python 示例及预训练模型资源，帮助用户快速搭建从数据采集到智能决策的全链路应用，大幅降低高性能媒体分析系统的开发门槛。

使用场景

某大型连锁超市需要在边缘端部署一套实时客流分析系统，以监控货架前的顾客停留时间并统计热区分布。

没有 dlstreamer 时

开发周期漫长：团队需手动编写代码串联视频解码、AI 推理（如 YOLO 模型）和后处理逻辑，不同组件间接口适配耗时数周。
硬件性能浪费：难以充分利用 Intel CPU、GPU 或 VPU 的加速能力，导致多路视频流分析时帧率低下，无法满足实时性要求。
运维部署复杂：缺乏统一的流水线管理，每次更新算法模型或调整参数都需要重新编译整个应用，云端与边缘端环境一致性难保障。
功能扩展困难：若想增加“跌倒检测”或“声音分类”等新功能，往往需要重构底层架构，系统耦合度极高。

使用 dlstreamer 后

快速构建流水线：基于 GStreamer 插件机制，通过简单的配置文件或命令行即可将解码、OpenVINO 推理和 OpenCV 后处理组装成复杂管道，开发时间缩短至几天。
极致性能释放：dlstreamer 自动调用 VA-API 进行硬编解码，并针对 Intel 架构优化推理引擎，轻松支持多路高清视频流的并发实时分析。
灵活迭代部署：支持热插拔式修改 pipeline 元素，更换模型或调整逻辑无需重新编译，配合 Docker 镜像可实现云边端一键同步部署。
生态兼容性强：直接复用数百个现有 GStreamer 插件及 Open Model Zoo 中的预训练模型，轻松扩展人脸重识别、语义分割等高级分析功能。

dlstreamer 通过标准化的媒体分析流水线框架，让开发者从繁琐的底层集成中解放出来，专注于业务逻辑创新与边缘智能的高效落地。

运行环境要求

操作系统

Linux (Ubuntu)

GPU

非必需但推荐用于加速
支持 Intel GPU/VPU (通过 VA-API 和 OpenVINO)，未提及 NVIDIA/CUDA 需求

内存

未说明

依赖

notes该工具主要优化用于 Intel 硬件平台 (CPU, GPU, VPU)。视频编解码利用基于 VA-API 的 GPU 加速。支持 OpenVINO IR 和 ONNX 格式的模型。可通过 APT、Docker 或源码编译安装，官方文档重点提供了 Ubuntu 系统的安装指南。

python支持 Python (具体版本未在 README 中明确，通常需 3.8+)

GStreamer

OpenVINO™ inference engine

VA-API (gstreamer-vaapi)

OpenCV

DPC++

快速开始

英特尔® 深度学习流媒体（Intel® DL Streamer）管道框架

DL Streamer 现已成为 Open Edge Platform 的一部分

概述

深度学习流媒体（DL Streamer）管道框架是一个开源的流媒体分析框架，基于 GStreamer* 多媒体框架，用于在云端或边缘端构建复杂的媒体分析管道。

媒体分析是对音频和视频流进行分析，以检测、分类、跟踪、识别和计数对象、事件和人员。分析结果可用于采取行动、协调事件、识别模式，并在多个领域中获得洞察：零售商店和活动场馆分析、仓库和停车场管理、工业检测、安全与法规遵从、安防监控等众多应用。

后端库

DL Streamer 管道框架针对性能以及基于不同后端库构建的 GStreamer* 插件之间的功能互操作性进行了优化：

推理插件使用 OpenVINO™ 推理引擎，该引擎针对英特尔 CPU、GPU 和 VPU 平台进行了优化。
视频解码和编码插件利用基于 VA-API 的 GPU 加速。
图像处理插件基于 OpenCV 和 DPC++ 构建。
此外，还有数百个其他 GStreamer* 插件，它们基于各种开源库，用于媒体的输入输出、多路复用与解复用、解码与编码。

此页面包含本仓库提供的元素列表。

先决条件

详细信息请参阅系统要求。

安装

安装选项请参阅安装指南：

要查看已安装组件的完整列表，请参阅适用于 Ubuntu 24 的 Dockerfile 内容。

示例

示例提供 C/C++ 和 Python 编程版本，以及 gst-launch 命令行和脚本形式。

模型

DL Streamer 支持 OpenVINO™ IR 和 ONNX* 格式的模型，涵盖视觉语言模型、目标检测、目标分类、人体姿态估计、声音分类、语义分割等多种应用场景，使用的骨干网络包括 SSD、MobileNet、YOLO、Tiny YOLO、EfficientDet、ResNet、FasterRCNN 等。

完整的支持的模型列表请参见，其中包括使用 Intel® Geti™ 软件预训练的模型；您也可以在 OpenVINO™ 开放模型动物园中探索超过 70 种预训练模型，并参考相应的 model-proc 文件（预处理和后处理规范）。

其他实用链接

* 其他名称和品牌可能属于其各自的所有者。

许可证

DL Streamer 项目采用 MIT 许可证授权。

Intel® DL Streamer 快速上手指南

Intel® Deep Learning Streamer (DL Streamer) 是一个基于 GStreamer 的开源流媒体分析框架，专为云端和边缘端的复杂媒体分析管道设计。它利用 OpenVINO™ 进行推理加速，支持对象检测、分类、跟踪等多种 AI 任务。

1. 环境准备

系统要求

操作系统: 推荐 Ubuntu 20.04, 22.04 或 24.04 (64 位)。
硬件平台: 兼容 Intel CPU、集成显卡 (iGPU)、独立显卡 (dGPU) 及 VPU (如 Movidius)。
驱动依赖:
- 若使用 GPU 加速，需安装最新的 Intel GPU 驱动程序。
- 确保已安装 libva-dev 和 gstreamer 相关基础库。

注意: 详细硬件兼容性列表请参考官方 System Requirements。

2. 安装步骤

DL Streamer 提供多种安装方式，推荐初学者使用 Docker 方式以快速体验，生产环境可选择 APT 包安装。

方式一：使用 Docker（推荐）

这是最快捷的方式，无需配置本地依赖，直接拉取预构建镜像运行。

# 拉取最新稳定版镜像
docker pull ghcr.io/open-edge-platform/dlstreamer:latest

# 运行容器（挂载当前目录并启用 GPU 权限）
docker run --rm -it --device=/dev/dri:/dev/dri \
  -v $(pwd):/home/user/work \
  ghcr.io/open-edge-platform/dlstreamer:latest

方式二：通过 APT 包安装 (Ubuntu)

适用于需要直接集成到本地系统的场景。

# 1. 添加 DL Streamer 仓库密钥
sudo apt install -y wget gnupg
wget -O - https://repositories.intel.com/gpu/intel-graphics.key | \
  sudo gpg --dearmor --output /usr/share/keyrings/intel-graphics.gpg

# 2. 添加仓库源 (以 Ubuntu 22.04 为例，请根据实际版本调整 codename)
echo "deb [arch=amd64 signed-by=/usr/share/keyrings/intel-graphics.gpg] \
  https://repositories.intel.com/gpu/ubuntu jammy/lts/2350 unified" | \
  sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list

# 3. 更新包列表并安装
sudo apt update
sudo apt install -y intel-dlstreamer

方式三：源码编译

如需自定义开发或修改底层代码，请参考编译指南。

3. 基本使用

DL Streamer 的核心是通过 GStreamer 管道串联视频输入、AI 推理和视频输出。以下是一个最简单的示例，使用预训练模型对视频流中的人脸进行检测并绘制边框。

前置准备：下载模型

确保已下载 OpenVINO 格式的人脸检测模型（例如 face-detection-adas-0001）。你可以从 Open Model Zoo 获取，或使用 omz_downloader 工具：

omz_downloader --name face-detection-adas-0001

运行示例管道

以下命令使用 gst-launch-1.0 构建一个完整的分析管道：

读取测试视频文件。
解码视频。
加载 OpenVINO 模型进行人脸检测。
将检测结果绘制在视频帧上。
显示输出窗口。

gst-launch-1.0 filesrc location=test_video.mp4 ! decodebin ! \
gvadetect model=models/intel/face-detection-adas-0001/FP32/face-detection-adas-0001.xml \
            model-proc=models/intel/face-detection-adas-0001/face-detection-adas-0001.json \
            name=detect ! gvawatermark name=draw ! fpsdisplaysink video-sink=xvimagesink sync=false

参数说明：

gvadetect: DL Streamer 的核心推理插件，用于加载模型并执行检测。
model: 指向 .xml 格式的 OpenVINO 模型文件路径。
model-proc: 指向预处理和后处理配置文件（通常与模型配套提供）。
gvawatermark: 将推理结果（边界框、标签）绘制到视频帧上。
fpsdisplaysink: 显示视频并实时打印 FPS 性能数据。

Python 开发示例

除了命令行，DL Streamer 也支持 Python API 构建更复杂的逻辑。在 Docker 容器中，你可以参考 samples/python 目录下的脚本直接运行：

python3 samples/python/object_detection.py --input test_video.mp4

更多高级用法、自定义元素开发及完整 API 参考，请访问 Developer Guide。

版本历史

v2026.0.02026/03/24

v2025.1.22025/12/19

v2025.2.02025/12/19

v2025.0.1.32025/04/15

v2025.0.1.22025/03/10

v2025.0.12025/02/19

2025.0.02025/01/23

2024.3.02024/12/20

v2024.2.22024/11/29

v2024.2.12024/10/31

v2024.2.02024/09/30

v2024.1.22024/08/30

v2024.1.12024/07/29

v2024.1.02024/06/27

v2024.0.22024/05/29

v2024.0.12024/04/25

v2024.02024/03/27

2023.0-release2023/10/02

2022.3-release2023/03/03

2022.2-release2022/10/07

常见问题

运行 GStreamer 管道连接摄像头时出现 'Internal data stream error' 和 'not-negotiated' 错误怎么办？

如何在 DL Streamer 中正确使用自定义的 YOLOv8 模型？

在 GPU 上启用共享内存（vaapi-surface-sharing）时出现 DRM_IOCTL_I915_GEM_APERTURE 失败错误如何解决？

为什么 YOLOv8 比 YOLOv4 Tiny 占用更多的 CPU 资源？如何优化性能？

使用自定义 YOLOv4 模型时，如何正确配置 model-proc JSON 文件以避免激活函数错误？

如何在同一台机器或 Docker 容器中同时运行多个 DL Streamer 实例处理不同的摄像头流？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|2天前

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像