Vision-Agents

7.6k 624 简单 1 次阅读昨天Apache-2.0开发框架Agent图像视频音频

AI 解读由 AI 自动生成，仅供参考

Vision-Agents 是由 Stream 推出的开源框架，旨在帮助开发者快速构建能够“看、听、理解”视频的多模态 AI 智能体。它解决了传统方案中视频处理延迟高、多模型整合困难以及实时交互体验不佳的痛点，让创建低延迟的视频 AI 应用变得简单高效。

这款工具特别适合需要开发实时视频交互应用的开发者，例如打造运动教练助手、无人机火情监测、物理治疗指导或互动游戏等场景。其核心优势在于极致的低延迟表现：利用 Stream 的边缘网络，用户可在 500 毫秒内快速加入会话，并将音视频延迟控制在 30 毫秒以内，确保对话流畅自然。

在技术架构上，Vision-Agents 具有高度的开放性与灵活性。它不仅支持原生调用 OpenAI、Gemini 和 Claude 等主流大模型的最新能力，还允许开发者灵活集成 YOLO、Roboflow 等目标检测模型，形成自定义的处理流水线。此外，它提供了覆盖 React、iOS、Android、Unity 等多平台的 SDK，并内置了语音活动检测（VAD）和智能轮转机制，让智能体能像真人一样进行自然的实时对话与工具调用。无论是初创团队还是资深工程师，都能借助 Vision-Agents 轻松将创意转化为现实的实时视频 AI 产品。

使用场景

一家智能健身初创公司正在开发一款基于摄像头的实时动作纠正应用，旨在通过视频分析指导用户完成标准的深蹲和硬拉动作。

没有 Vision-Agents 时

延迟过高导致反馈滞后：传统架构需先将视频上传至云端处理再返回结果，端到端延迟往往超过 500ms，用户做完动作后才收到错误提示，失去纠正意义。
多模型集成复杂：开发者需自行编写胶水代码串联 YOLO 姿态识别模型与大语言模型（LLM），维护不同 SDK 的兼容性耗费大量精力。
并发成本高昂：随着用户量增加，中心化服务器带宽和算力成本呈指数级上升，难以支撑大规模实时视频流分析。
交互体验生硬：缺乏原生的语音打断和自然对话机制，AI 教练只能单向播报，无法在用户提问时即时响应。

使用 Vision-Agents 后

毫秒级实时反馈：利用 Stream 的边缘网络，视频流直接接入模型，将音视频延迟控制在 30ms 以内，用户在动作变形瞬间即可听到纠正指令。
流水线式快速构建：通过内置的 YOLOPoseProcessor 插件，只需几行代码即可将姿态识别与 Gemini 实时大模型无缝结合，大幅缩短开发周期。
弹性边缘架构：借助分布式边缘节点处理视频流，显著降低中心服务器负载，以更低成本支撑高并发用户同时在线训练。
拟人化互动体验：原生支持 VAD（语音活动检测）和智能轮转机制，AI 教练能像真人一样倾听用户疑问并即时插话指导，交互自然流畅。

Vision-Agents 通过边缘计算与多模态模型的深度整合，将高延迟的视频分析任务转化为低延迟、可交互的实时智能体验。

运行环境要求

操作系统

未说明

GPU

可选
若使用 YOLO 等视觉处理器需 NVIDIA GPU（示例代码显示 device="cuda"），具体型号和显存未说明
若仅使用云端 LLM 可不依赖本地 GPU

内存

未说明

依赖

notes该工具主要作为编排框架，重度依赖外部 API（如 OpenAI, Gemini, Deepgram, ElevenLabs 等）和本地视觉模型插件。安装推荐使用 'uv' 包管理器。若运行本地视觉处理（如 YOLO），需自行配置 CUDA 环境；若仅调用云端多模态模型，则对本地硬件要求较低。支持通过插件扩展集成 Roboflow、Twilio 等服务。

python3.8+ (根据 PyPI badge 推断，具体版本需参考 PyPI 页面)

vision-agents

ultralytics (用于 YOLO)

torch (PyTorch, 用于自定义模型)

onnx (可选，用于模型推理)

stream-video-sdk (隐含，用于 Stream 网络)

快速开始

VisionAgents

Stream 开放的视觉智能体

PyPI - Python 版本

多模态 AI 智能体，能够观看、聆听并理解视频。

Vision Agents 为您提供构建智能化、低延迟视频体验所需的基石，这些体验由您的模型、基础设施和应用场景驱动。

核心亮点

视频 AI： 专为实时视频 AI 打造。可将 YOLO、Roboflow 等与 Gemini/OpenAI 实时结合。
低延迟： 快速加入（500 毫秒），并通过 Stream 的边缘网络将音视频延迟保持在 30 毫秒以内。
开放： 由 Stream 构建，但可与任何视频边缘网络配合使用。
原生 API： 提供来自 OpenAI (create response)、Gemini (generate) 和 Claude (create message) 的原生 SDK 方法——始终访问最新的 LLM 能力。
SDK： 面向 React、Android、iOS、Flutter、React Native 和 Unity 的 SDK，由 Stream 的超低延迟网络提供支持。

开始使用

步骤 1：通过 uv 安装

uv add vision-agents

步骤 2：（可选）安装包含额外集成的版本

uv add "vision-agents[getstream, openai, elevenlabs, deepgram]"

步骤 3：获取您的 Stream API 凭证

从 Stream 获取免费的 API 密钥。开发者每月可获得 333,000 分钟参与者时长，并通过 Maker 计划获得更多积分。

按照快速入门指南构建您的第一个智能体。

实际演示

https://github.com/user-attachments/assets/d1258ac2-ca98-4019-80e4-41ec5530117e

此示例展示了如何使用 YOLO 和 Gemini Live 构建高尔夫教练 AI。将快速目标检测模型（如 YOLO）与完整的实时 AI 结合，适用于多种不同的视频 AI 应用场景。例如：无人机火灾检测、体育/电子游戏指导、物理治疗、健身教练、Just Dance 类型的游戏等。

# 部分示例，完整示例请参见 examples/02_golf_coach_example/golf_coach_example.py
agent = Agent(
    edge=getstream.Edge(),
    agent_user=agent_user,
    instructions="阅读 @golf_coach.md",
    llm=gemini.Realtime(fps=10),
    processors=[ultralytics.YOLOPoseProcessor(model_path="yolo11n-pose.pt", device="cuda")],
)

功能特性

功能	描述
实时 WebRTC	直接将视频流传输至模型提供商，实现即时视觉理解。
视频处理	可插拔的处理器流水线，用于 YOLO、Roboflow 或自定义 PyTorch/ONNX 模型，在 LLM 调用前后进行处理。
轮次检测	通过 VAD、说话人分离和智能轮次管理，实现自然的对话流程。
工具调用 & MCP	在对话过程中执行代码和 API —— 解决线性问题、查询天气、进行电话通信，或调用任何 MCP 服务器。
电话集成	通过 Twilio 实现呼入和呼出语音通话，并支持双向音频流。
RAG	基于 TurboPuffer 向量检索或 Gemini FileSearch 的增强型生成技术。
记忆	智能体可通过 Stream Chat 在不同轮次和会话中回忆上下文信息。
文本回传通道	在通话期间静默地向智能体发送消息——例如教练叠加层、静默指令等。
生产就绪	内置 HTTP 服务器、Prometheus 指标、水平扩展和 Kubernetes 部署。

即插即用的集成

LLMs： OpenAI · Gemini · xAI · OpenRouter · Hugging Face · Kimi AI

实时服务： OpenAI Realtime · Gemini Live · AWS Nova Sonic · Qwen

STT： Deepgram · AssemblyAI · Fast-Whisper · Fish Audio · Wizper · Mistral Voxtral

TTS： ElevenLabs · Cartesia · Deepgram · AWS Polly · Pocket · Kokoro · Inworld · Fish Audio

视觉： Ultralytics · Roboflow · Moondream · NVIDIA Cosmos · Decart

虚拟形象： LemonSlice

轮次检测： Vogent · Smart Turn

其他： Twilio · TurboPuffer

文档

请在 VisionAgents.ai 查看完整文档。

快速入门： 语音 AI · 视频 AI

指南： MCP 与函数调用 · 视频处理器 · 电话呼叫 · RAG · 测试

生产环境： HTTP 服务器 · 部署 · Kubernetes · 水平扩展 · Prometheus 指标

示例

🔮 演示应用
语音代理（低延迟 + RAG + 文件搜索）构建能够基于知识进行推理、搜索文件并实时响应的高速语音代理。 • 低延迟语音交互 • 增强检索式响应 • 文件与知识搜索 >源代码与教程
实时教练与视频理解利用实时姿态跟踪和逐帧理解的处理器流水线，赋能互动式教练流程。 • 实时姿态跟踪 • 可操作的教练反馈 • 视频处理器流水线支持 >源代码与教程
视频重制与虚拟形象使用 Decart Lucy 等模型，构建虚拟试穿、风格化场景，或为您的代理赋予视觉形象。 • 实时视频重制 • 虚拟试穿体验 • 类似虚拟形象的视觉呈现 >源代码与教程
自定义视频模型（Roboflow、YOLO 等）训练并运行自定义计算机视觉模型，用于安全监控、内容审核及其他领域特定的工作流。 • 使用您自己的 CV 模型 • 实时内容审核流水线 • 安全与检测应用场景 >源代码与教程
工具、MCP 与电话呼叫连接外部 API 和服务，使代理能够在实时对话中验证数据并采取现实世界行动。 • 支持 MCP 和函数调用 • 基于 Twilio 的电话工作流 • 实时欺诈响应自动化 >电话 + RAG 示例 · >欺诈工作流示例

开发

请参阅 DEVELOPMENT.md

希望添加您的平台或提供商？请参阅创建您自己的插件，或联系 nash@getstream.io。

当前限制

视频 AI 在处理小尺寸文本时表现不佳——模型可能会产生幻觉，例如误读分数、标志等。
对于连续视频理解，较长会话（约 30 秒以上）会导致上下文质量下降。
大多数用例需要将专用模型（如 YOLO、Roboflow）与大型 LLM 结合使用。
实时模型需要音频或文本触发响应——仅靠视频本身无法生成输出。

星级历史

Vision-Agents 快速上手指南

Vision-Agents 是一个由 Stream 开源的多模态 AI 代理框架，专为实时视频和语音交互设计。它支持低延迟（<30ms）的视频流处理，可轻松集成 YOLO、Roboflow 等视觉模型与 Gemini、OpenAI 等大语言模型，适用于体育教练、安防监控、虚拟化身等场景。

环境准备

在开始之前，请确保满足以下系统要求：

操作系统: Linux, macOS, 或 Windows (WSL 推荐)
Python 版本: Python 3.9 - 3.12
包管理器: 推荐使用 uv (极速 Python 包安装器)，也可使用 pip
API 凭证:
- Stream API Key (用于低延迟视频网络，新用户每月赠送 333,000 参与分钟数)
- 对应的大模型 API Key (如 Google Gemini, OpenAI 等)
硬件加速 (可选): 若运行本地视觉模型 (如 YOLO)，建议配备 NVIDIA GPU 并安装 CUDA 驱动

安装步骤

1. 安装核心库

推荐使用 uv 进行安装，速度更快且依赖解析更精准：

uv add vision-agents

若使用 pip：

pip install vision-agents

2. 安装额外集成组件 (可选)

根据需求安装特定的服务商集成（如 Stream 视频网络、OpenAI、ElevenLabs 语音、Deepgram 转录等）：

uv add "vision-agents[getstream, openai, elevenlabs, deepgram]"

提示：国内开发者若遇到网络问题，可配置 uv/pip 使用国内镜像源（如清华源、阿里源）加速下载。

基本使用

以下是一个构建实时高尔夫教练 AI的最小化示例。该示例结合了 Ultralytics YOLO 进行姿态检测，并使用 Google Gemini Live 进行实时多模态交互。

代码示例

# 完整示例参考：examples/02_golf_coach_example/golf_coach_example.py
from vision_agents import Agent
from vision_agents.edge import getstream
from vision_agents.llm import gemini
from vision_agents.processors import ultralytics

# 初始化 Agent
agent = Agent(
    edge=getstream.Edge(),  # 使用 Stream 边缘网络实现低延迟传输
    agent_user=agent_user,  # 用户上下文对象
    instructions="Read @golf_coach.md", # 系统指令文件
    llm=gemini.Realtime(fps=10), # 使用 Gemini Realtime 模式，每秒处理 10 帧
    processors=[
        ultralytics.YOLOPoseProcessor(
            model_path="yolo11n-pose.pt", 
            device="cuda" # 指定使用 GPU 加速
        )
    ],
)

# 启动代理逻辑 (具体启动方式视应用场景而定，如 WebRTC 连接)
# await agent.run()

核心流程说明

配置 Edge: 通过 getstream.Edge() 接入低延迟视频网络，确保音视频延迟低于 30ms。
选择 LLM: 使用 gemini.Realtime 或其他支持的实时模型（如 OpenAI Realtime），实现“边看边听边说”。
挂载处理器: 在 processors 列表中注入计算机视觉模型（如 YOLO），可在发送给 LLM 前对视频帧进行预处理（如提取骨骼关键点、检测物体）。
运行: 结合前端 SDK (React/iOS/Android 等) 建立 WebRTC 连接，即可开始实时互动。

更多详细用法、MCP 工具调用及电话集成示例，请访问 VisionAgents.ai 官方文档。

版本历史

v0.5.02026/04/01

v0.4.72026/03/27

v0.4.62026/03/27

v0.4.52026/03/25

v0.4.42026/03/23

v0.4.32026/03/11

v0.4.22026/03/10

v0.4.12026/03/04

v0.4.02026/03/03

v0.3.82026/02/24

v0.3.72026/02/23

v0.3.62026/02/13

v0.3.52026/02/10

v0.3.42026/02/06

v0.3.32026/02/05

v0.3.22026/01/28

v0.3.02026/01/20

v0.2.102026/01/14

v0.2.92026/01/09

v0.2.82026/01/08

常见问题

为什么无法从 vision_agents.core.llm.events 导入 RealtimeTranscriptEvent？

为什么 Vision Agent 的 process_image 或 process_video 方法没有被调用，导致无法检测视频中的物体？

使用 uv 安装 vision-agents 时遇到 scipy 构建失败错误怎么办？

在 Windows 上安装 Vision Agents 时遇到 NumPy 编译错误如何解决？

遇到 JWTAuth 错误 'token used before issue at (iat)' 是什么原因？

如何在前端接收转录文本而不是使用 call.startTranscription？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

🔮 演示应用
语音代理（低延迟 + RAG + 文件搜索）构建能够基于知识进行推理、搜索文件并实时响应的高速语音代理。 • 低延迟语音交互 • 增强检索式响应 • 文件与知识搜索 >源代码与教程
实时教练与视频理解利用实时姿态跟踪和逐帧理解的处理器流水线，赋能互动式教练流程。 • 实时姿态跟踪 • 可操作的教练反馈 • 视频处理器流水线支持 >源代码与教程
视频重制与虚拟形象使用 Decart Lucy 等模型，构建虚拟试穿、风格化场景，或为您的代理赋予视觉形象。 • 实时视频重制 • 虚拟试穿体验 • 类似虚拟形象的视觉呈现 >源代码与教程
自定义视频模型（Roboflow、YOLO 等）训练并运行自定义计算机视觉模型，用于安全监控、内容审核及其他领域特定的工作流。 • 使用您自己的 CV 模型 • 实时内容审核流水线 • 安全与检测应用场景 >源代码与教程
工具、MCP 与电话呼叫连接外部 API 和服务，使代理能够在实时对话中验证数据并采取现实世界行动。 • 支持 MCP 和函数调用 • 基于 Twilio 的电话工作流 • 实时欺诈响应自动化 >电话 + RAG 示例 · >欺诈工作流示例