agents

615 86 简单 1 次阅读昨天Apache-2.0音频开发框架Agent其他

AI 解读由 AI 自动生成，仅供参考

VideoSDK AI Agents 是一个开源的 Python 框架，专为构建能够实时参与音视频会议的语音及多模态 AI 智能体而设计。它主要解决了开发者在打造生产级实时对话应用时面临的复杂技术挑战，如低延迟音频流处理、自动发言检测、打断机制以及媒体路由等繁琐的基础设施问题。

通过该框架，开发者可以将代理工作节点、AI 模型与用户设备无缝连接成一条低延迟管道，从而专注于核心业务逻辑而非底层通信细节。其最新 v1.0.0 版本引入了统一的 Pipeline 类，能够自动组合语音识别（STT）、大语言模型（LLM）、语音合成（TTS）及虚拟形象等组件，并智能选择最佳执行模式；同时提供基于装饰器的钩子系统，让数据拦截与变换更加灵活便捷。

这款工具非常适合需要快速开发实时语音助手、会议陪练或交互式客服系统的软件工程师与技术团队。无论是采用传统的级联模式还是最新的统一实时模型（如 Gemini Live），VideoSDK AI Agents 都能帮助开发者高效构建稳定、流畅且具备自然交互能力的智能应用。

使用场景

某在线教育平台希望为外教一对一课程引入"AI 陪练助手”，使其能实时加入视频教室，在学生卡壳时提供语音提示或纠正发音。

没有 agents 时

开发链路割裂：团队需分别对接语音识别（STT）、大模型（LLM）和语音合成（TTS）三个独立服务，手动编写代码串联数据流，耗时数周。
交互体验生硬：难以精准判断用户说话结束时机，导致 AI 频繁打断学生发言，或在学生说完后延迟过久才回应，破坏课堂节奏。
并发维护困难：随着课程量增加，音频流的低延迟传输和房间状态管理变得极其复杂，服务器资源消耗巨大且不稳定。
多模态扩展受阻：若想让学生看到 AI 的数字人形象或共享屏幕，需重新重构底层架构，几乎相当于重写项目。

使用 agents 后

流水线一键构建：利用 agents 统一的 Pipeline 类，只需配置组件即可自动连接 STT→LLM→TTS 全链路，将开发周期从数周缩短至几天。
拟人化实时互动：框架内置高精度的语音活动检测（VAD）和轮次判断机制，AI 能自然地在学生停顿时介入，支持随时打断，对话流畅度媲美真人。
基础设施托管：agents 自动处理音频流的低延迟路由与房间生命周期管理，开发者无需关心底层并发细节，系统稳定性显著提升。
多模态无缝集成：基于原生支持的视频房间能力，可轻松为 AI 添加虚拟形象或屏幕共享功能，无需改动核心逻辑即可升级交互维度。

agents 通过将复杂的实时音视频通信与 AI 推理链路封装为标准化流程，让开发者能专注于业务逻辑，快速打造出具备“真人感”的多模态智能助教。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具是一个用于构建实时语音和多模态 AI 代理的 Python 框架，需连接 VideoSDK 房间。运行前需要 VideoSDK 认证令牌和会议 ID，以及所使用第三方服务（如 OpenAI, Google Gemini, ElevenLabs 等）的 API 密钥。推荐使用 UV 作为包管理器来安装核心包和可选插件。支持级联模式（STT→LLM→TTS）、实时模式和混合模式。

python3.12+

videosdk-agents

videosdk-plugins-openai

videosdk-plugins-deepgram

videosdk-plugins-turn-detector

快速开始

VideoSDK AI Agents Banner

VideoSDK AI Agents

用于构建生产级、实时语音及多模态AI代理的开源Python框架。

PyPI - Version

VideoSDK AI Agents框架 是一个Python SDK，用于构建能够作为实时参与者加入VideoSDK房间的AI代理。它将您的代理工作进程、AI模型和用户设备连接成一条低延迟的统一流水线——自动处理音频流、发言轮次检测、打断以及媒体路由等问题，使您能够专注于代理逻辑本身。

VideoSDK AI Agents High Level Architecture

概述

VideoSDK AI Agents 是一个Python框架，允许您构建直接参与VideoSDK会议的语音及多模态AI代理。该框架管理代理的完整生命周期——从加入会议、处理实时音频，到运行STT → LLM → TTS流水线或接入统一的实时模型，再到处理发言轮次检测、VAD、打断以及干净地结束会话等环节。

v1.0.0 引入了一个统一的Pipeline类，取代了之前的CascadingPipeline和RealtimePipeline。您可以传入任意组合的组件——STT、LLM、TTS、VAD、发言轮次检测器、虚拟形象等，框架会自动将它们串联起来，并选择最优的执行模式。基于装饰器的钩子系统（@pipeline.on(...)）让您无需继承即可在任何阶段拦截并转换数据。

📚 SDK参考

代理框架的参考文档。

#	特性	描述
1	🎤 实时通信（音频/视频）	代理可以在会议中实时收听、发言并互动。
2	📞 SIP与电话集成	通过SIP无缝连接代理至电话系统，实现呼叫处理、路由及PSTN接入。
3	🧍 虚拟形象	可以构建或接入任何虚拟形象提供商——框架会自动处理音频路由、同步及清理等工作。
4	🤖 多模型支持	可与OpenAI、Gemini、AWS NovaSonic、Anthropic等集成。
5	🧩 级联模式	可跨不同提供商组合任意STT → LLM → TTS链条，获得完全的控制权和灵活性。
6	⚡ 实时模式	使用统一的实时模型（如OpenAI Realtime、AWS Nova Sonic、Gemini Live）以实现最低延迟。
7	🔀 混合模式	可混合使用级联和实时组件——例如自定义STT搭配实时模型，或实时模式结合自定义TTS。
8	🪝 流水线钩子	使用`@pipeline.on(...)`在任何阶段（STT、LLM、TTS、发言轮次）拦截并转换数据。
9	🛠️ 函数工具	通过任何外部工具或API调用扩展代理功能。
10	🌐 MCP集成	使用模型上下文协议（MCP）将代理连接到外部数据源和工具。
11	🔗 A2A协议	提供可靠的代理间路由，并基于关联性追踪请求。
12	🦜 LangChain & LangGraph	可将任何LangChain `BaseChatModel`或LangGraph `StateGraph`作为代理的LLM接入。
13	📊 可观测性	内置指标、OpenTelemetry追踪以及按组件划分的结构化日志记录。

[!IMPORTANT]

请给VideoSDK仓库加星标 ⭐️

即可第一时间获取新版本和更新通知。您的支持将帮助我们不断成长并改进VideoSDK！

流水线模式

所有代理都围绕一个Pipeline类构建。只需传入所需的组件，SDK便会自动选择合适的执行模式。

级联模式 — STT → LLM → TTS

您可以为每个环节自由搭配不同的服务提供商。当您需要自定义STT、特定的LLM行为或独特的TTS声音时，此模式最为适用。

async def start_session(context: JobContext):
    pipeline = Pipeline(
        stt=DeepgramSTT(),
        llm=GoogleLLM(),
        tts=CartesiaTTS(),
        vad=SileroVAD(),
        turn_detector=TurnDetector(),
    )
    session = AgentSession(agent=MyAgent(), pipeline=pipeline)
    await session.start(wait_for_participant=True, run_until_shutdown=True)

实时模式 — 统一模型实现最低延迟

在整个语音处理流程中使用单个实时模型。最适合响应延迟低于500毫秒的场景。

async def start_session(context: JobContext):
    pipeline = Pipeline(
        llm=GeminiRealtime(
            model="gemini-3.1-flash-live-preview",
            config=GeminiLiveConfig(voice="Leda", response_modalities=["AUDIO"]),
        )
    )
    session = AgentSession(agent=MyAgent(), pipeline=pipeline)
    await session.start(wait_for_participant=True, run_until_shutdown=True)

混合模式 — 自由组合

可以将外部 STT 与实时 LLM 结合使用，或者将实时模型与自定义 TTS 结合使用：

# 外部 STT → 实时 LLM
pipeline = Pipeline(stt=DeepgramSTT(), llm=OpenAIRealtime(...))

# 实时 LLM → 外部 TTS
pipeline = Pipeline(llm=OpenAIRealtime(...), tts=ElevenLabsTTS(...))

管道钩子 — 拦截任意阶段

@pipeline.on("stt")
async def clean_transcript(text: str) -> str:
    return text.strip()

@pipeline.on("llm")
async def route_llm(messages):
    if "transfer" in messages[-1].content:
        yield "正在为您转接。"  # 完全绕过 LLM

@pipeline.on("tts")
async def fix_pronunciation(text: str) -> str:
    return text.replace("VideoSDK", "Video S D K")

@pipeline.on("user_turn_start")
async def on_user_starts():
    print("用户正在讲话...")

可用的钩子点：stt · tts · llm · vision_frame · user_turn_start · user_turn_end · agent_turn_start · agent_turn_end

前置条件

在开始之前，请确保您已具备以下内容：

VideoSDK 身份验证令牌（可从 app.videosdk.live 生成）
- VideoSDK 会议 ID（可通过创建房间 API 或 VideoSDK 控制台生成）
Python 3.12 或更高版本
第三方 API 密钥：
- 您计划使用的各项服务的 API 密钥（例如，用于 LLM/STT/TTS 的 OpenAI、用于 TTS 的 ElevenLabs、用于 Gemini 的 Google 等）。

安装

使用 UV（推荐）

UV 是一个快速的 Python 包管理器，可自动处理虚拟环境和依赖关系管理。

如果尚未安装 UV，请参阅 UV 安装指南。

安装核心 VideoSDK AI 代理包：
```
uv add videosdk-agents
```

安装可选插件：

uv add videosdk-plugins-openai
uv add videosdk-plugins-deepgram

运行您的代理：
```
uv run python main.py
```

使用 pip

创建并激活一个 Python 3.12 或更高版本的虚拟环境。

macOS / Linux

python3 -m venv venv
source venv/bin/activate

Windows

python -m venv venv
venv\Scripts\activate

安装核心 VideoSDK AI 代理包
```
pip install videosdk-agents
```
安装可选插件。插件有助于集成不同的提供商以实现实时交互、STT、LLM、TTS 等功能。根据您的使用场景安装所需插件：
```
# 示例：安装话轮检测插件
pip install videosdk-plugins-turn-detector
```
👉 支持的插件（实时交互、LLM、STT、TTS、VAD、Avatar、SIP）列于下方的【支持的库与插件】部分。

开发环境设置

要在本地设置项目，请克隆仓库并以可编辑模式安装所有包（核心 + 所有插件）：

使用 UV（推荐）：

git clone https://github.com/videosdk-live/agents.git
cd agents
uv sync
uv run python examples/cascade_basic.py

使用 pip：

git clone https://github.com/videosdk-live/agents.git
cd agents
bash setup.sh
source venv/bin/activate
python examples/cascade_basic.py

生成 VideoSDK 会议 ID

在您的 AI 代理加入会议之前，您需要先创建一个会议 ID。可以通过 VideoSDK 的创建房间 API 来生成：

使用 cURL

curl -X POST https://api.videosdk.live/v2/rooms \
  -H "Authorization: YOUR_JWT_TOKEN_HERE" \
  -H "Content-Type: application/json"

有关创建房间 API 的更多详细信息，请参阅 VideoSDK 文档。

开始使用：您的第一个代理

快速入门

现在您已经安装了必要的软件包，就可以开始构建了！

第一步：创建自定义代理

首先，让我们通过继承基础 Agent 类来创建一个自定义语音代理：

from videosdk.agents import Agent, function_tool

# 外部工具
# async def get_weather(self, latitude: str, longitude: str):

class VoiceAgent(Agent):
    def __init__(self):
        super().__init__(
            instructions="您是一位乐于助人的语音助手，能够回答问题并协助完成任务。",
             tools=[get_weather] # 您可以在该作用域之外注册任何外部工具
        )

    async def on_enter(self) -> None:
        """当代理首次加入会议时调用"""
        await self.session.say("您好！今天有什么可以帮您的吗？")
    
    async def on_exit(self) -> None:
      """当代理退出会议时调用"""
        await self.session.say("再见！")

此代码定义了一个基本的语音代理，包含：

自定义指令，用于定义代理的性格和能力
加入会议时的欢迎语
状态变化处理，用于跟踪代理当前的活动状态

第二步：实现函数工具

函数工具使您的代理能够执行对话之外的操作。定义工具有两种方式：

外部工具： 作为代理类之外的独立函数定义，并通过代理构造函数中的 tools 参数进行注册。
内部工具： 作为代理类内部的方法定义，并使用 @function_tool 装饰器标记。

以下是两者的示例：

import aiohttp

# 外部函数工具
@function_tool
def get_weather(latitude: str, longitude: str):
    print(f"正在获取 {latitude}, {longitude} 的天气信息")
    url = f"https://api.open-meteo.com/v1/forecast?latitude={latitude}&longitude={longitude}&current=temperature_2m"
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as response:
            if response.status == 200:
                data = await response.json()
                return {
                    "temperature": data["current"]["temperature_2m"],
                    "temperature_unit": "摄氏度",
                }
            else:
                raise Exception(
                    f"未能获取天气数据，状态码：{response.status}"
                )

class VoiceAgent(Agent):
# ... 上文代码 ...

# 内部函数工具
    @function_tool
    async def get_horoscope(self, sign: str) -> dict:
        horoscopes = {
            "Aries": "今天是你的幸运日！",
            "Taurus": "今天要专注于你的目标。",
            "Gemini": "今天的沟通将非常重要。",
        }
        return {
            "sign": sign,
            "horoscope": horoscopes.get(sign, "今天星星为你排好了队！"),
        }

对于可复用的独立函数，使用外部工具（通过 tools=[...] 注册）。
对于代理特定的逻辑，则使用内部工具作为类方法。
无论是外部工具还是内部工具，都必须使用 @function_tool 装饰器，以便代理能够识别并调用它们。

第3步：设置管道

使用统一的 Pipeline 类将您的代理连接到AI模型。只需传入所需的组件，SDK会处理其余部分。

实时模式（单个模型，最低延迟）：

async def start_session(context: JobContext):
    pipeline = Pipeline(
        llm=GeminiRealtime(
            model="gemini-3.1-flash-live-preview",
            config=GeminiLiveConfig(voice="Leda", response_modalities=["AUDIO"]),
        )
    )
    session = AgentSession(agent=VoiceAgent(), pipeline=pipeline)
    await session.start(wait_for_participant=True, run_until_shutdown=True)

级联模式（STT → LLM → TTS，完全由提供商控制）：

async def start_session(context: JobContext):
    pipeline = Pipeline(
        stt=DeepgramSTT(),
        llm=GoogleLLM(),
        tts=CartesiaTTS(),
        vad=SileroVAD(),
        turn_detector=TurnDetector(),
    )
    session = AgentSession(agent=VoiceAgent(), pipeline=pipeline)
    await session.start(wait_for_participant=True, run_until_shutdown=True)

第4步：组装并启动代理会话


async def start_session(context: JobContext):
    session = AgentSession(
        agent=VoiceAgent(),
        pipeline=pipeline,
    )
    await session.start(wait_for_participant=True, run_until_shutdown=True)

def make_context() -> JobContext:
    room_options = RoomOptions(
        room_id="<meeting_id>",
        name="测试代理",
        playground=True,
    )
    return JobContext(room_options=room_options)

if __name__ == "__main__":
    job = WorkerJob(entrypoint=start_session, jobctx=make_context)
    job.start()

第5步：与VideoSDK客户端应用连接

在设置好您的AI代理后，您需要一个客户端应用程序来与其连接。您可以使用任何VideoSDK快速入门示例来创建一个加入同一会议的客户端：

在设置客户端应用程序时，请确保使用与您的AI代理相同的会议ID。

第6步：运行项目

完成设置后，您可以使用Python运行您的AI语音代理项目。请确保您的 .env 文件已正确配置，并且所有依赖项均已安装。

python main.py

[!TIP]

控制台模式 — 在没有会议室的情况下，在本地测试您的代理。将 RoomOptions 中的 playground=True 设置为真值，然后运行 python main.py，即可直接通过终端的麦克风和扬声器进行交互。

第7步：部署

有关部署选项和指南，请查看官方文档：部署

VideoSDK推理

VideoSDK推理提供了一个统一的网关，用于访问STT、LLM、TTS、降噪和实时模型——无需管理各个提供商的API密钥。身份验证通过您的 VIDEOSDK_AUTH_TOKEN 进行，费用则从您的VideoSDK账户余额中扣除。

from videosdk.agents.inference import STT, LLM, TTS, Denoise, Realtime

使用VideoSDK推理的级联模式：

async def start_session(context: JobContext):
    pipeline = Pipeline(
        stt=STT.sarvam(model_id="saarika:v2.5", language="en-IN"),
        llm=LLM.google(model_id="gemini-2.5-flash"),
        tts=TTS.sarvam(model_id="bulbul:v2", speaker="anushka", language="en-IN"),
        denoise=Denoise.sanas(),
        vad=SileroVAD(),
    )
    session = AgentSession(agent=MyAgent(), pipeline=pipeline)
    await session.start(wait_for_participant=True, run_until_shutdown=True)

使用VideoSDK推理的实时模式：

async def start_session(context: JobContext):
    pipeline = Pipeline(
        llm=Realtime.gemini(
            model_id="gemini-3.1-flash-live-preview",
            voice="Puck",
            language_code="en-US",
            response_modalities=["AUDIO"],
        )
    )
    session = AgentSession(agent=MyAgent(), pipeline=pipeline)
    await session.start(wait_for_participant=True, run_until_shutdown=True)

有关按提供商计费的详细信息，请参阅推理定价。

支持的库和插件

该框架支持与多种类别下的各类 AI 模型和工具集成：

类别	服务
实时模型	OpenAI \| Gemini \| AWS Nova Sonic \| Azure Voice Live
语音转文本 (STT)	OpenAI \| Google \| Azure AI Speech \| Azure OpenAI \| Sarvam AI \| Deepgram \| Cartesia \| AssemblyAI \| Navana
语言模型 (LLM)	OpenAI \| Azure OpenAI \| Google \| Sarvam AI \| Anthropic \| Cerebras
文本转语音 (TTS)	OpenAI \| Google \| AWS Polly \| Azure AI Speech \| Azure OpenAI \| Deepgram \| Sarvam AI \| ElevenLabs \| Cartesia \| Resemble AI \| Smallest AI \| Speechify \| InWorld \| Neuphonic \| Rime AI \| Hume AI \| Groq \| LMNT AI \| Papla Media
语音活动检测 (VAD)	SileroVAD
轮次检测模型	Namo Turn Detector
虚拟化身	Simli \| Anam \| 自定义（实现 `connect` / `aclose` 协议）
LLM 编排	LangChain \| LangGraph
降噪	RNNoise

[!TIP] 安装示例

# 安装带有特定插件的包
pip install videosdk-agents[openai,elevenlabs,silero]

# 安装单个插件
pip install videosdk-plugins-anthropic
pip install videosdk-plugins-deepgram

示例

通过以下示例，您可以了解该框架的实际应用：

核心模式示例

🎙️ 级联模式（基础）

使用 Google LLM + Deepgram STT + Cartesia TTS 的简单 STT → LLM → TTS 语音助手。

🔀 混合模式

将级联模式与实时模式结合——自定义 STT 配合实时模型，或实时模式搭配自定义 TTS。

🪝 管道钩子

使用 @pipeline.on(...) 在任何阶段拦截并转换 STT、LLM 和 TTS 数据。

集成与高级功能

使用场景示例

文档

获取全面指南和 API 参考：

贡献

我们欢迎贡献！以下是您可以提供帮助的方式：

💬 加入社区

在 Discord 上与我们交流

该框架目前处于积极开发阶段，因此我们非常欢迎以新插件、新功能、bug 修复或文档改进等形式做出的贡献。

🛠️ 构建自定义插件

想要集成新的 AI 提供商吗？请查看 构建您自己的插件，了解：

分步插件创建指南
目录结构和文件要求
STT、LLM 和 TTS 的实现示例
测试和提交指南

社区与支持

与 VideoSDK 保持联系：

🔗 LinkedIn

VideoSDK 公司

[!TIP]

支持本项目！ ⭐️
请给仓库点个赞，加入社区，并通过提供反馈、报告 bug 或贡献插件来帮助我们改进 VideoSDK。

由 VideoSDK 团队用心打造

VideoSDK AI Agents 快速上手指南

VideoSDK AI Agents 是一个开源 Python 框架，用于构建生产级的实时语音和多模态 AI 智能体。它能让 AI 作为实时参与者加入视频会议房间，自动处理音频流、说话人检测、打断逻辑和媒体路由，让你专注于智能体业务逻辑。

环境准备

在开始之前，请确保满足以下要求：

操作系统: macOS, Linux 或 Windows
Python 版本: Python 3.12 或更高版本
VideoSDK 凭证:
- VideoSDK 认证 Token (JWT)：可在 VideoSDK 控制台生成。
- Meeting ID (房间号)：可通过 Create Room API 或控制台创建。
第三方 API Key: 根据你选择的模型提供商（如 OpenAI, Google Gemini, Deepgram, ElevenLabs 等）准备相应的 API Key。

安装步骤

推荐使用 UV 包管理器，它能自动处理虚拟环境和依赖，速度更快。

方式一：使用 UV (推荐)

安装 UV (如果尚未安装): 参考 UV 安装指南。

初始化项目并安装核心包:

uv init my-agent-project
cd my-agent-project
uv add videosdk-agents

安装所需插件: 根据需求安装特定提供商的插件（例如 OpenAI 和 Deepgram）：
```
uv add videosdk-plugins-openai
uv add videosdk-plugins-deepgram
```
运行智能体:
```
uv run python main.py
```

方式二：使用 pip

创建并激活虚拟环境:

macOS / Linux:

python3 -m venv venv
source venv/bin/activate

Windows:

python -m venv venv
venv\Scripts\activate

安装核心包:
```
pip install videosdk-agents
```

安装所需插件:

# 示例：安装 OpenAI 插件和语音活动检测插件
pip install videosdk-plugins-openai
pip install videosdk-plugins-turn-detector

基本使用

以下是构建第一个语音智能体的最小化示例。该示例展示了如何定义一个继承自 Agent 类的自定义智能体，并配置级联模式（STT → LLM → TTS）。

1. 编写代码 (`main.py`)

import os
from videosdk.agents import Agent, AgentSession, JobContext, Pipeline
from videosdk.plugins.openai import OpenAIRealtime # 或者使用 OpenAILLM, OpenAITTS 等组合
from videosdk.plugins.deepgram import DeepgramSTT
from videosdk.plugins.elevenlabs import ElevenLabsTTS

# 设置环境变量 (在实际项目中建议使用 .env 文件)
os.environ["VIDEOSDK_TOKEN"] = "YOUR_VIDEO_SDK_TOKEN"
os.environ["OPENAI_API_KEY"] = "YOUR_OPENAI_API_KEY"
os.environ["ELEVENLABS_API_KEY"] = "YOUR_ELEVENLABS_API_KEY"

class VoiceAgent(Agent):
    def __init__(self):
        super().__init__(
            instructions="You are a helpful voice assistant. Keep responses concise.",
            tools=[] # 可在此注册外部工具函数
        )

    async def on_enter(self) -> None:
        """当智能体加入会议时触发"""
        await self.session.say("Hi there! How can I help you today?")
    
    async def on_exit(self) -> None:
        """当智能体离开会议时触发"""
        await self.session.say("Goodbye!")

async def start_session(context: JobContext):
    # 配置 Pipeline：级联模式 (STT -> LLM -> TTS)
    pipeline = Pipeline(
        stt=DeepgramSTT(),
        llm=OpenAIRealtime(model="gpt-4o-realtime-preview"), # 或使用 GoogleLLM, AnthropicLLM 等
        tts=ElevenLabsTTS(),
    )
    
    session = AgentSession(agent=VoiceAgent(), pipeline=pipeline)
    
    # 启动会话：等待用户加入后开始，直到关闭
    await session.start(wait_for_participant=True, run_until_shutdown=True)

# 入口点 (具体启动方式取决于你的部署环境，本地测试通常配合 VideoSDK Worker)
# 此处仅为逻辑展示，实际运行需配合 VideoSDK Worker 服务

2. 获取 Meeting ID

在运行智能体前，你需要一个有效的 Meeting ID。可以使用 cURL 调用 API 生成：

curl -X POST https://api.videosdk.live/v2/rooms \
  -H "Authorization: YOUR_JWT_TOKEN_HERE" \
  -H "Content-Type: application/json"

3. 运行与测试

将上述代码保存为 main.py。
替换代码中的 YOUR_VIDEO_SDK_TOKEN 和其他 API Key。
使用安装步骤中的命令运行脚本（例如 uv run python main.py）。
智能体启动后，使用生成的 Meeting ID 在客户端（Web/Mobile/Desktop）加入房间，即可与 AI 进行实时语音对话。

提示: VideoSDK 支持多种运行模式，包括级联模式（灵活组合不同厂商的 STT/LLM/TTS）、实时模式（使用 Gemini Live 或 OpenAI Realtime 等统一模型以获得超低延迟）以及混合模式。只需更改 Pipeline 初始化时的组件即可切换。

版本历史

v1.0.62026/04/10

v1.0.52026/04/08

v1.0.42026/04/06

v1.0.32026/04/04

v1.0.22026/04/02

v1.0.12026/03/31

v1.0.02026/03/27

v0.0.732026/03/25

v0.0.722026/03/20

v0.0.712026/03/18

v0.0.702026/03/14

v0.0.692026/03/13

v0.0.682026/03/12

1.0.0b12026/03/05

v0.0.672026/03/03

v0.0.662026/02/26

v0.0.652026/02/23

v0.0.642026/02/17

v0.0.632026/02/12

v0.0.622026/01/27

常见问题

为什么无法运行 Agent Avatar（虚拟人代理）？

相似工具推荐

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 agents 时

使用 agents 后

运行环境要求

快速开始

VideoSDK AI Agents

概述

🎙️ 使用级联模式的代理

⚡ 使用实时模式的代理

💻 代理文档

📚 SDK参考

流水线模式

级联模式 — STT → LLM → TTS

实时模式 — 统一模型实现最低延迟

混合模式 — 自由组合

管道钩子 — 拦截任意阶段

前置条件

安装

使用 UV（推荐）

使用 pip

开发环境设置

生成 VideoSDK 会议 ID

使用 cURL

开始使用：您的第一个代理

快速入门

第一步：创建自定义代理

第二步：实现函数工具

第3步：设置管道

第4步：组装并启动代理会话

第5步：与VideoSDK客户端应用连接

第6步：运行项目

第7步：部署

VideoSDK推理

支持的库和插件

示例

核心模式示例

🎙️ 级联模式（基础）

🔧 级联模式（高级）

⚡ 实时模式

🔀 混合模式

🧩 可组合管道

🪝 管道钩子

集成与高级功能

🌐 带有 MCP 服务器的代理

🤝 代理间通信（A2A）

🦜 LangChain 集成

🕸️ LangGraph 集成

🧠 记忆代理（Mem0）

👁️ 视觉代理

🔄 n8n 工作流集成

🧑‍💼 人工介入

使用场景示例

📞 AI 电话客服代理

✈️ AI WhatsApp 代理

🛒 具备知识库的代理（RAG）

🎭 虚拟化身代理

🏥 预约挂号

📣 公告代理

🎧 客户支持

📂 更多使用场景

文档

📄 官方文档

📝 API 参考

📂 示例目录

贡献

🐞 报告问题

🔀 提交 PR

🛠️ 开发插件