ten-framework

GitHub
10.4k 1.2k 较难 6 次阅读 3天前NOASSERTIONAgent开发框架图像音频视频
AI 解读 由 AI 自动生成,仅供参考

ten-framework 是一个专为实时多模态对话式 AI 打造的开源框架,旨在帮助开发者轻松构建低延迟、高互动的语音智能体。它解决了传统语音交互开发中链路复杂、实时性差以及难以整合视觉等多模态能力的痛点,让创建如实时语音助手、语音绘图板或唇形同步虚拟人等应用变得简单高效。

该工具主要面向 AI 工程师、后端开发者及研究人员,同时也适合希望快速原型验证的产品设计师。ten-framework 的核心亮点在于其模块化生态系统,不仅提供了基础的对话框架,还集成了高精度的语音活动检测(VAD)、精准的说话人轮次检测以及多厂商支持的虚拟人唇形同步等关键组件。通过支持 RTC 和 WebSocket 等多种连接方式,并允许灵活扩展记忆模块,ten-framework 让开发者能够专注于业务逻辑创新,而无需重复造轮子,是构建下一代自然流畅人机交互系统的理想选择。

使用场景

某初创团队正在开发一款面向儿童的交互式绘本伴读应用,需要实现低延迟的语音对话与实时表情同步功能。

没有 ten-framework 时

  • 开发周期漫长:团队需分别集成语音识别、大模型推理、语音合成及唇形同步模块,各组件接口不一,联调耗时数周。
  • 对话体验割裂:由于缺乏统一的流式处理机制,用户说完话后需等待 2-3 秒才能听到回复,严重打断儿童沉浸感。
  • 多模态同步困难:语音输出与虚拟角色的口型、动作难以精准对齐,导致“音画不同步”,显得角色僵硬虚假。
  • 运维成本高昂:自行搭建高并发实时服务架构复杂,稳定性差,稍有流量波动便出现延迟飙升或服务崩溃。

使用 ten-framework 后

  • 快速原型落地:利用框架预置的多模态代理模板,团队在 3 天内即完成了从语音输入到动画输出的全链路打通。
  • 极致流畅交互:依托其原生支持的实时流式传输,端到端延迟降低至毫秒级,实现了如真人般自然的即时对答。
  • 自动多模态对齐:内置的唇形同步(Lip Sync)扩展自动将音频流映射为角色动作,确保声音与画面完美契合。
  • 弹性稳定部署:基于框架标准化的容器化部署方案,系统轻松应对高峰流量,无需额外投入大量运维精力。

ten-framework 通过一站式解决实时多模态交互的技术碎片化难题,让开发者能专注于业务创新而非底层基建。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

最低 4GB

依赖
notes该工具主要基于 Docker 容器化部署,本地运行需安装 Docker 和 Node.js v18。最低系统要求为 2 核 CPU 和 4GB 内存。支持在 GitHub Codespaces 中运行而无需本地安装 Docker。需要配置 Agora、OpenAI、Deepgram 和 ElevenLabs 的 API 密钥。
python未说明
Docker
Docker Compose
Node.js (LTS) v18
ten-framework hero image

快速开始

图片

[![TEN 发布版本][ten-releases-badge]][ten-releases] [![覆盖率][coverage-badge]][coverage] [![发布日期][release-date-badge]][ten-releases] [![提交次数][commits-badge]][commit-activity] [![已关闭的问题][issues-closed-badge]][issues-closed] [![贡献者][contributors-badge]][contributors] [![GitHub 许可证][license-badge]][license] ![Ask DeepWiki][deepwiki-badge] ![ReadmeX][readmex-badge]

[![英文 README][lang-en-badge]][lang-en-readme] [![简体中文操作指南][lang-zh-badge]][lang-zh-readme] [![日本語のREADME][lang-jp-badge]][lang-jp-readme] [![README 在韩语中][lang-kr-badge]][lang-kr-readme] [![西班牙语的 README][lang-es-badge]][lang-es-readme] [![法语的 README][lang-fr-badge]][lang-fr-readme] [![意大利语的 README][lang-it-badge]][lang-it-readme]

![TEN-framework%2Ften_framework | Trendshift][trendshift-badge]

[官方网站][official-site] • [文档][documentation] • [博客][blog]


目录
  • [欢迎来到 TEN][welcome-to-ten]
  • [代理示例][agent-examples-section]
  • [通过代理示例快速入门][quick-start]
    • [本地主机][localhost-section]
    • [Codespaces][codespaces-section]
  • [代理示例自托管][agent-examples-self-hosting]
    • [使用 Docker 部署][deploying-with-docker]
    • [使用其他云服务部署][deploying-with-other-cloud-services]
  • [敬请期待][stay-tuned]
  • [TEN 生态系统][ten-ecosystem-anchor]
  • [问题][questions]
  • [贡献][contributing]
    • [代码贡献者][code-contributors]
    • [贡献指南][contribution-guidelines]
    • [许可证][license-section]

欢迎来到 TEN

TEN 是一个用于实时多模态对话式 AI 的开源框架。

[TEN 生态系统][ten-ecosystem-anchor] 包括 [TEN 框架][ten-framework], [代理示例][agent-examples-repo], [VAD][ten-vad], [轮次检测][ten-turn-detection] 和 [Portal][ten-portal]。


社区频道 目的
[![在 X 上关注][follow-on-x-badge]][follow-on-x] 在 X 上关注 TEN 框架,获取最新动态和公告
[![Discord TEN 社区][discord-badge]][discord-invite] 加入我们的 Discord 社区,与开发者交流
![在 LinkedIn 上关注][linkedin-badge] 在 LinkedIn 上关注 TEN 框架,获取最新动态和公告
[![Hugging Face Space][hugging-face-badge]][hugging-face] 加入我们的 Hugging Face 社区,探索我们的空间和模型
[![微信][wechat-badge]][wechat-discussion] 加入我们的微信群,参与中文社区讨论

代理示例


![图片][voice-assistant-image]

多功能语音助手 — 这款低延迟、高质量的实时助手支持 RTC 和 [WebSocket][websocket-example] 连接,您还可以通过 [Memory][memory-example], [VAD][voice-assistant-vad-example], [Turn Detection][voice-assistant-turn-detection-example] 等扩展功能对其进行扩展。

更多详情请参阅 [示例代码][voice-assistant-example]。


![分隔线][divider-light] ![分隔线][divider-dark]


![图片][doodler-image]

涂鸦板 — 一款能够将口头或键入的提示转化为简单手绘草图的涂鸦板,配有蜡笔调色板和实时绘图功能。

[示例代码][doodler-example]


![分隔线][divider-light] ![分隔线][divider-dark]


![图片][speaker-diarization-image]

说话人辨识 — 实时说话人辨识功能可以检测并标记不同的说话人;“谁喜欢什么”游戏展示了其交互式应用场景。

[示例代码][speechmatics-diarization-example]


![分隔线][divider-light] ![分隔线][divider-dark]


![图片][lip-sync-image]

唇同步虚拟形象 — 支持多家虚拟形象供应商,主角是 Kei,一个由 MotionSync 提供唇同步技术的动漫角色;同时也支持来自 Trulience、HeyGen 和 Tavus 的逼真虚拟形象。

有关不同 Live2D 角色的 [示例代码][voice-assistant-live2d-example] 请参阅。


![分隔线][divider-light] ![分隔线][divider-dark]


![图片][sip-call-image]

SIP 通话 — 一个基于 TEN 的 SIP 扩展模块,可用于实现电话通话功能。

[示例代码][voice-assistant-sip-example]


![分隔线][divider-light] ![分隔线][divider-dark]


![图片][transcription-image]

转录 — 一款将音频转录为文本的工具。

[示例代码][transcription-example]


![分隔线][divider-light] ![分隔线][divider-dark]


![图片][esp32-image]

ESP32-S3 Korvo V3 — 在 Espressif ESP32-S3 Korvo V3 开发板上运行 TEN 代理示例,以实现 LLM 驱动的通信与硬件的集成。

更多详情请参阅 [集成指南][esp32-guide]。


通过代理示例快速入门

本地主机

步骤 ⓵ - 先决条件

类别 要求
密钥 • Agora App IDApp Certificate
OpenAI API 密钥
Deepgram ASR
ElevenLabs TTS
安装 Docker / Docker Compose
Node.js (LTS) v18
最低系统要求 • CPU >= 2 核
• 内存 >= 4 GB

![分隔线][divider-light] ![分隔线][divider-dark]

步骤 ⓶ - 在虚拟机中构建代理示例

1. 克隆仓库,进入 ai_agents 目录,并从 .env.example 文件创建 .env 文件
cd ai_agents
cp ./.env.example ./.env
2. 在 .env 文件中设置 Agora App ID 和 App Certificate
AGORA_APP_ID=
AGORA_APP_CERTIFICATE=

# Deepgram(用于语音转文字)
DEEPGRAM_API_KEY=

# OpenAI(用于语言模型)
OPENAI_API_KEY=

# ElevenLabs(用于文本到语音)
ELEVENLABS_TTS_KEY=
3. 启动代理开发容器
docker compose up -d
4. 进入容器
docker exec -it ten_agent_dev bash
5. 使用默认示例构建代理(约 5–8 分钟)

请查看 agents/examples 文件夹以获取更多示例。可以从以下默认示例开始:

# 使用串联的语音助手
cd agents/examples/voice-assistant

# 或者使用实时语音到语音的语音助手
cd agents/examples/voice-assistant-realtime
6. 启动 Web 服务器

如果你修改了任何本地源代码,请运行 task build。这一步对于编译型语言(例如 TypeScript 或 Go)是必需的,而对于 Python 则不需要。

task install
task run
7. 访问代理

一旦代理示例运行起来,你就可以访问以下界面:

localhost:49483 localhost:3000
截图 1 截图 2

![分隔线][divider-light] ![分隔线][divider-dark]

步骤 ③ - 自定义你的代理示例

  1. 打开 localhost:49483
  2. 右键点击 STT、LLM 和 TTS 扩展。
  3. 打开它们的属性并输入相应的 API 密钥。
  4. 提交更改后,你现在可以在 localhost:3000 看到更新后的代理示例。

![分隔线][divider-light] ![分隔线][divider-dark]


在不使用 Docker 的情况下从 TEN 管理器运行转录应用(测试版)

TEN 还提供了一个转录应用,你可以直接从 TEN 管理器运行,无需使用 Docker。

更多详情请参阅 快速入门指南


![分隔线][divider-light] ![分隔线][divider-dark]


Codespaces

GitHub 为每个仓库提供免费的 Codespaces。你可以在 Codespaces 中运行代理示例,而无需使用 Docker。Codespaces 的启动速度通常比本地 Docker 环境更快。

更多详情请参阅 此指南


代理示例的自托管

使用 Docker 部署

一旦你自定义好你的代理(无论是通过 TMAN 设计器还是直接编辑 property.json),你就可以为你的服务创建一个发布版的 Docker 镜像来部署它。

以 Docker 镜像形式发布

注意:以下命令需要在任何 Docker 容器之外执行。

构建镜像
cd ai_agents
docker build -f agents/examples/<example-name>/Dockerfile -t example-app .
运行
docker run --rm -it --env-file .env -p 3000:3000 example-app

![分隔线][divider-light] ![分隔线][divider-dark]

使用其他云服务部署

如果你想将 TEN 托管在诸如 VercelNetlify 等平台上,可以将部署分为两部分。

  1. 将 TEN 后端运行在任何支持容器的平台上(如带有 Docker 的虚拟机、Fly.io、Render、ECS、Cloud Run 等)。使用示例 Docker 镜像而不做任何修改,并暴露该服务的 8080 端口。

  2. 只将前端部署到 Vercel 或 Netlify。将项目根目录指向 ai_agents/agents/examples/<example>/frontend,运行 pnpm install(或 bun install),然后运行 pnpm build(或 bun run build),并保持默认的 .next 输出目录。

  3. 在你的托管仪表板中配置环境变量,使 AGENT_SERVER_URL 指向后端 URL,并添加 UI 所需的任何 NEXT_PUBLIC_* 键(例如,你需要暴露给浏览器的 Agora 凭证)。

  4. 确保你的后端能够接受来自前端来源的请求——可以通过开放 CORS 或使用内置的代理中间件来实现。

通过这种设置,后端负责处理长时间运行的工作进程,而托管的前端则简单地将 API 流量转发到后端。


敬请关注

获取新版本和更新的即时通知。你的支持将帮助我们不断成长并改进 TEN!


图片



TEN 生态系统


项目 预览
️TEN 框架
用于对话式 AI 代理的开源框架。

TEN VAD
低延迟、轻量级且高性能的流式语音活动检测器 (VAD)。

️ TEN 轮次检测
TEN 轮次检测实现了全双工对话通信。

TEN 代理示例
TEN 驱动的应用场景。

TEN 门户
TEN 框架的官方网站,包含文档和博客。



问答

TEN 框架可在这些由 AI 驱动的问答平台上使用。它们可以帮助你快速准确地找到答案,支持多种语言,涵盖从基础设置到高级实现细节的各个方面。

服务 链接
DeepWiki ![Ask DeepWiki][deepwiki-badge]
ReadmeX ![ReadmeX][readmex-badge]

贡献

我们欢迎任何形式的开源协作!无论你是修复 bug、添加功能、改进文档,还是分享想法,你的贡献都有助于推动个性化 AI 工具的发展。请查看我们的 GitHub Issues 和 Projects,寻找参与贡献的方式,展示你的技能。让我们一起打造令人惊叹的成果!


[!提示]

欢迎各种形式的贡献 🙏

加入我们,共同让 TEN 更加完善!每一次贡献都至关重要,无论是代码还是文档。请在社交媒体上分享你的 TEN 代理项目,激励他人!

与 TEN 的维护者之一 @elliotchen200 在 𝕏 上,或 @cyfyifanchen 在 GitHub 上联系,以获取项目更新、讨论及合作机会。


![分隔线][divider-light] ![分隔线][divider-dark]

代码贡献者

[TEN][contributors]

贡献指南

欢迎贡献!请先阅读 贡献指南


![分隔线][divider-light] ![分隔线][divider-dark]

许可证

  1. 整个 TEN 框架(除下面明确列出的文件夹外)根据 Apache 许可证 2.0 版本发布,并附加了一些限制。详细信息请参阅位于 TEN 框架根目录下的 LICENSE 文件。

  2. packages 目录中的组件根据 Apache 许可证 2.0 版本发布。详细信息请参阅每个包根目录下的 LICENSE 文件。

  3. TEN 框架所使用的第三方库已在列表中详细列出并说明。更多信息请参阅 third_party 文件夹。

版本历史

0.11.632026/04/02
0.11.622026/03/14
0.11.612026/03/12
0.11.602026/03/10
0.11.592026/03/07
0.11.582026/03/06
0.11.572026/03/05
0.11.562026/03/04
0.11.552026/02/27
0.11.542026/02/25
0.11.532026/02/04
0.11.522026/01/23
0.11.512026/01/15
0.11.502026/01/06
0.11.492026/01/04
0.11.482025/12/31
0.11.472025/12/24
0.11.462025/12/21
0.11.452025/12/16
0.11.442025/12/15

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架