ten-turn-detection

GitHub
545 35 中等 2 次阅读 2天前NOASSERTION语言模型
AI 解读 由 AI 自动生成,仅供参考

ten-turn-detection 是 TEN 开源框架下的核心组件,专门用于全双工对话通信中的“轮次检测”。通俗来讲,它赋予了 AI “听懂对话节奏”的能力,使其能够精准判断用户何时结束发言、何时停顿或是想要插话,从而实现像人类打电话一样自然流畅的双向语音交互。

在开发语音 AI 代理或智能助手时,最大的挑战之一就是如何避免“抢话”或“反应迟钝”。ten-turn-detection 正是为了解决这一痛点,它能够有效区分长停顿与句子结束,支持全双工模式下的即时响应,极大地提升了语音交互的拟人化程度。

该项目非常适合正在构建语音对话系统、实时通信应用或智能语音硬件的开发者与研究人员。它不仅提供了预置的高质量数据集,还公开了模型权重,方便用户快速部署与测试。作为 TEN 生态系统的一部分,ten-turn-detection 凭借其优异的检测性能,为构建低延迟、高响应速度的下一代语音 AI 应用提供了坚实的技术底座。

使用场景

某智能客服团队正在开发一款语音交互机器人,用户需要通过语音描述复杂的账户问题,机器人需要准确判断何时应该接话或回答。

没有 ten-turn-detection 时

  • 用户说话时稍微停顿思考,机器人就误以为用户说完了,突然插话打断用户思路,交互体验非常生硬。
  • 为了避免误打断,开发者只能被迫设置较长的静音等待时间(如 1.5 秒),导致用户说完话后机器人反应迟钝,对话有明显的“卡顿感”。
  • 当用户想要打断机器人进行纠正或补充时,机器人无法识别用户的抢话意图,只能自顾自地把预设话术讲完,显得不够智能。
  • 传统的 VAD(语音活动检测)仅能判断“有没有声音”,无法区分“嗯...”等语气词和真正的语句结束,导致对话状态管理混乱。

使用 ten-turn-detection 后

  • ten-turn-detection 能够精准区分“思考停顿”与“表达结束”,用户在思考时机器人会耐心等待,不再出现尴尬的抢话现象。
  • 模型能够预测对话轮次的结束点,大幅缩短了不必要的静音等待时间,实现了毫秒级的响应速度,对话像真人一样流畅自然。
  • 支持全双工通信模式,当用户试图打断机器人时,系统能立即检测到新轮次的开始并停止播放,实现了自然的“抢话”交互。
  • 基于语义理解进行检测,有效过滤语气词和呼吸声等噪音,让机器人对“何时开口”的判断更加智能准确。

ten-turn-detection 通过精准的轮次检测能力,完美解决了语音交互中“抢话”与“反应慢”的核心矛盾,让 AI 对话真正实现了类人的自然流畅。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notesREADME 中未明确列出操作系统、硬件及 Python 版本要求。根据模型介绍,底层基于 Qwen2.5-7B,建议配备高性能 GPU(如显存 16GB 以上)以保证推理性能。模型权重托管于 HuggingFace,首次运行会自动下载。
python未说明
transformers>=4.45.0
torch>=2.0.0
ten-turn-detection hero image

快速开始

Image

Discussion posts Commits Issues closed PRs Welcome Hugging Face Space GitHub license Ask DeepWiki


目录


欢迎来到 TEN

TEN 是一个用于对话式语音 AI Agent(智能体)的开源框架。

TEN 生态系统 包括 TEN FrameworkAgent Examples(智能体示例)VAD(Voice Activity Detection,语音活动检测)Turn Detection(轮次检测)Portal

社区渠道 用途
Follow on X 在 X 上关注 TEN Framework 以获取更新和公告
Follow on LinkedIn 在 LinkedIn 上关注 TEN Framework 以获取更新和公告
Discord TEN Community 加入我们的 Discord 社区与开发者交流
Hugging Face Space 加入我们的 Hugging Face 社区,探索我们的 Spaces 和模型
WeChat 加入我们的微信群进行中文社区讨论

[!IMPORTANT]

点亮 TEN 仓库 Star ⭐️

获取新版本和更新的即时通知。您的支持帮助我们成长和改进 TEN!


TEN star us gif


TEN Hugging Face Space

https://github.com/user-attachments/assets/725a8318-d679-4b17-b9e4-e3dce999b298

非常欢迎您 访问 TEN Hugging Face Space 体验 VAD 和 Turn Detection 的结合。

简介

TEN Turn Detection 是一个先进的智能轮次检测模型,专为人类与 AI Agent 之间自然、动态的交流而设计。该技术解决了人机对话中最具挑战性的问题之一:检测自然的轮次转换线索并启用具备上下文感知的中断机制。TEN Turn Detection 融合了对对话上下文和语言模式的深度语义理解,旨在与 AI 创造更自然的对话体验。

TEN Turn Detection SVG Diagram

TEN Turn Detection 将用户的文本归类为三种关键状态:

finished(已完成):用户已表达完整想法并期待回应的完整话语。示例:"Hey there I was wondering can you help me with my order"

wait(等待):用户明确指示 AI 不要说话的等待话语。示例:"Shut up"

unfinished(未完成):明显未完成的话语,用户暂时停顿但打算继续说话。示例:"Hello I have a question about"

这三种分类状态使 TEN 系统能够通过智能管理轮次转换来创造自然的对话动态,在保持对话流畅的同时减少尴尬的中断。

TEN Turn Detection 利用基于 Transformer(变换器)的语言模型(Qwen2.5-7B)的多层方法进行语义分析。

主要特性

  • 上下文感知的轮次管理 TEN Turn Detection 分析语言模式和语义上下文,以准确识别轮次完成点。此功能实现了智能中断处理,允许系统在各种对话场景中确定何时中断是符合上下文情境的,同时保持自然的对话流畅度。

  • 多语言轮次检测支持 TEN Turn Detection 为英语和中文提供全面支持。它旨在准确识别多语言对话中的轮次转换线索和完成信号。

  • 卓越的性能 与多种开源解决方案相比,TEN 在我们公开的测试数据集上的所有指标均实现了卓越的性能。

已准备的数据集

我们开源了 TEN-Turn-Detection 测试集,这是一个专为评估 AI 对话系统中的轮次检测(Turn Detection)能力而设计的双语(中文和英文)对话输入集合。该数据集包含三个不同的组成部分:

wait.txt:包含请求暂停或终止对话的表达

unfinished.txt:包含不完整的对话输入,话语被截断

finished.txt:提供跨多个领域的完整对话输入

检测性能

我们使用我们的测试数据集进行了全面的评估,比较了几个用于轮次检测的开源模型:

语言 模型 FINISHED
准确率
UNFINISHED
准确率
WAIT
准确率
English Model A 59.74% 86.46% N/A
English Model B 71.61% 96.88% N/A
English TEN Turn Detection 90.64% 98.44% 91%
语言 模型 FINISHED
准确率
UNFINISHED
准确率
WAIT
准确率
Chinese Model B 74.63% 88.89% N/A
Chinese TEN Turn Detection 98.90% 92.74% 92%

注意:

  1. Model A 不支持中文处理
  2. Model A 和 Model B 均不支持 "WAIT" 状态检测

快速开始

安装

git clone https://github.com/TEN-framework/ten-turn-detection.git
pip install "transformers>=4.45.0"
pip install "torch>=2.0.0"

模型权重

TEN Turn Detection 模型已在 HuggingFace 上发布:

您可以通过以下几种方式下载模型:

  1. 自动下载(推荐):当您首次运行推理脚本时,模型权重将自动下载。HuggingFace Transformers 会将模型缓存在本地。

  2. 使用 Git LFS

    # Install Git LFS if you haven't already
    git lfs install
    
    # Clone the repository with model weights
    git clone https://huggingface.co/TEN-framework/TEN_Turn_Detection
    
  3. 使用 Hugging Face Hub 库

    from huggingface_hub import snapshot_download
    
    snapshot_download(repo_id="TEN-framework/TEN_Turn_Detection")
    

推理

推理脚本接受用户输入的命令行参数:

# Basic usage
python inference.py --input "Your text to analyze"

示例输出:

Loading model from TEN-framework/TEN_Turn_Detection...
Running inference on: 'Hello I have a question about'

Results:
Input: 'Hello I have a question about'
Turn Detection Result: 'unfinished'

引用

如果您在研究或应用中使用 TEN Turn Detection,请引用:

@misc{TEN_Turn_Detection,
author = {TEN Team},
title = {TEN Turn Detection: Turn detection for full-duplex dialogue communication

},
year = {2025},
url = {https://github.com/TEN-framework/ten-turn-detection},
}

TEN 生态系统

项目 预览
️TEN Framework
用于对话式 AI Agent 的开源框架。

TEN VAD
低延迟、轻量级且高性能的流式语音活动检测器 (VAD)。

️ TEN Turn Detection
TEN Turn Detection 实现全双工对话通信。

TEN Agent Examples
基于 TEN 的用例。

TEN Portal
TEN Framework 的官方网站,包含文档和博客。


提问

Ask DeepWiki

大多数问题可以通过使用 DeepWiki 得到解答,它速度快、直观易用且支持多种语言。


许可证

本项目根据 Apache License 2.0 版本发布,并包含额外限制。详情请参阅 LICENSE 文件。

常见问题

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。

70.6k|★★★☆☆|今天
语言模型Agent开发框架