Step-Audio2

GitHub
1.4k 103 中等 1 次阅读 今天Apache-2.0语言模型音频其他
AI 解读 由 AI 自动生成,仅供参考

Step-Audio 2 是一款端到端的多模态大语言模型,专为工业级的音频理解与语音对话而设计。它不仅能精准识别语音内容(ASR),更能深入“听懂”声音背后的语义、副语言信息(如语气、停顿)乃至非人声环境音,从而解决传统模型仅能转录文字却难以捕捉情感语境和复杂声音细节的痛点。

该模型特别适合开发者、研究人员以及需要构建高智能语音交互应用的企业团队使用。无论是开发虚拟助手、情感陪伴机器人,还是搭建专业的音频分析系统,Step-Audio 2 都能提供强大的底层支持。其独特亮点在于卓越的情感推理能力,能够分析说话人的年龄、情绪等特征,使交互更加自然拟人;同时支持工具调用与多模态检索增强生成(RAG),能有效减少幻觉并基于检索到的真实知识切换音色进行回复。作为开源项目,Step-Audio 2 提供了包括 mini 版本在内的多种模型权重及推理示例,致力于推动高质量语音 AI 技术的普及与应用。

使用场景

某大型电商平台的智能客服团队正在升级其语音投诉处理系统,旨在从海量用户来电中自动识别情绪并精准解决复杂问题。

没有 Step-Audio2 时

  • 情感识别缺失:传统 ASR 系统仅能转录文字,无法捕捉用户语气中的愤怒、焦急或讽刺,导致机器回复机械冷漠,极易激化矛盾。
  • 非语言信息丢失:背景噪音(如争吵声、键盘敲击声)被当作干扰过滤,系统无法利用这些副语言线索判断用户所处的紧急场景。
  • 多步骤处理延迟:需先将语音转文字,再送入文本大模型分析,最后调用 TTS 合成回复,链路长且延迟高,难以满足实时对话需求。
  • 幻觉与上下文断裂:在涉及退款政策等具体业务时,纯文本模型常因缺乏实时知识库支持而产生“幻觉”,给出错误的解决方案。

使用 Step-Audio2 后

  • 深度情感推理:Step-Audio2 直接理解语调中的愤怒与无奈,能主动调整回复策略,先进行共情安抚再处理业务,显著提升用户满意度。
  • 全维度音频感知:模型能敏锐捕捉背景中的嘈杂人声或急促呼吸,自动判定为“高风险投诉”并优先接入人工专家坐席。
  • 端到端实时交互:凭借端到端架构,Step-Audio2 实现了从听到说的毫秒级响应,支持自然打断和多轮流畅对话,体验接近真人。
  • 精准工具调用与 RAG:通过内置的工具调用能力,Step-Audio2 实时检索最新退换货政策,并结合检索到的语音音色切换功能,用更温和的语调播报解决方案,杜绝胡编乱造。

Step-Audio2 通过将情感理解、副语言分析与实时业务决策融合于单一模型,彻底重构了工业级语音交互的智能标准。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 官方推荐通过 Docker 运行 vLLM 后端以支持多卡部署,需安装 CUDA Toolkit (对应 PyTorch cu121 版本)
  • 构建 Docker 镜像时建议主机内存 32GB
内存

构建 Docker 镜像需 32GB;常规推理未明确说明,建议 16GB+。

依赖
notes1. 官方强烈推荐使用提供的 vLLM Docker 镜像进行加速推理和流式输出,也支持多 GPU 部署。 2. 构建自定义 Docker 镜像过程缓慢且需要 32GB 内存。 3. 模型文件需从 Hugging Face 或 ModelScope 克隆,建议使用 git lfs。 4. 提供了多种推理脚本(基础版、vLLM 版、Think 版)及本地 Web 演示脚本。
python>=3.10
torch>=2.3 (cu121)
transformers==4.49.0
torchaudio
librosa
onnxruntime
s3tokenizer
diffusers
hyperpyyaml
gradio
Step-Audio2 hero image

快速开始

Step-Audio 2

主页Twitter 关注Discord
许可证

🔥🔥🔥 新闻!!

微信开发者群

简介

Step-Audio 2 是一款端到端的多模态大型语言模型,专为工业级音频理解和语音对话而设计。

  • 先进的语音和音频理解:通过理解和推理语义信息、副语言和非语音信息,在 ASR 和音频理解方面表现出色。

  • 智能语音对话:在各种对话场景和副语言信息背景下,实现自然且智能的交互。

  • 情感推理:分析用户的年龄、情绪等副语言信息,从而更准确、更智能地解读音频上下文。

  • 工具调用和多模态 RAG:通过利用工具调用和 RAG 访问现实世界的知识(包括文本和声学知识),Step-Audio 2 能够在多种场景下生成幻觉较少的响应,并且能够根据检索到的语音切换音色。

  • 最先进的性能:与其它开源和商业解决方案相比,Step-Audio 2 在各类音频理解和对话基准测试中均取得了最先进的性能。(详见 评估技术报告)。

模型下载

模型 🤗 Hugging Face ModelScope
Step-Audio 2 mini stepfun-ai/Step-Audio-2-mini stepfun-ai/Step-Audio-2-mini
Step-Audio 2 mini Base stepfun-ai/Step-Audio-2-mini-Base stepfun-ai/Step-Audio-2-mini-Base
Step-Audio 2 mini Think stepfun-ai/Step-Audio-2-mini-Think stepfun-ai/Step-Audio-2-mini-Think

模型使用

🔧 依赖与安装

conda create -n stepaudio2 python=3.10
conda activate stepaudio2
pip install transformers==4.49.0 torchaudio librosa onnxruntime s3tokenizer diffusers hyperpyyaml

git clone https://github.com/stepfun-ai/Step-Audio2.git
cd Step-Audio2
git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-2-mini
# git clone https://huggingface.co/stepfun-ai/Step-Audio-2-mini-Base

🔧 vLLM 容器镜像

我们强烈建议使用我们的 vLLM 后端,以实现更快、流式的推理,并支持跨多个 GPU 部署。

# (可选)自行构建 Docker 镜像(非常慢,需要 32GiB 内存)
# docker build -t stepfun2025/vllm:step-audio-2-v20250909 .

# 运行 vLLM Docker
docker run --rm -ti --gpus all \
    -v Step-Audio-2-mini:/Step-Audio-2-mini \
    -p 8000:8000 \
    stepfun2025/vllm:step-audio-2-v20250909 \
    -- vllm serve /Step-Audio-2-mini \
    --served-model-name step-audio-2-mini \
    --port 8000 \
    --max-model-len 16384 \
    --max-num-seqs 32 \
    --tensor-parallel-size 1 \
    --enable-auto-tool-choice \
    --tool-call-parser step_audio_2 \
    --tokenizer-mode step_audio_2 \
    --chat_template_content_format string \
    --audio-parser step_audio_2_tts_ta4 \
    --trust-remote-code

🚀 推理脚本

python examples.py
# python examples-base.py
# python examples-vllm.py
# python examples-think.py

🚀 本地网页演示

pip install gradio
python web_demo.py
# python web_demo_vllm.py

在线演示

StepFun 实时控制台

StepFun AI 助手

  • Step-Audio 2 也可在我们的 StepFun AI 助手移动应用中使用,同时支持网页和音频搜索功能。
  • 请扫描下方二维码,从您的应用商店下载该应用,然后点击右上角的手机图标。
二维码

微信群

您可扫描下方二维码加入我们的微信群,进行交流与讨论。

二维码

评估

架构图

自动语音识别

中文、粤语和日语的 CER,以及阿拉伯语和英语的 WER。N/A 表示不支持该语言。

类别 测试集 Doubao LLM ASR GPT-4o Transcribe Kimi-Audio Qwen-Omni Step-Audio 2 Step-Audio 2 mini
英语 Common Voice 9.20 9.30 7.83 8.33 5.95 6.76
FLEURS 英语 7.22 2.71 4.47 5.05 3.03 3.05
LibriSpeech 清洁版 2.92 1.75 1.49 2.93 1.17 1.33
LibriSpeech 其他 5.32 4.23 2.91 5.07 2.42 2.86
平均 6.17 4.50 4.18 5.35 3.14 3.50
中文 AISHELL 0.98 3.52 0.64 1.17 0.63 0.78
AISHELL-2 3.10 4.26 2.67 2.40 2.10 2.16
FLEURS 中文 2.92 2.62 2.91 7.01 2.68 2.53
KeSpeech 第一阶段 6.48 26.80 5.11 6.45 3.63 3.97
WenetSpeech 会议 4.90 31.40 5.21 6.61 4.75 4.87
WenetSpeech 网络 4.46 15.71 5.93 5.24 4.67 4.82
平均 3.81 14.05 3.75 4.81 3.08 3.19
多语言 FLEURS 阿拉伯语 N/A 11.72 N/A 25.13 14.22 16.46
Common Voice 粤语 9.20 11.10 38.90 7.89 7.90 8.32
FLEURS 日语 N/A 3.27 N/A 10.49 3.18 4.67
内部数据 安徽方言 8.83 50.55 22.17 18.73 10.61 11.65
广东方言 4.99 7.83 3.76 4.03 3.81 4.44
广西方言 3.37 7.09 4.29 3.35 4.11 3.51
山西方言 20.26 55.03 34.71 25.95 12.44 15.60
四川方言 3.01 32.85 5.26 5.61 4.35 4.57
上海方言 47.49 89.58 82.90 58.74 17.77 19.30
平均 14.66 40.49 25.52 19.40 8.85 9.85

超语言信息理解

StepEval-音频-超语言信息

模型 平均 性别 年龄 音色 场景 事件 情感 音高 节奏 语速 风格 发声方式
GPT-4o 音频 43.45 18 42 34 22 14 82 40 60 58 64 44
Kimi-音频 49.64 94 50 10 30 48 66 56 40 44 54 54
通义千问-Omni 44.18 40 50 16 28 42 76 32 54 50 50 48
Step-音频-AQAA 36.91 70 66 18 14 14 40 38 48 54 44 0
Step-音频 2 83.09 100 96 82 78 60 86 82 86 88 88 68
Step-音频 2 mini 80.00 100 94 80 78 60 82 82 68 74 86 76

音频理解与推理

MMAU

模型 平均 声音 语音 音乐
Audio Flamingo 3 73.1 76.9 66.1 73.9
Gemini 2.5 Pro 71.6 75.1 71.5 68.3
GPT-4o Audio 58.1 58.0 64.6 51.8
Kimi-Audio 69.6 79.0 65.5 64.4
Omni-R1 77.0 81.7 76.0 73.4
Qwen2.5-Omni 71.5 78.1 70.6 65.9
Step-Audio-AQAA 49.7 50.5 51.4 47.3
Step-Audio 2 78.0 83.5 76.9 73.7
Step-Audio 2 mini 73.2 76.6 71.5 71.6

Big Bench Audio

模型 准确率
GPT-Realtime 82.8
Step-Audio 2 mini 54.8
Step-Audio 2 80.0
Step-Audio 2 Think 90.7

语音翻译

模型 CoVoST 2 (S2TT)
Avg. 英语到中文 中文到英语
GPT-4o Audio 29.61 40.20 19.01
Qwen2.5-Omni 35.40 41.40 29.40
Step-Audio-AQAA 28.57 37.71 19.43
Step-Audio 2 39.26 49.01 29.51
Step-Audio 2 mini 39.29 49.12 29.47
模型 CVSS (S2ST)
Avg. 英语到中文 中文到英语
GPT-4o Audio 23.68 20.07 27.29
Qwen-Omni 15.35 8.04 22.66
Step-Audio-AQAA 27.36 30.74 23.98
Step-Audio 2 30.87 34.83 26.92
Step-Audio 2 mini 29.08 32.81 25.35

工具调用

StepEval-音频-工具调用。日期和时间工具没有参数。

模型 目标 指标 音频搜索 日期与时间 天气 网页搜索
通义千问3-32B 触发 精确率 / 召回率 67.5 / 98.5 98.4 / 100.0 90.1 / 100.0 86.8 / 98.5
类型 准确率 100.0 100.0 98.5 98.5
参数 准确率 100.0 100.0 100.0
Step-Audio 2 触发 精确率 / 召回率 86.8 / 99.5 96.9 / 98.4 92.2 / 100.0 88.4 / 95.5
类型 准确率 100.0 100.0 90.5 98.4
参数 准确率 100.0 100.0 100.0

语音到语音对话

URO-基准测试。U. R. O. 分别代表理解、推理和口头对话。

模型 语言 基础版 专业版
平均 U. R. O. 平均 U. R. O.
GPT-4o 音频 中文 78.59 89.40 65.48 85.24 67.10 70.60 57.22 70.20
Kimi-Audio 73.59 79.34 64.66 79.75 66.07 60.44 59.29 76.21
通义千问-Omni 68.98 59.66 69.74 77.27 59.11 59.01 59.82 58.74
Step-Audio-AQAA 74.71 87.61 59.63 81.93 65.61 74.76 47.29 68.97
Step-Audio 2 83.32 91.05 75.45 86.08 68.25 74.78 63.18 65.10
Step-Audio 2 mini 77.81 89.19 64.53 84.12 69.57 76.84 58.90 69.42
GPT-4o 音频 英语 84.54 90.18 75.90 90.41 67.51 60.65 64.36 78.46
Kimi-Audio 60.04 83.36 42.31 60.36 49.79 50.32 40.59 56.04
通义千问-Omni 70.58 66.29 69.62 76.16 50.99 44.51 63.88 49.41
Step-Audio-AQAA 71.11 90.15 56.12 72.06 52.01 44.25 54.54 59.81
Step-Audio 2 83.90 92.72 76.51 84.92 66.07 64.86 67.75 66.33
Step-Audio 2 mini 74.36 90.07 60.12 77.65 61.25 58.79 61.94 63.80

致谢

本项目部分代码来源于:

Step-Audio 2 mini 和 Step-Audio 2 mini Base 使用了以下模型的权重进行初始化:

感谢所有开源项目对本项目的贡献!

许可证

仓库中的代码采用 Apache 2.0 许可证授权。

引用

@misc{wu2025stepaudio2technicalreport,
      title={Step-Audio 2 技术报告},
      author={吴博勇、颜超、胡晨、易成、冯成利、田飞、沈飞宇、于刚、张浩阳、李京贝、陈明睿、刘鹏、游王、张翔宇托尼、李星源、杨雪瑞、邓雅悦、黄业昌、李宇欣、张宇欣、游赵、李布颖、马步云、宋昌河、庞东青、胡国强、孙海洋、安康、王娜、高淑丽、季伟、李文、孙文、温轩、任勇、马元凯、卢宇凡、王斌、李博、苗长鑫、刘彻、徐晨、史大鹏、胡定远、吴东航、刘恩乐、黄冠哲、严古林、张瀚、聂浩、贾浩楠、周洪宇、孙建建、吴交仁、吴杰、杨杰、杨金、林俊哲、李凯翔、杨雷、史丽英、周莉、顾隆隆、李明、李明亮、李明晓、吴楠、韩琪、谭钦源、庞绍良、范圣杰、刘思齐、曹天成、陆万英、何文清、谢武勋、赵旭、李学奇、于延波、杨阳、刘毅、卢一帆、王一磊、丁元昊、梁元伟、卢元伟、罗玉初、尹宇和、詹宇萌、张宇翔、杨子东、张子欣、焦彬兴、蒋大新、沈鸿扬、陈建生、李静、张翔宇、朱一博},
      year={2025},
      eprint={2507.16632},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2507.16632},
}

星标历史

星标历史图表

常见问题

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|4天前
语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|5天前
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.1k|★★☆☆☆|今天
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|2天前
语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。

79.8k|★☆☆☆☆|2天前
其他图像数据工具