whisper.unity

708 170 简单 1 次阅读 1周前MIT音频其他

AI 解读由 AI 自动生成，仅供参考

whisper.unity 是一款专为 Unity3d 引擎打造的开源插件，它让开发者能够轻松在本地设备上集成 OpenAI 的 Whisper 语音识别模型。通过封装高性能的 whisper.cpp 后端，该工具解决了游戏或应用中实现离线、低延迟语音转文字（ASR）及实时翻译的技术难题，无需依赖网络连接即可运行。

这款工具非常适合 Unity 游戏开发者、互动媒体设计师以及需要构建隐私安全语音功能的研究人员使用。无论是制作支持多语言指令的游戏 NPC，还是开发具备实时字幕功能的虚拟会议应用，whisper.unity 都能提供强有力的支持。

其核心技术亮点在于卓越的跨平台兼容性与灵活的硬件加速能力。它不仅支持 Windows、macOS、Linux、iOS、Android 乃至 VisionOS 等主流平台，还能自动调用 Vulkan 或 Metal 接口进行 GPU 加速，显著提升推理速度（如在 M1 Mac 上可实现超实时 50 倍的处理效率）。此外，项目内置了轻量级模型以便快速上手，同时也允许用户根据需求替换不同精度的模型权重，在识别准确率与运行速度之间找到最佳平衡点。作为一个免费且可商用的开源项目，whisper.unity 为本地化语音交互提供了高效、可靠的解决方案。

使用场景

一家独立游戏工作室正在开发一款支持多语言输入的 VR 社交应用，玩家需要通过语音实时与其他国家的玩家交流并生成字幕。

没有 whisper.unity 时

依赖云端服务：必须接入第三方在线语音 API，导致玩家在无网络或弱网环境下完全无法使用语音功能。
高昂的运营成本：随着用户量增长，按调用次数计费的云端转录服务使服务器账单急剧上升，压缩了利润空间。
隐私合规风险：玩家的语音数据需上传至外部服务器处理，难以满足欧盟 GDPR 等严格的数据隐私保护法规。
开发集成复杂：需要在 Unity 与外部后端服务之间搭建复杂的通信桥梁，增加了网络延迟和调试难度。

使用 whisper.unity 后

纯本地离线运行：利用 whisper.unity 将 Whisper 模型直接嵌入 Unity 项目，玩家在断网状态下也能流畅进行语音转文字。
零边际成本：推理过程完全在用户设备（如 PC、Mac 或手机）的 CPU/GPU 上完成，开发者无需为每次语音交互支付费用。
数据隐私安全：所有语音数据仅在用户本地设备处理，不离开终端，天然符合全球最严苛的隐私合规要求。
原生无缝集成：作为 Unity 包直接导入，支持 C# 脚本直接调用，并可利用 Vulkan 或 Metal 加速，大幅降低开发门槛与延迟。

whisper.unity 让开发者能够以零成本、高隐私的方式，在 Unity 中轻松构建高性能的离线多语言语音交互体验。

运行环境要求

操作系统

Windows
macOS
Linux
iOS
Android
VisionOS

GPU

非必需
支持 Vulkan (Windows, Linux) 或 Metal (macOS, iOS, VisionOS) 加速
Metal 需 Apple M1 芯片或更新版本 (Apple7 GPU+)
不再支持 CUDA

内存

未说明

依赖

notes这是一个 Unity3D 插件，无需 Python 环境。默认包含 'ggml-tiny.bin' 模型，更大模型需手动下载至 StreamingAssets 文件夹。WebGL 平台暂不支持。

python不需要

Unity3d

whisper.cpp v1.7.5

快速开始

whisper.unity

这是 whisper.cpp 的 Unity3d 绑定。它提供了在本地设备上运行的 OpenAI Whisper 自动语音识别（ASR）模型的高性能推理能力。

本仓库附带“ggml-tiny.bin”模型权重。这是 Whisper 模型中最小、最快的版本，但与其他模型相比，其质量较差。如果需要更高质量的识别效果，请查看其他模型权重。

主要特性：

多语言支持，涵盖约60种语言
可以将一种语言的语音转换为另一种语言的文本（例如，德语语音转为英语文本）
不同大小的模型可在速度和准确率之间提供权衡
无需互联网连接，即可在用户本地设备上运行
免费且开源，可用于商业项目

支持的平台：

Windows (x86_64, 可选 Vulkan)
MacOS (Intel 和 ARM, 可选 Metal)
Linux (x86_64, 可选 Vulkan)
iOS (设备和模拟器, 可选 Metal)
Android (ARM64)
WebGL (请参阅此问题)
VisionOS

示例

https://user-images.githubusercontent.com/6161335/231581911-446286fd-833e-40a2-94d0-df2911b22cad.mp4

使用“whisper-small.bin”模型对麦克风输入的英语、德语和俄语进行测试

https://user-images.githubusercontent.com/6161335/231584644-c220a647-028a-42df-9e61-5291aca3fba0.mp4

“whisper-tiny.bin”模型，在搭载 M1 Pro 芯片的 MacBook 上以实时速度的50倍运行

快速入门

克隆本仓库，并将其作为常规 Unity 项目打开。仓库自带示例和小型多语言模型权重。

或者，您也可以将本仓库作为 Unity 包 添加到您的项目中。通过以下 Git URL 将其添加到 Unity 包管理器：

https://github.com/Macoron/whisper.unity.git?path=/Packages/com.whisper.unity

GPU 加速

Whisper 支持使用 Vulkan（Windows、Linux）或 Metal（macOS、iOS 和 visionOS）进行 GPU 加速，这可以在某些硬件上显著提升性能。

要启用 GPU 使用，请在场景中找到 WhisperManager 并启用“使用 GPU”切换。Whisper 将尝试使用 GPU 推理，如果硬件不支持，则会回退到 CPU 推理。

CUDA 已不再支持，现已被 Vulkan 取代。如果您需要 CUDA 支持，请使用较早的版本。

whisper.cpp 仅在 Apple7 GPU 或更新的 GPU 上支持 Metal（从 Apple M1 芯片开始）。在较旧的硬件上，推理将回退到 CPU。

下载其他模型权重

您可以尝试不同的 Whisper 模型权重。例如，使用仅支持英语的权重可以提高英语语音转文字的准确性，或者尝试更大尺寸的模型以获得更好的效果。

您可以从这里下载模型权重，只需将其放入您的 StreamingAssets 文件夹中即可。

有关模型差异和格式的更多信息，请参阅 whisper.cpp 的 README 和 OpenAI 的 README。

从源代码编译 C++ 库

本项目为所有支持的平台提供了预编译的 whisper.cpp 库。您可以通过 GitHub Actions 从源代码重新构建这些库。为此，先 fork 本仓库，然后进入 Actions => Build C++ => Run workflow。流水线完成后，您可以在工件选项卡中下载编译好的库。

如果您希望在本地机器上构建库：

克隆原始的 whisper.cpp 仓库。
切换到标签 v1.7.5。其他版本可能与此 Unity 绑定不兼容。
在命令行中打开 whisper.unity 文件夹。
如果您使用的是 Windows，请运行：

.\build_cpp.bat path\to\whisper

如果您使用的是 MacOS，请运行：

sh build_cpp.sh path/to/whisper all path/to/ndk/android.toolchain.cmake

如果您使用的是 Linux，请运行：

sh build_cpp_linux.sh path/to/whisper

如果编译成功，生成的库将自动更新到包中的 Plugins 文件夹。

Windows 版本只会生成 Windows 库，Linux 版本只会生成 Linux 库，而 MacOS 版本则会同时生成 macOS、iOS 和 Android 的库。

许可证

本项目采用 MIT 许可证授权。

它使用了 whisper.cpp 的编译库和模型权重，该库同样采用 MIT 许可证。

原始的 OpenAI Whisper 代码和权重也采用 MIT 许可证。

whisper.unity 快速上手指南

whisper.unity 是 OpenAI Whisper 自动语音识别（ASR）模型在 Unity3D 中的高性能本地推理绑定，基于 whisper.cpp 构建。支持多语言识别、翻译及离线运行。

环境准备

系统要求

本工具支持以下平台：

Windows: x86_64 (可选 Vulkan GPU 加速)
macOS: Intel 和 ARM (M1/M2/M3 等，可选 Metal GPU 加速)
Linux: x86_64 (可选 Vulkan GPU 加速)
iOS: 真机与模拟器 (可选 Metal 加速，需 Apple A7 及以上芯片)
Android: ARM64
visionOS: 支持
注：WebGL 暂不支持

前置依赖

Unity 编辑器: 建议使用较新稳定版（具体版本参考仓库测试状态）。
网络环境: 首次使用需下载模型文件，若访问 HuggingFace 困难，建议配置代理或使用国内镜像站下载模型后手动放入项目。
GPU 加速注意:
- CUDA 已不再支持，Windows/Linux 用户请使用 Vulkan。
- macOS/iOS 用户需确保硬件支持 Metal (Apple M1 芯片或更新)，否则将自动回退至 CPU 推理。

安装步骤

你可以选择以下两种方式之一将工具集成到项目中：

方式一：作为 Unity Package 安装（推荐）

打开 Unity 项目，进入菜单栏 Window > Package Manager。
点击左上角 + 号，选择 Add package from git URL...。

输入以下地址并点击 Add：

https://github.com/Macoron/whisper.unity.git?path=/Packages/com.whisper.unity

等待导入完成，插件将自动包含示例场景和默认的 ggml-tiny.bin 模型。

方式二：克隆仓库作为普通项目

克隆仓库到本地：

git clone https://github.com/Macoron/whisper.unity.git

使用 Unity Hub 打开该文件夹作为常规 Unity 项目。
项目中已预置示例场景和基础模型权重。

基本使用

1. 准备模型文件

插件默认自带 ggml-tiny.bin（最小最快，但精度较低）。如需更高精度或多语言支持：

从 HuggingFace whisper.cpp 页面下载其他模型（如 ggml-small.bin, ggml-base.bin 等）。
将下载的 .bin 文件放入 Unity 项目的 Assets/StreamingAssets 文件夹中。

2. 配置场景

在 Unity 中打开示例场景（通常位于 Samples 或 Examples 文件夹）。
在Hierarchy中找到名为 WhisperManager 的游戏对象。
启用 GPU 加速（可选）：
- 勾选 Use GPU 选项。
- 系统将尝试使用 Vulkan (Win/Linux) 或 Metal (Mac/iOS) 进行推理；若硬件不支持，会自动降级为 CPU。

3. 运行测试

点击 Unity 编辑器的 Play 按钮。
允许麦克风权限。
对着麦克风说话，即可在控制台或 UI 上看到实时转录的文字结果。

4. 代码调用简述

在脚本中获取 WhisperManager 实例即可控制录音与转录逻辑。核心流程如下：

初始化模型（自动加载 StreamingAssets 中的 .bin 文件）。
开始录音。
调用转录接口获取文本。

提示：默认模型仅用于快速测试。生产环境中请根据目标语言和设备性能选择合适的模型大小（Tiny, Base, Small, Medium, Large）。

版本历史

1.4.02025/04/16

1.3.22024/08/03

1.3.12024/05/09

1.3.02023/11/30

1.2.12023/08/25

1.2.02023/07/25

1.1.12023/06/04

1.1.02023/04/29

1.0.32023/04/21

1.0.22023/04/12

1.0.12023/04/08

1.0.02023/03/27

常见问题

如何在 Unity 项目中启用 VisionOS 支持？

为什么启用了 CUDA 但 Whisper 仍然只使用 CPU 或报错？

如何让 Whisper 模型关注特定的词汇或短语（类似关键词提示）？

在旧 CPU 上运行时报错或崩溃，提示不支持 AVX2 指令集怎么办？

如何在 Unity 中正确配置和启用 CUDA 加速？

CUDA 模式下转录速度慢或结果异常怎么办？

在 iOS 16.5.1 或更高版本上插件无法正常工作怎么办？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|5天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|1周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.6k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|1周前

开发框架其他