[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Macoron--whisper.unity":3,"tool-Macoron--whisper.unity":65},[4,23,32,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85092,2,"2026-04-10T11:13:16",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[19,14,18],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},5773,"cs-video-courses","Developer-Y\u002Fcs-video-courses","cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。\n\n面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。\n\n这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。",79792,"2026-04-08T22:03:59",[18,13,14,20],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":22},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[17,13,20,19,18],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":46,"last_commit_at":55,"category_tags":56,"status":22},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75666,"2026-04-15T23:15:07",[19,13,20,18],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":29,"last_commit_at":63,"category_tags":64,"status":22},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,"2026-04-03T21:50:24",[20,18],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":81,"owner_location":81,"owner_email":81,"owner_twitter":81,"owner_website":81,"owner_url":82,"languages":83,"stars":96,"forks":97,"last_commit_at":98,"license":99,"difficulty_score":10,"env_os":100,"env_gpu":101,"env_ram":102,"env_deps":103,"category_tags":109,"github_topics":110,"view_count":10,"oss_zip_url":81,"oss_zip_packed_at":81,"status":22,"created_at":118,"updated_at":119,"faqs":120,"releases":156},7944,"Macoron\u002Fwhisper.unity","whisper.unity","Running speech to text model (whisper.cpp) in Unity3d on your local machine.","whisper.unity 是一款专为 Unity3d 引擎打造的开源插件，它让开发者能够轻松在本地设备上集成 OpenAI 的 Whisper 语音识别模型。通过封装高性能的 whisper.cpp 后端，该工具解决了游戏或应用中实现离线、低延迟语音转文字（ASR）及实时翻译的技术难题，无需依赖网络连接即可运行。\n\n这款工具非常适合 Unity 游戏开发者、互动媒体设计师以及需要构建隐私安全语音功能的研究人员使用。无论是制作支持多语言指令的游戏 NPC，还是开发具备实时字幕功能的虚拟会议应用，whisper.unity 都能提供强有力的支持。\n\n其核心技术亮点在于卓越的跨平台兼容性与灵活的硬件加速能力。它不仅支持 Windows、macOS、Linux、iOS、Android 乃至 VisionOS 等主流平台，还能自动调用 Vulkan 或 Metal 接口进行 GPU 加速，显著提升推理速度（如在 M1 Mac 上可实现超实时 50 倍的处理效率）。此外，项目内置了轻量级模型以便快速上手，同时也允许用户根据需求替换不同精度的模型权重，在识别准确率与运行速度之间找到最佳平衡点。作为","whisper.unity 是一款专为 Unity3d 引擎打造的开源插件，它让开发者能够轻松在本地设备上集成 OpenAI 的 Whisper 语音识别模型。通过封装高性能的 whisper.cpp 后端，该工具解决了游戏或应用中实现离线、低延迟语音转文字（ASR）及实时翻译的技术难题，无需依赖网络连接即可运行。\n\n这款工具非常适合 Unity 游戏开发者、互动媒体设计师以及需要构建隐私安全语音功能的研究人员使用。无论是制作支持多语言指令的游戏 NPC，还是开发具备实时字幕功能的虚拟会议应用，whisper.unity 都能提供强有力的支持。\n\n其核心技术亮点在于卓越的跨平台兼容性与灵活的硬件加速能力。它不仅支持 Windows、macOS、Linux、iOS、Android 乃至 VisionOS 等主流平台，还能自动调用 Vulkan 或 Metal 接口进行 GPU 加速，显著提升推理速度（如在 M1 Mac 上可实现超实时 50 倍的处理效率）。此外，项目内置了轻量级模型以便快速上手，同时也允许用户根据需求替换不同精度的模型权重，在识别准确率与运行速度之间找到最佳平衡点。作为一个免费且可商用的开源项目，whisper.unity 为本地化语音交互提供了高效、可靠的解决方案。","# whisper.unity\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-blue.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT) [![whisper.cpp](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fwhisper.cpp-v1.7.5-green)](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Freleases\u002Ftag\u002Fv1.7.5) [![Ko-fi](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FKo--fi-FF5E5B?logo=ko-fi&logoColor=white)](https:\u002F\u002Fko-fi.com\u002Fmacoron)\n\n[![Testing](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Factions\u002Fworkflows\u002Ftest.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Factions\u002Fworkflows\u002Ftest.yml) \n\nThis is Unity3d bindings for the [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp). It provides high-performance inference of [OpenAI's Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) automatic speech recognition (ASR) model running on your local machine.\n\n> This repository comes with \"ggml-tiny.bin\" model weights. This is the smallest and fastest version of whisper model, but it has worse quality comparing to other models. If you want better quality, check out [other models weights](#downloading-other-model-weights).\n\n**Main features:**\n- Multilingual, supports around 60 languages\n- Can translate one language to another (e.g. German speech to English text)\n- Different models sizes offering speed and accuracy tradeoffs\n- Runs on local users device without Internet connection\n- Free and open source, can be used in commercial projects\n\n**Supported platforms:**\n- [x] Windows (x86_64, [optional Vulkan](#gpu-acceleration))\n- [x] MacOS (Intel and ARM, [optional Metal](#gpu-acceleration))\n- [x] Linux (x86_64, [optional Vulkan](#gpu-acceleration))\n- [x] iOS (Device and Simulator, [optional Metal](#gpu-acceleration))\n- [x] Android (ARM64)\n- [ ] WebGL (see [this issue](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F20))\n- [x] VisionOS \n\n## Samples\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F6161335\u002F231581911-446286fd-833e-40a2-94d0-df2911b22cad.mp4\n\n*\"whisper-small.bin\" model tested in English, German and Russian from microphone*\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F6161335\u002F231584644-c220a647-028a-42df-9e61-5291aca3fba0.mp4\n\n*\"whisper-tiny.bin\" model, 50x faster than realtime on Macbook with M1 Pro*\n\n## Getting started\nClone this repository and open it as regular Unity project. It comes with examples and tiny multilanguage model weights.\n\nAlternatively you can add this repository to your project as a **Unity Package**. Add it by this git URL to your Unity Package Manager:\n```\nhttps:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity.git?path=\u002FPackages\u002Fcom.whisper.unity\n```\n\n### GPU Acceleration\nWhisper supports GPU Acceleration using **Vulkan** (Windows, Linux) or **Metal** (macOS, iOS, and visionOS), which can drastically improve performance on some hardware. \n\nTo activate GPU usage, find the `WhisperManager` in your scene and enable the `Use GPU` toggle. Whisper will attempt to use GPU inference and fall back to CPU inference if the hardware is unsupported.\n\n> CUDA is no longer supported and has been replaced by Vulkan. If you require CUDA support, please use an earlier release.\n\n> whisper.cpp supports Metal only on [Apple7 GPUs](https:\u002F\u002Fdeveloper.apple.com\u002Fdocumentation\u002Fmetal\u002Fmtlgpufamily) or newer (starting from Apple M1 chips). On older hardware, inference will fall back to CPU.\n\n### Downloading other model weights\nYou can try different Whisper model weights. For example, you can improve English language transcription by using English-only weights or by trying bigger models.\n\nYou can download model weights [from here](https:\u002F\u002Fhuggingface.co\u002Fggerganov\u002Fwhisper.cpp). Just put them into your `StreamingAssets` folder. \n\nFor more information about models differences and formats read [whisper.cpp readme](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp#ggml-format) and [OpenAI readme](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper#available-models-and-languages).\n\n## Compiling C++ libraries from source\nThis project comes with prebuild libraries of whisper.cpp for all supported platforms. You can rebuild them from source using Github Actions. To do that make fork of this repo and go into `Actions => Build C++ => Run workflow`.  After pipeline completed, download compiled libraries in artifacts tab.\n\nIn case you want to build libraries on your machine:\n1. Clone the original [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) repository\n2. Checkout tag [v1.7.5](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Ftree\u002Fv1.7.5). Other versions might not work with this Unity bindings.\n3. Open whisper.unity folder with command line\n4. If you are using **Windows** write:\n```bash\n.\\build_cpp.bat path\\to\\whisper\n```\n5. If you are using **MacOS** write:\n```bash\nsh build_cpp.sh path\u002Fto\u002Fwhisper all path\u002Fto\u002Fndk\u002Fandroid.toolchain.cmake\n```\n6. If you are using **Linux** write\n```bash\nsh build_cpp_linux.sh path\u002Fto\u002Fwhisper\n```\n7. If build was successful compiled libraries should be automatically update package `Plugins` folder. \n \nWindows will produce only Windows library, Linux will produce only Linux. MacOS will produce MacOS, iOS and Android libraries.\n\n## License\nThis project is licensed under the MIT License. \n\nIt uses compiled libraries and model weighs of [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) which is under MIT license.  \n\nOriginal [OpenAI Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) code and weights are also under MIT license.\n","# whisper.unity\n[![许可证：MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-blue.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT) [![whisper.cpp](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fwhisper.cpp-v1.7.5-green)](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Freleases\u002Ftag\u002Fv1.7.5) [![Ko-fi](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FKo--fi-FF5E5B?logo=ko-fi&logoColor=white)](https:\u002F\u002Fko-fi.com\u002Fmacoron)\n\n[![测试](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Factions\u002Fworkflows\u002Ftest.yml\u002Fbadge.svg)](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Factions\u002Fworkflows\u002Ftest.yml) \n\n这是 [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) 的 Unity3d 绑定。它提供了在本地设备上运行的 [OpenAI Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) 自动语音识别（ASR）模型的高性能推理能力。\n\n> 本仓库附带“ggml-tiny.bin”模型权重。这是 Whisper 模型中最小、最快的版本，但与其他模型相比，其质量较差。如果需要更高质量的识别效果，请查看 [其他模型权重](#下载其他模型权重)。\n\n**主要特性：**\n- 多语言支持，涵盖约60种语言\n- 可以将一种语言的语音转换为另一种语言的文本（例如，德语语音转为英语文本）\n- 不同大小的模型可在速度和准确率之间提供权衡\n- 无需互联网连接，即可在用户本地设备上运行\n- 免费且开源，可用于商业项目\n\n**支持的平台：**\n- [x] Windows (x86_64, [可选 Vulkan](#gpu加速))\n- [x] MacOS (Intel 和 ARM, [可选 Metal](#gpu加速))\n- [x] Linux (x86_64, [可选 Vulkan](#gpu加速))\n- [x] iOS (设备和模拟器, [可选 Metal](#gpu加速))\n- [x] Android (ARM64)\n- [ ] WebGL (请参阅 [此问题](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F20))\n- [x] VisionOS \n\n## 示例\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F6161335\u002F231581911-446286fd-833e-40a2-94d0-df2911b22cad.mp4\n\n*使用“whisper-small.bin”模型对麦克风输入的英语、德语和俄语进行测试*\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F6161335\u002F231584644-c220a647-028a-42df-9e61-5291aca3fba0.mp4\n\n*“whisper-tiny.bin”模型，在搭载 M1 Pro 芯片的 MacBook 上以实时速度的50倍运行*\n\n## 快速入门\n克隆本仓库，并将其作为常规 Unity 项目打开。仓库自带示例和小型多语言模型权重。\n\n或者，您也可以将本仓库作为 **Unity 包** 添加到您的项目中。通过以下 Git URL 将其添加到 Unity 包管理器：\n```\nhttps:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity.git?path=\u002FPackages\u002Fcom.whisper.unity\n```\n\n### GPU 加速\nWhisper 支持使用 **Vulkan**（Windows、Linux）或 **Metal**（macOS、iOS 和 visionOS）进行 GPU 加速，这可以在某些硬件上显著提升性能。\n\n要启用 GPU 使用，请在场景中找到 `WhisperManager` 并启用“使用 GPU”切换。Whisper 将尝试使用 GPU 推理，如果硬件不支持，则会回退到 CPU 推理。\n\n> CUDA 已不再支持，现已被 Vulkan 取代。如果您需要 CUDA 支持，请使用较早的版本。\n\n> whisper.cpp 仅在 [Apple7 GPU](https:\u002F\u002Fdeveloper.apple.com\u002Fdocumentation\u002Fmetal\u002Fmtlgpufamily) 或更新的 GPU 上支持 Metal（从 Apple M1 芯片开始）。在较旧的硬件上，推理将回退到 CPU。\n\n### 下载其他模型权重\n您可以尝试不同的 Whisper 模型权重。例如，使用仅支持英语的权重可以提高英语语音转文字的准确性，或者尝试更大尺寸的模型以获得更好的效果。\n\n您可以从 [这里](https:\u002F\u002Fhuggingface.co\u002Fggerganov\u002Fwhisper.cpp) 下载模型权重，只需将其放入您的 `StreamingAssets` 文件夹中即可。\n\n有关模型差异和格式的更多信息，请参阅 [whisper.cpp 的 README](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp#ggml-format) 和 [OpenAI 的 README](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper#available-models-and-languages)。\n\n## 从源代码编译 C++ 库\n本项目为所有支持的平台提供了预编译的 whisper.cpp 库。您可以通过 GitHub Actions 从源代码重新构建这些库。为此，先 fork 本仓库，然后进入 `Actions => Build C++ => Run workflow`。流水线完成后，您可以在工件选项卡中下载编译好的库。\n\n如果您希望在本地机器上构建库：\n1. 克隆原始的 [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) 仓库。\n2. 切换到标签 [v1.7.5](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Ftree\u002Fv1.7.5)。其他版本可能与此 Unity 绑定不兼容。\n3. 在命令行中打开 whisper.unity 文件夹。\n4. 如果您使用的是 **Windows**，请运行：\n```bash\n.\\build_cpp.bat path\\to\\whisper\n```\n5. 如果您使用的是 **MacOS**，请运行：\n```bash\nsh build_cpp.sh path\u002Fto\u002Fwhisper all path\u002Fto\u002Fndk\u002Fandroid.toolchain.cmake\n```\n6. 如果您使用的是 **Linux**，请运行：\n```bash\nsh build_cpp_linux.sh path\u002Fto\u002Fwhisper\n```\n7. 如果编译成功，生成的库将自动更新到包中的 `Plugins` 文件夹。\n\nWindows 版本只会生成 Windows 库，Linux 版本只会生成 Linux 库，而 MacOS 版本则会同时生成 macOS、iOS 和 Android 的库。\n\n## 许可证\n本项目采用 MIT 许可证授权。\n\n它使用了 [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) 的编译库和模型权重，该库同样采用 MIT 许可证。\n\n原始的 [OpenAI Whisper](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fwhisper) 代码和权重也采用 MIT 许可证。","# whisper.unity 快速上手指南\n\nwhisper.unity 是 OpenAI Whisper 自动语音识别（ASR）模型在 Unity3D 中的高性能本地推理绑定，基于 [whisper.cpp](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp) 构建。支持多语言识别、翻译及离线运行。\n\n## 环境准备\n\n### 系统要求\n本工具支持以下平台：\n- **Windows**: x86_64 (可选 Vulkan GPU 加速)\n- **macOS**: Intel 和 ARM (M1\u002FM2\u002FM3 等，可选 Metal GPU 加速)\n- **Linux**: x86_64 (可选 Vulkan GPU 加速)\n- **iOS**: 真机与模拟器 (可选 Metal 加速，需 Apple A7 及以上芯片)\n- **Android**: ARM64\n- **visionOS**: 支持\n- *注：WebGL 暂不支持*\n\n### 前置依赖\n- **Unity 编辑器**: 建议使用较新稳定版（具体版本参考仓库测试状态）。\n- **网络环境**: 首次使用需下载模型文件，若访问 HuggingFace 困难，建议配置代理或使用国内镜像站下载模型后手动放入项目。\n- **GPU 加速注意**:\n    - CUDA 已不再支持，Windows\u002FLinux 用户请使用 **Vulkan**。\n    - macOS\u002FiOS 用户需确保硬件支持 **Metal** (Apple M1 芯片或更新)，否则将自动回退至 CPU 推理。\n\n## 安装步骤\n\n你可以选择以下两种方式之一将工具集成到项目中：\n\n### 方式一：作为 Unity Package 安装（推荐）\n1. 打开 Unity 项目，进入菜单栏 `Window` > `Package Manager`。\n2. 点击左上角 `+` 号，选择 `Add package from git URL...`。\n3. 输入以下地址并点击 Add：\n   ```text\n   https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity.git?path=\u002FPackages\u002Fcom.whisper.unity\n   ```\n4. 等待导入完成，插件将自动包含示例场景和默认的 `ggml-tiny.bin` 模型。\n\n### 方式二：克隆仓库作为普通项目\n1. 克隆仓库到本地：\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity.git\n   ```\n2. 使用 Unity Hub 打开该文件夹作为常规 Unity 项目。\n3. 项目中已预置示例场景和基础模型权重。\n\n## 基本使用\n\n### 1. 准备模型文件\n插件默认自带 `ggml-tiny.bin`（最小最快，但精度较低）。如需更高精度或多语言支持：\n1. 从 [HuggingFace whisper.cpp 页面](https:\u002F\u002Fhuggingface.co\u002Fggerganov\u002Fwhisper.cpp) 下载其他模型（如 `ggml-small.bin`, `ggml-base.bin` 等）。\n2. 将下载的 `.bin` 文件放入 Unity 项目的 `Assets\u002FStreamingAssets` 文件夹中。\n\n### 2. 配置场景\n1. 在 Unity 中打开示例场景（通常位于 `Samples` 或 `Examples` 文件夹）。\n2. 在Hierarchy中找到名为 `WhisperManager` 的游戏对象。\n3. **启用 GPU 加速（可选）**：\n   - 勾选 `Use GPU` 选项。\n   - 系统将尝试使用 Vulkan (Win\u002FLinux) 或 Metal (Mac\u002FiOS) 进行推理；若硬件不支持，会自动降级为 CPU。\n\n### 3. 运行测试\n- 点击 Unity 编辑器的 **Play** 按钮。\n- 允许麦克风权限。\n- 对着麦克风说话，即可在控制台或 UI 上看到实时转录的文字结果。\n\n### 4. 代码调用简述\n在脚本中获取 `WhisperManager` 实例即可控制录音与转录逻辑。核心流程如下：\n1. 初始化模型（自动加载 StreamingAssets 中的 .bin 文件）。\n2. 开始录音。\n3. 调用转录接口获取文本。\n\n> **提示**：默认模型仅用于快速测试。生产环境中请根据目标语言和设备性能选择合适的模型大小（Tiny, Base, Small, Medium, Large）。","一家独立游戏工作室正在开发一款支持多语言输入的 VR 社交应用，玩家需要通过语音实时与其他国家的玩家交流并生成字幕。\n\n### 没有 whisper.unity 时\n- **依赖云端服务**：必须接入第三方在线语音 API，导致玩家在无网络或弱网环境下完全无法使用语音功能。\n- **高昂的运营成本**：随着用户量增长，按调用次数计费的云端转录服务使服务器账单急剧上升，压缩了利润空间。\n- **隐私合规风险**：玩家的语音数据需上传至外部服务器处理，难以满足欧盟 GDPR 等严格的数据隐私保护法规。\n- **开发集成复杂**：需要在 Unity 与外部后端服务之间搭建复杂的通信桥梁，增加了网络延迟和调试难度。\n\n### 使用 whisper.unity 后\n- **纯本地离线运行**：利用 whisper.unity 将 Whisper 模型直接嵌入 Unity 项目，玩家在断网状态下也能流畅进行语音转文字。\n- **零边际成本**：推理过程完全在用户设备（如 PC、Mac 或手机）的 CPU\u002FGPU 上完成，开发者无需为每次语音交互支付费用。\n- **数据隐私安全**：所有语音数据仅在用户本地设备处理，不离开终端，天然符合全球最严苛的隐私合规要求。\n- **原生无缝集成**：作为 Unity 包直接导入，支持 C# 脚本直接调用，并可利用 Vulkan 或 Metal 加速，大幅降低开发门槛与延迟。\n\nwhisper.unity 让开发者能够以零成本、高隐私的方式，在 Unity 中轻松构建高性能的离线多语言语音交互体验。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMacoron_whisper.unity_fbf3684e.png","Macoron","Aleksandr Evgrashin ","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMacoron_a3f4d921.jpg","Running Generative AI in a third dimension",null,"https:\u002F\u002Fgithub.com\u002FMacoron",[84,88,92],{"name":85,"color":86,"percentage":87},"C#","#178600",96.7,{"name":89,"color":90,"percentage":91},"Shell","#89e051",2.9,{"name":93,"color":94,"percentage":95},"Batchfile","#C1F12E",0.5,708,170,"2026-04-08T16:43:38","MIT","Windows, macOS, Linux, iOS, Android, VisionOS","非必需。支持 Vulkan (Windows, Linux) 或 Metal (macOS, iOS, VisionOS) 加速。Metal 需 Apple M1 芯片或更新版本 (Apple7 GPU+)。不再支持 CUDA。","未说明",{"notes":104,"python":105,"dependencies":106},"这是一个 Unity3D 插件，无需 Python 环境。默认包含 'ggml-tiny.bin' 模型，更大模型需手动下载至 StreamingAssets 文件夹。WebGL 平台暂不支持。","不需要",[107,108],"Unity3d","whisper.cpp v1.7.5",[21,18],[111,112,113,114,115,116,117],"asr","stt","speech-to-text","openai","speech-recognition","whisper","unity3d","2026-03-27T02:49:30.150509","2026-04-16T08:14:14.159273",[121,126,131,136,141,146,151],{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},35575,"如何在 Unity 项目中启用 VisionOS 支持？","要在 VisionOS 上运行，需要将 Accelerate 框架添加到 UnityFramework 目标中。注意：必须在 Unity Framework 的依赖项中添加，而不是在 Unity App 中添加。具体操作是在 Xcode 中选择 UnityFramework target，然后在 Build Phases -> Link Binary With Libraries 中添加 Accelerate.framework。","https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F70",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},35576,"为什么启用了 CUDA 但 Whisper 仍然只使用 CPU 或报错？","如果遇到 CUDA 无法工作或加载模型报错的情况，请尝试以下步骤：\n1. 确保已安装 CUDA Toolkit 12.2.0（PyTorch 的存在与此无关，必须单独安装 CUDA）。\n2. 在 Unity 中打开 Project Settings 窗口，选择 Whisper 类别，勾选启用 CUDA 选项。\n3. 如果问题依旧，尝试重新生成整个 Unity 项目（仅保留 .sln、Assets、ProjectSettings 和 Packages 文件夹），然后重新导入插件。\n4. 确保下载了最新版本的 CUDA 驱动和工具包。","https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F103",{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},35577,"如何让 Whisper 模型关注特定的词汇或短语（类似关键词提示）？","Whisper 支持初始提示（Initial Prompt）功能，可以通过给模型提供提示词来引导转录结果。但是，该功能并不总是按预期工作（例如输入\"LLAMA\"仍可能被转录为\"lama\"）。目前 Unity 绑定中尚未完全支持类似 Vosk 的 keyPhrases 列表功能。如果需要针对特定领域（如自定义人名）进行优化，建议尝试使用该名称的所有变体作为提示，或者考虑对网络进行重新训练以适应特定领域。","https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F58",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},35578,"在旧 CPU 上运行时报错或崩溃，提示不支持 AVX2 指令集怎么办？","如果崩溃发生在\"Inference Whisper on input data...\"之后，且您的 CPU 较旧，很可能是因为不支持 AVX2 指令集。解决方案如下：\n1. 测试原生的 whisper.cpp 项目是否能在您的机器上运行以确认问题。\n2. 如果确认是 CPU 限制，您需要从源代码重新编译 .dll 文件以适配您的 CPU（移除 AVX2 依赖）。\n3. 或者更换支持 AVX2 的新硬件。关于如何从源代码编译 C++ 库，请参考项目 README 中的相关章节。","https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F23",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},35579,"如何在 Unity 中正确配置和启用 CUDA 加速？","配置步骤如下：\n1. 访问 NVIDIA 官网下载并安装 CUDA Toolkit 12.2.0，根据您的平台选择对应版本并遵循安装指引。\n2. 打开 Unity 项目，找到 Project Settings 窗口。\n3. 在设置面板中选择 Whisper 类别。\n4. 点击勾选\"Enable CUDA\"选项即可启用加速。\n注意：不需要安装 PyTorch，只需安装 CUDA Toolkit。","https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F31",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},35580,"CUDA 模式下转录速度慢或结果异常怎么办？","如果在启用 CUDA 后转录速度变慢或结果不准确，这通常是由于底层 whisper.cpp 版本过旧导致的。维护者已在后续更新中将 whisper.cpp 升级到了 1.5.5 版本以修复此问题。解决方法是：下载项目的最新 master 分支代码或等待官方发布包含该修复的新版本，替换现有插件即可恢复正常性能。","https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F83",{"id":152,"question_zh":153,"answer_zh":154,"source_url":155},35581,"在 iOS 16.5.1 或更高版本上插件无法正常工作怎么办？","此前有用户报告在 iOS 16.5.1 上遇到问题，维护者已在最新的 master 分支代码中修复了该错误。如果您遇到类似问题，请尝试拉取最新的 master 分支代码进行更新。如果问题仍然存在，请提供更多详细信息以便重新调查。","https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fissues\u002F39",[157,162,167,172,177,182,187,192,197,202,207,212],{"id":158,"version":159,"summary_zh":160,"released_at":161},280729,"1.4.0","本次发布引入了 whisper.cpp 1.7.5 更新、Vulkan 推理支持以及其他小幅改进。\n\n## whisper.cpp 更新至 1.7.5  \n在最近的几个版本中，`whisper.cpp` 的编译库结构经历了重大调整，变得更加模块化。尽管 Unity 绑定逻辑基本保持不变，但与编译及原生库处理相关的大部分代码已被完全重写。\n\n1.7.5 版本还在部分硬件上提升了性能。在未来版本中，它将支持加载与硬件兼容的库（例如非 AVX 指令集的库），从而使 `whisper.cpp` 能够在运行时选择最优配置。\n\n## 更完善的 GPU 支持  \nWindows 和 Linux 现已支持使用 Vulkan 进行 GPU 加速。Vulkan 不需要额外的软件即可运行，因此非常适合更稳健的软件分发。\n\n| 模型   | CPU    | Vulkan   |\n|--------|--------|----------|\n| tiny   | 1118 ms | 90 ms    |\n| small  | 8499 ms | 305 ms   |\n| medium | 27469 ms| 721 ms   |\n\n_测试环境：Windows 系统，Intel Core i5-12400F 处理器与 Nvidia Geforce RTX 2070 Super 显卡，对 \"jfk.wav\" 文件进行转录。_\n\niOS 现已支持 Metal。需要注意的是，`whisper.cpp` 仅在 [Apple7 GPU](https:\u002F\u002Fdeveloper.apple.com\u002Fdocumentation\u002Fmetal\u002Fmtlgpufamily) 或更新型号的设备上支持 Metal（即从 iPhone 12 开始）。在较旧的硬件上，推理将回退到 CPU。\n\n要启用 Metal 或 Vulkan，只需在 `WhisperManager` 设置中开启“使用 GPU”选项即可。\n\nCUDA 已不再被支持，并由 Vulkan 取代。由于编译后的 CUDA 库大小超过 300 MB，已超出 Git 仓库的容量限制，未来可能会重新引入。如果您仍需 CUDA 支持，请使用较早版本的 whisper.unity 发布包。\n\n## 变更内容  \n* 由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F98 中修复了从包含非英文字符路径加载模型的问题。\n* 由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F107 中实现了 Whisper 1.7.5 与 Vulkan 的支持。\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.3.2...1.4.0","2025-04-16T15:27:06",{"id":163,"version":164,"summary_zh":165,"released_at":166},280730,"1.3.2","小版本发布。修复了 macOS 上的 Metal 支持。\n\n## 变更内容\n* @from2001 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F86 中将 package.json 中的版本字符串更新为 1.3.1\n* @injeniero 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F93 中使用新的 WHISPER_METAL_EMBED_LIBRARY 标志来嵌入 Metal 库\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F94 中更新了 macOS 二进制文件（修复 Metal 支持）\n\n## 新贡献者\n* @from2001 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F86 中完成了首次贡献\n* @injeniero 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F93 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.3.1...1.3.2","2024-08-03T07:49:19",{"id":168,"version":169,"summary_zh":170,"released_at":171},280731,"1.3.1","新的次要版本发布。包含 whisper.cpp 更新至 1.5.5 以及错误修复。\n\n## 变更内容\n* 由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F74 中修复了重采样过程中发生的越界异常。\n* 由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F75 中添加了 visionOS 支持。\n* 由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F76 中添加了缺失的 Accelerate 框架。\n* 由 @yosun 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F77 中更新 README.md，加入 visionOS 支持。\n* 由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F84 中将 whisper.cpp 更新至 1.5.5。\n\n## 新贡献者\n* @yosun 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F77 中完成了首次贡献。\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.3.0...1.3.1","2024-05-09T08:48:10",{"id":173,"version":174,"summary_zh":175,"released_at":176},280732,"1.3.0","本次发布引入了 whisper.cpp 1.5.1 更新、GPU 推理支持以及其他小幅改进。\n\n## whisper.cpp 更新至 1.5.1\n\nwhisper.cpp 1.5.1 进行了大量改进和错误修复，其中包括对 GPU 使用的优化。\n\n更多信息请查看原始 [发行说明](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Freleases\u002Ftag\u002Fv1.5.0)。\n\n## GPU 支持\n\nWhisper 现在支持 GPU 加速。对于某些硬件而言，这可以显著提升性能。\n\n| 模型 | CPU | CUDA |\n|---|---|---|\n| tiny | 1188 ms  | 185 ms | \n| small | 8992 ms  | 517 ms | \n| large-v2 | 60325 ms  | 1946 ms | \n\n_测试使用“jfk.wav”文件，在 Windows 系统上，硬件配置为 Intel Core i5-12400F 和 Nvidia Geforce RTX 2070 Super。_\n\n| 模型 | CPU | Metal |\n|---|---|---|\n| tiny | 1113 ms  | 189 ms | \n| small | 6319 ms | 860 ms | \n| large-v2 | 40608 ms  | 3888 ms | \n\n_测试使用“jfk.wav”文件，在 Apple M1 Pro 上进行转录。_\n\n对于 **Windows 和 Linux** 系统，您需要配备 Nvidia GPU 并安装 CUDA 工具包（已测试版本为 [12.2.0](https:\u002F\u002Fdeveloper.nvidia.com\u002Fcuda-12-2-0-download-archive)）。启用 CUDA 后编译的 Unity 项目要求最终用户拥有 Nvidia GPU 和 CUDA 库。**如果尝试在没有这些条件的情况下运行构建，将会出现错误。**\n\n对于 **macOS** 系统，您需要 ARM 架构的 CPU，例如 M1 或更新型号。目前尚不支持 iOS 的 Metal 推理。若使用 Intel 处理器或其他较旧硬件，whisper.cpp 将回退到 CPU 推理模式。\n\n要启用 GPU 推理，请前往 **项目设置 => Whisper => 启用 CUDA 或启用 Metal**。更多信息请参阅 [README](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity)。\n\n## 其他改进\n\nUbuntu 库现已基于 Ubuntu 20.04 编译。这可能会导致与 Ubuntu 18.04 不兼容的问题。如果您需要支持更早版本的 Ubuntu 或其他发行版，请考虑 [从源代码重新编译库](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity#compiling-c-libraries-from-source)。\n\n新增了 **麦克风循环模式**。该模式利用 Unity 内置的循环麦克风流创建一个持续不断的无限流，非常适合用于 Whisper 的流式转录。要启用此功能，请将 `MicrophoneRecord` 中的 `Loop` 设置为“true”。\n\n## 变更内容\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F55 中修复了无限循环麦克风问题及内存泄漏。\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F60 中将 whisper.cpp 更新至 1.5.0。\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F61 中为 Windows 添加了 CUDA 支持。\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F63 中为 Linux 添加了 CUDA 支持。\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F64 中为 macOS 添加了 Metal 支持。\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F65 中将 whisper.cpp 更新至 1.5.1。\n\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.2.1...1.3.0","2023-11-30T21:54:32",{"id":178,"version":179,"summary_zh":180,"released_at":181},280733,"1.2.1","本次发布引入了 VAD 以及其他一些小的改进。\n\n## 语音活动检测 (VAD)\n本项目新增了语音活动检测 (VAD) 功能。它可以帮助你判断当前音频中是否检测到语音。例如，当用户停止说话时，你可以结束麦克风输入。\n\nhttps:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fassets\u002F6161335\u002Fb486c39e-b32e-4902-a50b-7ab64aa94c2c\n\nVAD 的实现非常基础，直接移植自 [whisper.cpp 中基于能量的 VAD](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Fblob\u002Fa792c4079ce61358134da4c9bc589c15a03b04ad\u002Fexamples\u002Fcommon.cpp#L697)。请不要期望它具有很高的鲁棒性，但作为概念验证，其效果应该还不错。\n\n## VAD 流式处理\n现在流式处理已经支持 VAD。这将大幅减少因静音音频区域而导致的幻觉现象。\n\nhttps:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fassets\u002F6161335\u002Fb49e19a1-c1e1-4005-bd4b-4f25571f72c3\n\n_ggml.base.en，VAD 已禁用_\n\n\nhttps:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fassets\u002F6161335\u002F4a7aa536-0e3c-4f56-b830-58da58bf8759\n\n _ggml.base.en，VAD 已启用_ \n\n## 变更内容\n* 添加了 VAD 和 VAD 停止功能，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F44 中完成。\n* 改进了日志记录功能，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F48 中完成。\n* 为流式处理添加了 VAD 功能，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F49 中完成。\n* 新增了流式事件并完善了文档，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F53 中完成。\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.2.0...1.2.1","2023-08-25T09:54:32",{"id":183,"version":184,"summary_zh":185,"released_at":186},280734,"1.2.0","全新重大版本发布，包含大量改动。\n\n## whisper.cpp 更新至 1.4.2\n虽然 1.4.2 技术上仍处于测试阶段，但它已发布数月，且运行稳定。转录质量应无明显变化，不过与旧版本相比，部分结果可能会有所不同。如果您对此有较高要求，建议继续使用旧版本。\n\n## 提示词功能\n![image](https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fassets\u002F30022504\u002Ff4030219-2c78-4e8b-a5b1-7a42bba17d61)\nWhisper.unity 现已支持提示词功能。通过提示词，您可以“引导”转录的风格、人名或特定术语等。尽管其功能不如大型语言模型的提示词强大，但仍能带来非常有趣的效果。\n\n## 流式传输\nhttps:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fassets\u002F6161335\u002F558cdcb9-685b-4f4e-9244-c6da6e471797\n\n首次加入了流式转录功能。现在，无论是通过麦克风还是音频流，转录内容都会实时更新。这基本上是直接移植了 [原版 whisper.cpp 示例](https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fwhisper.cpp\u002Ftree\u002Fmaster\u002Fexamples\u002Fstream)，只是去掉了 VAD 模块。\n\n## 主要变更\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F30 中将 whisper.cpp 更新至 1.4.2\n* @SharafeevRavil 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F25 中添加了提示词支持\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F34 中修复了字符串转换错误\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F35 中添加了进度回调\n* @achimmihca 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F37 中实现了 modelPath 的 setter 方法\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F38 中对 il2cpp 进行了快速修复\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F40 中增加了滑动窗口流式传输支持\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F41 中修复了一些初始化问题\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F43 中清理了示例代码\n\n## 新贡献者\n* @achimmihca 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F37 中完成了首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.1.1...1.2.0","2023-07-25T21:05:55",{"id":188,"version":189,"summary_zh":190,"released_at":191},280735,"1.1.1","小版本发布。新增预编译的 Linux 二进制文件，并引入 GitHub Actions 进行测试和构建。\n\n## 变更内容\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F21 中添加了对 Linux 的支持\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F24 中为测试运行器添加了 GitHub Actions 配置\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F27 中设置了用于构建 whisper.cpp 库的 CI 流程\n* @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F28 中修复了 Unity 测试运行器\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.1.0...1.1.1","2023-06-04T10:58:04",{"id":193,"version":194,"summary_zh":195,"released_at":196},280736,"1.1.0","本次发布新增了分段和标记的时间戳及置信度数据。它更改了 `OnNewSegment` 事件和 `WhisperResult` 类的签名，因此如果您使用过它们，请务必更新您的代码。\n\n## 变更内容\n* 分段时间戳，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F17 中实现。\n* 标记数据及新的字幕演示，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F18 中实现。\n\n## 演示\n![image](https:\u002F\u002Fuser-images.githubusercontent.com\u002F6161335\u002F235308235-f8cbfc9a-92b9-44b9-9838-9b4ec9059421.png)\n*分段时间戳预测*\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F6161335\u002F235007367-940988f6-3160-4b33-bbd2-802e185c451f.mp4\n\n*字幕演示中的 `whisper.tiny`，颜色表示每个标记的置信度等级*\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.0.3...1.1.0","2023-04-29T14:36:17",{"id":198,"version":199,"summary_zh":200,"released_at":201},280737,"1.0.3","## 变更内容\n* 语言 API，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F7 中实现\n* 麦克风演示的输入选择器（并进行了一些重构）(#11)，由 @SharafeevRavil 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F12 中实现\n* 对 Unity 2019.4 及更高版本的支持，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F15 中添加\n* 为 iOS 录音做好准备，由 @Macoron 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F16 中完成\n\n## 新贡献者\n* @SharafeevRavil 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F12 中做出了首次贡献\n\n## 语言检测示例\n![image](https:\u002F\u002Fuser-images.githubusercontent.com\u002F6161335\u002F233705449-b9d68ec6-04cb-4db1-9733-72ebf7f552f5.png)\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.0.2...1.0.3","2023-04-21T18:08:28",{"id":203,"version":204,"summary_zh":205,"released_at":206},280738,"1.0.2","## 变更内容\n* 在 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F5 中添加了基础单元测试\n* 实现了文本片段的流式处理，详情见 https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F6\n* 对 README 进行了小幅修改\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.0.1...1.0.2\n\n### 文本片段流式处理\n\nhttps:\u002F\u002Fuser-images.githubusercontent.com\u002F6161335\u002F231309365-455fdfdf-e715-4385-a254-e712fcde231c.mp4\n\n","2023-04-12T21:12:49",{"id":208,"version":209,"summary_zh":210,"released_at":211},280739,"1.0.1","## What's Changed\r\n* Expose more whisper parameters in https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F3\r\n* Faster Android inference in https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fpull\u002F4\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FMacoron\u002Fwhisper.unity\u002Fcompare\u002F1.0.0...1.0.1","2023-04-08T10:24:23",{"id":213,"version":214,"summary_zh":215,"released_at":216},280740,"1.0.0","First release","2023-03-27T22:40:44"]