noScribe

1.9k 319 简单 1 次阅读昨天GPL-3.0其他音频

AI 解读由 AI 自动生成，仅供参考

noScribe 是一款专为高质量访谈转录设计的免费开源桌面应用，特别适用于定性社会研究和新闻工作。它巧妙地将 OpenAI 的 Whisper 语音识别技术与 pyannote 说话人分离算法相结合，通过友好的图形界面，让用户能在本地电脑上轻松完成音频转文字任务。

这款工具核心解决了研究人员在处理大量访谈录音时的痛点：它不仅支持约 60 种语言的自动转录，还能智能区分不同说话人，生成带角色标记的文稿。最重要的是，noScribe 完全在本地运行，无需上传数据到云端，彻底保障了敏感访谈内容的机密性。内置的编辑器方便用户对转录结果进行校对和修正，弥补了自动转录可能存在的误差。

noScribe 非常适合社会科学研究者、记者、学生以及任何需要处理访谈录音的专业人士使用。虽然转录速度受硬件性能影响（一小时音频可能需要数小时处理），且对录音质量有一定要求，但其完全免费、开源透明且保护隐私的特性，使其成为学术和专业领域的可靠选择。开发者 Kai Dröge 凭借社会学与计算机科学的双重背景，打造这款旨在减轻学术工作负担的工具，让繁琐的听写工作变得不再痛苦。

使用场景

社会学研究员李博士正在处理一项关于移民社区的质性研究，需要将 20 小时的多语言深度访谈录音转化为可分析的文字稿。

没有 noScribe 时

隐私泄露风险高：不得不将敏感的访谈录音上传至云端转录服务，担心受访者隐私数据被第三方留存或滥用。
人工听写效率极低：依靠人工逐字听写，每小时录音需耗费 4-5 小时，且难以区分重叠发言的不同受访者。
多语言处理困难：面对混合了德语、英语和阿拉伯语的对话，通用工具识别率骤降，需手动查阅词典修正大量错误。
后期整理繁琐：获得的纯文本缺乏说话人标签，重新梳理“谁说了什么”需要反复回听录音，极易出错。

使用 noScribe 后

数据完全本地化：noScribe 在李博士的笔记本电脑上离线运行，所有音频与转录稿均保留在本地，彻底消除隐私顾虑。
自动区分说话人：内置的 pyannote 模型自动识别并标记不同受访者（如“说话人 A"、“说话人 B"），大幅减少人工分拣时间。
高精度多语言支持：基于 Whisper 模型，noScribe 准确捕捉了三种语言的混合对话，即使带有口音也能保持高识别率。
一体化编辑体验：直接在 noScribe 自带的编辑器中对照波形图校对，快速修正个别误差，即刻生成可用于编码分析的标准文稿。

noScribe 通过本地化的高精度自动转录与说话人分离技术，将研究员从繁重的听写工作中解放出来，同时严守了质性研究最核心的数据伦理底线。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

非必需
若使用 NVIDIA GPU 加速（CUDA 版本），需显存至少 6GB，驱动版本 570.65 或更高，并安装 CUDA Toolkit
RTX/GTX 1xxx 系列显卡可能不支持 CUDA 加速，建议使用 CPU 版本
Mac Apple Silicon (M1-M4) 支持原生加速

内存

未说明

依赖

notes软件完全本地运行以保护隐私。安装包体积较大（数 GB），因包含 AI 模型。转录速度较慢，1 小时音频可能需要长达 3 小时处理时间。macOS Apple Silicon 用户需安装 Rosetta2 以兼容 ffmpeg 组件。旧版 Intel Mac 暂不支持 v0.7 版本。若遇到特定错误代码，可强制切换至 CPU 模式运行。

python未说明（源码安装需 python3）

faster-whisper

pyannote-audio

ffmpeg

git

git-lfs

快速开始

# noScribe

用于自动音频转录的尖端人工智能技术

[!NOTE]

🚀 noScribe 的新官方网站：https://noscribe.de

了解如何安装和使用该软件，并获取提升转录质量的技巧。

🌐 支持 英语、德语、西班牙语、意大利语和荷兰语。

请更新您的链接。

[!WARNING] 有人注册了域名 noscribe(dot)ai，用于销售转录服务。请远离该平台，我与此事毫无关系。 真正的 noScribe 是免费的，而且永远都会是免费的。这显然是利用我的软件及其多年来积累的声誉牟利的行为。令人非常遗憾。

什么是 noScribe？

一款用于为定性社会研究或新闻报道生成 高质量访谈记录 的应用程序
noScribe 是 免费且开源 的（GPL-3.0），适用于 Windows、MacOS 和 Linux
它在您的计算机上 完全本地运行，从而保护您访谈的机密性。无需云端，无后顾之忧
它能够区分不同的 说话人，并支持约 60 种语言（多寡不一，详见下文）
它内置了一个 优秀的编辑器，用于审查、核对和修正生成的文本
它基于多项前沿技术：OpenAI 的 Whisper、Guillaume Klein 的 faster-whisper 以及 Hervé Bredin 的 pyannote

主界面（该转录来自我于 2022 年 5 月与俄罗斯社会学家 Natalia Savelyeva 进行的访谈。）

局限性

由于包含大量 AI 模型，下载文件较大（数 GB）。
请注意，根据您的设备性能，转录一小时的访谈可能需要长达三小时。
音质较差或背景噪音过大的录音会导致转录效果不佳。
没有任何自动转录工具能做到完美，通常仍需人工校对。请务必使用内置编辑器对转录内容进行全面检查。（另请参阅下方的“影响转录质量的因素”和“已知问题”。）

如果您想了解更多，且能看懂德语，帕德博恩大学的 Rebecca Schmidt 撰写了一篇关于 noScribe 的精彩评测，其中也讨论了其局限性。此外，德国知名计算机杂志 c't 也在近期的一篇评测中推荐了 noScribe：https://www.heise.de/select/ct/2025/2/2433207582191637980。

为什么叫“noScribe”？

根据 Urban Dictionary，scribe 被定义为 “一个将自己悲惨的人生全部简化为学术上的苦闷与痛苦的人”。我希望这款软件能让您的学术生活少一些痛苦与烦闷，因此得名 noScribe :)

关于我

Kai Dröge，社会学博士（兼具计算机科学背景），定性研究者及教师，现任瑞士卢塞恩应用科学大学卢塞恩应用科学大学教师，同时也在德国法兰克福社会研究所法兰克福社会研究所工作。

捐赠

noScribe 始终保持免费。然而，开发它确实需要资金投入。我曾购买硬件用于测试，并每年向 Apple 支付开发者证书费用。如果您愿意支持该项目，欢迎通过 Ko-Fi 进行捐赠。感谢！

下载与安装

当前版本号：0.7（参见变更日志）

所有发布版本均托管于 SWITCHdrive，这是一个面向瑞士高校的安全数据共享平台。

Windows

点击展开

下载：
- 适用于普通 PC（无 NVIDIA 显卡）的 通用版本：https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.7%2FWindows%2Fnormal
- 使用 NVIDIA 显卡 CUDA 加速 的特殊版本（显存至少 6 GB）：https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.7%2FWindows%2Fcuda。请确保您的 NVIDIA 驱动程序版本为 570.65 或更高。此外，您还需从此处安装 CUDA 工具包（安装后需重启）。
安装：
- 启动下载的安装程序。此过程可能较慢，请耐心等待。
- 如果出现“Windows 保护了您的电脑”的警告，并提示该应用来自“未知发布者”，请信任我们并点击“仍要运行”。
- 若要在多台计算机上进行静默安装，可在启动安装程序时添加参数 /S。
已知问题：
- 目前看来，RTX/GTX 1XXX 系列显卡已不再受 CUDA 支持。建议改用普通版本。
- 如果遇到以下错误信息：“转录工作进程意外退出（代码 3221226505）”，请尝试强制使用 CPU 进行转录，而非显卡。虽然速度较慢，但更为可靠。操作步骤如下：关闭 noScribe；用文本编辑器打开文件 C:\Users\<USERNAME>\AppData\Local\noScribe\noScribe\config.yml；将 force_whisper_cpu 的值改为 'True'，注意引号不可省略。保存后重新启动 noScribe。

macOS

点击展开

由 gernophil 移植

配备 Apple Silicon M1-M4 处理器且运行 macOS 14 或更高版本的新款 Mac
- 下载地址：https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.7%2FmacOS%2FApple%20Silicon
- 双击下载的 .dmg 文件，然后将 noScribe 和 noScribeEdit 拖拽到应用程序文件夹的快捷方式处（标有“将两者拖至此处以安装”）。
- 由于其中一个组件（ffmpeg）仍为 Intel CPU 构建，您需要使用 Apple 的 Rosetta2 Intel 模拟器。如果尚未安装，请按以下步骤操作：
  - 打开终端（位于 /Applications/Utilities/Terminal.app）。
  - 输入 softwareupdate --install-rosetta 或 softwareupdate --install-rosetta --agree-to-license。
  - 按下回车键，并按照屏幕上的指示完成安装。
- 双击应用程序文件夹中的 noScribe 和/或 noScribeEdit 图标即可启动。
配备 Intel 处理器的老款 Mac
- 注意：目前 0.7 版本尚不适用于基于 Intel 的 Mac，原因是与最新版 pyannote 不兼容。不过，您可以使用 0.6 版本：https://drive.switch.ch/index.php/apps/files/?dir=/noScribe/noScribe%20releases/noScribe%20vers.%200.6/macOS/x86_64%20(Intel)&fileid=8266174681。
- 更早的版本也可在此处获取：https://drive.switch.ch/index.php/s/EIVup04qkSHb54j。
- 遗憾的是，我们无法正确签名 x86_64 软件包，因此系统会提示 noScribe 和 noScribeEdit 来自未注册开发者。如果您的 Gatekeeper 功能已启用，您必须手动允许运行这些程序。具体步骤如下：
- 双击下载的 .dmg 文件。
- 将 noScribe 和 noScribeEdit 拖拽到应用程序文件夹的快捷方式处（标有“将两者拖至此处以安装”）。
- 双击应用程序文件夹中的 noScribe 图标启动程序，此时会出现错误提示，表明该程序来自未注册开发者。对 noScribe Editor 重复此操作。
- 前往“系统设置”→“隐私与安全性”，向下滚动至显示 noScribe 被阻止启动的消息，然后点击“仍要打开”。同样地，对 noScribe Editor 也执行此操作。
- 从今以后，这两个程序应能正常启动。

Linux

点击展开

由 Eckhard Kadasch 和 Florian Dobener 移植；可执行文件由 gernophil 生成。

可执行文件安装

在此处下载 noScribe 0.7 的 CUDA 或 CPU 版本 for Linux：https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.7%2FLinux
- 有报告称，某些系统上 noScribe 0.7 for Linux 存在问题。如果您使用的系统无法运行 noScribe 0.7 for Linux，请暂时使用 noScribe 0.6.2，直到我们解决这些问题：https://drive.switch.ch/index.php/s/EIVup04qkSHb54j?path=%2FnoScribe%20vers.%200.6%2FLinux
使用终端命令 tar -xzvf noScribe_0.7.0_cpu_linux_amd64.tar.gz 或 tar -xzvf noScribe_0.7.0_cuda_linux_amd64.tar.gz 解压文件。
进入 noScribe 文件夹并执行 ./noScribe 启动程序。
可选：使用文本编辑器编辑 noScribe.desktop 和 noScribeEdit.desktop 文件，在以 Exec= 和 Icon= 开头的行中填写完整路径。

从源代码手动安装

更多信息请参阅此讨论。

如需从源代码安装，您需要 git 和 git-lfs 以获取所有必要组件。最新的源代码可直接从仓库中拉取。如果您希望安装特定版本，请使用上述可执行文件安装方法。

git clone https://github.com/kaixxx/noScribe.git

# 之后的所有操作都在 noScribe 目录中进行。
cd noScribe

# 安装 noScribeEdit
rm -rf noScribeEdit/
git clone https://github.com/kaixxx/noScribeEditor.git noScribeEdit

# 创建 Python 虚拟环境。
python3 -m venv venv

# 执行此命令后，将使用虚拟环境中安装的 Python。此外，所有软件包也将安装于此。每次启动 noScribe 时，请务必先运行此命令。
source venv/bin/activate

# 安装必要的依赖项。
pip install -r environments/requirements_linux.txt
pip install -r noScribeEdit/environments/requirements.txt

# 下载模型文件。这里同时下载了精确模型和快速模型。如果您只使用其中一种，则只需下载相应的模型即可。
rm -rf models/fast
rm -rf models/precise
git clone https://huggingface.co/mukowaty/faster-whisper-int8 models/fast
git clone https://huggingface.co/mobiuslabsgmbh/faster-whisper-large-v3-turbo models/precise

# 运行 noScribe。
python3 ./noScribe.py

旧版本：

https://drive.switch.ch/index.php/s/EIVup04qkSHb54j

引用（APA 格式）

Dröge, K. (2025). noScribe. 基于人工智能的音频转录（版本 XXX）[计算机软件]。https://github.com/kaixxx/noScribe

使用

设置

选择您的 音频文件。NoScribe 支持几乎任何音频或视频格式。您也可以一次选择多个文件进行批量转录。
选择转录文件的 文件名。您还可以选择文件类型：.html 是默认格式，也受 noScribe 编辑器支持。.vtt 是一种视频字幕格式，如果您想将转录导入 EXMARaLDA 进行进一步标注，则尤为有用。*.txt 会将转录导出为纯文本。
开始和停止接受 hh:mm:ss 格式的时间戳。使用此功能可将转录限制在录音的特定部分。这在正式转录整个访谈之前，先用一个小样本测试设置时特别有帮助，因为完整访谈的转录可能需要数小时。如果您想转录到音频文件的结尾，请将停止留空。
语言：选择转录的语言。将其设置为“自动”以检测语言，或选择“多语言”，如果您的音频包含多种语言（实验性功能）。
质量：“精确”是推荐设置，可获得最准确的转录。在较慢的设备上，您可以选择“快速”选项。这样速度更快，但后续可能需要更多手动校对。您还可以安装自定义模型，这些模型针对特定语言等进行了微调。
标记停顿：启用后，音频中无人声的部分将被标记为停顿。停顿会以圆括号表示，每秒一个点，例如，两秒的停顿写为“(..)”。超过10秒的停顿则会写成“(XX 秒停顿)”或“(XX 分钟停顿)”。您可以选择标记持续1秒及以上的停顿（“1sec+”）、2秒及以上的停顿（“2sec+”），或仅标记3秒及以上的较长停顿（“3sec+”）。选择“无”可完全禁用此功能。
说话人检测：此功能使用 Pyannote AI 模型来识别音频中的不同说话人，并相应地组织转录内容。如果已知说话人数，请选择相应的数字；否则可选择“自动”。选择“无”则会跳过此步骤，从而将处理时间缩短约一半。不过，生成的转录将是一整段连续文本，不会显示说话人切换的标志。
重叠语音：启用后，noScribe 会尝试标记两人同时说话的情况。重叠部分会用双斜杠 // 来分隔。（注：此功能尚处于实验阶段。）
语流不畅：启用后，常见的语流不畅现象，如填充词（“嗯”）、未完成的词语或句子等，也会被转录出来。请注意，这不是一个简单的开关，而更像是对转录 AI 模型的一种“建议”，其效果有限。
时间戳：启用后，noScribe 会在转录中加入 [hh:mm:ss] 格式的时间戳，可以是每次说话人切换时，也可以每60秒插入一次。我个人觉得这些时间戳有些分散注意力，因此默认将其关闭。不过，在某些情况下它们确实很有用。即使时间戳被关闭，要确定特定片段的音频时间码也很简单：只需在 noScribe 编辑器中打开转录文件，浏览文本，相应的时间码就会显示在应用程序右下角。

转录流程

如果准备就绪，请点击左下角的开始按钮。取消将终止该进程。
请注意，一小时的访谈可能需要长达三小时的处理时间，并且会对您的设备造成较大负担。不建议在电池供电状态下进行此操作。
应用程序底部的 进度指示器 会显示当前处理进度。
主窗口（日志标签）会显示进度信息和错误提示。在转录的最后一步，它还会打印您的访谈文本。
转录文件会每隔几秒钟自动保存一次，保存为指定的文件名。
默认情况下，noScribe 会生成 HTML 文件。该文件可以在任何常用的文字编辑器（包括 MS Word、LibreOffice）或定性数据分析软件包（MAXQDA、ATLAS.ti、QualCoder 等）中打开。
不过，在使用转录文件之前，您应该先用内置编辑器检查一下。通常总会存在一些错误。

批量转录

（版本 0.7 中新增）

主窗口中的“队列”选项卡会显示所有任务的列表及其状态和进度。
如果您在另一个任务仍在运行时启动新任务，新任务将排队等待后续处理。
若要使用相同设置同时启动多个任务，请在音频文件对话框中选择任意数量的文件。输出文件将自动命名。如有需要，可使用“另存转录为”对话框选择不同的输出文件夹。否则，转录文件将与音频文件存储在同一文件夹中。
任务按钮：
- X 从列表中删除任务，或取消正在运行的任务。
- ✔ 在内置编辑器中打开转录文件。即使任务因错误或用户取消而未完成，也可通过此按钮查看转录内容。
- ⟲ 重新启动任务（仅在出现错误或任务被取消时可用）。

noScribe编辑器

随附的编辑器用于检查最终的转录文本。

noScribe编辑器中的转录文本

noScribe编辑器是一个独立的应用程序。转录完成后它会自动打开，但也可以不依赖noScribe单独运行。它包含一些实用功能，可以帮助您检查已完成的转录文本中的错误并进行修正：

按下 Ctrl + 空格键（Mac上为^Space）或点击 工具栏中的橙色按钮，即可播放与当前文本位置对应的音频。
当前选中的文本会跟随您听到的音频同步移动。如果您想 进行修改，可以用鼠标点击文本中的任意位置，或者使用方向键移动光标。此时音频会停止，您可以开始编辑文本。
您也可以再次按下 Ctrl + 空格键或点击橙色按钮来 停止音频。
如果您想 加快或减慢音频速度，可以将“播放/暂停音频”按钮旁边的“100%”选项调整为合适的速率。
若要更改 发言者姓名，请使用搜索和替换功能，可通过放大镜图标或“编辑”菜单访问。
使用工具栏中的加号和减号图标可以 放大或缩小视图。
工具栏以及顶部菜单中还提供了 基本文本编辑器的常用功能（如基本文本格式化、剪切、复制与粘贴、撤销与重做）。
您常用的 快捷键 也适用（例如，Ctrl+S 保存，Ctrl+F 查找与替换）。所有快捷键都可以在菜单中查看。正如之前提到的，‘Ctrl+Space’ 是您最常使用的快捷键，因为它可以启动或暂停音频。

该编辑器的源代码可在以下链接找到：https://github.com/kaixxx/noScribeEditor

影响转录质量的因素

一份 清晰的人声且无环境噪声的良好录音 对高质量的转录至关重要。在录音质量上多花些功夫，将为您后续的手动校对节省大量时间。
Whisper（驱动noScribe的AI）能够理解约60种不同的语言，但不同语言之间的转录质量差异较大。其中，西班牙语、意大利语、英语、葡萄牙语和德语 的支持效果最佳（更多信息请参见此处）。
Whisper 对方言的处理能力较好（例如瑞士德语），但在后期校对时可能仍需较多人工干预。

已知问题

本软件的输出结果始终需要检查其质量、是否存在误解以及发言者区分是否正确。该软件基于 OpenAI的Whisper模型。典型的词错误率可参考这里。另请参阅这篇论文，其中对比了不同转录服务及其错误情况。
与其他大型语言模型一样，Whisper 模型有时也会出现幻觉现象。这种情况在静音片段或背景噪音被误认为“文本”时尤为常见（更多信息请参见康奈尔大学的一项研究）。我们使用语音活动检测（VAD）尽可能过滤掉无语音的部分。
更严重的是，用户还报告了一些案例，即模型生成了在语法上符合上下文但实际上并未出现在原始音频中的词语。这类错误尤其难以发现。
人名、地名或组织名称 往往会被错误转录。
Whisper AI 有时可能会陷入 重复文本的循环，尤其是在较长的音频文件中。如果发生这种情况，建议将音频分成较短的段落进行转录（使用 noScribe 中的“开始”和“结束”字段），然后手动拼接。
多语言音频 目前已支持，但仍处于实验阶段。有时可能会出现将主语言之外的其他语言词汇翻译出来的情况。
非语言表达（如笑声）不会包含在转录文本中，如果您需要这些内容，则必须在编辑器中手动添加。
发言者区分：在某些录音中，noScribe 所使用的 AI 即使在人类听觉上能明显区分不同说话者的声音，也可能无法准确识别。请仔细检查结果。
长时间后，尤其是较长的访谈中，可能会出现 标点符号和大小写丢失 的情况。如果遇到此类问题，您可以：
- 将音频分成较短的段落进行转录（使用 noScribe 中的“开始”和“结束”字段），然后手动拼接。
- 尝试使用其他模型，特别是“faster-whisper-large-v2”，该模型较少出现此类问题。您需要先按照维基中的说明安装此模型。

高级选项

noScribe 现在也提供命令行界面，非常适合脚本编写。输入 noScribe.exe --help 可获取更多信息。在脚本场景中，您还可以使用 --no-gui 选项。
配置文件：应用程序首次运行后，您会在用户配置目录中找到名为 config.yml 的文件（Windows 上为 C:\Users\<用户名>\AppData\Local\noScribe\noScribe\config.yml；Mac OS 上为 ~/Library/Application Support/noscribe/config.yml；Linux 上为 ~/.config/noScribe/config.yml）。在这里，您可以更改一些 额外设置，例如用户界面的语言和模型参数。
在用户配置目录中，您还会找到一个名为 log 的文件夹，其中包含每份转录（包括未完成的转录）的详细日志文件。这在出现任何错误时非常有帮助。不过请注意，这些文件中也包含您的转录文本，可能涉及敏感信息。
如果您希望在 noScribe 中使用 自定义的 Whisper 模型，请按照维基中的说明操作。

开发与贡献

我使用 Python 3.12 开发了 noScribe。
由于 Whisper 模型体积过大，我无法将其托管在 GitHub 上。模型文件夹中有一份 README 文件，其中提供了获取这些模型的说明。
如果时间允许，我很乐意审阅测试、错误报告和拉取请求。

翻译

noScribe 的用户界面已经被翻译成多种语言（感谢 mlynar-czyk）。
由于大部分翻译都是使用 ChatGPT 生成的，可能会存在一些问题。如果您发现任何错误，请及时报告，并尽可能提交一个包含更佳翻译的拉取请求。
语言文件位于“trans”文件夹中。
如果您对语言文件进行修改，请务必遵循 YAML 语言的规范。
如果您想更改用户界面的语言，需要在高级设置中修改“locale”配置项的值（见上文）。

其他软件

如果您对用于定性数据分析的开源软件感兴趣，可以查看我的另一个项目 QualCoder。

noScribe 快速上手指南

noScribe 是一款免费开源的本地化 AI 音频转录工具，专为定性社会研究和新闻采访设计。它基于 Whisper、faster-whisper 和 pyannote-audio 构建，支持约 60 种语言，能够区分不同说话人，且所有数据均在本地处理，无需上传云端，确保隐私安全。

环境准备

系统要求

操作系统：Windows、macOS (Intel/Apple Silicon) 或 Linux
硬件建议：
- 通用版：适用于无独立显卡或显存小于 6GB 的机器（使用 CPU 运算，速度较慢）。
- 加速版：适用于配备 NVIDIA 显卡（显存 ≥ 6GB）的机器。需安装 CUDA Toolkit 并确保驱动版本 ≥ 570.65。
- macOS：M1-M4 芯片需安装 Rosetta 2（用于兼容 ffmpeg 组件）；Intel 芯片用户建议使用 v0.6 版本。
存储空间：由于包含大型 AI 模型，安装包体积较大（数 GB），请确保磁盘空间充足。

前置依赖

Windows/Linux (NVIDIA 加速版)：需预先安装 CUDA Toolkit。
macOS (Apple Silicon)：需在终端运行 softwareupdate --install-rosetta 安装 Rosetta 2。
源码安装 (Linux)：需安装 git, git-lfs, python3。

注意：目前官方未提供中国镜像源，下载模型和安装包需访问国际网络。若从源码安装，克隆 HuggingFace 模型时如遇网络问题，建议配置本地代理或使用国内 HuggingFace 镜像站。

安装步骤

方式一：直接使用预编译包（推荐）

Windows

根据硬件选择下载：
- 普通 PC：下载链接 (Normal)
- NVIDIA 显卡 (≥6GB VRAM)：下载链接 (CUDA)
运行下载的 setup 文件。
- 若出现"Windows 保护了你的电脑”提示，点击“更多信息” -> “仍要运行”。
- 静默安装参数：/S。

macOS

Apple Silicon (M1-M4):
- 下载链接
- 双击 .dmg 文件，将 noScribe 和 noScribeEdit 拖入 Applications 文件夹。
Intel 芯片:
- 当前 v0.7 不支持 Intel Mac，请下载 v0.6 版本。
- 首次运行若被拦截，请前往 系统设置 -> 隐私与安全性，点击“仍要打开”。

Linux

下载对应版本（CPU 或 CUDA）：Linux 下载页

解压并运行：

# 解压文件 (根据实际文件名调整)
tar -xzvf noScribe_0.7.0_cpu_linux_amd64.tar.gz

# 进入目录并启动
cd noScribe
./noScribe

方式二：从源码安装 (仅限 Linux/高级用户)

# 1. 克隆主项目
git clone https://github.com/kaixxx/noScribe.git
cd noScribe

# 2. 克隆编辑器组件
rm -rf noScribeEdit/
git clone https://github.com/kaixxx/noScribeEditor.git noScribeEdit

# 3. 创建 Python 虚拟环境
python3 -m venv venv
source venv/bin/activate

# 4. 安装依赖
pip install -r environments/requirements_linux.txt
pip install -r noScribeEdit/environments/requirements.txt

# 5. 下载 AI 模型 (需 git-lfs)
rm -rf models/fast models/precise
git clone https://huggingface.co/mukowaty/faster-whisper-int8 models/fast
git clone https://huggingface.co/mobiuslabsgmbh/faster-whisper-large-v3-turbo models/precise

# 6. 启动程序
python3 ./noScribe.py

基本使用

启动程序：运行安装好的 noScribe 应用程序。
加载音频：
- 在主界面选择音频或视频文件（支持批量选择）。
- 支持几乎所有主流音视频格式。
配置参数：
- 转录文件命名：设置输出文件名及格式。
- 语言选择：指定音频语言（支持约 60 种），或设为自动检测。
- 说话人分离：启用此功能可自动区分不同发言者（基于 pyannote）。
开始转录：
- 点击开始按钮。根据硬件性能，1 小时音频可能需要 1-3 小时处理时间。
- 进度条会显示当前状态。
编辑与校对：
- 转录完成后，程序会自动调用 noScribe Editor。
- 在编辑器中听取音频片段，核对文本，修正识别错误，并调整说话人标签。
- 导出最终文本（支持 TXT, DOCX 等格式）。

提示：自动转录无法达到 100% 准确，尤其是背景噪音较大时。务必使用内置编辑器进行人工复核以保证质量。

版本历史

v0.72025/12/08

v0.62025/02/12

v0.52024/06/13

v0.4.12023/10/21

v0.4b2023/10/17

v0.32023/06/08

v0.2-beta2023/05/16

常见问题

如何在 macOS 上运行 noScribe？

遇到'Torch not compiled with CUDA enabled'错误怎么办？

noScribe 默认使用 CPU 而不是 NVIDIA 显卡，如何强制使用 GPU？

在 Ubuntu 22.04 上运行时提示'GLIBC_2.36' not found 或出现核心转储（core dump）如何解决？

转录时提示'Invalid file type'或文件名中缺少扩展名怎么办？

GeForce RTX 系列显卡（如 5060 Ti）上 PyAnnote 报错且 Whisper 无响应，如何处理？

转录结果中出现字幕持续时间为负数（negative duration）是怎么回事？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|今天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2周前

开发框架其他