sherpa-onnx
sherpa-onnx 是一款功能强大的离线语音处理工具箱,基于下一代 Kaldi 框架与 ONNX Runtime 构建。它无需联网即可在本地实现语音转文字、文字转语音、说话人区分、语音增强、声源分离及语音活动检测等核心功能,全面覆盖从识别到合成的各类音频处理需求。
该工具主要解决了传统语音方案依赖云端服务导致的隐私泄露风险、网络延迟高以及部署成本昂贵等问题。凭借卓越的跨平台兼容性,sherpa-onnx 不仅能运行在常见的 Windows、macOS、Linux 服务器上,更完美支持 Android、iOS、鸿蒙系统,以及树莓派、RISC-V 架构设备和各类国产 NPU(如瑞芯微、昇腾、爱芯等),让高性能语音技术得以轻松落地于嵌入式硬件与边缘设备。
sherpa-onnx 特别适合开发者、研究人员及物联网工程师使用。其独特亮点在于提供了多达 12 种编程语言的 API 接口(包括 C++、Python、Go、Rust、Swift 等),并支持 WebAssembly,极大降低了集成门槛。无论你是想为智能硬件添加语音交互能力,还是构建保护用户隐私的本地化语音应用,sherpa-onnx 都能提供灵活、高效且免费开源的技术支撑。
使用场景
某智能家居团队正在为一款离线语音助手开发核心交互模块,要求设备在无网络环境下也能精准识别指令并区分不同家庭成员。
没有 sherpa-onnx 时
- 依赖云端导致延迟高:语音必须上传至服务器处理,网络波动时响应慢甚至超时,用户体验割裂。
- 隐私泄露风险大:家庭对话录音需传输到第三方云端,存在敏感数据被截获或滥用的隐患。
- 硬件适配成本极高:需在 ARM 架构的开发板、RISC-V 芯片及各类 NPU 上分别移植不同的语音引擎,维护多套代码库。
- 功能集成复杂:想同时实现“人声分离”和“说话人区分”,不得不拼凑多个互不兼容的开源项目,导致系统臃肿不稳定。
使用 sherpa-onnx 后
- 毫秒级本地响应:利用 ONNX Runtime 在设备端直接运行下一代 Kaldi 模型,断网状态下也能即时识别指令并合成回复。
- 数据完全本地闭环:所有语音识别、声纹验证及对话内容均在芯片内部处理,彻底杜绝隐私外传风险。
- 一次开发多端部署:凭借对 Android、iOS、HarmonyOS 及 RK/Ascend 等 NPU 的广泛支持,同一套 C++ 或 Python 代码可无缝运行于从树莓派到高端网关的各种设备。
- 全能型单库集成:单个库即可搞定语音转文字、文本转语音、说话人日志及背景降噪,大幅简化了工程架构与测试流程。
sherpa-onnx 通过强大的跨平台离线能力,让开发者能以最低成本构建出既保护隐私又响应迅速的嵌入式智能语音应用。
运行环境要求
- Linux
- macOS
- Windows
- Android
- iOS
- HarmonyOS
- openKylin
- 非必需
- 支持在 CPU 上运行
- 可选支持 NVIDIA GPU (如 Jetson Orin NX, Jetson Nano),也支持多种 NPU (Rockchip RKNN, Qualcomm QNN, Ascend, Axera)
- 未指定具体显存大小或 CUDA 版本要求
未说明

快速开始
支持的功能
| 语音识别 | 语音合成 | 声源分离 |
|---|---|---|
| ✔️ | ✔️ | ✔️ |
| 说话人辨识 | 说话人日志 | 说话人验证 |
|---|---|---|
| ✔️ | ✔️ | ✔️ |
| 口语语言辨识 | 音频标签 | 语音活动检测 |
|---|---|---|
| ✔️ | ✔️ | ✔️ |
| 关键词检测 | 添加标点符号 | 语音增强 |
|---|---|---|
| ✔️ | ✔️ | ✔️ |
支持的平台
| 架构 | 安卓 | iOS | Windows | macOS | Linux | 鸿蒙OS |
|---|---|---|---|---|---|---|
| x64 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | |
| x86 | ✔️ | ✔️ | ||||
| arm64 | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ | ✔️ |
| arm32 | ✔️ | ✔️ | ✔️ | |||
| riscv64 | ✔️ |
支持的编程语言
| 1. C++ | 2. C | 3. Python | 4. JavaScript |
|---|---|---|---|
| ✔️ | ✔️ | ✔️ | ✔️ |
| 5. Java | 6. C# | 7. Kotlin | 8. Swift |
|---|---|---|---|
| ✔️ | ✔️ | ✔️ | ✔️ |
| 9. Go | 10. Dart | 11. Rust | 12. Pascal |
|---|---|---|---|
| ✔️ | ✔️ | ✔️ | ✔️ |
它还支持 WebAssembly。
支持的 NPU
| 1. 瑞芯微 NPU (RKNN) | 2. 高通 NPU (QNN) | 3. 华为昇腾 NPU |
|---|---|---|
| ✔️ | ✔️ | ✔️ |
| 4. 艾拉科技 NPU |
|---|
| ✔️ |
简介
本仓库支持在本地运行以下功能:
- 语音转文本(即 ASR);支持流式和非流式处理
- 文本转语音(即 TTS)
- 说话人日志
- 说话人辨识
- 说话人验证
- 口语语言辨识
- 音频标签
- VAD(例如 silero-vad)
- 语音增强(例如 gtcrn、DPDFNet)
- 关键词检测
- 声源分离(例如 spleeter、UVR)
可在以下平台和操作系统上运行:
- x86、x86_64、32位 ARM、64位 ARM(arm64、aarch64)、RISC-V(riscv64)、RK NPU、昇腾 NPU
- Linux、macOS、Windows、openKylin
- 安卓、WearOS
- iOS
- 鸿蒙OS
- NodeJS
- WebAssembly
- NVIDIA Jetson Orin NX(支持在 CPU 和 GPU 上运行)
- NVIDIA Jetson Nano B01(支持在 CPU 和 GPU 上运行)
- 树莓派
- RV1126
- LicheePi4A
- VisionFive 2
- 旭日X3派
- 爱芯派
- RK3588
- SpacemiT-K1
- SpacemiT-K3
- 等等
并提供以下 API:
- C++、C、Python、Go、C#
- Java、Kotlin、JavaScript
- Swift、Rust
- Dart、Object Pascal
Hugging Face Spaces 链接
您可以通过访问以下 Hugging Face Spaces 来试用 Sherpa-onnx,无需任何安装。您只需要一个浏览器即可。
| 描述 | URL | 中国镜像 |
|---|---|---|
| 发言人分离 | 点击我 | 镜像 |
| 语音识别 | 点击我 | 镜像 |
| 使用 Whisper 的语音识别 | 点击我 | 镜像 |
| 语音合成 | 点击我 | 镜像 |
| 生成字幕 | 点击我 | 镜像 |
| 音频标签 | 点击我 | 镜像 |
| 声源分离 | 点击我 | 镜像 |
| 使用 Whisper 进行的口语语言识别 | 点击我 | 镜像 |
我们还有使用 WebAssembly 构建的空间,列表如下:
| 描述 | Hugging Face Space | ModelScope Space |
|---|---|---|
| 使用 silero-vad 的语音活动检测 | 点击我 | 地址 |
| 使用 Zipformer 的实时语音识别(中文 + 英文) | 点击我 | 地址 |
| 使用 Paraformer 的实时语音识别(中文 + 英文) | 点击我 | 地址 |
| 使用 Paraformer-large 的实时语音识别(中文 + 英文 + 粤语) | 点击我 | 地址 |
| 实时语音识别(英文) | 点击我 | 地址 |
| VAD + 语音识别(中文)与 Zipformer CTC | 点击我 | 地址 |
| VAD + 语音识别(中文 + 英文 + 韩语 + 日语 + 粤语)与 SenseVoice | 点击我 | 地址 |
| VAD + 语音识别(英文)与 Whisper tiny.en | 点击我 | 地址 |
| VAD + 语音识别(英文)与 Moonshine tiny | 点击我 | 地址 |
| VAD + 语音识别(英文)与使用 GigaSpeech 训练的 Zipformer | 点击我 | 地址 |
| VAD + 语音识别(中文)与使用 WenetSpeech 训练的 Zipformer | 点击我 | 地址 |
| VAD + 语音识别(日语)与使用 ReazonSpeech 训练的 Zipformer | 点击我 | 地址 |
| VAD + 语音识别(泰语)与使用 GigaSpeech2 训练的 Zipformer | 点击我 | 地址 |
| VAD + 语音识别(中文多种方言)与 a TeleSpeech-ASR CTC 模型 | 点击我 | 地址 |
| VAD + 语音识别(英文 + 中文,及多种中文方言)与 Paraformer-large | 点击我 | 地址 |
| VAD + 语音识别(英文 + 中文,及多种中文方言)与 Paraformer-small | 点击我 | 地址 |
| VAD + 语音识别(多语种及多种中文方言)与 Dolphin-base | 点击我 | 地址 |
| 语音合成(Piper,英文) | 点击我 | 地址 |
| 语音合成(Piper,德语) | 点击我 | 地址 |
| 语音合成(Matcha,中文) | 点击我 | 地址 |
| 语音合成(Matcha,英文) | 点击我 | 地址 |
| 语音合成(Matcha,中英双语) | 点击我 | 地址 |
| 发言人分离 | 点击我 | 地址 |
| 使用 ZipVoice(中文+英文)进行声音克隆 | 点击我 | 地址 |
| 使用 Pocket TTS(英文)进行声音克隆 | 点击我 | 地址 |
预编译的 Android APK 下载链接
您可以在下表中找到此仓库的预编译 Android APK
| 描述 | URL | 中国用户 |
|---|---|---|
| 发言人分离 | 地址 | 点击此处 |
| 流式语音识别 | 地址 | 点击此处 |
| 模拟流式语音识别 | 地址 | 点击此处 |
| 文本转语音 | 地址 | 点击此处 |
| 语音活动检测 (VAD) | 地址 | 点击此处 |
| VAD + 非流式语音识别 | 地址 | 点击此处 |
| 两步法语音识别 | 地址 | 点击此处 |
| 音频标签 | 地址 | 点击此处 |
| 音频标签(WearOS) | 地址 | 点击此处 |
| 发言人辨识 | 地址 | 点击此处 |
| 口语语言辨识 | 地址 | 点击此处 |
| 关键词检测 | 地址 | 点击此处 |
预编译的 Flutter APP 下载链接
实时语音识别
| 描述 | URL | 中国用户 |
|---|---|---|
| 流式语音识别 | 地址 | 点击此处 |
文本转语音
| 描述 | URL | 中国用户 |
|---|---|---|
| 安卓(arm64-v8a、armeabi-v7a、x86_64) | 地址 | 点击此处 |
| Linux(x64) | 地址 | 点击此处 |
| macOS(x64) | 地址 | 点击此处 |
| macOS(arm64) | 地址 | 点击此处 |
| Windows(x64) | 地址 | 点击此处 |
注:iOS 需要从源码构建。
预编译的 Lazarus APP 下载链接
预训练模型下载链接
| 描述 | URL |
|---|---|
| 语音识别(语音转文本,ASR) | 地址 |
| 文本转语音(TTS) | 地址 |
| VAD | 地址 |
| 关键词检测 | 地址 |
| 音频标签 | 地址 |
| 发言人辨识(Speaker ID) | 地址 |
| 口语语言辨识(Language ID) | 参见多语言 Whisper ASR 模型,来自 语音识别 |
| 标点符号 | 地址 |
| 发言人分割 | 地址 |
| 语音增强 | 地址 |
| 声源分离 | 地址 |
部分预训练 ASR 模型(流式)
请参阅:
- https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-transducer/index.html
- https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-paraformer/index.html
- https://k2-fsa.github.io/sherpa/onnx/pretrained_models/online-ctc/index.html
以获取更多模型。下表仅列出其中的 部分。
| 名称 | 支持的语言 | 描述 |
|---|---|---|
| sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20 | 中文、英文 | 参见 此处 |
| sherpa-onnx-streaming-zipformer-small-bilingual-zh-en-2023-02-16 | 中文、英文 | 参见 此处 |
| sherpa-onnx-streaming-zipformer-zh-14M-2023-02-23 | 中文 | 适用于Cortex A7 CPU。参见 此处 |
| sherpa-onnx-streaming-zipformer-en-20M-2023-02-17 | 英文 | 适用于Cortex A7 CPU。参见 此处 |
| sherpa-onnx-streaming-zipformer-korean-2024-06-16 | 韩语 | 参见 此处 |
| sherpa-onnx-streaming-zipformer-fr-2023-04-14 | 法语 | 参见 此处 |
一些非流式预训练 ASR 模型
请参阅:
- https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-transducer/index.html
- https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-paraformer/index.html
- https://k2-fsa.github.io/sherpa/onnx/pretrained_models/offline-ctc/index.html
- https://k2-fsa.github.io/sherpa/onnx/pretrained_models/telespeech/index.html
- https://k2-fsa.github.io/sherpa/onnx/pretrained_models/whisper/index.html
以获取更多模型。下表仅列出其中的 部分。
| 名称 | 支持的语言 | 描述 |
|---|---|---|
| sherpa-onnx-nemo-parakeet-tdt-0.6b-v2-int8 | 英语 | 由 https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 转换而来 |
| Whisper tiny.en | 英语 | 参见 此处 |
| Moonshine tiny | 英语 | 参见 此处 |
| sherpa-onnx-zipformer-ctc-zh-int8-2025-07-03 | 中文 | 一个 Zipformer CTC 模型 |
| sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17 | 中文、粤语、英语、韩语、日语 | 支持多种中文方言。参见 此处 |
| sherpa-onnx-paraformer-zh-2024-03-09 | 中文、英语 | 同样支持多种中文方言。参见 此处 |
| sherpa-onnx-zipformer-ja-reazonspeech-2024-08-01 | 日语 | 参见 此处 |
| sherpa-onnx-nemo-transducer-giga-am-russian-2024-10-24 | 俄语 | 参见 此处 |
| sherpa-onnx-nemo-ctc-giga-am-russian-2024-10-24 | 俄语 | 参见 此处 |
| sherpa-onnx-zipformer-ru-2024-09-18 | 俄语 | 参见 此处 |
| sherpa-onnx-zipformer-korean-2024-06-24 | 韩语 | 参见 此处 |
| sherpa-onnx-zipformer-thai-2024-06-20 | 泰语 | 参见 此处 |
| sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04 | 中文 | 支持多种方言。参见 此处 |
有用链接
- 文档:https://k2-fsa.github.io/sherpa/onnx/
- Bilibili 演示视频:https://search.bilibili.com/all?keyword=%E6%96%B0%E4%B8%80%E4%BB%A3Kaldi
如何联系我们
请访问 https://k2-fsa.github.io/sherpa/social-groups.html 以加入新一代 Kaldi 微信交流群 和 QQ 交流群。
使用 sherpa-onnx 的项目
Speed of Sound
一款用于 Linux 桌面(GTK4/Adwaita)的语音输入应用。 它捕获麦克风音频,使用 Sherpa ONNX ASR 模型进行离线转录, 可选地通过 LLM 对文本进行润色,并通过 XDG 远程桌面门户的键盘模拟功能将结果输入到当前活动窗口中。
VoxSherpa TTS
VoxSherpa TTS 是一款 100% 离线的 Android 文本转语音应用,由 Sherpa-ONNX 提供支持。 它支持 Kokoro-82M、Piper 和 VITS 引擎,并提供多语言支持,包括印地语、英语、英式英语、日语、中文以及 50 多种其他语言。
- 下载 APK v1.0-beta 版
- 需 Android 11 或更高版本 · 100% 离线 · 无遥测数据
| 生成 | 模型 | 库 | 设置 |
|---|---|---|---|
![]() |
![]() |
![]() |
![]() |
BreezeApp 来自 MediaTek Research
BreezeAPP 是一款为 Android 和 iOS 平台开发的移动 AI 应用程序。 用户可以直接从 App Store 下载,并在离线状态下享受多种功能, 包括语音转文本、文本转语音、基于文本的聊天机器人交互以及图像问答。
| 1 | 2 | 3 |
|---|---|---|
![]() |
![]() |
![]() |
Open-LLM-VTuber
通过免手持语音交互、语音打断以及 Live2D 技术,在本地跨平台运行任何 LLM 的面部动画。
更多信息请参见 https://github.com/t41372/Open-LLM-VTuber/pull/50
voiceapi
基于 FastAPI 的流式 ASR 和 TTS
展示了如何使用 FastAPI 结合 ASR 和 TTS 的 Python API。
腾讯会议摸鱼工具 TMSpeech
采用 C# 实现流式 ASR,并配有图形用户界面。
中文视频演示:【开源】Windows实时字幕软件(网课/开会必备)
lol互动助手
该应用使用 sherpa-onnx 的 JavaScript API,并结合 Electron。
中文视频演示:爆了!炫神教你开打字挂!真正影响胜率的英雄联盟工具!英雄联盟的最后一块拼图!和游戏中的每个人无障碍沟通!
Sherpa-ONNX 语音识别服务器
基于 Node.js 的服务器,提供用于语音识别的 Restful API。
QSmartAssistant
一个模块化、全程可离线、低资源占用的对话机器人/智能音箱。
它使用 QT 框架。其中既包含了 ASR 也包含了 TTS。
Flutter-EasySpeechRecognition
它扩展了 ./flutter-examples/streaming_asr,通过在应用内下载模型来减小应用体积。
注:[Team B] Sherpa AI 后端 也在 Flutter 应用中使用了 sherpa-onnx。
sherpa-onnx-unity
在 Unity 中使用 sherpa-onnx。更多信息请参见 #1695, #1892, 和 #1859。
xiaozhi-esp32-server
该项目为 xiaozhi-esp32 提供后端服务,帮助您快速搭建 ESP32 设备控制服务器。
更多信息请参见:
KaithemAutomation
纯 Python 编写,专注于 GUI 的家庭自动化/消费级 SCADA 系统。
它使用 sherpa-onnx 的 TTS 功能。更多信息请参见 ✨ 使用全新全局配置的 TTS 模型发出语音指令。
Open-XiaoAI KWS
为小爱音箱启用自定义唤醒词。
中文视频演示:小爱同学启动~˶╹ꇴ╹˶!
C++ WebSocket ASR 服务器
它基于 C++ 构建了一个 WebSocket 服务器,用于使用 sherpa-onnx 进行语音识别。
Go WebSocket 服务器
它基于 Go 语言构建了一个 WebSocket 服务器,专用于 sherpa-onnx。
制作机器人派蒙,第 10 集“AI 部分 1”
这是一段 YouTube 视频, 展示了作者如何尝试利用 AI 与派蒙进行对话。
它使用 sherpa-onnx 进行语音转文本和文本转语音。
| 1 |
|---|
![]() |
TtsReader - 桌面应用
一款使用 Kotlin Multiplatform 构建的桌面文本转语音应用程序。
MentraOS
智能眼镜操作系统,内置数十款应用。用户可以获得 AI 助手、通知、翻译、屏幕镜像、字幕等功能。开发者只需编写一次应用,即可在任何一副智能眼镜上运行。
它使用 sherpa-onnx 在 iOS 和 Android 设备上进行实时语音识别。 更多信息请参见 https://github.com/Mentra-Community/MentraOS/pull/861
该系统使用 Swift 开发 iOS 版本,Java 开发 Android 版本。
flet_sherpa_onnx
基于 sherpa-onnx 的 Flet ASR/STT 组件。 示例 聊天框代理
achatbot-go
一款基于 Go 语言的多模态聊天机器人,使用 sherpa-onnx 的语音库 API。
fcitx5-vinput
Local offline voice input plugin for Fcitx5 (Linux input method framework). It uses C++ with offline ASR for speech recognition, supporting push-to-talk, command mode, and optional LLM post-processing.
Video demo in Chinese: fcitx5-vinput
Wake Word
A VS Code extension for hands-free voice-activated coding. It uses sherpa-onnx for real-time keyword spotting (KWS) to detect custom wake phrases and trigger VS Code commands by voice. Audio capture is handled by decibri, a cross-platform Node.js microphone streaming library with prebuilt native binaries.
版本历史
v1.12.362026/04/08v1.12.352026/04/03v1.12.342026/03/26v1.12.332026/03/24v1.12.322026/03/22v1.12.312026/03/20v1.12.302026/03/19v1.12.292026/03/12v1.12.282026/02/28v1.12.272026/02/26v1.12.262026/02/24v1.12.252026/02/14v1.12.242026/02/10v1.12.232026/01/15v1.12.222026/01/14v1.12.212026/01/12v1.12.202025/12/17asr-models-qnn-binary2025/12/09v1.12.192025/12/05v1.12.182025/11/27常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备







