sherpa-onnx

11.4k 1.3k 简单 1 次阅读今天Apache-2.0音频开发框架

AI 解读由 AI 自动生成，仅供参考

sherpa-onnx 是一款功能强大的离线语音处理工具箱，基于下一代 Kaldi 框架与 ONNX Runtime 构建。它无需联网即可在本地实现语音转文字、文字转语音、说话人区分、语音增强、声源分离及语音活动检测等核心功能，全面覆盖从识别到合成的各类音频处理需求。

该工具主要解决了传统语音方案依赖云端服务导致的隐私泄露风险、网络延迟高以及部署成本昂贵等问题。凭借卓越的跨平台兼容性，sherpa-onnx 不仅能运行在常见的 Windows、macOS、Linux 服务器上，更完美支持 Android、iOS、鸿蒙系统，以及树莓派、RISC-V 架构设备和各类国产 NPU（如瑞芯微、昇腾、爱芯等），让高性能语音技术得以轻松落地于嵌入式硬件与边缘设备。

sherpa-onnx 特别适合开发者、研究人员及物联网工程师使用。其独特亮点在于提供了多达 12 种编程语言的 API 接口（包括 C++、Python、Go、Rust、Swift 等），并支持 WebAssembly，极大降低了集成门槛。无论你是想为智能硬件添加语音交互能力，还是构建保护用户隐私的本地化语音应用，sherpa-onnx 都能提供灵活、高效且免费开源的技术支撑。

使用场景

某智能家居团队正在为一款离线语音助手开发核心交互模块，要求设备在无网络环境下也能精准识别指令并区分不同家庭成员。

没有 sherpa-onnx 时

依赖云端导致延迟高：语音必须上传至服务器处理，网络波动时响应慢甚至超时，用户体验割裂。
隐私泄露风险大：家庭对话录音需传输到第三方云端，存在敏感数据被截获或滥用的隐患。
硬件适配成本极高：需在 ARM 架构的开发板、RISC-V 芯片及各类 NPU 上分别移植不同的语音引擎，维护多套代码库。
功能集成复杂：想同时实现“人声分离”和“说话人区分”，不得不拼凑多个互不兼容的开源项目，导致系统臃肿不稳定。

使用 sherpa-onnx 后

毫秒级本地响应：利用 ONNX Runtime 在设备端直接运行下一代 Kaldi 模型，断网状态下也能即时识别指令并合成回复。
数据完全本地闭环：所有语音识别、声纹验证及对话内容均在芯片内部处理，彻底杜绝隐私外传风险。
一次开发多端部署：凭借对 Android、iOS、HarmonyOS 及 RK/Ascend 等 NPU 的广泛支持，同一套 C++ 或 Python 代码可无缝运行于从树莓派到高端网关的各种设备。
全能型单库集成：单个库即可搞定语音转文字、文本转语音、说话人日志及背景降噪，大幅简化了工程架构与测试流程。

sherpa-onnx 通过强大的跨平台离线能力，让开发者能以最低成本构建出既保护隐私又响应迅速的嵌入式智能语音应用。

运行环境要求

操作系统

Linux
macOS
Windows
Android
iOS
HarmonyOS
openKylin

GPU

非必需
支持在 CPU 上运行
可选支持 NVIDIA GPU (如 Jetson Orin NX, Jetson Nano)，也支持多种 NPU (Rockchip RKNN, Qualcomm QNN, Ascend, Axera)
未指定具体显存大小或 CUDA 版本要求

内存

未说明

依赖

notes该工具主打本地离线运行，架构兼容性极强，支持 x86/x64, ARM (32/64 位), RISC-V 等多种指令集。提供 C++, C, Python, JavaScript, Java, C#, Kotlin, Swift, Go, Dart, Rust, Pascal 等十余种语言接口。支持在浏览器中通过 WebAssembly 直接运行无需安装。针对特定硬件（如瑞芯微、华为昇腾、高通等）有专门的 NPU 加速支持。

python支持 Python，但未指定具体版本要求

onnxruntime (隐含于 onnx 体系)

WebAssembly (可选)

快速开始

支持的功能

语音识别	语音合成	声源分离
✔️	✔️	✔️

说话人辨识	说话人日志	说话人验证
✔️	✔️	✔️

口语语言辨识	音频标签	语音活动检测
✔️	✔️	✔️

关键词检测	添加标点符号	语音增强
✔️	✔️	✔️

支持的平台

架构	安卓	iOS	Windows	macOS	Linux	鸿蒙OS
x64	✔️		✔️	✔️	✔️	✔️
x86	✔️		✔️
arm64	✔️	✔️	✔️	✔️	✔️	✔️
arm32	✔️				✔️	✔️
riscv64					✔️

支持的编程语言

1. C++	2. C	3. Python	4. JavaScript
✔️	✔️	✔️	✔️

5. Java	6. C#	7. Kotlin	8. Swift
✔️	✔️	✔️	✔️

9. Go	10. Dart	11. Rust	12. Pascal
✔️	✔️	✔️	✔️

它还支持 WebAssembly。

支持的 NPU

1. 瑞芯微 NPU (RKNN)	2. 高通 NPU (QNN)	3. 华为昇腾 NPU
✔️	✔️	✔️

4. 艾拉科技 NPU
✔️

加入我们的 Discord

简介

本仓库支持在本地运行以下功能：

语音转文本（即 ASR）；支持流式和非流式处理
文本转语音（即 TTS）
说话人日志
说话人辨识
说话人验证
口语语言辨识
音频标签
VAD（例如 silero-vad）
语音增强（例如 gtcrn、DPDFNet）
关键词检测
声源分离（例如 spleeter、UVR）

可在以下平台和操作系统上运行：

x86、x86_64、32位 ARM、64位 ARM（arm64、aarch64）、RISC-V（riscv64）、RK NPU、昇腾 NPU
Linux、macOS、Windows、openKylin
安卓、WearOS
iOS
鸿蒙OS
NodeJS
WebAssembly
NVIDIA Jetson Orin NX（支持在 CPU 和 GPU 上运行）
NVIDIA Jetson Nano B01（支持在 CPU 和 GPU 上运行）
树莓派
RV1126
LicheePi4A
VisionFive 2
旭日X3派
爱芯派
RK3588
SpacemiT-K1
SpacemiT-K3
等等

并提供以下 API：

C++、C、Python、Go、C#
Java、Kotlin、JavaScript
Swift、Rust
Dart、Object Pascal

Hugging Face Spaces 链接

您可以通过访问以下 Hugging Face Spaces 来试用 Sherpa-onnx，无需任何安装。您只需要一个浏览器即可。

描述	URL	中国镜像
发言人分离	点击我	镜像
语音识别	点击我	镜像
使用 Whisper 的语音识别	点击我	镜像
语音合成	点击我	镜像
生成字幕	点击我	镜像
音频标签	点击我	镜像
声源分离	点击我	镜像
使用 Whisper 进行的口语语言识别	点击我	镜像

我们还有使用 WebAssembly 构建的空间，列表如下：

描述	Hugging Face Space	ModelScope Space
使用 silero-vad 的语音活动检测	点击我	地址
使用 Zipformer 的实时语音识别（中文 + 英文）	点击我	地址
使用 Paraformer 的实时语音识别（中文 + 英文）	点击我	地址
使用 Paraformer-large 的实时语音识别（中文 + 英文 + 粤语）	点击我	地址
实时语音识别（英文）	点击我	地址
VAD + 语音识别（中文）与 Zipformer CTC	点击我	地址
VAD + 语音识别（中文 + 英文 + 韩语 + 日语 + 粤语）与 SenseVoice	点击我	地址
VAD + 语音识别（英文）与 Whisper tiny.en	点击我	地址
VAD + 语音识别（英文）与 Moonshine tiny	点击我	地址
VAD + 语音识别（英文）与使用 GigaSpeech 训练的 Zipformer	点击我	地址
VAD + 语音识别（中文）与使用 WenetSpeech 训练的 Zipformer	点击我	地址
VAD + 语音识别（日语）与使用 ReazonSpeech 训练的 Zipformer	点击我	地址
VAD + 语音识别（泰语）与使用 GigaSpeech2 训练的 Zipformer	点击我	地址
VAD + 语音识别（中文多种方言）与 a TeleSpeech-ASR CTC 模型	点击我	地址
VAD + 语音识别（英文 + 中文，及多种中文方言）与 Paraformer-large	点击我	地址
VAD + 语音识别（英文 + 中文，及多种中文方言）与 Paraformer-small	点击我	地址
VAD + 语音识别（多语种及多种中文方言）与 Dolphin-base	点击我	地址
语音合成（Piper，英文）	点击我	地址
语音合成（Piper，德语）	点击我	地址
语音合成（Matcha，中文）	点击我	地址
语音合成（Matcha，英文）	点击我	地址
语音合成（Matcha，中英双语）	点击我	地址
发言人分离	点击我	地址
使用 ZipVoice（中文+英文）进行声音克隆	点击我	地址
使用 Pocket TTS（英文）进行声音克隆	点击我	地址

预编译的 Android APK 下载链接

您可以在下表中找到此仓库的预编译 Android APK

描述	URL	中国用户
发言人分离	地址	点击此处
流式语音识别	地址	点击此处
模拟流式语音识别	地址	点击此处
文本转语音	地址	点击此处
语音活动检测 (VAD)	地址	点击此处
VAD + 非流式语音识别	地址	点击此处
两步法语音识别	地址	点击此处
音频标签	地址	点击此处
音频标签（WearOS）	地址	点击此处
发言人辨识	地址	点击此处
口语语言辨识	地址	点击此处
关键词检测	地址	点击此处

预编译的 Flutter APP 下载链接

实时语音识别

描述	URL	中国用户
流式语音识别	地址	点击此处

文本转语音

描述	URL	中国用户
安卓（arm64-v8a、armeabi-v7a、x86_64）	地址	点击此处
Linux（x64）	地址	点击此处
macOS（x64）	地址	点击此处
macOS（arm64）	地址	点击此处
Windows（x64）	地址	点击此处

注：iOS 需要从源码构建。

预编译的 Lazarus APP 下载链接

生成字幕

描述	URL	中国用户
生成字幕 (生成字幕)	地址	点击此处

预训练模型下载链接

描述	URL
语音识别（语音转文本，ASR）	地址
文本转语音（TTS）	地址
VAD	地址
关键词检测	地址
音频标签	地址
发言人辨识（Speaker ID）	地址
口语语言辨识（Language ID)	参见多语言 Whisper ASR 模型，来自语音识别
标点符号	地址
发言人分割	地址
语音增强	地址
声源分离	地址

部分预训练 ASR 模型（流式）

请参阅：

以获取更多模型。下表仅列出其中的部分。

名称	支持的语言	描述
sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20	中文、英文	参见此处
sherpa-onnx-streaming-zipformer-small-bilingual-zh-en-2023-02-16	中文、英文	参见此处
sherpa-onnx-streaming-zipformer-zh-14M-2023-02-23	中文	适用于Cortex A7 CPU。参见此处
sherpa-onnx-streaming-zipformer-en-20M-2023-02-17	英文	适用于Cortex A7 CPU。参见此处
sherpa-onnx-streaming-zipformer-korean-2024-06-16	韩语	参见此处
sherpa-onnx-streaming-zipformer-fr-2023-04-14	法语	参见此处

一些非流式预训练 ASR 模型

请参阅：

以获取更多模型。下表仅列出其中的部分。

名称	支持的语言	描述
sherpa-onnx-nemo-parakeet-tdt-0.6b-v2-int8	英语	由 https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2 转换而来
Whisper tiny.en	英语	参见此处
Moonshine tiny	英语	参见此处
sherpa-onnx-zipformer-ctc-zh-int8-2025-07-03	中文	一个 Zipformer CTC 模型
sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17	中文、粤语、英语、韩语、日语	支持多种中文方言。参见此处
sherpa-onnx-paraformer-zh-2024-03-09	中文、英语	同样支持多种中文方言。参见此处
sherpa-onnx-zipformer-ja-reazonspeech-2024-08-01	日语	参见此处
sherpa-onnx-nemo-transducer-giga-am-russian-2024-10-24	俄语	参见此处
sherpa-onnx-nemo-ctc-giga-am-russian-2024-10-24	俄语	参见此处
sherpa-onnx-zipformer-ru-2024-09-18	俄语	参见此处
sherpa-onnx-zipformer-korean-2024-06-24	韩语	参见此处
sherpa-onnx-zipformer-thai-2024-06-20	泰语	参见此处
sherpa-onnx-telespeech-ctc-int8-zh-2024-06-04	中文	支持多种方言。参见此处

有用链接

文档：https://k2-fsa.github.io/sherpa/onnx/
Bilibili 演示视频：https://search.bilibili.com/all?keyword=%E6%96%B0%E4%B8%80%E4%BB%A3Kaldi

如何联系我们

请访问 https://k2-fsa.github.io/sherpa/social-groups.html 以加入新一代 Kaldi 微信交流群 和 QQ 交流群。

使用 sherpa-onnx 的项目

Speed of Sound

一款用于 Linux 桌面（GTK4/Adwaita）的语音输入应用。它捕获麦克风音频，使用 Sherpa ONNX ASR 模型进行离线转录，可选地通过 LLM 对文本进行润色，并通过 XDG 远程桌面门户的键盘模拟功能将结果输入到当前活动窗口中。

VoxSherpa TTS

VoxSherpa TTS 是一款 100% 离线的 Android 文本转语音应用，由 Sherpa-ONNX 提供支持。它支持 Kokoro-82M、Piper 和 VITS 引擎，并提供多语言支持，包括印地语、英语、英式英语、日语、中文以及 50 多种其他语言。

下载 APK v1.0-beta 版
需 Android 11 或更高版本 · 100% 离线 · 无遥测数据

生成	模型	库	设置

BreezeApp 来自 MediaTek Research

BreezeAPP 是一款为 Android 和 iOS 平台开发的移动 AI 应用程序。用户可以直接从 App Store 下载，并在离线状态下享受多种功能，包括语音转文本、文本转语音、基于文本的聊天机器人交互以及图像问答。

1	2	3

Open-LLM-VTuber

通过免手持语音交互、语音打断以及 Live2D 技术，在本地跨平台运行任何 LLM 的面部动画。

更多信息请参见 https://github.com/t41372/Open-LLM-VTuber/pull/50

voiceapi

基于 FastAPI 的流式 ASR 和 TTS

展示了如何使用 FastAPI 结合 ASR 和 TTS 的 Python API。

腾讯会议摸鱼工具 TMSpeech

采用 C# 实现流式 ASR，并配有图形用户界面。

中文视频演示：【开源】Windows实时字幕软件（网课/开会必备）

lol互动助手

该应用使用 sherpa-onnx 的 JavaScript API，并结合 Electron。

中文视频演示：爆了！炫神教你开打字挂！真正影响胜率的英雄联盟工具！英雄联盟的最后一块拼图！和游戏中的每个人无障碍沟通！

Sherpa-ONNX 语音识别服务器

基于 Node.js 的服务器，提供用于语音识别的 Restful API。

QSmartAssistant

一个模块化、全程可离线、低资源占用的对话机器人/智能音箱。

它使用 QT 框架。其中既包含了 ASR 也包含了 TTS。

Flutter-EasySpeechRecognition

它扩展了 ./flutter-examples/streaming_asr，通过在应用内下载模型来减小应用体积。

注：[Team B] Sherpa AI 后端也在 Flutter 应用中使用了 sherpa-onnx。

sherpa-onnx-unity

在 Unity 中使用 sherpa-onnx。更多信息请参见 #1695, #1892, 和 #1859。

xiaozhi-esp32-server

该项目为 xiaozhi-esp32 提供后端服务，帮助您快速搭建 ESP32 设备控制服务器。

更多信息请参见：

KaithemAutomation

纯 Python 编写，专注于 GUI 的家庭自动化/消费级 SCADA 系统。

它使用 sherpa-onnx 的 TTS 功能。更多信息请参见 ✨ 使用全新全局配置的 TTS 模型发出语音指令。

Open-XiaoAI KWS

为小爱音箱启用自定义唤醒词。

中文视频演示：小爱同学启动～˶╹ꇴ╹˶！

C++ WebSocket ASR 服务器

它基于 C++ 构建了一个 WebSocket 服务器，用于使用 sherpa-onnx 进行语音识别。

Go WebSocket 服务器

它基于 Go 语言构建了一个 WebSocket 服务器，专用于 sherpa-onnx。

制作机器人派蒙，第 10 集“AI 部分 1”

这是一段 YouTube 视频, 展示了作者如何尝试利用 AI 与派蒙进行对话。

它使用 sherpa-onnx 进行语音转文本和文本转语音。

1

TtsReader - 桌面应用

一款使用 Kotlin Multiplatform 构建的桌面文本转语音应用程序。

MentraOS

智能眼镜操作系统，内置数十款应用。用户可以获得 AI 助手、通知、翻译、屏幕镜像、字幕等功能。开发者只需编写一次应用，即可在任何一副智能眼镜上运行。

它使用 sherpa-onnx 在 iOS 和 Android 设备上进行实时语音识别。更多信息请参见 https://github.com/Mentra-Community/MentraOS/pull/861

该系统使用 Swift 开发 iOS 版本，Java 开发 Android 版本。

flet_sherpa_onnx

基于 sherpa-onnx 的 Flet ASR/STT 组件。示例聊天框代理

achatbot-go

一款基于 Go 语言的多模态聊天机器人，使用 sherpa-onnx 的语音库 API。

fcitx5-vinput

Local offline voice input plugin for Fcitx5 (Linux input method framework). It uses C++ with offline ASR for speech recognition, supporting push-to-talk, command mode, and optional LLM post-processing.

Video demo in Chinese: fcitx5-vinput

Wake Word

A VS Code extension for hands-free voice-activated coding. It uses sherpa-onnx for real-time keyword spotting (KWS) to detect custom wake phrases and trigger VS Code commands by voice. Audio capture is handled by decibri, a cross-platform Node.js microphone streaming library with prebuilt native binaries.

Sherpa-onnx 快速上手指南

Sherpa-onnx 是一个专注于本地运行的开源语音处理工具库，支持语音识别（ASR）、语音合成（TTS）、说话人日志、声纹识别等多种功能。它基于 ONNX Runtime，无需联网即可在多种架构（x86, ARM, RISC-V）和平台（Linux, Windows, macOS, Android, iOS, HarmonyOS）上高效运行，并支持国产 NPU（如瑞芯微 RKNN、华为昇腾 Ascend）。

环境准备

系统要求

Sherpa-onnx 支持广泛的操作系统和硬件架构：

操作系统: Linux (包括 openKylin), macOS, Windows, Android, iOS, HarmonyOS。
硬件架构: x86, x86_64, ARM32, ARM64 (aarch64), RISC-V (riscv64)。
NPU 加速: 支持 Rockchip (RKNN), Qualcomm (QNN), Ascend (昇腾), Axera 等 NPU。
特殊设备: 树莓派 (Raspberry Pi), NVIDIA Jetson 系列，以及各类国产开发板（如 RV1126, RK3588, 旭日 X3 派等）。

前置依赖

最快捷的上手方式是使用 Python 接口。请确保您的环境中已安装：

Python 3.8 或更高版本
pip 包管理工具

提示：如果您在中国大陆，建议配置 pip 国内镜像源以加速下载：
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

方法一：通过 PyPI 安装（推荐）

这是最简单的安装方式，适用于大多数通用平台（Linux, Windows, macOS）。

pip install sherpa-onnx

方法二：预编译模型下载

Sherpa-onnx 本身是推理引擎，使用时需要配合具体的模型文件。您可以从 Hugging Face 或 ModelScope（魔搭）下载预训练模型。

推荐国内用户使用 ModelScope 下载模型，速度更快。例如下载一个中文语音识别模型：

# 安装 modelscope 客户端
pip install modelscope

# 下载示例模型 (以 Paraformer 流式模型为例)
modelscope download --model_dir ./models iic/SenseVoiceSmall

注：具体模型仓库地址请参考官方文档或 ModelScope 社区，不同任务（ASR/TTS/VAD）对应不同模型。

基本使用

以下是一个使用 Python 进行离线语音识别的最简示例。假设您已经下载了一个支持的模型（此处以通用的 sherpa-onnx-zipformer 类模型结构为例，实际路径请替换为您下载的模型文件夹）。

1. 语音识别 (ASR) 示例

import sherpa_onnx

# 配置识别器参数
# 请将 './path/to/your/model' 替换为实际下载的模型路径
config = sherpa_onnx.OfflineRecognizerConfig(
    feat_config=sherpa_onnx.FeatureConfig(
        sample_rate=16000,
        feature_dim=80
    ),
    model_config=sherpa_onnx.OfflineModelConfig(
        transducer=sherpa_onnx.OfflineTransducerModelConfig(
            encoder_filename="./path/to/your/model/encoder.onnx",
            decoder_filename="./path/to/your/model/decoder.onnx",
            joiner_filename="./path/to/your/model/joiner.onnx",
        ),
        tokens="./path/to/your/model/tokens.txt",
        num_threads=4,
        provider="cpu", # 如有 GPU 或 NPU 可改为 "cuda" 或 "rknn" 等
        modeling_unit="bpe", # 根据模型类型调整，有些模型不需要此项
    ),
    decoding_method="greedy_search",
)

recognizer = sherpa_onnx.OfflineRecognizer(config)

# 读取音频文件 (必须是 16kHz 单声道 WAV 格式)
stream = recognizer.create_stream()
stream.accept_waveform(16000, "./test.wav") 

recognizer.decode_stream(stream)

print("识别结果:", stream.result.text)

2. 语音合成 (TTS) 示例

import sherpa_onnx

# 配置合成器参数
config = sherpa_onnx.OfflineTtsConfig(
    model=sherpa_onnx.OfflineTtsModelConfig(
        vits=sherpa_onnx.OfflineTtsVitsModelConfig(
            model="./path/to/your/tts_model.onnx",
            tokens="./path/to/your/tts_tokens.txt",
        ),
        provider="cpu",
        num_threads=4,
    ),
    max_num_sentences=2,
)

tts = sherpa_onnx.OfflineTts(config)

# 合成语音
text = "你好，这是一个测试。"
audio = tts.generate(text, sid=0, speed=1.0)

# 保存为 WAV 文件 (需自行实现保存逻辑，或使用 scipy/soundfile)
# import soundfile as sf
# sf.write("output.wav", audio.samples, audio.sample_rate)
print(f"合成完成，采样率：{audio.sample_rate}, 时长：{len(audio.samples)/audio.sample_rate:.2f}秒")

3. 在线体验与更多资源

如果您不想在本地配置环境，可以直接访问以下国内镜像站点体验功能：

语音识别体验: ModelScope 空间 - 语音识别 (搜索 sherpa-onnx)
语音合成体验: ModelScope 空间 - 语音合成
说话人日志: ModelScope 空间 - 说话人日志

对于 Android 开发者，项目提供了预编译的 APK 演示程序，可在相关发布页面直接下载安装测试。

版本历史

v1.12.362026/04/08

v1.12.352026/04/03

v1.12.342026/03/26

v1.12.332026/03/24

v1.12.322026/03/22

v1.12.312026/03/20

v1.12.302026/03/19

v1.12.292026/03/12

v1.12.282026/02/28

v1.12.272026/02/26

v1.12.262026/02/24

v1.12.252026/02/14

v1.12.242026/02/10

v1.12.232026/01/15

v1.12.222026/01/14

v1.12.212026/01/12

v1.12.202025/12/17

asr-models-qnn-binary2025/12/09

v1.12.192025/12/05

v1.12.182025/11/27

常见问题

在嵌入式 Linux (如 RK3568) 上部署 sherpa-onnx 时，运行命令报错或找不到库文件怎么办？

安装 sherpa-onnx-gpu 后导入时报错：'libonnxruntime_providers_cuda.so: cannot open shared object file'，如何解决？

如何将非官方提供的模型（如魔塔社区 ModelScope 上的 ONNX 模型）在 sherpa-onnx 中使用？

如何为 sherpa-onnx 添加新的 TTS 模型（如 Matcha-TTS）并处理元数据和采样率问题？

在导出 ONNX 模型时遇到 opset_version 报错，或者模型在特定环境下无法运行怎么办？

sherpa-onnx 是否支持流式语音识别（Streaming ASR）以及哪些模型可以使用？

如何在低版本 CUDA（如 CUDA 10.2）环境下编译和使用 sherpa-onnx GPU 版本？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 145.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent