SenseVoice

7.9k 718 中等 1 次阅读今天NOASSERTIONAgent语言模型视频图像音频开发框架

AI 解读由 AI 自动生成，仅供参考

SenseVoice 是一款强大的多语言语音理解基础模型，旨在让机器更精准地“听懂”人类声音。它不仅能够进行高精度的自动语音识别（ASR），支持包括中文、英语、日语等在内的 50 多种语言，还能同时识别说话人的情绪（如开心、悲伤）以及检测背景中的特定音频事件（如掌声、笑声、咳嗽声或背景音乐）。

对于需要处理复杂语音场景的开发者、研究人员及企业用户而言，SenseVoice 有效解决了传统模型功能单一、推理速度慢或难以捕捉情感与非语言信息的痛点。其核心亮点在于卓越的性能与效率：基于超过 40 万小时数据训练，其在多语言识别准确率上超越了知名的 Whisper 模型；同时采用非自回归端到端架构，推理速度极快，处理 10 秒音频仅需 70 毫秒，比 Whisper-Large 快 15 倍，非常适合实时交互应用。此外，SenseVoice 还提供了便捷的微调脚本和多语言服务端部署方案，帮助用户轻松适配特定业务场景，是构建智能语音助手、会议分析系统及无障碍辅助工具的理想选择。

使用场景

某跨国电商平台的客服团队每天需处理来自全球 50 多个国家的海量语音投诉录音，急需从中提取客户情绪、识别语言种类并过滤背景噪音以优化服务流程。

没有 SenseVoice 时

多模型堆砌成本高：需要分别部署 ASR 语音转写、LID 语言识别和 SER 情绪分析三个独立模型，系统架构复杂且维护困难。
实时响应延迟大：传统自回归模型（如 Whisper-Large）处理 10 秒音频耗时超过 1 秒，无法在客服通话中实时提示坐席人员客户的情绪变化。
关键信息遗漏：难以区分背景中的笑声、掌声或咳嗽声，导致系统将非人声干扰误判为有效内容，影响工单分类准确率。
小语种支持弱：对于日语、韩语或粤语等长尾语种的识别精度不足，常出现转写错误，引发跨文化沟通误解。

使用 SenseVoice 后

全能一体化处理：SenseVoice 单个模型即可同时完成多语言转写、情绪判定及音频事件检测，大幅简化了技术栈并降低了算力成本。
超低延迟交互：凭借非自回归架构，SenseVoice 仅需 70ms 即可完成 10 秒音频分析，比 Whisper 快 15 倍，实现了真正的实时情绪预警。
精细化场景感知：能精准识别背景音乐、哭泣或打喷嚏等特定事件，自动过滤无效噪音，让客服系统只关注核心诉求。
高精度多语言覆盖：基于 40 万小时数据训练，SenseVoice 在包括中文方言在内的 50 多种语言上表现卓越，显著提升了全球客户的满意度。

SenseVoice 通过“一模型多能”与极致速度，将原本割裂且滞后的语音分析流程升级为实时、精准的智能决策中枢。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需（支持 CPU），若使用 GPU 推荐 NVIDIA 显卡，示例代码指定 device='cuda:0'，具体显存和 CUDA 版本未在文中明确说明

内存

未说明

依赖

notes1. 模型支持通过 Docker 构建和运行，同时支持 CPU 和 GPU 推理。 2. 核心功能依赖于 FunASR 工具包，微调时需克隆 FunASR 仓库并以可编辑模式安装。 3. 支持导出为 ONNX 和 LibTorch 格式以优化推理。 4. 默认示例使用 'iic/SenseVoiceSmall' 模型，支持中、英、粤、日、韩等多语种。

python未说明 (需安装 requirements.txt 中的依赖)

funasr

funasr-onnx (可选)

funasr-torch (可选)

fastapi (服务部署用)

快速开始

(简体中文|English|日本語)

简介

SenseVoice 是一款具备多种语音理解能力的语音基础模型，包括自动语音识别 (ASR)、语音语言识别 (LID)、语音情感识别 (SER) 以及音频事件检测 (AED)。

首页｜最新动态｜基准测试｜安装｜使用方法｜社区

模型库： modelscope, huggingface

在线演示： modelscope demo, huggingface space

亮点 🎯

SenseVoice 专注于高精度多语言语音识别、语音情感识别和音频事件检测。

多语言语音识别： 基于超过40万小时的数据训练，支持50多种语言，其识别性能超越了 Whisper 模型。
丰富转录功能：
- 具备出色的情感识别能力，在测试数据上达到并超越当前最佳的情感识别模型的效果。
- 提供声音事件检测功能，能够检测多种常见的人机交互事件，如背景音乐、掌声、笑声、哭声、咳嗽和打喷嚏等。
高效推理： SenseVoice-Small 模型采用非自回归端到端框架，推理延迟极低。处理10秒音频仅需70毫秒，速度是 Whisper-Large 的15倍。
便捷微调： 提供便捷的微调脚本和策略，用户可根据自身业务场景轻松解决长尾样本问题。
服务部署： 提供服务部署流水线，支持多并发请求，客户端语言包括 Python、C++、HTML、Java 和 C# 等。

基准测试 📝

多语言语音识别

我们在开源基准数据集（包括 AISHELL-1、AISHELL-2、Wenetspeech、LibriSpeech 和 Common Voice）上对比了 SenseVoice 和 Whisper 的多语言语音识别性能。在中文和粤语识别方面，SenseVoice-Small 模型具有优势。

语音情感识别

由于目前缺乏广泛使用的语音情感识别基准和方法，我们对多个测试集进行了多维度评估，并与近期各类基准测试中的大量结果进行了全面比较。所选测试集涵盖了中英文数据，包含表演、电影和自然对话等多种风格。在未针对目标数据进行微调的情况下，SenseVoice 已经达到了甚至超越了当前最佳语音情感识别模型的性能。

此外，我们还在这些测试集上对比了多个开源语音情感识别模型，结果显示 SenseVoice-Large 模型在几乎所有数据集上都取得了最佳成绩，而 SenseVoice-Small 模型也在大多数数据集上超越了其他开源模型。

音频事件检测

尽管 SenseVoice 仅使用语音数据进行训练，但它仍然可以作为独立的事件检测模型使用。我们将其在环境声音分类数据集 ESC-50 上的表现与业界广泛使用的 BEATS 和 PANN 模型进行了比较。SenseVoice 模型在这些任务上取得了令人满意的结果。然而，由于训练数据和方法的限制，其事件分类性能与专门的 AED 模型相比仍存在一定差距。

计算效率

SenseVoice-Small 模型采用了非自回归端到端架构，因此推理延迟极低。在参数量与 Whisper-Small 相近的情况下，它的推理速度比 Whisper-Small 快5倍以上，比 Whisper-Large 快15倍。

系统要求

pip install -r requirements.txt

使用方法

推理

支持任意格式和任意时长的音频输入。

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model_dir = "iic/SenseVoiceSmall"


model = AutoModel(
    model=model_dir,
    trust_remote_code=True,
    remote_code="./model.py",    
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

# zh
res = model.generate(
    input=f"{model.model_path}/example/en.mp3",
    cache={},
    language="auto",  # "zh", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

参数说明（点击展开）

model_dir: 模型名称，或本地磁盘上模型的路径。
trust_remote_code:
- 当为 True 时，表示从 remote_code 加载模型的代码实现，其中指定了 model 代码的具体位置（例如当前目录下的 model.py）。支持绝对路径、相对路径和网络 URL。
- 当为 False 时，表示使用 FunASR 内置的模型代码实现。此时，对当前目录下 model.py 的修改将不会生效，因为加载的是 FunASR 内部版本。有关模型代码，请点击此处查看。
vad_model: 表示是否启用 VAD（语音活动检测）。VAD 的作用是将长音频分割成较短的片段。在这种情况下，推理时间包括 VAD 和 SenseVoice 的总耗时，即端到端延迟。如果希望单独测试 SenseVoice 模型的推理时间，则可以禁用 VAD 模型。
vad_kwargs: 指定 VAD 模型的配置。max_single_segment_time: 表示 vad_model 对音频进行分割的最大时长，单位为毫秒 (ms)。
use_itn: 输出结果是否包含标点符号和反文本规范化。
batch_size_s: 表示使用动态批处理，批次中音频的总时长以秒 (s) 为单位。
merge_vad: 是否将 VAD 模型分割出的短音频片段合并，合并后的长度为 merge_length_s，单位为秒 (s)。
ban_emo_unk: 是否禁止输出 emo_unk 标记。

如果所有输入均为短音频（<30秒），且需要通过批处理推理来提高效率，则可以移除 VAD 模型，并相应地设置 batch_size。

model = AutoModel(model=model_dir, trust_remote_code=True, device="cuda:0")

res = model.generate(
    input=f"{model.model_path}/example/en.mp3",
    cache={},
    language="zh", # "zh", "en", "yue", "ja", "ko", "nospeech"
    use_itn=False,
    batch_size=64, 
)

更多用法请参考文档

直接推理

支持任意格式的音频输入，输入时长限制为 30 秒或更短。

from model import SenseVoiceSmall
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model_dir = "iic/SenseVoiceSmall"
m, kwargs = SenseVoiceSmall.from_pretrained(model=model_dir, device="cuda:0")
m.eval()

res = m.inference(
    data_in=f"{kwargs['model_path']}/example/en.mp3",
    language="auto", # "zh", "en", "yue", "ja", "ko", "nospeech"
    use_itn=False,
    ban_emo_unk=False,
    **kwargs,
)

text = rich_transcription_postprocess(res[0][0]["text"])
print(text)

导出与测试

ONNX 和 Libtorch 导出

ONNX

# pip3 install -U funasr funasr-onnx
from pathlib import Path
from funasr_onnx import SenseVoiceSmall
from funasr_onnx.utils.postprocess_utils import rich_transcription_postprocess


model_dir = "iic/SenseVoiceSmall"

model = SenseVoiceSmall(model_dir, batch_size=10, quantize=True)

# 推理
wav_or_scp = ["{}/.cache/modelscope/hub/{}/example/en.mp3".format(Path.home(), model_dir)]

res = model(wav_or_scp, language="auto", use_itn=True)
print([rich_transcription_postprocess(i) for i in res])

注意：ONNX 模型会导出到原始模型目录。

Libtorch

from pathlib import Path
from funasr_torch import SenseVoiceSmall
from funasr_torch.utils.postprocess_utils import rich_transcription_postprocess


model_dir = "iic/SenseVoiceSmall"

model = SenseVoiceSmall(model_dir, batch_size=10, device="cuda:0")

wav_or_scp = ["{}/.cache/modelscope/hub/{}/example/en.mp3".format(Path.home(), model_dir)]

res = model(wav_or_scp, language="auto", use_itn=True)
print([rich_transcription_postprocess(i) for i in res])

注意：Libtorch 模型会导出到原始模型目录。

服务

使用 FastAPI 部署

export SENSEVOICE_DEVICE=cuda:0
fastapi run --port 50000

微调

需求

git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

🐳 Docker 支持

SenseVoice 可以通过 Docker 构建和运行，从而简化部署、确保可重复性，并支持 CPU 和 GPU 推理。

使用 Docker 构建

docker build -t sensevoice .

运行（GPU，默认）

docker run --gpus all -p 50000:50000 sensevoice

运行（仅 CPU）

docker run -e SENSEVOICE_DEVICE=cpu -p 50000:50000 sensevoice

Docker Compose

Docker Compose 提供了一种更简便的方式运行 SenseVoice，同时支持持久化模型缓存、网络等功能。

启动堆栈

docker compose up --build

数据准备

数据示例

{"key": "YOU0000008470_S0000238_punc_itn", "text_language": "<|en|>", "emo_target": "<|NEUTRAL|>", "event_target": "<|Speech|>", "with_or_wo_itn": "<|withitn|>", "target": "Including legal due diligence, subscription agreement, negotiation.", "source": "/cpfs01/shared/Group-speech/beinian.lzr/data/industrial_data/english_all/audio/YOU0000008470_S0000238.wav", "target_len": 7, "source_len": 140}
{"key": "AUD0000001556_S0007580", "text_language": "<|en|>", "emo_target": "<|NEUTRAL|>", "event_target": "<|Speech|>", "with_or_wo_itn": "<|woitn|>", "target": "there is a tendency to identify the self or take interest in what one has got used to", "source": "/cpfs01/shared/Group-speech/beinian.lzr/data/industrial_data/english_all/audio/AUD0000001556_S0007580.wav", "target_len": 18, "source_len": 360}

完整参考 data/train_example.jsonl

数据准备详情

描述：

key: 音频文件唯一标识
source：音频文件路径
source_len：音频文件的fbank帧数
target：转录文本
target_len：目标文本长度
text_language：音频文件的语言标识
emo_target：音频文件的情感标签
event_target：音频文件的事件标签
with_or_wo_itn：是否包含标点符号和逆向文本规范化

train_text.txt

BAC009S0764W0121 甚至出现交易几乎停滞的情况
BAC009S0916W0489 湖北一公司以员工名义贷款数十员工负债千万
asr_example_cn_en 所有只要处理 data 不管你是做 machine learning 做 deep learning 做 data analytics 做 data science 也好 scientist 也好通通都要都做的基本功啊那 again 先先对有一些>也许对
ID0012W0014 he tried to think how it could be

train_wav.scp

BAC009S0764W0121 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0764W0121.wav
BAC009S0916W0489 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/BAC009S0916W0489.wav
asr_example_cn_en https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_cn_en.wav
ID0012W0014 https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_en.wav

train_text_language.txt

语言标识包括 <|zh|>、<|en|>、<|yue|>、<|ja|> 和 <|ko|>。

BAC009S0764W0121 <|zh|>
BAC009S0916W0489 <|zh|>
asr_example_cn_en <|zh|>
ID0012W0014 <|en|>

train_emo.txt

情感标签包括<|HAPPY|>、<|SAD|>、<|ANGRY|>、<|NEUTRAL|>、<|FEARFUL|>、<|DISGUSTED|> 和 <|SURPRISED|>。

BAC009S0764W0121 <|NEUTRAL|>
BAC009S0916W0489 <|NEUTRAL|>
asr_example_cn_en <|NEUTRAL|>
ID0012W0014 <|NEUTRAL|>

train_event.txt

事件标签包括<|BGM|>、<|Speech|>、<|Applause|>、<|Laughter|>、<|Cry|>、<|Sneeze|>、<|Breath|> 和 <|Cough|>。

BAC009S0764W0121 <|Speech|>
BAC009S0916W0489 <|Speech|>
asr_example_cn_en <|Speech|>
ID0012W0014 <|Speech|>

命令

# 从wav.scp、text.txt、text_language.txt、emo_target.txt、event_target.txt生成train.jsonl和val.jsonl
sensevoice2jsonl \
++scp_file_list='["../../../data/list/train_wav.scp", "../../../data/list/train_text.txt", "../../../data/list/train_text_language.txt", "../../../data/list/train_emo.txt", "../../../data/list/train_event.txt"]' \
++data_type_list='["source", "target", "text_language", "emo_target", "event_target"]' \
++jsonl_file_out="../../../data/list/train.jsonl"

如果没有 train_text_language.txt、train_emo_target.txt 和 train_event_target.txt，语言、情感和事件标签将使用 SenseVoice 模型自动预测。

# 从wav.scp和text.txt生成train.jsonl和val.jsonl
sensevoice2jsonl \
++scp_file_list='["../../../data/list/train_wav.scp", "../../../data/list/train_text.txt"]' \
++data_type_list='["source", "target"]' \
++jsonl_file_out="../../../data/list/train.jsonl" \
++model_dir='iic/SenseVoiceSmall'

微调

请确保在 finetune.sh 中将 train_tool 修改为你之前设置的 FunASR 安装目录下的 funasr/bin/train_ds.py 的绝对路径。

bash finetune.sh

WebUI

python webui.py

值得关注的第三方工作

Triton（GPU）部署最佳实践：使用 Triton + TensorRT，经 FP32 测试，在 V100 GPU 上实现了 526 倍加速。FP16 支持正在进行中。仓库
Sherpa-onnx 部署最佳实践：支持以 C++、C、Python、C#、Go、Swift、Kotlin、Java、JavaScript 和 Dart 等 10 种编程语言使用 SenseVoice。还支持在 iOS、Android 和 Raspberry Pi 等平台上部署 SenseVoice。仓库
SenseVoice.cpp。基于 GGML 的纯 C/C++ 版本的 SenseVoice 推理，支持 3 位、4 位、5 位、8 位量化等，无第三方依赖。
streaming-sensevoice 采用分块推理方式。为实现伪流式传输，它使用了截断注意力机制，牺牲了一定的准确性。此外，该技术还支持 CTC 前缀束搜索和热词增强功能。
OmniSenseVoice 针对闪电般的快速推理和批处理流程进行了优化。
SenseVoice Hotword，神经网络热词增强，基于上下文短语预测网络的上下文化端到端语音识别。

社区

如果在使用过程中遇到问题，可以直接在 GitHub 页面上提交 Issue。

你也可以扫描以下钉钉群二维码加入社区群，进行交流和讨论。

FunASR

SenseVoice 快速上手指南

SenseVoice 是一个多功能语音基础模型，支持自动语音识别（ASR）、语种识别（LID）、情感识别（SER）和音频事件检测（AED）。该模型支持 50+ 种语言，推理速度极快（比 Whisper-Large 快 15 倍），并提供丰富的微调和服务部署方案。

环境准备

操作系统：Linux / macOS / Windows
Python 版本：3.8 - 3.10
硬件要求：
- GPU 推理（推荐）：NVIDIA GPU + CUDA 11.x+
- CPU 推理：支持，但速度较慢
前置依赖：
- torch (建议 2.0+)
- funasr 核心库
- 可选：onnxruntime, libtorch (用于导出加速)

安装步骤

推荐使用国内镜像源加速安装。

1. 安装基础依赖

pip install -r requirements.txt

若需手动安装核心库，可使用以下命令（推荐阿里云/清华源）：

pip install funasr -i https://mirrors.aliyun.com/pypi/simple/
pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/

2. 验证安装

确保能够导入相关模块且无报错：

from funasr import AutoModel
print("Installation successful!")

基本使用

以下示例展示如何使用 AutoModel 接口进行最简单的语音转文字及情感分析。该方式自动处理长音频切片（VAD），支持任意时长和格式的音频输入。

快速推理示例

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

# 模型目录，可自动从 ModelScope 下载
model_dir = "iic/SenseVoiceSmall"

# 初始化模型
model = AutoModel(
    model=model_dir,
    trust_remote_code=True,
    remote_code="./model.py",    
    vad_model="fsmn-vad",                # 启用 VAD 处理长音频
    vad_kwargs={"max_single_segment_time": 30000}, # 最大切片时长 30s
    device="cuda:0",                     # 若无 GPU 请改为 "cpu"
)

# 执行推理
res = model.generate(
    input=f"{model.model_path}/example/en.mp3", # 替换为你的音频路径
    cache={},
    language="auto",   # 支持："zh", "en", "yue", "ja", "ko", "nospeech", "auto"
    use_itn=True,      # 是否开启逆文本标准化（标点、数字格式化）
    batch_size_s=60,   # 动态批处理，单位秒
    merge_vad=True,    # 合并 VAD 切片
    merge_length_s=15, # 合并阈值
)

# 后处理并打印结果
text = rich_transcription_postprocess(res[0]["text"])
print(text)

短音频批量推理（高性能模式）

如果所有输入音频均小于 30 秒且需要高吞吐批量处理，可关闭 VAD 以提升效率：

from funasr import AutoModel

model_dir = "iic/SenseVoiceSmall"

# 不加载 VAD 模型
model = AutoModel(model=model_dir, trust_remote_code=True, device="cuda:0")

res = model.generate(
    input=f"{model.model_path}/example/en.mp3",
    cache={},
    language="zh",     # 指定语种
    use_itn=False,
    batch_size=64,     # 静态批处理数量
)

print(res)

参数说明简述

language: 指定识别语种，设为 "auto" 可自动检测。
use_itn: 设为 True 可输出带标点且数字格式化的文本（如"一百"转为"100"）。
device: 根据硬件环境选择 "cuda:0" 或 "cpu"。

常见问题

运行 demo_funasr.py 时遇到 ImportError: cannot import name 'rich_transcription_postprocess' 报错怎么办？

使用 FunASR 推理时语音识别不准确或加载模型失败，可能是什么原因？

遇到 AssertionError: choose a window size 400 that is [2, 0] 错误如何解决？

微调 SenseVoice 识别方言时，训练数据中的 text_language 字段应该填什么？其他字段是必须的吗？

AED（音频事件检测）能力较差或训练报错，常见原因是什么？

使用 LibTorch 导出或推理时遇到设备不一致报错或速度较慢的问题如何解决？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 144.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|2天前

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent

使用场景

没有 SenseVoice 时

使用 SenseVoice 后

运行环境要求

快速开始

简介

首页 ｜ 最新动态 ｜ 基准测试 ｜ 安装 ｜ 使用方法 ｜ 社区

亮点 🎯

最新动态 🔥

基准测试 📝

多语言语音识别

语音情感识别

音频事件检测

计算效率

系统要求

使用方法

推理

直接推理

导出与测试

ONNX

Libtorch

服务

使用 FastAPI 部署

微调

需求

🐳 Docker 支持

使用 Docker 构建

运行（GPU，默认）

运行（仅 CPU）

Docker Compose

启动堆栈

数据准备

微调

WebUI

值得关注的第三方工作

社区

SenseVoice 快速上手指南

环境准备

安装步骤

1. 安装基础依赖

2. 验证安装

基本使用

快速推理示例

短音频批量推理（高性能模式）

参数说明简述

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch

首页｜最新动态｜基准测试｜安装｜使用方法｜社区