FunASR

15.7k 1.6k 中等 1 次阅读今天MIT语言模型开发框架音频

AI 解读由 AI 自动生成，仅供参考

FunASR 是一款功能强大的端到端语音识别开源工具包，旨在搭建学术研究与工业应用之间的桥梁。它不仅能完成基础的语音转文字（ASR）任务，还集成了语音活动检测、标点恢复、说话人验证及区分、多说话人识别等全套音频处理能力，有效解决了传统方案中功能分散、模型部署困难及定制成本高的问题。

无论是希望快速构建高精度语音服务的开发者，还是致力于探索前沿算法的研究人员，FunASR 都能提供极大的便利。工具内置了丰富的工业级预训练模型，用户可直接调用或通过简洁的脚本进行微调，轻松适配特定场景。其核心亮点在于推出了 Paraformer-large 等非自回归模型，在保持极高识别准确率的同时，显著提升了推理效率，非常适合对实时性要求严苛的生产环境。此外，FunASR 持续更新，已支持包括 Whisper-large-v3-turbo 在内的多种主流大模型，并覆盖 31 种语言的低延迟实时转录。借助友好的教程与完善的文档，FunASR 让高质量的语音技术变得触手可及，真正实现了"ASR for Fun"。

使用场景

某大型电商客服团队每天需处理数万通用户投诉录音，急需将语音数据转化为可检索的结构化文本以分析服务质量。

没有 FunASR 时

转写效率低下：依赖人工听写或昂贵的第三方 API，处理海量录音耗时数天，严重滞后于业务复盘节奏。
识别准确率不足：通用模型无法适应电商特有的商品术语和用户口音，导致关键信息（如订单号、诉求点）频繁识别错误。
缺乏结构化处理：原始转录文本无标点、不分说话人，且包含大量静音噪音，数据清洗需额外编写复杂脚本。
部署成本高昂：自研高精度模型需要深厚的算法背景和大量算力投入，中小团队难以承担训练与微调门槛。

使用 FunASR 后

实时高效转写：利用 Paraformer-large 等预训练模型，实现工业级高并发推理，万条录音可在小时内完成高精度转写。
领域自适应强：通过简单的微调功能，快速让模型掌握电商专有词汇，显著降低专有名词和方言的识别错误率。
端到端一站式处理：内置 VAD（语音活动检测）、标点恢复及说话人分离功能，直接输出带标点、分角色的干净文本，免去繁琐后处理。
开箱即用低成本：提供丰富的 ModelScope 预训练模型库和简洁的 Python 接口，开发人员无需从零训练，即可在本地或云端快速部署服务。

FunASR 将原本需要数周完成的语音数据处理流程缩短至小时级，并以极低的成本实现了工业级的识别精度与结构化输出。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

非必需（支持 CPU 和 GPU 模式）
GPU 模式下需 NVIDIA 显卡，具体型号和显存未说明，但提及有针对 GPU 内存泄漏的优化及动态批处理功能

内存

未说明（提及离线文件转录服务优化了 VAD 数据处理以显著降低峰值内存使用）

依赖

notes该工具支持 Windows、Linux 和 macOS。提供专门的 Windows SDK (FunASR-Runtime-Windows) 支持 CPU 推理。Docker 镜像支持 ARM64 平台。若需使用预训练模型，建议安装 modelscope 或 huggingface_hub。支持多种任务包括语音识别、标点恢复、说话人日志及情感识别等。

python3.8+

torch>=1.13

torchaudio

modelscope (可选)

huggingface_hub (可选)

快速开始

(简体中文|English)

FunASR 致力于搭建语音识别领域学术研究与工业应用之间的桥梁。通过支持工业级语音识别模型的训练与微调，研究人员和开发者能够更便捷地开展语音识别模型的研究与生产工作，从而推动语音识别生态的发展。让语音识别充满乐趣！

亮点 | 新闻 | 安装 | 快速入门 | 教程 | 运行时环境 | 模型库 | 联系我们

亮点

FunASR 是一款基础的语音识别工具包，提供多种功能，包括语音识别（ASR）、语音活动检测（VAD）、标点符号恢复、语言模型、说话人验证、说话人日志以及多说话人 ASR 等。FunASR 提供便捷的脚本和教程，支持预训练模型的推理与微调。
我们已在 ModelScope 和 Hugging Face 上发布了大量学术与工业领域的预训练模型，可通过我们的模型库获取。其中具有代表性的 Paraformer-large 是一种非自回归的端到端语音识别模型，具有高精度、高效率和部署便捷等优势，可支持快速构建语音识别服务。有关服务部署的更多详情，请参阅服务部署文档。

安装

需求

python>=3.8
torch>=1.13
torchaudio

通过 pypi 安装

pip3 install -U funasr

或者从源代码安装

git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

安装 modelscope 或 huggingface_hub 以获取预训练模型（可选）

pip3 install -U modelscope huggingface_hub

模型库

FunASR 已在工业级数据上开源了大量预训练模型。您可以在模型许可协议的许可下自由使用、复制、修改和分享 FunASR 模型。以下是一些代表性模型，更多模型请参阅模型库。

（注：⭐ 表示 ModelScope 模型库，🤗 表示 Huggingface 模型库，🍀 表示 OpenAI 模型库）

模型名称	任务详情	训练数据	参数
Fun-ASR-Nano (⭐ 🤗 )	语音识别支持中文、英语和日语。中文包括7种方言和26种地方口音的支持。英语和日语覆盖多种地区口音。附加功能包括歌词识别和说唱语音识别。	数千万小时	800M
SenseVoiceSmall (⭐ 🤗 )	多种语音理解能力，包括ASR、ITN、LID、SER和AED，支持zh、yue、en、ja、ko等语言	30万小时	234M
paraformer-zh (⭐ 🤗 )	语音识别，带时间戳，非流式	6万小时，普通话	220M
paraformer-zh-streaming ( ⭐ 🤗 )	语音识别，流式	6万小时，普通话	220M
paraformer-en ( ⭐ 🤗 )	语音识别，无时间戳，非流式	5万小时，英语	220M
conformer-en ( ⭐ 🤗 )	语音识别，非流式	5万小时，英语	220M
ct-punc ( ⭐ 🤗 )	标点符号恢复	1亿条，中文和英语	290M
fsmn-vad ( ⭐ 🤗 )	语音活动检测	5000小时，中文和英语	0.4M
fsmn-kws ( ⭐ )	关键词检测，流式	5000小时，普通话	0.7M
fa-zh ( ⭐ 🤗 )	时间戳预测	5000小时，普通话	38M
cam++ ( ⭐ 🤗 )	发言人验证/区分	5000小时	7.2M
Whisper-large-v3 (⭐ 🍀 )	语音识别，带时间戳，非流式	多语言	1550 M
Whisper-large-v3-turbo (⭐ 🍀 )	语音识别，带时间戳，非流式	多语言	809 M
Qwen-Audio (⭐ 🤗 )	音频-文本多模态模型（预训练）	多语言	8B
Qwen-Audio-Chat (⭐ 🤗 )	音频-文本多模态模型（聊天）	多语言	8B
emotion2vec+large (⭐ 🤗 )	语音情感识别	4万小时	300M

快速入门

以下是快速入门教程。测试音频文件（普通话，英语)。

命令行使用

funasr ++model=paraformer-zh ++vad_model="fsmn-vad" ++punc_model="ct-punc" ++input=asr_example_zh.wav

注意：支持单个音频文件的识别，也支持Kaldi风格的wav.scp格式的文件列表：wav_id wav_pat。

语音识别（非流式）

Fun-ASR-Nano

from funasr import AutoModel

model_dir = "FunAudioLLM/Fun-ASR-Nano-2512"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)
res = model.generate(input=[wav_path], cache={}, batch_size_s=0)
text = res[0]["text"]
print(text)

参数说明：

model_dir：模型名称，或本地磁盘上模型的路径。
vad_model：表示启用VAD（语音活动检测）。VAD的作用是将长音频分割成较短的片段。在这种情况下，推理时间包括VAD和SenseVoice的总耗时，代表端到端延迟。如果希望单独测试SenseVoice模型的推理时间，可以禁用VAD模型。
vad_kwargs：指定VAD模型的配置。max_single_segment_time：表示vad_model进行音频分割的最大时长，单位为毫秒（ms）。
batch_size_s：表示使用动态批处理，其中批次中音频的总时长以秒（s）为单位。

SenseVoice

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

model_dir = "iic/SenseVoiceSmall"

model = AutoModel(
    model=model_dir,
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
)

# 英语
res = model.generate(
    input=f"{model.model_path}/example/en.mp3",
    cache={},
    language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

参数说明：

model_dir：模型名称，或本地磁盘上模型的路径。
vad_model：表示启用VAD（语音活动检测）。VAD的作用是将长音频分割成较短的片段。在这种情况下，推理时间包括VAD和SenseVoice的总耗时，代表端到端延迟。如果希望单独测试SenseVoice模型的推理时间，可以禁用VAD模型。
vad_kwargs：指定VAD模型的配置。max_single_segment_time：表示vad_model进行音频分割的最大时长，单位为毫秒（ms）。
use_itn：输出结果是否包含标点符号和逆文本规范化。
batch_size_s：表示使用动态批处理，其中批次中音频的总时长以秒（s）为单位。
merge_vad：是否合并由VAD模型分割的短音频片段，合并后的长度为merge_length_s，单位为秒（s）。
ban_emo_unk：是否禁止输出emo_unk标记。

Paraformer

from funasr import AutoModel
# paraformer-zh 是一个多功能的ASR模型
# 根据需要选择是否使用vad、punc、spk等
model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad",  punc_model="ct-punc",
                  # spk_model="cam++",
                  )
res = model.generate(input=f"{model.model_path}/example/asr_example.wav",
                     batch_size_s=300,
                     hotword='魔搭')
print(res)

注：hub表示模型仓库，ms代表选择ModelScope下载，hf代表选择Huggingface下载。

语音识别（流式）

from funasr import AutoModel

chunk_size = [0, 10, 5] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #编码器自注意力回看的块数
decoder_chunk_look_back = 1 #解码器交叉注意力回看的编码器块数

model = AutoModel(model="paraformer-zh-streaming")

import soundfile
import os

wav_file = os.path.join(model.model_path, "example/asr_example.wav")
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = chunk_size[1] * 960 # 600ms

cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size, encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)
    print(res)

注：chunk_size是流式延迟的配置。[0,10,5]表示实时显示的粒度为10*60=600ms，前瞻信息为5*60=300ms。每次推理输入为600ms（采样点为16000*0.6=960），输出为对应的文本。对于最后一段语音输入，需设置is_final=True，以强制输出最后一个词。

更多示例

语音活动检测（非流式）

from funasr import AutoModel

model = AutoModel(model="fsmn-vad")
wav_file = f"{model.model_path}/example/vad_example.wav"
res = model.generate(input=wav_file)
print(res)

注：VAD模型的输出格式为：[[beg1, end1], [beg2, end2], ..., [begN, endN]]，其中begN/endN表示第N个有效音频片段的起始/结束时间，单位为毫秒。

语音活动检测（流式）

from funasr import AutoModel

chunk_size = 200 # 毫秒
model = AutoModel(model="fsmn-vad")

import soundfile

wav_file = f"{model.model_path}/example/vad_example.wav"
speech, sample_rate = soundfile.read(wav_file)
chunk_stride = int(chunk_size * sample_rate / 1000)

cache = {}
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
for i in range(total_chunk_num):
    speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]
    is_final = i == total_chunk_num - 1
    res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size)
    if len(res[0]["value"]):
        print(res)

注意：流式 VAD 模型的输出格式有四种情况：

[[beg1, end1], [beg2, end2], .., [begN, endN]]：与上述离线 VAD 输出结果相同。
[[beg, -1]]：表示仅检测到起始点。
[[-1, end]]：表示仅检测到结束点。
[]：表示未检测到起始点或结束点。

输出以毫秒为单位，表示从起始点开始的绝对时间。

标点符号恢复

from funasr import AutoModel

model = AutoModel(model="ct-punc")
res = model.generate(input="那今天的会就到这里吧 happy new year 明年见")
print(res)

时间戳预测

from funasr import AutoModel

model = AutoModel(model="fa-zh")
wav_file = f"{model.model_path}/example/asr_example.wav"
text_file = f"{model.model_path}/example/text.txt"
res = model.generate(input=(wav_file, text_file), data_type=("sound", "text"))
print(res)

语音情感识别

from funasr import AutoModel

model = AutoModel(model="emotion2vec_plus_large")

wav_file = f"{model.model_path}/example/test.wav"

res = model.generate(wav_file, output_dir="./outputs", granularity="utterance", extract_embedding=False)
print(res)

更多用法参考文档，更多示例参考 demo

导出 ONNX

命令行使用

funasr-export ++model=paraformer ++quantize=false ++device=cpu

Python

from funasr import AutoModel

model = AutoModel(model="paraformer", device="cpu")

res = model.export(quantize=False)

测试 ONNX

# pip3 install -U funasr-onnx
from pathlib import Path
from runtime.python.onnxruntime.funasr_onnx.paraformer_bin import Paraformer


home_dir = Path.home()

model_dir = "damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch"
model = Paraformer(model_dir, batch_size=1, quantize=True)

wav_path = [f"{home_dir}/.cache/modelscope/hub/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/example/asr_example.wav"]

result = model(wav_path)
print(result)

更多示例参考 demo

部署服务

FunASR 支持部署预训练或进一步微调后的模型以提供服务。目前支持以下类型的服务部署：

文件转写服务，普通话，CPU 版本，已完成
实时转写服务，普通话（CPU），已完成
文件转写服务，英语，CPU 版本，已完成
文件转写服务，普通话，GPU 版本，正在进行中
以及其他。

更多详细信息，请参阅服务部署文档。

社区交流

如果您在使用过程中遇到问题，可以直接在 GitHub 页面上提交 Issue。

您也可以扫描下方的钉钉群二维码，加入社区群进行交流和讨论。

钉钉群

贡献者

贡献者名单请参见贡献者列表

许可证

本项目采用 MIT 许可证开源。FunASR 还包含多种第三方组件，以及基于其他开源许可证修改的部分代码。预训练模型的使用受模型许可证约束。

引用

@inproceedings{gao2023funasr,
  author={Zhifu Gao and Zerui Li and Jiaming Wang and Haoneng Luo and Xian Shi and Mengzhe Chen and Yabin Li and Lingyun Zuo and Zhihao Du and Zhangyu Xiao and Shiliang Zhang},
  title={FunASR: A Fundamental End-to-End Speech Recognition Toolkit},
  year={2023},
  booktitle={INTERSPEECH},
}
@inproceedings{An2023bat,
  author={Keyu An and Xian Shi and Shiliang Zhang},
  title={BAT: Boundary aware transducer for memory-efficient and low-latency ASR},
  year={2023},
  booktitle={INTERSPEECH},
}
@inproceedings{gao22b_interspeech,
  author={Zhifu Gao and ShiLiang Zhang and Ian McLoughlin and Zhijie Yan},
  title={Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition},
  year=2022,
  booktitle={Proc. Interspeech 2022},
  pages={2063--2067},
  doi={10.21437/Interspeech.2022-9996}
}
@inproceedings{shi2023seaco,
  author={Xian Shi and Yexin Yang and Zerui Li and Yanni Chen and Zhifu Gao and Shiliang Zhang},
  title={SeACo-Paraformer: A Non-Autoregressive ASR System with Flexible and Effective Hotword Customization Ability},
  year={2023},
  booktitle={ICASSP2024}
}

FunASR 快速上手指南

FunASR 是一款由阿里巴巴达摩院开源的基础性端到端语音识别工具包，旨在连接学术研究与工业应用。它支持语音识别（ASR）、语音活动检测（VAD）、标点恢复、说话人验证、说话人日记以及多说话人 ASR 等多种功能，并提供丰富的工业级预训练模型。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS, Windows
Python 版本：>= 3.8
核心依赖：
- PyTorch >= 1.13
- torchaudio

安装步骤

1. 安装 FunASR

推荐使用 pip 直接安装最新稳定版：

pip3 install -U funasr

如果您需要从源码安装以获取最新特性：

git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

2. 安装模型下载工具（可选但推荐）

FunASR 的预训练模型主要托管在 ModelScope（魔搭社区）和 HuggingFace 上。为了更方便地下载模型（尤其是国内用户推荐使用 ModelScope），建议安装以下库：

pip3 install -U modelscope huggingface_hub

基本使用

FunASR 提供了极简的 Python API 来加载预训练模型并进行推理。以下是一个使用中文语音识别模型（Paraformer-large）进行文件转录的最简单示例。

示例：语音文件转文字

from funasr import AutoModel

# 初始化模型
# model_name: 模型名称，支持自动从 ModelScope 或 HuggingFace 下载
# device: 运行设备，"cuda" 或 "cpu"
model = AutoModel(model="paraformer-zh", device="cuda")

# 执行推理
# input: 音频文件路径，支持单文件或文件列表
res = model.generate(input="example.wav")

# 打印结果
print(res)

代码说明：

AutoModel 会自动处理模型的下载、加载和设备配置。
首次运行时，如果本地没有模型，它会自动从 ModelScope 下载（若已安装 modelscope）或 HuggingFace。
generate 方法返回包含识别文本、时间戳等信息的字典列表。

进阶：批量处理与参数调整

from funasr import AutoModel

model = AutoModel(model="paraformer-zh", device="cuda")

# 批量处理多个文件
files = ["audio_1.wav", "audio_2.wav"]
res = model.generate(input=files, batch_size_s=300)

for item in res:
    print(f"File: {item.get('filename', 'unknown')}, Text: {item['text']}")

通过以上步骤，您即可快速搭建起基于 FunASR 的语音识别服务。更多高级功能（如 VAD、标点恢复、说话人日记等）可参考官方教程文档。

版本历史

v0.3.02023/03/16

v0.2.02023/02/20

v0.1.62023/01/16

v0.1.42022/12/10

常见问题

如何在 Windows 上编译和运行 FunASR（特别是 ONNX Runtime 支持）？

WebSocket C++ 客户端连接服务器发送 WAV 文件后，为何无法返回 ASR 结果并报错 'End of File'？

运行 Paraformer 微调或推理时报错 'RuntimeError: The size of tensor a must match the size of tensor b' 如何解决？

FunASR 是否支持 Whisper-v3-large-turbo 模型？

在进行说话人识别（Speaker Recognition）时，为什么必须是词级别（word level）的处理？

如何使用 PHP 或其他非 Python/C++ 语言作为 WebSocket 客户端调用 FunASR 服务？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 FunASR 时

使用 FunASR 后

运行环境要求

快速开始

亮点

最新动态：

安装

模型库

快速入门

命令行使用

语音识别（非流式）

Fun-ASR-Nano

SenseVoice

Paraformer

语音识别（流式）

语音活动检测（非流式）

语音活动检测（流式）

标点符号恢复

时间戳预测

语音情感识别

导出 ONNX

命令行使用

Python

测试 ONNX

部署服务

社区交流

贡献者

许可证

引用

FunASR 快速上手指南

环境准备

安装步骤

1. 安装 FunASR

2. 安装模型下载工具（可选但推荐）

基本使用

示例：语音文件转文字

进阶：批量处理与参数调整

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown