AI 解读由 AI 自动生成，仅供参考

awesome-diarization 是一个专注于“说话人日记”（Speaker Diarization）领域的精选资源库，旨在回答“谁在什么时候说了什么”这一核心语音处理问题。它系统地整理了全球范围内的优质论文、开源代码库、数据集、评估工具及学习材料，帮助从业者快速定位所需技术资源。

该项目主要解决了语音技术领域资源分散、查找困难的问题。说话人日记是会议记录、客服质检和访谈分析的关键前置步骤，但相关研究更新迅速且涉及复杂的深度学习模型。awesome-diarization 通过分类梳理，将从零基础的综述文章到前沿的大语言模型（LLM）辅助纠错技术，再到具体的聚类算法和音频增强工具，全部汇聚于一处，极大地降低了研究与开发门槛。

这份资源清单特别适合人工智能研究人员、语音算法工程师以及希望深入了解语音分割技术的开发者使用。无论是需要复现最新 SOTA 模型的研究者，还是寻找成熟框架进行二次开发的工程师，都能在此找到对应的解决方案。其独特亮点在于不仅涵盖了传统的监督式学习和端到端神经网络方法，还及时收录了结合大语言模型进行后处理的最新探索，展现了该领域从纯声学特征向语义理解融合的最新趋势。对于想要系统构建语音分析能力的团队而言，这是一个不可或缺的入门指南与进阶宝库。

使用场景

某智能会议助手团队正在开发自动会议纪要功能，需要从长达数小时的多方通话录音中精准区分不同发言者并生成带说话人标签的文本。

没有 awesome-diarization 时

资源搜集低效：开发人员需花费数周在各大论文库和 GitHub 中盲目搜索，难以辨别哪些说话人分离（Diarization）算法最适合当前业务场景。
技术选型困难：面对重叠说话、噪声干扰等复杂情况，缺乏权威的评测框架和对比数据，导致模型选择全靠“试错”，极易踩坑。
数据准备繁琐：找不到高质量的专业数据集和噪声增强源，训练数据匮乏，导致模型在真实会议场景下的泛化能力极差。
前沿技术脱节：难以及时获取结合大语言模型（LLM）进行后处理纠错的最新研究成果，产品智能化程度停滞不前。

使用 awesome-diarization 后

一站式资源导航：团队直接利用其分类清晰的清单，快速锁定了适合多方会议的 SOTA（最先进）框架和专用数据集，研发启动时间缩短 80%。
科学评估决策：参考列表中提供的评测工具和聚类算法对比，迅速确定了抗重叠说话能力最强的方案，避免了无效的模型训练。
数据增强便捷：直接复用推荐的噪声源和数据增强工具，显著提升了模型在嘈杂环境下的鲁棒性，准确率大幅提升。
紧跟技术潮流：通过收录的 LLM 相关最新论文，团队成功引入了基于上下文的说话人纠错机制，使会议纪要的可读性达到商用标准。

awesome-diarization 通过系统化整理全球顶尖资源，将原本分散且高门槛的技术探索过程转化为高效、可落地的工程实践，极大加速了语音智能产品的迭代周期。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（awesome-diarization）是一个 curated list（精选列表），主要收集了说话人日记领域的论文、软件框架、数据集和学习资源链接，其本身不是一个可直接运行的软件工具或代码库。因此，README 中未包含具体的操作系统、硬件配置、Python 版本或依赖库等运行环境需求。用户需根据列表中引用的具体软件项目（如 pyannote.audio, NVIDIA NeMo 等）查阅其各自的文档以获取运行要求。

python未说明

快速开始

优秀的说话人日志技术

概述

这是一个精心整理的关于优秀说话人日志技术的论文、库、数据集及其他资源列表。

本仓库旨在整理全球范围内与说话人日志相关的资源，使其易于获取并具有广泛的应用价值。

如需添加内容，请直接提交拉取请求。（贡献指南）

论文

特别专题

综述与调查论文

大型语言模型（LLM）

有监督说话人日志

说话人日志与自动语音识别联合

在线说话人日志

竞赛挑战

视听说话人日志

其他

2021年

2020年

2019年

2018年

2017年

2016年

用于研究同伴主导团队学习小组的说话人日志系统

2015年

在因子分析子空间中的日志重新分割

2014年

2013年

说话人日志的无监督方法：一种集成与迭代的方法

2011年

2009年

会议室音频的说话人日志

2008年

基于说话人因子与特征语音的流式说话人分割

2006年

软件

框架

链接	语言	描述
FunASR	Python & PyTorch	FunASR 是一个基于 PyTorch 的开源语音工具包，旨在弥合学术研究与工业应用之间的差距。
MiniVox	MATLAB	MiniVox 是一个用于在线说话人日志任务的开源评估系统。
SpeechBrain	Python & PyTorch	SpeechBrain 是一个基于 PyTorch 的开源、一体化语音工具包。
SIDEKIT for diarization (s4d)	Python	SIDEKIT 的开源扩展包，专门用于说话人日志。
pyAudioAnalysis	Python	Python 音频分析库：特征提取、分类、分割及应用。
AaltoASR	Python & Perl	基于 AaltoASR 的说话人日志脚本。
LIUM SpkDiarization	Java	LIUM_SpkDiarization 是一款专门用于说话人日志（即说话人分割与聚类）的软件，采用 Java 编写，并包含了该领域截至 2013 年的最新研究成果。
kaldi-asr	Bash	用于 2000 年 NIST 说话人识别评测中 CALLHOME 数据集一部分的说话人日志示例脚本。
kaldi-speaker-diarization	Bash	使用 Kaldi 进行冰岛语说话人日志的脚本。
Alize LIA_SpkSeg	C++	ALIZÉ 是一个用于说话人识别的开源平台。LIA_SpkSeg 是其中用于说话人日志的工具。
pyannote-audio	Python	用于说话人日志的神经网络模块：语音活动检测、说话人变化检测、说话人嵌入。
pyBK	Python	基于二进制关键说话人模型的说话人日志。这是一种计算开销较低、无需外部训练数据的解决方案。
Speaker-Diarization	Python	使用 uis-rnn 和 GhostVLAD 进行说话人日志。一种更易于支持开放集说话人的方法。
EEND	Python & Bash & Perl	端到端神经网络说话人日志。
VBx	Python	基于 x-vector 的变分贝叶斯隐马尔可夫模型说话人日志。x-vector 提取器配方
RE-VERB	Python & JavaScript	RE: VERB 是一个说话人日志系统，允许用户上传或录制对话音频，并获取每位发言者的时间戳。
StreamingSpeakerDiarization	Python	流式说话人日志，扩展了 pyannote.audio 以支持在线处理。
simple_diarizer	Python	使用一些预训练模型的简化说话人日志流程。旨在尽可能简单地将输入音频文件转换为已标注的说话人片段。
Picovoice Falcon	C & Python	一个轻量级、高精度且快速的说话人日志引擎，用 C 语言编写并提供 Python 接口，在 CPU 上运行时开销极小。
DiaPer	Python	DiaPer：基于 Perceiver 的吸引子的端到端神经网络说话人日志的 PyTorch 实现，包含在免费公开数据上预训练的模型。
sherpa-onnx	C++ & C & `C#` & Dart & Go & Java & JavaScript & Kotlin & Pascal & Python & Rust & Swift	支持多种平台和语言绑定下的说话人日志、语音识别和文本转语音功能。
FluidAudio	Swift	一款原生 Swift 的苹果平台说话人日志库，利用 CoreML 实现高效、实时的高精度音频处理。

评估

链接	语言	描述
pyannote-metrics	Python	用于可重复评估、诊断和错误分析的说话人日志系统工具包。
SimpleDER	Python	一个轻量级库，用于计算日志错误率（DER）。
DiarizationLM	Python	实现了词错误率（WER）、词日志错误率（WDER）以及拼接最小置换词错误率（cpWER）。
NIST md-eval	Perl	(1) 修改自 Mary Tai Knox 的 md-eval.pl；(2) 来自 jitendra 的 md-eval-v21.pl；(3) 来自 nryant 的 md-eval-22.pl
dscore	Python & Perl	日志评分工具。
Sequence Match Accuracy	Python	使用匈牙利算法匹配两个序列的准确度。
spyder	Python & C++	用于快速计算 DER 的简单 Python 包。
CDER	Python	来自论文《会话语段说话人日志任务：数据集、评估指标与基线》（arXiv:2208.08042）中的会话型 DER。

聚类

链接	语言	描述
uis-rnn	Python & PyTorch	谷歌的无界交错状态循环神经网络（UIS-RNN）算法，用于完全监督的说话人日志。该聚类算法是监督式的。
uis-rnn-sml	Python & PyTorch	UIS-RNN 的一种变体，用于论文《基于样本均值损失的多领域数据在线监督日志》。
DNC	Python & ESPnet	基于 Transformer 的判别性神经聚类（DNC），用于说话人日志。与 UIS-RNN 一样，它也是监督式的。
SpectralCluster	Python	具有亲和矩阵优化操作、自动调优和说话人轮次约束的谱聚类。
sklearn.cluster	Python	scikit-learn 中的聚类算法。
PLDA	Python	概率线性判别分析及分类，用 Python 编写。
PLDA	C++	开源的简化版概率线性判别分析（PLDA）实现。
Auto-Tuning Spectral Clustering	Python	自动调优的谱聚类方法，无需开发集或监督调优。

说话人嵌入

链接	方法	语言	描述
resemble-ai/Resemblyzer	d-vector	Python & PyTorch	基于 PyTorch 的广义端到端损失的说话人验证实现，可用于语音克隆和角色分离。
Speaker_Verification	d-vector	Python & TensorFlow	基于 TensorFlow 的广义端到端损失的说话人验证实现。
PyTorch_Speaker_Verification	d-vector	Python & PyTorch	Wan、Li 等人提出的“用于说话人验证的广义端到端损失”的 PyTorch 实现，并集成了 UIS-RNN。
Real-Time Voice Cloning	d-vector	Python & PyTorch	“从说话人验证到多说话人文本转语音合成的迁移学习”（SV2TTS）的实现，配备可实时工作的声码器。
conformer-speaker-encoder	d-vector	Python & TFLite	大规模多语言的基于 Conformer 的说话人识别模型，以 TFLite 格式提供。
deep-speaker	d-vector	Python & Keras	第三方实现百度论文《Deep Speaker：一个端到端神经网络说话人嵌入系统》。
x-vector-kaldi-tf	x-vector	Python & TensorFlow & Perl	在 Kaldi 流程基础上，使用 TensorFlow 实现 x-vector 拓扑结构。
kaldi-ivector	i-vector	C++ & Perl	Kaldi 的扩展，实现了标准的 i-vector 超参数估计和提取流程。
voxceleb-ivector	i-vector	Perl	基于 Voxceleb1 i-vector 的说话人识别系统。
pytorch_xvectors	x-vector	Python & PyTorch	Voxceleb x-vectors 的 PyTorch 实现。此外，还包括用于嵌入训练的元学习架构。已通过说话人角色分离和说话人验证进行评估。
ASVtorch	i-vector	Python & PyTorch	ASVtorch 是一个自动说话人识别工具包。
asv-subtools	i-vector & x-vector	Kaldi & PyTorch	ASV-Subtools 基于 PyTorch 和 Kaldi 开发，用于说话人识别、语言辨识等任务。“sub”表示该工具包含多个模块化组件，共同构成整体。
WeSpeaker	x-vector & r-vector	Python & C++ & PyTorch	WeSpeaker 是一个面向研究与生产的说话人验证、识别和角色分离工具包，支持强大的配方，具备实时数据准备、模型训练与评估功能，以及运行时的 C++ 代码。
ReDimNet	改进的 ResNet	PyTorch	论文用于说话人识别的重塑维度网络中提出的神经网络架构。

说话人变化检测

链接	语言	描述
change_detection	Python & Keras	使用双向长短期记忆网络进行广播电视中说话人变化检测的代码。
tidydiarize	Python	在 OpenAI Whisper 解码器中进行角色分离

音频特征提取

链接	语言	描述
LibROSA	Python	用于音频和音乐分析的 Python 库。https://librosa.github.io/
python_speech_features	Python	该库提供了 ASR 中常用的语音特征，包括 MFCC 和滤波器组能量。https://python-speech-features.readthedocs.io/en/latest/
pyAudioAnalysis	Python	Python 音频分析库：特征提取、分类、分割及应用。

音频数据增强

链接	语言	描述
pyroomacoustics	Python	Pyroomacoustics 是一个用于室内应用的音频信号处理包。它被开发为一种在室内场景中快速原型化波束形成算法的平台。https://pyroomacoustics.readthedocs.io
gpuRIR	Python	使用 GPU 加速的房间脉冲响应（RIR）仿真 Python 库
rir_simulator_python	Python	使用 Python 的房间脉冲响应模拟器
WavAugment	Python & PyTorch	WavAugment 对音频数据进行数据增强。音频数据以 PyTorch 张量的形式表示
EEND_dataprep	Bash & Python	用于生成模拟对话的配方，这些对话用于训练端到端的说话人分离模型。

其他软件

链接	语言	描述
VB Diarization	Python	基于特征语音和 HMM 先验的 VB 说话人分离。
DOVER-Lap	Python	用于合并说话人分离系统输出的 Python 包
Diar-az	Python	数据格式化工具，用于支持 ruv-di 数据集。Kaldi 到 Gecko 再回到 Kaldi 和语料库

数据集

说话人分离数据集

音频	说话人分离真值	语言	价格	其他信息
2000 年 NIST 说话人识别评估数据	光盘 6（Switchboard）, 光盘 8（CALLHOME）	多种	$2400.00	评估计划
2003 年 NIST 丰富转录评估数据	连同音频一起	英语、阿拉伯语、中文	$2000.00	电话通话、广播新闻
CALLHOME 美式英语语音	CALLHOME 美式英语转录本	英语	$1500.00 + $1000.00	CH109 白名单
ICSI 会议语料库	连同音频一起	英语	免费	许可证
AMI 会议语料库	连同音频一起（需处理）	多种	免费	许可证
Fisher 英语训练语音第一部分	Fisher 英语训练语音第一部分转录本	英语	$7000.00 + $1000.00
Fisher 英语训练第二部分，语音	Fisher 英语训练第二部分，转录本	英语	$7000.00 + $1000.00
VoxConverse	待定	待定	免费	VoxConverse 是一个视听说话人分离数据集，包含超过 50 小时的人类多说话者视频片段，这些片段来自 YouTube 视频
MiniVox 基准测试	MiniVox 基准测试	英语	免费	MiniVox 是一个自动化框架，可将任何带有说话人标签的数据集转换为连续的语音数据流，并以分段方式提供标签反馈。
AliMeeting 语料库	连同音频一起	中文	免费

说话人嵌入训练数据集

名称	发话次数	说话人数量	语言	价格	备注
TIMIT	6K+	630	英语	$250.00	TIMIT语料库于1993年发布，是一份较早的阅读型语音数据集，广泛用于说话人识别研究。
VCTK	43K+	109	英语	免费	数据主要来自报纸文章、Rainbow Passage以及一段用于识别口音的诱导段落。
LibriSpeech	292K	2K+	英语	免费	大规模（1000小时）的英语阅读语音语料库。
多语言 LibriSpeech (MLS)	?	?	英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语	免费	多语言 LibriSpeech 数据集是一个适合语音研究的大规模多语言语料库。该数据集来源于 LibriVox 的有声读物，包含8种语言：英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语。
LibriVox	180K	9K+	多种语言	免费	免费的公共领域有声读物。LibriSpeech 是 LibriVox 的一个处理后的子集，原始未分割的发话可能非常长。
VoxCeleb 1&2	1M+	7K	多种语言	免费	VoxCeleb 是一个视听数据集，由上传至 YouTube 的访谈视频中截取的短片段组成。
Spoken Wikipedia 语料库	5K	879	英语、德语、荷兰语	免费	志愿者朗读的维基百科文章。
CN-Celeb	130K+	1K	中文	免费	清华大学 CSLT 发布的免费中文说话人识别语料库。
BookTubeSpeech	8K	8K	英语	免费	从 YouTube 上的 BookTube 视频中提取的音频样本——这些视频是人们分享对书籍看法的内容。该数据集可通过 BookTubeSpeech-download 下载。
DeepMine	540K	1850	波斯语、英语	未知	一份波斯语和英语的语音数据库，旨在构建和评估说话人验证系统以及波斯语 ASR 系统。
NISP-数据集	?	345	印地语、卡纳达语、马拉雅拉姆语、泰米尔语、泰卢固语（均为印度语言）	免费	该数据集包含语音录音，以及说话人的身体参数（身高、体重等）、地域信息和语言学信息。
VoxBlink2	10M	100K+	18种语言（英语、葡萄牙语、西班牙语、俄语、阿拉伯语等）	CC BY-NC-SA 4.0	来自 VoxBlink2: 一个拥有10万以上说话人的说话人识别语料库及开放集说话人识别基准的多语言数据集。

增强用噪声源

名称	发话次数	价格	备注
AudioSet	2M	免费	一个大规模的手动标注音频事件数据集。
MUSAN	不适用	免费	MUSAN 是音乐、语音和噪声录音的语料库。

会议

会议/研讨会	频率	页数限制	主办单位	盲审
ICASSP	每年	4 + 1（参考文献）	IEEE	否
InterSpeech	每年	4 + 1（参考文献）	ISCA	否
Speaker Odyssey	每两年	8 + 2（参考文献）	ISCA	否
SLT	每两年	6 + 2（参考文献）	IEEE	是
ASRU	每两年	6 + 2（参考文献）	IEEE	是
WASPAA	每两年	4 + 1（参考文献）	IEEE	否
IJCB	每年	8	IEEE & IAPR TC-4	是

其他学习资料

产品

公司	产品
Google	录音机应用
Google	Google Cloud 语音转文本 API
Amazon	Amazon Transcribe
IBM	Watson 语音转文本 API
DeepAffects	说话人日志化 API
阿里巴巴	听悟
微软	Azure 对话转录 API

星标历史

awesome-diarization 快速上手指南

注意：awesome-diarization 并非一个可直接安装的软件库或工具包，而是一个精选资源列表（Awesome List），汇集了说话人日记（Speaker Diarization）领域的论文、开源框架、数据集和学习资料。

要开始使用相关技术，您需要从该列表推荐的 Software -> Framework 类别中选择具体的开源项目（如 pyannote-audio、NVIDIA NeMo 或 Kaldi）进行安装和使用。以下指南以目前社区最流行、易于上手的 pyannote-audio 为例，展示如何基于此资源列表开启说话人日记任务。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本：Python 3.8 - 3.10（具体版本需参照所选框架的要求，pyannote 通常推荐 3.9+）。
硬件依赖：
- GPU：强烈建议配备 NVIDIA GPU 并安装 CUDA 驱动，以加速深度学习模型的推理和训练。
- CPU：若无 GPU，仅能用于小规模测试，速度较慢。
前置依赖：
- pip 包管理工具
- git 版本控制工具
- ffmpeg (用于音频处理)

安装 ffmpeg (Ubuntu/Debian):

sudo apt update
sudo apt install ffmpeg

安装步骤

由于 awesome-diarization 是资源列表，我们在此安装其推荐的代表性框架 pyannote-audio。

创建虚拟环境（推荐）：

python -m venv diarization-env
source diarization-env/bin/activate

安装 pyannote-audio：直接使用 pip 安装最新版本。
```
pip install pyannote-audio
```
注：若国内下载速度慢，可使用清华源加速：
```
pip install pyannote-audio -i https://pypi.tuna.tsinghua.edu.cn/simple
```
获取模型权限（重要）： pyannote-audio 的预训练模型托管在 Hugging Face 上，需要接受用户协议并获取 Token。
- 访问 pyannote 官方模型页面和语音活动检测页面。
- 登录 Hugging Face 账号，点击 "Agree" 接受协议。
- 在 Access Tokens 设置页创建一个新的 Read 权限 Token。
- 将 Token 保存到本地环境变量或 .env 文件中。

基本使用

以下是一个最简单的 Python 脚本示例，展示如何使用安装好的框架对音频文件进行说话人分离。

准备音频文件：确保你有一个名为 input_audio.wav 的音频文件。

编写代码：创建 diarize.py 文件。

from pyannote.audio import Pipeline
from huggingface_hub import login

# 1. 登录 Hugging Face (替换为你的实际 Token)
# 建议将 token 放入环境变量 HF_TOKEN 中，避免硬编码
login(token="YOUR_HUGGING_FACE_TOKEN")

# 2. 加载预训练的说话人日记流水线
# 使用最新的 3.1 版本模型
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1")

# 如果需要使用 GPU，确保已安装 torch cuda 版本，pipeline 会自动检测
# pipeline.to(torch.device("cuda")) 

# 3. 执行说话人日记
audio_file = "input_audio.wav"
diarization = pipeline(audio_file)

# 4. 输出结果
print(f"{'START':<10} | {'END':<10} | {'SPEAKER'}")
for turn, _, speaker in diarization.itertracks(yield_label=True):
    print(f"{turn.start:<10.2f} | {turn.end:<10.2f} | {speaker}")

运行脚本：
```
python diarize.py
```

输出示例：

START      | END        | SPEAKER
0.00       | 3.50       | SPEAKER_00
3.50       | 8.20       | SPEAKER_01
8.20       | 12.00      | SPEAKER_00

下一步建议：回到 awesome-diarization 仓库的 Software 和 Publications 章节，探索更多针对特定场景（如在线日记、重叠语音处理、多模态日记）的先进框架和最新论文。

常见问题

训练中文语音说话人日记（Speaker Diarization）模型需要多少数据？

如何向该仓库贡献代码或技术博客文章？应该放在哪个章节？

像 Nvidia 的 Multi-scale Speaker Diarization 或 TitaNet 这样的重要论文，可以添加到列表中吗？

为什么无法访问提到的排行榜（Leaderboard）或 stateoftheart.ai 网站？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频

使用场景

没有 awesome-diarization 时

使用 awesome-diarization 后

运行环境要求

快速开始

优秀的说话人日志技术

目录

概述

论文

特别专题

综述与调查论文

大型语言模型（LLM）

有监督说话人日志

说话人日志与自动语音识别联合

在线说话人日志

竞赛挑战

视听说话人日志

其他

2021年

2020年

2019年

2018年

2017年

2016年

2015年

2014年

2013年

2011年

2009年

2008年

2006年

软件

框架

评估

聚类

说话人嵌入

说话人变化检测

音频特征提取

音频数据增强

其他软件

数据集

说话人分离数据集

说话人嵌入训练数据集

增强用噪声源

会议

其他学习资料

在线课程

书籍

技术博客

视频教程

产品

星标历史

awesome-diarization 快速上手指南

环境准备

安装步骤

基本使用

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

Deep-Live-Cam

NextChat

ML-For-Beginners