seamless_communication

11.8k 1.2k 中等 1 次阅读今天NOASSERTION语言模型音频其他

AI 解读由 AI 自动生成，仅供参考

seamless_communication 是 Meta 推出的一套先进 AI 模型家族，旨在打破语言壁垒，实现更自然、真实的跨语言沟通。其核心基础模型 SeamlessM4T 支持近 100 种语言的语音与文本互译，涵盖语音转语音、语音转文本、文本转语音及自动语音识别等多种任务。在此基础上衍生的 SeamlessExpressive 能保留说话人的语调风格与情感色彩，让翻译听起来更像真人；而 SeamlessStreaming 则专注于低延迟的实时流式翻译，适用于同声传译场景。

这套工具主要解决了传统机器翻译中语气生硬、缺乏情感以及实时性不足的问题，让跨语言交流不再丢失“人情味”。它非常适合开发者构建多语言应用、研究人员探索前沿语音技术，以及需要高质量实时翻译服务的企业用户。普通用户也可通过在线演示直接体验其强大的翻译能力。

技术亮点方面，最新发布的 SeamlessM4T v2 采用了创新的 UnitY2 架构，在提升翻译质量的同时显著降低了语音生成的延迟。此外，该系列模型已集成至 Hugging Face Transformers 库，并提供了详尽的教程笔记，方便各类用户快速上手并进行二次开发。

使用场景

一家跨国医疗援助组织正在搭建实时多语言急救指挥系统，需要让讲不同语言的医生和现场救援人员通过语音直接沟通。

没有 seamless_communication 时

沟通延迟严重：传统方案需先将语音转文字、翻译文本、再合成语音，多重串联导致对话停顿长达数秒，延误急救指令下达。
情感信息丢失：现有工具输出的语音机械平淡，无法传递说话人焦急或镇定的语气，导致接收方难以判断事态紧急程度。
小语种支持匮乏：对于非通用语言（如斯瓦希里语或特定方言），系统往往直接失效或错误率极高，迫使团队依赖稀缺的人工翻译。
部署维护复杂：需要分别集成 ASR、机器翻译和 TTS 三个独立模型，接口适配困难且服务器资源消耗巨大。

使用 seamless_communication 后

实现流式同传：利用 SeamlessStreaming 模型支持的同时翻译能力，语音输入后几乎实时输出目标语言，对话流畅自然无感知延迟。
保留语音神韵：SeamlessExpressive 功能完整保留了原说话人的语调、节奏和情感色彩，让救援指令听起来真实且具有感染力。
百种语言全覆盖：基于 SeamlessM4T v2 的庞大语料库，系统能高质量处理近 100 种语言的互译，包括许多此前无法覆盖的稀有语种。
一体化高效部署：单个统一模型即可搞定语音到语音、文本到文本等全链路任务，大幅降低了推理延迟和运维复杂度。

seamless_communication 通过单一模型实现了高保真、低延迟的百语种实时互译，彻底打破了紧急救援场景下的语言壁垒。

运行环境要求

操作系统

Linux x86-64
macOS (Apple Silicon)

GPU

未说明（依赖 fairseq2 和 PyTorch，通常建议 NVIDIA GPU 以加速推理，但 README 未明确具体型号或显存要求）

内存

未说明

依赖

notes核心依赖 fairseq2 仅预构建了 Linux x86-64 和 Apple Silicon Mac 的包，不支持 Windows 或其他架构。系统必须安装 libsndfile 库和 ffmpeg 命令行工具。SeamlessExpressive 模型需要单独申请下载权限。部分评估功能会自动安装 Whisper，其依赖 ffmpeg。

python未说明

fairseq2

libsndfile

ffmpeg

whisper

gradio

快速开始

Seamless 简介

Seamless 是一系列 AI 模型，旨在实现跨语言之间更加自然和真实的沟通。SeamlessM4T 是一个庞大的多语言多模态机器翻译模型，支持约 100 种语言。SeamlessM4T 是 SeamlessExpressive 和 SeamlessStreaming 的基础：SeamlessExpressive 能够在不同语言之间保留韵律和语音风格等元素，而 SeamlessStreaming 则支持近 100 种语言的同声传译和流式自动语音识别（ASR）。SeamlessExpressive 和 SeamlessStreaming 被整合为 Seamless，这是一款兼具多语言性、实时性和表现力的统一模型。

链接

演示

	SeamlessM4T v2	SeamlessExpressive	SeamlessStreaming
演示	SeamlessM4T v2 演示	SeamlessExpressive 演示
HuggingFace Space 演示	🤗 SeamlessM4T v2 Space	🤗 SeamlessExpressive Space	🤗 SeamlessStreaming Space

论文

Seamless

EMMA

SONAR

博客

Meta AI 博客

教程

一份详尽的教程，在 NeurIPS 2023 - Seamless EXPO 上提供，是学习如何使用 Seamless 全套模型的一站式指南。欢迎随意尝试该笔记本。

SeamlessM4T

SeamlessM4T 是我们的基础型一体化 Massively Multilingual and Multimodal Machine Translation 模型，能够为近 100 种语言中的语音和文本提供高质量的翻译。

SeamlessM4T 模型支持以下任务：

语音到语音翻译（S2ST）
语音到文本翻译（S2TT）
文本到语音翻译（T2ST）
文本到文本翻译（T2TT）
自动语音识别（ASR）

:star2: 我们发布了 SeamlessM4T v2，这是采用全新 UnitY2 架构的更新版本。与 SeamlessM4T v1 相比，新模型在语音生成任务的质量和推理延迟方面均有提升。

如需了解更多关于 SeamlessM4T 系列模型的信息，包括每种模型所采用的方法、语言覆盖范围及其性能，请访问 SeamlessM4T README 或 🤗 Model Card。

[!NOTE] Seamless M4T 也可在 🤗 Transformers 库中使用。请参阅此部分获取更多详情。

SeamlessExpressive

SeamlessExpressive 是一款语音到语音翻译模型，能够在保持高内容翻译质量的同时，捕捉语速和停顿等尚未充分探索的韵律特征，并保留说话者的个人风格。

如需了解更多关于 SeamlessExpressive 模型的信息，请访问 SeamlessExpressive README 或 🤗 Model Card。

SeamlessStreaming

SeamlessStreaming 是一款流式翻译模型。该模型以语音作为输入模态，输出模态则为语音或文本。

SeamlessStreaming 模型支持以下任务：

语音到语音翻译（S2ST）
语音到文本翻译（S2TT）
自动语音识别（ASR）

如需了解更多关于 SeamlessStreaming 模型的信息，请访问 SeamlessStreaming README 或 🤗 Model Card。

Seamless

Seamless 模型是一款用于表达性流式语音到语音翻译的统一模型。

快速入门

安装

[!NOTE] 先决条件之一是 fairseq2，其预编译包仅适用于 Linux x86-64 和 Apple Silicon Mac 电脑。此外，它还依赖于 libsndfile，而您的系统可能尚未安装该库。如果您在安装过程中遇到任何问题，请参考其 README 以获取进一步的说明。

pip install .

[!NOTE] 在计算指标时，对推理音频进行转录需要用到 Whisper，该工具会自动安装。Whisper 又需要您系统上已安装命令行工具 ffmpeg，大多数软件包管理器均可提供该工具。

运行推理

SeamlessM4T 推理

以下是从根目录使用命令行界面运行推理的示例。

S2ST 任务：

m4t_predict <path_to_input_audio> --task s2st --tgt_lang <tgt_lang> --output_path <path_to_save_audio>

T2TT 任务：

m4t_predict <input_text> --task t2tt --tgt_lang <tgt_lang> --src_lang <src_lang>

有关如何运行推理以及语音和文本模态下源语言和目标语言的支持列表，请参阅推理 README。

如需使用 GGML 原生运行 S2TT/ASR（无需 Python），请参阅 unity.cpp 部分。

无缝表达推理

[!NOTE] 请查看章节，了解如何下载模型。

以下是从根目录使用 CLI 运行推理的示例。

expressivity_predict <输入音频路径> --tgt_lang <目标语言> --model_name seamless_expressivity --vocoder_name vocoder_pretssel --output_path <保存音频路径>

无缝流式传输与无缝推理

流式评估 README 提供了运行 SeamlessStreaming 和 Seamless 模型评估的详细说明。CLI 具有一个 --no-scoring 选项，可用于跳过评分部分，仅执行推理。

请查看推理 README，以获取更多详细信息。

运行 SeamlessStreaming 演示

您可以复制 SeamlessStreaming HF 空间，以运行流式演示。

您也可以通过从这里克隆该空间，在本地运行演示。有关安装的更多详细信息，请参阅 SeamlessStreaming HF 仓库的README。

在本地运行 SeamlessM4T 和 SeamlessExpressive Gradio 演示

要在本地启动我们在 Hugging Face 上托管的相同演示 Space：

cd demo
pip install -r requirements.txt
python app.py

资源与使用

模型

SeamlessM4T 模型

模型名称	参数量	检查点	指标
SeamlessM4T-Large v2	2.3B	🤗 模型卡片 - 检查点	指标
SeamlessM4T-Large (v1)	2.3B	🤗 模型卡片 - 检查点	指标
SeamlessM4T-Medium (v1)	1.2B	🤗 模型卡片 - 检查点	指标

SeamlessExpressive 模型

🤗 模型卡片

要访问并下载 SeamlessExpressive，请通过此请求表单申请模型文件。获批后，您将收到一封包含各模型文件下载链接的电子邮件。

请注意，SeamlessExpressive 是根据其自身的许可证和可接受使用政策提供的。

SeamlessStreaming 模型

模型名称	参数量	检查点	指标
SeamlessStreaming	2.5B	🤗 模型卡片 - 单调解码器检查点 - 流式 UnitY2 检查点	指标

Seamless 模型

Seamless 模型实际上是 SeamlessStreaming 模型，只是将非表达性的 vocoder_v2 替换为表达性的 vocoder_pretssel。请查看上述章节，了解如何获取 vocoder_pretssel 检查点。

W2v-BERT 2.0 语音编码器

模型名称	参数量	检查点
W2v-BERT 2.0	600M	🤗 模型卡片 - 检查点

以下是通过语音编码器进行前向传播的方法：

import torch

from fairseq2.data.audio import AudioDecoder, WaveformToFbankConverter
from fairseq2.memory import MemoryBlock
from fairseq2.nn.padding import get_seqs_and_padding_mask
from fairseq2.data import Collater
from pathlib import Path
from seamless_communication.models.conformer_shaw import load_conformer_shaw_model


audio_wav_path, device, dtype = ...
audio_decoder = AudioDecoder(dtype=torch.float32, device=device)
fbank_converter = WaveformToFbankConverter(
    num_mel_bins=80,
    waveform_scale=2**15,
    channel_last=True,
    standardize=True,
    device=device,
    dtype=dtype,
)
collater = Collater(pad_value=1)

model = load_conformer_shaw_model("conformer_shaw", device=device, dtype=dtype)
model.eval()

with Path(audio_wav_path).open("rb") as fb:
    block = MemoryBlock(fb.read())

decoded_audio = audio_decoder(block)
src = collater(fbank_converter(decoded_audio))["fbank"]
seqs, padding_mask = get_seqs_and_padding_mask(src)

with torch.inference_mode():
  seqs, padding_mask = model.encoder_frontend(seqs, padding_mask)
  seqs, padding_mask = model.encoder(seqs, padding_mask)

评估

SeamlessM4T 评估

如需复现我们的结果，或使用相同指标在您自己的测试集上进行评估，请参阅此处的 README。

SeamlessExpressive 评估

以下是高效批处理评估的脚本。

export MODEL_DIR="/path/to/SeamlessExpressive/model"
export TEST_SET_TSV="input.tsv" # 您的数据集为 TSV 文件，包含“id”和“audio”两列
export TGT_LANG="spa" # 目标语言，可选“fra”、“deu”、“eng”（“cmn”和“ita”为实验性选项）
export OUTPUT_DIR="tmp/" # 生成文本/单元/波形的输出目录
export TGT_TEXT_COL="tgt_text" # 您 ${TEST_SET_TSV} 中用于计算 BLEU 分数的参考目标文本列。您可以跳过此参数。
export DFACTOR="1.0" # 持续时间因子，用于调整模型推理中预测的持续时间（preddur=DFACTOR*preddur），每个位置都会影响输出语速。数值越大，语速越慢（默认为 1.0）。有关我们使用的持续时间因子的详细信息，请参阅 expressive 评估的 README。
expressivity_evaluate ${TEST_SET_TSV} \
  --gated-model-dir ${MODEL_DIR} --task s2st --tgt_lang ${TGT_LANG} \
  --audio_root_dir "" --output_path ${OUTPUT_DIR} --ref_field ${TGT_TEXT_COL} \
  --model_name seamless_expressivity --vocoder_name vocoder_pretssel \
  --text_unk_blocking True --duration_factor ${DFACTOR}

请参阅此README 部分。

SeamlessStreaming 和 Seamless 评估

Streaming Evaluation README 提供了关于如何对 SeamlessStreaming 和 Seamless 模型进行评估的详细说明。

Unity.cpp

为了实现无缝通信无处不在，我们实现了 unity.cpp，使用户能够在 GGML 上运行 SeamlessM4T 模型——这是一种 C 张量库，可在资源受限的平台上更轻松地集成。

要转录/翻译给定的音频，

./ggml/bin/unity --model seamlessM4T_medium.ggml input.wav

有关构建及更多用法的详细信息，请参阅 unity.cpp。

Expressive 数据集

我们创建了两个富有表现力的语音到语音翻译数据集，mExpresso 和 mDRAL，涵盖英语与其他五种语言之间的互译——法语、德语、意大利语、普通话和西班牙语。目前我们已开源 mExpresso 的英语以外方向的语音转文本数据，并将很快开源剩余部分。有关详情，请参阅README。

SeamlessAlignExpressive

我们推出了首个富有表现力的语音对齐流程。该流程从原始数据出发，自动发现不仅语义相同，而且整体表现力也一致的音频片段对。为展示这一流程，我们正在公开元数据，以创建一个名为 SeamlessAlignExpressive 的基准数据集，可用于验证我们对齐方法的质量。SeamlessAlignExpressive 是首个大规模（超过 11,000 小时）的多语言富有表现力语音对齐集合。更多详情请参阅SeamlessAlignExpressive 的 README。

将原始音频转换为单元

请参阅此处的 README。请注意，SeamlessM4T v1 模型使用的是缩减版单元，而其他模型则使用非缩减版单元。

库

Seamless Communication 依赖于 Meta 开发的 4 个库。

fairseq2

fairseq2 是我们新一代的序列建模组件开源库，为研究人员和开发者提供机器翻译、语言建模及其他序列生成任务所需的构建模块。本仓库中的所有 SeamlessM4T 模型均由 fairseq2 提供支持。

SONAR 和 BLASER 2.0

SONAR，即句子级多模态与语言无关表示，是一个全新的多语言、多模态句子嵌入空间，在 xsim 和 xsim++ 多语言相似度搜索任务上，其性能超越了现有的 LASER3 和 LabSE 等句子嵌入模型。SONAR 为多种语言提供了文本和语音编码器。SeamlessAlign 就是基于 SONAR 嵌入挖掘得到的。

BLASER 2.0 是我们最新的基于模型的多模态翻译评估指标。它是 BLASER 的扩展版本，同时支持语音和文本。它直接作用于源端信号，因此无需像 ASR-BLEU 那样依赖中间的自动语音识别系统。与第一版相同，BLASER 2.0 利用输入和输出句子嵌入之间的相似性。SONAR 是 BLASER 2.0 的底层嵌入空间。使用 BLASER 2.0 进行评估的脚本可以在 SONAR 仓库中找到。

stopes

作为无缝通信项目的一部分，我们扩展了 stopes 库。1.0 版本提供了一个文本到文本的挖掘工具，用于构建翻译模型的训练数据集。2.0 版本则借助 SONAR 得到了进一步扩展，以支持大规模语音翻译模型的训练相关任务。具体来说，我们提供了读取和写入 fairseq audiozip 数据集的工具，以及一个新的挖掘流水线，能够进行语音到语音、文本到语音、语音到文本和文本到文本的挖掘工作，所有这些都基于全新的 SONAR 嵌入空间。

SimulEval

SimulEval 是一个用于评估同声传译模型的库。SimulEval 还提供了一个基于部分/增量输入、具有灵活可扩展状态的后端，用于实现流式推理。用户可以定义实现 SimulEval 接口的代理，并将它们串联成一个流水线。针对 SeamlessStreaming 实现的代理可以在这里找到：[src/seamless_communication/streaming/agents]。

[旧版] SeamlessM4T v1 使用说明

微调 SeamlessM4T v1 模型

请查看此处的 README。

设备端模型

除了 Seamless-M4T 大型（23亿参数）和中型（12亿参数）模型外，我们还发布了一个小型模型（2.81亿参数），专门用于设备端推理。如需了解更多关于使用方法和模型细节，请参阅此处的 README。

SeamlessAlign 挖掘数据集

我们开源了 SeamlessAlign 的元数据，这是目前最大的多模态翻译开源数据集，总计超过 27 万小时的对齐语音和文本数据。社区可以根据 SeamlessAlign 的 README 重新构建该数据集。

引用

如果您在工作中使用了 Seamless 或其中发布的任何模型、数据集或成果，请引用以下内容：

@inproceedings{seamless2023,
   title="Seamless: Multilingual Expressive and Streaming Speech Translation",
   author="{Seamless Communication}, Lo{\"i}c Barrault, Yu-An Chung, Mariano Coria Meglioli, David Dale, Ning Dong, Mark Duppenthaler, Paul-Ambroise Duquenne, Brian Ellis, Hady Elsahar, Justin Haaheim, John Hoffman, Min-Jae Hwang, Hirofumi Inaguma, Christopher Klaiber, Ilia Kulikov, Pengwei Li, Daniel Licht, Jean Maillard, Ruslan Mavlyutov, Alice Rakotoarison, Kaushik Ram Sadagopan, Abinesh Ramakrishnan, Tuan Tran, Guillaume Wenzek, Yilin Yang, Ethan Ye, Ivan Evtimov, Pierre Fernandez, Cynthia Gao, Prangthip Hansanti, Elahe Kalbassi, Amanda Kallet, Artyom Kozhevnikov, Gabriel Mejia, Robin San Roman, Christophe Touret, Corinne Wong, Carleigh Wood, Bokai Yu, Pierre Andrews, Can Balioglu, Peng-Jen Chen, Marta R. Costa-juss{\`a}, Maha Elbayad, Hongyu Gong, Francisco Guzm{\'a}n, Kevin Heffernan, Somya Jain, Justine Kao, Ann Lee, Xutai Ma, Alex Mourachko, Benjamin Peloquin, Juan Pino, Sravya Popuri, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Anna Sun, Paden Tomasello, Changhan Wang, Jeff Wang, Skyler Wang, Mary Williamson",
  journal={ArXiv},
  year={2023}
}

许可协议

我们共有三类许可协议。

以下非生成性组件采用 MIT 许可，详见 MIT_LICENSE：

W2v-BERT 2.0 语音编码器
代码
mExpresso 数据集中仅包含文本的部分，详见 SeamlessExpressive 的 README。
UnitY2 强制对齐提取器，详见 UnitY2 Aligner 的 README。
带有 etox 数据集的语音毒性检测工具，详见 ETOX 的 README。
MuTox：通用多语言音频毒性数据集及零样本检测器，详见 Mutox 的 README。

以下模型采用 CC-BY-NC 4.0 许可，详见 LICENSE：

SeamlessM4T 模型（v1 和 v2）。
SeamlessStreaming 模型。

以下模型采用 Seamless 许可，详见 SEAMLESS_LICENSE：

Seamless 模型。
SeamlessExpressive 模型。

Seamless Communication 快速上手指南

Seamless 是 Meta 推出的一系列 AI 模型，旨在实现跨语言的自然、真实沟通。核心功能包括语音到语音翻译（S2ST）、语音到文本翻译（S2TT）、文本到语音翻译（T2ST）及自动语音识别（ASR），支持约 100 种语言。

环境准备

系统要求

操作系统：Linux x86-64 或 Apple Silicon (M1/M2/M3) Mac。

注意：核心依赖 fairseq2 目前仅提供上述平台的预编译包，Windows 用户可能需要通过 WSL2 运行。
命令行工具：需安装 ffmpeg（用于音频处理）。
- Ubuntu/Debian: sudo apt-get install ffmpeg
- macOS (Homebrew): brew install ffmpeg
- CentOS/RHEL: sudo yum install ffmpeg

前置依赖

Python 3.9+
PyTorch (安装过程中会自动处理)
libsndfile 库（通常在安装 fairseq2 时检查，若缺失请参照系统包管理器安装）

安装步骤

推荐使用 pip 直接安装。由于主要依赖托管在 PyPI，国内用户若遇到下载缓慢，可临时切换至清华或阿里镜像源。

# 使用默认源安装
pip install .

# 若网络受限，推荐使用国内镜像加速安装
pip install . -i https://pypi.tuna.tsinghua.edu.cn/simple

提示：安装过程中会自动拉取 Whisper 用于评估指标计算，无需手动额外安装。

基本使用

安装完成后，可在项目根目录使用命令行工具进行推理。以下是针对核心模型 SeamlessM4T v2 的最简使用示例。

1. 语音到语音翻译 (S2ST)

将输入音频翻译成目标语言的音频。

m4t_predict <path_to_input_audio> --task s2st --tgt_lang <tgt_lang> --output_path <path_to_save_audio>

示例：将 input.wav 翻译为法语并保存：

m4t_predict input.wav --task s2st --tgt_lang fra --output_path output_fra.wav

2. 文本到文本翻译 (T2TT)

将输入文本从源语言翻译为目标语言文本。

m4t_predict "<input_text>" --task t2tt --tgt_lang <tgt_lang> --src_lang <src_lang>

示例：将英文 "Hello world" 翻译为中文：

m4t_predict "Hello world" --task t2tt --tgt_lang cmn --src_lang eng

3. expressive 语音翻译 (SeamlessExpressive)

保留说话人音色和韵律的语音翻译（需先按文档申请并下载模型权重）。

expressivity_predict <path_to_input_audio> --tgt_lang <tgt_lang> --model_name seamless_expressivity --vocoder_name vocoder_pretssel --output_path <path_to_save_audio>

说明：

<tgt_lang>：目标语言代码（如 cmn 代表中文，fra 代表法语，spa 代表西班牙语）。

完整支持的语言列表及更多高级用法（如流式翻译），请参阅源码目录下的 src/seamless_communication/cli 相关 README 文件。

常见问题

在微调（finetune）过程中遇到 'RuntimeError: expected scalar type Half but found Float' 错误怎么办？

微调 SeamlessM4T 模型需要多少 GPU 显存？40GB 显存为何还会报错？

安装后运行代码提示 'OSError: libsndfile is not found' 错误如何解决？

SeamlessM4T Large 模型在翻译粤语（yue）时输出的是简体中文普通话而不是繁体中文粤语，这是 Bug 吗？

在 Google Colab 上运行 SeamlessM4T 推荐使用什么类型的 GPU？

如何在显存较小的机器（如 4GB 或 12GB VRAM）上部署 SeamlessM4T 模型？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|4天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|5天前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|5天前

其他图像数据工具

使用场景

没有 seamless_communication 时

使用 seamless_communication 后

运行环境要求

快速开始

Seamless 简介

链接

演示

论文

博客

教程

SeamlessM4T

SeamlessExpressive

SeamlessStreaming

Seamless

最新动态

快速入门

安装

运行推理

SeamlessM4T 推理

无缝表达推理

无缝流式传输与无缝推理

运行 SeamlessStreaming 演示

在本地运行 SeamlessM4T 和 SeamlessExpressive Gradio 演示

资源与使用

模型

SeamlessM4T 模型

SeamlessExpressive 模型

SeamlessStreaming 模型

Seamless 模型

W2v-BERT 2.0 语音编码器

评估

SeamlessM4T 评估

SeamlessExpressive 评估

SeamlessStreaming 和 Seamless 评估

Unity.cpp

Expressive 数据集

SeamlessAlignExpressive

将原始音频转换为单元

库

fairseq2

SONAR 和 BLASER 2.0

stopes

SimulEval

[旧版] SeamlessM4T v1 使用说明

微调 SeamlessM4T v1 模型

设备端模型

SeamlessAlign 挖掘数据集

引用

许可协议

Seamless Communication 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

基本使用

1. 语音到语音翻译 (S2ST)

2. 文本到文本翻译 (T2TT)

3. expressive 语音翻译 (SeamlessExpressive)

常见问题

相似工具推荐

everything-claude-code

LLMs-from-scratch

NextChat

ML-For-Beginners

funNLP

cs-video-courses