SoniTranslate

1.3k 325 较难 1 次阅读昨天Apache-2.0视频音频语言模型

AI 解读由 AI 自动生成，仅供参考

SoniTranslate 是一款功能强大的开源视频翻译与配音工具，旨在为用户提供同步音频的视频本地化解决方案。它能够有效解决跨语言视频内容创作中的痛点：传统翻译往往导致口型与声音不同步，或需要昂贵的人工配音服务。SoniTranslate 通过自动化流程，将视频中的原始语音提取、翻译并重新合成，生成目标语言的自然配音，同时努力保持声音特质与画面节奏的协调。

这款工具特别适合内容创作者、教育工作者、自媒体运营者以及需要处理多语言视频素材的研究人员使用。即便没有深厚的编程背景，普通用户也能通过其基于 Gradio 构建的友好网页界面轻松上手；开发者则可以利用提供的 Colab 笔记本和代码仓库进行深度定制或集成到自己的工作流中。

SoniTranslate 的技术亮点在于其广泛的语言支持能力，涵盖英语、中文、日语、西班牙语等超过 60 种语言，并能灵活适配多种开源语音识别与合成模型。它不仅支持在线演示体验，还允许用户在本地或云端环境中免费部署，让高质量的视频“同声传译”变得触手可及，极大地降低了全球内容传播的门槛。

使用场景

一家专注于教育科技的初创团队需要将一套高质量的英语编程教程快速本地化，以拓展西班牙语和中文市场。

没有 SoniTranslate 时

流程割裂且耗时：团队需分别使用不同工具进行语音识别、文本翻译和音频合成，最后再手动对齐视频口型，整个流程耗时数天。
音画不同步严重：人工合成的配音往往无法精准匹配原视频说话人的语速和停顿，导致观众观看时产生强烈的违和感。
高昂的外包成本：若追求高质量的多语种配音，必须聘请专业配音演员和后期制作团队，单集视频成本高达数百美元。
技术门槛高：非技术背景的内容运营人员无法独立完成复杂的音频处理脚本，严重依赖开发资源。

使用 SoniTranslate 后

一站式自动化流程：只需上传视频并选择目标语言（如西班牙语或简体中文），SoniTranslate 即可自动完成转录、翻译、配音及唇形同步，数分钟内输出成品。
完美的音画同步体验：利用其核心的同步技术，生成的配音在语速、情感停顿上与原视频高度契合，实现了自然的“视频 dubbing"效果。
极低的边际成本：团队无需额外预算即可无限生成多语言版本，将单集视频的本地化成本降低至接近零。
全员可上手操作：基于 Gradio 构建的友好网页界面，让内容策划人员也能独立操作，无需编写代码或依赖技术人员。

SoniTranslate 通过智能化的音视频同步翻译，将原本繁琐昂贵的视频本地化工程转变为点击即得的即时服务，极大加速了内容的全球化传播。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU，需安装 CUDA 11.8.0 驱动

内存

未说明

依赖

notes1. 官方仅在 Linux 上测试过安装。2. 必须接受 Pyannote 模型的许可证协议（需在 Hugging Face 账户操作）。3. 必须创建 Hugging Face Token 并设置环境变量 YOUR_HF_TOKEN，且需勾选读取受限仓库权限。4. 可选配置 OpenAI API Key 以使用相关功能。5. 建议使用 Conda 管理环境。

python3.10

pytorch==2.5.1

torchvision==0.20.1

torchaudio==2.5.1

pytorch-cuda=11.8

onnxruntime-gpu

ffmpeg

piper-tts==1.2.0 (可选)

TTS==0.21.1 (可选)

快速开始

Recall.ai - 会议转录 API

如果您正在寻找会议转录 API，不妨看看 Recall.ai，这是一款能够录制 Zoom、Google Meet、Microsoft Teams 以及线下会议等多种形式会议的 API。

🎥 SoniTranslate 🈷️

🎬 带同步音频的视频翻译 🌐

SonyTranslate 是一款功能强大且易于使用的 Web 应用程序，可让您轻松地将视频翻译成不同语言。本仓库托管的是 SonyTranslate 的 Web UI 代码，该界面基于 Gradio 库构建，旨在提供流畅且交互式的用户体验。

描述	链接
📙 Colab 笔记本
🎉 仓库
🚀 在线演示

SonyTranslate 的 Web UI，采用 Gradio 库构建的浏览器界面。

项目使用说明：视频指南

为了全面了解该项目，我们强烈建议您观看由 DEV-MalletteS 制作的视频教程。您可以通过点击下方缩略图在 YouTube 上观看：

支持的翻译语言

语言代码	语言
en	英语
fr	法语
de	德语
es	西班牙语
it	意大利语
ja	日语
nl	荷兰语
uk	乌克兰语
pt	葡萄牙语
ar	阿拉伯语
zh	中文（简体）
zh-TW	中文（繁体）
cs	捷克语
da	丹麦语
fi	芬兰语
el	希腊语
he	希伯来语
hu	匈牙利语
ko	韩语
fa	波斯语
pl	波兰语
ru	俄语
tr	土耳其语
ur	乌尔都语
hi	印地语
vi	越南语
id	印度尼西亚语
bn	孟加拉语
te	泰卢固语
mr	马拉地语
ta	泰米尔语
jw (或 jv)	爪哇语
ca	加泰罗尼亚语
ne	尼泊尔语
th	泰语
sv	瑞典语
am	阿姆哈拉语
cy	威尔士语
hr	克罗地亚语
is	冰岛语
ka	格鲁吉亚语
km	高棉语
sk	斯洛伐克语
sq	阿尔巴尼亚语
sr	塞尔维亚语
az	阿塞拜疆语
bg	保加利亚语
gl	加利西亚语
gu	古吉拉特语
kk	哈萨克语
kn	卡纳达语
lt	立陶宛语
lv	拉脱维亚语
ml	马拉雅拉姆语
ro	罗马尼亚语
si	僧伽罗语
su	巽他语
et	爱沙尼亚语
mk	马其顿语
sw	斯瓦希里语
af	非洲语
bs	波斯尼亚语
la	拉丁语
my	缅甸语 Burmese
no	挪威语
as	阿萨姆语
eu	巴斯克语
ha	豪萨语
ht	海地克里奥尔语
hy	亚美尼亚语
lo	老挝语
mg	马达加斯加语
mn	蒙古语
mt	马耳他语
pa	旁遮普语
ps	普什图语
sl	斯洛文尼亚语
sn	绍纳语
so	索马里语
tg	塔吉克语
tk	土库曼语
tt	鞑靼语
uz	乌兹别克语
yo	约鲁巴语

非转录语言

语言代码	语言
ay	阿伊马拉语
bm	巴姆巴拉语
ceb	宿务语
ny	奇切瓦语
dv	迪维希语
doi	多格里语
ee	埃韦语
gn	瓜拉尼语
ilo	伊洛科语
rw	基尼亚尔万达语
kri	克里奥语
ku	库尔德语
ky	吉尔吉斯语
lg	甘达语
mai	迈蒂利语
or	奥里亚语
om	奥罗莫语
qu	克丘亚语
sm	萨摩亚语
ti	提格里尼亚语
ts	松加语
ak	阿坎语
ug	维吾尔语

示例：

原始音频

https://github.com/R3gm/SoniTranslate/assets/114810545/db9e78c0-b228-4e81-9704-e62d5cc407a3

翻译后的音频

https://github.com/R3gm/SoniTranslate/assets/114810545/6a8ddc65-a46f-4653-9726-6df2615f0ef9

Colab 运行环境

要使用 Colab 运行环境运行 SoniTranslate：

本地安装（已在 Linux 系统上测试过）

开始之前

在开始安装和使用 SoniTranslate 之前，您需要完成以下几项准备工作：

安装适用于 CUDA 11.8.0 的 NVIDIA 驱动程序。NVIDIA CUDA 是一个并行计算平台和编程模型，使开发者能够利用 NVIDIA 图形处理单元（GPU）的强大性能来加速计算密集型任务。您可以从这里获取驱动程序，并按照网站上的说明下载和安装。
接受 Pyannote 的使用许可协议。您需要在 Hugging Face 上拥有账户，并“接受使用这些模型的许可”：https://huggingface.co/pyannote/speaker-diarization 和 https://huggingface.co/pyannote/segmentation。
创建一个 Hugging Face 令牌。Hugging Face 是一个自然语言处理平台，提供最先进的模型和工具。为了使用 SoniTranslate 中的一些自动模型下载功能，您需要创建一个令牌。请按照 Hugging Face 官网上的说明创建令牌。在 Hugging Face 中创建新的访问令牌时，请确保勾选“对您可访问的所有公共 gated repo 内容的读取权限”。
安装 Anaconda 或 Miniconda。Anaconda 是一个免费且开源的 Python 和 R 发行版。它包含一个名为 conda 的包管理器，可以轻松安装和管理 Python 环境及软件包。请按照 Anaconda 官网上的说明下载并安装 Anaconda。
为您的系统安装 Git。Git 是一个版本控制系统，可以帮助您跟踪代码变更并与他人协作。您可以通过 Anaconda 在终端中运行 conda install -c anaconda git -y 来安装 Git（请在下文第 1 步之后执行）。如果您通过 Anaconda 安装 Git 时遇到问题，可以使用以下链接：
- Linux 版 Git

完成以上步骤后，您就可以准备安装 SoniTranslate 了。

开始使用

要安装 SoniTranslate，请按照以下步骤操作：

为 SoniTranslate 创建一个合适的 Anaconda 环境并激活它：

conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2 Setuptools==80.6.0
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=11.8 -c pytorch -c nvidia

git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate

安装所需依赖包：

pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu

安装 FFmpeg。FFmpeg 是一个免费的软件项目，提供用于处理多媒体数据的库和程序。您将需要它来处理音频和视频文件。您可以通过 Anaconda 在终端中运行 conda install -y ffmpeg 来安装 FFmpeg（推荐）。如果通过 Anaconda 安装 FFmpeg 有困难，可以使用以下链接：[https://ffmpeg.org/ffmpeg.html]。安装完成后，请确保它已添加到您的 PATH 中，方法是在终端中运行 ffmpeg -h。如果没有出现错误信息，则表示安装成功。
可选安装：

在安装 FFmpeg 后，您可以安装以下可选包。

Piper TTS 是一种快速、本地化的神经网络文本转语音系统，音质出色，并针对 Raspberry Pi 4 进行了优化。Piper 被广泛应用于各种项目中。其语音模型基于 VITS 训练，并导出为 ONNX 格式。

pip install -q piper-tts==1.2.0

Coqui XTTS 是一种文本转语音（TTS）模型，可以让您生成多种语言的逼真语音。只需一段简短的音频片段，即可克隆声音，甚至用不同语言进行朗读！它就像为您需要朗读的任何文本配备了一个私人语音模仿者。

pip install -q -r requirements_xtts.txt
pip install -q TTS==0.21.1 --no-deps

运行 SoniTranslate

要在本地运行 SoniTranslate，请确保 sonitr Conda 环境已激活：

conda activate sonitr

在 Linux 系统中，将您的 Hugging Face 令牌设置为环境变量：

export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"

然后进入 SoniTranslate 文件夹，运行 app_rvc.py：

python app_rvc.py

当终端显示本地 URL http://127.0.0.1:7860 时，只需在浏览器中打开该网址即可访问 SoniTranslate 界面。

停止并关闭 SoniTranslate

在大多数环境中，您可以通过在运行 app_rvc.py 脚本的终端中按下 Ctrl+C 来停止程序。这将中断程序并关闭 Gradio 应用程序。

要退出 Conda 环境，可以使用以下命令：

conda deactivate

这将停用当前活动的 Conda 环境 sonitr，您将返回到基础环境或全局 Python 环境。

重新开始

如果您需要从头开始，可以删除 SoniTranslate 文件夹，并使用以下命令移除 sonitr Conda 环境：

conda deactivate
conda env remove -n sonitr

移除 sonitr 环境后，您可以重新开始全新的安装过程。

备注

您也可以将 Hugging Face 令牌设置为永久环境变量，方法如下：

conda activate sonitr
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN_HERE"
conda deactivate

若要使用 OpenAI 的 GPT API 进行翻译、TTS 或转录，请将您的 OpenAI API 密钥以引号形式设置为环境变量：

conda activate sonitr
conda env config vars set OPENAI_API_KEY="your-api-key-here"
conda deactivate

命令行参数

app_rvc.py 脚本支持命令行参数来自定义其行为。以下是使用这些参数的简要指南：

参数命令	默认值	类型	描述
--theme	Taithrah/Minimal	字符串	设置界面的主题。主题可在 Theme Gallery 中找到。
--language	english	字符串	选择界面语言。可用选项：南非语、阿拉伯语、阿塞拜疆语、中文（简体）、英语、法语、德语、印地语、印尼语、意大利语、日语、韩语、马拉地语、波斯语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、土耳其语、乌克兰语、越南语。
--verbosity_level	info	字符串	设置日志记录器的详细程度：debug、info、warning、error 或 critical。
--public_url		布尔值	启用公开链接。
--cpu_mode		布尔值	启用 CPU 模式，以不使用 GPU 加速运行程序。
--logs_in_gui		布尔值	在日志中显示执行的操作（已弃用）。

示例用法：

python app_rvc.py --theme aliabid94/new-theme --language french

此命令将主题设置为自定义主题，并选择法语作为界面语言。请根据您的偏好和需求自定义这些参数。

📖 新闻

🔥 2024年5月18日：新更新详情

添加了重叠减少选项
集成 OpenAI API 密钥用于转录、翻译和 TTS
更多输出类型：按说话人划分的字幕、单独的音频音轨，以及仅含字幕的视频
可在 Hugging Face Whisper 页面上访问性能更优的 Whisper 版本进行语音转录。复制仓库 ID 并将其粘贴到“高级设置”中的“Whisper ASR 模型”部分；例如，kotoba-tech/kotoba-whisper-v1.1 用于日语转录可在此处获取
支持 ASS 字幕和带字幕的批量处理
转录前的人声增强
添加了 CPU 模式，可通过 app_rvc.py --cpu_mode 启用
TTS 现在最多支持 12 位说话人
集成 OpenVoiceV2 进行语音模仿
PDF 转视频书（显示 PDF 中的图片）
GUI 语言翻译新增波斯语和南非语
新增语言支持：
- 完全支持：爱沙尼亚语、马其顿语、马来语、斯瓦希里语、南非语、波斯尼亚语、拉丁语、缅甸语、挪威语、繁体中文、阿萨姆语、巴斯克语、豪萨语、海地克里奥尔语、亚美尼亚语、老挝语、马达加斯加语、蒙古语、马耳他语、旁遮普语、普什图语、斯洛文尼亚语、绍纳语、索马里语、塔吉克语、土库曼语、鞑靼语、乌兹别克语和约鲁巴语
- 非转录类：艾马拉语、班巴拉语、宿务语、奇切瓦语、迪维希语、多格里语、埃韦语、瓜拉尼语、伊洛卡诺语、基尼亚卢旺达语、克里奥尔语、库尔德语、吉尔吉斯语、干达语、迈蒂利语、奥里亚语、奥罗莫语、克丘亚语、萨摩亚语、提格雷语、松加语、阿坎语和维吾尔语

🔥 2024年3月2日：保留输出文件名。现在可以通过逗号分隔的路径、目录或 URL 同时提交多个压缩包。支持处理完整的 YouTube 播放列表。关于支持的网站 URL，请注意并非所有网站都能最佳运行。新增了禁用说话人分离的选项。实现了软字幕功能。支持多种输出格式（MP3、MP4、MKV、WAV 和 OGG），并解决了文件读取和说话人分离相关的问题。

🔥 2024年2月22日：新增 freevc 用于语音模仿，修复了无声轨道问题，并可分割片段。新增语言支持（瑞典语、阿姆哈拉语、威尔士语、克罗地亚语、冰岛语、格鲁吉亚语、高棉语、斯洛伐克语、阿尔巴尼亚语、塞尔维亚语、阿塞拜疆语、保加利亚语、加利西亚语、古吉拉特语、哈萨克语、坎纳达语、立陶宛语、拉脱维亚语、马拉雅拉姆语、罗马尼亚语、僧伽罗语和巽他语）。GUI 新增翻译版本（西班牙语、法语、德语、意大利语、日语、简体中文、乌克兰语、阿拉伯语、俄语、土耳其语、印尼语、葡萄牙语、印地语、越南语、波兰语、瑞典语、韩语、马拉地语和阿塞拜疆语）。使用字幕文件时无需对齐，且处理 SRT 文件也不需要媒体文件。可将字幕刻录到视频中。队列可同时接受多项任务。提供声音警报通知。可从上次检查点继续处理。支持加速速率调节。

🔥 2024年1月16日：扩展语言支持（泰语、尼泊尔语、加泰罗尼亚语、爪哇语、泰米尔语、马拉地语、泰卢固语、孟加拉语和印尼语），引入 whisper large v3，可配置的 GUI 选项，集成 BARK、Facebook-mms、Coqui XTTS 和 Piper-TTS。新增音频分离工具、XTTS WAV 创建功能，允许以 SRT 文件为基础进行翻译，支持文档翻译、手动编辑说话人信息，以及灵活的输出选项（视频、音频、字幕）。

🔥 2023年10月29日：可编辑翻译后的字幕，下载字幕，并调整音量和速度选项。

🔥 2023年8月3日：更改了默认选项，并增加了下载目录视图。

🔥 2023年8月2日：新增对阿拉伯语、捷克语、丹麦语、芬兰语、希腊语、希伯来语、匈牙利语、韩语、波斯语、波兰语、俄语、土耳其语、乌尔都语、印地语和越南语的支持。🌐

🔥 2023年8月1日：新增使用 RVC 模型的选项。

🔥 2023年7月27日：修复了视频和音频处理中的一些 bug。

🔥 2023年7月26日：全新 UI 并增加混合选项。

贡献

欢迎社区贡献！如果您有任何想法、错误报告或功能请求，请提交问题或拉取请求。更多信息请参阅贡献指南。

致谢

本项目利用了多个开源项目。我们谨向以下仓库的贡献者表示感谢：

许可证

尽管代码采用 Apache 2 许可证，但模型或权重可能存在商业限制，例如 pyannote 的说话人分离功能。

SoniTranslate 快速上手指南

SoniTranslate 是一个强大的视频翻译工具，支持将视频中的语音翻译成多种语言，并生成同步的口型与音频。本指南帮助中国开发者快速在本地部署并使用该工具。

环境准备

系统要求

操作系统：推荐 Linux（安装已在 Linux 上测试通过）
GPU：NVIDIA 显卡，需支持 CUDA 11.8.0
Python 版本：3.10

前置依赖

安装 NVIDIA 驱动与 CUDA 11.8 访问 NVIDIA CUDA Toolkit Archive 下载并安装对应驱动。
获取 Hugging Face Token
- 注册/登录 Hugging Face
- 接受以下模型的许可协议：
  - https://huggingface.co/pyannote/speaker-diarization
  - https://huggingface.co/pyannote/segmentation
- 创建 Access Token，勾选 "Read access to contents of all public gated repos you can access"。
安装 Conda 与 Git 推荐安装 Miniconda 或 Anaconda。 Git 可通过 Conda 安装：
```
conda install -c anaconda git -y
```
安装 FFmpeg 推荐使用 Conda 安装：
```
conda install -y ffmpeg
```
验证安装：ffmpeg -h（无报错即成功）。

安装步骤

1. 创建并激活 Conda 环境

conda create -n sonitr python=3.10 -y
conda activate sonitr
python -m pip install pip==23.1.2 Setuptools==80.6.0
conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=11.8 -c pytorch -c nvidia

国内加速建议：若下载 PyTorch 缓慢，可尝试使用清华镜像源：

conda install pytorch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 pytorch-cuda=11.8 -c pytorch -c nvidia --override-channels -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/

2. 克隆项目代码

git clone https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate

国内加速建议：若 GitHub 克隆失败，可使用镜像：
git clone https://ghp.ci/https://github.com/r3gm/SoniTranslate.git
cd SoniTranslate

3. 安装依赖包

pip install -r requirements_base.txt -v
pip install -r requirements_extra.txt -v
pip install onnxruntime-gpu

国内加速建议：使用清华或阿里镜像加速 pip 安装：

pip install -r requirements_base.txt -v -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -r requirements_extra.txt -v -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install onnxruntime-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple

4. （可选）安装增强语音模型

如需使用更高质量的语音合成（如声音克隆），可安装以下组件：

Piper TTS（轻量快速）：

pip install -q piper-tts==1.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple

Coqui XTTS（支持多语言声音克隆）：

pip install -q -r requirements_xtts.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install -q TTS==0.21.1 --no-deps -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

1. 配置环境变量

设置你的 Hugging Face Token（替换 YOUR_HUGGING_FACE_TOKEN）：

export YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"

若需永久配置，可执行：
conda env config vars set YOUR_HF_TOKEN="YOUR_HUGGING_FACE_TOKEN"

如需使用 OpenAI 接口（翻译/转录），同样配置 API Key：

conda env config vars set OPENAI_API_KEY="your-api-key-here"

2. 启动应用

确保在 sonitr 环境中，进入项目目录并运行：

conda activate sonitr
cd SoniTranslate
python app_rvc.py

3. 访问界面

终端显示 local URL http://127.0.0.1:7860 后，在浏览器打开该地址即可使用图形界面上传视频、选择目标语言并进行翻译。

4. 停止服务

终止运行：在终端按 Ctrl+C
退出环境：
```
conda deactivate
```

✅ 现在你已成功部署 SoniTranslate，可开始体验视频自动翻译与配音功能！

版本历史

0.5.02024/05/18

0.4.02024/05/18

常见问题

在 Windows 上上传本地文件时出现"[WinError 2] 系统找不到指定的文件”错误怎么办？

遇到 Pydantic Schema Generation Error (Unable to generate pydantic-core schema for starlette.requests.Request) 如何解决？

运行时出现 AttributeError: 'list' object has no attribute 'endswith' 或 FileNotFoundError 错误怎么办？

在 Google Colab 上安装或运行时遇到依赖问题或 P0 错误如何处理？

如何在 Windows 本地启用 NVIDIA GPU 加速而不是默认使用 CPU？

SoniTranslate 支持哪些语言？是否包含他加禄语（Tagalog）或世界语（Esperanto）？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 149.5k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|4天前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|4天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|5天前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|今天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|2天前

语言模型数据工具其他