yt-whisper

1.4k 145 简单 1 次阅读 2天前MIT音频

AI 解读由 AI 自动生成，仅供参考

yt-whisper 是一款专为 YouTube 视频打造的自动字幕生成工具。它巧妙结合了视频下载利器 yt-dlp 与 OpenAI 强大的 Whisper 语音识别模型，能够一键将任意 YouTube 视频的音频内容转化为精准的字幕文件（如 VTT 格式）。

长期以来，为外语视频或缺乏字幕的资源手动添加字幕是一项耗时费力的工作，yt-whisper 有效解决了这一痛点，让视频内容的获取与理解变得前所未有的便捷。它不仅支持直接转录，还具备独特的翻译功能，可将非英语视频的字幕自动翻译成英文，极大地降低了语言门槛。用户还可以根据需求灵活选择不同规模的模型，在处理速度与识别精度之间找到最佳平衡点，尤其对多语种场景表现优异。

这款工具非常适合开发者、研究人员、内容创作者以及需要频繁处理视频资料的普通用户。对于技术人员而言，其开源特性与清晰的命令行操作便于集成到自动化工作流中；而对于非技术背景的普通用户，简单的安装步骤和直观的命令也能让他们轻松上手，快速获得高质量字幕，是提升视频消费与生产效率的得力助手。

使用场景

一位教育科技公司的内容运营专员，需要每天将大量海外优质 YouTube 技术教程视频转化为带中文字幕的内部培训资料。

没有 yt-whisper 时

人工听写效率极低，处理一个 30 分钟的英文视频需耗费数小时，严重拖慢课程上线进度。
外包翻译成本高昂，且难以保证专业术语（如 Kubernetes、Transformer）的准确性，返工率高。
手动对齐字幕时间轴繁琐易错，常出现音画不同步，影响学员观看体验。
面对小语种视频束手无策，缺乏快速转译成英文再汉化的高效链路。
依赖 YouTube 自动生成的字幕往往缺失标点、大小写混乱，后期清洗工作量巨大。

使用 yt-whisper 后

一键执行命令即可在几分钟内自动生成高精度 VTT 字幕文件，效率提升数十倍。
利用 Whisper 强大的语境理解能力，精准识别专业术语，大幅减少人工校对成本。
自动完成语音与时间轴的完美对齐，直接输出可用于播放器的标准格式，无需手动调整。
通过 --task translate 参数直接将法语、日语等视频源翻译为英文字幕，打通多语言处理流程。
生成的字幕包含规范标点和正确大小写，格式整洁，几乎可直接投入使用。

yt-whisper 将原本耗时数天的字幕制作流程压缩至分钟级，让团队能专注于内容深度加工而非重复劳动。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes必须安装 ffmpeg 命令行工具（可通过各系统包管理器安装）。默认使用 small 模型，支持通过 --model 参数切换不同大小的模型（如 tiny, base, medium, large 等），较大模型效果更佳但资源消耗更高。支持通过 --task translate 将字幕翻译为英文。

python3.7+

yt-dlp

openai-whisper

ffmpeg

快速开始

YouTube 字幕自动生成功能

本仓库使用 yt-dlp 和 OpenAI 的 Whisper 为任意 YouTube 视频生成字幕文件。

安装

要开始使用，您需要 Python 3.7 或更高版本。通过运行以下命令安装二进制文件：

pip install git+https://github.com/m1guelpf/yt-whisper.git

此外，您还需要安装 ffmpeg，它可以通过大多数包管理器获取：

# 在 Ubuntu 或 Debian 上
sudo apt update && sudo apt install ffmpeg

# 在 macOS 上使用 Homebrew (https://brew.sh/)
brew install ffmpeg

# 在 Windows 上使用 Chocolatey (https://chocolatey.org/)
choco install ffmpeg

使用

以下命令将从指定的 YouTube 视频生成 VTT 字幕文件：

yt_whisper "https://www.youtube.com/watch?v=dQw4w9WgXcQ"

默认设置（选择 small 模型）对于转录英语内容效果良好。您也可以选择更大的模型以获得更好的结果（尤其是在处理其他语言时）。可用的模型包括：tiny、tiny.en、base、base.en、small、small.en、medium、medium.en、large。

yt_whisper "https://www.youtube.com/watch?v=dQw4w9WgXcQ" --model medium

添加 --task translate 参数可将字幕翻译成英语：

yt_whisper "https://www.youtube.com/watch?v=dQw4w9WgXcQ" --task translate

运行以下命令可查看所有可用选项：

yt_whisper --help

许可证

此脚本为开源软件，采用 MIT 许可证授权。有关详细信息，请参阅 LICENSE 文件。

yt-whisper 快速上手指南

yt-whisper 是一个结合 yt-dlp 和 OpenAI Whisper 的开源工具，可自动为任意 YouTube 视频生成字幕文件。

环境准备

在开始之前，请确保满足以下系统要求：

Python 版本：需要 Python 3.7 或更高版本。
核心依赖：必须安装 ffmpeg 用于音频处理。

请根据您的操作系统安装 ffmpeg：

# Ubuntu 或 Debian
sudo apt update && sudo apt install ffmpeg

# MacOS (使用 Homebrew)
brew install ffmpeg

# Windows (使用 Chocolatey)
choco install ffmpeg

安装步骤

推荐使用 pip 直接从 GitHub 源安装最新代码：

pip install git+https://github.com/m1guelpf/yt-whisper.git

提示：如果下载速度较慢，可尝试添加国内镜像源加速（例如清华源）： pip install -i https://pypi.tuna.tsinghua.edu.cn/simple git+https://github.com/m1guelpf/yt-whisper.git

基本使用

1. 生成字幕

运行以下命令即可为指定 YouTube 视频生成 .vtt 格式的字幕文件（默认使用 small 模型，适合英语转录）：

yt_whisper "https://www.youtube.com/watch?v=dQw4w9WgXcQ"

2. 切换模型

为了获得更好的转录效果（尤其是非英语视频），可以指定更大的模型。可用模型包括：tiny, base, small, medium, large 及其对应的 .en 版本。

yt_whisper "https://www.youtube.com/watch?v=dQw4w9WgXcQ" --model medium

3. 翻译字幕

添加 --task translate 参数可将字幕内容翻译为英文：

yt_whisper "https://www.youtube.com/watch?v=dQw4w9WgXcQ" --task translate

如需查看所有可用选项，请运行：

yt_whisper --help

常见问题

可以使用该工具转录本地视频文件吗？

安装时出现 'git@github.com: Permission denied (publickey)' 错误怎么办？

如何避免生成的字幕单行过长，实现自动换行？

超过 1 小时的视频生成的字幕时间戳在 YouTube 上显示不正确怎么办？

如何将英语视频翻译并生成韩语字幕？

安装时提示需要 Rust 编译器或找不到预构建 wheel 怎么办？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|今天

图像数据工具视频

Real-Time-Voice-Cloning

Real-Time-Voice-Cloning 是一款开源的实时语音克隆工具，旨在通过短短 5 秒的音频样本，快速复刻说话人的声音特征，并即时生成任意文本的语音内容。它有效解决了传统语音合成需要大量训练数据且无法实时响应的痛点，让个性化语音生成变得轻量且高效。该项目的核心技术基于 SV2TTS（从说话人验证到多说话人文本转语音的迁移学习）深度学习框架。其工作流程分为三个阶段：首先从少量音频中提取说话人的数字声纹表示，随后将其作为参考，结合 Tacotron 合成器与 WaveRNN 声码器，高质量地生成目标语音。这种架构不仅实现了端到端的语音合成，还保证了在普通硬件上的实时运行能力。 Real-Time-Voice-Cloning 非常适合开发者、人工智能研究人员以及对语音技术感兴趣的技术爱好者使用。开发者可以将其集成到互动应用中，研究人员可借此探索语音迁移学习的前沿进展，而具备一定动手能力的普通用户也能通过提供的图形界面工具箱，轻松体验“声音复制”的乐趣。尽管目前已有商业服务在音质上表现更佳，但作为一款免费开源项目，它依然是理解和学习实时语音合成技术的绝佳入门资源。

★ 59.6k|★★★☆☆|2天前

音频开发框架

GPT-SoVITS

GPT-SoVITS 是一款强大的开源语音合成与声音克隆工具，旨在让用户仅需极少量的音频数据即可训练出高质量的个性化语音模型。它核心解决了传统语音合成技术依赖海量录音数据、门槛高且成本大的痛点，实现了“零样本”和“少样本”的快速建模：用户只需提供 5 秒参考音频即可即时生成语音，或使用 1 分钟数据进行微调，从而获得高度逼真且相似度极佳的声音效果。该工具特别适合内容创作者、独立开发者、研究人员以及希望为角色配音的普通用户使用。其内置的友好 WebUI 界面集成了人声伴奏分离、自动数据集切片、中文语音识别及文本标注等辅助功能，极大地降低了数据准备和模型训练的技术门槛，让非专业人士也能轻松上手。在技术亮点方面，GPT-SoVITS 不仅支持中、英、日、韩、粤语等多语言跨语种合成，还具备卓越的推理速度，在主流显卡上可实现实时甚至超实时的生成效率。无论是需要快速制作视频配音，还是进行多语言语音交互研究，GPT-SoVITS 都能以极低的数据成本提供专业级的语音合成体验。

★ 56.4k|★★★☆☆|1周前

音频

TTS

🐸TTS 是一款功能强大的深度学习文本转语音（Text-to-Speech）开源库，旨在将文字自然流畅地转化为逼真的人声。它解决了传统语音合成技术中声音机械生硬、多语言支持不足以及定制门槛高等痛点，让高质量的语音生成变得触手可及。无论是希望快速集成语音功能的开发者，还是致力于探索前沿算法的研究人员，亦或是需要定制专属声音的数据科学家，🐸TTS 都能提供得力支持。它不仅预置了覆盖全球 1100 多种语言的训练模型，让用户能够即刻上手，还提供了完善的工具链，支持用户利用自有数据训练新模型或对现有模型进行微调，轻松实现特定风格的声音克隆。在技术亮点方面，🐸TTS 表现卓越。其最新的 ⓍTTSv2 模型支持 16 种语言，并在整体性能上大幅提升，实现了低于 200 毫秒的超低延迟流式输出，极大提升了实时交互体验。此外，它还无缝集成了 🐶Bark、🐢Tortoise 等社区热门模型，并支持调用上千个 Fairseq 模型，展现了极强的兼容性与扩展性。配合丰富的数据集分析与整理工具，🐸TTS 已成为科研与生产环境中备受信赖的语音合成解决方案。

★ 45k|★★★☆☆|2周前

音频开发框架图像

LocalAI

LocalAI 是一款开源的本地人工智能引擎，旨在让用户在任意硬件上轻松运行各类 AI 模型，包括大语言模型、图像生成、语音识别及视频处理等。它的核心优势在于彻底打破了高性能计算的门槛，无需昂贵的专用 GPU，仅凭普通 CPU 或常见的消费级显卡（如 NVIDIA、AMD、Intel 及 Apple Silicon）即可部署和运行复杂的 AI 任务。对于担心数据隐私的用户而言，LocalAI 提供了“隐私优先”的解决方案，确保所有数据处理均在本地基础设施内完成，无需上传至云端。同时，它完美兼容 OpenAI、Anthropic 等主流 API 接口，这意味着开发者可以无缝迁移现有应用，直接利用本地资源替代云服务，既降低了成本又提升了可控性。 LocalAI 内置了超过 35 种后端支持（如 llama.cpp、vLLM、Whisper 等），并集成了自主 AI 代理、工具调用及检索增强生成（RAG）等高级功能，且具备多用户管理与权限控制能力。无论是希望保护敏感数据的企业开发者、进行算法实验的研究人员，还是想要在个人电脑上体验最新 AI 技术的极客玩家，都能通过 LocalAI 获

★ 44.8k|★★★☆☆|2周前

图像音频语言模型

bark

Bark 是由 Suno 推出的开源生成式音频模型，能够根据文本提示创造出高度逼真的多语言语音、音乐、背景噪音及简单音效。与传统仅能朗读文字的语音合成工具不同，Bark 基于 Transformer 架构，不仅能模拟说话，还能生成笑声、叹息、哭泣等非语言声音，甚至能处理带有情感色彩和语气停顿的复杂文本，极大地丰富了音频表达的可能性。它主要解决了传统语音合成声音机械、缺乏情感以及无法生成非语音类音效的痛点，让创作者能通过简单的文字描述获得生动自然的音频素材。无论是需要为视频配音的内容创作者、探索多模态生成的研究人员，还是希望快速原型设计的开发者，都能从中受益。普通用户也可通过集成的演示页面轻松体验其神奇效果。技术亮点方面，Bark 支持商业使用（MIT 许可），并在近期更新中实现了显著的推理速度提升，同时提供了适配低显存 GPU 的版本，降低了使用门槛。此外，社区还建立了丰富的提示词库，帮助用户更好地驾驭模型生成特定风格的声音。只需几行 Python 代码，即可将创意文本转化为高质量音频，是连接文字与声音世界的强大桥梁。

★ 39.1k|★★★☆☆|2周前

音频