video-subtitle-extractor

8.6k 882 中等 1 次阅读今天Apache-2.0图像开发框架

AI 解读由 AI 自动生成，仅供参考

video-subtitle-extractor 是一款专为提取视频“硬字幕”而设计的开源工具，能将嵌入在画面中的字幕自动识别并转换为可编辑的 SRT 外挂字幕文件。它主要解决了用户面对无字幕源或硬字幕视频时，无法直接修改、翻译或关闭字幕的痛点，无需依赖任何第三方在线 API，所有文本识别过程均在本地完成，充分保障了数据隐私与处理效率。

这款软件非常适合需要处理外语生肉视频的字幕组、视频创作者以及普通观影爱好者。其核心技术亮点在于基于深度学习的本地 OCR 框架，集成了字幕区域检测与内容提取功能，支持包括中英日韩在内的 87 种语言识别。为了兼顾速度与精度，video-subtitle-extractor 提供了“快速”、“自动”和“精准”三种模式：日常使用推荐自动模式，它能根据硬件环境智能切换模型；若对准确率有极致要求，也可启用 GPU 加速的精准模式逐帧检测。此外，它还具备批量处理、水印过滤及自定义文本修正等实用功能，让用户能轻松获得高质量的字幕文件。

使用场景

某高校字幕组志愿者正在处理一批无官方字幕的海外公开课视频，急需将其转化为可编辑的中文字幕以便翻译和发布。

没有 video-subtitle-extractor 时

人工听写效率极低：志愿者需反复暂停视频手动听录，一部 45 分钟的课程耗时数小时，且容易因听力疲劳产生错漏。
依赖付费在线服务：若使用第三方 OCR API 批量处理，不仅面临高昂的费用，还需担心视频内容上传后的隐私泄露风险。
硬字幕无法分离：视频中的硬编码字幕与画面融为一体，无法直接提取文本进行校对或重新排版，只能覆盖新字幕导致画面杂乱。
多语言支持受限：面对日语、韩语等非英语课程，普通免费工具识别率极低，往往需要寻找特定语种的昂贵专业服务。

使用 video-subtitle-extractor 后

本地自动化提取：利用 GPU 加速的深度学习模型，video-subtitle-extractor 可在本地离线运行，几分钟内自动将硬字幕转换为标准的 SRT 文件，效率提升数十倍。
零成本且安全：无需申请任何 API 密钥或上传视频至云端，完全在本地完成从帧检测到文本识别的全过程，彻底消除费用顾虑与数据隐私隐患。
智能清洗与去重：工具自动过滤水印、台标及重复行，并支持通过配置文件一键修正常见识别错误（如将"l'm"修正为"I'm"），直接生成高质量字幕底稿。
广泛语种覆盖：内置支持包括日、韩、法、德等 87 种语言的识别模型，无论是哪种语言的公开课，都能通过“自动”模式获得高精度的提取结果。

video-subtitle-extractor 通过将复杂的硬字幕提取流程本地化、自动化，让个人和小团队也能以零成本高效完成多语言视频的字幕重建工作。

运行环境要求

操作系统

Windows
macOS
Linux

GPU

非必需
支持 NVIDIA GPU (推荐 CUDA 11.8, cuDNN 8.6.0，PaddlePaddle-GPU 3.3.1)
支持 AMD/Intel GPU (通过 DirectML)
支持 Apple Silicon/AMD ROCm (通过 ONNX Runtime)
NVIDIA 50 系显卡需 CUDA 12.8+，但因 PaddlePaddle 暂未支持，建议使用 DirectML 版本

内存

未说明

依赖

notes1. 视频及程序路径严禁包含中文和空格，否则会导致运行错误。2. 提供快速、自动、精准三种模式，推荐优先使用快速或自动模式。3. 支持 87 种语言的字幕提取。4. 可通过编辑 typoMap.json 文件实现特定文本的替换或删除（如去水印）。5. 若使用源码安装，强烈建议使用虚拟环境管理依赖。6. 遇到 7z 解压错误请升级 7-Zip 到最新版本。

python3.12+

paddlepaddle-gpu==3.3.1 (CUDA 环境)

paddlepaddle==3.3.1 (CPU/DirectML 环境)

onnxruntime

paddle2onnx

VideoSubFinder

7-zip (用于解压)

快速开始

简体中文 | English

VSE Logo

项目简介

Video-subtitle-extractor (VSE) 是一款将视频中的硬字幕提取为外挂字幕文件(srt格式)的软件主要实现了以下功能：

提取视频中的关键帧
检测视频帧中文本的所在位置
识别视频帧中文本的内容
过滤非字幕区域的文本
去除水印、台标文本、原视频硬字幕，可配合：video-subtitle-remover (VSR)
去除重复字幕行，生成srt字幕文件/txt文本文件
支持视频字幕批量提取
多语言：支持简体中文（中英双语）、繁体中文、英文、日语、韩语、越南语、阿拉伯语、法语、德语、俄语、西班牙语、葡萄牙语、意大利语等87种语言的字幕提取
多模式：
- 快速：（推荐）使用轻量模型，快速提取字幕，可能丢少量字幕、存在少量错别字
- 自动：（推荐）自动判断模型，CPU下使用轻量模型；GPU下使用精准模型，提取字幕速度较慢，可能丢少量字幕、几乎不存在错别字
- 精准：（不推荐）使用精准模型，GPU下逐帧检测，不丢字幕，几乎不存在错别字，但速度非常慢

请优先使用快速/自动模式，如果前两种模式存在较多丢字幕轴情况时，再使用精准模式

项目特色：

采用本地进行OCR识别，无需设置调用任何API，不需要接入百度、阿里等在线OCR服务即可本地完成文本识别
支持GPU加速，GPU加速后可以获得更高的准确率与更快的提取速度

使用说明：

有使用问题请加群讨论，QQ群：210150985（已满）、806152575（已满）、816881808（已满）、295894827
点击【打开】后选择视频文件，调整字幕区域，点击【运行】
- 单文件提取：打开文件的时候选择单个视频
- 批量提取：打开文件的时候选择多个视频，确保每个视频的分辨率、字幕区域保持一致
去除水印文本/替换特定文本：

如果视频中出现特定的文本需要删除，或者特定的文本需要替换，可以编辑 backend/configs/typoMap.jsonfile，加入你要替换或去除的内容

{
	"l'm": "I'm",
	"l just": "I just",
	"Let'sqo": "Let's go",
	"Iife": "life",
	"威筋": "威胁",
  	"性感荷官在线发牌": ""
}

这样就可以把文本中出现的所有“威筋”替换为“威胁”，所有的“性感荷官在线发牌”文本删除

视频以及程序路径请不要带中文和空格，否则可能出现未知错误！！！

如：以下存放视频和代码的路径都不行

D:\下载\vse\运行程序.exe（路径含中文）

E:\study\kaoyan\sanshang youya.mp4 （路径含空格）

直接下载压缩包解压运行，如果不能运行再按照下面的教程，尝试源码安装conda环境运行

下载地址： Release

有任何改进意见请在ISSUES和DISCUSSION中提出

NVIDIA官方提供了各GPU型号的计算能力列表，您可以参考链接: CUDA GPUs 查看你的GPU适合哪个CUDA版本

NVIDIA 50系显卡需要使用cuda12.8.0及以上版本, 但Paddle3.3.1目前仍未支持，所以建议使用Directml通用版本

识别模式选择说明：

模式名称	GPU	OCR模型尺寸	字幕检测引擎	备注
快速	有/无	迷你	VideoSubFinder
自动	有	大	VideoSubFinder	推荐
自动	无	迷你	VideoSubFinder	推荐
精准	有/无	大	VSE	非常慢

Windows/Linux/MacOS环境下字幕检测引擎都是VideoSubFinder

演示

GUI版：点击查看GPU版本源码运行的安装教程 👈

源码使用说明

1. 安装 Python

请确保您已经安装了 Python 3.12+

Windows 用户可以前往 Python 官网下载并安装 Python
MacOS 用户可以使用 Homebrew 安装：
```
brew install python@3.12
```

Linux 用户可以使用包管理器安装，例如 Ubuntu/Debian：

sudo apt update && sudo apt install python3.12 python3.12-venv python3.12-dev

2. 安装依赖文件

请使用虚拟环境来管理项目依赖，避免与系统环境冲突

（1）创建虚拟环境并激活

python -m venv videoEnv

Windows：

videoEnv\\Scripts\\activate

MacOS/Linux：

source videoEnv/bin/activate

3. 创建并激活项目目录

切换到源码所在目录：

cd <源码所在目录>

例如：如果您的源代码放在 D 盘的 tools 文件夹下，并且源代码的文件夹名为 video-subtitle-extractor，则输入：
cd D:/tools/video-subtitle-extractor-main

4. 安装合适的运行环境

本项目支持 CUDA（NVIDIA显卡加速）、CPU（无 GPU）、DirectML（AMD、Intel等GPU/APU加速）、ONNX四种运行模式

(1) CUDA（NVIDIA 显卡用户）

请确保您的 NVIDIA 显卡驱动支持所选 CUDA 版本

推荐 CUDA 11.8，对应 cuDNN 8.6.0

安装 CUDA：

Windows：CUDA 11.8 下载

Linux：

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run
sudo sh cuda_11.8.0_520.61.05_linux.run

MacOS 不支持 CUDA

安装 cuDNN（CUDA 11.8 对应 cuDNN 8.6.0）：
- Windows cuDNN 8.6.0 下载
- Linux cuDNN 8.6.0 下载
- 安装方法请参考 NVIDIA 官方文档

安装 PaddlePaddle GPU 版本（CUDA 11.8）：

pip install paddlepaddle-gpu==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
pip install -r requirements.txt

(2) DirectML（AMD、Intel等GPU/APU加速卡用户）

适用于 Windows 设备的 AMD/NVIDIA/Intel GPU

安装 ONNX Runtime DirectML 版本：

pip install paddlepaddle==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
pip install -r requirements.txt
pip install -r requirements_directml.txt

(3) ONNX (适合macOS、AMD ROCm等环境加速用户, 基础环境与DirectML方式一致，未测试！)

使用这个方式部署请勿反馈Issues
适用于 Linux 或 macOS 设备的 AMD/Metal GPU/Apple Silicon GPU

安装 ONNX Runtime DirectML 版本：

pip install paddlepaddle==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
pip install -r requirements.txt

# 阅读文档 https://onnxruntime.ai/docs/execution-providers/
# 根据你的设备选择合适的执行后端, 参考requirements_directml.txt文件修改成合适你环境的依赖

# 例如:
# requirements_coreml.txt
#   paddle2onnx==1.3.1
#   onnxruntime-coreml==1.13.1

pip install -r requirements_coreml.txt

(4) CPU 运行（无 GPU 加速）

适用于没有 GPU 或不希望使用 GPU 的情况

直接安装 CPU 版本 PaddlePaddle：

pip install paddlepaddle==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
pip install -r requirements.txt

5. 运行程序

运行图形化界面版本（GUI）

python gui.py

运行命令行版本（CLI）

python ./backend/main.py

常见问题与解决方案

1. 运行不正常/没有结果/cuda及cudnn问题

解决方案：根据自己的显卡型号、显卡驱动版本，安装对应的cuda与cudnn

2. 7z文件解压错误

解决方案：升级7-zip解压程序到最新版本

赞助

video-subtitle-extractor 快速上手指南

video-subtitle-extractor (VSE) 是一款本地化视频硬字幕提取工具，支持将视频中的硬字幕提取为 SRT 或 TXT 格式。它无需调用在线 API，支持 GPU 加速，并涵盖全球 87 种语言。

1. 环境准备

系统要求

操作系统：Windows / macOS / Linux
Python 版本：3.12 或更高版本
硬件建议：
- NVIDIA 显卡：推荐安装 CUDA 11.8 + cuDNN 8.6.0 以获得最佳性能。
- AMD/Intel 显卡：Windows 用户可使用 DirectML 加速。
- 无独立显卡：可使用 CPU 模式运行（速度较慢）。

前置依赖

确保已安装 Git（用于克隆代码）和 7-Zip（最新版，用于解压）。
路径规范：项目代码和视频文件的路径中严禁包含中文和空格，否则会导致运行错误。
- ✅ 正确示例：D:/tools/vse/video.mp4
- ❌ 错误示例：D:/下载/我的视频.mp4 或 E:/study/my video.mp4

2. 安装步骤

第一步：获取源码与创建虚拟环境

打开终端（CMD/PowerShell/Terminal），进入目标目录并执行：

# 克隆项目（或手动下载解压后进入目录）
git clone https://github.com/YaoFANGUK/video-subtitle-extractor.git
cd video-subtitle-extractor

# 创建虚拟环境
python -m venv videoEnv

# 激活虚拟环境
# Windows:
videoEnv\Scripts\activate
# macOS/Linux:
source videoEnv/bin/activate

第二步：安装依赖库

根据您的硬件环境选择以下一种方式进行安装（国内用户推荐使用提供的镜像源）：

方案 A：NVIDIA 显卡用户 (CUDA 加速，推荐)

需预先安装 CUDA 11.8 和 cuDNN 8.6.0

pip install paddlepaddle-gpu==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
pip install -r requirements.txt

方案 B：AMD/Intel 显卡用户 (DirectML 加速，仅限 Windows)

pip install paddlepaddle==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
pip install -r requirements.txt
pip install -r requirements_directml.txt

方案 C：无显卡用户 (CPU 模式)

pip install paddlepaddle==3.3.1 -i https://www.paddlepaddle.org.cn/packages/stable/cpu/
pip install -r requirements.txt

macOS 用户注意：目前主要支持 CPU 模式或通过 ONNX/CoreML 配置（需自行修改依赖文件），建议优先尝试 CPU 模式。

3. 基本使用

安装完成后，确保虚拟环境处于激活状态，且在项目根目录下。

启动图形界面 (GUI)

这是最简单的使用方式，适合单文件或批量处理。

python gui.py

操作流程：

点击界面上的 【打开】 按钮。
选择视频文件：
- 单文件提取：选择一个视频。
- 批量提取：按住 Ctrl/Shift 选择多个视频（要求所有视频的分辨率和字幕区域一致）。
在预览窗口中调整字幕区域框选范围。
选择识别模式：
- 快速：轻量模型，速度最快，适合大多数情况。
- 自动：智能判断（GPU 用大模型，CPU 用小模型），推荐首选。
- 精准：逐帧检测，速度极慢，仅在丢字严重时使用。
点击 【运行】 开始提取，生成的 .srt 或 .txt 文件将保存在视频同级目录。

命令行使用 (CLI)

如需通过脚本调用：

python ./backend/main.py

(具体参数请参考源码或帮助文档)

高级技巧：文本修正

若提取结果中包含水印或特定错别字，可编辑 backend/configs/typoMap.json 文件进行替换或删除：

{
    "威筋": "威胁",
    "性感荷官在线发牌": ""
}

上述配置会将“威筋”自动修正为“威胁”，并直接删除“性感荷官在线发牌”这行文字。

版本历史

2.2.02026/04/04

2.0.32025/04/24

2.0.02023/10/07

1.0.02021/12/21

0.1.02021/04/14

常见问题

如何在 Python 代码中调用该工具进行批量处理？

Windows 下安装依赖时出现 geos_c.dll 找不到模块的错误如何解决？

程序卡在"running Verify Fluid Program"步骤不动怎么办？

使用 GPU 加速版（v2.0+）时出现 CUDNN error(9) CUDNN_STATUS_NOT_SUPPORTED 报错如何解决？

生成的 SRT 字幕最后一行时间轴显示为 00:00:00,000 导致无法显示怎么办？

“精准模式”和“快速模式”有什么区别？为什么快速模式会丢失字幕？

为什么我的 GPU 加速处理速度非常慢（如 3 小时视频处理了 6 个半小时）？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|6天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 151.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|2天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|2天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|5天前

插件开发框架