subvert

859 57 简单 3 次阅读 4天前MIT音频语言模型视频

AI 解读由 AI 自动生成，仅供参考

Subvert 是一款基于 OpenAI 技术的开源视频处理工具，能在数秒内自动为视频生成字幕、章节标记及内容摘要。它主要解决了手动制作视频元数据耗时费力的痛点，让用户无需逐字听写或反复观看，即可快速获得结构化的视频信息。

该工具特别适合需要高效处理视频内容的创作者、教育工作者以及具备基础技术能力的开发者。对于普通用户，只要本地安装了 Docker 并拥有 OpenAI API 密钥，只需一行命令即可部署使用；开发者则可以直接从源码运行或将其集成到自有服务中。

Subvert 的技术亮点在于其巧妙的双模型协作流程：首先利用 FFMpeg 提取音频，调用 OpenAI 的 Whisper 模型进行高精度语音转文字（生成 VTT 格式字幕）；随后将转录文本送入 ChatGPT 模型，智能提炼出符合 YouTube 描述风格的简短摘要，并按用户指定长度划分视频章节。目前项目仍处于积极迭代阶段，以单容器 Docker 镜像形式发布，部署轻便灵活，是提升视频后期效率的实用助手。

使用场景

某教育科技公司的内容运营团队每天需要处理大量讲师录制的长视频课程，以便上传至学习平台供学员观看。

没有 subvert 时

人工听写视频字幕耗时极长，一段 1 小时的课程往往需要数小时才能完成逐字稿，严重拖慢上线节奏。
缺乏自动章节划分，学员无法快速定位知识点，只能在进度条上盲目拖拽寻找特定内容。
视频简介和摘要全靠人工撰写，不仅风格难以统一，还容易遗漏核心考点，导致课程点击率偏低。
多语言支持困难，若要生成外语字幕需额外聘请翻译或购买昂贵的专业服务，成本高昂。

使用 subvert 后

上传视频后几分钟内即可自动生成高精度字幕（vtt 格式），将原本数小时的工作压缩至秒级，极大提升发布效率。
利用 ChatGPT 模型自动分析转录文本，精准切割出带有时间戳的课程章节，让学员能按需跳转学习。
一键生成简洁有力的课程摘要，直接用于 YouTube 或平台描述栏，显著优化了课程的搜索曝光与吸引力。
基于 Whisper 模型的强大能力，轻松扩展多语言字幕支持，以极低的 API 成本实现课程内容的全球化分发。

subvert 通过自动化流程将视频后期处理的繁琐工作转化为分钟级的标准化操作，让团队能专注于课程内容本身而非重复劳动。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

最低 512MB (默认 PHP 内存限制)，推荐视视频文件大小而定

依赖

notes该工具主要基于 Docker 运行，需预先安装 Docker 并配置 OpenAI API 密钥。若从源码运行，需本地安装 PHP 8.1+ 和 npm。音频转录和摘要生成依赖云端 OpenAI 服务（Whisper 和 ChatGPT 模型），而非本地 GPU 推理。默认最大上传文件大小为 256MB，可通过环境变量调整。目前容器仅暴露不安全的 HTTP 80 端口。

python未说明

Docker

OpenAI API (Whisper & ChatGPT)

FFMpeg

PHP 8.1+

npm

快速开始

Subvert

Docker Semver Docker Pulls

借助 OpenAI，可在几秒钟内为视频生成字幕、章节和摘要。

🚧 该项目目前仍处于开发阶段，如有问题请提交 Issue 🚧

Subvert 转换视频的演示 GIF

快速开始

你需要：

在本地机器上安装 Docker
一个 OpenAI API 密钥

Subvert 封装在一个独立的 Docker 镜像中，只需一行命令即可启动：

docker run -it -p 80:8080 -e OPENAI_API_KEY=sk-123abc aschmelyun/subvert

这将启动一个运行该应用的服务器，并使其可通过 http://localhost 在你的机器上访问。

工作原理

选择要处理的视频文件后，你可以决定是否同时生成章节和摘要。

你的视频会被上传到一个 API，使用 FFmpeg 提取音频，然后发送到 OpenAI 的 Whisper 模型 进行转录，输出为常见的 vtt 格式。

如果你选择了生成章节或摘要，该转录文本将进一步发送到 ChatGPT 模型，以你指定的长度生成简洁的章节，并生成一段适合 YouTube 描述的简短摘要。

配置

你可以通过在命令中添加额外的 -e 标志来传递环境变量，从而调整容器中的几个参数。当前支持的环境变量如下：

OPENAI_API_KEY (必需) - 设置用于与 OpenAI API 通信的密钥。无默认值。
UPLOAD_MAX_FILESIZE - 修改 PHP 的 UPLOAD_MAX_FILESIZE 设置。默认值：256M
MEMORY_LIMIT - 修改 PHP 的 MEMORY_LIMIT 设置。默认值：512M

从源码启动

如果你的本地机器已安装 PHP 8.1+ 和 npm，也可以直接从源代码启动应用程序。

首先，将此仓库克隆到你希望的位置。然后进入 src 目录并运行：

./startup.sh

你也可以单独执行 startup.sh 脚本中的每条命令，效果相同。

部署

由于该项目包含在一个 Dockerfile 中，因此可以立即部署到任何已预装 Docker 的服务器上。此外，Subvert 的 Docker 镜像也可以在 AWS、Azure、GCP、Fly.io 等云平台上运行。

注意：该镜像目前仅暴露不安全的 :80 HTTP 端口。

许可证

MIT 许可证 (MIT)。请参阅许可证文件

Subvert 快速上手指南

Subvert 是一个利用 OpenAI 技术，能在数秒内为视频自动生成字幕、章节和摘要的开源工具。

环境准备

在开始之前，请确保你的本地机器满足以下条件：

Docker: 已安装并正在运行（推荐最新稳定版）。
- 国内用户可参考 Docker 官方中文文档或使用国内镜像源加速安装。
OpenAI API Key: 你需要拥有一个有效的 OpenAI API 密钥以调用 Whisper 和 ChatGPT 模型。
- 获取地址：OpenAI API Keys

注意：本项目目前处于开发阶段（Work-in-Progress），如遇 Bug 请在 GitHub 仓库提交 Issue。

安装步骤

Subvert 被封装在单个 Docker 镜像中，无需复杂配置，只需一行命令即可启动服务。

在终端中执行以下命令（请将 sk-123abc 替换为你真实的 OpenAI API Key）：

docker run -it -p 80:8080 -e OPENAI_API_KEY=sk-123abc aschmelyun/subvert

参数说明：

-p 80:8080: 将容器的 8080 端口映射到本地的 80 端口。
-e OPENAI_API_KEY=...: 设置必要的环境变量，用于连接 OpenAI 服务。

启动成功后，服务将在本地运行。

基本使用

访问界面：打开浏览器，访问 http://localhost。
上传视频：在网页界面中选择你要处理的视频文件。
选择功能：勾选是否需要生成“章节（Chapters）”和“摘要（Summary）”。
开始处理：
- 系统会自动提取音频并使用 OpenAI Whisper 模型生成标准 .vtt 格式字幕。
- 若选择了章节或摘要，转录文本将进一步发送给 ChatGPT 模型，生成精简的章节标记和适合 YouTube 描述的简短摘要。
下载结果：处理完成后，下载生成的字幕文件及相关元数据。

进阶配置（可选）

如果需要调整文件大小限制或内存限制，可以通过添加 -e 参数来覆盖默认值：

docker run -it -p 80:8080 \
  -e OPENAI_API_KEY=sk-123abc \
  -e UPLOAD_MAX_FILESIZE=512M \
  -e MEMORY_LIMIT=1G \
  aschmelyun/subvert

UPLOAD_MAX_FILESIZE: 修改 PHP 上传文件大小限制（默认 256M）。
MEMORY_LIMIT: 修改 PHP 内存限制（默认 512M）。

版本历史

v1.0.92023/04/16

v1.0.82023/04/16

v1.0.72023/04/16

v1.0.62023/04/15

v1.0.52023/04/15

v1.0.42023/04/15

v1.0.32023/04/15

v1.0.22023/03/31

v1.0.12023/03/31

v1.0.02023/03/28

常见问题

如何修改 Docker 镜像中允许上传的最大文件大小？

为什么在反向代理（Nginx）下使用 HTTPS 时 CSS 等资源无法加载？

处理视频时卡在第一步（提取音频）或报错 "Step 99"，且控制台没有明显错误，怎么办？

选择特定语言生成字幕时出现数据类型错误（如 "is not of type 'string'"），如何解决？

遇到通用错误提示 "Step 99: There was an error" 但看不到具体原因，该如何排查？

启用 API 并填写账单详情后，为什么服务仍然需要很长时间才能正常工作？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

OpenHands

OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。

★ 70.6k|★★★☆☆|今天

语言模型Agent开发框架