ShortGPT

7.3k 1k 中等 1 次阅读今天MIT图像Agent视频开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

ShortGPT 是一款专为自动化制作短视频而设计的开源 AI 框架，旨在帮助用户轻松创建适用于 YouTube Shorts、TikTok 等平台的竖屏内容。它解决了传统视频创作中脚本撰写、素材搜集、配音合成及后期剪辑流程繁琐、耗时长的痛点，将原本复杂的制作链路整合为全自动化的工作流。

这款工具特别适合希望批量生产短视频的内容创作者、运营团队，以及想要探索 AI 视频生成技术的开发者使用。对于普通用户，通过 Google Colab 即可快速上手体验；对于技术人员，其模块化的架构也提供了丰富的二次开发空间。

ShortGPT 的核心亮点在于其独特的“面向大语言模型的编辑语言”，能智能协调各个创作环节。它支持包括中文、英语、西班牙语在内的 30 多种语言配音，并能自动从网络或 Pexels 等平台检索匹配的画面素材，同时一键生成视频字幕。此外，内置的记忆机制确保了长期任务中变量的一致性，让自动化创作更加稳定可靠。无论是想尝试副业的内容新手，还是寻求效率提升的专业团队，ShortGPT 都能成为得力的创作助手。

使用场景

一位专注于“冷知识科普”赛道的自媒体创作者，希望每天在 YouTube Shorts 和 TikTok 上发布高质量的多语言短视频以获取流量收益。

没有 ShortGPT 时

脚本创作耗时：每次需手动查阅资料并撰写分镜脚本，单条视频构思耗时超过 2 小时，难以维持日更频率。
素材搜集繁琐：需要在多个图库网站反复搜索匹配画面的无版权视频和图片，经常因版权风险或画面不匹配而返工。
配音与字幕割裂：需单独使用 TTS 工具生成音频，再手动对齐时间轴制作字幕，且无法低成本实现多语言版本分发。
剪辑流程重复：机械性地执行裁剪、转场和配乐操作，大量时间浪费在基础编辑上，导致创意枯竭。

使用 ShortGPT 后

自动化内容生成：ShortGPT 利用 LLM 自动根据主题生成趣味脚本和分镜，将选题到成稿的时间压缩至几分钟。
智能素材匹配：框架自动调用 Pexels API 和网络资源，精准抓取与脚本内容高度契合的无版权影像素材。
多语言一键合成：内置 EdgeTTS 支持中、英、西等 30 多种语言的逼真配音，并自动生成同步字幕，轻松实现全球化分发。
全流程无人值守：从素材下载、语音合成到最终渲染输出，ShortGPT 自动完成所有剪辑步骤，创作者仅需审核即可发布。

ShortGPT 将原本需要数小时的手工流水线转化为分钟级的自动化闭环，让个人创作者也能拥有机构级的内容生产能力。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes本地运行必须安装 Docker。推荐使用 Google Colab 运行以避免本地环境配置。项目通过 Gradio 提供 Web 界面，默认端口为 31415。需要配置 .env 文件以设置 API 密钥（如 OpenAI, ElevenLabs, Pexels 等）。支持超过 30 种语言的语音合成（通过 EdgeTTS）和视频配音。

python未说明

Moviepy

Openai

ElevenLabs

EdgeTTS

Pexels API

Bing Image

TinyDB

Gradio

Docker

快速开始

🚀🎬 ShortGPT

人工智能视频自动化框架

⚡ 使用AI自动化视频和短视频内容创作 ⚡

请按照以下安装步骤在本地运行Web应用（强烈推荐使用Google Colab）。更多详细信息请阅读“installation-notes.md”。

🎥 展示（完整视频请见YouTube）

https://github.com/RayVentura/ShortGPT/assets/121462835/a802faad-0fd7-4fcb-aa82-6365c27ea5fe

🎥 配音

https://github.com/RayVentura/ShortGPT/assets/121462835/06f51b2d-f8b1-4a23-b299-55e0e18902ef

🌟 表达支持

我们希望ShortGPT能对您有所帮助！如果您觉得有用，请在仓库上给我们点个赞⭐。非常简单，只需点击页面右上角的“Star”按钮即可。您的支持对我们意义重大，也将激励我们不断改进和扩展ShortGPT的功能。感谢您的支持，祝您创作愉快！🎉

🛠️ 工作原理

alt text

📝 ShortGPT简介

ShortGPT是一个强大的内容自动化框架，能够简化视频制作、素材获取、语音合成及编辑等流程。其最常见的应用场景包括YouTube自动化和TikTok创意内容程序化生成。

🎞️ 自动化编辑框架：通过面向大语言模型的视频编辑语言， streamline视频制作流程。
📃 脚本与提示词：提供多种预设脚本和提示词，适用于不同的LLM自动化编辑场景。
🗣️ 配音/内容创作：支持多语言，包括英语🇺🇸、西班牙语🇪🇸、阿拉伯语🇦🇪、法语🇫🇷、波兰语🇵🇱、德语🇩🇪、意大利语🇮🇹、葡萄牙语🇵🇹、俄语🇷🇺、中文🇨🇳、日语🇯🇵、印地语🇮🇳、韩语🇰🇷等超过30种语言（借助EdgeTTS实现）。
🔗 字幕生成：自动为视频生成字幕。
🌐🎥 素材获取：从互联网及Pexels API等渠道获取图片和视频素材。
🧠 记忆与持久化：利用TinyDB确保自动化编辑变量的长期持久化。

🚀 快速入门：在Google Colab上运行ShortGPT（https://colab.research.google.com/drive/1_2UKdpF6lqxCqWaAcZb3rwMVQqtbisdE?usp=sharing）

如果您不想在本地系统上安装相关依赖，可以使用Google Colab笔记本。该方式免费且无需任何安装配置。

点击Google Colab笔记本链接：https://colab.research.google.com/drive/1_2UKdpF6lqxCqWaAcZb3rwMVQqtbisdE?usp=sharing
进入笔记本后，只需按顺序从上到下运行各个代码单元格。您可以点击每个单元格并按下“Play”按钮，或直接使用键盘操作。尽情享受ShortGPT带来的便利吧！

在本地运行ShortGPT的说明

本指南提供了安装ShortGPT及其依赖项的分步指导。要在本地运行ShortGPT，您需要Docker。

安装步骤

要运行ShortGPT，您需要先安装Docker。更多详细信息请参阅“installation-notes.md”。

运行Dockerfile：

docker build -t short_gpt_docker:latest .
docker run -p 31415:31415 --env-file .env short_gpt_docker:latest

运行runShortGPT.py Web界面

脚本运行完成后，Gradio界面应在本地主机的31415端口打开（http://localhost:31415）。

框架概述

🎬 ContentShortEngine专为短视频创作设计，涵盖从脚本生成到最终渲染的全流程，还包括添加YouTube元数据等功能。
🎥 ContentVideoEngine则更适合长视频制作，负责音频生成、背景视频素材自动采集、字幕定时以及背景素材准备等工作。
🗣️ ContentTranslationEngine用于对整部视频进行配音和翻译，覆盖主流语言及更多特定目标语言。它接收视频文件或YouTube链接，转录音频内容，翻译文本，以目标语言配音，并添加字幕，最终输出完全不同语言的新视频。
🎞️ 自动化EditingEngine采用编辑标记语言和JSON格式，将编辑过程拆解为易于管理且可定制的模块，便于大型语言模型理解和处理。

💡 ShortGPT提供丰富的自定义选项，满足您的需求，从语言选择到水印添加均可灵活调整。

🔧 作为一款框架，ShortGPT具有高度的适应性和灵活性，能够高效、创造性地完成内容创作任务。

更多文档即将发布，请耐心等待。

使用的技术

ShortGPT 采用以下技术来支持其功能：

Moviepy: Moviepy 用于视频编辑，使 ShortGPT 能够进行视频剪辑和渲染。
OpenAI: OpenAI 用于自动化整个流程，包括生成用于 LLM 自动化编辑的脚本和提示。
ElevenLabs: ElevenLabs 用于语音合成，支持多种语言的配音制作。
EdgeTTS: 微软提供的免费 EdgeTTS 也用于语音合成，支持的语言数量远超 ElevenLabs 目前的能力。
Pexels: Pexels 用于获取背景素材，使 ShortGPT 能够连接网络并访问丰富的图片和视频资源。
必应图片: 必应图片用于获取图像，为 ShortGPT 提供了一个全面的数据库，以便检索相关视觉内容。

这些技术协同工作，为使用 AI 自动化制作视频和短视频内容提供了流畅高效的体验。

💁 贡献

作为一个处于快速发展的开源项目，我们非常欢迎各种形式的贡献，无论是新增功能、改进基础设施，还是完善文档。

ShortGPT 快速上手指南

ShortGPT 是一个强大的 AI 视频自动化框架，旨在简化短视频创作、素材搜集、配音合成及编辑流程。它支持包括中文在内的 30 多种语言，适用于 YouTube 自动化和 TikTok 创意项目。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux, macOS 或 Windows (需安装 Docker Desktop)
核心依赖：必须安装 Docker。ShortGPT 推荐通过 Docker 容器运行以避免本地环境配置冲突。
网络环境：由于项目依赖 OpenAI、ElevenLabs、Pexels 等海外服务，请确保您的网络环境可以正常访问这些 API。
API Keys：准备以下服务的密钥（根据需求选择）：
- OpenAI API Key (用于脚本生成和逻辑控制)
- ElevenLabs API Key 或使用内置免费的 EdgeTTS (用于语音合成)
- Pexels API Key (用于素材搜集)
- Bing Image API (可选，用于图片搜集)

注意：虽然项目提供了 Google Colab 版本供免安装体验，但本指南专注于本地 Docker 部署方案，以获得更稳定的长期运行环境。

安装步骤

ShortGPT 推荐使用 Docker 进行部署。请按照以下步骤操作：

克隆项目代码 打开终端，克隆 ShortGPT 仓库到本地：
```
git clone https://github.com/RayVentura/ShortGPT.git
cd ShortGPT
```

配置环境变量 在项目根目录下创建 .env 文件，并填入您的 API 密钥。参考格式如下：

OPENAI_API_KEY=your_openai_key_here
ELEVENLABS_API_KEY=your_elevenlabs_key_here
PEXELS_API_KEY=your_pexels_key_here
# 如果只使用 EdgeTTS，可不填 ElevenLabs Key

构建并运行 Docker 容器 执行以下命令构建镜像并启动服务：
```
docker build -t short_gpt_docker:latest .
docker run -p 31415:31415 --env-file .env short_gpt_docker:latest
```
- -p 31415:31415：将容器的 31415 端口映射到本地。
- --env-file .env：加载您刚才配置的密钥文件。

基本使用

启动成功后，ShortGPT 会自动运行一个基于 Gradio 的 Web 交互界面。

访问界面 打开浏览器，访问地址：
```
http://localhost:31415
```
创建视频 在 Web 界面中，您可以直接使用可视化的表单进行操作：
- 选择引擎：
  - ContentShortEngine：用于制作短视频（Shorts/Reels/TikTok），自动处理脚本、配音、字幕和素材。
  - ContentVideoEngine：用于较长视频，侧重背景素材匹配和音频同步。
  - ContentTranslationEngine：用于视频翻译和配音（例如将英文视频自动译为中文并重新配音）。
- 输入主题：在提示框中输入视频主题（例如：“介绍中国古代四大发明”）。
- 配置参数：选择目标语言（支持中文 🇨🇳）、语音类型、视频时长等。
- 生成：点击生成按钮，系统将自动执行脚本编写、素材搜索、配音合成、字幕添加及最终渲染。
获取结果 处理完成后，界面将提供生成的视频文件下载链接，您可以直接保存或在本地预览。

更多高级功能（如自定义编辑标记语言、持久化存储配置）请参考项目官方文档。

版本历史

v0.3.02025/02/10

v0.2.02025/01/13

v0.1.32023/08/05

v0.0.22023/08/04

v0.0.15-alpha2023/07/22

v0.0.1-alpha2023/07/11

常见问题

遇到 MoviePy 错误：无法读取文件时长（failed to read the duration of file）怎么办？

保存 API 配置或加载页面时出现"Expecting value: line 1 column 1 (char 0)"错误如何解决？

遇到 GPT-3 API 速率限制错误（Rate limit reached）如何处理？

如何添加免费的 Edge TTS 语音替代方案？

遇到"Numpy is not available"运行时错误如何修复？

ElevenLabs API 返回"quota_exceeded"和"Unusual activity detected"错误怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 157.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架