VideoAgent

GitHub
575 86 较难 1 次阅读 今天MITAgent语言模型视频音频
AI 解读 由 AI 自动生成,仅供参考

VideoAgent 是一款全能型智能视频代理框架,旨在通过自然语言对话,让用户轻松完成视频的理解、剪辑与二次创作。它解决了传统视频处理流程中工具分散、操作门槛高以及缺乏创意辅助的痛点,将复杂的视频分析、片段组装和生成式重制整合在一个统一的系统中。

无论是希望快速提取视频摘要、制作卡点剪辑的普通用户,还是从事多模态研究的研究人员或需要高效原型的开发者,都能从中受益。普通用户只需像聊天一样描述需求,VideoAgent 即可自动规划任务并调用工具,生成如解说视频、鬼畜素材、音乐混剪甚至跨文化改编内容;专业人士则可利用其开放的代理架构探索更深层的视频智能应用。

其核心技术亮点在于“多模态代理”机制:不仅能深度理解视频内容(如问答、总结),还能自主决策如何使用剪辑或生成工具,实现从意图分析到成品输出的全自动闭环。相比同类工具,VideoAgent 在支持节拍同步剪辑、叙事性视频生成及跨语言适配等方面表现更为全面,真正实现了“所说即所得”的视频创作体验。

使用场景

一位短视频创作者需要将长达 2 小时的海外游戏直播录像,快速改编成适合国内平台传播的“跨文化搞笑集锦”,并自动匹配节奏感强的背景音乐。

没有 VideoAgent 时

  • 内容筛选耗时极长:必须人工逐帧观看 2 小时素材,手动记录搞笑片段的时间戳,效率极低且容易遗漏亮点。
  • 跨文化理解门槛高:难以准确识别外语梗或特定文化背景下的笑点,导致剪辑出的内容本土观众无法共鸣。
  • 多工具切换繁琐:需要分别使用转录工具生成字幕、剪辑软件进行画面裁剪、另外的 AI 工具生成配乐,工作流断裂且数据搬运麻烦。
  • 音画同步困难:手动调整视频切片以匹配音乐节拍(Beat-synced)需要极高的专业技巧,反复调试耗费大量时间。
  • 叙事逻辑构建难:缺乏自动化的故事线梳理,最终视频往往只是片段堆砌,缺乏连贯的起承转合。

使用 VideoAgent 后

  • 智能意图分析与定位:VideoAgent 自动分析全片,精准提取高光搞笑片段并生成详细的时间轴摘要,将筛选时间从数小时缩短至几分钟。
  • 跨语言自适应改编:利用多模态智能,VideoAgent 自动识别外语笑点并将其转化为符合中文语境的梗,甚至自动生成跨文化解说词。
  • 一站式全流程自动化:只需通过自然语言对话下达指令,VideoAgent 即可在统一框架内完成理解、剪辑、配乐及特效添加,无需切换任何软件。
  • 自动卡点剪辑:内置的节拍同步功能自动将视频切口与背景音乐节奏完美对齐,轻松产出专业级的踩点视频。
  • 自主叙事重构:VideoAgent 自动规划视频结构,将零散片段重组为有开头、高潮和结尾的完整故事线,显著提升完播率。

VideoAgent 将原本需要专业团队协作一整天的复杂视频再造工作,转变为单人通过自然对话即可瞬间完成的创意流程。

运行环境要求

操作系统
  • Linux
  • Windows
GPU

需要 GPU,显存至少 8GB,具体 CUDA 版本未说明

内存

未说明

依赖
notes建议使用 conda 管理环境。首次运行前需通过 huggingface-cli 下载多个模型(包括 CosyVoice, fish-speech, seed-vc, DiffSinger, Whisper-large-v3-turbo, ImageBind),请确保已安装 git-lfs。
python3.10
pynini==2.1.5
ffmpeg
requirements.txt 中列出的其他依赖
VideoAgent hero image

快速开始


🌟 全面视频智能:
一个用于理解、编辑和生成的一体化框架

   


📹 演示视频

在这个视频中,我们展示了如何使用VideoAgent来:

  • 清晰地表达用户需求
  • 实现意图分析以及自主工具使用与规划
  • 创作多模态内容,包括详细的流程
  • 完全自动化的视频概览生成

🚀 核心特性

🧠 - 视频内容理解
借助先进的多模态智能能力,实现对视频媒体的深度分析、总结及洞察提取。

✂️ - 剪辑视频片段
提供直观的工具,用于拼接、剪切和重新编排内容,并与工作流无缝集成。

🎨 - 创意视频再创作
利用生成式技术,在AI驱动的创意辅助下,制作出新颖且富有想象力的视频内容。

🔧 - 多模态智能体框架
通过整合多种AI模态的综合框架,提供全面的视频智能,从而提升整体性能。

🚀 - 流畅的自然语言体验
通过纯对话式的AI,彻底改变视频交互与创作方式——无需复杂的界面或专业技术背景,只需与VideoAgent进行自然对话即可。

graph TB
    A[🎬 VideoAgent框架] --> B[🧠 视频理解与总结]
    A --> C[✂️ 视频剪辑]
    A --> D[🎨 视频再创作]
    
    B --> B1[视频问答]
    B --> B2[视频摘要]
    
    C --> C1[电影剪辑]
    C --> C2[解说视频]
    C --> C3[视频概览]
    
    D --> D1[表情包视频]
    D --> D2[音乐视频]
    D --> D3[跨文化喜剧]
VideoAgent Director Funclip NarratoAI NotebookLM
节拍同步剪辑
故事性视频
视频概览
表情包视频再创作
歌曲混音
跨语言改编
视频问答
音效工具

📑 目录

🔥 为什么选择VideoAgent?

🧠 易于使用 🚀 无限创意 🎨 高质量
单一提示生成视频 基于任何想法创作 人级质量的视频制作
将你的想法转化为专业视频 为你的独特创意生成工作流 提供符合专业标准的视频

🌟系统概述

我们的系统引入了三项关键创新,用于自动化视频处理。意图分析能够捕捉用户指令之外的显性和隐性子意图。自主工具使用与规划采用图结构驱动的工作流生成,并结合自适应反馈回路,实现自动化的智能体编排。多模态理解则将原始输入转化为语义对齐的视觉查询,以增强检索效果。

🧠 意图分析

  • 🔍 VideoAgent能够智能地将用户指令分解为显性和隐性子意图,从而捕捉到用户可能未明确表达的细微需求。这种高级解析确保了对用户目标的全面理解,而不仅仅是表面命令。

  • 🎯 通过意图到智能体的映射机制,系统能够精准识别多智能体框架中所需的特定能力。这种针对性的方法不仅实现了相关系统组件的高效激活,还避免了不必要的计算开销,从而达到最佳任务执行效果

🔧 自主工具使用与规划

  • ⚙️ 基于图结构的框架会自动将用户的意图转化为可执行的工作流。系统会动态选择合适的智能体,并构建最优的执行序列。节点代表工具能力,边则定义复杂视频任务中的工作流连接。

  • 🔄 自适应反馈循环通过两步自我评估不断优化规划过程。这确保了强大的自动化决策和顺畅的执行。在整个任务生命周期中,系统会自我修正并持续优化性能。

🎬 多模态理解

  • 📋 分镜代理会将原始用户输入转化为优化的视觉查询。它首先分析带有预设字幕的视频素材库,以了解可用资源。这一基础性分析确保系统能够准确掌握可用于查询处理的内容。

  • 💡 随后,该代理会将用户输入分解为细粒度的子查询,这些子查询在视觉和语义上都高度匹配。这种精细的拆解方式能够通过将用户的意图与数据库中最为相关的视觉内容相匹配,从而实现更高效的视频检索



🔧评估

我们从多个维度开展了大量实验,以验证VideoAgent在应对关键挑战方面的有效性。

通过工作流构建实现无限创意

为了评估VideoAgent通过自动构建工作流所展现的无限创意,我们在三种骨干模型下对比了五种广泛应用的代理。研究结果表明,VideoAgent在音频和视频数据集上显著优于其他基线方法,充分展示了其通过图结构引导及自我反思机制(基于专门的自我评估反馈)所具备的创造性工作流生成能力。此外,我们还观察到,在Claude 3.7骨干模型下,VideoAgent的创意表现不仅更为出色,而且更加稳定,相比之下,GPT-4o和Deepseek-v3等则在不同骨干之间表现出波动。这凸显了VideoAgent能够通过自动构建多样且高效的工作流来适应各类用户需求,从而释放无限创意;同时,功能更强大的大语言模型能够带来更深入的理解,并为复杂的图结构任务提供更为稳健的创意解决方案。



卓越的多模态理解能力

为验证我们的多模态理解能力,我们使用打乱顺序的字幕查询进行了文本到视频的检索实验。评估采用了三项指标来衡量模型检索对应视觉内容的能力:召回率用于比较检索到的视频片段中点与真实位置之间的差异,以此评估模型正确重新排序视频片段的能力;基于嵌入匹配的评分则用来评估生成的视频与高级别字幕摘要之间的粗粒度对齐程度;而交并比则通过计算检索到的片段与真实片段之间的时间重叠部分占总覆盖范围的比例,来量化片段级别的时序对齐精度。实验结果表明,我们的方法能够检索出更为精确的视频片段,从而充分展现了我们精准的多模态理解能力。


更多迭代,更好性能

我们通过分析反思轮次对性能的影响,来探究VideoAgent的迭代优化能力。通过对两个数据集上的工作流组合进行综合超参数实验,并采用三种大语言模型作为骨干,我们证明了VideoAgent具有显著的自我改进能力。结果显示,尽管早期迭代仅能产生基准水平的结果,但随着每一轮的推进,系统的自适应反思机制会带来显著的性能提升。VideoAgent在所有测试配置中均实现了0.95的稳定工作流组合成功率,这充分体现了其强大的自我修正能力以及无论底层大语言模型如何都能提供可靠高质量输出的特点。


🚀快速入门

🖥️ 环境要求

显存:8GB  
操作系统:Linux、Windows

📥 克隆与安装

git clone https://github.com/HKUDS/VideoAgent.git
conda create --name videoagent python=3.10
conda activate videoagent
conda install -y -c conda-forge pynini==2.1.5 ffmpeg
pip install -r requirements.txt

📦 模型下载

# 下载CosyVoice
cd tools/CosyVoice
huggingface-cli download PillowTa1k/CosyVoice --local-dir pretrained_models
# 下载fish-speech
cd tools/fish-speech
huggingface-cli download fishaudio/fish-speech-1.5 --local-dir checkpoints/fish-speech-1.5
# 下载seed-vc
cd tools/seed-vc
huggingface-cli download PillowTa1k/seed-vc --local-dir checkpoints
# 下载DiffSinger
cd tools/DiffSinger
huggingface-cli download PillowTa1k/DiffSinger --local-dir checkpoints
# 下载Whisper
cd tools
huggingface-cli download openai/whisper-large-v3-turbo --local-dir whisper-large-v3-turbo
# 确保已安装git-lfs (https://git-lfs.com)
git lfs install
# 下载ImageBind
cd tools
mkdir .checkpoints
cd .checkpoints
wget https://dl.fbaipublicfiles.com/imagebind/imagebind_huge.pth

🌟 为了方便起见,我们提供了多种模型供您选择;您可以根据项目需求仅下载相关模型。

功能类型 视频演示 所需模型
跨语言对话 英语脱口秀转中文相声 CosyVoice、Whisper、ImageBind
脱口秀 中文相声转英语脱口秀 CosyVoice、Whisper、ImageBind
MAD TTS 小明剑魔表情包 fish-speech
MAD SVC AI音乐视频 DiffSinger、seed-vc、Whisper、ImageBind
节奏感 蜘蛛侠:纵横宇宙 Whisper、ImageBind
评论 解说视频 CosyVoice、Whisper、ImageBind
新闻 科技新闻:OpenAI发布GPT-4o图像生成功能 CosyVoice、Whisper、ImageBind
视频问答/总结 沙丘2电影演员阵容更新播客 Whisper

🤖 LLM配置


# VideoAgent\environment\config\config.yml
# 适用场景与大模型配置
# 需要使用 Claude,因为它为智能体图路由提供支持
llm:
  # 视频混剪/TTS/SVC/脱口秀/相声
  deepseek_api_key: ""  
  deepseek_base_url: ""  

  # 智能体图路由/TTS/SVC/脱口秀/相声
  claude_api_key: ""  
  claude_base_url: ""

  # 视频剪辑/概览/摘要/QA/解说视频
  gpt_api_key: ""  
  gpt_base_url: ""  

  # 用于字幕生成和细粒度视频理解的多模态大模型
  gemini_api_key: ""  
  gemini_base_url: ""  

🎯 使用方法

# 配置完成后,请按照以下步骤运行:
python main.py
# 控制台将输出:
用户需求:...
# 需求示例:
# 1. 我需要制作一段现有视频的改写版本,其中语音内容经过修改,但仍保留原说话人的声音。视频的画面应与原版一致,但对话需根据我的具体要求进行更新。
# 2. 我有一份脱口秀剧本,希望将其制作成一部专业水准的视频作品。我需要演员以出色的喜剧节奏和观众反应来演绎这段剧本,并将其与相关视频素材匹配,最终形成完整的脱口秀特别节目。我已经准备好了参考剧本和部分可用于视频制作的素材。

当前的大模型选择已针对各项功能进行了优化。

如有需要,您也可以在 VideoAgent\environment\config\llm.py 中调整模型名称。


🔮演示视频

电影剪辑 表情包视频 音乐视频
语言类喜剧艺术 解说视频 视频概览

更多演示视频的使用详情,请参阅:
👉 演示文档

您还可以在我们的哔哩哔哩频道找到更多精彩视频:
👉 哔哩哔哩主页
欢迎随时查看,获取更多有趣的优质内容!😊

:所有视频仅用于研究与演示目的。音频及视频素材均来源于网络。如您认为任何内容侵犯了您的知识产权,请及时与我们联系。


💖致谢

我们向众多使 VideoAgent 成为可能的个人和机构致以最深切的谢意。本框架站在巨人的肩膀上,得益于开源社区的集体智慧以及全球研究人员的开创性工作。

🔧 开源社区与服务提供商

🎨 内容创作者与灵感来源

我们的工作因来自各平台的内容创作者们的创意贡献而更加丰富。在此特别感谢:

  • 🎬 内容创作者:那些为我们测试与演示所用原始视频内容做出杰出贡献的创作者们
  • 🎭 喜剧艺术家:其作品启发了我们的跨文化改编创作
  • 🎥 影视制作团队:参与制作我们在演示中展示的电影与电视剧的幕后团队

⚠️ 注意:所有演示中使用的素材均仅用于研究目的。我们对所有内容创作者的知识产权深表尊重,并欢迎就内容使用问题提出任何关切或反馈意见。


访问量

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

157.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|6天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|6天前
插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|1周前
语言模型图像Agent