FunClip

GitHub
5.5k 671 中等 8 次阅读 今天MIT音频开发框架语言模型视频插件
AI 解读 由 AI 自动生成,仅供参考

FunClip 是一款开源、精准且易用的视频语音识别与智能剪辑工具。它能够自动识别视频中的语音内容并生成字幕,用户只需选择字幕中的文本片段或特定说话人,即可快速提取对应的视频段落,实现精准剪辑。

该工具主要解决了视频后期处理中手动剪辑效率低、精度差的问题。传统剪辑需要反复听录和定位,而 FunClip 通过自动语音识别(ASR)将音频转为文字,让用户可以直接通过文字内容选取需要裁剪的部分,大大提升了视频剪辑的效率与准确性。

FunClip 适合视频创作者、自媒体运营者、教育工作者以及需要进行视频内容处理的普通用户。对于开发者或研究人员,它也提供了模型定制和本地化部署的灵活性。

其技术亮点在于集成了阿里巴巴达摩院开源的 Paraformer 大规模语音识别模型,支持中文热词定制,识别准确率高。同时,FunClip 还引入了说话人识别功能,可以按人声分离剪辑。最新版本更融合了大语言模型(LLM)能力,能够通过自然语言指令理解剪辑意图,实现“智能剪辑”,例如用户只需描述想要的内容,AI 便可自动定位相应片段。

使用场景

一位在线教育机构的视频编辑师需要从一场2小时的直播讲座录像中,快速提取出导师讲解“机器学习模型评估”这一核心知识点的所有片段,用于制作短视频合集。

没有 FunClip 时

  • 手动对齐耗时费力:需要反复播放视频,靠听力和肉眼在时间轴上粗略定位目标语句的开始和结束点,过程枯燥且极易出错。
  • 识别与剪辑割裂:需要先用其他语音转文字工具生成字幕文件,再人工对照字幕文本在剪辑软件中寻找对应时间码,操作流程繁琐不连贯。
  • 无法精准聚焦内容:当导师多次提及或在不同上下文中讲解“模型评估”时,需要人工判断哪些片段是真正需要的核心讲解,筛选工作依赖个人理解,效率低下且可能遗漏。
  • 处理多发言人视频困难:如果讲座中有问答环节,需要从多人对话中单独提取导师的发言,只能依靠反复听取和手动分割,非常麻烦。

使用 FunClip 后

  • 一键获得精准时间戳:上传视频后,FunClip 通过 Paraformer-Large 模型自动生成高精度的语音识别文本和对应时间戳,文本与视频画面精准对齐,直接点击文本即可定位。
  • 智能识别与剪辑无缝集成:在同一个界面中,只需在识别出的文字稿中选中“交叉验证”、“ROC曲线”等相关语句,或直接使用LLM智能剪辑功能输入“提取所有关于模型评估指标的讲解”,即可一键导出对应视频片段,实现识别到剪辑的闭环。
  • LLM理解语义实现智能筛选:利用集成的LLM(如Qwen、GPT)能力,通过自然语言指令(如“找出导师定义过拟合和欠拟合的部分”),模型能理解上下文语义,自动找出并标记所有相关片段,无需人工逐句判断。
  • 按发言人快速分离:启用说话人识别功能后,系统自动区分导师和学生,编辑师可直接选择“导师”ID,一键提取所有属于导师的讲话片段,极大简化了从多人对话中抽取特定人声的工作。

FunClip 通过将工业级语音识别、LLM语义理解与剪辑操作深度整合,将原本需要数小时的专业视频内容提取工作,转化为几分钟内可完成的精准、高效的自动化流程。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU

未说明

内存

未说明

依赖
notes1. 基本功能仅依赖Python环境。2. 如需为视频嵌入字幕,需额外安装ffmpeg和imagemagick,不同操作系统安装方式不同。3. 使用Whisper模型进行英文时间戳预测需要大量GPU内存。4. 首次运行需下载语音识别和说话人识别模型。
python未说明
FunClip hero image

快速开始

SVG Banners

简体中文 | English」

⚡ 开源、精准、易用的视频剪辑工具

🧠 探索基于大语言模型(LLM)的智能视频剪辑

alibaba-damo-academy%2FFunClip | Trendshift

FunClip 是一款完全开源、本地部署的自动化视频剪辑工具。它借助阿里通义实验室开源的 FunASR Paraformer 系列模型对视频进行语音识别。随后,用户可以自由选择识别结果中的文本片段或发言人,点击剪辑按钮即可获取选中片段对应的视频片段(快速体验 Modelscope⭐ HuggingFace🤗)。

亮点功能🎨

  • 🔥 立即在 FunClip 中尝试使用大语言模型(LLM)进行 AI 智能剪辑。
  • FunClip 集成了阿里巴巴开源的工业级模型 Paraformer-Large,它是目前性能最好的开源中文 ASR(自动语音识别)模型之一,在 Modelscope 上的下载量已超过 1300 万次,并且能够以一体化方式精准预测时间戳。
  • FunClip 集成了 SeACo-Paraformer 的热词定制功能,用户可以在 ASR 过程中将某些实体词、名称等指定为热词,以提升识别效果。
  • FunClip 集成了 CAM++ 说话人识别模型,用户可以使用自动识别出的说话人 ID 作为剪辑目标,从而剪辑出特定发言人的片段。
  • 功能通过 Gradio 交互界面实现,安装简单,易于使用。也可以部署在服务器上,通过浏览器访问。
  • FunClip 支持多片段自由剪辑,并自动返回完整视频的 SRT 字幕文件和目标片段的 SRT 字幕文件,提供简单便捷的用户体验。

最新动态🚀

  • 2024/06/12 FunClip 现已支持识别和剪辑英文音频文件。运行 python funclip/launch.py -l en 即可尝试。
  • 🔥 2024/05/13 FunClip v2.0.0 现已支持基于大语言模型的智能剪辑,集成了 qwen 系列、GPT 系列等模型,提供默认提示词。你也可以探索和分享提示词设置技巧,使用方法如下:
    1. 识别完成后,选择大模型名称并配置你自己的 API 密钥;
    2. 点击“LLM 推理”按钮,FunClip 会自动将两个提示词与视频的 SRT 字幕组合;
    3. 点击“AI 剪辑”按钮,根据上一步大语言模型的输出结果,FunClip 将提取出用于剪辑的时间戳;
    4. 你可以尝试更改提示词,以利用大语言模型的能力来获得你想要的结果;
  • 2024/05/09 FunClip 更新至 v1.1.0,包含以下更新和修复:
    • 支持配置输出文件目录,保存 ASR 中间结果和视频剪辑中间文件;
    • UI 升级(见下方示意图),视频和音频剪辑功能现已整合在同一页面,按钮位置调整;
    • 修复了由于 FunASR 接口升级引入的一个导致严重剪辑错误的 bug;
    • 支持为每个段落配置不同的开始和结束时间偏移量;
    • 代码更新等;
  • 2024/03/06 修复了在命令行中使用 FunClip 的 bug。
  • 2024/02/28 FunASR 更新至 1.0 版本,使用 FunASR1.0 和 SeACo-Paraformer 进行支持热词定制的 ASR。
  • 2023/10/17 修复了选择多个时间段时,返回视频长度错误的 bug。
  • 2023/10/10 FunClip 现在支持使用说话人日志(Speaker Diarization)能力进行识别,在“识别说话人”中选择“是”,即可获得带有每句话说话人 ID 的识别结果。然后,你可以使用 FunClip 剪辑出一个或多个说话人(例如“spk0”或“spk0#spk3”)的片段。

开发中🌵

  • FunClip 将为英文用户支持 Whisper 模型,即将推出(使用 Whisper 进行带时间戳的 ASR 需要大量 GPU 内存,我们通过 FunASR 中的 Paraformer 原生时间戳预测来实现此功能)。
  • FunClip 将进一步探索基于大语言模型的 AI 剪辑能力,欢迎讨论提示词设置和剪辑等话题。
  • 剪辑时支持反向选择时间段。
  • 移除静音片段。

安装🔨

Python 环境安装

FunClip 的基本功能仅依赖于 Python 环境。

# 克隆 funclip 仓库
git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip
# 安装 Python 依赖
pip install -r ./requirements.txt

imagemagick 安装(可选)

如果你想剪辑带有内嵌字幕的视频文件

  1. 需要安装 ffmpeg 和 imagemagick
  • 在 Ubuntu 上
apt-get -y update && apt-get -y install ffmpeg imagemagick
sed -i 's/none/read,write/g' /etc/ImageMagick-6/policy.xml
  • 在 MacOS 上
brew install imagemagick
sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml 
  • 在 Windows 上

下载并安装 imagemagick https://imagemagick.org/script/download.php#windows

找到你的 Python 安装路径,在文件 site-packages\moviepy\config_defaults.py 中将 IMAGEMAGICK_BINARY 修改为你的 imagemagick 安装路径。

  1. 下载字体文件到 funclip/font 目录
wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ClipVideo/STHeitiMedium.ttc -O font/STHeitiMedium.ttc

使用 FunClip

A. 将 FunClip 作为本地 Gradio 服务使用

你可以按照以下方式建立自己的 FunClip 服务,其功能与 Modelscope Space 相同:

python funclip/launch.py
# '-l en' 用于识别英文音频

# FunClip:基于大语言模型(LLM)的视频剪辑工具

FunClip 是一款由阿里巴巴通义实验室开源的简易视频剪辑工具,它结合了阿里巴巴开源的语音识别(ASR)模型 [FunASR](https://github.com/alibaba-damo-academy/FunASR) 和大语言模型(LLM)的能力,旨在为用户提供一种全新的视频剪辑体验:用户只需通过自然语言描述,即可快速定位并裁剪视频中的特定片段。

## 主要特性🎨
- **🔍 高精度 ASR**:基于 FunASR 的高效语音识别模型,确保时间戳的精准性。
- **💬 大语言模型(LLM)驱动**:支持用户通过自然语言指令快速定位视频片段。
- **👏 用户友好**:提供 Gradio Web UI 和命令行交互界面。
- **🛠 多功能视频剪辑**:支持基于 SRT 字幕文件的多种剪辑模式。
- **🌐 中文优化**:针对中文语音和文本进行专门优化,同时支持其他语言。

## 近期更新🔥
- **2024.6.16** FunClip 现在支持使用最新的 [Qwen-Audio](https://github.com/QwenLM/Qwen-Audio) 模型进行自由对话式视频片段检索。
- **2024.5.9** FunClip 现在支持使用 [Gemini](https://deepmind.google/technologies/gemini/) 进行视频片段检索。
- **2024.4.12** FunClip 现在支持使用 [DeepSeek-VL](https://github.com/deepseek-ai/DeepSeek-VL) 进行视频片段检索。
- **2024.3.28** FunASR 已更新至 1.0 版本,使用更便捷,识别更精准,系统更稳定。
- **2024.1.16** 发布 FunClip 版本 v0.1.1,支持在 HuggingFace Space 上使用。

## 安装指南📖

### 系统要求
- Python >= 3.7

### 安装选项

#### A. 通过 pip 安装
```shell
pip install git+https://github.com/alibaba-damo-academy/FunClip.git

安装后,你可以直接使用 funclip 命令:

funclip --file "path/to/your/video.mp4"

B. 通过源码安装

git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip
pip install -e ./

环境要求

  • 如果你想使用基于 LLM 的视频片段检索功能,需要配置相应的 LLM 服务。目前支持:

使用方式🚀

A. 使用 FunClip Web UI(推荐)

我们推荐你使用 FunClip 的 Web 界面,它将引导你完成整个视频剪辑流程。

启动 FunClip Web UI:

funclip --file "path/to/your/video.mp4"

或者,如果你想自定义服务端口或允许公网访问,可以使用:

funclip --file "path/to/your/video.mp4" --port 8080 --share True

'-p xxx' 用于设置端口号

'-s True' 用于建立允许公网访问的服务

然后访问 ```localhost:7860```,你将看到一个如下所示的 Gradio 服务界面,你可以按照以下步骤使用 FunClip:

- 步骤1:上传你的视频文件(或尝试下面的示例视频)
- 步骤2:将你需要的文本片段复制到 'Text to Clip'
- 步骤3:调整字幕设置(如果需要)
- 步骤4:点击 'Clip' 或 'Clip and Generate Subtitles'

<img src="https://oss.gittoolsai.com/images/modelscope_FunClip_readme_4dff20f63a10.jpg"/>

按照以下指南探索基于 LLM 的视频剪辑:

<img src="https://oss.gittoolsai.com/images/modelscope_FunClip_readme_bdf4187753c1.png" width=360/>

### B. 在 Modelscope 上体验 FunClip

[FunClip@Modelscope Space⭐](https://modelscope.cn/studios/iic/funasr_app_clipvideo/summary)

[FunClip@HuggingFace Space🤗](https://huggingface.co/spaces/R1ckShi/FunClip)

### C. 在命令行中使用 FunClip

FunClip 支持你通过命令进行识别和剪辑:
```shell
# 步骤1:识别
python funclip/videoclipper.py --stage 1 \
                       --file examples/2022云栖大会_片段.mp4 \
                       --output_dir ./output
# 现在你可以在 ./output/ 目录下找到识别结果和完整的 SRT 字幕文件
# 步骤2:剪辑
python funclip/videoclipper.py --stage 2 \
                       --file examples/2022云栖大会_片段.mp4 \
                       --output_dir ./output \
                       --dest_text '我们把它跟乡村振兴去结合起来,利用我们的设计的能力' \
                       --start_ost 0 \
                       --end_ost 100 \
                       --output_file './output/res.mp4'

社区交流🍟

FunClip 由 FunASR 团队首先开源,欢迎任何有用的 Pull Request。

你也可以扫描以下钉钉群或微信群二维码加入社区群进行交流。

钉钉群 微信群

在 FunASR 中寻找语音模型

FunASR 希望搭建起语音识别学术研究与工业应用之间的桥梁。通过支持对 ModelScope 上发布的工业级语音识别模型进行训练和微调,研究人员和开发者可以更方便地进行语音识别模型的研究和生产,促进语音识别生态的发展。让语音识别更有趣!

📚FunASR 论文:

📚SeACo-Paraformer 论文:

🌟支持 FunASR:

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架