CLIP4Clip

1k 135 较难 1 次阅读 1周前MIT开发框架其他插件视频

AI 解读由 AI 自动生成，仅供参考

CLIP4Clip 是一个基于 CLIP 模型的视频 - 文本检索开源项目，旨在实现端到端的视频片段搜索。它主要解决了如何精准理解视频内容并将其与自然语言描述进行高效匹配的问题，让用户能通过文字快速找到对应的视频片段。

该工具特别适合人工智能研究人员、开发者以及对多模态学习感兴趣的技术人员使用。其核心亮点在于深入研究了三种不同的相似度计算方法（无参数型、序列型和紧密型），并在 MSR-VTT、MSVD、ActivityNet 等多个权威数据集上取得了业界领先的成果。此外，CLIP4Clip 灵活支持 ViT-B/32 和 ViT-B/16 等多种预训练模型，并提供了从数据预处理、视频压缩加速到模型训练与评估的完整代码实现。无论是希望复现论文实验的学者，还是想要构建视频搜索应用的工程师，都能利用该项目快速搭建高性能的检索系统。

使用场景

某视频流媒体平台的内容运营团队需要从海量无标签的视频库中，快速检索出符合特定剧情描述的片段以制作宣传短片。

没有 CLIP4Clip 时

检索效率低下：依赖人工打标签或简单的关键词匹配，无法理解“夕阳下两人奔跑”这类复杂的语义描述，导致大量相关视频被遗漏。
开发成本高昂：若要构建自定义检索系统，需分别训练视频编码器和文本编码器，并设计复杂的对齐算法，耗时数月且需要大量标注数据。
跨模态鸿沟难越：传统方法难以捕捉视频画面动态变化与文本描述之间的深层关联，搜索结果的准确度（Recall@1）往往不尽如人意。
泛化能力弱：针对新领域的视频内容（如从电影切换到体育集锦），模型需要重新收集数据并从头训练，无法直接复用。

使用 CLIP4Clip 后

语义检索精准：利用基于 CLIP 的端到端架构，直接输入自然语言描述即可精准定位视频片段，轻松处理复杂场景和动作描述。
落地速度飞快：借助预训练的 ViT-B/32 权重和成熟的相似度计算模块（如 seqTransf），团队仅需数天即可完成数据微调并部署上线。
性能达到顶尖：在 MSR-VTT 等基准测试中验证的 SOTA 效果，显著提升了实际业务中的检索命中率，大幅减少人工二次筛选的工作量。
零样本泛化强：得益于 CLIP 强大的预训练知识，模型在面对未见过的视频类型时，依然能保持较高的检索鲁棒性，无需频繁重训。

CLIP4Clip 通过将先进的图文预训练模型迁移至视频领域，彻底解决了跨模态视频检索中“理解难、训练慢、精度低”的核心痛点。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU，支持 CUDA 11.0
根据运行命令 (--nproc_per_node=4 或 8)，推荐多卡环境（4-8 张显卡），单卡显存建议 16GB+ 以支持 batch_size=128 的训练

内存

未说明

依赖

notes1. 必须预先下载 CLIP 预训练权重文件 (ViT-B/32 或 ViT-B/16) 到 ./modules 目录。 2. 支持多种视频检索数据集 (MSRVTT, MSVD, LSMDC, ActivityNet, DiDeMo)，部分数据集需单独申请权限或手动下载。 3. 可选使用脚本压缩视频至 3fps 以提升处理速度。 4. 对于 ActivityNet 和 DiDeMo 数据集，由于是视频 - 段落检索任务，明确需要更多 GPU (8 卡) 或多节点运行。

python未说明 (基于 PyTorch 1.7.1 环境，通常对应 Python 3.6-3.8)

pytorch==1.7.1

torchvision

cudatoolkit==11.0

ftfy

regex

tqdm

opencv-python

boto3

requests

pandas

快速开始

CLIP4Clip：CLIP在端到端视频片段检索中的实证研究

(2021年7月28日) 添加了ViT-B/16，并增加了一个--pretrained_clip_name参数。

(2021年4月22日) 初版

这是论文【CLIP4Clip：CLIP在端到端视频片段检索中的实证研究】的实现，该论文发表于arXiv。

CLIP4Clip是一个基于CLIP (ViT-B)的视频-文本检索模型。在本工作中，我们探讨了三种相似度计算方法：无参数型、序列型和紧密型。该模型在MSR-VTT、MSVD、LSMDC、ActivityNet和DiDeMo数据集上均取得了当前最优性能。

CLIP4Clip

环境要求

# 基于CLIP
conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=11.0
pip install ftfy regex tqdm
pip install opencv-python boto3 requests pandas

数据准备

针对MSRVTT

官方数据及视频链接可在这里找到。

为方便起见，您也可以通过以下命令下载划分和字幕：

wget https://github.com/ArrowLuo/CLIP4Clip/releases/download/v0.0/msrvtt_data.zip

此外，原始视频可从Frozen in Time的共享资源中获取，具体如下：

wget https://www.robots.ox.ac.uk/~maxbain/frozen-in-time/data/MSRVTT.zip

针对MSVD

原始视频可从这里下载。

划分和raw_captions可在优秀的项目collaborative-experts中找到。为方便起见，您也可以通过以下命令下载：

wget https://github.com/ArrowLuo/CLIP4Clip/releases/download/v0.0/msvd_data.zip

针对LSMDC

您必须获得MPII的许可才能下载和使用该数据集。下载链接在此处：这里。测试集的1000个片段数据可在这里找到。更多信息请参阅我们的论文以及dataloader。

针对ActivityNet

官方网站已将完整数据集上传至Google Drive和百度网盘，详情请见这里。划分可在collaborative-experts项目中找到。

针对DiDeMo

原始视频可从LisaAnne/LocalizingMoments下载。划分则可在collaborative-experts项目中找到。

视频压缩以提升速度（可选）

python preprocess/compress_video.py --input_root [原始视频路径] --output_root [压缩后视频路径]

此脚本会将视频压缩至3fps，宽度为224（或高度为224）。您可以根据需要修改相关参数。

运行方法

--features_path 是视频根目录路径

--linear_patch 可设置为 2d 或 3d

--sim_header 可设置为 meanP、seqLSTM、seqTransf 或 tightTransf

--pretrained_clip_name 可设置为 ViT-B/32 或 ViT-B/16

--resume_model 可用于重新加载保存的优化器状态，以继续训练模型，注意：需同时通过--init_model指定相应的检查点。

有关--linear_patch和--sim_header的更多细节，请参阅我们的论文。尝试调整更多超参数以获得更好的性能。

下载CLIP (ViT-B/32)权重：

wget -P ./modules https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.pt

或者，下载CLIP (ViT-B/16)权重：

wget -P ./modules https://openaipublic.azureedge.net/clip/models/5806e77cd80f8b59890b7e101eabd078d9fb84e6937f9e85e4ecb61988df416f/ViT-B-16.pt

然后运行：

论文中默认使用CLIP (ViT-B/32)，但为了获得更好的性能，可以替换为ViT-B/16。

MSRVTT

DATA_PATH=[您的MSRVTT数据和视频路径]
python -m torch.distributed.launch --nproc_per_node=4 \
main_task_retrieval.py --do_train --num_thread_reader=0 \
--epochs=5 --batch_size=128 --n_display=50 \
--train_csv ${DATA_PATH}/MSRVTT_train.9k.csv \
--val_csv ${DATA_PATH}/MSRVTT_JSFUSION_test.csv \
--data_path ${DATA_PATH}/MSRVTT_data.json \
--features_path ${DATA_PATH}/MSRVTT_Videos \
--output_dir ckpts/ckpt_msrvtt_retrieval_looseType \
--lr 1e-4 --max_words 32 --max_frames 12 --batch_size_val 16 \
--datatype msrvtt --expand_msrvtt_sentences  \
--feature_framerate 1 --coef_lr 1e-3 \
--freeze_layer_num 0  --slice_framepos 2 \
--loose_type --linear_patch 2d --sim_header meanP \
--pretrained_clip_name ViT-B/32

MSVD

DATA_PATH=[您的MSVD数据和视频路径]
python -m torch.distributed.launch --nproc_per_node=4 \
main_task_retrieval.py --do_train --num_thread_reader=2 \
--epochs=5 --batch_size=128 --n_display=50 \
--data_path ${DATA_PATH} \
--features_path ${DATA_PATH}/MSVD_Videos \
--output_dir ckpts/ckpt_msvd_retrieval_looseType \
--lr 1e-4 --max_words 32 --max_frames 12 --batch_size_val 16 \
--datatype msvd \
--feature_framerate 1 --coef_lr 1e-3 \
--freeze_layer_num 0 --slice_framepos 2 \
--loose_type --linear_patch 2d --sim_header meanP \
--pretrained_clip_name ViT-B/32

LSMDC

DATA_PATH=[您的LSMDC数据和视频路径]
python -m torch.distributed.launch --nproc_per_node=4 \
main_task_retrieval.py --do_train --num_thread_reader=2 \
--epochs=5 --batch_size=128 --n_display=50 \
--data_path ${DATA_PATH} \
--features_path ${DATA_PATH}/LSMDC_Videos \
--output_dir ckpts/ckpt_lsmdc_retrieval_looseType \
--lr 1e-4 --max_words 32 --max_frames 12 --batch_size_val 16 \
--datatype lsmdc --feature_framerate 1 --coef_lr 1e-3 \
--freeze_layer_num 0  --slice_framepos 2 \
--loose_type --linear_patch 2d --sim_header meanP \
--pretrained_clip_name ViT-B/32

ActivityNet

在我们的设置中，ActivityNet被视为视频-段落检索任务，因此需要更多的GPU（或采用多节点运行）。

DATA_PATH=[您的ActivityNet数据和视频路径]
python -m torch.distributed.launch --nproc_per_node=8 \
main_task_retrieval.py --do_train --num_thread_reader=2 \
--epochs=5 --batch_size=128 --n_display=50 \
--data_path ${DATA_PATH} \
--features_path ${DATA_PATH}/Activity_Videos \
--output_dir ckpts/ckpt_activity_retrieval_looseType \
--lr 1e-4 --max_words 64 --max_frames 64 --batch_size_val 16 \
--datatype activity --feature_framerate 1 --coef_lr 1e-3 \
--freeze_layer_num 0  --slice_framepos 2 \
--loose_type --linear_patch 2d --sim_header meanP \
--pretrained_clip_name ViT-B/32

DiDeMo

在我们的场景中，DiDeMo 被视为视频-段落检索任务，因此需要更多的 GPU（或使用多节点运行）。

DATA_PATH=[您存放 DiDeMo 数据和视频的路径]
python -m torch.distributed.launch --nproc_per_node=8 \
main_task_retrieval.py --do_train --num_thread_reader=2 \
--epochs=5 --batch_size=128 --n_display=50 \
--data_path ${DATA_PATH} \
--features_path ${DATA_PATH}/DiDeMo_Videos \
--output_dir ckpts/ckpt_didemo_retrieval_looseType \
--lr 1e-4 --max_words 64 --max_frames 64 --batch_size_val 16 \
--datatype didemo --feature_framerate 1 --coef_lr 1e-3 \
--freeze_layer_num 0  --slice_framepos 2 \
--loose_type --linear_patch 2d --sim_header meanP \
--pretrained_clip_name ViT-B/32

引用

如果您在工作中觉得 CLIP4Clip 很有用，可以引用以下论文：

@Article{Luo2021CLIP4Clip,
  author  = {Huaishao Luo 和 Lei Ji 和 Ming Zhong 和 Yang Chen 和 Wen Lei 和 Nan Duan 和 Tianrui Li},
  title   = {{CLIP4Clip}: 一种针对端到端视频片段检索的 CLIP 实证研究},
  journal = {arXiv 预印本 arXiv:2104.08860},
  year    = {2021},
}

致谢

我们的代码基于 CLIP 和 UniVL。

CLIP4Clip 快速上手指南

CLIP4Clip 是一个基于 CLIP 模型的视频 - 文本检索工具，支持端到端的视频片段检索。它在 MSR-VTT、MSVD、LSMDC、ActivityNet 和 DiDeMo 等多个数据集上取得了 SOTA 结果。

1. 环境准备

系统要求

操作系统: Linux (推荐)
GPU: 支持 CUDA 的 NVIDIA 显卡（训练建议多卡）
Python: 3.x
CUDA: 11.0

前置依赖安装

建议使用 Conda 创建独立环境并安装依赖：

# 创建并激活环境（可选）
conda create -n clip4clip python=3.8
conda activate clip4clip

# 安装 PyTorch 及相关组件
conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=11.0

# 安装其他 Python 依赖
pip install ftfy regex tqdm
pip install opencv-python boto3 requests pandas

提示：国内用户可使用清华或阿里镜像源加速 pip 安装，例如：pip install -i https://pypi.tuna.tsinghua.edu.cn/simple <package>

2. 安装步骤

克隆项目代码并下载预训练权重：

# 克隆仓库（假设已 git clone 本项目）
cd CLIP4Clip

# 下载 CLIP (ViT-B/32) 预训练权重（默认）
wget -P ./modules https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.pt

# 或者下载性能更好的 CLIP (ViT-B/16) 权重
wget -P ./modules https://openaipublic.azureedge.net/clip/models/5806e77cd80f8b59890b7e101eabd078d9fb84e6937f9e85e4ecb61988df416f/ViT-B-16.pt

3. 数据准备与预处理

下载数据集

以 MSRVTT 为例，下载处理好的分割文件和字幕：

wget https://github.com/ArrowLuo/CLIP4Clip/releases/download/v0.0/msrvtt_data.zip
unzip msrvtt_data.zip

原始视频需从官方渠道或第三方存储获取（参考 README 中的链接）。其他数据集（MSVD, LSMDC, ActivityNet, DiDeMo）同理。

视频压缩（可选，加速读取）

将视频压缩为 3fps，分辨率宽或高为 224：

python preprocess/compress_video.py --input_root [raw_video_path] --output_root [compressed_video_path]

4. 基本使用

以下是在 MSRVTT 数据集上进行训练的最低限度示例命令。请替换 [Your MSRVTT data and videos path] 为实际路径。

DATA_PATH=[Your MSRVTT data and videos path]

python -m torch.distributed.launch --nproc_per_node=4 \
main_task_retrieval.py --do_train --num_thread_reader=0 \
--epochs=5 --batch_size=128 --n_display=50 \
--train_csv ${DATA_PATH}/MSRVTT_train.9k.csv \
--val_csv ${DATA_PATH}/MSRVTT_JSFUSION_test.csv \
--data_path ${DATA_PATH}/MSRVTT_data.json \
--features_path ${DATA_PATH}/MSRVTT_Videos \
--output_dir ckpts/ckpt_msrvtt_retrieval_looseType \
--lr 1e-4 --max_words 32 --max_frames 12 --batch_size_val 16 \
--datatype msrvtt --expand_msrvtt_sentences \
--feature_framerate 1 --coef_lr 1e-3 \
--freeze_layer_num 0 --slice_framepos 2 \
--loose_type --linear_patch 2d --sim_header meanP \
--pretrained_clip_name ViT-B/32

关键参数说明

--features_path: 视频文件根目录。
--linear_patch: 特征提取方式，可选 2d 或 3d。
--sim_header: 相似度计算方式，可选 meanP, seqLSTM, seqTransf, tightTransf。
--pretrained_clip_name: 预训练模型版本，可选 ViT-B/32 或 ViT-B/16（推荐后者以获得更好性能）。
--nproc_per_node: 使用的 GPU 数量。

注意：对于 ActivityNet 和 DiDeMo 等视频 - 段落检索任务，建议增加 --nproc_per_node 至 8 或更多，并调整 --max_words 和 --max_frames 参数。

版本历史

v0.02021/04/22

常见问题

在 ActivityNet 数据集上复现 CLIP4Clip (meanP) 时，性能远低于论文报告值（如 R@1 37.9 vs 40.5），可能是什么原因？

如何获取项目中使用的预训练权重文件 "cross_pytorch_model.bin"？

在 MSRVTT 数据集上训练时遇到 `subprocess.CalledProcessError` 错误，且退出状态为 1，如何解决？

在 DiDeMo 数据集上复现 `meanP` 和 `seqTransf` 模型时，结果远低于论文数值（如 R@1 40.5 vs 43.4），有哪些调优建议？

在新数据集上训练时损失函数不收敛（loss 为 0 或不变），应该如何调整？

无法完全复现论文中的 MSRVTT 结果（如 R@1 43.2 vs 44.5），即使配置相同，这是正常现象吗？

分布式训练 (DDP) 时，每台机器启动的进程数是 GPU 数量的两倍（其中一半休眠），这是什么原因？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|6天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架