MiniGPT4-video

639 71 较难 1 次阅读 5天前BSD-3-Clause视频其他语言模型

AI 解读由 AI 自动生成，仅供参考

MiniGPT4-video 是一款专注于短视频理解的多模态大语言模型，同时也是处理长视频任务的金鱼（Goldfish）模型的重要组件。它主要解决了现有 AI 在处理视频时面临的两大难题：一是难以高效分析长达数分钟甚至数小时的视频内容，二是无法有效过滤视频中的冗余信息并精准定位关键片段。

通过引入“交错视觉 - 文本令牌”技术，MiniGPT4-video 能够为视频片段生成详尽的描述，不仅自身在短视频问答任务中表现卓越，超越了多个主流基准测试的最优结果，还作为核心检索机制助力 Goldfish 模型实现对任意长度视频（如整部电影或剧集）的高效理解。系统会先利用该技术快速筛选出与用户指令最相关的视频片段，再进行深度分析，从而大幅降低计算成本并提升回答准确率。

这款工具非常适合人工智能研究人员、开发者以及需要处理海量视频数据的企业团队使用。无论是希望探索长视频理解前沿算法的学者，还是致力于开发智能视频摘要、剧情问答应用的工程师，都能从中获得强大的技术支持。目前，相关代码、论文及在线演示均已开源，欢迎各界人士体验与交流。

使用场景

某视频内容审核团队需要每日处理数千条用户上传的短视频，快速识别其中是否包含违规动作或特定危险行为。

没有 MiniGPT4-video 时

理解碎片化：传统模型只能识别单帧画面，无法连贯理解“先拿起瓶子再泼洒”这类跨帧的动态因果关系，导致大量误判。
描述能力弱：模型仅能输出简单的标签（如“人”、“车”），无法生成详细的自然语言描述，审核员仍需人工逐帧回看确认细节。
交互成本高：无法通过自然语言提问（例如“视频中有人摔倒吗？”），必须依赖预先训练好的固定分类器，灵活性极差。
长上下文丢失：面对稍长的视频片段，模型容易遗忘开头的关键信息，难以回答涉及视频整体逻辑的复杂问题。

使用 MiniGPT4-video 后

动态逻辑精准捕捉：MiniGPT4-video 利用交错视觉 - 文本令牌技术，能完整理解视频中的时间序列动作，准确判断复杂的违规行为链条。
生成式详细报告：工具可直接生成流畅的视频内容摘要，详细描述人物动作与环境变化，大幅减少人工复核的时间成本。
自然语言自由问答：审核员可以直接输入“是否有人员未佩戴安全帽？”等具体问题，MiniGPT4-video 能即时定位并回答，无需重新训练模型。
全片记忆无遗漏：即使在较短的视频理解任务中，该工具也能保持对全程内容的敏锐感知，确保关键线索不被遗漏，准确率显著提升。

MiniGPT4-video 通过将视频转化为可对话的多模态数据，让机器真正具备了“看懂”视频逻辑并像人类一样交流的能力。

运行环境要求

操作系统

Linux

GPU

必需 NVIDIA GPU
训练脚本使用 torchrun 并支持多卡 (--nproc-per-node)，具体显存需求未说明，但运行 Llama2 7B/Mistral 7B 多模态模型通常建议 16GB-24GB+ 显存
CUDA 版本未明确说明，需匹配 PyTorch 版本

内存

未说明 (建议 32GB+ 以处理视频数据)

依赖

notes1. 必须通过 'conda env create -f environment.yml' 创建环境，具体依赖版本需查看该文件。2. 项目包含两个模型：MiniGPT4-Video（短视频）和 Goldfish（长视频）。3. Goldfish 长视频理解功能推荐配置 OPENAI_API_KEY 环境变量以使用 OpenAI Embedding 获得最佳性能，否则使用默认嵌入。4. 需手动下载预训练检查点（Llama2 或 Mistral 版本）并配置路径。5. 训练分为图像文本预训练和视频字幕预训练等阶段，需自行准备 LAION、Webvid 等数据集并配置路径。

python未说明 (通过 environment.yml 创建 conda 环境，通常对应 Python 3.8 或 3.9)

torch

transformers

accelerate

opencv-python

decord

timm

sentencepiece

gradio

快速开始

[ECCV 2024 接受]金鱼：任意长度视频的视觉-语言理解

[CVPR2024W]MiniGPT4-Video：通过交错的视觉-文本标记推进用于视频理解的多模态大模型

本仓库包含用于短视频理解的MiniGPT4-video和用于长视频理解的金鱼的代码。

在线演示

项目页面 📝 arXiv论文 🤗 TVQA-Long数据集

🎞️ 项目页面 📝 arXiv论文

Goldfish_teaser_fig

概述

当前大多数基于大模型的视频理解模型能够处理几分钟以内的视频，但在处理较长视频时却面临“噪声与冗余挑战”以及“内存与计算挑战”。在本文中，我们提出了金鱼方法，该方法专为理解任意长度的视频而设计。同时，我们还引入了TVQA-long基准，专门用于评估模型在理解和回答涉及视觉与文本内容问题的长视频方面的能力。金鱼通过一种高效的检索机制来应对这些挑战：首先根据指令筛选出最相关的前k个视频片段，然后再生成所需的响应。这种检索机制的设计使得金鱼能够高效地处理任意长度的视频序列，从而使其适用于电影或电视剧等场景。为了便于检索过程，我们开发了MiniGPT4-Video，它可以为视频片段生成详细的描述。针对长视频评估基准稀缺的问题，我们将TVQA短视频基准扩展应用于更长内容的分析，通过汇总整集节目中的问题，将评估重点从部分片段转向整集的理解。我们在TVQA-long基准上取得了41.78%的准确率，比现有方法高出14.94%。我们的MiniGPT4-Video在短视频理解方面也表现出色，在MSVD、MSRVTT、TGIF和TVQA短视频基准上分别超越了现有最先进方法3.23%、2.03%、16.5%和23.59%。这些结果表明，我们的模型在长视频和短视频理解方面都取得了显著提升。

金鱼框架（长视频）

methodology
Gold ish demo

MiniGPT4-Video （短视频）

methodology

demo_1 demo_2 demo_3

:rocket: 演示

1. 克隆仓库

git clone https://github.com/Vision-CAIR/MiniGPT4-video.git
cd MiniGPT4-video

2. 配置环境

conda env create -f environment.yml

3. 下载检查点

MiniGPT4-Video (Llama2 Chat 7B)	MiniGPT4-Video (Mistral 7B)
下载	下载

4. 运行演示
Goldfish 演示

# 为获得推荐性能，请在以下命令中添加参数 --use_openai_embedding True，并将 API 密钥设置到环境变量 OPENAI_API_KEY 中；否则模型将使用默认嵌入。
export OPENAI_API_KEY="your_openai_key" 
# Llama2
python goldfish_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml 
# Mistral
python goldfish_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/mistral_test_config.yaml

MiniGPT4-Video 演示

# Llama2
python minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml
# Mistral
python minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/mistral_test_config.yaml

推理

按照上述步骤操作，然后用此步骤替换第 4 步
Goldfish 推理

# 为获得推荐性能，请在以下命令中添加参数 --use_openai_embedding True，并将 API 密钥设置到环境变量 OPENAI_API_KEY 中；否则模型将使用默认嵌入。
export OPENAI_API_KEY="your_openai_key" 
# Llama2
python goldfish_inference.py --ckpt path_to_llama2_checkpoint --cfg-path test_configs/llama2_test_config.yaml --video_path path_to_video --question "Your question here" 
# Mistral
python goldfish_inference.py --ckpt path_to_mistral_checkpoint --cfg-path test_configs/mistral_test_config.yaml --video_path path_to_video --question "Your question here"

MiniGPT4-Video 推理

# Llama2
python minigpt4_video_inference.py --ckpt path_to_llama2_checkpoint --cfg-path test_configs/llama2_test_config.yaml --video_path path_to_video --question "Your question here" 
# Mistral
python minigpt4_video_inference.py --ckpt path_to_mistral_checkpoint --cfg-path test_configs/mistral_test_config.yaml --video_path path_to_video --question "Your question here"

:fire: 训练

对于 Goldfish 和 MiniGPT4-Video，唯一需要训练的部分是 MiniGPT4-Video 模型。

为您的专属视频-文本数据集定制 MiniGPT4-Video

您可以在 Custom_training.md 中找到为您的视频-文本数据集定制 MiniGPT4-Video 的步骤。

训练数据集

下载以下数据集后，请前往数据集配置文件夹 minigpt4/configs/datasets，在那里设置每个数据集的路径。
图像-文本训练
您可以在 MiniGPT4 中找到下载这些数据集的步骤。

LAION
Conceptual Captions
SBU

视频-文本训练：

您可以在这里找到视频-文本数据集的标注文件下载

模型训练：

您可以在下面的每个 script.sh 文件中调整 GPU 数量。

第一阶段（图像-文本预训练）

您可以直接下载与 Llama2 对齐的预训练 MiniGPT4 检查点。

或者自行训练：

# 预训练
# Llama2
torchrun --nproc-per-node NUM_GPU train.py --cfg-path train_configs/224_minigpt4_llama2_image.yaml
# Mistral
torchrun --nproc-per-node NUM_GPU train.py --cfg-path train_configs/224_minigpt4_mistral_image.yaml

# 对齐
# 要启动第二阶段对齐，首先指定在预训练阶段训练好的检查点文件路径。
# Llama2
torchrun --nproc-per-node NUM_GPU train.py --cfg-path train_configs/224_minigpt4_llama2_image_align.yaml
# Mistral
torchrun --nproc-per-node NUM_GPU train.py --cfg-path train_configs/224_minigpt4_mistral_image_align.yaml

您可以从这里下载我们在此阶段训练好的权重 Llama2 Mistral

第二阶段（视频字幕预训练）

对于 Llama2
将脚本中的 cfg-path 设置为 train_configs/224_v2_llama2_video_stage_2.yaml
并将模型名称在此处设置为 minigpt4/configs/datasets/cmd_video/default.yaml 和 minigpt4/configs/datasets/webvid/default.yaml 为 llama2
对于 Mistral
将脚本中的 cfg-path 设置为 train_configs/224_v2_mistral_video_stage_2.yaml
并将模型名称在此处设置为 minigpt4/configs/datasets/cmd_video/default.yaml 和 minigpt4/configs/datasets/webvid/default.yaml 为 mistral

bash training_scripts/stage_2.sh

您可以从这里下载我们在此阶段训练好的权重 Llama2 Mistral

第三阶段（视频指令微调）

对于 Llama2
将脚本中的 cfg-path 设置为 train_configs/224_v2_llama2_video_stage_3.yaml
并将模型名称在此处设置为 minigpt4/configs/datasets/video_chatgpt/default.yaml 为 llama2

对于 Mistral
将脚本中的 cfg-path 设置为 train_configs/224_v2_mistral_video_stage_3.yaml
并将模型名称在此处设置为 minigpt4/configs/datasets/video_chatgpt/default.yaml 为 mistral

bash training_scripts/stage_3.sh

您可以从这里下载我们在此阶段训练好的权重 Llama2 Mistral

:zap: MiniGPT4-Video 评估

要复现结果，请使用每个模型的最佳检查点：
Llama2 Mistral
我们采用了与Video-ChatGPT相同的评估方法。

方法	使用字幕	信息正确性	细节导向性	上下文理解	时间顺序理解	一致性
LLaMA Adapter	:x:	2.03	2.32	2.30	1.98	2.15
Video LLaMA	:x:	1.96	2.18	2.16	1.82	1.79
Video Chat	:x:	2.23	2.50	2.53	1.94	2.24
Video-ChatGPT	:x:	2.40	2.52	2.62	1.98	2.37
BT-Adapter-7B	:x:	2.68	2.69	3.27	2.34	2.46
LLaMA-VID-7B	:x:	2.96	3.00	3.53	2.46	2.51
我们的7B Llama2	:x:	2.93	2.97	3.45	2.47	2.60
我们的7B Llama2	:white_check_mark:	3.08	3.02	3.57	2.65	2.67
我们的7B Mistral	:x:	2.83	2.52	3.01	2.32	2.40
我们的7B Mistral	:white_check_mark:	2.91	2.57	3.11	2.33	2.39

方法	使用字幕	MSVD 准确率↑	MSVD 分数↑	MSRVTT 准确率↑	MSRVTT 分数↑	TGIF 准确率↑	TGIF 分数↑	ActivityNet 准确率↑	ActivityNet 分数↑	TVQA 准确率↑
FrozenBiLM	:x:	32.2	--	16.8	--	41	--	24.7	--	29.7
LLaMA Adapter	:x:	54.9	3.1	43.8	2.7	--	--	34.2	2.7	--
Video LLaMA	:x:	51.6	2.5	29	1.8	--	--	12.4	1.1	--
Video Chat	:x:	56.3	2.8	45	2.5	34.4	2.3	26.5	2.2	--
Video-ChatGPT	:x:	64.9	3.3	49.3	2.8	51.4	3.0	35.2	2.7	23.35
BT-Adapter-7B	:x:	67.7	3.7	57	3.2	--	--	45.7	3.2	--
LLaMA-VID-7B	:x:	69.7	3.7	57.7	3.2	--	--	47.4	3.3	--
我们的7B LLama2	:x:	72.93	3.84	58.83	3.29	67.9	3.71	45.85	3.23	36.45
我们的7B Llama2	:white_check_mark:	72.93	3.84	59.73	3.3	67.9	3.71	46.3	3.4	46.94
我们的7B Mistral	:x:	73.92	4.06	58.26	3.52	72.22	4.08	44.25	3.35	33.90
我们的7B Mistral	:white_check_mark:	73.92	4.06	58.68	3.53	72.22	4.08	44.38	3.36	54.21

下载用于评估的数据集

您可以在Hugging Face上找到评估数据集的标注文件。

MSR-VTT和ActivityNet的字幕可在此下载：download 请注意，这些字幕是使用Whisper模型生成的。
TVQA的字幕可以从这里下载。

运行评估脚本

在脚本中设置每个评估脚本的参数：

NAME="" # 实验名称
BATCH_SIZE=8 # 批量大小 
CKPT_PATH="" # 检查点路径
DATASET="msvd" # 数据集名称，可用数据集：tvqa、msrvtt、msvd、activitynet、tgif、video_chatgpt_generic、video_chatgpt_temporal、video_chatgpt_consistency
# 设置数据集文件的路径
videos_path="" # 视频文件路径
subtitles_path="" # 字幕文件路径，如果是msrvtt、activitynet或tvqa，则填写；否则留空
ann_path="" # 注释文件路径
cfg_path="" # 配置文件路径

bash evaluation/minigpt4_video_eval/minigpt4_video_evalualtion.sh

然后使用GPT3.5 turbo将预测结果与真实答案进行比较，并生成准确率和分数。
在evaluate_benchmark.sh和evaluate_zeroshot.sh中设置以下变量：

PRED="预测结果路径"
OUTPUT_DIR="输出目录路径"
API_KEY="openAI密钥"
NUM_TASKS=128

然后，要评估[Video-ChatGPT基准]，运行以下脚本：

bash GPT_evaluation/evaluate_benchmark.sh

要评估开放式问题，运行以下脚本：

bash GPT_evaluation/evaluate_zeroshot.py

:zap: Goldfish 评估

针对四个基准的长视频评测结果：LLama-Vid、MovieChat、Movie QA以及我们提出的TVQA-Long。其中“V”模态表示仅使用视频帧，“V+T”表示同时使用视频帧和字幕

方法	模态	LLama-Vid 准确率↑	LLama-Vid 分数↑	MovieChat 准确率↑	MovieChat 分数↑	Movie QA 准确率↑	Movie QA 分数↑	TVQA-Long 准确率↑	TVQA-Long 分数↑
LLAMA-VID	V	20.68	2.41	53.2	3.81	24.42	2.19	24.63	2.16
MovieChat	V	11.71	1.45	NA	NA	16.18	1.68	5.0	0.86
我们	V	23.09	2.19	67.6	4.23	28.49	2.8	28.61	2.78
LLAMA-VID	V+T	41.4†	3.07†	NA	NA	37.65†	3.03†	26.86	2.21
我们	V+T	31.49	2.48	NA	NA	35.24	3.1	41.78	3.21

注：符号†表示该方法在训练时已使用过该基准，这意味着比较并不公平。

要复现结果，请使用checkpoints/video_llama_checkpoint_last.pth，并启用OpenAI嵌入--use_openai_embedding=True。

下载用于评估的数据集

对于 Llama-vid 和 MovieQA：
请从这里下载包含电影和标注的原始 MovieNet 数据。
这些将是 Llama-vid 和 MovieQA 的源视频。

如论文中所示并用于评估的过滤后标注：

Llama-vid
MovieQA
对于 Moviechat，在本工作中可用的视频仅为训练数据的 10%，这也是我们用于评估的数据，可在此处找到：这里。
完整数据集可在此处找到：这里。
对于 TVQA-Long：
如果您想将 TVQA-Long 用于其他模型（如 llama-vid），则视频和标注均可在此处找到：TVQA-Long。
在 Goldfish 评估中，我们将使用来自原始 TVQA 数据集的分离片段。

运行评估脚本

# Llama-vid 评估
# 在脚本中设置以下参数：
videos_path="视频路径"
subtitle_path="字幕路径"
video_clips_saving_path="保存视频片段的路径"
annotation_file="标注文件路径"
movienet_annotations_dir="MovieNet 标注目录路径"
NEIGHBOURS=3
use_openai_embedding="是否使用 OpenAI 嵌入"
# 然后运行脚本
bash evaluation/Goldfish_eval/movies/eval_model_summary_llama_vid.sh

# MovieQA 评估
# 同上，但将脚本中的参数设置为 MovieQA 的路径
bash evaluation/Goldfish_eval/movies/eval_model_summary_movie_qa.sh

# MovieChat 评估
# 在脚本中设置以下参数：
dataset_path="电影文件夹路径"
annotation_json_folder="JSON 文件夹路径"
# 然后运行脚本
bash evaluation/Goldfish_eval/movies/eval_model_summary_movie_chat.sh

TVQA-Long

在 Goldfish 评估中，我们可以使用原始 TVQA 数据集中分离出的片段。
请从这里下载原始 TVQA 视频及短片字幕。
TVQA-Long 的标注文件可在这里获取。
TVQA 的 JSON 字幕文件可在这里获取。

# 在脚本中设置以下参数：
tvqa_json_subtitles="TVQA JSON 字幕文件路径"
tvqa_clips_subtitles="TVQA 片段字幕路径"
videos_frames="视频帧路径"
tvqa_long_annotation="TVQA-Long 标注文件路径"
NEIGHBOURS=3
use_openai_embedding="是否使用 OpenAI 嵌入"
# 然后运行脚本
bash evaluation/Goldfish_eval/tvqa_eval/eval_model_summary.sh

随后使用 GPT-3.5 turbo 将预测结果与真实答案进行对比，并生成准确率和得分。
在 evaluate_zeroshot.sh 中设置以下变量：

PRED="预测结果路径"
OUTPUT_DIR="输出目录路径"
API_KEY="OpenAI API 密钥"
NUM_TASKS=128

要评估开放式问题，请运行以下脚本：

bash GPT_evaluation/evaluate_zeroshot.sh

引用

如果您在研究或应用中使用 MiniGPT4-Video 或 Goldfish，请使用以下 BibTeX 格式引用：

@misc{ataallah2024goldfishvisionlanguageunderstandingarbitrarily,
      title={Goldfish: Vision-Language Understanding of Arbitrarily Long Videos}, 
      author={Kirolos Ataallah and Xiaoqian Shen and Eslam Abdelrahman and Essam Sleiman and Mingchen Zhuge and Jian Ding and Deyao Zhu and Jürgen Schmidhuber and Mohamed Elhoseiny},
      year={2024},
      eprint={2407.12679},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2407.12679}, 
}
@article{ataallah2024minigpt4,
  title={MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens},
  author={Ataallah, Kirolos and Shen, Xiaoqian and Abdelrahman, Eslam and Sleiman, Essam and Zhu, Deyao and Ding, Jian and Elhoseiny, Mohamed},
  journal={arXiv preprint arXiv:2404.03413},
  year={2024}
}

致谢

MiniGPT4
Video-ChatGPT

许可证

本仓库采用 BSD 3-Clause 许可证。许多代码基于 MiniGPT4。

MiniGPT4-video 快速上手指南

MiniGPT4-video 是一个先进的多模态大语言模型，专为视频理解设计。本仓库包含两个核心模型：

MiniGPT4-Video：擅长处理短视频理解，通过交错视觉 - 文本令牌提升性能。
Goldfish：专为任意长度长视频设计，通过高效检索机制解决长视频中的噪声冗余及显存计算挑战。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux (推荐 Ubuntu 18.04+)
GPU：NVIDIA GPU (建议显存 16GB 以上，具体取决于模型大小)
软件依赖：
- Python 3.8+
- Conda (用于环境管理)
- CUDA Toolkit (与您的显卡驱动匹配)
- Git

2. 安装步骤

2.1 克隆代码库

git clone https://github.com/Vision-CAIR/MiniGPT4-video.git
cd MiniGPT4-video

2.2 创建并激活虚拟环境

使用提供的 environment.yml 文件创建 Conda 环境：

conda env create -f environment.yml
conda activate minigpt4-video

(注：如果下载依赖较慢，可尝试配置国内镜像源，如清华源或阿里源)

2.3 下载模型检查点

根据需求选择下载 Llama2 或 Mistral 版本的预训练权重：

模型版本	下载链接
MiniGPT4-Video (Llama2 Chat 7B)	Download
MiniGPT4-Video (Mistral 7B)	Download

下载后，请记下检查点文件的路径（例如：./checkpoints/video_llama_checkpoint_last.pth）。

3. 基本使用

本部分展示如何运行推理脚本对单个视频进行问答。

3.1 设置环境变量 (仅 Goldfish/长视频推荐)

如果您使用 Goldfish 处理长视频，为了获得最佳检索性能，建议配置 OpenAI API Key 以使用高质量 Embedding。如果不配置，模型将使用默认 Embedding。

export OPENAI_API_KEY="your_openai_key"

3.2 运行推理示例

请根据您的模型类型（Llama2 或 Mistral）和应用场景（短视频 MiniGPT4-Video 或长视频 Goldfish）选择以下命令之一。

场景 A：短视频理解 (MiniGPT4-Video)

适用于几分钟内的短视频分析。

使用 Llama2 版本：

python minigpt4_video_inference.py --ckpt path_to_llama2_checkpoint --cfg-path test_configs/llama2_test_config.yaml --video_path path_to_video --question "Your question here"

使用 Mistral 版本：

python minigpt4_video_inference.py --ckpt path_to_mistral_checkpoint --cfg-path test_configs/mistral_test_config.yaml --video_path path_to_video --question "Your question here"

场景 B：长视频理解 (Goldfish)

适用于电影、电视剧集等长视频内容分析。

使用 Llama2 版本：

python goldfish_inference.py --ckpt path_to_llama2_checkpoint --cfg-path test_configs/llama2_test_config.yaml --video_path path_to_video --question "Your question here"

使用 Mistral 版本：

python goldfish_inference.py --ckpt path_to_mistral_checkpoint --cfg-path test_configs/mistral_test_config.yaml --video_path path_to_video --question "Your question here"

参数说明：

--ckpt: 替换为您下载的 .pth 检查点文件的实际路径。

--video_path: 替换为您本地视频文件的实际路径。

--question: 替换为您想要询问关于视频的具体问题。

--cfg-path: 配置文件路径，通常无需修改，保持默认即可。

3.3 启动交互式 Demo (可选)

如果您希望启动一个本地的交互式界面进行测试，可以使用以下命令：

MiniGPT4-Video Demo:

# Llama2
python minigpt4_video_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml

Goldfish Demo:

# Llama2 (如需开启 OpenAI Embedding 优化，请确保已 export OPENAI_API_KEY)
python goldfish_demo.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml

常见问题

为什么我复现的 Mistral-7b 模型评估结果低于论文中报告的结果？

是否尝试过使用 TinyLlama 或 Phi-2 等小型语言模型？

运行 minigpt4_video_inference.py 时只下载了 YouTube 视频，没有进行其他操作怎么办？

如何为 eval_goldfish_movie_chat.py 生成所需的 .h5 文件？

运行时遇到 'TypeError: forward() got an unexpected keyword argument cache_position' 错误如何解决？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 153.6k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|3天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|5天前

语言模型数据工具其他