LLaMA-VID

862 52 较难 1 次阅读 1周前Apache-2.0语言模型视频其他

AI 解读由 AI 自动生成，仅供参考

LLaMA-VID 是一款专为长视频理解设计的开源多模态大模型，其核心理念是“一张图像仅需两个令牌”。它基于强大的 LLaVA 框架构建，旨在突破现有模型在处理长视频时的上下文长度限制，让 AI 能够真正“看懂”并讨论长达数小时的电影或视频内容。

传统视频分析模型往往受限于显存和计算能力，难以处理超长序列，或者需要极高的计算成本。LLaMA-VID 通过独特的令牌生成策略，将视觉信息高效压缩为上下文令牌和内容令牌，极大地降低了长视频处理的资源消耗，成功将支持的视频时长上限推至小时级别。这一创新不仅保留了关键视觉细节，还显著提升了推理效率。

该工具非常适合人工智能研究人员、开发者以及需要对长视频内容进行深度分析的技术团队使用。无论是开发智能视频助手、构建影视剧情问答系统，还是进行多模态学术研究，LLaMA-VID 都提供了完整的训练代码、微调模型及数据集支持。凭借其高效的架构设计和在 ECCV 2024 上获得的认可，LLaMA-VID 为长视频智能理解领域提供了一个高性能且易于扩展的解决方案。

使用场景

某影视分析团队需要让 AI 助手理解并回答关于长达两小时电影剧情的复杂问题，例如梳理人物关系或定位特定情节。

没有 LLaMA-VID 时

上下文长度受限：传统多模态模型无法处理长视频，必须将电影切割成无数短片段，导致 AI 无法关联开头与结尾的剧情线索。
信息丢失严重：为了适配模型输入限制，不得不大幅降低采样帧率，遗漏关键动作细节或表情变化，造成回答不准确。
推理成本高昂：处理长视频需要生成海量视觉 Token，显存占用爆炸式增长，普通显卡根本无法运行，只能依赖昂贵的集群资源。
交互体验割裂：用户无法进行连贯的“电影对话”，每次提问都像是在询问独立的图片集，AI 缺乏对整体叙事的时间感知。

使用 LLaMA-VID 后

支持小时级视频：LLaMA-VID 独特的令牌策略将整部电影压缩为极少的上下文 Token（如 2 个内容令牌 + 1 个上下文令牌），直接支持 64K 长度的上下文窗口。
完整剧情理解：模型能一次性“看”完整个视频，精准回答跨越数小时的因果问题，如“主角在片尾的决策是如何受片初事件影响的”。
硬件门槛降低：极高的压缩比使得在单张消费级显卡上也能流畅运行长视频分析任务，大幅降低了部署成本。
自然连贯对话：用户可以像和朋友聊电影一样与 AI 互动，随时追问细节，LLaMA-VID 能基于全片内容提供逻辑严密的连贯回复。

LLaMA-VID 通过将长视频压缩为极少 Token，彻底打破了多模态大模型处理长内容的瓶颈，让“与整部电影对话”成为现实。

运行环境要求

操作系统

Linux

GPU

必需，官方训练环境为 8x NVIDIA A100 (80GB 显存)
支持通过调整 batch_size 和 gradient_accumulation_steps 在更少 GPU 上运行
需安装 flash-attn，通常要求 CUDA 环境

内存

未说明（建议根据模型大小配置充足内存，7B/13B 模型通常建议 32GB+）

依赖

notes1. 必须使用 conda 创建 Python 3.10 环境进行安装。 2. 安装 flash-attn 时需添加 '--no-build-isolation' 参数。 3. 长视频训练前需预先提取视频帧特征以节省显存。 4. 需手动下载并整理 Vicuna LLM、EVA-ViT-G 视觉编码器及 QFormer 等预训练权重到指定目录。 5. 数据集结构复杂，需严格按照 README 中的目录结构组织图像、视频及标注文件。

python3.10

torch

transformers

flash-attn

ninja

accelerate

deepspeed

peft

scikit-learn

sentencepiece

short-video-benchmark

快速开始

LLaMA-VID：在大型语言模型中，一张图像值2个token

LLaMA-VID使现有框架能够支持长达一小时的视频，并通过额外的上下文token将其上限进一步提升。我们基于LLaVA构建了这个仓库。

发布

[24/07/04] 🔥 我们的工作已被ECCV 2024接收！
[23/12/05] 🔥 我们发布了完整的训练和评估模型、数据以及支持电影聊天的脚本！
[23/11/29] 🔥 LLaMA-VID即将发布！我们发布了论文、代码、数据、模型和演示！

演示

我们在这一部分提供了一些精选示例。更多示例请访问我们的项目页面。欢迎试用我们的在线演示！

安装

请按照以下步骤安装所需的软件包。

克隆本仓库

git clone https://github.com/dvlab-research/LLaMA-VID.git

安装软件包

conda create -n llamavid python=3.10 -y
conda activate llamavid
cd LLaMA-VID
pip install --upgrade pip  # 启用PEP 660支持
pip install -e .

安装用于训练的附加软件包

pip install ninja
pip install flash-attn --no-build-isolation

模型

LLaMA-VID主要包含三个部分：编码器和解码器分别用于生成视觉嵌入和文本引导特征；上下文token和内容token则通过定制的token生成策略进行转换；指令微调旨在释放大型语言模型在图像和视频处理方面的潜力。

我们为LLaMA-VID提供了所有在阶段1和阶段2数据（长视频+阶段3）上完全微调过的模型：

类型	图像尺寸	最大token数	基础LLM	视觉编码器	微调数据	微调计划	下载
仅图像	224	4K	Vicuna-7B-v1.5	EVA-G	LLaVA1.5-Instruct	full_ft-1e	ckpt
仅图像	336	4K	Vicuna-7B-v1.5	EVA-G	LLaVA1.5-Instruct	full_ft-1e	ckpt
仅图像	336	4K	Vicuna-13B-v1.5	EVA-G	LLaVA1.5-Instruct	full_ft-1e	ckpt
短视频	224	4K	Vicuna-7B-v1.5	EVA-G	LLaVA1.5-VideoChatGPT-Instruct	full_ft-1e	ckpt
短视频	224	4K	Vicuna-13B-v1.5	EVA-G	LLaVA1.5-VideoChatGPT-Instruct	full_ft-1e	ckpt
长视频	224	64K	Vicuna-7B-v1.5	EVA-G	LLaVA1.5-VideoChatGPT-Instruct + LongVideoQA	full_ft-1e	ckpt

以下是仅在阶段1数据上预训练的权重（文本解码器+上下文注意力+投影器）：

类型	图像尺寸	最大token数	基础LLM	视觉编码器	预训练数据	预训练计划	下载
仅图像	224	4K	Vicuna-7B-v1.5	EVA-G	LCS-558K	1e	ckpt
仅图像	336	4K	Vicuna-7B-v1.5	EVA-G	LCS-558K	1e	ckpt
仅图像	336	4K	Vicuna-13B-v1.5	EVA-G	LCS-558K	1e	ckpt
短视频	224	4K	Vicuna-7B-v1.5	EVA-G	LCS-558K-WebVid-232K	1e	ckpt
短视频	224	4K	Vicuna-13B-v1.5	EVA-G	LCS-558K-WebVid-232K	1e	ckpt

准备

数据集

我们提供了用于 LLaMA-VID 训练的处理过的图像数据。数据格式按照 LLaVA 的标准组织，请按照这篇文档组织训练用的图像数据，并按照这篇文档组织评估用的图像数据。请将预训练数据、微调数据和评估数据分别放入 LLaMA-VID-Pretrain、LLaMA-VID-Finetune 和 LLaMA-VID-Eval 子目录中，具体结构参考结构。

对于视频数据集，请从 WebVid 下载 250 万条目的子集，并从官方网站或 video-chatgpt 下载 ActivityNet 数据集。若需进行评估，还请从这里下载相应文件。MSVD-QA 可从这里下载，MSRVTT-QA 则可从这里获取。

关于长视频微调，请从 MovieNet 下载长视频数据，从这里下载镜头检测结果，并从这里下载我们构建的长视频问答对。在预处理之前，请将镜头检测结果放置于 LLaMA-VID-Finetune/movienet/files 目录下。

元信息方面，请下载以下文件，并按结构进行组织。

数据文件名	大小
blip_laion_cc_sbu_558k.json	181 MB
llava_v1_5_mix665k.json	1.03 GB
llava_558k_with_webvid.json	254 MB
llava_v1_5_mix665k_with_video_chatgpt.json	860 MB
llava_v1_5_mix665k_with_video_chatgpt_maxtime_5min.json	860 MB
long_videoqa.json	260 MB

预训练权重

我们建议用户从以下链接下载预训练权重：Vicuna-7b-v1.5、Vicuna-13b-v1.5、EVA-ViT-G、QFormer-7b、QFormer-13b，并将其放置在 model_zoo 目录中，具体结构参考结构。

结构

在开始训练之前，文件夹结构应按如下方式组织：

LLaMA-VID
├── llamavid
├── scripts
├── work_dirs
│   ├── llama-vid
│   │   ├── llama-vid-13b-full-336
│   │   ├── ...
├── model_zoo
│   ├── LLM
│   │   ├── vicuna
│   │   │   ├── 7B-V1.5
│   │   │   ├── 13B-V1.5
│   ├── LAVIS
│   │   ├── eva_vit_g.pth
│   │   ├── instruct_blip_vicuna7b_trimmed.pth
│   │   ├── instruct_blip_vicuna13b_trimmed.pth
├── data
│   ├── LLaMA-VID-Pretrain
│   │   ├── blip_laion_cc_sbu_558k.json
│   │   ├── llava_558k_with_webvid.json
│   │   ├── images
│   │   ├── videos
│   ├── LLaMA-VID-Finetune
│   │   ├── llava_v1_5_mix665k.json
│   │   ├── llava_v1_5_mix665k_maxround_6_total_921k.json
│   │   ├── llava_v1_5_mix665k_maxround_12_total_714k.json
│   │   ├── llava_v1_5_mix665k_with_video_chatgpt.json
│   │   ├── llava_v1_5_mix665k_with_video_chatgpt_maxtime_5min.json
│   │   ├── long_videoqa.json
│   │   ├── movienet
│   │   ├── activitynet
│   │   ├── coco
│   │   ├── gqa
│   │   ├── ocr_vqa
│   │   ├── textvqa
│   │   ├── vg
│   ├── LLaMA-VID-Eval
│   │   ├── gqa
│   │   ├── ...

训练

LLaMA-VID 的训练分为三个阶段：(1) 特征对齐阶段：连接视觉和语言的标记；(2) 指令微调阶段：教会模型遵循多模态指令；(3) 长视频微调阶段：扩展位置嵌入，并教会模型理解长达数小时的视频指令。

LLaMA-VID 使用 8 块 80GB 显存的 A100 GPU 进行训练。若使用较少的 GPU，可以相应减少 per_device_train_batch_size 并增加 gradient_accumulation_steps。务必保持全局批次大小不变：per_device_train_batch_size × gradient_accumulation_steps × num_gpus。

请确保在训练前按照准备工作下载并整理好数据。

仅图像

若仅希望基于图像数据训练和微调 LLaMA-VID，请针对 Vicuna-7B（图像尺寸 336）运行以下命令：

bash scripts/image_only/train/stage_1_2_full_v7b_336.sh

或针对 Vicuna-13B（图像尺寸 336）：

bash scripts/image_only/train/stage_1_2_full_v13b_336.sh

您也可以尝试使用较小的图像尺寸 224 和更少的视觉标记：

bash scripts/image_only/train/stage_1_2_full_v7b_224_grid_4.sh

更多训练脚本可在 scripts/image_only/train 目录中找到。

短视频

若您对基于短视频数据训练和微调 LLaMA-VID 感兴趣，请针对 Vicuna-7B（图像尺寸 224）运行以下命令：

bash scripts/video/train/stage_1_2_full_v7b_224_fps_1.sh

或针对 Vicuna-13B（图像尺寸 224）：

bash scripts/video/train/stage_1_2_full_v13b_224_fps_1.sh

更多训练脚本可在 scripts/video/train 目录中找到。

长视频

我们提供了长视频训练的数据集和脚本。请按照准备工作下载长视频数据，并按结构进行组织。在训练阶段，我们首先从长视频中提取所有帧，并将视觉特征本地保存，以提高训练效率。

python scripts/extra_tool/extract_movienet_features.py \
    --video_dir <movienet视频路径> \
    --files_dir <movienet文件路径> \ # 已下载的MovieNet.tar.gz中的文件
    --feat_dir <输出特征路径>

然后，针对 Vicuna-7B（图像尺寸 224）运行以下命令：

bash scripts/video/train/stage_3_full_v7b_224_longvid.sh

评估

我们在基于图像和基于视频的基准测试上进行了评估。请按照准备工作下载评估数据，并按照结构进行组织。

仅图像

LLM	分辨率	模型	GQA	MMB	MME	POPE	SEED	SQA-Image	VizWiz	VQA v2
Vicuna-7B	224	ckpt	63.0	65.3	1405.6	86.6	59.7	67.7	52.5	78.3
Vicuna-7B	336	ckpt	64.3	65.1	1521.4	86.0	59.9	68.3	54.2	79.3
Vicuna-13B	336	ckpt	65.0	66.6	1542.3	86.0	62.3	70.0	54.3	80.0

如果您想在基于图像的基准测试上评估模型，请使用scripts/image_only/eval中的脚本。例如，运行以下命令进行GQA评估：

bash scripts/image_only/eval/gqa.sh

更多评估脚本请参见scripts/image_only/eval。

视频

LLM	分辨率	模型	MSVD-QA	MSRVTT-QA	ActivityNet-QA	正确性	细节	上下文	时间	一致性
Vicuna-7B	224	ckpt	69.7	57.7	47.4	2.96	3.00	3.53	2.46	2.51
Vicuna-13B	224	ckpt	70.0	58.9	47.5	3.07	3.05	3.60	2.58	2.63

如果您想在基于视频的基准测试上评估模型，请使用scripts/video/eval中的脚本。例如，运行以下命令进行MSVD-QA评估：

bash scripts/video/eval/msvd_eval.sh

更多评估脚本请参见scripts/video/eval。

CLI 推理

无需Gradio界面即可使用LLaMA-VID与图像和视频进行对话。它还支持多GPU、4位和8位量化推理。采用4位量化时。请尝试以下命令进行图像或视频推理：

python -m llamavid.serve.cli \
    --model-path work_dirs/llama-vid/llama-vid-7b-full-336 \
    --image-file <您的图像路径>

或者尝试以下命令进行视频推理：

python -m llamavid.serve.cli \
    --model-path work_dirs/llama-vid/llama-vid-7b-full-224-video-fps-1 \
    --image-file <您的视频路径> \
    --temperature 0.5

您也可以尝试4位或8位以实现高效推理：

python -m llamavid.serve.cli \
    --model-path work_dirs/llama-vid/llama-vid-7b-full-224-video-fps-1 \
    --image-file <您的视频路径>
    --temperature 0.5 \
    --load-4bit

长视频推理

对于长视频，如果您想对movienet中的视频进行推理，首先需要按如下方式处理视频数据和字幕：

python scripts/extra_tool/extract_movienet_features.py \
    --video_dir <movienet视频路径> \
    --files_dir <movienet文件路径> \ # 下载的MovieNet.tar.gz中的文件
    --feat_dir <输出特征路径>

如果您想对自己的自定义视频进行推理，也需先按如下方式处理视频数据和字幕：

python scripts/extra_tool/extract_video_features_subtitles.py \
    --video_file <自定义视频路径> \
    --feat_dir <输出特征路径>

然后，您可以尝试以下命令进行长视频推理：

python llamavid/serve/run_llamavid_movie.py \
    --model-path work_dirs/llama-vid/llama-vid-7b-full-224-long-video \
    --video-file <您已处理的视频文件路径> \
    --load-4bit

Gradio Web UI

在这里，我们采用了类似于 LLaVA 的 Gradio 界面，为 LLaMA-VID 提供一个用户友好的交互界面。要在本地启动 Gradio 演示，请依次运行以下命令。如果你计划启动多个模型工作进程以比较不同的检查点，只需仅需一次启动控制器和 Web 服务器即可。

启动控制器

python -m llamavid.serve.controller --host 0.0.0.0 --port 10000

启动 Gradio Web 服务器

python -m llamavid.serve.gradio_web_server --controller http://localhost:10000 --model-list-mode reload

现在你已经成功启动了 Gradio Web 界面。你可以通过屏幕上打印的 URL 打开该界面。你可能会注意到模型列表中还没有任何模型，这是因为我们尚未启动任何模型工作进程。当启动模型工作进程后，模型列表会自动更新。

启动模型工作进程

这是实际在 GPU 上执行推理的工作进程。每个工作进程负责 --model-path 中指定的单个模型。

python -m llamavid.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path work_dirs/llama-vid/llama-vid-vicuna-7b-short

等待进程完成模型加载，并看到“Uvicorn running on ...”的提示后，刷新你的 Gradio Web 界面，你就会在模型列表中看到刚刚启动的模型。

你可以根据需要启动任意数量的工作进程，并在同一 Gradio 界面中比较不同的模型。例如，这里有一个短视频模型。请确保 --controller 参数保持不变，而将 --port 和 --worker 分别设置为不同的端口号以区分各个工作进程。

python -m llamavid.serve.model_worker_short --host 0.0.0.0 --controller http://localhost:10000 --port <不同于40000，比如40001> --worker http://localhost:<相应地改为40001> --model-path work_dirs/llama-vid/llama-vid-7b-full-224-video-fps-1

如果你使用的是搭载 M1 或 M2 芯片的 Apple 设备，可以通过 --device 标志指定 MPS 设备：--device mps。

启动模型工作进程（多 GPU，当 GPU 显存 ≤ 24GB 时）

如果你的 GPU 显存小于 24GB（例如 RTX 3090、RTX 4090 等），可以尝试使用多 GPU 运行。我们最新的代码库会在你拥有多个 GPU 时自动尝试使用多 GPU。你可以通过 CUDA_VISIBLE_DEVICES 指定要使用的 GPU。下面是一个使用前两块 GPU 的示例：

CUDA_VISIBLE_DEVICES=0,1 python -m llamavid.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path work_dirs/llama-vid/llama-vid-7b-full-224-long-video

启动模型工作进程（4-bit、8-bit 推理，量化版本）

你可以启动使用量化位数（4-bit、8-bit）的模型工作进程，这样可以在降低 GPU 内存占用的同时进行推理。需要注意的是，量化位数的推理精度可能不如全精度模型高。只需在你要执行的模型工作进程命令中添加 --load-4bit 或 --load-8bit 即可。下面是一个使用 4-bit 量化运行的示例：

python -m llamavid.serve.model_worker --host 0.0.0.0 --controller http://localhost:10000 --port 40000 --worker http://localhost:40000 --model-path work_dirs/llama-vid/llama-vid-7b-full-224-long-video --load-4bit

示例

本节提供了一些示例。更多示例请参阅我们的项目页面。

引用

如果你发现本仓库对你的研究有所帮助，请考虑引用以下论文：

@inproceedings{li2024llamavid,
  title={LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models},
  author={Li, Yanwei and Wang, Chengyao and Jia, Jiaya},
  journal={European Conference on Computer Vision},
  year={2024}
}

致谢

我们感谢以下项目组的杰出工作：

本工作基于 LLaVA 构建。
本工作使用了来自 Vicuna 的 LLM。
本工作使用了来自 InstructBLIP 的预训练权重。
我们参考了 Video-ChatGPT 的视频评估方法。

许可证

本项目的数据和检查点仅供研究使用，并受相关许可协议约束。它们同样受到 LLaVA、LLaMA、Vicuna 和 GPT-4 许可协议的限制。数据采用 CC BY NC 4.0 许可，仅允许非商业用途；使用该数据集训练的模型也不得用于研究以外的场景。

LLaMA-VID 快速上手指南

LLaMA-VID 是一个基于 LLaVA 架构的多模态大模型，专为处理长视频（长达数小时）而设计。它通过独特的令牌生成策略，将图像压缩为极少的上下文令牌，从而显著扩展了模型的视频理解能力。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+)
GPU: 建议至少 1 张 NVIDIA GPU (显存 >= 24GB，训练推荐 8x A100 80GB)
CUDA: 已安装与 PyTorch 版本匹配的 CUDA 驱动
包管理器: Conda (推荐 Miniconda 或 Anaconda)
Python: 3.10

2. 安装步骤

请按照以下步骤克隆代码并安装依赖。

2.1 克隆仓库

git clone https://github.com/dvlab-research/LLaMA-VID.git
cd LLaMA-VID

2.2 创建虚拟环境并安装基础包

conda create -n llamavid python=3.10 -y
conda activate llamavid
pip install --upgrade pip
pip install -e .

2.3 安装训练专用依赖

如果您计划进行模型训练或微调，需额外安装 ninja 和 flash-attn 以加速计算：

pip install ninja
pip install flash-attn --no-build-isolation

提示：国内用户若下载 flash-attn 较慢，可尝试使用清华源或阿里源加速 pip 安装，例如：pip install flash-attn --no-build-isolation -i https://pypi.tuna.tsinghua.edu.cn/simple。

3. 基本使用

LLaMA-VID 的核心优势在于长视频理解。使用前需先下载预训练权重和数据集。

3.1 下载预训练权重与数据

根据您的需求（仅图像、短视频或长视频），从 Hugging Face 下载对应的模型权重。以下是长视频模型的示例：

模型权重: llama-vid-7b-full-224-long-video
数据集: LLaMA-VID-Data

请将下载的权重文件整理至项目根目录下的 model_zoo 文件夹，数据结构参考如下：

LLaMA-VID
├── model_zoo
│   ├── LLM
│   │   └── vicuna
│   │       └── 7B-V1.5  # 存放 Vicuna 权重
│   ├── LAVIS
│   │   ├── eva_vit_g.pth
│   │   └── instruct_blip_vicuna7b_trimmed.pth
├── data
│   ├── LLaMA-VID-Finetune
│   │   └── long_videoqa.json # 存放长视频问答数据
│   └── ...

(具体文件组织请严格参照官方 README 中的 "Structure" 章节)

3.2 运行推理/评估

项目提供了封装好的脚本用于不同场景。以下是运行长视频微调后模型进行评估的示例命令（需先配置好数据路径）：

# 示例：运行长视频评估脚本 (具体参数需根据实际下载的数据集路径调整)
python llamavid/eval/model_video_chatgpt.py \
    --model-path /path/to/llama-vid-7b-full-224-long-video \
    --video-dir /path/to/video/files \
    --conv-mode llama_vid

3.3 启动训练 (可选)

若您希望从头训练或微调模型，可使用提供的 Shell 脚本。以下是以 Vicuna-7B 为基础，针对长视频数据进行全量微调的示例：

预处理长视频特征 (提取帧并保存视觉特征以加速训练):

python scripts/extra_tool/extract_movienet_features.py \
    --video_dir <path to movienet video> \
    --files_dir <path to movienet files> \
    --feat_dir <path to output features>

执行训练:
```
# 运行长视频训练脚本 (需确保显存充足，默认配置针对多卡环境)
bash scripts/video/train/stage_3_long_video_v7b_224.sh
```
注：如果显存有限，请编辑脚本，减小 per_device_train_batch_size 并相应增加 gradient_accumulation_steps，保持全局 batch size 不变。

更多详细用法、Demo 演示及完整数据集说明，请访问 LLaMA-VID 项目主页。

常见问题

微调阶段使用了哪些数据集（如 COCO, GQA 等），如何下载和格式化这些数据？

如何可视化图像中的高响应区域（High Response Areas）？代码似乎缺失或报错维度不匹配。

为什么在 MSVD QA 任务中，Stage 3 训练后的长视频模型准确率反而比短视频模型下降了？

显存不足（40GB）时如何使用 DeepSpeed Zero3 进行训练？遇到参数加载错误或训练卡死怎么办？

Demo 页面或推理时视频超过 1 分钟导致崩溃且无报错，以及模型名称对应关系是怎样的？

Stage 2 微调默认使用的 JSON 文件是什么？为什么视频长度被限制在 5 分钟以内？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent

spec-kit

Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。

★ 88.7k|★★☆☆☆|昨天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|1周前

图像数据工具视频