VideoLLaMA3

1.1k 88 中等 1 次阅读 1周前Apache-2.0语言模型图像视频其他

AI 解读由 AI 自动生成，仅供参考

VideoLLaMA 3 是由阿里达摩院（DAMO-NLP-SG）团队最新推出的前沿多模态基础模型，专为深度理解图像和视频内容而设计。作为 VideoLLaMA 系列的第三代作品，它旨在让 AI 像人类一样“看懂”动态世界，不仅能识别静态图片中的细节，更能精准捕捉视频中复杂的时空变化、动作逻辑以及音频信息。

在日常应用中，用户常常面临难以从海量视频素材中快速提取关键信息，或希望 AI 能理解长视频中前后关联事件的痛点。VideoLLaMA 3 正是为了解决这些问题而生。它具备强大的时空建模能力，能够处理长上下文视频，准确回答关于视频情节、物体运动轨迹及声音内容的复杂提问，有效减少了传统视觉模型容易产生的“幻觉”问题，即避免 AI 胡编乱造画面中不存在的内容。

这款工具非常适合多类人群使用：开发者和研究人员可以利用其开源的代码和模型权重，进行二次开发或探索多模态学习的前沿技术；内容创作者和普通用户则可以通过其提供的在线演示，轻松实现视频内容的智能摘要、细节查询和互动分析，大幅提升信息获取效率。

技术层面，VideoLLaMA 3 在架构上进行了显著优化，增强了对高分辨率图像和长视频的细粒度理解能力，同时保持了高效的推理速度。它不仅支持中英文双语交互，还在多个国际权威评测基准中取得了领先成绩。无论是用于构建智能视频助手，还是作为学术研究的基座模型，VideoLLaMA 3 都提供了一个强大且灵活的选择。目前，项目已在 GitHub 和 Hugging Face 上开源，欢迎社区体验与交流。

使用场景

某电商平台的智能客服团队正致力于升级其售后系统，希望实现用户直接上传“产品故障视频”后，AI 能自动分析故障原因并生成精准的维修建议或退换货指引。

没有 VideoLLaMA3 时

时空逻辑缺失：传统模型仅能抽取关键帧进行静态图像识别，无法理解动作的先后顺序（如“先按下开关，指示灯闪烁三次后熄灭”），导致对动态故障过程的误判。
细节捕捉不足：对于视频中短暂出现的错误代码或细微的物理损坏（如接口松动瞬间），静态采样极易遗漏，造成诊断依据不全。
人工复核成本高：由于 AI 无法准确理解视频语境，客服团队仍需安排专人逐秒观看用户上传的视频来核实情况，处理效率低下且人力负担重。
交互体验割裂：用户被迫将视频内容转化为文字描述，不仅操作繁琐，还常因描述不准导致反复沟通，严重影响用户满意度。

使用 VideoLLaMA3 后

精准时空建模：VideoLLaMA3 凭借强大的时空建模能力，能完整理解视频中动作的因果链条，准确识别出“操作顺序错误”或“间歇性故障”等复杂场景。
细粒度视觉感知：它能持续追踪视频流，敏锐捕捉转瞬即逝的屏幕报错信息或硬件异常状态，确保诊断依据的全面性与准确性。
自动化闭环处理：系统可直接基于视频内容生成结构化的故障诊断报告，大幅减少人工介入需求，使售后响应速度从小时级缩短至分钟级。
自然多模态交互：用户只需上传视频并简单提问，VideoLLaMA3 即可结合画面内容与自然语言进行深度推理，提供直观、易懂的解决方案。

VideoLLaMA3 通过赋予系统真正的视频理解能力，将非结构化的视频数据转化为可执行的业务洞察，显著提升了智能客服的诊断精度与服务效率。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU，支持 CUDA >= 11.8
推理示例使用 bfloat16 精度和 flash_attention_2，建议显存 16GB+（7B模型）或 8GB+（2B模型）

内存

未说明

依赖

notes官方推荐用于稳定推理的特定版本组合为：CUDA 11.8 环境下使用 torch==2.4.0 和 flash-attn==2.7.3。若使用其他 Python 或 CUDA 版本，需自行查阅 flash-attn 发布页选择兼容版本。训练环境需额外安装 requirements.txt 中的依赖。

python>= 3.10

torch==2.4.0

torchvision==0.19.0

flash-attn==2.7.3

transformers==4.46.3

accelerate==1.0.1

decord

ffmpeg-python

imageio

opencv-python

快速开始

VideoLLaMA 3：面向视频理解的前沿多模态基础模型

如果我们的项目对您有所帮助，请在 GitHub 上给我们点个赞 ⭐，以支持我们。🙏🙏

💡 我们的团队还有其他多模态大模型项目，或许会令你感兴趣 ✨。

VideoLLaMA 2：推进视频大模型中的时空建模与音频理解
Zesen Cheng*, Sicong Leng*, Hang Zhang*, Yifei Xin*, Xin Li*, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing

VideoRefer Suite：利用视频大模型推进时空对象理解
Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing

VCD：通过视觉对比解码缓解大型视觉-语言模型中的对象幻觉问题
Sicong Leng*, Hang Zhang*, Guanzheng Chen, Xin Li, Shijian Lu, Chunyan Miao, Lidong Bing

多模态的诅咒：评估大型多模态模型在语言、视觉和音频方面的幻觉现象
Sicong Leng*, Yun Xing*, Zesen Cheng*, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing

突破内存限制：近无限批量规模的对比损失
Zesen Cheng*, Hang Zhang*, Kehan Li*, Sicong Leng, Zhiqiang Hu, Fei Wu, Deli Zhao, Xin Li, Lidong Bing

📰 新闻

[2025.02.07] 🔥🔥 发布我们重新标注的高质量图文数据集 VL3-Syn7M。
[2025.01.26] 🔥🔥 截至1月26日，VideoLLaMA3-7B是Hugging Face空间上的LVBench排行榜上表现最好的7B参数量模型。
[2025.01.24] 🔥🔥 截至1月24日，VideoLLaMA3-7B是VideoMME排行榜上表现最好的7B参数量模型。
[2025.01.22] 👋👋 发布VideoLLaMA 3的技术报告。如果您有与VideoLLaMA 3密切相关但未在论文中提及的工作，欢迎随时告知我们。
[2025.01.21] 发布VideoLLaMA 3的模型及推理代码。

🌟 简介

VideoLLaMA 3是一系列具有前沿图像和视频理解能力的多模态基础模型。

💡点击此处查看视频基准测试的详细性能

💡点击此处查看图像基准测试的详细性能

🛠️ 需求与安装

基本依赖：

Python >= 3.10
PyTorch >= 2.4.0
CUDA 版本 >= 11.8
transformers >= 4.46.3

安装所需软件包：

[仅推理]

为确保稳定的推理效果，建议安装以下版本的软件包：


# 用于 CUDA 11.8 的 PyTorch 和 torchvision
pip install torch==2.4.0 torchvision==0.19.0 --extra-index-url https://download.pytorch.org/whl/cu118

# 将 flash-attn 锁定到兼容版本
pip install flash-attn==2.7.3 --no-build-isolation --upgrade

# Transformers 和 accelerate
pip install transformers==4.46.3 accelerate==1.0.1

# 视频处理依赖项
pip install decord ffmpeg-python imageio opencv-python

⚠ 注意: 对于使用 torch==2.4.0 和 torchvision==0.19.0 的 CUDA 11.8，请使用 flash-attn==2.7.3。
如果您使用的是其他 Python 或 CUDA 版本，请查看 flash-attn 发布页面以选择兼容的轮子文件。使用不兼容的版本可能会导致设置失败。

[训练]

git clone https://github.com/DAMO-NLP-SG/VideoLLaMA3
cd VideoLLaMA3
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

:earth_americas: 模型库

模型	基础模型	HF 链接
VideoLLaMA3-7B	Qwen2.5-7B	DAMO-NLP-SG/VideoLLaMA3-7B
VideoLLaMA3-2B	Qwen2.5-1.5B	DAMO-NLP-SG/VideoLLaMA3-2B
VideoLLaMA3-7B-Image	Qwen2.5-7B	DAMO-NLP-SG/VideoLLaMA3-7B-Image
VideoLLaMA3-2B-Image	Qwen2.5-1.5B	DAMO-NLP-SG/VideoLLaMA3-2B-Image

我们还上传了 VideoLLaMA3-7B 的微调视觉编码器，以便更广泛的应用：

模型	基础模型	HF 链接
VideoLLaMA3-7B 视觉编码器	siglip-so400m-patch14-384	DAMO-NLP-SG/VL3-SigLIP-NaViT

🤖 推理

import torch
from transformers import AutoModelForCausalLM, AutoProcessor

device = "cuda:0"
model_path = "DAMO-NLP-SG/VideoLLaMA3-7B"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,
    device_map={"": device},
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

conversation = [
    {"role": "system", "content": "You are a helpful assistant."},
    {
        "role": "user",
        "content": [
            {"type": "video", "video": {"video_path": "./assets/cat_and_chicken.mp4", "fps": 1, "max_frames": 180}},
            {"type": "text", "text": "What is the cat doing?"},
        ]
    },
]

inputs = processor(
    conversation=conversation,
    add_system_prompt=True,
    add_generation_prompt=True,
    return_tensors="pt"
)
inputs = {k: v.to(device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
if "pixel_values" in inputs:
    inputs["pixel_values"] = inputs["pixel_values"].to(torch.bfloat16)
output_ids = model.generate(**inputs, max_new_tokens=1024)
response = processor.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(response)

更多案例请参考示例。

烹饪书

查看推理笔记本，它们展示了如何在各种应用中使用 VideoLLaMA3，例如单张图像理解、多张图像理解、视觉引用与定位、视频理解等。

笔记本	描述
图像理解	展示了使用 VideoLLaMA 3 进行通用图像理解、图表分析、表格理解、文档识别和视觉代码分析
多张图像理解	展示了使用 VideoLLaMA 3 进行多张图像比较和理解
细粒度图像识别与理解	展示了使用 VideoLLaMA 3 进行视觉引用与定位
视频理解	展示了使用 VideoLLaMA 3 进行通用视频理解、长视频理解和时间定位

🤗 演示

强烈建议先尝试我们的在线演示。

或者，您也可以在本地启动一个 Gradio 应用程序：

python inference/launch_gradio_demo.py --model-path DAMO-NLP-SG/VideoLLaMA3-7B

选项：
  --model-path MODEL_PATH, --model_path MODEL_PATH
  --server-port SERVER_PORT, --server_port SERVER_PORT
  	可选。模型服务器的端口。
  --interface-port INTERFACE_PORT, --interface_port INTERFACE_PORT
  	可选。Gradio 界面的端口。
  --nproc NPROC
  	可选。模型进程的数量。

🗝️ 训练

第一步：准备训练数据

要使用我们的训练代码，请在 data_root 目录下按您喜欢的方式组织图像和视频数据，然后使用一个或多个注释文件来记录每段对话数据及其对应的图像/视频路径。例如：

data_root
├── LLaVA-Video-178K
│   ├── video_1.mp4
│   └── ...
├── LLaVA-OneVision-Data
│   ├── image_1.jpg
│   └── ...
├── annotations_video.jsonl
├── annotations_image.jsonl
└── ...

注释文件由一系列字典组成，每个条目遵循以下格式：

[
    {
        "image": ["images/xxx.jpg"],
        "conversations": [
            {
                "from": "human",
                "value": "<image>\n图中公交车有哪些颜色？"
            },
            {
                "from": "gpt",
                "value": "图中的公交车是白色和红色的。"
            },
            ...
        ]
    },
    {
        "video": ["videos/xxx.mp4"],
        "conversations": [
            {
                "from": "human",
                "value": "<video>\n视频中主要发生了哪些活动？"
            },
            {
                "from": "gpt",
                "value": "视频中主要发生的活动包括一名男子在准备摄像设备、一群男子乘坐直升机以及一名男子驾船在水中航行。"
            },
            ...
        ]
    },
    ...
]

为了加载效率和内存优化，我们建议使用符合 huggingface datasets 格式的 .jsonl 文件。

第二步：（可选）转换 HF 检查点

如果您想使用本代码库在自己的数据上微调 VideoLLaMA3，请先将 Hugging Face 上的检查点转换为本地格式。例如：

python scripts/convert_hf_checkpoint.py --model_path DAMO-NLP-SG/VideoLLaMA3-7B --save_path weights/videollama3_7b_local

第三步：准备训练脚本

我们在 scripts/train 中提供了一些适用于各个阶段的模板。您可以根据这些模板修改变量，以适应您的数据和模型设置。例如：

  --data_folder ./datasets \
  --data_path ./datasets/annotations_video.jsonl ./datasets/annotations_image.jsonl \
  --model_path Qwen/Qwen2.5-1.5B-Instruct \
  --vision_encoder DAMO-NLP-SG/SigLIP-NaViT \

对于微调，--model_path 是第 2 步中所述的已转换检查点的路径。

第四步：开始训练

现在您可以使用自己的训练脚本开始训练：

# VideoLLaMA3 第一阶段
bash scripts/train/stage1_2b.sh
# VideoLLaMA3 第二阶段
bash scripts/train/stage2_2b.sh

关于 CUDA OOM 错误的一些提示：

请尝试使用最新的主分支，我们在此提交中优化了内存消耗。
可以通过传递 --deepspeed scripts/zero2.json / zero3.json 来尝试 DeepSpeed 的 ZeRO-2/3。
通过分别设置 --mm_max_length 和 --model_max_length，减少视觉 token 的最大数量（高分辨率图像和视频会自动降采样以适应该长度）以及序列的最大长度（超过该长度的序列会被截断）。
减少本地批次大小，即训练脚本中的 LOCAL_BATCH_SIZE。您可以根据可用的 GPU 内存和 GPU 数量调整上述超参数，使训练适配您的硬件。
（新！） 如果在使用上述方法后仍然遇到内存问题，您可以在训练脚本中设置 --use_flash_loss True 来尝试一项 实验性 功能。具体来说，它使用 Inf-CL 中提出的基于分块的交叉熵实现来降低内存消耗，这在训练具有长上下文或大词汇量的模型时非常有帮助！

✅ 评估

第一步：准备评估数据

首先，请根据官方说明下载相应数据，并将其组织成以下格式：

点击此处查看数据集目录结构

benchmarks
└── video
│   ├── activitynet_qa
│   │   ├── all_test
│   │   ├── test_a.json
│   │   └── test_q.json
│   ├── charades
│   │   ├── Charades_v1
│   │   └── charades_annotations_test-random_prompt.json
│   ├── egoschema
│   │   ├── good_clips_git
│   │   └── questions.json
│   ├── longvideobench
│   │   ├── lvb_val.json
│   │   ├── 字幕
│   │   └── 视频
│   ├── lvbench
│   │   ├── 视频
│   │   └── video_info.meta.jsonl
│   ├── mlvu
│   │   ├── json
│   │   └── 视频
│   ├── mvbench
│   │   ├── json
│   │   └── 视频
│   ├── nextqa
│   │   ├── map_vid_vidorID.json
│   │   ├── NExTVideo
│   │   └── test.csv
│   ├── perception_test
│   │   ├── mc_question_test.json
│   │   └── 视频
│   ├── tempcompass
│   │   ├── captioning
│   │   ├── caption_matching
│   │   ├── 多选题
│   │   ├── 视频
│   │   └── 是/否
│   ├── videomme
│   │   ├── 字幕
│   │   ├── test-00000-of-00001.parquet
│   │   └── 视频

第二步：开始评估

bash scripts/eval/eval_video.sh ${MODEL_PATH} ${BENCHMARKS} ${NUM_NODES} ${NUM_GPUS}

您可以通过评估脚本中的 DATA_ROOT 和 SAVE_DIR 来更改基准测试和输出的目录。更多详细用法请参阅相关脚本。

第三步：添加新的基准测试

即将推出...

📑 引用

如果您发现 VideoLLaMA 对您的研究和应用有所帮助，请使用以下 BibTeX 格式引用：

@article{damonlpsg2025videollama3,
  title={VideoLLaMA 3: 面向图像和视频理解的前沿多模态基础模型},
  author={张博强、李科涵、程泽森、胡志强、袁宇谦、陈冠政、冷思聪、蒋宇明、张航、李欣、金鹏、张文琪、王凡、邴立东、赵德利},
  journal={arXiv 预印本 arXiv:2501.13106},
  year={2025},
  url = {https://arxiv.org/abs/2501.13106}
}

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: 推进视频大模型中的时空建模与音频理解},
  author={程泽森、冷思聪、张航、辛义飞、李欣、陈冠政、朱永鑫、张文琪、罗子阳、赵德利、邴立东},
  journal={arXiv 预印本 arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA：面向视频理解的指令微调视听语言模型},
  author = {张航、李欣、邴立东},
  journal = {arXiv 预印本 arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}

👍 致谢

我们的 VideoLLaMA3 基于 SigLip 和 Qwen2.5 构建。我们还从 LLaVA-OneVision、InternVL2 和 Qwen2VL 的实现中学习了很多。此外，VideoLLaMA3 还受益于大量开源项目的工作。我们由衷感谢这些贡献，并在 ACKNOWLEDGEMENT.md 中列出了相关名单以表达我们的谢意。如果您的工作被用于 VideoLLaMA3 但未在此仓库或技术报告中提及，请随时告知我们 :heart:。

🔒 许可协议

本项目采用 Apache 2.0 许可协议发布，具体许可信息请参阅 LICENSE 文件。该服务为研究预览版，仅限 非商业用途，并受 Qwen 模型许可协议、OpenAI 和 Gemini 生成数据的使用条款以及 ShareGPT 隐私政策的约束。如您发现任何潜在违规行为，请与我们联系。

VideoLLaMA3 快速上手指南

VideoLLaMA 3 是阿里达摩院（DAMO-NLP-SG）推出的前沿多模态基础模型系列，具备卓越的图像和视频理解能力。本指南将帮助你快速配置环境并运行推理。

1. 环境准备

在开始之前，请确保你的系统满足以下基本要求：

Python: >= 3.10
PyTorch: >= 2.4.0
CUDA: >= 11.8
Transformers: >= 4.46.3

注意：为了获得稳定的推理性能，建议严格使用下文指定的库版本，特别是 flash-attn 与 PyTorch/CUDA 版本的兼容性至关重要。

2. 安装步骤

仅用于推理（Inference-only）的用户，请按顺序执行以下命令安装依赖：

# 1. 安装 PyTorch 和 torchvision (针对 CUDA 11.8)
pip install torch==2.4.0 torchvision==0.19.0 --extra-index-url https://download.pytorch.org/whl/cu118

# 2. 安装 Flash-Attention (需指定兼容版本 2.7.3)
pip install flash-attn==2.7.3 --no-build-isolation --upgrade

# 3. 安装 Transformers 和 Accelerate
pip install transformers==4.46.3 accelerate==1.0.1

# 4. 安装视频处理相关依赖
pip install decord ffmpeg-python imageio opencv-python

⚠️ 重要提示：如果你使用的 Python 或 CUDA 版本不同，请务必查阅 flash-attn releases 以选择对应的 wheel 包，版本不匹配可能导致安装失败或运行时错误。

3. 基本使用

以下是一个最简单的视频问答推理示例。该代码加载 VideoLLaMA3-7B 模型，并对输入视频内容进行提问。

import torch
from transformers import AutoModelForCausalLM, AutoProcessor

# 设置设备
device = "cuda:0"
# 模型路径，也可替换为 DAMO-NLP-SG/VideoLLaMA3-2B 等其它版本
model_path = "DAMO-NLP-SG/VideoLLaMA3-7B"

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,
    device_map={"": device},
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# 加载处理器
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

# 构建对话内容
conversation = [
    {"role": "system", "content": "You are a helpful assistant."},
    {
        "role": "user",
        "content": [
            # 视频输入配置：路径、帧率(fps)、最大帧数(max_frames)
            {"type": "video", "video": {"video_path": "./assets/cat_and_chicken.mp4", "fps": 1, "max_frames": 180}},
            {"type": "text", "text": "What is the cat doing?"},
        ]
    },
]

# 预处理输入
inputs = processor(
    conversation=conversation,
    add_system_prompt=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

# 将输入移至 GPU 并转换数据类型
inputs = {k: v.to(device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
if "pixel_values" in inputs:
    inputs["pixel_values"] = inputs["pixel_values"].to(torch.bfloat16)

# 生成回答
output_ids = model.generate(**inputs, max_new_tokens=1024)
response = processor.batch_decode(output_ids, skip_special_tokens=True)[0].strip()

print(response)

常见问题

如何解决 ffprobe/ffmpeg 相关的报错问题？

如何在离线环境中运行 VideoLLaMA3 推理？

使用 convert_hf_checkpoint.py 转换模型后，加载时出现视觉编码器权重不匹配（vision_encoder weights mismatch）怎么办？

VideoLLaMA3 支持批量推理（Batch Inference）吗？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

使用场景

没有 VideoLLaMA3 时

使用 VideoLLaMA3 后

运行环境要求

快速开始

VideoLLaMA 3：面向视频理解的前沿多模态基础模型

如果我们的项目对您有所帮助，请在 GitHub 上给我们点个赞 ⭐，以支持我们。🙏🙏

📰 新闻

🌟 简介

🛠️ 需求与安装

:earth_americas: 模型库

🤖 推理

烹饪书

🤗 演示

🗝️ 训练

第一步：准备训练数据

第二步：（可选）转换 HF 检查点

第三步：准备训练脚本

第四步：开始训练

关于 CUDA OOM 错误的一些提示：

✅ 评估

第一步：准备评估数据

第二步：开始评估

第三步：添加新的基准测试

📑 引用

👍 致谢

🔒 许可协议

VideoLLaMA3 快速上手指南

1. 环境准备

2. 安装步骤

3. 基本使用

更多资源

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow