VideoLLaMA3

GitHub
1.1k 88 中等 1 次阅读 1周前Apache-2.0语言模型图像视频其他
AI 解读 由 AI 自动生成,仅供参考

VideoLLaMA 3 是由阿里达摩院(DAMO-NLP-SG)团队最新推出的前沿多模态基础模型,专为深度理解图像和视频内容而设计。作为 VideoLLaMA 系列的第三代作品,它旨在让 AI 像人类一样“看懂”动态世界,不仅能识别静态图片中的细节,更能精准捕捉视频中复杂的时空变化、动作逻辑以及音频信息。

在日常应用中,用户常常面临难以从海量视频素材中快速提取关键信息,或希望 AI 能理解长视频中前后关联事件的痛点。VideoLLaMA 3 正是为了解决这些问题而生。它具备强大的时空建模能力,能够处理长上下文视频,准确回答关于视频情节、物体运动轨迹及声音内容的复杂提问,有效减少了传统视觉模型容易产生的“幻觉”问题,即避免 AI 胡编乱造画面中不存在的内容。

这款工具非常适合多类人群使用:开发者和研究人员可以利用其开源的代码和模型权重,进行二次开发或探索多模态学习的前沿技术;内容创作者和普通用户则可以通过其提供的在线演示,轻松实现视频内容的智能摘要、细节查询和互动分析,大幅提升信息获取效率。

技术层面,VideoLLaMA 3 在架构上进行了显著优化,增强了对高分辨率图像和长视频的细粒度理解能力,同时保持了高效的推理速度。它不仅支持中英文双语交互,还在多个国际权威评测基准中取得了领先成绩。无论是用于构建智能视频助手,还是作为学术研究的基座模型,VideoLLaMA 3 都提供了一个强大且灵活的选择。目前,项目已在 GitHub 和 Hugging Face 上开源,欢迎社区体验与交流。

使用场景

某电商平台的智能客服团队正致力于升级其售后系统,希望实现用户直接上传“产品故障视频”后,AI 能自动分析故障原因并生成精准的维修建议或退换货指引。

没有 VideoLLaMA3 时

  • 时空逻辑缺失:传统模型仅能抽取关键帧进行静态图像识别,无法理解动作的先后顺序(如“先按下开关,指示灯闪烁三次后熄灭”),导致对动态故障过程的误判。
  • 细节捕捉不足:对于视频中短暂出现的错误代码或细微的物理损坏(如接口松动瞬间),静态采样极易遗漏,造成诊断依据不全。
  • 人工复核成本高:由于 AI 无法准确理解视频语境,客服团队仍需安排专人逐秒观看用户上传的视频来核实情况,处理效率低下且人力负担重。
  • 交互体验割裂:用户被迫将视频内容转化为文字描述,不仅操作繁琐,还常因描述不准导致反复沟通,严重影响用户满意度。

使用 VideoLLaMA3 后

  • 精准时空建模:VideoLLaMA3 凭借强大的时空建模能力,能完整理解视频中动作的因果链条,准确识别出“操作顺序错误”或“间歇性故障”等复杂场景。
  • 细粒度视觉感知:它能持续追踪视频流,敏锐捕捉转瞬即逝的屏幕报错信息或硬件异常状态,确保诊断依据的全面性与准确性。
  • 自动化闭环处理:系统可直接基于视频内容生成结构化的故障诊断报告,大幅减少人工介入需求,使售后响应速度从小时级缩短至分钟级。
  • 自然多模态交互:用户只需上传视频并简单提问,VideoLLaMA3 即可结合画面内容与自然语言进行深度推理,提供直观、易懂的解决方案。

VideoLLaMA3 通过赋予系统真正的视频理解能力,将非结构化的视频数据转化为可执行的业务洞察,显著提升了智能客服的诊断精度与服务效率。

运行环境要求

操作系统
  • 未说明
GPU
  • 需要 NVIDIA GPU,支持 CUDA >= 11.8
  • 推理示例使用 bfloat16 精度和 flash_attention_2,建议显存 16GB+(7B模型)或 8GB+(2B模型)
内存

未说明

依赖
notes官方推荐用于稳定推理的特定版本组合为:CUDA 11.8 环境下使用 torch==2.4.0 和 flash-attn==2.7.3。若使用其他 Python 或 CUDA 版本,需自行查阅 flash-attn 发布页选择兼容版本。训练环境需额外安装 requirements.txt 中的依赖。
python>= 3.10
torch==2.4.0
torchvision==0.19.0
flash-attn==2.7.3
transformers==4.46.3
accelerate==1.0.1
decord
ffmpeg-python
imageio
opencv-python
VideoLLaMA3 hero image

快速开始

VideoLLaMA 3:面向视频理解的前沿多模态基础模型

如果我们的项目对您有所帮助,请在 GitHub 上给我们点个赞 ⭐,以支持我们。🙏🙏

hf_space hf_space hf_checkpoint
License Hits GitHub issues GitHub closed issues
hf_paper arXiv

💡 我们的团队还有其他多模态大模型项目,或许会令你感兴趣 ✨。

VideoLLaMA 2:推进视频大模型中的时空建模与音频理解
Zesen Cheng*, Sicong Leng*, Hang Zhang*, Yifei Xin*, Xin Li*, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
github github arXiv

VideoRefer Suite:利用视频大模型推进时空对象理解
Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing
github github arXiv

VCD:通过视觉对比解码缓解大型视觉-语言模型中的对象幻觉问题
Sicong Leng*, Hang Zhang*, Guanzheng Chen, Xin Li, Shijian Lu, Chunyan Miao, Lidong Bing
github github arXiv

多模态的诅咒:评估大型多模态模型在语言、视觉和音频方面的幻觉现象
Sicong Leng*, Yun Xing*, Zesen Cheng*, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing
github github arXiv

突破内存限制:近无限批量规模的对比损失
Zesen Cheng*, Hang Zhang*, Kehan Li*, Sicong Leng, Zhiqiang Hu, Fei Wu, Deli Zhao, Xin Li, Lidong Bing
github github arXiv

📰 新闻

  • [2025.02.07] 🔥🔥 发布我们重新标注的高质量图文数据集 VL3-Syn7M
  • [2025.01.26] 🔥🔥 截至1月26日,VideoLLaMA3-7B是Hugging Face空间上的LVBench排行榜上表现最好的7B参数量模型。
  • [2025.01.24] 🔥🔥 截至1月24日,VideoLLaMA3-7B是VideoMME排行榜上表现最好的7B参数量模型。
  • [2025.01.22] 👋👋 发布VideoLLaMA 3的技术报告。如果您有与VideoLLaMA 3密切相关但未在论文中提及的工作,欢迎随时告知我们。
  • [2025.01.21] 发布VideoLLaMA 3的模型及推理代码。

🌟 简介

VideoLLaMA 3是一系列具有前沿图像和视频理解能力的多模态基础模型。

💡点击此处查看视频基准测试的详细性能
💡点击此处查看图像基准测试的详细性能

🛠️ 需求与安装

基本依赖:

  • Python >= 3.10
  • PyTorch >= 2.4.0
  • CUDA 版本 >= 11.8
  • transformers >= 4.46.3

安装所需软件包:

[仅推理]

为确保稳定的推理效果,建议安装以下版本的软件包:


# 用于 CUDA 11.8 的 PyTorch 和 torchvision
pip install torch==2.4.0 torchvision==0.19.0 --extra-index-url https://download.pytorch.org/whl/cu118

# 将 flash-attn 锁定到兼容版本
pip install flash-attn==2.7.3 --no-build-isolation --upgrade

# Transformers 和 accelerate
pip install transformers==4.46.3 accelerate==1.0.1

# 视频处理依赖项
pip install decord ffmpeg-python imageio opencv-python

注意: 对于使用 torch==2.4.0torchvision==0.19.0 的 CUDA 11.8,请使用 flash-attn==2.7.3
如果您使用的是其他 Python 或 CUDA 版本,请查看 flash-attn 发布页面 以选择兼容的轮子文件。使用不兼容的版本可能会导致设置失败。

[训练]

git clone https://github.com/DAMO-NLP-SG/VideoLLaMA3
cd VideoLLaMA3
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

:earth_americas: 模型库

模型 基础模型 HF 链接
VideoLLaMA3-7B Qwen2.5-7B DAMO-NLP-SG/VideoLLaMA3-7B
VideoLLaMA3-2B Qwen2.5-1.5B DAMO-NLP-SG/VideoLLaMA3-2B
VideoLLaMA3-7B-Image Qwen2.5-7B DAMO-NLP-SG/VideoLLaMA3-7B-Image
VideoLLaMA3-2B-Image Qwen2.5-1.5B DAMO-NLP-SG/VideoLLaMA3-2B-Image

我们还上传了 VideoLLaMA3-7B 的微调视觉编码器,以便更广泛的应用:

模型 基础模型 HF 链接
VideoLLaMA3-7B 视觉编码器 siglip-so400m-patch14-384 DAMO-NLP-SG/VL3-SigLIP-NaViT

🤖 推理

import torch
from transformers import AutoModelForCausalLM, AutoProcessor

device = "cuda:0"
model_path = "DAMO-NLP-SG/VideoLLaMA3-7B"
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    trust_remote_code=True,
    device_map={"": device},
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)
processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)

conversation = [
    {"role": "system", "content": "You are a helpful assistant."},
    {
        "role": "user",
        "content": [
            {"type": "video", "video": {"video_path": "./assets/cat_and_chicken.mp4", "fps": 1, "max_frames": 180}},
            {"type": "text", "text": "What is the cat doing?"},
        ]
    },
]

inputs = processor(
    conversation=conversation,
    add_system_prompt=True,
    add_generation_prompt=True,
    return_tensors="pt"
)
inputs = {k: v.to(device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
if "pixel_values" in inputs:
    inputs["pixel_values"] = inputs["pixel_values"].to(torch.bfloat16)
output_ids = model.generate(**inputs, max_new_tokens=1024)
response = processor.batch_decode(output_ids, skip_special_tokens=True)[0].strip()
print(response)

更多案例请参考 示例

烹饪书

查看 推理笔记本,它们展示了如何在各种应用中使用 VideoLLaMA3,例如单张图像理解、多张图像理解、视觉引用与定位、视频理解等。

笔记本 描述
图像理解 展示了使用 VideoLLaMA 3 进行 通用图像理解图表分析表格理解文档识别视觉代码分析
多张图像理解 展示了使用 VideoLLaMA 3 进行 多张图像比较和理解
细粒度图像识别与理解 展示了使用 VideoLLaMA 3 进行 视觉引用与定位
视频理解 展示了使用 VideoLLaMA 3 进行 通用视频理解长视频理解时间定位

🤗 演示

强烈建议先尝试我们的 在线演示

或者,您也可以在本地启动一个 Gradio 应用程序:

python inference/launch_gradio_demo.py --model-path DAMO-NLP-SG/VideoLLaMA3-7B

选项:
  --model-path MODEL_PATH, --model_path MODEL_PATH
  --server-port SERVER_PORT, --server_port SERVER_PORT
  	可选。模型服务器的端口。
  --interface-port INTERFACE_PORT, --interface_port INTERFACE_PORT
  	可选。Gradio 界面的端口。
  --nproc NPROC
  	可选。模型进程的数量。

🗝️ 训练

第一步:准备训练数据

要使用我们的训练代码,请在 data_root 目录下按您喜欢的方式组织图像和视频数据,然后使用一个或多个注释文件来记录每段对话数据及其对应的图像/视频路径。例如:

data_root
├── LLaVA-Video-178K
│   ├── video_1.mp4
│   └── ...
├── LLaVA-OneVision-Data
│   ├── image_1.jpg
│   └── ...
├── annotations_video.jsonl
├── annotations_image.jsonl
└── ...

注释文件由一系列字典组成,每个条目遵循以下格式:

[
    {
        "image": ["images/xxx.jpg"],
        "conversations": [
            {
                "from": "human",
                "value": "<image>\n图中公交车有哪些颜色?"
            },
            {
                "from": "gpt",
                "value": "图中的公交车是白色和红色的。"
            },
            ...
        ]
    },
    {
        "video": ["videos/xxx.mp4"],
        "conversations": [
            {
                "from": "human",
                "value": "<video>\n视频中主要发生了哪些活动?"
            },
            {
                "from": "gpt",
                "value": "视频中主要发生的活动包括一名男子在准备摄像设备、一群男子乘坐直升机以及一名男子驾船在水中航行。"
            },
            ...
        ]
    },
    ...
]

为了加载效率和内存优化,我们建议使用符合 huggingface datasets 格式的 .jsonl 文件。

第二步:(可选)转换 HF 检查点

如果您想使用本代码库在自己的数据上微调 VideoLLaMA3,请先将 Hugging Face 上的检查点转换为本地格式。例如:

python scripts/convert_hf_checkpoint.py --model_path DAMO-NLP-SG/VideoLLaMA3-7B --save_path weights/videollama3_7b_local

第三步:准备训练脚本

我们在 scripts/train 中提供了一些适用于各个阶段的模板。您可以根据这些模板修改变量,以适应您的数据和模型设置。例如:

  --data_folder ./datasets \
  --data_path ./datasets/annotations_video.jsonl ./datasets/annotations_image.jsonl \
  --model_path Qwen/Qwen2.5-1.5B-Instruct \
  --vision_encoder DAMO-NLP-SG/SigLIP-NaViT \

对于微调,--model_path 是第 2 步中所述的已转换检查点的路径。

第四步:开始训练

现在您可以使用自己的训练脚本开始训练:

# VideoLLaMA3 第一阶段
bash scripts/train/stage1_2b.sh
# VideoLLaMA3 第二阶段
bash scripts/train/stage2_2b.sh

关于 CUDA OOM 错误的一些提示:

  • 请尝试使用最新的主分支,我们在 此提交 中优化了内存消耗。
  • 可以通过传递 --deepspeed scripts/zero2.json / zero3.json 来尝试 DeepSpeed 的 ZeRO-2/3
  • 通过分别设置 --mm_max_length--model_max_length,减少视觉 token 的最大数量(高分辨率图像和视频会自动降采样以适应该长度)以及序列的最大长度(超过该长度的序列会被截断)。
  • 减少本地批次大小,即训练脚本中的 LOCAL_BATCH_SIZE。 您可以根据可用的 GPU 内存和 GPU 数量调整上述超参数,使训练适配您的硬件。
  • (新!) 如果在使用上述方法后仍然遇到内存问题,您可以在训练脚本中设置 --use_flash_loss True 来尝试一项 实验性 功能。具体来说,它使用 Inf-CL 中提出的基于分块的交叉熵实现来降低内存消耗,这在训练具有长上下文或大词汇量的模型时非常有帮助!

✅ 评估

第一步:准备评估数据

首先,请根据官方说明下载相应数据,并将其组织成以下格式:

点击此处查看数据集目录结构
benchmarks
└── video
│   ├── activitynet_qa
│   │   ├── all_test
│   │   ├── test_a.json
│   │   └── test_q.json
│   ├── charades
│   │   ├── Charades_v1
│   │   └── charades_annotations_test-random_prompt.json
│   ├── egoschema
│   │   ├── good_clips_git
│   │   └── questions.json
│   ├── longvideobench
│   │   ├── lvb_val.json
│   │   ├── 字幕
│   │   └── 视频
│   ├── lvbench
│   │   ├── 视频
│   │   └── video_info.meta.jsonl
│   ├── mlvu
│   │   ├── json
│   │   └── 视频
│   ├── mvbench
│   │   ├── json
│   │   └── 视频
│   ├── nextqa
│   │   ├── map_vid_vidorID.json
│   │   ├── NExTVideo
│   │   └── test.csv
│   ├── perception_test
│   │   ├── mc_question_test.json
│   │   └── 视频
│   ├── tempcompass
│   │   ├── captioning
│   │   ├── caption_matching
│   │   ├── 多选题
│   │   ├── 视频
│   │   └── 是/否
│   ├── videomme
│   │   ├── 字幕
│   │   ├── test-00000-of-00001.parquet
│   │   └── 视频

第二步:开始评估

bash scripts/eval/eval_video.sh ${MODEL_PATH} ${BENCHMARKS} ${NUM_NODES} ${NUM_GPUS}

您可以通过评估脚本中的 DATA_ROOTSAVE_DIR 来更改基准测试和输出的目录。更多详细用法请参阅相关脚本。

第三步:添加新的基准测试

即将推出...

📑 引用

如果您发现 VideoLLaMA 对您的研究和应用有所帮助,请使用以下 BibTeX 格式引用:

@article{damonlpsg2025videollama3,
  title={VideoLLaMA 3: 面向图像和视频理解的前沿多模态基础模型},
  author={张博强、李科涵、程泽森、胡志强、袁宇谦、陈冠政、冷思聪、蒋宇明、张航、李欣、金鹏、张文琪、王凡、邴立东、赵德利},
  journal={arXiv 预印本 arXiv:2501.13106},
  year={2025},
  url = {https://arxiv.org/abs/2501.13106}
}

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: 推进视频大模型中的时空建模与音频理解},
  author={程泽森、冷思聪、张航、辛义飞、李欣、陈冠政、朱永鑫、张文琪、罗子阳、赵德利、邴立东},
  journal={arXiv 预印本 arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA:面向视频理解的指令微调视听语言模型},
  author = {张航、李欣、邴立东},
  journal = {arXiv 预印本 arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}

👍 致谢

我们的 VideoLLaMA3 基于 SigLipQwen2.5 构建。我们还从 LLaVA-OneVisionInternVL2Qwen2VL 的实现中学习了很多。此外,VideoLLaMA3 还受益于大量开源项目的工作。我们由衷感谢这些贡献,并在 ACKNOWLEDGEMENT.md 中列出了相关名单以表达我们的谢意。如果您的工作被用于 VideoLLaMA3 但未在此仓库或技术报告中提及,请随时告知我们 :heart:。

🔒 许可协议

本项目采用 Apache 2.0 许可协议发布,具体许可信息请参阅 LICENSE 文件。 该服务为研究预览版,仅限 非商业用途,并受 Qwen 模型许可协议、OpenAI 和 Gemini 生成数据的使用条款以及 ShareGPT 隐私政策的约束。如您发现任何潜在违规行为,请与我们联系。

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架