Eagle
Eagle 是一款前沿的视觉语言模型(VLM),专注于长上下文的多模态学习。它解决了传统模型在处理长视频理解和高分辨率图像时的局限性,支持最多 512 帧视频输入,并通过联合训练图像和视频数据提升模型表现。Eagle 引入了 Eagle-Video-110K 数据集,包含大量标注样本,适用于视频理解、定位和摘要等任务。Eagle 在多个视频基准测试中取得领先,性能优于多个主流模型。其核心技术包括信息优先采样、渐进式混合微调等,提升了模型对复杂多模态内容的理解能力。适合研究人员、开发者以及需要处理视频和图像任务的用户使用。
使用场景
某视频内容审核公司需要对长达3小时的视频进行自动内容分析,以检测违规信息。团队尝试使用传统视觉语言模型处理这些长视频,但效果不佳。
没有 Eagle 时
- 处理超长视频时模型频繁崩溃或输出不连贯
- 高分辨率画面细节丢失严重,影响内容理解准确性
- 文本与视觉信息无法有效对齐,导致关键信息遗漏
- 模型在多任务(如问答、定位、摘要)中表现不稳定
使用 Eagle 后
- 支持512帧视频输入,稳定处理3小时长视频内容
- 保留高分辨率画面细节,提升图像理解精度
- 自动平衡文本与视觉信息,确保关键内容完整呈现
- 在多任务中表现一致,显著提升审核效率和准确率
Eagle 通过数据驱动策略,显著提升了长视频理解和多模态任务处理能力,为视频内容审核提供了更可靠的技术支持。
运行环境要求
- Linux
- macOS
需要 NVIDIA GPU,显存 8GB+,CUDA 11.7+
16GB+

快速开始
更新
- [2025/10] 🔥 发布 Eagle 2.5 源代码。
- [2025/09] 🔥 Eagle 2.5 被 NeurIPS 2025 接受。
- [2025/09] 🎉 Eagle 2 已在 Torch-TRT 中得到支持。
- [2025/07] 🎉 发布 Eagle 2.5 模型。
- [2025/06] 🔥 Eagle 2.5 被采用为 GR00T-N1.5 的 VLM 主干。更多详情请参阅 技术博客。
- [2025/04] 🎉 发布 Eagle 2.5 技术报告。
- [2025/03] 🔥 Eagle 2 被采用为 GR00T-N1 的 VLM 主干(系统-2)。更多详情请参阅 GTC 发布会 和 白皮书。
- [2025/01] 🎉 发布 Eagle 2 技术报告 和 模型。
- [2025/01] 🎉 Eagle 被 ICLR 2025 Spotlight 接受。
- [2024/08] 🎉 发布 Eagle。
资源
🌟 从这里开始:设置环境、训练模型和运行评估
🌐 玩乐场
- 🤗 Huggingface Space 上的演示
简介
Eagle 2.5 是一系列面向长上下文多模态学习的前沿视觉-语言模型(VLM)。尽管大多数现有 VLM 专注于短上下文任务,Eagle 2.5 却致力于解决长视频理解与高分辨率图像理解的挑战,为两者提供了一个通用框架。Eagle 2.5 最多可支持 512 帧视频,并联合使用图像和视频数据进行训练。
我们还推出了 Eagle-Video-110K,这是一个全新的数据集,包含故事级和片段级标注,专为长视频理解而设计。该数据集包含超过 11 万个标注样本,涵盖问答、定位和摘要等任务。视频时长从几分钟到 3 小时不等,将长视频推理的能力推向了极限。
🚀 全面优异的表现:
- 在 10 个长视频基准测试中,有 6 个达到 SOTA 水平
- 在 5 项视频任务中,有 3 项表现优于 GPT-4o(0806)
- 在 6 项视频任务中,有 4 项表现优于 Gemini 1.5 Pro
- 在多个关键数据集上,表现与 Qwen2.5-VL-72B 相当或更优
- 在 Video-MME 数据集上,使用 512 帧输入时,准确率达到 72.4%
- 图像理解能力强劲,相比 Eagle 2 显著提升,与 Qwen2.5-VL 表现相当。
🎯 关键创新
- 信息优先采样:
- 图像区域保留(IAP):优化图像拼接方式,以保留大部分原始图像面积和宽高比,从而保持细粒度细节。
- 自动降级采样(ADS):动态平衡视觉和文本输入,确保在上下文长度限制范围内,既能完整保留文本内容,又能最大化视觉信息量。
- 渐进式混合后训练:
- 在训练过程中逐步增加上下文长度,提升模型处理不同大小输入的能力,并通过动态采样提高信息密度。
- 多样性驱动的数据配方:
- 结合开源数据(人工标注和合成数据)以及我们自建的 Eagle-Video-110K 数据集,该数据集采用多样性驱动策略收集,并配有故事级和片段级问答对标注。
⚡ 效率与框架优化
- GPU 内存优化:
- 集成基于 Triton 的融合算子,替代 PyTorch 的 MLP、RMSNorm 和 RoPE 实现。
- 通过融合线性层 + 交叉熵损失(移除中间 logits 存储)以及将隐藏状态卸载到 CPU,进一步降低 GPU 内存占用。
- 这种优化使得单个 GPU 上的 8B 模型能够支持高达 32K 的上下文长度。
- 分布式上下文并行:
- 采用基于 Ulysses 和 Ring/Context Parallelism 构建的两层通信组,并在此基础上引入 USP。
- 实现 ZigZag Llama3 风格的上下文并行,通过全归约 KV 来减少通信延迟。
- 视频解码加速:
- 优化稀疏视频帧采样,快速解析视频元数据,提升长视频解码效率并降低内存消耗。
- 推理加速:
- 支持 vLLM 部署,进一步降低内存占用并加速推理过程。
模型详情
- 模型类型:长上下文视觉-语言模型
- 架构:
- 视觉编码器:Siglip2-So400m-Patch16-512
- 语言模型:Qwen2.5-7B-Instruct
- 多模态基础架构:基于拼接的视觉输入的 LLaVA
- 支持的输入:
- 长视频序列(最多 512 帧)
- 高分辨率图像(输入尺寸可达 4K HD)
- 多页文档
- 长文本
- 训练策略:
- 渐进式混合后训练,上下文长度从 32K 扩展到 128K
- 信息优先采样,以最佳方式保留视觉和文本信息
- 训练数据:
- 开源视频和文档数据集
- Eagle-Video-110K(11 万条带有双层标注的长视频)
模型库
📦 Eagle 2.5 模型
| 模型名称 | 日期 | LLM 主干 | 视觉编码器 | 最大长度 | 下载 |
|---|---|---|---|---|---|
| Eagle2.5-8B | 2025.04.16 | Qwen2.5-7B-Instruct | SigLIP2 | 128K | 🤗 HF 链接 |
📦 Eagle 2 模型
| 模型名称 | 日期 | LLM 主干 | 视觉编码器 | 最大长度 | 下载 |
|---|---|---|---|---|---|
| Eagle2-1B | 2025.01.11 | Qwen2.5-0.5B-Instruct | SigLIP | 16K | 🤗 HF 链接 |
| Eagle2-2B | 2025.01.11 | Qwen2.5-1.5B-Instruct | SigLIP | 16K | 🤗 HF 链接 |
| Eagle2-9B | 2025.01.11 | Qwen2.5-7B-Instruct | SigLIP + ConvNext | 16K | 🤗 HF 链接 |
| Eagle2-34B | 2025.01.11 | Qwen2.5-32B-Instruct | SigLIP + ConvNext | 16K | 🤗 HF 链接 |
基准测试结果
🎥 视频基准测试
| 基准测试 | GPT-4o | Gemini-1.5 Pro | InternVL2.5-8B | Qwen2.5-VL-8B | Eagle2.5-8B |
|---|---|---|---|---|---|
| MVBenchtest | - | - | 72.0 | 69.6 | 74.8 |
| Perception_testval | - | - | - | 70.5 | 82.0 |
| EgoSchemafullset | - | 72.2 | - | 65.0 | 72.2 |
| MMB-Video | 1.63 | 1.30 | 1.68 | 1.79 | 1.94 |
| MLVUval | - | - | 68.9 | 70.2 | 77.6 |
| LVBenchval | 66.7 | 64.0 | 60.0 | 56.0 | 66.4 |
| Video-MMEw/o subtitle | 71.9 | 75.0 | 64.2 | 65.1 | 72.4 |
| Video-MMEw subtitle | 77.2 | 81.3 | 66.9 | 71.6 | 75.7 |
| CG-BenchClue | 58.6 | 50.9 | - | 44.5 | 55.8 |
| CG-BenchLong | 44.9 | 37.8 | - | 35.5 | 46.6 |
| CG-BenchmIoU | 5.73 | 3.85 | - | 2.48 | 13.4 |
| HourVideoDev | - | 37.2 | - | - | 44.5 |
| HourVideoTest | - | 37.4 | - | - | 41.8 |
| Charade-STAmIoU | 35.7 | - | - | 43.6 | 65.9 |
| HD-EPIC | - | 37.6 | - | - | 42.9 |
| HRVideoBench | - | - | - | - | 68.5 |
| EgoPlanval | - | - | - | - | 45.3 |
🦾 身体智能基准测试
| 基准测试 | GPT-4o | Gemini-1.5 Pro | InternVL2.5-8B | Qwen2.5-VL-8B | Eagle2.5-8B |
|---|---|---|---|---|---|
| OpenEQA | - | - | - | - | 63.5 |
| ERQA | 47.0 | 41.8 | - | - | 38.3 |
| EgoPlanval | - | - | - | - | 45.3 |
🖼️ 图像基准测试
| 基准测试 | GPT-4o | Gemini-1.5 Pro | InternVL2.5-8B | Qwen2.5-VL-8B | Eagle2.5-8B |
|---|---|---|---|---|---|
| DocVQAtest | 92.8 | 93.1 | 93.0 | 95.7 | 94.1 |
| ChartQAtest | 85.7 | 87.2 | 84.8 | 87.3 | 87.5 |
| InfoVQAtest | 79.2 | 81.0 | 77.6 | 82.6 | 80.4 |
| TextVQAval | 77.4 | 78.8 | 79.1 | 84.9 | 83.7 |
| OCRBenchtest | 736 | 754 | 822 | 864 | 869 |
| MMstartest | 64.7 | 59.1 | 62.8 | 63.9 | 66.2 |
| RWQAtest | 75.4 | 67.5 | 70.1 | 68.5 | 76.7 |
| AI2Dtest | 84.6 | 79.1 | 84.5 | 83.9 | 84.5 |
| MMMUval | 69.1 | 62.2 | 56.0 | 58.6 | 55.8 |
| MMBench_V11test | 83.1 | 74.6 | 83.2 | 82.6 | 81.7 |
| MMVetGPT-4-Turbo | 69.1 | 64.0 | 62.8 | 67.1 | 62.9 |
| HallBenchavg | 55.0 | 45.6 | 50.1 | 52.9 | 54.7 |
| MathVistatestmini | 63.8 | 63.9 | 64.4 | 68.2 | 67.8 |
| 平均得分 | 74.9 | 71.7 | 73.1 | 75.6 | 75.6 |
所有数据均直接摘自 Eagle 2.5 技术报告中的表 2 和表 3。
引用
如果您觉得本项目有用,请引用我们的工作:
@booktitle{chen2025eagle2.5,
title={Eagle 2.5: 推动前沿视觉语言模型的长上下文后训练},
author={陈果、李志奇、王世豪、蒋金东、刘一成、陆立东、黄德安、卞元民、勒马蒂厄、埃尔利希·马克、陆彤、王丽敏、卡坦扎罗·布莱恩、考茨·扬、陶安德鲁、俞志定、刘桂林},
booktitle={NeurIPS},
year={2025}
}
@article{li2025eagle2,
title={Eagle 2:为前沿视觉语言模型从零开始构建后训练数据策略},
author={李志奇、陈果、刘士龙、王世豪、维巴尚 VS、季义申、兰世怡、张浩、赵艺琳、拉达克里希南·苏布哈什里、钱娜丁、萨普拉·卡兰、德什穆克·阿马拉·桑杰、林塔马基·图奥马斯、勒马蒂厄、卡尔曼诺夫·伊利亚、沃格特勒·卢卡斯、菲舍尔·菲利普、黄德安、罗马·蒂莫、陆彤、阿尔瓦雷斯·何塞 M.、卡坦扎罗·布莱恩、考茨·扬、陶安德鲁、刘桂林、俞志定},
journal={arXiv:2501.14818},
year={2025}
}
@inproceedings{shi2025eagle,
title = {Eagle:探索混合编码器多模态大模型的设计空间},
author={施敏、刘福晓、王世豪、廖世嘉、拉达克里希南·苏布哈什里、黄德安、尹宏旭、萨普拉·卡兰、雅库布·亚塞尔、希普里·希、卡坦扎罗·布莱恩、陶安德鲁、考茨·扬、俞志定、刘桂林},
booktitle={ICLR},
year={2025}
}
许可证/使用条款
- 代码根据 LICENSE 文件中提供的 Apache 2.0 许可证发布。此仓库中的部分代码被复用,并受其原始许可证约束。某些文件已被修改,并在适当位置添加了相应的署名和额外的许可证声明。
- 预训练的 Eagle 2 和 2.5 模型权重根据 NVIDIA 许可证 发布。这些模型为研究预览版,仅供非商业用途,且受以下许可证和条款约束:
- Qwen2.5-7B-Instruct 模型许可证:Apache-2.0
- Eagle 2 - PaliGemma SigLIP 模型许可证:Gemma 许可证
- Eagle 2 - CLIP ConvNeXt 模型许可证:MIT
- Eagle 2.5 - SigLIP2 模型许可证:Apache-2.0
- 模型通过 Qwen 进行改进。
- 如需为 Eagle 贡献代码,请参阅 贡献指南。
- 请用户确保其对数据集和模型权重的使用符合所有适用的法律法规。
致谢
- LLaVA、LLaVA-HR 和 InternVL:Eagle 代码库整合了来自这些仓库的修改组件。衷心感谢这些优秀的开源项目。
- LMMs-Eval 和 VLMEvalKit:我们使用这些仓库的衍生作品进行评估。非常感谢这些出色的工具。
- 感谢 Cambrian、LLaVA-One-Vision、The Cauldron 等众多作品在开源数据方面所做出的努力。
- 团队特别感谢 NVIDIA TSE 团队,包括陈富、金宇超、乐安和乔什·帕克,他们在 Eagle 的 TensorRT 优化和边缘部署方面做出了卓越的工作。
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。