navsim
navsim 是一款专为自动驾驶研发设计的“伪仿真”评估工具,旨在解决传统测试方法在效率与真实性之间难以兼顾的痛点。传统的开环评估虽然计算速度快,但无法反映车辆决策对环境的实际影响;而闭环仿真虽能模拟动态交互,却往往因场景构建复杂、计算成本高且缺乏真实感而难以大规模推广。
navsim 创新性地提出了一种数据驱动的评估范式:它基于真实的驾驶数据,仅在车辆规划轨迹附近生成合成的观测信息,从而在保留真实世界复杂性的同时,高效模拟出车辆行为引发的环境反馈。这种方法既拥有开环评估的高速特性,又能达到与闭环仿真高度一致的评价准确性,极大地降低了大规模算法迭代的门槛。
该工具特别适合自动驾驶领域的算法研究人员、工程师以及高校学者使用,尤其是那些致力于端到端驾驶模型开发、需要频繁验证策略有效性并关注榜单排名的团队。作为 NeurIPS 2024 和 CoRL 2025 的获奖成果,navsim 不仅提供了严谨的基准测试平台(Benchmark),还配套了公开的排行榜,帮助开发者快速定位模型短板,推动自动驾驶技术从实验室走向现实道路。
使用场景
某自动驾驶初创团队正在迭代其端到端规划模型,急需在发布前验证算法在复杂路口应对突发切入车辆时的安全性与鲁棒性。
没有 navsim 时
- 仿真失真严重:传统闭环仿真中的背景车辆行为过于刻板或随机,无法还原真实数据中人类驾驶员的微妙博弈,导致“仿真表现好,实车就出事”。
- 评估成本高昂:为了获得可信的测试结果,团队不得不依赖昂贵的实车路测或构建高保真数字孪生场景,一次完整回归测试需耗时数天。
- 开发迭代缓慢:由于缺乏高效且可信的自动化评估手段,算法工程师不敢频繁提交大幅度的模型更新,生怕引入难以察觉的安全隐患。
- 指标相关性弱:简单的开环指标(如轨迹误差)无法反映实际驾驶安全度,团队常陷入“指标优化但体验下降”的困境。
使用 navsim 后
- 数据驱动的真实感:navsim 利用真实路测数据生成“伪仿真”环境,在自车规划轨迹周围合成符合真实分布的动态障碍物,完美复现了人类驾驶员的反应模式。
- 极速规模化评估:无需搭建复杂的物理引擎,navsim 直接在增强后的真实数据流上运行,将原本数天的测试压缩至几小时,支持每日数百次模型迭代。
- 高置信度安全验证:其评估结果与传统高成本闭环仿真高度相关,团队可放心地基于 navsim 的评分筛选模型,提前拦截了多个潜在的碰撞风险。
- 精准指导优化:提供的基准测试(Benchmark)直接关联实际驾驶表现,让研发团队能精准定位模型在交互博弈中的短板并针对性调优。
navsim 通过融合真实数据的多样性与仿真评估的高效性,为自动驾驶算法提供了一把既快又准的“虚拟标尺”,彻底改变了模型迭代的验证范式。
运行环境要求
- 未说明
未说明
未说明

快速开始
自动驾驶伪仿真
论文 | 补充材料 | 公开排行榜 v2(navhard) | 公开排行榜 v1(navtest)
Wei Cao3,5, Marcel Hallgarten1,3,6, Tianyu Li4, Daniel Dauner1, Xunjiang Gu6, Caojun Wang4, Yakov Miron3,
Marco Aiello5, Hongyang Li4, Igor Gilitschenski6,7, Boris Ivanovic2, Marco Pavone2,8, Andreas Geiger1, and Kashyap Chitta1,21图宾根大学,图宾根人工智能中心,2NVIDIA 研究所,3罗伯特·博世公司
4上海创新研究院 OpenDriveLab,5斯图加特大学,6多伦多大学,7Vector 研究所,8斯坦福大学机器人学习大会 (CoRL), 2025
主分支包含用于 2025 年 NAVSIM 挑战赛的 NAVSIM v2 代码。关于 NAVSIM v1 及其 navtest 排行榜,它们也属于本仓库的一部分,请查看 v1.1 分支。
Daniel Dauner1,2, Marcel Hallgarten1,5, Tianyu Li3, Xinshuo Weng4, Zhiyu Huang4,6, Zetong Yang3,
Hongyang Li3, Igor Gilitschenski7,8, Boris Ivanovic4, Marco Pavone4,9, Andreas Geiger1,2, and Kashyap Chitta1,21图宾根大学,2图宾根人工智能中心,3上海人工智能实验室 OpenDriveLab,4NVIDIA 研究所
5罗伯特·博世公司,6南洋理工大学,7多伦多大学,8Vector 研究所,9斯坦福大学神经信息处理系统进展会议 (NeurIPS), 2024
数据集与基准测试赛道
亮点
🚀 简而言之: 我们提出了伪仿真这一全新的自动驾驶车辆评估方法,它结合了开环评估的高效性与闭环评估的鲁棒性。通过在规划轨迹附近用合成观测数据增强真实数据,伪仿真能够与闭环仿真保持高度相关,同时速度更快、更易于扩展。
🤔 动机: 当前的自动驾驶车辆评估方法存在关键权衡:闭环仿真资源消耗巨大,且需要访问模型而非仅依赖模型预测;而开环评估则忽略了诸如误差恢复和行为偏离专家路径等重要因素。为了实现大规模、快速的验证,亟需一种能够弥合两者差距的评估范式。
🏆 亮点: 伪仿真与传统的、计算成本高昂的闭环仿真具有高度相关性,但所需计算量仅为后者的六分之一。与传统闭环仿真不同,伪仿真既不是顺序执行的,也不是交互式的,因此可以在我们的排行榜中以开环方式计算所有评估指标。它曾作为 AGC2025 NAVSIM 端到端驾驶挑战赛 的主要评估框架。

目录
入门指南
(返回顶部)
更改记录
[2025/09/29]修复错误- 修复了指标筛选中的一个错误,该错误导致
"multiplicative_metrics_prod"和"weighted_metrics"未能被人工筛选正确排除(参见 Issue #151)。
- 修复了指标筛选中的一个错误,该错误导致
[2025/07/16][ICCV] Hugging Face 热身排行榜 发布- 此版本引入了注册系统:
- 使用您的 Hugging Face 账户登录后,点击“注册”并填写团队信息
- 管理员将在 24 小时内审核您的注册请求
- 此版本引入了注册系统:
[2025/04/28]NAVSIM v2.2 发布(用于 AGC 2025 的官方开发工具包版本)- 发布了
private_test_hard数据集(参见 splits),用于 HuggingFace NAVSIM v2 端到端驾驶挑战赛 2025 排行榜。- 提交截止日期为 2025 年 5 月 11 日 00:00:00 UTC
- 您每天在挑战赛排行榜上仅限一次上传,成功提交后大约需要 2 小时进行评估。
- 修复了
navhard和warmup的openscene_meta_datas中的错误- 如果您曾使用
navhard_two_stage/openscene_meta_datas或warmup_two_stage/openscene_meta_datas来评估模型,请重新下载并使用新数据。
- 如果您曾使用
- ⚠️ 重要提示:不允许将
test/navtest/navhard_two_stage/warmup_two_stage/private_test_two_stage分割用于训练您的挑战赛提交内容。- 允许使用任何其他公开可用的数据集或预训练权重。
- 此外,为了有资格获得奖项,必须在您的提交技术报告中明确说明所使用的数据。
- 发布了
[2025/04/24]NAVSIM v2.1.2 发布- 发布了
navhard_two_stage数据集(参见 splits) - 更新了 Hugging Face 热身排行榜 的扩展预测驾驶员模型评分 (EPDMS)。有关实现细节,请参阅 metrics。
- 发布了
[2025/04/13]NAVSIM v2.1.1 发布- 对热身排行榜的数据集进行了更新,并包含一些小修复。
[2025/04/08]NAVSIM v2.1 发布- 为 Hugging Face 热身排行榜 添加了新的数据集(参见 submission)
- 引入了对两阶段反应式交通代理的支持(参见 traffic simulation)。
[2025/02/28]NAVSIM v2.0 发布- 在 PDM 评分中增加了更多指标和惩罚项(参见 metrics)
- 添加了新的两阶段伪闭环仿真(参见 metrics)
- 增加了对反应式交通代理策略的支持(参见 traffic simulation)。
[2024/09/03]NAVSIM v1.1 发布- 在 Hugging Face 上发布了
navtest的排行榜 - 在 Hugging Face 上发布了基线检查点
- 更新了关于 submission 和 paper 的文档。
- 在 Hugging Face 上发布了
[2024/04/21]NAVSIM v1.0 发布(用于 AGC 2024 的官方开发工具包版本)- 实现了指标缓存/评估的并行化
- 添加了 Transfuser 基线(参见 agents)
- 添加了标准化的训练和测试过滤分割(参见 splits)
- 可视化工具(参见 tutorial_visualization.ipynb)
[2024/04/03]NAVSIM v0.4 发布- 支持比赛的测试阶段帧
- 提供 trainval 下载脚本
- 自我状态 MLP 代理及训练流程。
[2024/03/25]NAVSIM v0.3 发布- 增加了用于排行榜提交的代码。
[2024/03/11]NAVSIM v0.2 发布- 安装和下载更加简便
- 集成了 mini 和 test 数据分割
- 特权
Human代理。
[2024/02/20]NAVSIM v0.1 发布(初始演示版)- OpenScene-mini 传感器数据块和标注日志
- 天真
ConstantVelocity代理。
(返回顶部)
许可证与引用
除非另有说明,本仓库中的所有资产和代码均受 Apache 2.0 许可证 管辖。数据集(包括 nuPlan 和 OpenScene)则遵循其各自的分发许可证。如果您在研究中使用了我们的论文,请考虑引用它们。
@inproceedings{Cao2025CORL,
author = {Wei Cao and Marcel Hallgarten and Tianyu Li and Daniel Dauner and Xunjiang Gu and Caojun Wang and Yakov Miron and Marco Aiello and Hongyang Li and Igor Gilitschenski and Boris Ivanovic and Marco Pavone and Andreas Geiger and Kashyap Chitta},
title = {Pseudo-Simulation for Autonomous Driving},
booktitle = {Conference on Robot Learning (CoRL)},
year = {2025},
}
@inproceedings{Dauner2024NEURIPS,
title = {NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking},
author = {Daniel Dauner and Marcel Hallgarten and Tianyu Li and Xinshuo Weng and Zhiyu Huang and Zetong Yang and Hongyang Li and Igor Gilitschenski and Boris Ivanovic and Marco Pavone and Andreas Geiger and Kashyap Chitta},
booktitle = {Advances in Neural Information Processing Systems (NeurIPS)},
year = {2024},
}
(返回顶部)
其他资源
- SLEDGE | tuPlan garage | CARLA garage | E2EAD 调查
- PlanT | KING | TransFuser | NEAT
(返回顶部)
版本历史
v2.1.22025/04/28v2.1.12025/04/28v2.12025/04/28v2.02025/03/04v1.12024/09/04v1.02024/09/04v0.42024/09/04v0.32024/09/04v0.22024/09/04v0.12024/09/04常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
OpenHands
OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。