MapTR
MapTR 是一个专为自动驾驶领域设计的端到端框架,旨在实时构建高精度的矢量化高清地图(HD Map)。传统地图构建方法往往流程繁琐、依赖后处理且难以适应动态环境,而 MapTR 通过结构化建模与学习,直接从传感器数据中生成精确的车道线、道路边界等矢量元素,有效解决了在线地图构建的效率与精度难题。
该工具特别适合自动驾驶算法研究人员、感知系统开发者以及高校科研团队使用。其核心亮点在于摒弃了复杂的后处理步骤,实现了真正的“端到端”输出;同时支持多种 BEV(鸟瞰图)编码器,具备极强的灵活性与泛化能力。升级版 MapTRv2 进一步引入了中心线语义建模,显著提升了收敛速度与下游规划任务的兼容性。凭借在 ICLR、ECCV 及 IJCV 等顶级会议期刊上的 spotlight 收录表现,MapTR 已成为当前矢量地图构建领域兼具速度与性能的优秀开源方案,助力开发者更高效地搭建自动驾驶感知系统。
使用场景
某自动驾驶初创团队正在开发城市 NOA(导航辅助驾驶)功能,急需在车辆行驶过程中实时构建高精度的矢量地图以支持路径规划。
没有 MapTR 时
- 依赖离线数据:系统严重依赖预先采集的静态高精地图,一旦遇到道路施工或临时改道,车辆因无法感知最新路况而被迫退出智驾模式。
- 延迟高且算力浪费:采用传统的“先生成栅格图、再提取矢量线”的两阶段方案,处理链路长,导致地图更新延迟超过 200ms,难以应对高速变道等紧急场景。
- 拓扑关系易出错:后处理算法难以精准判断车道线与人行横道的复杂连接关系,常出现车道断裂或路口拓扑混乱,导致规划器频繁急刹。
- 泛化能力弱:模型在未见过的新城市或特殊路口表现不佳,需要大量人工规则进行修补,维护成本极高。
使用 MapTR 后
- 在线实时构建:MapTR 实现了端到端的在线矢量化建图,车辆仅凭车载传感器即可实时生成当前路段的高精地图,无惧道路临时变更。
- 推理速度大幅提升:得益于其结构化建模设计,MapTR 去除了繁琐的后处理步骤,将建图延迟降低至 50ms 以内,显著提升了系统的响应实时性。
- 拓扑结构更精准:通过直接预测矢量元素及其拓扑关系,MapTR 能准确还原复杂的路口车道连接,使规划路径更加平滑自然,减少不必要的减速。
- 泛化性强且易部署:模型在不同城市场景中表现出极强的鲁棒性,无需针对特定路口编写规则代码,大幅降低了算法迭代和落地维护的难度。
MapTR 通过将高精地图构建从“离线重资产”转变为“在线轻负载”,彻底解决了动态场景下的实时感知与规划难题。
运行环境要求
- Linux
- 必需 NVIDIA GPU
- 实验基于 8x NVIDIA GeForce RTX 3090 (24GB 显存) 进行
- 单卡推理测试使用 RTX 3090
- 根据显存占用表,训练需至少 12GB-24GB 显存(取决于模型大小和 batch size),推荐 RTX 3090 或更高
- CUDA 版本未明确说明,但通常需匹配 PyTorch 版本(建议 11.3+)
未说明(参考显存占用,系统内存建议 64GB+ 以处理大规模数据集和多卡训练)

快速开始
MapTR 
一种用于在线矢量化高清地图构建的端到端框架
Bencheng Liao1,2,3 *, Shaoyu Chen1,3 *, Yunchi Zhang1,3 , Bo Jiang1,3 ,Tianheng Cheng1,3, Qian Zhang3, Wenyu Liu1, Chang Huang3, Xinggang Wang1 :email:
1 华中科技大学电子信息与通信学院,2 华中科技大学人工智能研究院,3 地平线机器人
(*) 共同第一作者,(:email:) 通讯作者。
ArXiv 预印本 (arXiv 2208.14437)
openreview ICLR'23,被接受为 ICLR Spotlight
扩展版 ArXiv 预印本 MapTRv2 (arXiv 2308.05736),被 IJCV 2024 接受 (link.springer.com/article/10.1007/s11263-024-02235-z)
新闻
2025年2月27日: 查看我们最新成果,DiffusionDrive,已被 CVPR 2025 接受!本研究探索使用扩散模型进行多模态端到端驾驶,适用于实时和真实世界应用。2024年10月6日: MapTRv2 被 IJCV 2024 接受!2024年2月20日: 基于 MapTRv2 的 VADv2 已在 arXiv 上发表 论文 项目页面。2023年8月31日: 初始 MapTRv2 在 maptrv2 分支发布。请运行git checkout maptrv2来使用。2023年8月14日: 根据众多研究人员的要求,基于 MapTR 的地图标注框架 (VMA) 的代码将于近期在 https://github.com/hustvl/VMA 上发布。2023年8月10日: 我们在 Arxiv 上发布了 MapTRv2。MapTRv2 展示了更强的性能和更快的收敛速度。为了更好地满足下游规划器(如 PDM)的需求,我们引入了一种额外的语义——中心线(采用 LaneGAP 提出的路径建模方法)。代码和模型将于八月底发布。敬请关注!2023年5月12日: MapTR 现在支持多种 BEV 编码器,例如 BEVFormer 编码器 和 BEVFusion BEV 池化。快来体验吧!2023年4月20日: 将 MapTR 扩展为通用的地图标注框架 (论文, 代码),在空间尺度和元素类型方面具有高度灵活性。2023年3月22日: 通过利用 MapTR,VAD(论文, 代码) 将驾驶场景建模为完全矢量化的表示,实现了当前最佳的端到端规划性能!2023年1月21日: MapTR 被 ICLR 2023 接受,并作为 Spotlight Presentation 进行展示!2022年11月11日: 我们发布了 MapTR 的初始版本。2022年8月31日: 我们在 Arxiv 上发表了论文。代码/模型即将发布。敬请关注!☕️
简介
MapTR/MapTRv2 是一个简单、快速且强大的在线矢量化高清地图构建框架。

高清(HD)地图提供了丰富而精确的驾驶场景静态环境信息,是自动驾驶系统规划中不可或缺的基础组成部分。在本文中,我们提出了 Map TRansformer,一种用于在线矢量化高清地图构建的端到端框架。我们提出了一种统一的置换等价建模方法,即把地图元素建模为一组等价置换下的点集,这种方法能够准确描述地图元素的形状并稳定学习过程。我们设计了一种分层查询嵌入方案,以灵活编码结构化的地图信息,并进行分层二部匹配来学习地图元素。为了加快收敛速度,我们进一步引入了辅助的一对多匹配和密集监督。所提出的 方法能够很好地处理各种形状各异的地图元素。它能够在实时推理速度下运行,并在 nuScenes 和 Argoverse2 数据集上均达到当前最先进的性能。丰富的定性结果表明,在复杂多样的驾驶场景中,地图构建质量稳定且鲁棒。
模型
来自 MapTRv2 论文 的结果

| 方法 | 主干网络 | 学习率调度 | mAP | FPS |
|---|---|---|---|---|
| MapTR | R18 | 110epoch | 45.9 | 35.0 |
| MapTR | R50 | 24epoch | 50.3 | 15.1 |
| MapTR | R50 | 110epoch | 58.7 | 15.1 |
| MapTRv2 | R18 | 110epoch | 52.3 | 33.7 |
| MapTRv2 | R50 | 24epoch | 61.5 | 14.1 |
| MapTRv2 | R50 | 110epoch | 68.7 | 14.1 |
| MapTRv2 | V2-99 | 110epoch | 73.4 | 9.9 |
注释:
- FPS 是在 NVIDIA RTX3090 GPU 上以 batch size 为 1(包含 6 张视图图像)测量的。
- 所有实验均在 8 块 NVIDIA GeForce RTX 3090 GPU 上进行。
来自本仓库的结果。
MapTR
nuScenes 数据集
| 方法 | 主干网络 | BEV 编码器 | 学习率调度 | mAP | FPS | 显存 | 配置文件 | 下载 |
|---|---|---|---|---|---|---|---|---|
| MapTR-nano | R18 | GKT | 110epoch | 46.3 | 35.0 | 11907M (bs 24) | 配置 | 模型 / 日志 |
| MapTR-tiny | R50 | GKT | 24epoch | 50.0 | 15.1 | 10287M (bs 4) | 配置 | 模型 / 日志 |
| MapTR-tiny | R50 | GKT | 110epoch | 59.3 | 15.1 | 10287M (bs 4) | 配置 | 模型 / 日志 |
| MapTR-tiny | 摄像头 & LiDAR | GKT | 24epoch | 62.7 | 6.0 | 11858M (bs 4) | 配置 | 模型 / 日志 |
| MapTR-tiny | R50 | bevpool | 24epoch | 50.1 | 14.7 | 9817M (bs 4) | 配置 | 模型 / 日志 |
| MapTR-tiny | R50 | bevformer | 24epoch | 48.7 | 15.0 | 10219M (bs 4) | 配置 | 模型 / 日志 |
| MapTR-tiny+ | R50 | GKT | 24epoch | 51.3 | 15.1 | 15158M (bs 4) | 配置 | 模型 / 日志 |
| MapTR-tiny+ | R50 | bevformer | 24epoch | 53.3 | 15.0 | 15087M (bs 4) | 配置 | 模型 / 日志 |
注释:
- + 表示我们引入了时序设置。
MapTRv2
请执行 git checkout maptrv2 并按照安装说明使用以下检查点。
nuScenes 数据集
| 方法 | 主干网络 | BEV 编码器 | 学习率调度 | mAP | FPS | 显存 | 配置文件 | 下载 |
|---|---|---|---|---|---|---|---|---|
| MapTRv2 | R50 | bevpool | 24epoch | 61.4 | 14.1 | 19426M (bs 24) | 配置 | 模型 / 日志 |
| MapTRv2* | R50 | bevpool | 24epoch | 54.3 | 进行中 | 20363M (bs 24) | 配置 | 模型 / 日志 |
Argoverse2 数据集
| 方法 | 主干网络 | BEV 编码器 | 学习率调度 | mAP | FPS | 显存 | 配置文件 | 下载 |
|---|---|---|---|---|---|---|---|---|
| MapTRv2 | R50 | bevpool | 6epoch | 64.3 | 14.1 | 20580 (bs 24) | 配置 | 模型 / 日志 |
| MapTRv2* | R50 | bevpool | 6epoch | 61.3 | 进行中 | 21515 (bs 24) | 配置 | 模型 / 日志 |
注释:
- * 表示我们引入了一个额外的语义——中心线(采用 LaneGAP 提出的路径建模方法)。
nuScenes 验证集和 Argoverse2 验证集上的定性结果
MapTR/MapTRv2 在各种驾驶场景中均能保持稳定且鲁棒的地图构建质量。

MapTRv2 在整个 nuScenes 验证集上的表现
MapTRv2 在整个 Argoverse2 验证集上的表现
基于 MapTR 的端到端规划
快速入门
目录
- 时序模块
- 中心线检测及拓扑支持(参考 maptrv2 分支)
- 多模态检查点
- 多模态代码
- LiDAR 模态代码
- argoverse2 数据集
- Nuscenes 数据集
- MapTR 检查点
- MapTR 代码
- 初始化
致谢
MapTR 基于 mmdetection3d。同时,我们也深受以下开源社区杰出贡献的启发:BEVFusion、BEVFormer、HDMapNet、GKT、VectorMapNet。
引用
如果您在研究或应用中发现 MapTR 有所帮助,请考虑为我们点个赞 🌟,并使用以下 BibTeX 条目进行引用。
@article{liao2024maptrv2,
title={Maptrv2: 用于在线矢量化高清地图构建的端到端框架},
author={Liao, Bencheng 和 Chen, Shaoyu 和 Zhang, Yunchi 和 Jiang, Bo 和 Zhang, Qian 和 Liu, Wenyu 和 Huang, Chang 和 Wang, Xinggang},
journal={国际计算机视觉杂志},
pages={1--23},
year={2024},
publisher={Springer}
}
@inproceedings{MapTR,
title={MapTR:面向在线矢量化高清地图构建的结构化建模与学习},
author={Liao, Bencheng 和 Chen, Shaoyu 和 Wang, Xinggang 和 Cheng, Tianheng、Zhang, Qian、Liu, Wenyu、Huang, Chang},
booktitle={国际学习表示会议},
year={2023}
}
@inproceedings{liao2025lane,
title={车道图即路径:用于在线车道图构建的保连续性路径式建模},
author={Liao, Bencheng 和 Chen, Shaoyu 和 Jiang, Bo 和 Cheng, Tianheng 和 Zhang, Qian 和 Liu, Wenyu 和 Huang, Chang 和 Wang, Xinggang},
booktitle={欧洲计算机视觉大会},
pages={334--351},
year={2024},
organization={Springer}
}
版本历史
dataset_annotation2023/09/01常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。