MapTR

GitHub
1.5k 240 较难 1 次阅读 昨天MIT语言模型Agent
AI 解读 由 AI 自动生成,仅供参考

MapTR 是一个专为自动驾驶领域设计的端到端框架,旨在实时构建高精度的矢量化高清地图(HD Map)。传统地图构建方法往往流程繁琐、依赖后处理且难以适应动态环境,而 MapTR 通过结构化建模与学习,直接从传感器数据中生成精确的车道线、道路边界等矢量元素,有效解决了在线地图构建的效率与精度难题。

该工具特别适合自动驾驶算法研究人员、感知系统开发者以及高校科研团队使用。其核心亮点在于摒弃了复杂的后处理步骤,实现了真正的“端到端”输出;同时支持多种 BEV(鸟瞰图)编码器,具备极强的灵活性与泛化能力。升级版 MapTRv2 进一步引入了中心线语义建模,显著提升了收敛速度与下游规划任务的兼容性。凭借在 ICLR、ECCV 及 IJCV 等顶级会议期刊上的 spotlight 收录表现,MapTR 已成为当前矢量地图构建领域兼具速度与性能的优秀开源方案,助力开发者更高效地搭建自动驾驶感知系统。

使用场景

某自动驾驶初创团队正在开发城市 NOA(导航辅助驾驶)功能,急需在车辆行驶过程中实时构建高精度的矢量地图以支持路径规划。

没有 MapTR 时

  • 依赖离线数据:系统严重依赖预先采集的静态高精地图,一旦遇到道路施工或临时改道,车辆因无法感知最新路况而被迫退出智驾模式。
  • 延迟高且算力浪费:采用传统的“先生成栅格图、再提取矢量线”的两阶段方案,处理链路长,导致地图更新延迟超过 200ms,难以应对高速变道等紧急场景。
  • 拓扑关系易出错:后处理算法难以精准判断车道线与人行横道的复杂连接关系,常出现车道断裂或路口拓扑混乱,导致规划器频繁急刹。
  • 泛化能力弱:模型在未见过的新城市或特殊路口表现不佳,需要大量人工规则进行修补,维护成本极高。

使用 MapTR 后

  • 在线实时构建:MapTR 实现了端到端的在线矢量化建图,车辆仅凭车载传感器即可实时生成当前路段的高精地图,无惧道路临时变更。
  • 推理速度大幅提升:得益于其结构化建模设计,MapTR 去除了繁琐的后处理步骤,将建图延迟降低至 50ms 以内,显著提升了系统的响应实时性。
  • 拓扑结构更精准:通过直接预测矢量元素及其拓扑关系,MapTR 能准确还原复杂的路口车道连接,使规划路径更加平滑自然,减少不必要的减速。
  • 泛化性强且易部署:模型在不同城市场景中表现出极强的鲁棒性,无需针对特定路口编写规则代码,大幅降低了算法迭代和落地维护的难度。

MapTR 通过将高精地图构建从“离线重资产”转变为“在线轻负载”,彻底解决了动态场景下的实时感知与规划难题。

运行环境要求

操作系统
  • Linux
GPU
  • 必需 NVIDIA GPU
  • 实验基于 8x NVIDIA GeForce RTX 3090 (24GB 显存) 进行
  • 单卡推理测试使用 RTX 3090
  • 根据显存占用表,训练需至少 12GB-24GB 显存(取决于模型大小和 batch size),推荐 RTX 3090 或更高
  • CUDA 版本未明确说明,但通常需匹配 PyTorch 版本(建议 11.3+)
内存

未说明(参考显存占用,系统内存建议 64GB+ 以处理大规模数据集和多卡训练)

依赖
notes1. 该项目基于 MMDetection3D 框架开发,安装前需先配置 mmcv 和 mmdet3d 环境。 2. 不同模型变体对显存需求差异巨大:MapTR-nano 训练约需 12GB 显存 (bs 24),而 MapTRv2 训练需约 20GB+ 显存 (bs 24)。 3. 支持 nuScenes 和 Argoverse2 数据集,需单独下载并预处理。 4. MapTRv2 版本位于独立的 'maptrv2' 分支,使用时需切换分支。 5. 支持多种 BEV 编码器(如 BEVFormer, BEVFusion/bevpool),需在配置文件中指定。
python未说明(通常此类项目需要 Python 3.7 或 3.8+)
PyTorch
mmcv
mmdetection3d
MapTR hero image

快速开始

MapTR

一种用于在线矢量化高清地图构建的端到端框架

Bencheng Liao1,2,3 *, Shaoyu Chen1,3 *, Yunchi Zhang1,3 , Bo Jiang1,3 ,Tianheng Cheng1,3, Qian Zhang3, Wenyu Liu1, Chang Huang3, Xinggang Wang1 :email:

1 华中科技大学电子信息与通信学院,2 华中科技大学人工智能研究院,3 地平线机器人

(*) 共同第一作者,(:email:) 通讯作者。

ArXiv 预印本 (arXiv 2208.14437)

openreview ICLR'23,被接受为 ICLR Spotlight

扩展版 ArXiv 预印本 MapTRv2 (arXiv 2308.05736),被 IJCV 2024 接受 (link.springer.com/article/10.1007/s11263-024-02235-z)

新闻

  • 2025年2月27日: 查看我们最新成果,DiffusionDrive,已被 CVPR 2025 接受!本研究探索使用扩散模型进行多模态端到端驾驶,适用于实时和真实世界应用。
  • 2024年10月6日: MapTRv2 被 IJCV 2024 接受!
  • 2024年2月20日: 基于 MapTRv2 的 VADv2 已在 arXiv 上发表 论文 项目页面
  • 2023年8月31日: 初始 MapTRv2 在 maptrv2 分支发布。请运行 git checkout maptrv2 来使用。
  • 2023年8月14日: 根据众多研究人员的要求,基于 MapTR 的地图标注框架 (VMA) 的代码将于近期在 https://github.com/hustvl/VMA 上发布。
  • 2023年8月10日: 我们在 Arxiv 上发布了 MapTRv2。MapTRv2 展示了更强的性能和更快的收敛速度。为了更好地满足下游规划器(如 PDM)的需求,我们引入了一种额外的语义——中心线(采用 LaneGAP 提出的路径建模方法)。代码和模型将于八月底发布。敬请关注!
  • 2023年5月12日: MapTR 现在支持多种 BEV 编码器,例如 BEVFormer 编码器BEVFusion BEV 池化。快来体验吧!
  • 2023年4月20日: 将 MapTR 扩展为通用的地图标注框架 (论文, 代码),在空间尺度和元素类型方面具有高度灵活性。
  • 2023年3月22日: 通过利用 MapTR,VAD(论文, 代码) 将驾驶场景建模为完全矢量化的表示,实现了当前最佳的端到端规划性能!
  • 2023年1月21日: MapTR 被 ICLR 2023 接受,并作为 Spotlight Presentation 进行展示!
  • 2022年11月11日: 我们发布了 MapTR 的初始版本。
  • 2022年8月31日: 我们在 Arxiv 上发表了论文。代码/模型即将发布。敬请关注!☕️

简介

MapTR/MapTRv2 是一个简单、快速且强大的在线矢量化高清地图构建框架。

framework

高清(HD)地图提供了丰富而精确的驾驶场景静态环境信息,是自动驾驶系统规划中不可或缺的基础组成部分。在本文中,我们提出了 Map TRansformer,一种用于在线矢量化高清地图构建的端到端框架。我们提出了一种统一的置换等价建模方法,即把地图元素建模为一组等价置换下的点集,这种方法能够准确描述地图元素的形状并稳定学习过程。我们设计了一种分层查询嵌入方案,以灵活编码结构化的地图信息,并进行分层二部匹配来学习地图元素。为了加快收敛速度,我们进一步引入了辅助的一对多匹配和密集监督。所提出的 方法能够很好地处理各种形状各异的地图元素。它能够在实时推理速度下运行,并在 nuScenes 和 Argoverse2 数据集上均达到当前最先进的性能。丰富的定性结果表明,在复杂多样的驾驶场景中,地图构建质量稳定且鲁棒。

模型

来自 MapTRv2 论文 的结果

comparison

方法 主干网络 学习率调度 mAP FPS
MapTR R18 110epoch 45.9 35.0
MapTR R50 24epoch 50.3 15.1
MapTR R50 110epoch 58.7 15.1
MapTRv2 R18 110epoch 52.3 33.7
MapTRv2 R50 24epoch 61.5 14.1
MapTRv2 R50 110epoch 68.7 14.1
MapTRv2 V2-99 110epoch 73.4 9.9

注释:

  • FPS 是在 NVIDIA RTX3090 GPU 上以 batch size 为 1(包含 6 张视图图像)测量的。
  • 所有实验均在 8 块 NVIDIA GeForce RTX 3090 GPU 上进行。

来自本仓库的结果。

MapTR

nuScenes 数据集

方法 主干网络 BEV 编码器 学习率调度 mAP FPS 显存 配置文件 下载
MapTR-nano R18 GKT 110epoch 46.3 35.0 11907M (bs 24) 配置 模型 / 日志
MapTR-tiny R50 GKT 24epoch 50.0 15.1 10287M (bs 4) 配置 模型 / 日志
MapTR-tiny R50 GKT 110epoch 59.3 15.1 10287M (bs 4) 配置 模型 / 日志
MapTR-tiny 摄像头 & LiDAR GKT 24epoch 62.7 6.0 11858M (bs 4) 配置 模型 / 日志
MapTR-tiny R50 bevpool 24epoch 50.1 14.7 9817M (bs 4) 配置 模型 / 日志
MapTR-tiny R50 bevformer 24epoch 48.7 15.0 10219M (bs 4) 配置 模型 / 日志
MapTR-tiny+ R50 GKT 24epoch 51.3 15.1 15158M (bs 4) 配置 模型 / 日志
MapTR-tiny+ R50 bevformer 24epoch 53.3 15.0 15087M (bs 4) 配置 模型 / 日志

注释:

  • + 表示我们引入了时序设置。

MapTRv2

请执行 git checkout maptrv2 并按照安装说明使用以下检查点。

nuScenes 数据集

方法 主干网络 BEV 编码器 学习率调度 mAP FPS 显存 配置文件 下载
MapTRv2 R50 bevpool 24epoch 61.4 14.1 19426M (bs 24) 配置 模型 / 日志
MapTRv2* R50 bevpool 24epoch 54.3 进行中 20363M (bs 24) 配置 模型 / 日志

Argoverse2 数据集

方法 主干网络 BEV 编码器 学习率调度 mAP FPS 显存 配置文件 下载
MapTRv2 R50 bevpool 6epoch 64.3 14.1 20580 (bs 24) 配置 模型 / 日志
MapTRv2* R50 bevpool 6epoch 61.3 进行中 21515 (bs 24) 配置 模型 / 日志

注释:

  • * 表示我们引入了一个额外的语义——中心线(采用 LaneGAP 提出的路径建模方法)。

nuScenes 验证集和 Argoverse2 验证集上的定性结果

MapTR/MapTRv2 在各种驾驶场景中均能保持稳定且鲁棒的地图构建质量。

可视化

MapTRv2 在整个 nuScenes 验证集上的表现

Youtube

MapTRv2 在整个 Argoverse2 验证集上的表现

Youtube

基于 MapTR 的端到端规划

https://user-images.githubusercontent.com/26790424/229679664-0e9ba5e8-bf2c-45e0-abbc-36d840ee5cc9.mp4

快速入门

目录

  • 时序模块
  • 中心线检测及拓扑支持(参考 maptrv2 分支)
  • 多模态检查点
  • 多模态代码
  • LiDAR 模态代码
  • argoverse2 数据集
  • Nuscenes 数据集
  • MapTR 检查点
  • MapTR 代码
  • 初始化

致谢

MapTR 基于 mmdetection3d。同时,我们也深受以下开源社区杰出贡献的启发:BEVFusionBEVFormerHDMapNetGKTVectorMapNet

引用

如果您在研究或应用中发现 MapTR 有所帮助,请考虑为我们点个赞 🌟,并使用以下 BibTeX 条目进行引用。

@article{liao2024maptrv2,
  title={Maptrv2: 用于在线矢量化高清地图构建的端到端框架},
  author={Liao, Bencheng 和 Chen, Shaoyu 和 Zhang, Yunchi 和 Jiang, Bo 和 Zhang, Qian 和 Liu, Wenyu 和 Huang, Chang 和 Wang, Xinggang},
  journal={国际计算机视觉杂志},
  pages={1--23},
  year={2024},
  publisher={Springer}
}
@inproceedings{MapTR,
  title={MapTR:面向在线矢量化高清地图构建的结构化建模与学习},
  author={Liao, Bencheng 和 Chen, Shaoyu 和 Wang, Xinggang 和 Cheng, Tianheng、Zhang, Qian、Liu, Wenyu、Huang, Chang},
  booktitle={国际学习表示会议},
  year={2023}
}
@inproceedings{liao2025lane,
  title={车道图即路径:用于在线车道图构建的保连续性路径式建模},
  author={Liao, Bencheng 和 Chen, Shaoyu 和 Jiang, Bo 和 Cheng, Tianheng 和 Zhang, Qian 和 Liu, Wenyu 和 Huang, Chang 和 Wang, Xinggang},
  booktitle={欧洲计算机视觉大会},
  pages={334--351},
  year={2024},
  organization={Springer}
}

版本历史

dataset_annotation2023/09/01

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160k|★★☆☆☆|今天
开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信

144.3k|★☆☆☆☆|2天前
Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像