Vision-Centric-BEV-Perception
Vision-Centric-BEV-Perception 是一份专注于“以视觉为中心的鸟瞰图(BEV)感知”领域的权威综述资源。它旨在解决自动驾驶中如何将车载摄像头拍摄的多视角二维图像,高效、准确地转换为上帝视角的三维空间表示这一核心难题。通过统一 BEV 空间,该系统能更好地融合多相机数据,提升车辆对周围环境的理解能力,从而辅助路径规划与障碍物检测。
这份资源特别适合自动驾驶算法研究人员、计算机视觉开发者以及相关领域的学生使用。它不仅系统梳理了该技术的发展脉络,还详细分类整理了基于几何变换(如单应性矩阵)和基于深度估计(如 Lift-Splat-Shoot 机制)的两大主流技术路线。其独特亮点在于构建了完整的知识图谱,收录了从早期经典算法到最新前沿研究的数十篇关键论文,并提供了清晰的时间线演进图和数据集汇总。对于希望快速切入 BEV 感知领域、寻找灵感或对比不同技术方案的专业人士而言,Vision-Centric-BEV-Perception 是不可或缺的入门指南与参考手册。
使用场景
某自动驾驶初创团队正在开发城市道路辅助驾驶系统,急需利用车载单目摄像头实现高精度的周围车辆与车道线感知。
没有 Vision-Centric-BEV-Perception 时
- 视角局限严重:工程师依赖传统的透视视图(PV)算法,难以准确判断远处车辆的真实距离和相对速度,导致频繁误刹车。
- 多传感器融合困难:由于缺乏统一的鸟瞰图(BEV)特征空间,摄像头数据与雷达点云无法在几何层面高效对齐,融合模型训练收敛极慢。
- 遮挡处理薄弱:在复杂路口,传统单目深度估计方法无法有效推断被部分遮挡车辆的完整轮廓和行驶轨迹。
- 技术选型迷茫:面对从早期的单应性变换(Homography)到最新的深度分布网络(如 CaDDN、OFT)等数十种方案,团队耗费数周调研仍难确定最佳技术路线。
使用 Vision-Centric-BEV-Perception 后
- 空间感知升级:团队基于综述中梳理的深度估计方案(如 Lift-Splat-Shoot),成功构建出稠密的 BEV 特征图,将距离估算误差降低了 40%。
- 融合效率倍增:利用文中总结的几何转换范式,快速搭建了摄像头与雷达的统一坐标系,模型迭代周期从两周缩短至三天。
- 轨迹预测更稳:参考 OGMs 等占用网格论文的思路,系统现在能“脑补”出遮挡车辆的全貌,显著提升了变道决策的安全性。
- 研发路径清晰:借助详细的分类图谱和时序演进分析,架构师迅速锁定了适合当前硬件算力的最优算法组合,避免了重复造轮子。
Vision-Centric-BEV-Perception 不仅是一份文献清单,更是自动驾驶团队从二维视觉迈向三维空间感知的高效导航图。
运行环境要求
未说明
未说明

快速开始
视觉中心的BEV感知
视觉中心的BEV感知:综述

引言
(1) 数据集

(2) 基于几何的 PV2BEV
基于单应变换的 PV2BEV
公开论文:
- IPM:逆透视映射简化了光流计算和障碍物检测(生物控制论,1991年)[论文]
- DSM:基于街景图像的自动密集视觉语义建图(IROS'12)[论文]
- MapV:学习将车辆映射到鸟瞰视角(ICIAP'17)[论文]
- BridgeGAN:生成对抗网络从前视图到鸟瞰图的合成(3DV'18)[论文][项目页面]
- VPOE:基于深度学习的通过逆透视映射图像进行车辆位置与姿态估计(IV'19)[论文]
- 3D-LaneNet:端到端三维多车道检测(ICCV'19)[论文]
- 正确(倾斜)的视角:利用增强型逆透视映射提升对道路场景的理解(IV'19)[论文]
- Cam2BEV:一种Sim2Real深度学习方法,用于将多路车载摄像头拍摄的图像转换为鸟瞰视角下的语义分割图像(ITSC'20)[论文] [项目页面]
- MonoLayout:从单张图像中恢复无遮挡场景布局(WACA'20)[论文] [项目页面]
- MVNet:基于特征透视变换的多视角检测(ECCV'20)[论文] [项目页面]
- OGMs:在“平板车”间行驶:基于单目相机的鸟瞰占用栅格地图,用于整体轨迹规划(WACA'21)[论文] [项目页面]
- TrafCam3D:利用单应变换,通过未标定交通摄像头实现单目三维车辆检测(IROS'21)[论文] [项目页面]
- SHOT:用于多视角行人检测的堆叠单应变换(ICCV'21)[论文]
- HomoLoss:用于单目三维目标检测的单应损失(CVPR'22)[论文]
时间顺序概览:

基于深度的 PV2BEV
公开论文:
- OFT:用于单目三维目标检测的正交特征变换(BMVC'19)[论文] [项目页面]
- CaDDN:用于单目三维目标检测的类别化深度分布网络(CVPR'21)[论文] [项目页面]
- DSGN:用于三维目标检测的深度立体几何网络(CVPR'20)[论文] [项目页面]
- Lift, Splat, Shoot:通过隐式反投影至三维空间来编码来自任意相机阵列的图像(ECCV'20)[论文] [项目页面]
- PanopticSeg:使用单目前视图图像进行鸟瞰全景分割(RA-L'22)[论文] [项目页面]
- FIERY:基于环绕式单目相机的鸟瞰未来实例预测(ICCV'21)[论文] [项目页面]
- LIGA-Stereo:为基于立体视觉的三维检测器学习激光雷达几何感知表示(ICCV'21)[论文] [项目页面]
- ImVoxelNet:用于单目及多视角通用三维目标检测的图像到体素投影(WACV'22)[论文] [项目页面]
- BEVDet:高性能多摄像头鸟瞰三维目标检测(Arxiv'21)[论文] [项目页面]
- M^2BEV:多摄像头联合三维检测与分割,采用统一的鸟瞰视图表示(Arxiv'22)[论文] [项目页面]
- StretchBEV:在空间和时间维度上扩展未来实例预测(ECCV'22)[论文] [项目页面]
- DfM:基于运动深度的单目三维目标检测(ECCV'22)[论文] [项目页面]
- BEVDet4D:在多摄像头三维目标检测中利用时间线索(Arxiv'22)[论文] [项目页面]
- BEVerse:面向视觉中心自动驾驶的鸟瞰统一感知与预测(Arxiv'22)[论文] [项目页面]
- MV-FCOS3D++:仅使用多视角摄像头,结合预训练单目骨干网络的四维目标检测(Arxiv'22)[论文] [项目页面]
- 将人放回原位:单目深度回归三维人体(CVPR'22)[代码] [项目页面] [论文] [视频] [RH数据集]
时间顺序概览:

基准测试结果:

(3) 基于网络的 PV2BEV
基于 MLP 的 PV2BEV
公开论文:
- VED:基于卷积变分编码器-解码器网络的单目语义占用栅格地图构建(RA-L'19)[论文] [项目页面]
- VPN:用于环境感知的跨视图语义分割(IROS'20)[论文] [项目页面]
- FishingNet:网格中语义热图的未来推理(Arxiv'20)[论文]
- PON:使用金字塔占用网络从图像预测语义地图表示(CVPR'20)[论文] [项目页面]
- STA-ST:在鸟瞰视角车辆估计中实现时空聚合(ICRA'21)[论文]
- HDMapNet:在线高清地图构建与评估框架(ICRA'22)[论文] [项目页面]
- 专注地投射你的视角:通过跨视图变换进行单目道路场景布局估计(CVPR'21)[论文] [项目页面]
- HFT:通过混合特征变换提升透视表示(Arxiv'22)[论文] [项目页面]
时间顺序概览:

基准测试结果:

基于 Transformer 的 PV2BEV
公开论文:
- STSU:基于车载图像的结构化鸟瞰视角交通场景理解(ICCV'21)[论文] [项目页面]
- Image2Map:将图像转换为地图(ICRA'22)[论文] [项目页面]
- DETR3D:通过 3D 到 2D 查询实现多视角图像中的 3D 物体检测(CoRL'21)[论文] [项目页面]
- TopologyPL:从单张车载摄像头图像中进行拓扑保持的局部路网估计(CVPR'22)[论文] [项目页面]
- PETR:用于多视角 3D 物体检测的位置嵌入变换(ECCV'22)[论文] [项目页面]
- BEVSegFormer:来自任意相机阵列的鸟瞰视角语义分割(Arxiv'22)[论文]
- PersFormer:3D 车道线检测的新基线(ECCV'22)[论文] [项目页面]
- MonoDTR:带有深度感知的单目 3D 物体检测(CVPR'22)[论文] [项目页面]
- MonoDETR:用于单目 3D 物体检测的深度引导型 Transformer(Arxiv'22)[论文] [项目页面]
- BEVFormer:通过时空 Transformer 从多相机图像中学习鸟瞰视角表示(ECCV'22)[论文] [项目页面]
- GitNet:基于几何先验的鸟瞰视角分割变换(ECCV'22)[论文]
- Graph-DETR3D:重新思考多视角 3D 物体检测中的重叠区域(MM'22)[论文]
- CVT:用于实时地图视图语义分割的跨视图 Transformer(CVPR'22)[论文] [项目页面]
- PETRv2:一种用于从多相机图像中进行 3D 感知的统一框架(Arxiv'22)[论文] [项目页面]
- Ego3RT:以光线追踪方式学习自我 3D 表示(ECCV'22)[论文] [项目页面]
- GKT:通过几何引导的核 Transformer 实现高效且鲁棒的 2D 到 BEV 表示学习(Arxiv'22)[论文] [项目页面]
- PolarDETR:基于极坐标参数化的视觉环绕式 3D 检测(Arxiv'22)[论文] [项目页面]
- LaRa:用于多相机鸟瞰视角语义分割的潜在变量和光线(Arxiv'22)[论文]
- SRCN3D:稀疏 R-CNN 3D 环绕式摄像头用于自动驾驶的 3D 物体检测与跟踪(Arxiv'22)[论文] [项目页面]
- PolarFormer:使用极坐标 Transformer 进行多相机 3D 物体检测(Arxiv'22)[论文] [项目页面]
- ORA3D:ORA3D:重叠区域感知的多视角 3D 物体检测(Arxiv'22)[论文]
- CoBEVT:使用稀疏 Transformer 进行协作式鸟瞰视角语义分割(Arxiv'22)[论文]
时间顺序概览:

基准测试结果:

(4) 扩展
BEV下的多任务学习
- FIERY:基于环视单目相机的鸟瞰图未来实例预测(ICCV'21)[论文] [项目页]
- StretchBEV:在空间和时间上扩展未来实例预测(ECCV'22)[论文] [项目页]
- BEVerse:面向视觉中心自动驾驶的统一鸟瞰感知与预测(Arxiv'22)[论文] [项目页]
- M^2BEV:基于统一鸟瞰表示的多摄像头联合3D检测与分割(Arxiv'22)[论文] [项目页]
- STSU:基于车载图像的结构化鸟瞰交通场景理解(ICCV'21)[论文] [项目页]
- BEVFormer:通过时空Transformer从多摄像头图像中学习鸟瞰表示(ECCV'22)[论文] [项目页]
- Ego3RT:以光线追踪方式学习自我3D表示(ECCV'22)[论文] [项目页]
- PETRv2:一种基于多摄像头图像的3D感知统一框架(Arxiv'22)[论文] [项目页]
- PolarFormer:基于极坐标Transformer的多摄像头3D目标检测(Arxiv'22)[论文] [项目页]

BEV下的融合
多模态融合:
- PointPainting:用于3D目标检测的顺序式融合(CVPR'19)[论文] [项目页]
- 3D-CVF:利用跨视图空间特征融合生成相机与LiDAR联合特征,用于3D目标检测(ECCV'20)[论文] [项目页]
- FUTR3D:一种用于3D检测的统一传感器融合框架(Arxiv'22)[论文] [项目页]
- MVP:多模态虚拟点3D目标检测(NIPS'21)[论文] [项目页]
- PointAugmenting:用于3D目标检测的跨模态增强(CVPR'21)[论文] [项目页]
- FusionPainting:采用自适应注意力机制进行多模态融合的3D目标检测(ITSC'21)[论文] [项目页]
- 将基于体素的表示与Transformer统一用于3D目标检测(Arxiv'21)[论文] [项目页]
- TransFusion:使用Transformer实现鲁棒的LiDAR-相机融合3D目标检测(CVPR'22)[论文] [项目页]
- AutoAlign:用于多模态3D目标检测的像素-实例特征聚合(IJCAI'22)[论文] [项目页]
- AutoAlignV2:用于动态多模态3D目标检测的可变形特征聚合(ECCV'22)[论文] [项目页]
- CenterFusion:基于中心点的雷达与相机融合3D目标检测(WACV'21)[论文] [项目页]
- MSMDFusion:以多深度种子在多个尺度上融合LiDAR与相机进行3D目标检测(Arxiv'22)[论文] [项目页]

时序融合:
- BEVDet4D:在多摄像头3D目标检测中利用时序线索(Arxiv'22)[论文] [项目页]
- Image2Map:将图像转化为地图(ICRA'22)[论文] [项目页]
- FIERY:基于环视单目相机的鸟瞰图未来实例预测(ICCV'21)[论文] [项目页]
- Ego3RT:以光线追踪方式学习自我3D表示(ECCV'22)[论文] [项目页]
- PolarFormer:基于极坐标Transformer的多摄像头3D目标检测(Arxiv'22)[论文] [项目页]
- BEVStitch:利用车载摄像头理解道路语义的鸟瞰视图(ICRA'22)[论文] [项目页]
- PETRv2:一种基于多摄像头图像的3D感知统一框架(Arxiv'22)[论文] [项目页]
- BEVFormer:通过时空Transformer从多摄像头图像中学习鸟瞰表示(ECCV'22)[论文] [项目页]
- UniFormer:用于鸟瞰视图中时空表示的统一多视角融合Transformer(Arxiv'22)[论文]
- DfM:基于运动估计深度的单目3D目标检测(ECCV'22)[论文] [项目页]

多智能体融合:
- CoBEVT:基于稀疏Transformer的协作式鸟瞰语义分割(Arxiv'22)[论文]
经验性知识

引用
如果您在研究中使用了我们的工作,请考虑引用:
@inproceedings{Ma2022VisionCentricBP,
title={视觉中心的BEV感知:综述},
author={马跃鑫、王泰、白旭阳、杨慧通、侯元安、王亚明、Y. Qiao、杨瑞刚、迪内什·马诺查、朱新格},
year={2022}
}
贡献
欢迎提交拉取请求,以添加新的论文或相关项目页面。
相关仓库
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器