Learning-Deep-Learning

1.3k 180 非常简单 1 次阅读 2天前图像其他开发框架

AI 解读由 AI 自动生成，仅供参考

Learning-Deep-Learning 是一个专注于深度学习与机器学习领域的论文阅读笔记仓库。它由英伟达自动驾驶项目 AI 总监 Patrick Langechuan Liu 维护，旨在帮助从业者系统性地梳理和消化海量的学术文献。

面对深度学习领域论文层出不穷、新手难以入手以及研究人员追踪前沿技术成本高等痛点，Learning-Deep-Learning 提供了结构化的知识路径。它不仅整理了从基础卷积神经网络到前沿 Transformer 架构的必读论文清单，还针对计算机视觉和自动驾驶场景，提供了如鸟瞰图感知（BEV）、语义占用预测、3D 车道线检测等热门主题的深度解读。

这套资源特别适合人工智能开发者、算法研究人员以及对自动驾驶技术感兴趣的学生使用。对于刚入门的读者，它提供了明确的“首月阅读计划”；对于资深从业者，其结合工业界量产经验与学术界最新成果的视角极具参考价值。

Learning-Deep-Learning 的独特亮点在于其“理论 + 实践”的双重维度：除了标准的论文笔记外，作者还通过"The Thinking Car"专栏撰写了一系列技术博客，将抽象的算法原理与中国自动驾驶量产落地的实际挑战相结合，为读者提供了难得的产业界洞察。

使用场景

某自动驾驶初创公司的感知算法工程师正在为量产项目调研最新的单目 3D 车道线检测方案，急需快速掌握学术界前沿进展并复现核心思路。

没有 Learning-Deep-Learning 时

在海量论文中盲目搜索，难以辨别哪些是真正经过工业界验证的高质量文章，容易陷入低效阅读。
面对复杂的数学公式和模型架构，缺乏直观的图解和通俗的笔记辅助，理解成本极高，往往读几页就放弃。
无法快速建立知识体系，不知道从哪篇经典论文入手，导致学习路径混乱，浪费数周时间仍在基础概念上打转。
缺少将理论与实际工程（如 BEV 感知、占用网络）结合的案例分析，难以将学术成果转化为落地代码。

使用 Learning-Deep-Learning 后

直接参考作者整理的“可信论文源”和“首月必读清单”，迅速锁定如 Monocular 3D Lane Line Detection 等关键文献，精准高效。
借助作者提供的详细阅读笔记和可视化图解，轻松攻克 Transformer 张量重塑、语义占用预测等晦涩难点，理解速度提升数倍。
跟随作者从物理学家转型 AI 专家的实战路径，按主题（如拥挤场景检测、动态物体 SLAM）系统构建知识树，学习路线清晰明确。
结合《The Thinking Car》专栏中关于中国量产挑战与工业界实践的深入分析，直接将学术理论映射到实际开发场景中，缩短研发周期。

Learning-Deep-Learning 不仅是一份论文笔记库，更是连接学术前沿与自动驾驶工程落地的加速器，帮助开发者在复杂技术浪潮中少走弯路。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（Learning-Deep-Learning）并非可执行的 AI 软件工具，而是作者 Patrick Langechuan Liu 的个人深度学习与机器学习论文阅读笔记集合。内容主要以 Markdown 文档形式存在，包含论文摘要、解读链接以及作者在 Medium 上的博客文章索引。因此，该项目不需要特定的操作系统、GPU、内存或 Python 环境即可浏览（仅需网页浏览器或文本编辑器）。文中提到的具体算法（如 Diffusion LLM, BEV Perception 等）仅作为笔记主题讨论，仓库本身不包含需要安装依赖库才能运行的源代码或模型权重。

python未说明

快速开始

论文笔记

本仓库包含我对深度学习和机器学习相关论文的阅读笔记。灵感来源于 Denny Britz 和 Daniel Takeshi。一个使用 Github Pages 生成的极简网页可以在这里找到：https://patrick-llgc.github.io/Learning-Deep-Learning/。

关于我

我叫 Patrick Langechuan Liu。在物理学领域接受了约十年的训练与研究后，我发现了自己对深度学习和自动驾驶的热情。

目前我在 NVIDIA 担任 AI 总监，领导 NVIDIA 端到端自动驾驶项目 Alpamayo 的机器学习建模工作。

应该读什么

如果你是计算机视觉领域深度学习的新手，不知道从何入手，我建议你在最初的一个月左右深入研读这份论文列表。我当时就是这样做的（查看我的笔记），效果非常好。

这里还有一份可靠的论文来源列表，以防我找不到更多论文来读。

我的主题评论文章

我定期更新我的博客专栏 The Thinking Car。

AI 播客笔记

WhynotTV 对 OpenAI 的翁家笠的采访 [笔记] [采访，Jiali Weng/翁家笠，OpenAI，WhynotTV]

主题速记本

这一部分包含一些快速笔记（类似 git-gist），供未来的自己参考。

2025-02 (1)

2025-01 (10)

逐步内化：从显式CoT到隐式CoT——循序渐进地学习内化CoT [笔记] [Yejin Choi, 隐式CoT]
Coconut：在连续潜在空间中训练大型语言模型进行推理 [笔记] COLM 2025 [Yuandong Tian, 隐式CoT]
DLCM：动态大型概念模型——自适应语义空间中的潜在推理 [笔记] [Xingwei Qu, 字节跳动，隐式CoT → 可解释的概念模型]
潜在推理综述 [笔记] [Xingwei Qu, 字节跳动]
大型语言扩散模型
Dream 7B：扩散型大型语言模型
Seed Diffusion：具有高速推理能力的大规模扩散语言模型 [字节跳动 Seed]
MMaDA：多模态大型扩散语言模型 [字节跳动 Seed]
Fast-dLLM：通过启用KV缓存和并行解码实现无需训练的扩散LLM加速 [笔记] [Song Han, Enze Xie]
Fast-dLLM v2：高效的块扩散LLM [笔记] [Song Han, Enze Xie]
Efficient-DLM：从自回归到扩散语言模型，并在速度上更进一步 [笔记] [Pavlo, Song Han, Nvidia]
TiDAR：用扩散思考，用自回归表达 [笔记] [Nvidia, Pavlo]
DFlash：用于闪电式推测解码的块扩散
Dream 7B：扩散型大型语言模型
块扩散：介于自回归与扩散语言模型之间 ICLR 2025 口头报告
SD3：扩展修正流变换器以实现高分辨率图像合成 [Patrick Esser, Stable Diffusion]
Wan：开放且先进的大规模视频生成模型 [通义万象]
RHO-1：并非所有token都是你需要的 [笔记] NeurIPS 2024 口头报告
WOD-E2E：Waymo开放数据集，用于复杂长尾场景下的端到端驾驶 [笔记] [Waymo]
LVP：大型视频规划器实现通用机器人控制 [笔记]
通过参数融合对视觉-语言-动作机器人策略进行稳健微调
Epona：用于自动驾驶的自回归扩散世界模型 ICCV 2025 [Horizonp]
HaMeR：用Transformer重建三维手部 [手部网格恢复，伯克利，单目重建MANO参数化]
MegaSaM：从随意动态视频中准确、快速且稳健地提取结构与运动信息 CVPR 2025 最佳论文短名单 [SaM：结构与运动]

2025-12 (0)

DDPM：去噪扩散概率模型 [伯克利，Jonathan Ho，Pieter Abbeel]
DDIM：去噪扩散隐式模型 ICLR 2021 [斯坦福，Stefano Ermon]
score SDE：基于分数的生成建模，通过随机微分方程实现 ICLR 2021 口头报告 [斯坦福，Yang Song，Stefano Ermon]
改进的DDPM：改进的去噪扩散概率模型 [OpenAI，Prafulla Dhariwal]
分类器引导：扩散模型在图像生成方面超越GAN [OpenAI，Prafulla Dhariwal]
LDM：潜在扩散模型——使用潜在扩散模型实现高分辨率图像合成 CVPR 2022 [Stable Diffusion v1，Patrick Esser]
CFG：无分类器扩散引导 NeurIPS 2021 [Jonathan Ho，Google Brain]
修正流：流畅而快速的流——学习用修正流生成和传输数据 [Xingchao Liu，UT Austin，比flow matching论文更早]
用于生成建模的flow matching [FAIR]
DiT：基于Transformer的可扩展扩散模型 [Saining Xie]
OT-CFM：利用小批量最优运输改进和推广基于flow的生成模型 TMLR 2023 [Alex Tong]
一步式生成建模的平均流 [Kaiming He]
iMF：改进的平均流——关于快速生成模型的挑战 [Kaiming He]

2025-09 (2)

Cosmos-Reason1：从物理常识到具身推理 [笔记] [Nvidia]
CoVLA：面向自动驾驶的综合视觉-语言-动作数据集 [笔记] WACV 2025 [约80小时的真实世界驾驶视频，配有语言和轨迹标注；最大的用于自动驾驶的VLA数据集]
SimLingo：基于语言-动作对齐的纯视觉闭环自动驾驶 CVPR 2025 [2024年CARLA挑战赛第一名；在CARLA LB 2.0和Bench2Drive上达到SOTA水平；被AutoVLA引用]
AutoVLA：一种用于端到端自动驾驶的视觉-语言-动作模型，具备自适应推理和强化学习微调能力 arXiv 2025-06 [轨迹分词；双思维模式（快速与慢速CoT）；GRPO微调；在nuPlan、nuScenes、Waymo、CARLA上进行评估；引用了SimLingo]
DriveAgent-R1：通过混合思维和主动感知推进基于VLM的自动驾驶 arXiv 2025-07 [混合思维（文本与工具基CoT）+主动感知；三阶段强化学习训练；基于DriveVLM lineage构建]
AgentThink：面向自动驾驶的视觉-语言模型中工具增强型思维链推理的统一框架 [Kangan Qian, Sicong Jiang, Xiaomi] EMNLP25
VERDI：嵌入VLM的自动驾驶推理 arXiv 2025-05 [将VLM推理蒸馏到模块化的AD栈中；对感知、预测、规划进行对齐；在不增加VLM推理成本的情况下提升nuScenes性能]
Poutine：视觉-语言-轨迹预训练与强化后训练实现稳健的端到端自动驾驶 arXiv 2025-06 [30亿参数的VLM，在83小时CoVLA和11小时Waymo长尾数据上训练；经过RL微调（GRPO）；在Waymo基于视觉的E2E驾驶挑战赛中获得第一名（RFS=7.99）]
ReasonPlan：面向闭环自动驾驶的统一场景预测与决策推理 arXiv 2025-05 [思维链规划；在Bench2Drive上显著提升了闭环性能]
DiffVLA：用于自动驾驶的视觉-语言引导扩散规划 arXiv 2025-05 [VLM引导的扩散轨迹规划；在2025年自动驾驶大挑战中表现优异]
VLAD：一种VLM增强型自动驾驶框架 ITSC 2025 [VLM为E2E控制器生成高层指令；提升可解释性和规划安全性]
DriveAction（基准测试）：DriveAction——探索VLA模型中类人驾驶决策的基准测试 arXiv 2025-06 [以行动为核心的评估，涵盖各类驾驶场景的问答对；被VLA4AD综述引用；正逐渐受到关注]
DINOv3 [高分辨率Dino]
LiveVLM：通过面向流式传输的KV缓存和检索实现高效的在线视频理解
DexUMI：将人类手作为灵巧操作的通用操控接口 [灵巧手数据采集，Shuran Song，Jim Fan]
DEXOP：一种用于机器人复制人类灵巧操作的装置 [RSS 2025最佳论文奖]
HAD数据集：为自动驾驶车辆提供人车交互建议的基础 CVPR 2019 [John Canny，本田研究院，2019年，VLA OG]
RAD：通过大规模基于3DGS的强化学习训练端到端驾驶策略 NeurIPS 2025 [Horizon]
PerceptionLM：用于精细视觉理解的开放获取数据与模型 [FAIR]
Difix3D+：利用单步扩散模型改进3D重建 CVPR 2025最佳论文候选 [Nvidia，Sanja Fidler]
π∗0.6：一款从经验中学习的VLA [VLA + RL]
π𝚁𝙻：面向基于流的视觉-语言-动作模型的在线RL微调 [VLA + RL]
VLA-RL：通过可扩展的强化学习迈向精通且通用的机器人操作 [VLA + RL]
GR-RL：为长时程机器人操作实现灵巧与精准 [VLA + RL]
GR-3技术报告 [VLA，字节跳动]
行动切块中的多时间尺度混合

2025-06 (1)

V-JEPA 2: 自监督视频模型实现理解、预测与规划 [LeCun]
V-JEPA: 重新审视基于特征预测的视频视觉表征学习 ICLR 2025
I-JEPA: 基于联合嵌入预测架构的图像自监督学习 ICCV 2023
PlaNet: 从像素中学习用于规划的潜在动力学
DreamerV1: 梦想到控制：通过潜在想象学习行为
DreamerV2: 使用离散世界模型掌握雅达利游戏 ICLR 2021
DreamerV3: 通过世界模型掌握多样化领域 Nature 2025
DayDreamer: 用于物理机器人学习的世界模型 CoRL 2022
Dynalang: 学习用语言建模世界 ICML 2024
将世界分词为对象级知识，以应对自动驾驶中的长尾事件 [笔记] [Marco Pavone, Nvidia]
SparseDrive: 基于稀疏场景表示的端到端自动驾驶 [笔记] ICRA 2025 [Horizon]
HE-Drive: 基于视觉语言模型的人类式端到端驾驶 IROS 2025 [Horizon]
GPT-Driver: 使用GPT学习驾驶 [NeurIPS 2023, Hang Zhao]
使用LLM驾驶：融合对象级向量模态实现可解释的自动驾驶 [笔记] ICRA 2024 [Wayve]
PARA-Drive: 用于实时自动驾驶的并行化架构 CVPR 2024 [Marco Pavone, NVidia]
PDM-Closed: 摆脱关于基于学习的车辆运动规划的误解 [笔记] CoRL 2023
Ego-MLP: 开环端到端自动驾驶是否只需车辆状态？ CVPR 2024
AD-MLP: 重新思考nuScenes数据集中端到端自动驾驶的开环评估 [Baidu]
GAIA-2: 用于自动驾驶的可控多视角生成式世界模型 [Wayve]
摄像头作为相对位置编码

2025-04

Scenario Dreamer: 用于生成驾驶仿真环境的向量化潜在扩散模型 CVPR 2025
Hi Robot: 基于分层视觉-语言-动作模型的开放式指令遵循 [Physical Intelligence]
利用人类反馈强化学习微调生成式轨迹模型 [Li Auto, RLHF]
TokenFLEX: 面向灵活视觉令牌推理的统一VLM训练 [Li Auto]
快中慢：一种结合快速操作与慢速推理的双系统基础模型
STORM: 用于大规模室外场景的时空重建模型

2024-12 (0)

VLM-AD：通过视觉-语言模型监督实现端到端自动驾驶 [Cruise]
GPD-1：面向驾驶的生成式预训练 [PhiGent]
Transformer推理优化工具集
空间中的思考：多模态大语言模型如何感知、记忆和回忆空间 [李飞飞]
探查视觉基础模型的三维感知能力 CVPR 2024
iVideoGPT：交互式VideoGPT是可扩展的世界模型 NeurIPS 2024
CarLLaVA：仅使用摄像头的闭环驾驶用视觉语言模型 [Wayve]
提示之痕：增强自动驾驶中多模态LLM的视觉表征 [DeepRoute]
LAW：利用潜在世界模型提升端到端自动驾驶性能
TCP：轨迹引导的端到端自动驾驶控制预测——简单而强大的基线 NeurIPS 2022 [E2E规划，Hongyang]
越差越好：视觉分词中的压缩-生成权衡
RoGs：基于网格高斯的大规模道路表面重建
RoMe：通过网格表示实现大规模道路表面重建
SLEDGE：利用生成模型与规则化交通合成驾驶环境 ECCV 2024
Lookahead：通过前瞻解码打破LLM推理的顺序依赖 [specdec]
EAGLE：推测采样需要重新思考特征不确定性 [specdec]
EAGLE-2：利用动态草稿树加速语言模型推理 [specdec]
Medusa：具有多个解码头的简单LLM推理加速框架
RealGen：用于可控交通场景的检索增强生成 ECCV 2024
MobileVLM V2：更快更强的视觉语言模型基线
开源π0 [PI，工业界]
Helix：用于通用人形机器人控制的视觉-语言-行动模型 [Figure，工业界]
AM-RADIO：凝聚型视觉基础模型——将所有领域归为单一模型 CVPR 2024
Transfusion：用一个多模态模型预测下一个标记并扩散图像
iVideoGPT：交互式VideoGPT是可扩展的世界模型 NeurIPS 2024
MetaMorph：通过指令微调实现多模态理解和生成
WORLDMEM：带有记忆的长期一致世界模拟 [长期记忆]
PADriver：迈向个性化自动驾驶 [旷视科技，个性化驾驶]

2024-11 (1)

关于基础模型的机会与风险 [笔记]
π0：用于通用机器人控制的视觉-语言-行动流模型 [Physical Intelligence，VLA]
EMMA：面向自动驾驶的端到端多模态模型 [Waymo，VLA]
Depth Anything：释放大规模无标注数据的力量 CVPR 2024
Depth Anything V2 NeurIPS 2024
CarLLaVA：仅使用摄像头的闭环驾驶用视觉语言模型
LVSM：具有最小3D归纳偏置的大规模视图合成模型 [场景分词]
NAVSIM：数据驱动的非反应式自动驾驶车辆仿真与基准测试 NeurIPS 2024
借助大语言模型策略自适应实现全场景驾驶 CVPR 2024 [Marco Pavone]
一致性模型 [扩散加速，OpenAI，杨松]
VILA：关于视觉语言模型的预训练 CVPR 2024 [Song Han，Yao Lu]

2024-06 (8)

LINGO-1：探索用于自动驾驶的自然语言 [笔记] [Wayve，开环世界模型]
LINGO-2：用自然语言驾驶 [笔记] [Wayve，闭环世界模型]
OpenVLA：一个开源的视觉-语言-行动模型 [开源RT-2]
告别基于学习的车辆运动规划的误解 CoRL 2023 [简单的非学习基线]
QuAD：基于查询的可解释神经网络自动驾驶运动规划 [Waabi]
MPDM：自动驾驶中动态不确定环境下的多策略决策 [笔记] ICRA 2015 [行为规划，密歇根大学，May Autonomy]
MPDM2：基于变点的行为预测的自动驾驶多策略决策 [笔记] RSS 2015 [行为规划]
MPDM3：基于变点行为预测的自动驾驶多策略决策：理论与实验 RSS 2017 [行为规划]
EUDM：使用引导分支的高效不确定性感知自动驾驶决策 [笔记] ICRA 2020 [丁文超、沈劭杰，行为规划]
TPP：基于学习行为模型的树状策略规划 ICRA 2023 [马可·帕沃内、英伟达，行为规划]
MARC：自动驾驶中的多策略与风险敏感应急规划 [笔记] RAL 2023 [沈劭杰，行为规划]
EPSILON：高度交互环境中自动驾驶车辆的高效规划系统 TRO 2021 [丁文超，pnc百科全书]
trajdata：多个人类轨迹数据集的统一接口 NeurIPS 2023 [马可·帕沃内、英伟达]
利用非线性优化进行静态障碍物规避的最优车辆轨迹规划 [小鹏]
面向自动驾驶车辆的行为与轨迹联合可学习规划 [笔记] IROS 2019 口头报告 [Uber ATG，行为规划、运动规划]
通过潜在世界模型增强端到端自动驾驶
OccNeRF：在无激光雷达环境下推进3D占用预测 [陆继文]
RenderOcc：以视觉为中心的3D占用预测，辅以2D渲染监督 ICRA 2024
EmerNeRF：通过自监督实现涌现式时空场景分解 [Sanja、Marco、NV]
FB-OCC：基于前后视图变换的3D占用预测
Trajeglish：将交通建模视为下一个标记预测 ICLR 2024
交叉路口的自动驾驶策略：场景、现状与未来展望 ITSC 2021
基于学习的在线变道意图预测方法 IV 2013 [SVM，LC意图预测]
复杂城市场景下的基于交通流的众包地图 RAL 2023 [丁文超、华为，众包地图]
FlowMap：利用交通流为开放空间中的自动驾驶车辆生成路径 ICRA 2023
混合A*：未知半结构化环境中自动驾驶车辆的路径规划 IJRR 2010 [Dolgov、Thrun，搜索]
弗雷内坐标系下动态街道场景的最优轨迹生成 ICRA 2010 [Werling、Thrun，采样] [规划人员必读]
不依赖弗雷内坐标系的弯道自动驾驶：一种基于笛卡尔坐标的轨迹规划方法 TITS 2022
百度Apollo EM运动规划器 [笔记][优化]
基于改进混合A*的智能汽车时空联合规划方法 汽车工程：规划&决策2023年 [联合优化，搜索]
提升受限动态环境中自动驾驶车辆的时空轨迹规划速度与平滑度 JAE 2020 [联合优化，搜索]
面向自动驾驶道路行驶的聚焦轨迹规划 IV 2013 [联合优化，迭代]
SSC：利用时空语义走廊为复杂城市环境生成安全轨迹 RAL 2019 [联合优化，SSC，丁文超，运动规划]
AlphaGo：借助深度神经网络和树搜索掌握围棋 [笔记] Nature 2016 [DeepMind，MTCS]
AlphaZero：一种通用强化学习算法，通过自我对弈掌握国际象棋、将棋和围棋 Science 2017 [DeepMind]
MuZero：通过基于学习模型的规划掌握Atari游戏、围棋、国际象棋和将棋 Nature 2020 [DeepMind]
无需搜索的特级大师级国际象棋 [DeepMind]
面向自动驾驶的安全多智能体强化学习 [MobileEye，欲望与轨迹优化]
全面的反应式安全：只要有策略就不需要轨迹 IROS 2022 [大放、Qcraft]
BEVGPT：用于自动驾驶预测、决策和规划的生成式预训练大型模型 AAAI 2024
LLM-MCTS：大型语言模型作为大规模任务规划的常识知识 NeurIPS 2023
Hivt：用于多智能体运动预测的层次化向量Transformer CVPR 2022 [周子康，以智能体为中心，运动预测]
QCNet：以查询为中心的轨迹预测 [笔记] CVPR 2023 [周子康，以场景为中心，运动预测]

2024-03 (11)

Genie: 生成式交互环境 [笔记] [DeepMind, 世界模型]
DriveDreamer: 面向自动驾驶的真实世界驱动型世界模型 [笔记] [陆继文, 世界模型]
WorldDreamer: 通过预测掩码标记实现视频生成的通用世界模型 [笔记] [陆继文, 世界模型]
VideoPoet: 用于零样本视频生成的大语言模型 [类似Sora，但使用LLM，而非世界模型]
对齐你的潜在空间：基于潜在扩散模型的高分辨率视频合成 [笔记] CVPR 2023 [Sanja, Nvidia, VideoLDM, 视频预测]
视频预训练（VPT）：通过观看无标签在线视频学习行动 NeurIPS 2022 [笔记] [OpenAI]
MineDojo: 构建具有互联网规模知识的开放式具身智能体 NeurIPS 2022 [NVidia, 杰出论文奖]
类人机器人运动作为下一个标记预测 [笔记] [伯克利, EAI]
RPT: 基于感觉运动预训练的机器人学习 [笔记] CoRL 2023 口头报告 [伯克利, EAI]
MVP: 基于掩码视觉预训练的真实世界机器人学习 [笔记] CoRL 2022 [伯克利, EAI]
BC-Z: 基于机器人模仿学习的零样本任务泛化 [笔记] CoRL 2021 [Eric Jang, 1X]
GenAD: 自动驾驶的通用预测模型 [笔记] CVPR 2024
HG-DAgger: 带有人类专家的交互式模仿学习 [DAgger]
DriveGAN: 向可控高质量神经仿真迈进 [笔记] CVPR 2021 口头报告 [Nvidia, Sanja]
VideoGPT: 使用VQ-VAE和Transformer进行视频生成 [笔记] [Pieter Abbeel]
LLM、视觉分词器与视觉智能，由江璐撰写 [笔记] [采访江璐]
AV2.0: 重新构想自动驾驶汽车 [笔记] [Wayve, Alex Kendall]
端到端自动驾驶的仿真 [Wayve, 技术分享, E2E]
E2E横向规划 [Comma.ai, E2E规划]
在视觉表征学习中学习和利用世界模型 [LeCun, JEPA系列]
LVM: 序列建模赋能大型视觉模型的可扩展学习 [大型视觉模型, Jitendra Malik]
LWM: 基于RingAttention的百万级视频与语言世界模型 [Pieter Abbeel]
OccWorld: 学习用于自动驾驶的3D占用世界模型 [陆继文, 世界模型]
GenAD: 生成式端到端自动驾驶
Transfuser: 用于端到端自动驾驶的多模态融合Transformer CVPR 2021 [E2E规划, Geiger]
使用LLM驾驶：融合对象级向量模态以实现可解释的自动驾驶 [Wayve, LLM + AD]
LingoQA: 用于自动驾驶的视频问答 [Wayve, LLM + AD]
Panacea: 用于自动驾驶的全景且可控视频生成 CVPR 2024 [Megvii]
PlanT: 基于对象级表示的可解释规划Transformer CoRL 2022
场景即占用 ICCV 2023
从模型到复合AI系统的转变
Roach: 通过模仿强化学习教练实现端到端城市驾驶 ICCV 2021
从所有车辆中学习 CVPR 2022
LBC: 通过作弊学习 CoRL 2019
从轨道上的世界中学习驾驶 ICCV 2021 口头报告 [Philipp Krähenbühl]
从所有车辆中学习 CVPR 2022 [Philipp Krähenbühl]
VADv2: 基于概率规划的端到端矢量化自动驾驶 [Horizon]
VQ-VAE: 神经离散表征学习 NeurIPS 2017 [图像分词器]
VQ-GAN: 为高分辨率图像合成驯服Transformer CVPR 2021 [图像分词器]
ViT-VQGAN: 改进的VQGAN用于向量化图像建模 ICLR 2022 [图像分词器]
MaskGIT: 掩码生成式图像Transformer CVPR 2022 [LLM，非自回归]
MAGVIT: 掩码生成式视频Transformer CVPR 2023亮点 [视频分词器]
MAGVIT-v2: 语言模型胜过扩散——分词器是视觉生成的关键 ICLR 2024 [视频分词器]
Sora: 关于大型视觉模型的背景、技术、局限性及机遇的综述 [Sora的逆向工程]
GLaM: 基于专家混合的高效语言模型扩展 ICML 2022 [MoE, LLM]
基于分布特化的专家进行终身语言预训练 ICML 2023 [MoE, LLM]
DriveLM: 用语言驱动 [李洪洋]
MotionLM: 多智能体运动预测作为语言建模 ICCV 2023 [Waymo, LLM + AD]
CubeLLM: 将2D/3D与语言对齐
EmerNeRF: ICLR 2024
用于自动驾驶的语言代理
[迈向驾驶场景理解：用于学习驾驶员行为与因果关系的数据集]
DriveDreamer-2: 增强LLM的世界模型，用于多样化驾驶视频生成
DriveWorld: 基于世界模型的4D预训练场景理解，用于自动驾驶 CVPR 2024 [Zheng Zhu]
Sora是世界模拟器吗？关于通用世界模型及更广泛领域的全面综述 [Zheng Zhu]

2024-02 (7)

端到端自动驾驶：挑战与前沿 [笔记] [Hongyang Li, 上海人工智能实验室]
DriveVLM: 自动驾驶与大型视觉-语言模型的融合 [笔记] [Hang Zhao]
DriveGPT4: 基于大语言模型的可解释端到端自动驾驶 [笔记] [香港大学]
GAIA-1: 用于自动驾驶的生成式世界模型 [笔记] [Wayve, 视觉基础模型]
ADriver-I: 通用自动驾驶世界模型 [笔记] [旷视科技, Xiangyu]
Drive-WM: 驾驶未来：基于世界模型的多视角视觉预测与规划 [笔记]
X [笔记] [E2E规划]

2023-12 (4)

ChatGPT用于机器人：设计原则与模型能力 [笔记] [微软，机器人LLM]
RoboVQA: 机器人领域的多模态长时序推理 [笔记] [谷歌DeepMind，机器人LLM]
ChatGPT赋能多种环境下的长步长机器人控制：案例应用 [微软机器人]
GPT-4V(ision)用于机器人：基于人类演示的多模态任务规划 [笔记] [机器人LLM，微软机器人]
LLM-Brain: LLM作为机器人大脑：统一自我中心记忆与控制 [笔记]
Voyager: 基于大语言模型的开放式具身智能体 [笔记] [Reasoning Critique, Linxi Jim Fan]

2023-09 (3)

RetNet: 持久化网络：大语言模型中Transformer的继任者 [笔记] [MSRA]
Transformers are RNNs: 具有线性注意力的快速自回归Transformer [笔记] ICML 2020 [线性注意力]
AFT: 无注意力Transformer [笔记] [Apple]

2023-08 (3)

RT-1: 用于大规模真实世界控制的机器人Transformer [笔记] [DeepMind]
RT-2: 视觉-语言-动作模型将网络知识迁移到机器人控制中 [笔记] [DeepMind，端到端视觉运动]
RWKV: 为Transformer时代重塑RNN [笔记]

2023-07 (6)

MILE: 基于模型的模仿学习用于城市驾驶 [笔记] NeurIPS 2022 [Alex Kendall]
PaLM-E: 具身多模态语言模型 [笔记] [谷歌机器人]
VoxPoser: 基于语言模型的可组合3D价值地图用于机器人操作 [笔记] [Feifei Li]
CaP: 代码即策略：用于具身控制的语言模型程序 [笔记] [项目]
ProgPrompt: 使用大语言模型生成情境化的机器人任务计划 ICRA 2023
TidyBot: 基于大语言模型的个性化机器人助手 [笔记] [项目]
SayCan: 做我能做到的，而不是我说的：将语言 grounding 到机器人的 affordances 中 [笔记] [项目]

2023-06 (5)

上海人工智能实验室的端到端综述
Pix2seq v2: 视觉任务的统一序列接口 [笔记] NeurIPS 2022 [Geoffrey Hinton]
🦩 Flamingo: 用于少样本学习的视觉语言模型 [笔记] NeurIPS 2022 [DeepMind]
😼 Gato: 通用智能体 [笔记] TMLR 2022 [DeepMind]
BC-SAC: 模仿还不够：通过强化学习增强模仿，以应对复杂的驾驶场景 [笔记] NeurIPS 2022 [Waymo]
MGAIL-AD: 用于自动驾驶规划的分层基于模型的模仿学习 [笔记] IROS 2022 [Waymo]

2023-05 (7)

SurroundOcc: 多摄像头3D占用预测用于自动驾驶 [笔记] [Occupancy Network, Wei Yi, Jiwen Lu]
Occ3D: 自动驾驶领域的大规模3D占用预测基准 [笔记] [Occupancy Network, Zhao Hang]
Occupancy Networks: 在函数空间中学习3D重建 CVPR 2019 [笔记] [Andreas Geiger]
OccFormer: 双路径Transformer用于基于视觉的3D语义占用预测 [Occupancy Network, PhiGent]
Pix2seq: 用于目标检测的语言建模框架 [笔记] ICLR 2022 [Geoffrey Hinton]
VisionLLM: 大语言模型也是面向视觉任务的开放式解码器 [笔记] [Jifeng Dai]
HuggingGPT: 使用ChatGPT及其在Hugging Face中的伙伴解决AI任务 [笔记]

2023-04 (1)

UniAD: 以规划为导向的自动驾驶 [笔记] CVPR 2023最佳论文 [BEV, e2e, Hongyang Li]

2023-03 (5)

GPT-4 技术报告 [笔记] [OpenAI, GPT]
OpenOccupancy: 周围语义占用感知的大规模基准 [笔记] [Occupancy Network, Lu Jiwen]
VoxFormer: 基于相机的 3D 语义场景补全的稀疏体素 Transformer [笔记] CVPR 2023 亮点 [Occupancy Network, Nvidia]
MonoScene: 单目 3D 语义场景补全 CVPR 2022 [笔记] [Occupancy Network, 单目摄像头]
CoReNet: 从单张 RGB 图像中进行连贯的 3D 场景重建 [笔记] ECCV 2020 口头报告

2023-02 (4)

我们会耗尽数据吗？机器学习中数据集扩展极限分析 [笔记] [Epoch.ai 行业报告]
Codex: 针对代码训练的大型语言模型评估 [笔记] [GPT, OpenAI]
InstructGPT: 通过人类反馈训练语言模型遵循指令 [笔记] [GPT, OpenAI]
TPVFormer: 基于视觉的 3D 语义占用预测的三视角视图 [笔记] CVPR 2023 [Occupancy Network, Lu Jiwen]

2023-01 (2)

2022-11 (1)

M2I: 从分解的边际轨迹预测到交互式预测 [笔记] CVPR 2022

2022-10 (1)

深入探讨鸟瞰图感知的难点：综述、评估与实践指南 [笔记] [PJLab]

2022-09 (3)

ViP3D: 通过 3D 代理查询实现端到端视觉轨迹预测 [笔记] [BEV, 感知+预测, Zhao Hang]
MapTR: 面向在线矢量化高清地图构建的结构化建模与学习 [笔记] [Horizon, BEVNet]
StopNet: 面向城市自动驾驶的可扩展轨迹与占用预测 ICRA 2022
MOTR: 基于 Transformer 的端到端多目标跟踪 ECCV 2022 [Megvii, 多目标跟踪]
Anchor DETR: 基于 Transformer 的目标检测查询设计 [笔记] AAAI 2022 [Megvii]

2022-08 (1)

HOME: 用于未来运动估计的热图输出 [笔记] ITSC 2021 [行为预测, 华为巴黎]

2022-07 (8)

PersFormer: 基于透视 Transformer 和 OpenLane 基准的 3D 车道线检测 [笔记] [BEVNet, 车道线]
VectorMapNet: 端到端矢量化高清地图学习 [笔记] [BEVNet, LLD, Zhao Hang]
PETR: 用于多视角 3D 目标检测的位置嵌入变换 [笔记] ECCV 2022 [BEVNet]
PETRv2: 一种统一的多摄像头图像 3D 感知框架 [笔记] [BEVNet, MegVii]
M^2BEV: 多摄像头联合 3D 目标检测与分割，采用统一的鸟瞰图表示 [笔记] [BEVNet, Nvidia]
BEVDepth: 用于多视角 3D 目标检测的可靠深度获取 [笔记] [BEVNet, NuScenes SOTA, MegVii]
CVT: 用于实时地图视图语义分割的跨视角 Transformer [笔记] CVPR 2022 口头报告 [UTAustin, Philipp]
Wayformer: 基于简单高效的注意力网络进行运动预测 [笔记] [行为预测, Waymo]

2022-06 (3)

BEVDet4D: 在多摄像头 3D 目标检测中利用时间线索 [笔记] [BEVNet]
BEVerse: 面向以视觉为中心的自动驾驶的鸟瞰图统一感知与预测 [笔记] [Lu Jiwen, BEVNet, 感知+预测]
BEVFusion: 具有统一鸟瞰图表示的多任务多传感器融合 [笔记] [BEVNet, Song Han]

2022-03 (1)

BEVFormer: 通过时空 Transformer 从多摄像头图像中学习鸟瞰图表示 [笔记] ECCV 2022 [BEVNet, Li Hongyang, Dai Jifeng]

2022-02 (1)

TNT: 目标驱动的轨迹预测 [笔记] CoRL 2020 [预测, Waymo, Zhao Hang]
DenseTNT: 基于密集目标集合的端到端轨迹预测 [笔记] ICCV 2021 [预测, Waymo, WOMD 第一名]

2022-01 (1)

Manydepth: 时间机会主义者：自监督多帧单目深度 [笔记] CVPR 2021 [单目深度, Niantic]
DEKR: 基于解耦关键点回归的自下而上人体姿态估计 [笔记] CVPR 2021

2021年12月 (5)

BN-FFN-BN：为视觉Transformer利用批归一化 [笔记] ICCVW 2021 [BN, 变压器]
PowerNorm：重新思考变压器中的批归一化 [笔记] ICML 2020 [BN, 变压器]
MultiPath++：用于行为预测的高效信息融合与轨迹聚合 [笔记] ICRA 2022 [Waymo, 行为预测]
BEVDet：鸟瞰视角下的高性能多摄像头3D目标检测 [笔记]
将图像转换为地图 [笔记] ICRA 2022 [BEVNet, 变压器]

2021年11月 (4)

DETR3D：通过3D到2D查询从多视角图像进行3D目标检测 [笔记] CoRL 2021 [BEVNet, 变压器]
Robust-CVD：鲁棒一致的视频深度估计 CVPR 2021口头报告 [官网]
MAE：掩码自编码器是可扩展的视觉学习者 [笔记] [何凯明, 无监督学习]
SimMIM：一种简单的掩码图像建模框架 [笔记] [MSRA, 无监督学习, MAE]
iBOT：使用在线分词器进行图像BERT预训练

2021年10月 (3)

STSU：基于车载图像的结构化鸟瞰交通场景理解 [笔记] ICCV 2021 [BEV特征拼接, Luc Van Gool]
PanopticBEV：使用单目前视图像进行鸟瞰全景分割 [笔记] RAL 2022 [BEVNet, 垂直/水平特征]
NEAT：用于端到端自动驾驶的神经注意力场 [笔记] ICCV 2021 [补充材料] [BEVNet]

2021年9月 (11)

DD3D：单目3D目标检测是否需要伪激光雷达？ [笔记] ICCV 2021 [mono3D, 丰田]
EfficientDet：可扩展且高效的物体检测 [笔记] CVPR 2020 [BiFPN, 特斯拉AI日]
PnPNet：闭环跟踪下的端到端感知与预测 [笔记] CVPR 2020 [Uber ATG]
MP3：一个统一的模型，用于地图构建、感知、预测和规划 [笔记] CVPR 2021 [Uber, 规划]
BEV-Net：通过联合人员定位和几何推理评估社交距离遵守情况 [笔记] ICCV 2021 [BEVNet, 监控]
LiDAR R-CNN：一种高效通用的3D目标检测器 [笔记] CVPR 2021 [TuSimple, 王乃延]
自动驾驶中视觉感知的边缘案例：关于检测方法的一些指导 [笔记] [边缘案例]
自动驾驶中视觉感知边缘案例的系统化研究 [笔记] IV 2020 [边缘案例]
高度自动化驾驶中感知的边缘案例的应用驱动概念化 [笔记] IV 2021 [边缘案例]
PYVA：专注地投射你的视野：通过跨视图变换进行单目道路场景布局估计 [笔记] CVPR 2021 [补充材料] [BEVNet]
YOLOF：你只需查看单一层次的特征 [笔记] CVPR 2021 [旷视科技]
感知人类：从单目3D定位到社交距离 [笔记] TITS 2021 [monoloco++]
PifPaf：用于人体姿态估计的复合场 CVPR 2019
使用单目前视图像进行鸟瞰全景分割 [BEVNet]
TransformerFusion：使用变压器进行单目RGB场景重建
专注地投射你的视野：通过跨视图变换进行单目道路场景布局估计 CVPR 2021
用于端到端自动驾驶的多模态融合变压器 CVPR 2021
用于快速训练收敛的条件DET R
概率与几何深度：在透视中检测物体 CoRL 2021

2021年8月 (11)

EgoNet: 探索用于单目车辆位姿估计的中间表示 [笔记] CVPR 2021 [mono3D]
MonoEF: 单目3D目标检测：一种无需外参的方法 [笔记] CVPR 2021 [mono3D]
GAC: 地面感知的自动驾驶单目3D目标检测 [笔记] RAL 2021 [mono3D]
FCOS3D: 全卷积单阶段单目3D目标检测 [笔记] NeurIPS 2020 [mono3D, 感知技术]
GUPNet: 用于单目3D目标检测的几何不确定性投影网络 [笔记] ICCV 2021 [mono3D, Wanli Ouyang]
DARTS: 可微架构搜索 [笔记] ICLR 2019 [VGG作者]
FBNet: 基于可微神经架构搜索的硬件感知高效卷积网络设计 [笔记] CVPR 2019 [DARTS]
FBNetV2: 针对空间和通道维度的可微神经架构搜索 CVPR 2020
FBNetV3: 使用预测器预训练的联合架构-配方搜索 CVPR 2021
Perceiver: 基于迭代注意力的通用感知模型 [笔记] ICML 2021 [transformers, 多模态]
Perceiver IO: 一种用于结构化输入与输出的通用架构 [笔记]
PillarMotion: 自主驾驶中的自监督柱状运动学习 [笔记] CVPR 2021 [Qcraft, Alan Yuille]
SimTrack: 探索用于自主驾驶的简单3D多目标跟踪 [笔记] ICCV 2019 [QCraft, Alan Yuille]

2021年7月 (1)

HDMapNet: 在线高清地图构建与评估框架 [笔记] CVPR 2021研讨会 [仅YouTube视频，理想汽车]

2021年6月 (2)

FIERY: 基于环绕单目相机的鸟瞰图未来实例预测 [笔记] ICCV 2021 [BEVNet, 感知+预测]
百度的CNN分割 [笔记]

2021年4月 (5)

重新思考自下而上的人体姿态估计中的热图回归 [笔记] CVPR 2021 [旷视科技]
CrowdPose: 高效拥挤场景姿态估计及新基准 CVPR 2019
目标检测中被忽视的大象：开放集 WACV 2021
类别无关的目标检测 WACV 2021
OWOD: 朝着开放世界目标检测迈进 [笔记] CVPR 2021口头报告
FsDet: 令人沮丧的简单少样本目标检测 ICML 2020
MonoFlex: 物体各不相同：灵活的单目3D目标检测 [笔记] CVPR 2021 [mono3D, Jiwen Lu, 裁剪版]
monoDLE: 深入研究单目3D目标检测中的定位误差 [笔记] CVPR 2021 [mono3D]
探索用于3D单目目标检测的2D数据增强
OCM3D: 以物体为中心的单目3D目标检测 [mono3D]
FSM: 基于多摄像头的全环绕单目深度 [笔记] ICRA 2021 [单目深度, Xnet]

2021年3月 (4)

CaDDN: 用于单目3D目标检测的分类深度分布网络 [笔记] CVPR 2021口头报告 [mono3D, BEVNet]
DSNT: 基于卷积神经网络的数值坐标回归 [笔记] [可微的空间到数值转换]
Soft-Argmax: 结合间接部件检测和上下文信息的人体姿态回归
INSTA-YOLO: 实时实例分割 [笔记] ICML研讨会2020 [单阶段实例分割]
CenterNet2: 概率论两阶段检测 [笔记] [CenterNet, 两阶段]

2021年1月 (7)

Confluence: 目标检测中鲁棒的非IoU替代方案，用于非极大值抑制 [笔记] [NMS]
BoxInst: 基于边界框标注的高性能实例分割 [笔记] CVPR 2021 [Chunhua Shen, Tian Zhi]
3DSSD: 基于点云的3D单阶段目标检测器 [笔记] CVPR 2020
RepVGG: 让VGG风格的卷积网络再次伟大 [笔记] [旷视科技, Xiangyu Zhang, ACNet]
ACNet: 通过不对称卷积块强化卷积核骨架，打造强大CNN [笔记] ICCV 2019
BEV-Feat-Stitching: 利用车载单目相机理解鸟瞰图语义高清地图 [笔记] [BEVNet, mono3D, Luc Van Gool]
PSS: 通过消除启发式NMS使目标检测更简单 [笔记] [Transformer, DETR]

2020-12 (17)

DeFCN：基于全卷积网络的端到端目标检测 [笔记] [Transformer, DETR]
OneNet：通过分类代价实现端到端单阶段目标检测 [笔记] [Transformer, DETR]
自动驾驶车辆中的交通信号灯地图构建、定位与状态检测 [笔记] ICRA 2011 [交通信号灯, Sebastian Thrun]
面向半静态环境的终身特征地图构建 [笔记] ICRA 2016
如何保持高精地图在自动驾驶中的实时更新 [笔记] ICRA 2020 [BMW]
广义焦点损失V2：学习密集目标检测中可靠的定位质量估计 [笔记] CVPR 2021 [焦点损失]
自动驾驶中的视觉SLAM：探索深度学习的应用 [笔记] CVPR 2018研讨会
质心投票：面向单目3D目标检测的对象感知质心投票方法 [笔记] IROS 2020 [mono3D, 几何+外观=距离]
基于鱼眼相机柱状图像的单目3D目标检测 [笔记] [GM Israel, mono3D]
DeepPS：基于视觉的停车位检测——一种基于DCNN的方法及大规模基准数据集 TIP 2018 [停车位检测, PS2.0数据集]
PSDet：高效通用的停车位检测方法 [笔记] IV 2020 [Zongmu, 停车位检测]
PatDNN：基于模式的权重剪枝实现移动设备上的实时DNN执行 [笔记] ASPLOS 2020 [剪枝]
Scaled-YOLOv4：跨阶段部分网络的尺度化 [笔记] [yolo]
Ultralytics的Yolov5 [笔记] [yolo, 空间转通道]
PP-YOLO：一种有效且高效的物体检测器实现 [笔记] [yolo, paddle-paddle, 百度]
PointPainting：用于3D目标检测的序列融合方法 [笔记] [nuscenece]
MotionNet：基于鸟瞰图地图的自动驾驶联合感知与运动预测 [笔记] CVPR 2020 [未见的运动物体, BEV]
无需边界框的对象定位 [笔记] CVPR 2019 [加权豪斯多夫距离, 无NMS]

2020-11 (18)

TSP: 重新思考基于 Transformer 的集合预测用于目标检测 [笔记] ICCV 2021 [DETR, transformers, Kris Kitani]
Sparse R-CNN: 基于可学习提议的端到端目标检测 [笔记] CVPR 2020 [DETR, Transformer]
动态场景中的无监督单目深度学习 [笔记] CoRL 2020 [LearnK改进版，Google]
MoNet3D: 实现实时精确的单目3D目标定位 [笔记] ICML 2020 [Mono3D, 成对关系]
Argoverse: 带丰富地图的3D跟踪与预测 [笔记] CVPR 2019 [高清地图，数据集，CV激光雷达]
H3D数据集：用于拥挤城市场景中全方位3D多目标检测与跟踪 [笔记] ICRA 2019
Cityscapes 3D: 用于9自由度车辆检测的数据集和基准测试 CVPRW 2020 [数据集，戴姆勒，mono3D]
NYC3DCars: 地理背景下3D车辆的数据集 ICCV 2013
迈向完全自动驾驶：系统与算法 IV 2011
Center3D: 基于中心的单目3D目标检测与联合深度理解 [笔记] [mono3D, LID+DepJoint]
ZoomNet: 面向3D目标检测的部件感知自适应缩放神经网络 AAAI 2020口头报告 [mono3D]
CenterFusion: 基于中心的雷达与相机融合用于3D目标检测 [笔记] WACV 2021 [早期融合，相机，雷达]
3D-LaneNet+: 使用半局部表示的无锚车道检测 [笔记] NeurIPS 2020研讨会 [GM以色列，3D LLD]
LSTR: 基于Transformer的端到端车道形状预测 [笔记] WACV 2021 [LLD，transformers]
PIXOR: 来自点云的实时3D目标检测 [笔记] CVPR 2018 (鸟瞰视角)
HDNET/PIXOR++: 利用高清地图进行3D目标检测 [笔记] CoRL 2018
CPNDet: 用于无锚、两阶段目标检测的角点提议网络 ECCV 2020 [无锚，两阶段]
MVF: 用于激光雷达点云中3D目标检测的端到端多视角融合 [笔记] CoRL 2019 [Waymo，VoxelNet第一作者]
面向自动驾驶的柱状体目标检测 [笔记] ECCV 2020
训练友好的实时目标检测网络 AAAI 2020 [无锚，快速训练]
深度学习驱动的自动驾驶：最新技术综述 [自动驾驶技术栈综述，Yu Huang]
复杂动态场景中的密集单目深度估计 CVPR 2016
视频场景理解中的概率未来预测
AB3D: 3D多目标跟踪的基线 IROS 2020 [3D MOT]
用于多目标跟踪的时空关系网络 ICCV 2019 [MOT，随时间变化的特征位置]
超越像素：利用几何与形状线索进行在线多目标跟踪 ICRA 2018 [MOT，IIT，3D形状]
ST-3D: 立体3D目标跟踪的联合时空优化 CVPR 2020 [Peilinag LI，VINS和S3DOT的作者]
增强你的批次：通过实例重复提升泛化能力 CVPR 2020
RetinaTrack: 在线单阶段联合检测与跟踪 CVPR 2020 [MOT]
以热点为目标：通过热点激发实现无锚3D目标检测方法
梯度中心化：一种用于深度神经网络的新优化技术 ECCV 2020口头报告
基于深度基底拟合的深度补全 WACV 2020
BTS: 由大到小：用于单目深度估计的多尺度局部平面引导 [monodepth，有监督]
深度的边界：分割与深度之间的显式约束 CVPR 2020 [monodepth，Xiaoming Liu]
关于神经网络中旋转表示的连续性 CVPR 2019 [旋转表示]
VDO-SLAM: 一种视觉动态对象感知SLAM系统 IJRR 2020
动态SLAM：速度的必要性
伪RGB-D用于自我改进的单目SLAM和深度预测 ECCV 2020
交通信号灯映射与检测 [笔记] ICRA 2011 [交通信号灯，Google，Chris Urmson]
在每个阶段都利用地图和定位进行交通信号灯识别 [笔记] 专家系统2017 [交通信号灯，鲜于明镐，徐在圭，郑浩奇]
利用深度学习和先验地图进行自动驾驶汽车的交通信号灯识别 [笔记] IJCNN 2019 [交通信号灯，巴西圣埃斯皮里图州]

2020-10 (14)

TSM：用于高效视频理解的时序移位模块 [笔记] ICCV 2019 [宋涵，视频，目标检测]
WOD：Waymo数据集：自动驾驶感知任务中的可扩展性——Waymo开放数据集 [笔记] CVPR 2020
广义焦点损失：为密集目标检测学习高质量且分布均匀的边界框 [笔记] NeurIPS 2020 [分类作为回归]
一种基于排序的平衡损失函数：统一目标检测中的分类与定位 NeurIPS 2020 Spotlight
重新思考标签在改善类别不平衡学习中的价值 NeurIPS 2020
RepLoss：斥力损失：人群中的行人检测 [笔记] CVPR 2018 [人群检测，旷视科技]
自适应NMS：优化人群中的行人检测 [笔记] CVPR 2019 口头报告 [人群检测，NMS]
AggLoss：遮挡感知的R-CNN：人群中的行人检测 [笔记] ECCV 2018 [人群检测]
CrowdDet：拥挤场景下的检测：一个提案，多个预测 [笔记] CVPR 2020 口头报告 [人群检测，旷视科技，地球移动距离]
R2-NMS：基于代表性区域的NMS：通过提案配对实现拥挤场景下的行人检测 [笔记] CVPR 2020
双锚点R-CNN：人群中的行人检测 [笔记] [头部-身体捆绑]
综述：AP与MR
SKU110K：密集排列场景中的精确检测 [笔记] CVPR 2019 [人群检测，无遮挡]
GossipNet：学习非极大值抑制 CVPR 2017
TLL：基于躯体拓扑定位和时间特征聚合的小尺度行人检测 ECCV 2018
无需3D边界框标签的学习单目3D车辆检测 GCPR 2020 [单目3D，Daniel Cremers，慕尼黑工业大学]
CubifAE-3D：自动驾驶车辆上的单目相机空间立方化，用于基于自编码器的3D目标检测 [笔记] [单目3D，深度自编码器预训练]
可变形DETR：用于端到端目标检测的可变形Transformer [笔记] ICLR 2021 [戴继峰，DETR]
ViT：一张图胜过16×16个词：大规模图像识别中的Transformer [笔记] ICLR 2021
BYOL：自举你的潜在表示：一种新的自监督学习方法 [自监督]

2020-09 (15)

SDFLabel: 使用可微分渲染的 SDF 形状先验自动标注 3D 对象 [笔记] CVPR 2020 口头报告 [TRI, 可微分渲染]
DensePose: 野外密集人体姿态估计 [笔记] CVPR 2018 口头报告 [FAIR]
NOCS: 面向类别级 6D 对象位姿与尺寸估计的归一化对象坐标空间 CVPR 2019
monoDR: 用于自监督 3D 物体检测的单目可微分渲染 [笔记] ECCV 2020 [TRI, mono3D]
Lift, Splat, Shoot: 通过隐式反投影到 3D 编码来自任意相机阵列的图像 [笔记] ECCV 2020 [BEV-Net, Utoronto, Sanja Fidler]
用于场景一致性运动预测的隐式潜在变量模型 ECCV 2020 [Uber ATG, Rachel Urtasun]
FISHING Net: 格网中语义热图的未来推理 [笔记] CVPRW 2020 [BEV-Net, Mapping, Zoox]
VPN: 用于环境感知的跨视角语义分割 [笔记] RAL 2020 [Bolei Zhou, BEV-Net]
VED: 基于卷积变分编码器-解码器网络的单目语义占用网格建图 [笔记] ICRA 2019 [BEV-Net]
Cam2BEV: 一种 Sim2Real 深度学习方法，用于将多路车载摄像头拍摄的图像转换为鸟瞰视角下的语义分割图像 [笔记] ITSC 2020 [BEV-Net]
学习如何环绕物体以获取户外场景的俯视图表示 [笔记] ECCV 2018 [BEV-Net, UCSD, Manmohan Chandraker]
复杂道路场景的参数化俯视图表示 CVPR 2019 [BEV-Net, UCSD, Manmohan Chandraker]
FTM: 将视频作为一个整体来理解道路布局 CVPR 2020 [BEV-Net, UCSD, Manmohan Chandraker]
KM3D-Net: 基于几何约束嵌入和半监督训练的单目 3D 检测 [笔记] RAL 2021 [RTM3D, Peixuan Li]
InstanceMotSeg: 用于自动驾驶的实时实例运动分割 [笔记] IROS 2020 [运动分割]
MPV-Nets: 用于自动驾驶的单目平面视图网络 [笔记] IROS 2019 [BEV-Net]
基于有效样本数的类别平衡损失 [笔记] CVPR 2019 [焦点损失作者]
单目深度估计的几何预训练 [笔记] ICRA 2020
利用带有空间先验信息的数字地图实现自动驾驶中的鲁棒交通信号灯和箭头检测 [笔记] Sensors 2020 [交通信号灯, 金沢]

2020-08 (26)

用于深度和自运动自监督学习的特征度量损失 [笔记] ECCV 2020 [特征度量、局部极小值、单目深度]
Depth-VO-Feat：通过深度特征重建进行单目深度估计与视觉里程计的无监督学习 CVPR 2018 [特征度量、单目深度]
MonoResMatch：融合传统立体视觉知识的单目深度估计学习 [笔记] CVPR 2019 [单目深度、局部极小值、廉价立体匹配真值]
SGDepth：自监督单目深度估计——通过语义引导解决动态物体问题 [笔记] ECCV 2020 [动态物体]
每个像素都重要：基于整体三维运动理解的无监督几何学习 ECCV 2018 [动态物体、刚体与非刚体运动]
每个像素都重要 ++：结合三维整体理解的几何与运动联合学习 TPAMI 2018
CC：竞争协作——深度、相机运动、光流及运动分割的联合无监督学习 [笔记] CVPR 2019
ObjMotionNet：从视频中进行自监督的对象运动与深度估计 [笔记] CVPRW 2020 [对象运动预测、速度预测]
基于单目视频的实例级深度与运动学习
语义驱动的单目深度与自运动估计无监督学习
基于隐式线索的深度估计自监督联合学习框架
DF-Net：利用跨任务一致性进行深度与光流的无监督联合学习 ECCV 2018
LineNet：一种可缩放的CNN，用于城市环境中众包高清地图建模 [地图构建]
Road-SLAM：基于车道线标记的SLAM，实现车道级精度 [笔记] [高清地图]
AVP-SLAM：面向停车场内自动驾驶车辆的语义视觉建图与定位 [笔记] IROS 2020 [华为、高清地图、Tong Qin、VINS作者、自动代客泊车]
AVP-SLAM-后融合：在室内停车场中利用语义车道线标记实现厘米级精度的建图与定位 [笔记] ITSC 2019
基于车道线标记的高速公路重定位 ITSC 2019
DeepRoadMapper：从航空影像中提取道路拓扑结构 [笔记] ICCV 2017 [Uber ATG，非高清地图]
RoadTracer：自动从航空影像中提取道路网络 CVPR 2018 [非高清地图]
PolyMapper：从俯视图像中提取拓扑地图 [笔记] ICCV 2019 [地图构建、多边形，非高清地图]
HRAN：用于结构化在线地图的层次递归注意力网络 [笔记] CVPR 2018 [高清地图、高速公路、折线损失、Chamfer距离]
Deep Structured Crosswalk：端到端深度结构化模型用于绘制人行横道 [笔记] ECCV 2018
DeepBoundaryExtractor：用于道路边界提取的卷积循环网络 [笔记] CVPR 2019 [高清地图、边界、折线损失]
DAGMapper：通过发现车道拓扑结构来学习地图构建 [笔记] ICCV 2019 [高清地图、高速公路、分叉与汇合、折线损失]
稀疏高清地图：利用稀疏语义高清地图进行自动驾驶车辆定位 [笔记] IROS 2019 口头报告 [Uber ATG、元数据、地图构建、定位]
Aerial LaneNet：使用小波增强的成本敏感对称全卷积神经网络进行航空影像中的车道线语义分割 IEEE TGRS 2018
基于矢量高清地图的单目定位（MLVHM）：一种低成本的商用IVs方法 Sensors 2020 [清华大学、3D高清地图]
PatchNet：重新思考伪LiDAR表示 [笔记] ECCV 2020 [商汤科技、Wanli Ouyang]
D4LCN：用于单目3D目标检测的深度引导卷积学习 [笔记] CVPR 2020 [单目3D]
MfS：从单张图像中学习立体匹配 [笔记] ECCV 2020 [单目转立体、用单目学习立体匹配]
BorderDet：密集目标检测的边界特征 ECCV 2020 口头报告 [旷视科技]
尺度感知三叉戟网络用于目标检测 ICCV 2019 [不同尺度对应不同分支]
利用直接法从单目视频中学习深度
Vid2Depth：利用3D几何约束从单目视频中进行深度与自运动的无监督学习 CVPR 2018 [谷歌]
NeRF in the Wild：适用于无约束照片集的神经辐射场
以旧驭新：从SFM中学习SFM [笔记] ECCV 2018
神经RGB->D传感：从视频摄像头获取深度与不确定性 CVPR 2019 [多帧单目深度]
勿忘过去：从单目视频中进行递归深度估计 [多帧单目深度、RNN]
用于单目视频视觉里程计与深度的（无）监督学习的递归神经网络 [多帧单目深度、RNN]
利用时间一致性实现实时视频深度估计 ICCV 2019 [多帧单目深度、RNN、室内场景]
SfM-Net：从视频中学习结构与运动 [动态物体、SfM]
MB-Net：用于实时3D车辆检测的MergeBoxes [笔记] IV 2018 [单目3D：戴姆勒]
BS3D：超越边界框——使用包围形状实现从单目RGB图像中实时3D车辆检测 [笔记] IV 2019 [单目3D、戴姆勒]
3D-GCK：通过几何约束关键点实现实时单目RGB图像中的单次3D车辆检测 [笔记] IV 2020 [[单目3D、戴姆勒]
UR3D：用于单目3D目标检测的距离归一化统一表示 [笔记] ECCV 2020 [单目3D]
DA-3Det：通过特征域适应进行单目3D目标检测 [笔记] ECCV 2020 [单目3D]
RAR-Net：用于单目3D目标检测的强化轴向精炼网络 [笔记] ECCV 2020 [单目3D]

2020-07 (25)

CenterTrack: 将目标跟踪为点 [笔记] ECCV 2020 spotlight [基于摄像头的3D多对象检测与跟踪SOTA，CenterNet，视频目标检测，Philipp Krähenbühl]
CenterPoint: 基于中心点的3D目标检测与跟踪 [笔记] CVPR 2021 [基于激光雷达的3D多对象检测，CenterNet]
Tracktor: 不花哨的跟踪方法 [笔记] ICCV 2019 [Tracktor/Tracktor++，Laura Leal-Taixe@TUM]
FairMOT: 多目标跟踪的简单基线 [笔记]
DeepMOT: 用于训练多目标跟踪器的可微分框架 [笔记] CVPR 2020 [可训练的匈牙利算法，Laura Leal-Taixe@TUM]
MPNTracker: 学习多目标跟踪的神经求解器 CVPR 2020口头报告 [可训练的匈牙利算法，Laura Leal-Taixe@TUM]
nuScenes: 用于自动驾驶的多模态数据集 [笔记] CVPR 2020 [数据集，点云，雷达]
CBGS: 面向点云3D目标检测的类别平衡分组与采样 [笔记] CVPRW 2019 [旷视科技，激光雷达，WAD挑战赛冠军]
AFDet: 无锚框的一阶段3D目标检测和竞赛解决方案 [笔记] CVPRW 2020 [地平线机器人，激光雷达，Waymo挑战赛冠军]
多目标跟踪与单目标跟踪综述 [笔记]
CrowdHuman: 人群中的行人检测基准 [笔记] [旷视科技，行人，数据集]
WiderPerson: 野外密集行人检测的多样化数据集 [笔记] TMM 2019 [数据集，行人]
清华大学-戴姆勒骑自行车者数据集：基于视觉的骑自行车者检测新基准 [笔记] IV 2016 [数据集，骑自行车者检测]
专业骑自行车者检测数据集：使用单目RGB相机进行骑自行车者检测的具有挑战性的真实世界计算机视觉数据集 [笔记] IV 2019 [KITTI的扩展]
PointTrack: 以点的形式进行分割，实现高效的在线多目标跟踪与分割 [笔记] ECCV 2020口头报告 [MOTS]
PointTrack++：高效在线多目标跟踪与分割 [笔记] CVPR 2020研讨会 [CVPR2020 MOTS挑战赛冠军。PointTrack++在KITTI MOTS榜单中排名第一]
SpatialEmbedding: 通过联合优化空间嵌入和聚类带宽实现实例分割 [笔记] ICCV 2019 [单阶段，实例分割]
BA-Net: 密集束调整网络 [笔记] ICLR 2019 [束调整，多帧单目深度估计，特征度量]
DeepSFM: 基于深度束调整的运动结构 ECCV 2020口头报告 [多帧单目深度估计，室内场景]
CVD: 一致的视频深度估计 [笔记] SIGGRAPH 2020 [多帧单目深度估计，在线微调]
DeepV2D: 基于可微分运动结构的视频转深度 [笔记] ICLR 2020 [多帧单目深度估计，Jia Deng]
GeoNet: 无监督学习密集深度、光流和相机位姿 [笔记] CVPR 2018 [残差光流，单目深度，刚体与动态运动]
GLNet: 单目视频中基于几何约束的自监督学习：连接光流、深度和相机 [笔记] ICCV 2019 [在线微调，刚体与动态运动]
Depth Hints: 自监督单目深度提示 [笔记] ICCV 2019 [单目深度，局部极小值，廉价立体GT]
MonoUncertainty: 关于自监督单目深度估计的不确定性 [笔记] CVPR 2020 [深度不确定性]
基于可微分束调整的深度与自我运动的自监督学习 [笔记] [束调整，xmotors.ai，多帧单目深度]
单目视频中的运动学3D目标检测 [笔记] ECCV 2020 [多帧单目3D，Xiaoming Liu]
VelocityNet: 基于摄像头的车辆速度估计（来自单目视频) [笔记] CVPR 2017研讨会 [单目速度估计，CVPR 2017挑战赛冠军]
以车辆为中心的VelocityNet: 基于单目摄像头的ADAS中车距与相对速度端到端学习 [笔记] [单目速度估计，单目距离，SOTA]

2020-06 (20)

LeGO-LOAM：轻量级且针对地面优化的可变地形激光雷达里程计与建图 [笔记] IROS 2018 [激光雷达, 建图]
PIE：用于行人意图估计和轨迹预测的大规模数据集及模型 [笔记] ICCV 2019
JAAD：他们会过马路吗？行人过街行为基准数据集与基线 ICCV 2017
基于堆叠RNN中上下文特征融合的行人动作预判 BMVC 2019
行人会过马路吗？通过2D姿态估计来回答 IV 2018
基于2D姿态估计的行人与骑行者意图识别 ITSC 2019 [骨架, 行人, 骑行者意图]
多任务的专注单任务处理 CVPR 2019
DETR：基于Transformer的端到端目标检测 [笔记] ECCV 2020 口头报告 [FAIR]
Transformer：注意力就是你所需要的 [笔记] NIPS 2017
SpeedNet：学习视频中的速度感 [笔记] CVPR 2020 口头报告
MonoPair：利用成对空间关系的单目3D目标检测 [笔记] CVPR 2020 [Mono3D, 成对关系]
SMOKE：基于关键点估计的单阶段单目3D目标检测 [笔记] CVPRW 2020 [Mono3D, Zongmu]
环视摄像头系统的车辆Re-ID [笔记] CVPRW 2020 [轮胎线, 车辆Re-ID, Zongmu]
通过逐行分类实现端到端车道标记检测 [笔记] [高通韩国, LLD作为分类器]
利用CNN作为回归网络进行可靠的多车道检测与分类 ECCV 2018 [LLD作为回归器]
SUPER：一种新型车道检测系统 [笔记]
通过自注意力蒸馏学习轻量级车道检测CNN ICCV 2019
StixelNet：用于障碍物检测和道路分割的深度卷积网络 BMVC 2015
StixelNetV2：面向自动驾驶的实时类别化通用障碍物检测 [笔记] ICCV 2017 [DS]
使用高效的亚像素卷积神经网络实现单张图像和视频的实时超分辨率 [笔记] CVPR 2016 [通道转像素]
上下文中的汽车姿态：结合地面约束的精确姿态估计 [mono3D]
Self-Mono-SF：自监督单目场景流估计 [笔记] CVPR 2020 口头报告 [场景流, 立体输入]
MEBOW：野外环境下的单目身体朝向估计 [笔记] CVPR 2020
VG-NMS：可见性引导的NMS：在拥挤交通场景中高效提升非模态目标检测效果 [笔记] NeurIPS 2019研讨会 [拥挤场景, NMS, 戴姆勒]
WYSIWYG：所见即所得：利用可见性进行3D目标检测 [笔记] CVPR 2020 口头报告 [占用栅格]
基于密集检测的实时全景分割 [笔记] CVPR 2020 口头报告 [边界框 + 语义分割 = 全景分割, 丰田]
面向自动驾驶的以人为核心的图像标注效率提升 [笔记] CVPRW 2020 [高效标注]
SurfelGAN：为自动驾驶合成逼真的传感器数据 [笔记] CVPR 2020 口头报告 [Waymo, 自动数据生成, surfel]
LiDARsim：借助真实世界实现逼真的激光雷达仿真 [笔记] CVPR 2020 口头报告 [Uber ATG, 自动数据生成, surfel]
SuMa++：高效的基于激光雷达的语义SLAM IROS 2019 [语义分割, 激光雷达, SLAM]
PON/PyrOccNet：利用金字塔占用网络从图像预测语义地图表示 [笔记] CVPR 2020 口头报告 [BEV-Net, OFT]
MonoLayout：从单张图像重建非模态场景布局 [笔记] WACV 2020 [BEV-Net]
BEV-Seg：利用几何与语义点云进行鸟瞰视角语义分割 [笔记] CVPR 2020研讨会 [BEV-Net, 建图]
一种从图像获取鸟瞰视角的几何方法 ICCVW 2019 [建图, 几何, Andrew Zisserman]
FrozenDepth：通过观察静止的人来学习运动中人的深度 [笔记] CVPR 2019 口头报告
ORB-SLAM：一个多功能且精确的单目SLAM系统 TRO 2015
ORB-SLAM2：适用于单目、立体和RGB-D相机的开源SLAM系统 TRO 2016
CubeSLAM：单目3D物体SLAM [笔记] TRO 2019 [动态SLAM, orb slam + mono3D]
ClusterVO：聚类移动实例并估计自身及周围环境的视觉里程计 [笔记] CVPR 2020 [通用动态SLAM]
S3DOT：基于立体视觉的语义3D目标与自我运动跟踪，用于自动驾驶 [笔记] ECCV 2018 [Peiliang Li]
用于动态环境的多目标单目SLAM [笔记] IV 2020 [monolayout作者]
PWC-Net：利用金字塔、变形和代价体积的光流CNN [笔记] CVPR 2018 口头报告 [光流]
LiteFlowNet：用于光流估计的轻量级卷积神经网络 CVPR 2018 [光流]
FlowNet：用卷积网络学习光流 ICCV 2015 [光流]
FlowNet 2.0：深度网络下光流估计的发展 CVPR 2017 [光流]
ESPNetv2：一种轻量、节能且通用的卷积神经网络 CVPR 2019 [语义分割, 轻量化]
Mono-SF：多视角几何与单视角深度相结合，用于动态交通场景的单目场景流估计 ICCV 2019 [深度不确定性]

2020-05 (19)

基于自我中心视觉的未来车辆定位用于智能驾驶辅助系统 [笔记] [本田] ICRA 2019
PackNet：用于自监督单目深度估计的3D打包方法 [笔记] CVPR 2020 口头报告 [尺度感知深度]
PackNet-SG：面向自监督单目深度估计的语义引导表征学习 [笔记] ICLR 2020 [TRI，无穷大深度问题]
TrianFlow：迈向更好的泛化能力——无需PoseNet的联合深度-位姿学习 [笔记] CVPR 2020 [尺度感知]
理解基于CNN的绝对相机位姿回归的局限性 [笔记] CVPR 2019 [PoseNet、MapNet的缺点，Laura Leal-Taixe@TUM]
学还是不学：从本质矩阵进行视觉定位 [笔记] ICRA 2020 [SIFT + 5点求解器 >> 其他VO方法，Laura Leal-Taixe@TUM]
DF-VO：重访视觉里程计——究竟应该学习什么？ [笔记] ICRA 2020 [深度与光流用于精确的VO]
D3VO：用于单目视觉里程计的深度、位姿及不确定性深度学习 [笔记] CVPR 2020 口头报告 [Daniel Cremers, TUM, 深度不确定性]
网络瘦身：通过网络瘦身学习高效的卷积网络 [笔记] ICCV 2017
BatchNorm剪枝：重新思考卷积层通道剪枝中“范数越小信息量越少”的假设 [笔记] ICLR 2018
直接稀疏里程计 PAMI 2018
在德国训练，在美国测试：使3D目标检测器具备更强的泛化能力 [笔记] CVPR 2020
PseudoLidarV3：用于基于图像的3D目标检测的端到端伪LiDAR方法 [笔记] CVPR 2020
ATSS：通过自适应训练样本选择弥合基于锚框与无锚框检测之间的差距 [笔记] CVPR 2020 口头报告
距离IoU损失：更快更好的边界框回归学习 AAAI 2020
增强目标检测和实例分割中模型学习与推理中的几何因素 [期刊版]
YOLOv4：目标检测的最佳速度与精度 [笔记]
CBN：跨迭代批归一化 [笔记]
Stitcher：面向目标检测的反馈驱动数据提供者 [笔记]
SKNet：选择性卷积网络 [笔记] CVPR 2019
CBAM：卷积块注意力模块 [笔记] ECCV 2018
ResNeSt：分裂注意力网络 [笔记]

2020-04 (14)

ChauffeurNet：通过模仿最佳并合成最差来学习驾驶 [笔记] RSS 2019 [Waymo]
IntentNet：从原始传感器数据中学习预测意图 [笔记] CoRL 2018 [Uber ATG，感知与预测，激光雷达+地图]
RoR：道路规则：利用语义交互的卷积模型预测驾驶行为 [笔记] CVPR 2019 [Zoox]
MultiPath：用于行为预测的多条概率性锚定轨迹假设 [笔记] CoRL 2019 [Waymo，作者来自RoR和ChauffeurNet]
NMP：端到端可解释的神经运动规划器 [笔记] CVPR 2019 口头报告 [Uber ATG]
使用深度卷积网络进行自动驾驶的多模态轨迹预测 [笔记] ICRA 2019 [Henggang Cui，多模态，Uber ATG匹兹堡]
面向自动驾驶的交通参与者短期运动预测中的不确定性感知 WACV 2020 [Uber ATG匹兹堡]
TensorMask：密集目标分割的基础 [笔记] ICCV 2019 [单阶段实例分割]
BlendMask：自顶向下结合自底向上实现实例分割 [笔记] CVPR 2020 口头报告
用于单次射击实例分割的掩码编码 [笔记] CVPR 2020 口头报告 [单阶段实例分割，Chunhua Shen]
PolarMask：采用极坐标表示的单次射击实例分割 [笔记] CVPR 2020 口头报告 [单阶段实例分割]
SOLO：按位置分割目标 [笔记] ECCV 2020 [单阶段实例分割，Chunhua Shen]
SOLOv2：动态、更快、更强 [笔记] [单阶段实例分割，Chunhua Shen]
CondInst：用于实例分割的条件卷积 [笔记] ECCV 2020 口头报告 [单阶段实例分割，Chunhua Shen]
CenterMask：采用点表示的单次射击实例分割 [笔记] CVPR 2020

2020-03 (15)

VPGNet: 基于消失点引导的车道线与道路标记检测与识别网络 [笔记] ICCV 2017
多任务学习中哪些任务应该一起学习？ [笔记] [斯坦福大学，MTL] ICML 2020
MGDA: 多任务学习作为多目标优化 NeurIPS 2018
Taskonomy: 解耦任务迁移学习 [笔记] CVPR 2018
重新思考ImageNet预训练 [笔记] ICCV 2019 [何恺明]
UnsuperPoint: 端到端无监督兴趣点检测与描述 [笔记] [superpoint]
KP2D: 自监督关键点学习中的神经异常值剔除 [笔记] ICLR 2020 (pointNet)
KP3D: 用于自我运动估计的自监督3D关键点学习 [笔记] CoRL 2020 [丰田，superpoint]
NG-RANSAC: 神经引导的RANSAC：学习在哪里采样模型假设 [笔记] ICCV 2019 [pointNet]
学习寻找良好的对应关系 [笔记] CVPR 2018 口头报告 (pointNet)
RefinedMPL: 面向自动驾驶中3D目标检测的改进单目伪LiDAR [笔记] [华为，Mono3D]
DSP: 基于解耦结构化多边形估计和高度引导深度估计的单目3D目标检测 [笔记] AAAI 2020 (商汤科技，Mono3D)
利用深度神经网络从连续驾驶场景中鲁棒地检测车道线 (LLD, LSTM)
LaneNet: 向端到端车道线检测迈进：一种实例分割方法 [笔记] IV 2018 (LaneNet)
3D-LaneNet: 端到端3D多车道线检测 [笔记] ICCV 2019
半局部3D车道线检测与不确定性估计 [笔记] [GM以色列，3D LLD]
Gen-LaneNet: 一种通用且可扩展的3D车道线检测方法 [笔记] ECCV 2020 [Apollo，3D LLD]
交通场景中不确定条件下的人群长期车载预测 CVPR 2018 [视角预测]
不仅仅是规模问题：数据特性在行人检测中的作用 ECCV 2018 [行人]

2020-02 (12)

关联嵌入：用于联合检测与分组的端到端学习 [笔记] NIPS 2017
通过关联嵌入从像素到图 [笔记] NIPS 2017
Social LSTM: 人群密集区域中的人类轨迹预测 [笔记] CVPR 2017
使用关联LSTM进行在线视频目标检测 [笔记] [单阶段，循环]
SuperPoint: 自监督兴趣点检测与描述 [笔记] CVPR 2018 (通道到像素，深度SLAM，Magic Leap)
PointRend: 将图像分割视为渲染 [笔记] CVPR 2020 口头报告 [何恺明，FAIR]
Multigrid: 一种高效训练视频模型的多尺度方法 [笔记] CVPR 2020 口头报告 [何恺明，FAIR]
GhostNet: 以低成本操作获得更多特征 [笔记] CVPR 2020
FixRes: 解决训练与测试分辨率不一致的问题 [笔记] NIPS 2019 [FAIR]
MoVi-3D: 向单目3D目标检测中跨深度的泛化迈进 [笔记] ECCV 2020 [Virtual Cam，视口，Mapillary/Facebook，Mono3D]
自然场景中的残缺补全与大小恒常性 [笔记] ICCV 2015 (残缺补全)
MoCo: 用于无监督视觉表征学习的动力对比 [笔记] CVPR 2020 口头报告 [FAIR，何恺明]

2020-01 (19)

双重下降：调和现代机器学习实践与偏差-方差权衡 [笔记] PNAS 2019
深度双重下降：为何更大的模型和更多数据会带来负面影响 [笔记]
神经网络损失景观的可视化 NIPS 2018
ApolloScape 自动驾驶开放数据集及其应用 CVPR 2018 (数据集)
ApolloCar3D：面向自动驾驶的大规模3D汽车实例理解基准 [笔记] CVPR 2019
基于单张街景图像的部件级汽车解析与重建 [笔记] [百度]
6D-VNet：从单目RGB图像端到端估计车辆6自由度位姿 [笔记] CVPR 2019
RTM3D：面向自动驾驶的基于目标关键点的实时单目3D检测 [笔记] ECCV 2020 spotlight
DORN：用于单目深度估计的深度序数回归网络 [笔记] CVPR 2018 [monodepth, 监督]
D&T：先检测后跟踪，再由跟踪反推检测 [笔记] ICCV 2017 (来自Feichtenhofer)
CRF-Net：基于深度学习的雷达与摄像头传感器融合架构，用于目标检测 [笔记] SDF 2019 (雷达检测)
RVNet：单目摄像头与雷达的深度传感器融合，用于复杂环境下的基于图像的目标检测 [笔记] PSIVT 2019
RRPN：用于自动驾驶车辆目标检测的雷达区域建议网络 [笔记] ICIP 2019
ROLO：用于视觉目标跟踪的空间监督循环卷积神经网络 [笔记] ISCAS 2016
循环SSD：用于视频目标检测的多帧单次检测器 [笔记] BMVC 2018 (三菱)
循环RetinaNet：基于焦点损失的视频目标检测模型 [笔记] ICONIP 2018 (单阶段，循环)
动作即移动点 [笔记] [不适合在线使用]
PREVENTION 数据集：一种用于预测车辆意图的新基准 [笔记] ITSC 2019 [数据集，切入]
用于多模态远距离传感器数据集的半自动高精度标注工具 [笔记] IV 2018
Astyx 数据集：用于基于深度学习的3D目标检测的车载雷达数据集 [笔记] EuRAD 2019 (Astyx)
Astyx 摄像头雷达：基于深度学习的车载雷达与摄像头3D目标检测 [笔记] EuRAD 2019 (Astyx)

2019年12月 (12篇)

神经网络如何从单张图像中感知深度？ [笔记] ICCV 2019
自监督稀疏转稠密：基于LiDAR和单目相机的自监督深度补全 ICRA 2019 （深度补全）
DC：用于深度补全的深度系数 [笔记] CVPR 2019 [Xiaoming Liu, 多模态]
从一条线中解析几何：结合部分激光观测的单目深度估计 [笔记] ICRA 2017
VO-Monodepth：利用传统视觉里程计增强自监督单目深度估计 [笔记] 3DV 2019 （稀疏转稠密）
概率目标检测：定义与评估 [笔记]
Fishyscapes基准：衡量语义分割中的盲点 [笔记] ICCV 2019
论现代神经网络的校准 [笔记] ICML 2017 （Weinberger）
极端点击法用于高效的目标标注 [笔记] ICCV 2017
雷达与摄像头在高级驾驶辅助系统中的早期融合用于车辆检测 [笔记] NeurIPS 2019 （雷达）
用于高效训练LiDAR 3D目标检测器的深度主动学习 [笔记] IV 2019
C3DPO：用于非刚性结构光流重建的规范3D姿态网络 [笔记] ICCV 2019
YOLACT：实时实例分割 [笔记] ICCV 2019 [单阶段实例分割]
YOLACT++：更优的实时实例分割 [单阶段实例分割]

2019年11月 (20篇)

图像与特征描述子综述
基于距离-方位-多普勒张量的深度学习进行车载雷达车辆检测 [笔记] ICCV 2019
GPP：地面平面投票法用于道路上物体的6DoF位姿估计 [笔记] IV 2020 [UCSD, Trevidi, 单目3DOD]
MVRA：用于姿态估计的多视角重投影架构 [笔记] ICCV 2019
YOLOv3：一项渐进式改进
高斯YOLOv3：一种利用定位不确定性实现精准快速目标检测的自动驾驶专用检测器 [笔记] ICCV 2019 （带不确定性的检测）
贝叶斯YOLOv3：单阶段目标检测中的不确定性估计 [笔记] [DriveU]
迈向安全自动驾驶：在用于LiDAR 3D车辆检测的深度神经网络中捕捉不确定性 [笔记] ITSC 2018 （DriveU）
利用异方差随机不确定性实现鲁棒的实时LiDAR 3D目标检测 [笔记] IV 2019 （DriveU）
我们能信任你吗？关于自动驾驶用概率目标检测器的校准问题 [笔记] IROS 2019 （DriveU）
LaserNet：一种高效的概率3D目标检测器用于自动驾驶 [笔记] CVPR 2019 （不确定性）
LaserNet KL：学习一种面向不确定性的自动驾驶目标检测器 [笔记] [带有KL散度的LaserNet]
IoUNet：获取定位置信度以实现精准目标检测 [笔记] ECCV 2018
gIoU：广义交并比：用于边界框回归的度量与损失 [笔记] CVPR 2019
洛瓦兹Softmax损失：神经网络中优化交并比度量的可处理替代损失函数 CVPR 2018 [将IoU作为损失]
KL损失：带有不确定性的边界框回归，用于精准目标检测 [笔记] CVPR 2019
CAM-Convs：面向单视图深度的相机感知多尺度卷积 [笔记] CVPR 2019
BayesOD：一种用于深度目标检测器中不确定性估计的贝叶斯方法 [笔记]
TW-SMNet：远程宽基线立体匹配的深度多任务学习 [笔记] ICIP 2019
通过校准回归实现深度学习中的精准不确定性 [笔记] ICML 2018
校准目标定位任务中的不确定性 [笔记] NIPS 2018
SMWA：关于基于CNN的视差估计过平滑问题的研究 [笔记] ICCV 2019 [多模态，深度估计]
稀疏转稠密：从稀疏深度样本和单张图像中预测深度 [笔记] ICRA 2018 （深度补全）

2019-10 (18)

单目目标检测综述
单目3D目标检测中的2D-3D约束综述
MonoGRNet 2：基于关键点几何推理的单目3D目标检测 [笔记] [从关键点估计深度]
Deep MANTA：一种从单目图像中进行联合2D和3D车辆分析的粗到精多任务网络 [笔记] CVPR 2017
SS3D：使用交并比损失端到端训练的单目3D目标检测与包围盒拟合 [笔记] [从图像回归距离，类似CenterNet]
GS3D：面向自动驾驶的高效3D目标检测框架 [笔记] CVPR 2019
M3D-RPN：用于目标检测的单目3D区域建议网络 [笔记] ICCV 2019 口头报告 [3D锚框，骑行者，Xiaoming Liu]
TLNet：三角测量学习网络——从单目到双目3D目标检测 [笔记] CVPR 2019
自动驾驶应用中的3D目标检测方法综述 [笔记] TITS 2019 [综述]
BEV-IPM：基于逆透视映射图像的深度学习车辆位置与方向估计 [笔记] IV 2019
ForeSeE：面向3D目标检测的任务感知单目深度估计 [笔记] AAAI 2020 口头报告 [伪激光雷达的继任者，单目3D目标检测SOTA]
Obj-dist：从单目图像中学习特定于物体的距离 [笔记] ICCV 2019 (xmotors.ai + NYU) [单目距离]
DisNet：一种基于单目相机的距离估计新方法 [笔记] IROS 2018 [单目距离]
BirdGAN：用于自动驾驶车辆3D目标检测的2D到3D提升学习 [笔记] IROS 2019
Shift R-CNN：具有闭式几何约束的深度单目3D目标检测 [笔记] ICIP 2019
3D-RCNN：通过渲染与比较实现实例级3D目标重建 [笔记] CVPR 2018
用于单目深度估计和3D目标检测的深度光学 [笔记] ICCV 2019
MonoLoco：单目3D行人定位与不确定性估计 [笔记] ICCV 2019
联合单目3D车辆检测与跟踪 [笔记] ICCV 2019 (伯克利DeepDrive)
CasGeo：基于级联几何约束及利用3D结果净化2D检测的自动驾驶车辆3D边界框估计 [笔记]

2019-09 (17)

可裁剪神经网络 [笔记] ICLR 2019
通用可裁剪网络及改进的训练技术 [笔记] ICCV 2019
AutoSlim：面向通道数的一次性架构搜索
Once for All：训练一个网络并将其专门化以实现高效部署
DOTA：用于航空影像目标检测的大规模数据集 [笔记] CVPR 2018（旋转边界框）
RoiTransformer：学习用于航空影像中定向目标检测的RoI Transformer [笔记] CVPR 2019（旋转边界框）
RRPN：通过旋转提议进行任意方向场景文本检测 TMM 2018
R2CNN：用于鲁棒定向场景文本检测的旋转区域卷积网络（旋转边界框）
TI 白皮书：网络研讨会——用于汽车和工业应用的毫米波雷达 [笔记] [TI，雷达]
联邦学习：提升通信效率的策略 [笔记] NIPS 2016
SORT：简单在线实时跟踪 [笔记] ICIP 2016
Deep SORT：基于深度关联度量的简单在线实时跟踪 [笔记]
MT-CNN：利用多任务级联卷积网络进行人脸检测与对齐 [笔记] SPL 2016（实时，面部关键点）
RetinaFace：野外单阶段密集人脸定位 [笔记] CVPR 2020 [联合目标与关键点检测]
SC-SfM-Learner：从单目视频中无监督地学习尺度一致的深度与自运动 [笔记] NIPS 2019
SiamMask：快速在线目标跟踪与分割——一种统一的方法 CVPR 2019（跟踪、分割、标签传播）
卡尔曼滤波器综述（来自蒂姆·巴布，皮克斯动画）[笔记]
R-FCN：基于区域的全卷积网络进行目标检测 [笔记] NIPS 2016
引导反向传播：追求简洁：全卷积网络 [笔记] ICLR 2015
Occlusion-Net：使用图网络进行2D/3D遮挡关键点定位 [笔记] CVPR 2019
大型图像中的Boxy车辆检测 [笔记] ICCV 2019
FQNet：用于单目3D目标检测的深度拟合度评分网络 [笔记] CVPR 2019 [单目3D目标检测，陆继文]

2019-08 (18)

Mono3D：面向自动驾驶的单目3D目标检测 [笔记] CVPR2016
MonoDIS：解耦单目3D目标检测 [笔记] ICCV 2019
Pseudo lidar-e2e：基于伪LiDAR点云的单目3D目标检测 [笔记] ICCV 2019（采用2D与3D一致性损失的伪LiDAR方法，效果优于PL但逊于PL++，为纯单目3D检测领域的SOTA）
MonoGRNet：用于单目3D目标定位的几何推理网络 [笔记] AAAI 2019（Mono3DOD领域SOTA，MLF < MonoGRNet < 伪LiDAR）
MLF：基于多级融合的单目图像3D目标检测 [笔记] CVPR 2018（伪LiDAR的前身）
ROI-10D：将2D检测提升至6D位姿与度量尺度形状的单目方法 [笔记] CVPR 2019
AM3D：通过颜色嵌入式3D重建实现高精度单目3D目标检测——面向自动驾驶 [笔记] ICCV 2019【类似伪LiDAR，但加入了颜色增强】
Mono3D++：基于双尺度3D假设与任务先验的单目车辆3D检测 [笔记]（由Stefano Soatto提出）AAAI 2019
用于交通信号灯到车道分配的深度元数据融合 [笔记] IEEE RA-L 2019（交通信号灯关联）
复杂交叉口下交通信号灯到自车车道的自动关联 ITSC 2019（交通信号灯关联）
基于雷达与视觉的远距离车辆检测[笔记] ICRA 2019【雷达、视觉及雷达轨迹片段融合】
基于车辆姿态信息的单目距离估计 [笔记]
利用不确定性加权损失进行场景几何与语义的多任务学习 [笔记] CVPR 2018（Alex Kendall）
GradNorm：用于深度多任务网络中自适应损失平衡的梯度归一化 [笔记] ICML 2018（多任务）
DTP：多任务学习中的动态任务优先级设置 [笔记] ECCV 2018【多任务，斯坦福大学】
这辆车会变道吗？——频域中的转向灯识别 [笔记] IV 2014
Complex-YOLO：点云上的实时3D目标检测 [笔记]（仅BEV检测）
Complexer-YOLO：语义点云上的实时3D目标检测与跟踪 CVPR 2019（传感器融合与跟踪）
卷积神经网络的一个有趣缺陷及CoordConv解决方案 [笔记] NIPS 2018

2019-07 (19)

深度参数化连续卷积神经网络 [笔记] CVPR 2018 (@Uber, 传感器融合)
ContFuse: 用于多传感器3D目标检测的深度连续融合 [笔记] ECCV 2018 [Uber ATG, 传感器融合, BEV]
快与狂：基于单个卷积网络的实时端到端3D检测、跟踪和运动预测 [笔记] CVPR 2018 口头报告 [仅激光雷达, 感知与预测]
LearnK: 来自野外视频的深度：来自未知相机的无监督单目深度学习 [笔记] ICCV 2019 [单目深度估计, 内参估计, SOTA]
monodepth: 具有左右一致性约束的无监督单目深度估计 [笔记] CVPR 2017 口头报告 (单目深度估计, 使用立体匹配进行训练)
Struct2depth: 无需传感器的深度预测：利用结构信息从单目视频中进行无监督学习 [笔记] AAAI 2019 [单目深度估计, 动态物体运动估计, 无穷远深度问题, 在线微调]
基于边缘感知的深度-法线一致性约束的无监督几何学习 [笔记] AAAI 2018 (单目深度估计, 静态假设, 表面法线)
LEGO：通过观看视频一次性学习边缘与几何 [笔记] CVPR 2018 点亮论文 (单目深度估计, 静态假设, 表面法线)
基于全卷积网络的FMCW雷达目标检测与3D估计 [笔记] (雷达, RD图, 目标检测, Arxiv 201902)
基于深度神经网络的雷达目标检测研究 [笔记] (雷达, RD图, 目标检测)
使用PointNets在雷达数据中进行2D车辆检测 [笔记] (来自乌尔姆大学, 雷达, 点云, 目标检测, Arxiv 201904)
神经网络中针对分布外检测的学习置信度 [笔记] (预算作弊)
交通信号灯的深度学习方法：检测、跟踪与分类 [笔记] ICRA 2017 (博世, 交通信号灯)
这能有多难？估计图像中视觉搜索的难度 [笔记] CVPR 2016
面向自动驾驶的深度多模态目标检测与语义分割：数据集、方法与挑战 [笔记] (博世综述)
单目3D目标检测综述 (知乎博客)
Deep3dBox: 基于深度学习和几何的3D边界框估计 [笔记] CVPR 2017 [Zoox]
MonoPSR: 利用精确提案和形状重建的单目3D目标检测 [笔记] CVPR 2019
OFT: 用于单目3D目标检测的正射特征变换 [笔记] BMVC 2019 [将相机转换为BEV, Alex Kendall]

2019-06 (12)

MixMatch: 半监督学习的整体方法 [笔记]
EfficientNet: 重新思考卷积神经网络的模型缩放 [笔记] ICML 2019
我们在计算机视觉的贝叶斯深度学习中需要哪些不确定性？ [笔记] NIPS 2017
Bayesian SegNet: 场景理解中深度卷积编码器-解码器架构中的模型不确定性 [笔记]BMVC 2017
TrafficPredict: 异构交通参与者的轨迹预测 [笔记] AAAI 2019 口头报告
单张RGB-D图像的深度补全 [笔记] CVPR 2018 (室内)
DeepLiDAR: 基于稀疏激光雷达数据和单张彩色图像的室外场景表面法向引导深度预测 [笔记] CVPR 2019 (室外)
SfMLearner: 从视频中无监督学习深度与自身运动 [笔记] CVPR 2017
Monodepth2: 深入探讨自监督单目深度估计 [笔记] ICCV 2019 [Niantic]
DeepSignals: 通过视觉信号预测驾驶员意图 [笔记] ICRA 2019 (@Uber, 转向灯检测)
FCOS: 全卷积一阶段目标检测 [笔记] ICCV 2019 [Chunhua Shen]
Pseudo-LiDAR++: 自动驾驶中3D目标检测的精确深度 [笔记] ICLR 2020
MMF: 用于3D目标检测的多任务多传感器融合 [笔记] CVPR 2019 (@Uber, 传感器融合)

2019年5月 (18篇)

CenterNet：将目标视为点（来自ExtremeNet作者）[笔记]
CenterNet：基于关键点三元组的目标检测 [笔记]
基于区域分解与组装的目标检测 [笔记] AAAI 2019
彩票假说：寻找稀疏且可训练的神经网络 [笔记] ICLR 2019
M2Det：基于多级特征金字塔网络的单阶段目标检测器 [笔记] AAAI 2019
深度雷达检测器 [笔记] RadarCon 2019
雷达点云上的语义分割 [[笔记]]（来自戴姆勒公司）FUSION 2018
用于高效卷积神经网络的滤波器剪枝 [笔记] ICLR 2017
面向资源受限卷积神经网络的层补偿式剪枝 [笔记] NIPS 2018演讲
LeGR：通过学习的全局排序进行滤波器剪枝 [笔记] CVPR 2020口头报告
NAS-FPN：为目标检测学习可扩展的特征金字塔架构 [笔记] CVPR 2019
AutoAugment：从数据中学习增强策略 [笔记] CVPR 2019
用于实例分割的路径聚合网络 [笔记] CVPR 2018
用于加速超深神经网络的通道剪枝 ICCV 2017（旷视科技，何毅辉）[笔记]
AMC：面向移动设备的模型压缩与加速自动化机器学习 ECCV 2018（韩松，何毅辉）
MobileNetV3：搜索MobileNetV3 [笔记] ICCV 2019
MnasNet：面向移动端的平台感知型神经架构搜索 [笔记] CVPR 2019
重新思考网络剪枝的价值 ICLR 2019

2019年4月 (12篇)

MobileNetV2：倒残差与线性瓶颈（MobileNets v2）[笔记] CVPR 2018
一种新的性能度量与道路检测算法评估基准 [笔记] ITSC 2013
MultiNet：面向自动驾驶的实时联合语义推理 [笔记]
利用图像难度预测优化单阶段与双阶段目标检测器之间的权衡（对1阶段和2阶段目标检测有很好的说明）
Light-Head R-CNN：捍卫双阶段目标检测器 [笔记]（来自旷视科技）
CSP：高层语义特征检测——行人检测的新视角 [笔记] CVPR 2019 [中心与尺度预测、无锚框，接近SOTA水平的行人检测]
无锚框方法综述（知乎博客）目标检测：Anchor-Free时代 Anchor free深度学习的目标检测方法关于CSP的我的幻灯片
DenseBox：统一地标定位与端到端目标检测
CornerNet：将目标检测为成对的关键点 [笔记] ECCV 2018
ExtremeNet：通过聚类极端点和中心点进行自下而上的目标检测 [笔记] CVPR 2019
FSAF：用于单阶段目标检测的特征选择性无锚模块 [笔记] CVPR 2019
FoveaBox：超越基于锚框的目标检测器（无锚框）[笔记]

2019-03 (19)

用于目标检测神经网络训练的免费工具包 [笔记]
mixup：超越经验风险最小化 [笔记] ICLR 2018
用于3D形状识别的多视角卷积神经网络 (MVCNN) [笔记] ICCV 2015
3D ShapeNets：体素化形状的深度表示 [笔记] CVPR 2015
用于3D数据上物体分类的体素化与多视角CNN [笔记] CVPR 2016
组归一化 [笔记] ECCV 2018
空间变换网络 [笔记] NIPS 2015
基于RGB-D数据的3D目标检测的Frustum PointNets (F-PointNet) [笔记] CVPR 2018
用于点云学习的空间图卷积网络 [笔记]
PointRCNN：基于点云的3D目标提案生成与检测 (3D目标检测SOTA) [笔记] CVPR 2019
MV3D：面向自动驾驶的多视角3D目标检测网络 [笔记] CVPR 2017 (百度，传感器融合，BV提案)
AVOD：视图聚合下的联合3D提案生成与目标检测 [笔记] IROS 2018 (传感器融合，多视角提案)
MobileNets：适用于移动视觉应用的高效卷积神经网络 [笔记]
基于视觉深度估计的伪LiDAR：弥合自动驾驶3D目标检测中的鸿沟 [笔记] CVPR 2019
VoxelNet：基于点云的3D目标检测端到端学习 CVPR 2018 (苹果，首个端到端点云编码到网格的方法)
SECOND：稀疏嵌入式卷积检测 Sensors 2018 (基于VoxelNet)
PointPillars：用于点云目标检测的快速编码器 [笔记] CVPR 2019 (基于SECOND)
我们准备好迎接自动驾驶了吗？KITTI视觉基准套件 [笔记] CVPR 2012
视觉遇见机器人：KITTI数据集 [笔记] IJRR 2013

2019-02 (9)

动作识别何去何从？一种新模型与Kinetics数据集 (I3D) [笔记]视频 CVPR 2017
时空卷积神经网络的初始化策略 [笔记] 视频
检测与跟踪：视频中高效的姿态估计 [笔记] ICCV 2017 视频
基于深度学习的肋骨中心线提取与标注 [笔记] 医学影像 MICCAI 2018
用于视频识别的SlowFast网络 [笔记] ICCV 2019口头报告
深度神经网络的聚合残差变换 (ResNeXt) [笔记] CVPR 2017
超越像素平面：3D中的感知与学习 (博客，中文版)
VoxNet：用于实时目标识别的3D卷积神经网络 (VoxNet) [笔记]
PointNet：面向3D分类与分割的点集深度学习 CVPR 2017 [笔记]
PointNet++：度量空间中点集上的深度层次特征学习 NIPS 2017 [笔记]
几何深度学习前沿综述（来自知乎） (截至CVPR 2018)

2019-01 (10)

DQN：通过深度强化学习实现人类水平控制（Nature DQN论文） [笔记] 强化学习
Retina U-Net：针对医学目标检测的分割监督的简单利用 [笔记] 医学影像
全景分割 [笔记] 全景分割
全景特征金字塔网络 [笔记] 全景分割
注意力引导的全景分割统一网络 [笔记] 全景分割
用于卷积神经网络图像分类的技巧大全 [笔记] 图像分类
用于多模态3D体积中血管中心线追踪的深度强化学习 [笔记] 强化学习 医学影像
用于Flappy Bird的深度强化学习 [笔记] 强化学习
用于详细视频理解的长期特征库 [笔记] 视频
非局部神经网络 [笔记] 视频 CVPR 2018

2018年

2017年及之前

待读论文

以下是等待阅读的论文列表。

深度学习一般

架构改进

强化学习

3D感知

3D-CNN：用于从激光雷达数据中检测着陆区的三维卷积神经网络
基于卷积神经网络的生成与判别体素建模
面向3D目标识别的方向增强体素网络 (ORION) <BMVC 2017>
GIFT：一个实时且可扩展的3D形状搜索引擎 CVPR 2016
基于投影卷积网络的3D形状分割 (ShapePFCN)CVPR 2017
利用多视角卷积网络从部件对应关系中学习局部形状描述子
Open3D：现代3D数据处理库
用于鲁棒RGB-D目标识别的多模态深度学习 IROS 2015
FlowNet3D：在三维点云中学习场景光流 CVPR 2019
通过核相关和图池化挖掘点云局部结构 CVPR 2018 (Neighbors Do Help: Deeply Exploiting Local Structures of Point Clouds)
PU-Net：点云上采样网络 CVPR 2018
用于点云3D分割的循环切片网络 CVPR 2018
SPLATNet：用于点云处理的稀疏格网网络 CVPR 2018
基于快速局部化谱滤波的图卷积神经网络 NIPS 2016
基于图卷积网络的半监督分类 ICLR 2017
基于递归多图神经网络的几何矩阵补全 NIPS 2017
图注意力网络 ICLR 2018
3D-SSD：从RGB-D图像中学习层次特征，用于无遮挡3D目标检测 (3D SSD)
逃离细胞：用于识别3D点云模型的深度Kd网络 ICCV 2017
使用3D编码器-预测器CNN和形状合成进行形状补全 CVPR 2017
IPOD：基于密集点的点云目标检测器
3D目标的无遮挡检测：从RGB-深度图像中的2D边界框推断3D边界框 CVPR 2017
RGB-D图像中由2D驱动的3D目标检测
3D-SSD：从RGB-D图像中学习层次特征，用于无遮挡3D目标检测
Associate-3Ddet：用于3D点云目标检测的感知到概念关联 [对遮挡目标进行分类]

立体视觉与光流

交通信号灯与交通标志

野外环境下的交通标志检测与分类 CVPR 2016 [清华大学、腾讯、交通标志]
用于联合交通标志与信号灯检测的分层深度架构及小批量选择方法 IEEE CRV 2018 [多伦多大学]
通过单次检测法识别交通信号灯 ITSC 2018
DeepTLR：用于交通信号灯检测与分类的单一深度卷积网络 IV 2016
在具有挑战性的交通信号灯数据集上评估最先进目标检测器 CVPR 2017研讨会
利用深度学习和显著性图在不同光照条件下识别交通信号灯 ITSC 2014 [交通信号灯]
利用高清地图特征识别交通信号灯 RAS 2019
关于交通信号灯视觉的研究：问题、综述与展望 TITS 2015

数据集与综述

The DriveU 交通信号灯数据集：介绍及与现有数据集的比较 ICRA 2018
牛津雷达 RobotCar 数据集：牛津 RobotCar 数据集的雷达扩展版
面向交通信号灯的视觉：问题、综述与展望（交通信号灯综述，UCSD LISA）
图谱理论综述（进行中）
CVPR 2017 3D深度学习教程 [笔记] - （进行中）
神经架构搜索综述
网络剪枝教程（博客）
CVPR 2019 GNN 教程
面向自动驾驶的大规模交互式运动预测：Waymo 开放运动数据集 [Waymo，预测数据集]
PANDA：千兆像素级以人为中心的视频数据集 CVPR 2020
WoodScape：用于自动驾驶的多任务、多摄像头鱼眼数据集 ICCV 2019 [Valeo]

无监督深度估计

CNN 中的稀疏与密集数据：深度补全与语义分割 3DV 2018
基于多尺度深度网络从单张图像预测深度图 NIPS 2014（Eigen 等人）
使用直接法从单目视频中学习深度 <kbd.CVPR 2018（单目深度估计）
Virtual-Normal：通过强制执行虚拟法线的几何约束来预测深度 [笔记] ICCV 2019（PL 的生成效果更好）
基于生成对抗网络的空间对应关系：从单目视频中学习深度 ICCV 2019
面向单目深度 SLAM 的关键帧检测与视觉里程计的无监督协同学习 ICCV 2019
用于单目深度估计的卷积神经网络可视化 ICCV 2019

室内深度

单目深度估计中遮挡轮廓的快速准确恢复 ICCV 2019 工作坊 [室内]
用于单目深度估计的多损失再平衡算法 ECCV 2020 [室内深度]
利用单次瞬态消除歧义的单目深度估计 ECCV 2020 [附加激光传感器，室内深度]
使用深度注意力体积引导单目深度估计 ECCV 2020 [室内深度]
通过利用结构感知和互补数据集改进单目深度估计 ECCV 2020 [室内深度]
用于单目深度估计的 CLIFFNet，采用层次嵌入损失 ECCV 2020 [室内深度]

激光雷达

PointSIFT：用于3D点云语义分割的类似SIFT的网络模块（PointNet替代方案，骨干网络）
基于全卷积网络的3D激光雷达车辆检测（VeloFCN）RSS 2016
KPConv：面向点云的灵活且可变形卷积（来自PointNet作者团队）
PointCNN：在X变换后的点上进行卷积 NIPS 2018
L3-Net：面向自动驾驶的基于学习的激光雷达定位 CVPR 2019
RoarNet：基于区域近似精炼的鲁棒3D目标检测（传感器融合，3D单目提案，在点云中精炼）
DeLS-3D：利用3D语义地图进行深度定位与分割 CVPR 2018
Frustum ConvNet：滑动截锥体聚合局部逐点特征以实现非遮挡3D目标检测 IROS 2019
PointRNN：用于移动点云处理的点递归神经网络
Gated2Depth：从门控图像实时生成稠密激光雷达数据 ICCV 2019口头报告
用于城市驾驶环境中运动目标检测与跟踪的多传感器融合系统 ICRA 2014
PointFusion：用于3D边界框估计的深度传感器融合 CVPR 2018 [传感器融合，Zoox]
点云中3D目标检测的深度霍夫投票法 ICCV 2019 [Charles Qi]
StixelNet：用于障碍物检测和道路分割的深度卷积网络
PolarNet：面向在线激光雷达点云语义分割的改进网格表示 CVPR 2020
超越激光雷达范围的深度感知 CVPR 2020 [广基线立体视觉结合三焦点相机]
面向城市自动驾驶应用的概率语义建图 IROS 2020 [激光雷达建图]
RandLA-Net：大规模点云的高效语义分割 CVPR 2020口头报告 [激光雷达分割]
PolarNet：面向在线激光雷达点云语义分割的改进网格表示 CVPR 2020 [激光雷达分割]
OctSqueeze：面向激光雷达压缩的八叉树结构熵模型 CVPR 2020口头报告 [激光雷达压缩]
MuSCLE：利用深度熵模型对激光雷达进行多扫描压缩 NeurIPS 2020口头报告 [激光雷达压缩]

自我中心边界框预测

交通场景中人在不确定性下的长期车载预测 CVPR 2018 [车载边界框预测]
第一人称视频中的无监督交通事故检测 IROS 2019（本田）
NEMO：利用噪声自我先验进行未来物体定位（本田）
面向未来车辆定位的鲁棒随机性建模（视角）
多目标预测：在多样化环境中预测未来物体位置 WACV 2020（视角边界框，行人）
使用全景视频在3D全景坐标系中进行多人定位与跟踪

车道检测

通过可微分最小二乘拟合实现端到端车道检测 ICCV 2019
Line-CNN：带有线条提案单元的端到端交通线路检测 TITS 2019 [类似目标的提案]
利用透视变换层远距离检测车道和道路标记 [3D LLD]
超快速结构感知深度车道检测 ECCV 2020 [车道检测]
基于双流融合全卷积网络的道路检测新方法（将摄像头转换为BEV）
FastDraw：通过适应序列预测网络解决车道检测的长尾问题

跟踪

RetinaTrack：在线单阶段联合检测与跟踪 CVPR 2020
自动驾驶车辆的计算机视觉：问题、数据集及最新进展（2019年12月最新更新）
利用视频和IMU同时识别与跟踪多人 CVPR 2019
Detect-and-Track：视频中高效的姿态估计
TrackNet：同时进行目标检测与跟踪及其在交通视频分析中的应用
视频动作变换网络 CVPR 2019口头报告
在线实时多时空动作定位与预测 ICCV 2017
多目标跟踪近年来论文及开源代码汇总
GNN3DMOT：用于3D多目标跟踪的多特征学习图神经网络 CVPR 2020口头报告 [3DMOT，CMU，Kris Kitani]
Chained-Tracker：将成对注意力回归结果串联起来实现端到端的多目标检测与跟踪 ECCV 2020亮点展示 [MOT，腾讯]
迈向实时多目标跟踪 ECCV 2020 [MOT]
面向自动驾驶的概率3D多目标跟踪 [TRI]

关键点：姿态与人脸

概率人脸嵌入 ICCV 2019
人脸识别中的数据不确定性学习 CVPR 2020
从无标签视频中自监督学习可解释的关键点 CVPR 2020 口头报告 [VGG, 自监督, 可解释, 判别器]

通用深度学习

重新审视深度神经网络的小批量训练
ICML2019研讨会：自适应与多任务学习：算法与系统 ICML 2019
多任务学习的自适应调度 NIPS 2018 (NMT)
极坐标变换网络 ICLR 2018
深度学习中的校准度量 CVPR 2019
利用近似方差传播进行无采样先验不确定性估计 ICCV 2019 (先验不确定性)
使卷积网络再次具备平移不变性 ICML
使用自监督学习可以提高模型的鲁棒性和不确定性估计 NeurIPS 2019
理解深度学习需要重新思考泛化问题 ICLR 2017 [ICLR最佳论文]
一种用于检测神经网络中误分类和分布外样本的基线 ICLR 2017 (NLL分数作为异常分数)
基于非参数实例级判别的无监督特征学习 CVPR 2018 焦点论文 (Stella Yu)
关于过参数化浅层神经网络优化景观的理论见解 TIP 2018
插值的力量：理解SGD在现代过参数化学习中的有效性 ICML 2018
设计网络设计空间 CVPR 2020
Moco2：基于动量对比学习的改进基线
神经网络上的SGD会学习复杂度逐渐增加的函数 NIPS 2019 (SGD首先学习线性分类器)
关注激活值：一种用于细粒度图像识别的模块化注意力机制
一种混合分类-回归框架，用于从2D图像中估计3D姿态 BMVC 2018 (多bin，有何新意？)
就地激活的BatchNorm，用于优化内存的DNN训练 CVPR 2018 (优化的BatchNorm + ReLU)
FCNN：傅里叶卷积神经网络 (FFT作为CNN)
可视化神经网络的损失景观 NIPS 2018
Xception：使用深度可分离卷积的深度学习 (Xception)
利用不确定性权衡损失进行场景几何与语义的多任务学习 (不确定性)
无需真实世界标签的模拟环境驾驶学习 ICRA 2019 (领域适应，sim2real)
滤波器响应归一化层：消除深度神经网络训练中的批依赖 CVPR 2020 口头报告
用于深度表示学习的可切换白化 ICCV 2019 [领域适应]
视觉手性 CVPR 2020 口头报告 [最佳论文提名]
广义ODIN：无需从分布外数据中学习即可检测分布外图像 CVPR 2020
带噪声学生的自训练提升ImageNet分类性能 CVPR 2020 [蒸馏]
保持简单：基于图像统计匹配的领域适应 CVPRW 2020 [针对2D模框的领域适应]
对极变换网络 CVPR 2020 [Yihui He]
基于函数变分推断的可扩展计算机视觉不确定性 CVPR 2020 [仅需一次前向传播即可获得先验不确定性]

单目3D

3DOP：用于精确目标类别检测的3D目标提案 NIPS 2015
DirectShape：用于视觉车辆位姿与形状估计的形状先验光度对齐方法
消除盲区：将3D目标检测与单目深度估计适配到360°全景图像 ECCV 2018（单目3D目标检测与深度估计）
迈向场景理解：基于语义感知表示的无监督单目深度估计 CVPR 2019 [统一条件解码器]
DDP：从单张图像和稀疏范围中推断密集深度后验分布 CVPR 2019
增强现实与计算机视觉的结合：面向城市驾驶场景的高效数据生成 IJCV 2018（AR数据增强，丰田）
探索3D单目目标检测的能力与局限——基于仿真与真实世界数据的研究 IITS
借助精细的3D目标表示迈向场景理解 IJCV 2014（关键点、3D边界框标注）
深度立方体检测：超越2D边界框（Magic Leap）
视角与关键点（Malik）
将目标检测数据集提升至3D（PASCAL）
野外环境中的3D目标类别检测（基于关键点）
快速单次检测与位姿估计 3DV 2016（SSD + 位姿，Wei Liu）
虚拟KITTI 2
利用形状概念进行深度监督，实现遮挡感知的3D目标解析 CVPR 2017
为CNN渲染：使用基于渲染3D模型视图训练的CNN进行图像中的视角估计 ICCV 2015 口头报告
实时无缝单次6D目标位姿预测 CVPR 2018
实用深度立体匹配（PDS）：面向应用的深度立体匹配 NIPS 2018 [视差估计]
自监督稀疏转稠密：基于LiDAR和单目相机的自监督深度补全 ICRA 2019
利用卷积空间传播网络学习深度（百度，SPN深度）ECCV 2018
顺其自然：自监督场景流估计 CVPR 2020 口头报告 [场景流，LiDAR]
单目视频中的在线深度学习以对抗遗忘 CVPR 2020 [单目深度]
具有在线适应性的自监督深度视觉里程计 CVPR 2020 口头报告 [DF-VO、TrianFlow、元学习]
利用自注意力机制和离散视差体积进行自监督单目深度估计 CVPR 2020
单目视频中的在线深度学习以对抗遗忘 CVPR 2020 [单目深度，在线学习]
SDC-Depth：用于单目深度估计的语义分治网络 CVPR 2020 [单目深度，语义]
从单张图像推断深度分布 TRO [深度置信度，将其拼接起来]
具有全局一致深度的动态场景新视角合成 CVPR 2020
深度的边界：分割与深度之间的显式约束 CVPR 2020 [Xiaoming Liu，多模态，深度渗出]

雷达感知

MV-RSS：多视角雷达语义分割 ICCV 2021
使用77 GHz频段的CNN对极化雷达图像中的目标进行分类（雷达，极化）
基于真实世界数据的CNN用于汽车雷达中的干扰抑制与去噪 NeurIPS 2019（雷达）
通过语义分割从稀疏雷达聚类中学习占用网格来理解道路场景 ICCV 2019（雷达）
RadarNet：利用雷达实现对动态目标的鲁棒感知 ECCV 2020 [Uber ATG]
从单目图像和稀疏雷达数据中估计深度 IROS 2020 [相机+雷达用于单目深度，nuscenes]
RPR：用于自动驾驶车辆中联合目标检测与距离估计的雷达-相机传感器融合 IROS 2020 [雷达提案细化]
在汽车应用中将雷达数据映射到相机图像以实现跨模态监督

SLAM

PoseNet: 用于实时6自由度相机重定位的卷积网络 [笔记] ICCV 2015
PoseNet2: 基于深度学习的相机重定位中的不确定性建模 ICRA 2016
PoseNet3: 基于深度学习的相机位姿回归的几何损失函数 CVPR 2017
EssNet: 用于几何匹配的卷积神经网络架构 CVPR 2017
NC-EssNet: 邻域一致性网络 NeurIPS 2018
强化特征点：针对高层任务优化特征检测与描述 CVPR 2020 口头报告 [Eric Brachmann, ngransac]
利用3D几何约束从单目视频中无监督学习深度与自运动 CVPR 2018
DynSLAM: 大规模动态环境下的鲁棒稠密建图 [动态SLAM, Andreas Geiger] ICRA 2018
GCNv2: 用于实时SLAM的高效对应点预测 LRA 2019 [Superpoint + orb slam]
[实时可扩展的稠密Surfel建图](Real-time Scalable Dense Surfel Mapping) ICRA 2019 [稠密重建, monodepth]
动态SLAM: 对速度的需求
GSLAM: 通用SLAM框架与基准测试 ICCV 2019

雷达感知

绕过街角的视野：使用多普勒雷达在野外进行非视距检测与跟踪 CVPR 2020 [戴姆勒]
用于自动驾驶车辆中稳健目标检测的雷达+RGB注意力融合 ICIP 2020
基于毫米波雷达和视觉传感器的障碍物检测的空间注意力融合 sensors 2020 [雷达, 摄像头, 前端融合]

综述与调查

自动驾驶中的感知之外

基于不确定性引导的多尺度残差学习——使用循环旋转CNN进行单幅图像去雨 CVPR 2019
学习如何在多模态深度学习中融合多种模态 (传感器融合, 通用DL)
利用时空语义走廊为复杂城市环境生成安全轨迹 LRA 2019 [运动规划]
DAgger: 基于模块化和抽象的驾驶策略迁移 CoRL 2018 [DAgger, 模仿学习]
利用引导分支实现高效且具有不确定性的自动驾驶决策 ICRA 2020 [运动规划]
异构传感器系统的标定
引言：ADAS中的数据融合 (来自知乎) (截至CVPR 2018)
YUVMultiNet: 用于自动驾驶的实时YUV多任务CNN CVPR 2019 (实时, 低功耗)
为将ADAS提升至自动驾驶水平而进行的异构传感器模态深度融合
视频中主动学习的时间一致性 ICCVW 2019 [主动学习, 时间一致性]
R-TOD: 专为自动驾驶设计的端到端延迟最小化的实时目标检测器 RTSS 2020 [感知系统设计]

预测与规划

用于运动预测的道路图表示学习 ECCV 2020 [Uber ATG]
DSDNet: 深度结构化自动驾驶网络 ECCV 2020 [Uber ATG]

标注与工具

视频中主动学习的时间一致性 ICCV 2019研讨会
利用预训练的3D目标检测模型快速生成真值标注 ITSC 2018 [UToronto, 自动标注]
从自动标注中学习多目标跟踪与分割 CVPR 2020 [自动标注]
通过几何循环一致性进行规范表面映射 ICCV 2019
TIDE: 用于识别目标检测错误的通用工具箱 ECCV 2018 [工具]

低层DL

从视频中自监督地进行相机自标定 [TRI, 内参标定, 鱼眼/针孔]

早期NLP论文

非DL

广告推荐系统方向文章汇总
UMAP: 用于降维的均匀流形近似与投影 [笔记] (降维, 优于t-SNE)

技术债务

待整理（CVPR 2021 和 ICCV 2021 待读文献）

捕捉全视角上下文用于全景分割 CVPR 2021
UP-DETR：基于Transformer的无监督目标检测预训练 CVPR 2021 [transformers]
DCL：用于无边界不连续性旋转检测的密集标签编码 CVPR 2021
4D 全景激光雷达分割 CVPR 2021 [TUM]
CanonPose：野外自监督单目人体姿态估计 CVPR 2021
快速且准确的模型缩放 CVPR 2021 [FAIR]
Cylinder3D：用于激光雷达语义分割的圆柱形非对称3D卷积网络 CVPR 2021 [lidar semantic segmentation]
LiDAR R-CNN：高效通用的3D目标检测器 CVPR 2021 [TuSimple, Lidar]
PREDATOR：低重叠度3D点云配准 CVPR 2021 口头报告
DBB：多样分支模块——将卷积构建为类似Inception的单元 CVPR 2021 [RepVGG, ACNet, Xiaohan Ding, Megvii]
GrooMeD-NMS：用于单目3D目标检测的分组可微NMS CVPR 2021 [mono3D]
DDMP：用于单目3D目标检测的深度条件动态消息传播 CVPR 2021 [mono3D]
M3DSSD：单目3D单阶段目标检测器 CVPR 2021 [mono3D]
MonoRUn：通过重建与不确定性传播实现单目3D目标检测 CVPR 2021 [mono3D]
HVPR：用于单阶段3D目标检测的混合体素-点云表示 CVPR 2021 [Lidar]
PLUME：基于立体图像的高效3D目标检测 [Yan Wang, Uber ATG]
V2F-Net：遮挡行人检测的显式分解 [crowded, pedestrian, megvii]
IP-basic：捍卫经典图像处理——在CPU上快速完成深度补全 CRV 2018
重新审视单阶段目标检测中的特征对齐 [cls+reg]
部署过程中持续监控目标检测性能的每帧mAP预测 WACV 2021 [SafetyNet]
TSD：重新思考目标检测器中的兄弟头 CVPR 2020 [sensetime, cls+reg]
OpenImage2019第一梯队解决方案——目标检测与实例分割 [sensetime, cls+reg, OpenImage2019第一名]
在鸟瞰图车辆估计中实现时空聚合 ICRA 2021
通过可微最小二乘拟合实现端到端车道检测 ICCV workshop 2019
重新审视ResNet：改进的训练与缩放策略
多模态剪切粘贴用于3D目标检测
LD：用于目标检测的定位蒸馏
PolyTransform：用于实例分割的深度多边形Transformer CVPR 2020 [single stage instance segmentation]
ROAD：面向自动驾驶的ROAD事件感知数据集
LidarMTL：简单高效的多任务网络，用于3D目标检测和道路理解 [lidar MTL]
无需归一化的大规模高性能图像识别 ICLR 2021
面向自动驾驶的地面感知单目3D目标检测 RA-L [mono3D]
揭秘用于单目3D目标检测的伪激光雷达 [mono3d]
用于规模化3D目标检测的伪标签 [Waymo]
LLA：用于密集行人检测的损失感知标签分配 [Megvii]
VectorNet：从矢量化表示中编码高清地图与交通参与者动态 CVPR 2020 [Waymo]
CoverNet：利用轨迹集合进行多模态行为预测 CVPR 2020 [prediction, nuScenes]
SplitNet：分工与协同训练
VoVNet：一种节能且GPU计算效率高的实时目标检测骨干网络 CVPR 2019 workshop
等距神经网络：是数据不具区分性还是模型太弱？关于数据与模型分辨率的相对重要性 ICCV 2019 workshop [spatial2channel]
TResNet WACV 2021 [spatial2channel]
距离IoU损失：更快更好的边界框回归学习 AAAI 2020 [DIOU, NMS]
RegNet：设计网络设计空间 CVPR 2020 [FAIR]
关于视觉识别的网络设计空间 [FAIR]
高速公路传感器融合车辆定位中车道端点检测与位置精度评估 Sensors 2018 [lane endpoints]
基于地图匹配的级联地标检测与车辆定位 IEEE Access 2019 [lane endpoints]
GCNet：用于深度立体回归的端到端几何与上下文学习 ICCV 2017 [disparity estimation, Alex Kendall, cost volume]
自动驾驶车辆的交通管制手势识别 IROS 2020 [Daimler]
从野外单张图像中感知3D人机空间关系 ECCV 2020
OrcVIO：基于物体残差约束的视觉惯性里程计 [dynamic SLAM, very mathematical]
InfoFocus：具有动态信息建模的自动驾驶3D目标检测 ECCV 2020
DA4AD：面向自动驾驶的端到端深度注意力视觉定位 ECCV 2020
通过优化空间嵌入迈向轻量级车道检测 ECCV 2020 workshop [LLD]
多帧转单帧：用于3D目标检测的知识蒸馏 ECCV 2020 workshop [lidar]
DeepIM：用于6D位姿估计的深度迭代匹配 ECCV 2018 [pose estimation]
通过连续3D损失进行单目深度预测 IROS 2020
密集预测任务中的多任务学习：综述 [MTL, Luc Van Gool]
自动驾驶系统中多任务网络的动态任务权重方法 ITSC 2020 口头报告 [MTL]
NeurAll：迈向自动驾驶中统一的视觉感知模型 ITSC 2019 口头报告 [MTL]
深度证据回归 NeurIPS 2020 [one-pass aleatoric/epistemic uncertainty]
从单目视频中估计可行驶无碰撞空间 WACV 2015 [Drivable space]
用于单目深度估计的卷积神经网络可视化 ICCV 2019 [monodepth]
可微渲染：综述 [differentiable rendering, TRI]
SAFENet：具有语义感知特征提取的自监督单目深度估计 [monodepth, semantics, Naver labs]
迈向视频对象边界框的交互式自标注：基于循环自学习和层次化标注的框架 WACV 2020
迈向CNN基单目深度估计的良好实践 WACV 2020
自监督场景去遮挡 CVPR 2020 口头报告
TP-LSD：基于三点的线段检测器
数据蒸馏：迈向全监督学习 CVPR 2018 [Kaiming He, FAIR]
MiDas：迈向鲁棒单目深度估计——混合数据集以实现零样本跨数据集迁移 [monodepth, dynamic object, synthetic dataset]
语义驱动的单目深度与自我运动估计无监督学习 [monodepth]
通过优化空间嵌入迈向轻量级车道检测 ECCV 2020 workshop
车道检测的合成到真实域适应 [GM Israel, LLD]
PolyLaneNet：通过深度多项式回归进行车道估计 ICPR 2020 [polynomial, LLD]
为实时实例分割学习通用形状字典
使用Transformer实现端到端视频实例分割 [DETR, transformers]
Score-CAM：卷积神经网络的分数加权可视化解释 CVPR 2020 workshop
测试时增强何时以及为何有效
从单色图像中获取足迹与自由空间 CVPR 2020 口头报告 [Parking use, footprint]
在Flatmobiles之间行驶：从单目相机获取鸟瞰占用网格，用于整体轨迹规划 [BEV, only predict footprint]
重新思考目标检测中的分类与定位 CVPR 2020
通过序列特征关联与深度提示增强的单目3D目标检测 [mono3D]
简单的复制粘贴是实例分割的强大数据增强方法
ViP-DeepLab：通过深度感知视频全景分割学习视觉感知
MVSNet：用于非结构化多视图立体的深度推断 ECCV 2018
用于高分辨率多视图立体深度推断的递归MVSNet CVPR 2019 [Deep learning + MVS, Vidar, same author MVSNet]
用于城市数据集增强的人工假人 AAAI 2021
DETR用于行人检测 [transformer, pedestrian detection]
多模态剪切粘贴用于3D目标检测 [SenseTime]
从序列到序列的角度重新思考语义分割，并结合Transformer [transformer, semantic segmenatation]
TransPose：迈向可解释的人体姿态估计的Transformer [transformer, pose estimation]
跷跷板损失用于长尾实例分割
SWA目标检测 [Stochastic Weights Averaging (SWA)]
使用Pointformer进行3D目标检测
迈向基于Transformer的目标检测 [DETR-like]
通过轻量级3D点融合提升单目深度估计 [dense SfM]
多模态剪切粘贴用于3D目标检测
结合语义分割和兴趣特征点的全局视觉定位
超越注意力可视化的Transformer可解释性 [transformers]
在单个GPU上将语义分割扩展到1000类以上
DetectoRS：利用递归特征金字塔和可切换空洞卷积进行目标检测
目标检测中的经验上限及其他
自动驾驶鱼眼相机上的广义目标检测：数据集、表示与基线 [Fisheye, Senthil Yogamani]
通过序列特征关联与深度提示增强的单目3D目标检测 [mono3D]
SOSD-Net：从单目图像中联合语义对象分割与深度估计 [Jiwen Lu, monodepth]
用于统一单目深度预测与补全的稀疏辅助网络 [TRI]
Linformer：具有线性复杂度的自注意力机制
Set Transformer：一种基于注意力的排列不变神经网络框架 ICML 2019
PCT：点云Transformer Computational Visual Media 2021
DDT：通过深度描述符变换实现无监督对象发现与共定位 IJCAI 2017
面向城市无地图驾驶的分层道路拓扑学习 [Mercedes]
视频场景理解中的概率未来预测 ECCV 2020 [Alex Kendall]
为自动驾驶车辆检测32种行人属性 [VRU, MTL]
通过进化式训练数据进行级联深度单目3D人体姿态估计 CVPR 2020 口头报告
MonoGeo：通过投影建模学习几何引导的深度，用于单目3D目标检测 [mono3D]
Aug3D-RPN：利用带有虚拟深度的合成图像改善单目3D目标检测 [mono3D]
邻居投票：通过邻居距离投票改善单目3D目标检测 [mono3D]
用于关键点驱动单目3D目标检测的Lite-FPN [mono3D]
激光雷达点云引导的单目3D目标检测
用于密集预测的视觉Transformer [Vladlen Koltun, Intel]
高效Transformer：综述
视觉Transformer是否像卷积神经网络那样看待世界？
单目3D目标检测中的渐进式坐标变换 [mono3D]
AutoShape：实时形状感知单目3D目标检测 ICCV 2021 [mono3D]
BlazePose：设备端实时身体姿态跟踪

TODO

Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language [Andy Zeng]
Large Language Models as General Pattern Machines [Embodied AI]
RetinaGAN: An Object-aware Approach to Sim-to-Real Transfer
PlaNet: Learning Latent Dynamics for Planning from Pixels ICML 2019
Dreamer: Dream to Control: Learning Behaviors by Latent Imagination ICLR 2020 oral
DreamerV2: Mastering Atari with Discrete World Models ICLR 2021 [World models]
DreamerV3: Mastering Diverse Domains through World Models
DayDreamer: World Models for Physical Robot Learning CoRL 2022
JEPA: A Path Towards Autonomous Machine Intelligence
I-JEPA: Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture CVPR 2023
Runway Gen-1: Structure and Content-Guided Video Synthesis with Diffusion Models
IL Difficulty Model: Embedding Synthetic Off-Policy Experience for Autonomous Driving via Zero-Shot Curricula CoRL 2022 [Waymo]
Decision Transformer: Reinforcement Learning via Sequence Modeling NeurIPS 2021 [LLM for planning]
LID: Pre-Trained Language Models for Interactive Decision-Making NeurIPS 2022 [LLM for planning]
Planning with Large Language Models via Corrective Re-prompting NeurIPS 2022 Workshop
Object as Query: Equipping Any 2D Object Detector with 3D Detection Ability ICCV 2023 [TuSimple]
Speculative Sampling: Accelerating Large Language Model Decoding with Speculative Sampling [Accelerated LLM, DeepMind]
Inference with Reference: Lossless Acceleration of Large Language Models [Accelerated LLM, Microsoft]
EPSILON: An Efficient Planning System for Automated Vehicles in Highly Interactive Environments T-RO 2021
Efficient Uncertainty-aware Decision-making for Automated Driving Using Guided Branching ICRA 2020
StreamPETR: Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection
SSCNet: Semantic Scene Completion from a Single Depth Image CVPR 2017
SemanticKITTI: A Dataset for Semantic Scene Understanding of LiDAR Sequences ICCV 2019
PixPro: Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning [self-supervised]
Pixel-Wise Contrastive Distillation [self-supervised]
VICRegL: Self-Supervised Learning of Local Visual Features NeurIPS 2022
ImageBind: One Embedding Space To Bind Them All CVPR 2023
KEMP: Keyframe-Based Hierarchical End-to-End Deep Model for Long-Term Trajectory Prediction ICRA 2022 [Planning]
Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models L4DC [Planning]
GameFormer: Game-theoretic Modeling and Learning of Transformer-based Interactive Prediction and Planning for Autonomous Driving [Planning]
LookOut: Diverse Multi-Future Prediction and Planning for Self-Driving [Planning, Raquel]
DIPP: Differentiable Integrated Motion Prediction and Planning with Learnable Cost Function for Autonomous Driving [Planning]
Imitation Is Not Enough: Robustifying Imitation with Reinforcement Learning for Challenging Driving Scenarios [Planning, Waymo]
Hierarchical Model-Based Imitation Learning for Planning in Autonomous Driving IROS 2022 [Planning, Waymo]
Symphony: Learning Realistic and Diverse Agents for Autonomous Driving Simulation ICRA 2022 [Planning, Waymo]
JFP: Joint Future Prediction with Interactive Multi-Agent Modeling for Autonomous Driving [Planning, Waymo]
MaskFormer: Per-Pixel Classification is Not All You Need for Semantic Segmentation NeurIPS 2021
3D Semantic Scene Completion: a Survey IJCV 2022
DETIC: Detecting Twenty-thousand Classes using Image-level Supervision ECCV 2022
Atlas: End-to-End 3D Scene Reconstruction from Posed Images ECCV 2020
TransformerFusion: Monocular RGB Scene Reconstruction using Transformers NeurIPS 2021
SimpleOccupancy: A Simple Attempt for 3D Occupancy Estimation in Autonomous Driving [Occupancy Network]
OccDepth: A Depth-Aware Method for 3D Semantic Scene Completion [Occupancy Network, stereo]
Fast-BEV: Towards Real-time On-vehicle Bird's-Eye View Perception NeurIPS 2022
Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline
ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals CVPR 2023 [Qcraft, prediction]
Motion Transformer with Global Intention Localization and Local Movement Refinement NeurIPS 2022 Oral
P4P: Conflict-Aware Motion Prediction for Planning in Autonomous Driving
MultiPath++: Efficient Information Fusion and Trajectory Aggregation for Behavior Prediction
ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries
SAM: Segment Anything [FAIR]
GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-view 3D Understanding
Motion Prediction using Trajectory Sets and Self-Driving Domain Knowledge [Encode Road requirement to prediction]
Transformer Feed-Forward Layers Are Key-Value Memories EMNLP 2021
BEV-LaneDet: a Simple and Effective 3D Lane Detection Baseline CVPR 2023 [BEVNet]
Exploring Recurrent Long-term Temporal Fusion for Multi-view 3D Perception [BEVNet, megvii]
VAD: Vectorized Scene Representation for Efficient Autonomous Driving [Horizon]
A Simple Attempt for 3D Occupancy Estimation in Autonomous Driving
BEVPoolv2: A Cutting-edge Implementation of BEVDet Toward Deployment [BEVDet, PhiGent]
NVRadarNet: Real-Time Radar Obstacle and Free Space Detection for Autonomous Driving
GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping CVPR 2020 [Cewu Lu]
AnyGrasp: Robust and Efficient Grasp Perception in Spatial and Temporal Domains [Cewu Lu]
Point Cloud Forecasting as a Proxy for 4D Occupancy Forecasting
HDGT: Heterogeneous Driving Graph Transformer for Multi-Agent Trajectory Prediction via Scene Encoding
MTR: Motion Transformer with Global Intention Localization and Local Movement Refinement NeurIPS 2022
UVTR: Unifying Voxel-based Representation with Transformer for 3D Object Detection [BEVFusion, Megvii, BEVNet, camera + lidar]
Don't Use Large Mini-Batches, Use Local SGD ICLR 2020
Grokking: Generalization beyond Overfitting on small algorithmic datasets
Progress measures for grokking via mechanistic interpretability
Understanding deep learning requires rethinking generalization ICLR 2017
Unifying Grokking and Double Descent
Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models L4DC 2022
Interactive Prediction and Planning for Autonomous Driving: from Algorithms to Fundamental Aspects [PhD thesis of Wei Zhan, 2019]
Lyft1001: One Thousand and One Hours: Self-driving Motion Prediction Dataset [Lyft Level 5, prediction dataset]
PCAccumulation: Dynamic 3D Scene Analysis by Point Cloud Accumulation ECCV 2022
UniSim: A Neural Closed-Loop Sensor Simulator CVPR 2023 [simulation, Raquel]
GeoSim: Realistic Video Simulation via Geometry-Aware Composition for Self-Driving CVPR 2023
Accelerating Reinforcement Learning for Autonomous Driving using Task-Agnostic and Ego-Centric Motion Skills [Driving Skill]
Efficient Reinforcement Learning for Autonomous Driving with Parameterized Skills and Priors RSS 2023 [Driving Skill]
IL Difficulty Model: Embedding Synthetic Off-Policy Experience for Autonomous Driving via Zero-Shot Curricula CoRL 2022 [Waymo]
Neural Map Prior for Autonomous Driving CVPR 2023
Track Anything: Segment Anything Meets Videos
Self-Supervised Camera Self-Calibration from Video ICRA 2022 [TRI, calibration]
Real-time Online Video Detection with Temporal Smoothing Transformers ECCV 2022 [ConvLSTM-style cross-attention]
NeRF-Supervised Deep Stereo CVPR 2023
GET3D: A Generative Model of High Quality 3D Textured Shapes Learned from Images NeurIOS 2022
OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation CVPR 2023
Ego-Body Pose Estimation via Ego-Head Pose Estimation CVPR 2023
PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
Visual Instruction Tuning
VideoChat: Chat-Centric Video Understanding
CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers CoRL 2022
BEVFormer v2: Adapting Modern Image Backbones to Bird's-Eye-View Recognition via Perspective Supervision [BEVNet, Jifeng Dai]
Fast-BEV: Towards Real-time On-vehicle Bird’s-Eye View Perception NeurIPS 2022
Traj++: Human Trajectory Forecasting in Crowds: A Deep Learning Perspective TITS 2021
Data Driven Prediction Architecture for Autonomous Driving and its Application on Apollo Platform IV 2020 [Baidu]
THOMAS: Trajectory Heatmap Output with learned Multi-Agent Sampling ICLR 2022
Learning Lane Graph Representations for Motion Forecasting ECCV 2020 oral
Identifying Driver Interactions via Conditional Behavior Prediction ICRA 2021 [Waymo]
Trajectron++: Dynamically-Feasible Trajectory Forecasting With Heterogeneous Data ECCV 2020
TPNet: Trajectory Proposal Network for Motion Prediction CVPR 2020
GOHOME: Graph-Oriented Heatmap Output for future Motion Estimation
PECNet: It Is Not the Journey but the Destination: Endpoint Conditioned Trajectory Prediction ECCV 2020 oral
From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting ICCV 2019
PRECOG: PREdiction Conditioned On Goals in Visual Multi-Agent Settings ICCV 2019
PiP: Planning-informed Trajectory Prediction for Autonomous Driving ECCV 2020
MultiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction CoRL 2019
LaPred: Lane-Aware Prediction of Multi-Modal Future Trajectories of Dynamic Agents CVPR 2021
PRIME: Learning to Predict Vehicle Trajectories with Model-based Planning CoRL 2021
A Flexible and Explainable Vehicle Motion Prediction and Inference Framework Combining Semi-Supervised AOG and ST-LSTM TITS 2020
Multi-Modal Trajectory Prediction of Surrounding Vehicles with Maneuver based LSTMs IV 2018 [Trivedi]
HYPER: Learned Hybrid Trajectory Prediction via Factored Inference and Adaptive Sampling ICRA 2022
Trajectory Prediction with Linguistic Representations ICRA 2022
What-If Motion Prediction for Autonomous Driving
End-to-end Contextual Perception and Prediction with Interaction Transformer IROS 2020 [Auxiliary collision loss, scene compliant pred]
SafeCritic: Collision-Aware Trajectory Prediction BMVC 2019 [IRL, scene compliant pred]
Large Scale Interactive Motion Forecasting for Autonomous Driving: The Waymo Open Motion Dataset ICCV 2021 [Waymo]
Interaction-Based Trajectory Prediction Over a Hybrid Traffic Graph IROS 2020
Joint Interaction and Trajectory Prediction for Autonomous Driving using Graph Neural Networks NeurIPS 2019 workshop
Fast Risk Assessment for Autonomous Vehicles Using Learned Models of Agent Futures Robotics: science and systems 2020
Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR 2021 [PJLab]
UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird's-Eye-View [BEVFormer, BEVNet, Temporal]
GitNet: geometric prior-baesd transformation for birds yee view segmentation
WBF: weighted box fusion: ensembling boxes from differnt object detection modules
NNI: auto parameter finding algorithm
BEVFormer++: Improving BEVFormer for 3D Camera-only Object Detection [Waymo open dataset challenge 1st place in mono3d]
LET-3D-AP: Longitudinal Error Tolerant 3D Average Precision for Camera-Only 3D Detection [Waymo open dataset challenge official metric]
High-Level Interpretation of Urban Road Maps Fusing Deep Learning-Based Pixelwise Scene Segmentation and Digital Navigation Maps Journal of Advanced Transportation 2018
A Hybrid Vision-Map Method for Urban Road Detection Journal of Advanced Transportation 2017
Terminology and Analysis of Map Deviations in Urban Domains: Towards Dependability for HD Maps in Automated Vehicles IV 2020
TIME WILL TELL: NEW OUTLOOKS AND A BASELINE FOR TEMPORAL MULTI-VIEW 3D OBJECT DETECTION
Conditional DETR for Fast Training Convergence ICCV 2021
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR ICLR 2022
DN-DETR: Accelerate DETR Training by Introducing Query DeNoising CVPR 2022
DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection
Trajectory Forecasting from Detection with Uncertainty-Aware Motion Encoding [Ouyang Wanli]
Vision-based Uneven BEV Representation Learning with Polar Rasterization and Surface Estimation [BEVNet, polar]
MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries [BEVNet, tracking] CVPR 2022 workshop [Hang Zhao]
ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal Feature Learning ECCV 2022 [Hongyang Li]
GKT: Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer [BEVNet, Horizon]
SiamRPN: High Performance Visual Tracking with Siamese Region Proposal Network CVPR 2018
TPLR: Topology Preserving Local Road Network Estimation from Single Onboard Camera Image CVPR 2022 [STSU, Luc Van Gool]
LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic Segmentation [Valeo, BEVNet, polar]
PolarDETR: Polar Parametrization for Vision-based Surround-View 3D Detection [BEVNet]
Exploring Geometric Consistency for Monocular 3D Object Detection CVPR 2022
ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection WACV 2022 [mono3D]
Learning to Predict 3D Lane Shape and Camera Pose from a Single Image via Geometry Constraints AAAI 2022
Detecting Lane and Road Markings at A Distance with Perspective Transformer Layers ICICN 2021 [BEVNet, lane line]
Unsupervised Labeled Lane Markers Using Maps ICCV 2019 workshop [Bosch, 2D lane line]
M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers [Lidar detection, Waymo open dataset] WACV 2022
K-Lane: Lidar Lane Dataset and Benchmark for Urban Roads and Highways [lane line dataset]
Robust Monocular 3D Lane Detection With Dual Attention ICIP 2021
OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction CVPR 2022
MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer ICLR 2022 [lightweight Transformers]
XFormer: Lightweight Vision Transformer with Cross Feature Attention [Samsung]
CenterFormer: Center-based Transformer for 3D Object Detection ECCV 2022 oral [TuSimple]
LidarMultiNet: Towards a Unified Multi-task Network for LiDAR Perception [2022 Waymo Open Dataset, TuSimple]
MTRA: 1st Place Solution for 2022 Waymo Open Dataset Challenge - Motion Prediction [Waymo open dataset challenge 1st place in motion prediction]
BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs [BEVNet]
Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers CVPR 2022 [nVidia]
Efficiently Identifying Task Groupings for Multi-Task Learning NeurIPS 2021 spotlight [MTL]
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time [Google, Golden Backbone]
"The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better Instantaneous Mapping CVPR 2022
GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation [BEVNet, Baidu]
FUTR3D: A Unified Sensor Fusion Framework for 3D Detection [Hang Zhao]
GitNet: Geometric Prior-based Transformation for Birds-Eye-View Segmentation [BEVNet]
MonoFormer: Towards Generalization of self-supervised monocular depth estimation with Transformers [monodepth]
Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving
cosFormer: Rethinking Softmax in Attention ICLR 2022
StretchBEV: Stretching Future Instance Prediction Spatially and Temporally [BEVNet, prediction]
Scene Representation in Bird’s-Eye View from Surrounding Cameras with Transformers [BEVNet, LLD] CVPR 2022 workshop
Multi-Frame Self-Supervised Depth with Transformers CVPR 2022
It's About Time: Analog Clock Reading in the Wild CVPR 2022 [Andrew Zisserman]
SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation CoRL 2022 [Jiwen Lu]
ONCE-3DLanes: Building Monocular 3D Lane Detection CVPR 2022
K-Lane: Lidar Lane Dataset and Benchmark for Urban Roads and Highways CVPR 2022 workshop [3D LLD]
Multi-modal 3D Human Pose Estimation with 2D Weak Supervision in Autonomous Driving CVPR 2022 workshop
A Simple Baseline for BEV Perception Without LiDAR [TRI, BEVNet, vision+radar]
Reconstruct from Top View: A 3D Lane Detection Approach based on Geometry Structure Prior CVPR 2022 workshop
RIDDLE: Lidar Data Compression with Range Image Deep Delta Encoding CVPR 2022 [Waymo, Charles Qi]
Occupancy Flow Fields for Motion Forecasting in Autonomous Driving RAL 2022 [Waymo occupancy flow challenge]
Safe Local Motion Planning with Self-Supervised Freespace Forecasting CVPR 2021
数据闭环的核心 - Auto-labeling 方案分享
K-Lane: Lidar Lane Dataset and Benchmark for Urban Roads and Highways
LETR: Line Segment Detection Using Transformers without Edges CVPR 2021 oral
HDMapGen: A Hierarchical Graph Generative Model of High Definition Maps CVPR 2021 [HD mapping]
SketchRNN: A Neural Representation of Sketch Drawings [David Ha]
PolyGen: An Autoregressive Generative Model of 3D Meshes ICML 2020
SOLQ: Segmenting Objects by Learning Queries NeurlPS 2021 [Megvii, end-to-end, instance segmentation]
MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer 3DV 2022
MVSTER: Epipolar Transformer for Efficient Multi-View Stereo ECCV 2022
MOVEDepth: Crafting Monocular Cues and Velocity Guidance for Self-Supervised Multi-Frame Depth Learning [MVS + monodepth]
SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation
Scene Transformer: A unified architecture for predicting multiple agent trajectories [prediction, Waymo] ICLR 2022
SSIA: Monocular Depth Estimation with Self-supervised Instance Adaptation [VGG team, TTR, test time refinement, CVD]
CoMoDA: Continuous Monocular Depth Adaptation Using Past Experiences WACV 2021
MonoRec: Semi-supervised dense reconstruction in dynamic environments from a single moving camera CVPR 2021 [Daniel Cremmers]
Plenoxels: Radiance Fields without Neural Networks
Lidar with Velocity: Motion Distortion Correction of Point Clouds from Oscillating Scanning Lidars [Livox, ISEE]
NWD: A Normalized Gaussian Wasserstein Distance for Tiny Object Detection
Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation NeurIPS 2021 [Sanja Fidler]
Insta-DM: Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency AAAI 2021
Instance-wise Depth and Motion Learning from Monocular Videos NeurIPS 2020 workshop [website]
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis ECCV 2020 oral
BARF: Bundle-Adjusting Neural Radiance Fields ICCV 2021 oral
NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-view Stereo ICCV 2021 oral
YOLinO: Generic Single Shot Polyline Detection in Real Time ICCV 2021 workshop [lld]
MonoRCNN: Geometry-based Distance Decomposition for Monocular 3D Object Detection ICCV 2021
MonoCInIS: Camera Independent Monocular 3D Object Detection using Instance Segmentation ICCV 2021 workshop
PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection CVPR 2020 [Waymo challenge 2nd place]
Geometry-based Distance Decomposition for Monocular 3D Object Detection ICCV 2021 [mono3D]
Offboard 3D Object Detection from Point Cloud Sequences CVPR 2021 [Charles Qi]
FreeAnchor: Learning to Match Anchors for Visual Object Detection NeurIPS 2019
AutoAssign: Differentiable Label Assignment for Dense Object Detection
Probabilistic Anchor Assignment with IoU Prediction for Object Detection ECCV 2020
FOVEA: Foveated Image Magnification for Autonomous Navigation ICCV 2021 [Argo]
PifPaf: Composite Fields for Human Pose Estimation CVPR 2019
Monocular 3D Localization of Vehicles in Road Scenes ICCV 2021 workshop [mono3D, tracking]
TransformerFusion: Monocular RGB Scene Reconstruction using Transformers
Conditional DETR for Fast Training Convergence
Anchor DETR: Query Design for Transformer-Based Detector [megvii]
PGD: Probabilistic and Geometric Depth: Detecting Objects in Perspective CoRL 2021
Adaptive Wing Loss for Robust Face Alignment via Heatmap Regression
What Makes for End-to-End Object Detection? PMLR 2021
Instances as Queries ICCV 2021 [instance segmentation]
One Million Scenes for Autonomous Driving: ONCE Dataset [Huawei]
NVS-MonoDepth: Improving Monocular Depth Prediction with Novel View Synthesis 3DV 2021
Is 2D Heatmap Representation Even Necessary for Human Pose Estimation?
Topology Preserving Local Road Network Estimation from Single Onboard Camera Image [BEVNet, Luc Van Gool]
Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine [Small LLM prompting, Microsoft]
CoT: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models NeurIPS 2022
ToT: Tree of Thoughts: Deliberate Problem Solving with Large Language Models [Notes] NeurIPS 2023 Oral
Cumulative Reasoning with Large Language Models
A Survey of Techniques for Maximizing LLM Performance [OpenAI]
Drive AGI
Harnessing the Power of Multi-Modal LLMs for Autonomy [Ghost Autonomy]
Language to Rewards for Robotic Skill Synthesis
ALOHA: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent [UM]
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [Sergey Levine]
A Survey of Embodied AI: From Simulators to Research Tasks IEEE TETCI 2021
Habitat Challenge 2021
Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions
DoReMi: Grounding Language Model by Detecting and Recovering from Plan-Execution Misalignment [Jianyu Chen]
The Power of Scale for Parameter-Efficient Prompt Tuning EMNLP 2021
Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents ICML 2022
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models ICRA 2023
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation CoRL 2022
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale NeurIPS 2022 [LLM Quant]
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [Song Han, LLM Quant]
RoFormer: Enhanced Transformer with Rotary Position Embedding
CoDi: Any-to-Any Generation via Composable Diffusion NeurIPS 2023
What if a Vacuum Robot has an Arm? UR 2023
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
GPT in 60 Lines of NumPy
Speeding up the GPT - KV cache
LLM Parameter Counting
Transformer Inference Arithmetic
ALBEF: Align before Fuse: Vision and Language Representation Learning with Momentum Distillation NeurIPS 2021 [Junnan Li]
CLIP: Learning Transferable Visual Models From Natural Language Supervision ICLR 2021 [OpenAI]
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation ICML 2022 [Junnan Li]
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models [Junnan Li]
MOO: Open-World Object Manipulation using Pre-trained Vision-Language Models [Google Robotics, end-to-end visuomotor]
VC-1: Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?
CLIPort: What and Where Pathways for Robotic Manipulation CoRL 2021 [Nvidia, end-to-end visuomotor]
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers ICLR 2023
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models ICML 2023 [Song Han, LLM Quant]
SAPIEN: A SimulAted Part-based Interactive ENvironment CVPR 2020
FiLM: Visual Reasoning with a General Conditioning Layer AAAI 2018
TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? NeurIPS 2021
QLoRA: Efficient Finetuning of Quantized LLMs
OVO: Open-Vocabulary Occupancy
Code Llama: Open Foundation Models for Code
Chinchilla: Training Compute-Optimal Large Language Models [DeepMind]
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
RoFormer: Enhanced Transformer with Rotary Position Embedding
RH20T: A Robotic Dataset for Learning Diverse Skills in One-Shot
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation
VIMA: General Robot Manipulation with Multimodal Prompts
An Attention Free Transformer [Apple]
PDDL Planning with Pretrained Large Language Models [MIT, Leslie Kaelbling]
Task and Motion Planning with Large Language Models for Object Rearrangement IROS 2023

Learning-Deep-Learning 快速上手指南

项目简介： Learning-Deep-Learning 并非一个需要编译运行的软件库，而是一个由 NVIDIA 自动驾驶 AI 总监 Patrick Liu 维护的深度学习与机器学习论文笔记合集。该项目专注于计算机视觉、自动驾驶（如 BEV 感知、占据网络、端到端驾驶）以及最新的大模型扩散技术。它适合希望系统阅读前沿论文的中国开发者作为学习路线图和参考资料。

由于本项目本质是文档仓库，无需复杂的安装过程，只需克隆代码库并在本地或浏览器中查看即可。

1. 环境准备

本项目无特殊系统要求，仅需基础的 Git 环境和文本编辑器/浏览器。

操作系统：Windows / macOS / Linux
前置依赖：
- git：用于克隆仓库
- 现代浏览器（Chrome, Edge, Firefox 等）：用于阅读 Markdown 渲染后的内容
- （可选）Markdown 编辑器（如 VS Code + Markdown Preview Enhanced）：用于本地获得更好的阅读体验

2. 安装步骤

通过 Git 将仓库克隆到本地。国内用户推荐使用 Gitee 镜像（如有）或使用加速代理，若直接连接 GitHub 较慢，可配置终端代理。

# 克隆仓库
git clone https://github.com/patrick-llgc/Learning-Deep-Learning.git

# 进入目录
cd Learning-Deep-Learning

提示：如果 GitHub 连接缓慢，可在命令前添加代理设置，例如： export https_proxy=http://127.0.0.1:7890 http_proxy=http://127.0.0.1:7890 (根据实际代理端口调整)

3. 基本使用

方式一：在线浏览（推荐）

作者已生成静态网页，无需下载即可直接阅读整理好的笔记和论文列表。

主页地址：https://patrick-llgc.github.io/Learning-Deep-Learning/
博客专栏：The Thinking Car (Medium) (部分深度综述文章)

方式二：本地阅读

在本地文件系统中直接打开 .md 文件，或使用 VS Code 预览。

入门路线：如果你是计算机视觉新手，建议首先阅读 start 目录下的入门论文列表及笔记：
- 论文列表：start/first_cnn_papers.md
- 对应笔记：start/first_cnn_papers_notes.md
按主题查阅：进入 topics/ 目录查看特定领域的笔记（如 BEV 感知、占据网络、3D 车道线检测等），或查看 paper_notes/ 目录获取最新论文（如 2025 年的扩散模型、VLA 模型等）的详细解读。
```
# 示例：在终端快速查看某个主题的笔记内容
cat topics/topic_occupancy_network.md
```
追踪最新动态：查看根目录或按月分类的文件夹（如 2025-01, 2025-09），获取关于 Diffusion LLM、端到端自动驾驶（End-to-End Driving）等最新论文的简要笔记和链接。

核心资源索引

可信论文源列表：trusty.md
AI 播客笔记：podcast/ (包含 OpenAI 等专家访谈笔记)
技术速查表 (Scratchpad)：gist/ (包含计算硬件、Attention Mask 等快速笔记)

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 Learning-Deep-Learning 时

使用 Learning-Deep-Learning 后

运行环境要求

快速开始

论文笔记

关于我

应该读什么

我的主题评论文章

AI 播客笔记

主题速记本

2025-02 (1)

2025-01 (10)

2025-12 (0)

2025-09 (2)

2025-06 (1)

2025-04

2024-12 (0)

2024-11 (1)

2024-06 (8)

2024-03 (11)

2024-02 (7)

2023-12 (4)

2023-09 (3)

2023-08 (3)

2023-07 (6)

2023-06 (5)

2023-05 (7)

2023-04 (1)

2023-03 (5)

2023-02 (4)

2023-01 (2)

2022-11 (1)

2022-10 (1)

2022-09 (3)

2022-08 (1)

2022-07 (8)

2022-06 (3)

2022-03 (1)

2022-02 (1)

2022-01 (1)

2021年12月 (5)

2021年11月 (4)

2021年10月 (3)

2021年9月 (11)

2021年8月 (11)

2021年7月 (1)

2021年6月 (2)

2021年4月 (5)

2021年3月 (4)

2021年1月 (7)

2020-12 (17)

2020-11 (18)

2020-10 (14)

2020-09 (15)

2020-08 (26)

2020-07 (25)

2020-06 (20)

2020-05 (19)

2020-04 (14)

2020-03 (15)

2020-02 (12)

2020-01 (19)

2019年12月 (12篇)

2019年11月 (20篇)

2019-10 (18)

2019-09 (17)

2019-08 (18)

2019-07 (19)

2019-06 (12)

2019年5月 (18篇)

2019年4月 (12篇)

2019-03 (19)

2019-02 (9)

2019-01 (10)

2018年

2017年及之前

待读论文

深度学习一般

自我训练