World-Models-Autonomous-Driving-Survey

512 23 困难 1 次阅读今天开发框架Agent

AI 解读由 AI 自动生成，仅供参考

World-Models-Autonomous-Driving-Survey 是一份由纽约大学学习系统实验室维护的精选清单，专门收录面向自动驾驶领域的“世界模型”前沿研究与开源项目。它致力于解决自动驾驶系统中环境理解、长时程预测及多模态场景生成等核心难题，通过整理最新的学术论文与代码资源，帮助从业者快速掌握该领域的技术脉络。

这份清单特别适合自动驾驶算法工程师、人工智能研究人员以及相关领域的学生使用。无论是希望复现最新成果的开发人员，还是寻找灵感的学术探索者，都能从中高效获取经过筛选的高质量资料。其独特亮点在于不仅涵盖了基于视觉、激光雷达（LiDAR）及多模态融合的多种世界模型架构，还及时更新了包括 JEPA（联合嵌入预测架构）在内的自监督学习新范式。此外，清单动态追踪了 NeurIPS、ICCV、CVPR 等顶级会议的最新录用论文，如 DINO-Foresight、DriveGPT 等项目，并附带论文链接与代码仓库地址，极大地降低了技术调研的门槛，是进入自动驾驶世界模型研究领域的理想入口。

使用场景

某自动驾驶初创公司的算法团队正致力于研发基于世界模型（World Models）的端到端预测系统，以应对复杂城市路况下的长时程决策挑战。

没有 World-Models-Autonomous-Driving-Survey 时

文献检索如大海捞针：研究人员需在 arXiv、Google Scholar 等多个平台手动筛选关键词，极易遗漏如 AD-L-JEPA 或 DINO-Foresight 等最新预印本和顶会论文。
技术路线评估困难：面对生成式 AI、多模态融合或强化学习等不同技术流派，缺乏统一的分类索引，难以快速判断哪种架构（如 JEPA 或 VLM）最适合当前的激光雷达数据场景。
复现成本高昂：许多论文未明确标注代码开源状态，团队常花费数周时间寻找可运行代码，甚至因找不到官方实现而被迫放弃某些前沿思路。
错失社区动态：无法及时追踪 Yann LeCun、Danijar Hafner 等领军人物的最新动向，导致技术选型滞后于行业顶尖水平。

使用 World-Models-Autonomous-Driving-Survey 后

一站式获取前沿成果：团队直接通过该清单锁定了 NeurIPS 2025 和 CVPR 2025 的最新论文，迅速将 AD-L-JEPA 纳入自监督表示学习的候选方案。
精准匹配技术需求：利用清单中详细的标签（如 End-to-End AD、LiDAR Data、Long-Horizon Prediction），快速对比 Orbis 与 Genesis 等模型特性，确定了针对长时程预测的最优解。
加速原型验证：借助清单提供的直达链接，直接获取 World4Drive 和 FUTURIST 的官方代码库，将算法复现周期从数周缩短至几天。
紧跟权威风向标：通过关注清单推荐的顶尖学者及其最新工作，确保团队的技术路线图始终与全球最前沿的研究保持同步。

World-Models-Autonomous-Driving-Survey 将分散的学术资源转化为结构化的决策引擎，极大提升了自动驾驶研发团队在前沿技术探索中的效率与准确性。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个自动驾驶世界模型（World Models）的论文和代码资源列表（Survey），本身不是一个可独立运行的单一软件工具。列表中包含了数十个不同的研究项目（如 AD-L-JEPA, Vista, DriveDreamer 等），每个项目都有各自独立的运行环境需求和依赖库。用户需点击列表中具体项目的代码链接（Code），前往其对应的独立仓库查看具体的安装和环境配置说明。

python未说明

World-Models-Autonomous-Driving-Survey hero image

快速开始

世界模型-自动驾驶-最新综述

一份精选的自动驾驶领域世界模型列表。持续更新中。

公告

除了我们下面列出的优秀论文外，我们非常高兴地宣布，我们所在的纽约大学学习系统实验室最近发布了一篇预印本，题目为：AD-L-JEPA：基于联合嵌入预测架构的自监督空间世界模型，用于激光雷达数据驱动的自动驾驶，这是首个基于联合嵌入预测架构（JEPA）的空间世界模型，用于自动驾驶的自监督表征学习。源代码可在AD-L-JEPA-Release获取。如果您受到这篇论文的启发，可以考虑通过以下方式引用：

@article{zhu2025ad,
  title={AD-L-JEPA: Self-Supervised Spatial World Models with Joint Embedding Predictive Architecture for Autonomous Driving with LiDAR Data},
  author={Zhu, Haoran and Dong, Zhenyuan and Topollai, Kristi and Choromanska, Anna},
  journal={arXiv preprint arXiv:2501.04969},
  year={2025}
}

领军人物

Yann Lecun, Danijar Hafner, Chuang Gang, Yilun Du, Nicklas Hansen

论文

2025年

NeurIPS 2025

DINO-Foresight：借助DINO展望未来 NeurIPS 2025; VFM; 论文, 代码
FutureSightDrive：利用时空思维链进行视觉化思考，用于自动驾驶 NeurIPS 2025; VLM; 论文, 代码
Raw2Drive：基于对齐世界模型的强化学习，用于端到端自动驾驶（在CARLA v2中） NeurIPS 2025; 端到端自动驾驶; 强化学习; 论文
向高效潜在流匹配的基石级激光雷达世界模型迈进 NeurIPS 2025; 生成式AI; 迁移学习; 论文, 网站
Orbis：克服驾驶世界模型中长时程预测的挑战 NeurIPS 2025; 生成式AI; 论文, 网站
Genesis：具有时空及跨模态一致性的多模态驾驶场景生成 NeurIPS 2025; 生成式AI; 多模态; 论文, 网站, 代码即将发布

ICCV 2025

World4Drive：通过意图感知的物理潜在世界模型实现端到端自动驾驶 ICCV 2025; 论文, 代码

ICML 2025

DriveGPT：扩展自动驾驶中的自回归行为模型 ICML 2025; 论文演示

CVPR 2025

GEM：一种可泛化的自我视角多模态世界模型，用于精细控制自我运动、物体动力学和场景构成 CVPR 2025; 生成式AI; 论文, 代码即将发布
FUTURIST：通过多模态视觉序列Transformer推进语义未来预测 CVPR 2025 [论文] [代码]
DIO：可分解的隐式四维占用-流世界模型 CVPR 2025 论文

ICLR 2025

LAW：利用潜在世界模型提升端到端自动驾驶性能 ICLR 2025; 端到端自动驾驶; 论文, 代码
PreWorld：半监督的以视觉为中心的三维占用世界模型，用于自动驾驶 ICLR 2025; 占用预测; 路径规划; 论文, 代码
AdaWM：基于自适应世界模型的自动驾驶规划 ICLR 2025; 强化学习; 规划; 论文
SSR：面向端到端自动驾驶的导航引导型稀疏场景表示 ICLR 2025; 端到端自动驾驶; 论文, 代码
OccProphet：借助观察者-预测者-精炼者框架，推动仅使用摄像头的四维占用预测效率前沿 ICLR 2025; 占用预测; 论文, 代码即将发布

AAAI 2025

DriveDreamer-2：LLM增强的世界模型，用于多样化驾驶视频生成 AAAI 2025; 生成式AI; LLM; 论文, 网站, 代码
Drive-OccWorld：在占用世界中驾驶：基于世界模型的以视觉为中心的四维占用预测与规划，用于自动驾驶 AAAI 2025; 占用预测; 规划; 论文, 网站, 代码

RSS 2025

LOPR：用于自动驾驶的自监督多未来占用预测论文 RSS 2025;

其他

回到特性：DINO作为视频世界模型的基础论文
IntPhys 2：在复杂合成环境中基准测试直观物理理解论文，代码
Genie Envisioner：用于机器人操作的统一世界基础平台论文，网站
Genie 3：世界模型的新前沿网站
DriVerse：通过多模态轨迹提示和运动对齐实现驾驶模拟的导航世界模型 arxiv四月；生成式AI；论文，代码
从世界模型中学习驾驶 arxiv四月；论文
WoTE：基于BEV世界模型的在线轨迹评估端到端驾驶 arxiv四月；论文，代码
AETHER：几何感知的统一世界建模 arxiv三月；论文，网站
GAIA-2：面向自动驾驶的可控多视角生成式世界模型 生成式AI；论文
还需要其他车辆的轨迹：一种驾驶世界模型将本车与其他车辆的轨迹统一到视频潜在空间中 arxiv三月；生成式AI；论文
$T^3$Former：作为占用世界模型的时序三平面Transformer arxiv三月；占用预测；论文
InDRiVE：基于内在分歧的强化学习，通过好奇心驱动的广义世界模型进行车辆探索 arxiv三月；RL；论文
PIWM：用预测性个体世界模型实现“梦想成真”的驾驶 TIV 2025；RL；论文，代码
MaskGWM：具有视频掩码重建功能的可泛化驾驶世界模型 arxiv；生成式AI；论文代码
梦想到驾驶：使用解析型世界模型进行基于模型的车辆控制 arxiv；规划；论文
HERMES：用于同时进行3D场景理解和生成的统一自动驾驶世界模型 arxiv；生成式AI；LLM；论文，代码待发布
AD-L-JEPA：结合联合嵌入预测架构的自监督空间世界模型，适用于基于LiDAR数据的自动驾驶。arxiv；预训练；自监督表征学习；论文，代码
Cosmos世界基础模型平台，用于物理AI arxiv；基础模型；论文，代码

2024

NeurIPS 2024

DrivingDojo 数据集：推动交互式与知识增强的驾驶世界模型 NeurIPS 2024; 数据集; 论文, 官网, 代码
Vista：具有高保真度和多功能可控性的可泛化驾驶世界模型 NeurIPS 2024; 来自上海人工智能实验室; 生成式AI; 论文, 官网, 代码

ECCV 2024

DriveDreamer：迈向由真实世界驱动的自动驾驶世界模型 ECCV 2024; 生成式AI; 论文, 官网, 代码
基于生成式世界模型的自动驾驶中竞争行为建模 ECCV 2024; 强化学习; 轨迹仿真; 论文, 代码待发布
NeMo：用于自动驾驶的神经体积世界模型 ECCV 2024; 端到端自动驾驶; 运动规划; 论文
OccWorld：学习用于自动驾驶的3D占用世界模型 ECCV 2024; 占用预测; 运动规划; 论文, 代码
Think2Drive：通过潜在世界模型思考实现高效的自动驾驶强化学习（在CARLA-v2中） ECCV 2024; 强化学习; 论文, 官网
FipTR：一种简单而有效的Transformer框架，用于自动驾驶中的未来实例预测 ECCV 2024; 未来实例预测; 论文, 代码
DrivingDiffusion：基于潜扩散模型的布局引导多视角驾驶场景视频生成 ECCV 2024; 生成式AI 论文, 代码

CVPR 2024

Drive-WM：驶向未来：基于世界模型的多视角视觉预测与规划用于自动驾驶 CVPR 2024; 生成式AI; 规划; 论文, 官网, 代码
DriveWorld：通过世界模型进行的自动驾驶4D预训练场景理解 CVPR 2024; 预训练; 论文
Cam4DOcc：自动驾驶应用中仅使用摄像头的4D占用预测基准测试 CVPR 2024; 占用预测; 论文, 代码
GenAD：自动驾驶的通用预测模型 CVPR 2024; 来自上海人工智能实验室 生成式AI; 论文, 代码
ViDAR：视觉点云预测助力规模化自动驾驶 CVPR 2024; 预训练; 来自上海人工智能实验室; NuScenes数据集 论文, 代码
UnO：用于感知和预测的无监督占用场 CVPR 2024; 占用预测; 预训练; 论文

ICLR 2024

Copilot4D：通过离散扩散学习自动驾驶的无监督世界模型 ICLR 2024; 未来点云预测; 来自Waabi; 论文

ICRA 2024

利用潜在空间生成式世界模型缓解自动驾驶模仿学习中的协变量偏移 ICRA 2024; 规划 论文

其他

InfinityDrive：突破驾驶世界模型的时间限制 arxiv 2024; 生成式AI; 论文, 官网
DriveDreamer4D：世界模型是4D驾驶场景表示的有效数据机器 arxiv 2024; 生成式AI; 4D仿真; 论文, 官网, 代码
ReconDreamer：通过在线修复构建驾驶场景重建的世界模型 arxiv 2024; 生成式AI; 4D仿真; 论文, 官网, 代码
2024-DrivingWorld：通过Video GPT构建自动驾驶世界模型。论文项目页面代码
2024-DOME：驯服扩散模型成为高保真可控的占用世界模型。论文项目页面
2024-OccLLaMA：一种用于自动驾驶的占用-语言-动作生成式世界模型论文
2024-BEVWorld：通过统一BEV潜在空间构建的自动驾驶多模态世界模型 arxiv 论文
2024-利用适应性世界模型进行自动驾驶规划 arxiv; 规划; 论文
2024-OccSora：作为自动驾驶世界模拟器的4D占用生成模型论文, 代码

2023年之前

2023-ADriver-I：用于自动驾驶的通用世界模型 arxiv; 生成式AI; NuScenes及一个私有数据集 论文
2023-GAIA-1：用于自动驾驶的生成式世界模型 arxiv; 生成式AI; Wayve的私有数据 论文
2023-计算机视觉中的神经世界模型 '博士论文'; 来自Wayve 论文
2022-为自动驾驶分离世界模型与自我模型 ICLR 2022物理世界中可泛化策略学习研讨会; 来自Yann LeCun团队 论文, 代码
2022-SEM2：通过语义掩码世界模型提升端到端城市自动驾驶的样本效率和鲁棒性 NeurIPS 2022深度强化学习研讨会; RL; CARLA数据集 论文
2022-MILE：面向城市驾驶的基于模型的模仿学习 NeurIPS 2022; RL; 来自Wayve 论文, 代码
2022-Iso-Dream：在世界模型中隔离并利用不可控的视觉动态 NeurIPS 2022 论文, 代码
2021-FIERY：从环视单目摄像头预测鸟瞰视角下的未来实例 ICCV 2019; 未来预测; 来自Wayve; NuScenes、Lyft数据集 论文, 代码
2021-从“轨道上的世界”中学习驾驶 CVPR 2021口头报告; RL 论文, 项目页面, 代码
2019-带有不确定性正则化的模型预测策略学习，用于密集交通中的驾驶 ICLR 2019; 未来预测; 来自Yann LeCun团队 论文, 代码

研讨会/挑战赛

2024-1X世界模型挑战赛 挑战赛 链接
2024-CVPR研讨会，自动驾驶系统的基础模型，挑战赛，赛道4：预测型世界模型 挑战赛 链接

教程/演讲

2023 来自Wayve; 视频
2022-自动驾驶中的神经世界模型视频

包含自动驾驶用世界模型的综述

2025-自动驾驶用世界模型综述 arxiv 论文
2024-自动驾驶用世界模型：初步综述 arxiv 论文
2024-自动驾驶中的数据驱动演进：大数据系统、数据挖掘和闭环技术的全面综述 arxiv 论文
2024-为自动驾驶打造视觉基础模型：挑战、方法论与机遇 arxiv 论文

其他通用世界模型论文

2025-Dreamer 4：在可扩展的世界模型中训练智能体 arxiv 论文
2025-TAWM：用于自适应预测与控制的时间感知世界模型 ICML 2025 论文, 代码
2025-基础模型发现了什么？利用归纳偏置探测世界模型 ICML 2025 论文
2025-对世界模型的批判论文
2025-DREAMGEN：通过视频世界模型解锁机器人学习中的泛化能力 来自Nvidia 论文, 代码
2025-V-JEPA 2：自监督视频模型实现理解、预测与规划 来自Meta 论文, 代码
2025-UniVLA：学习以任务为中心的潜在动作，在任何地方执行行动 arxiv 2025 论文, 代码
2025-学习3D持久性具身世界模型 arxiv 2025 论文
2025-AdaWorld：利用潜在动作学习可适应的世界模型 ICML 2025 论文
2025-DreamerV3：通过世界模型掌握多样化的控制任务 Nature 论文, 代码
2025-PhysTwin：基于物理信息的可变形物体视频重建与仿真论文, 代码
2025-直观的物理理解源于自然视频上的自监督预训练论文, 代码
2025-生成式视频模型是否通过观看视频学习物理规律？论文, 代码, 网站
2024-PreLAR：使用可学习动作表示进行世界模型预训练 ECCV 2024；预训练；强化学习；论文, 代码
2024-利用反事实世界建模理解物理动力学 ECCV 2024；论文, 网站, 代码
2024-Genie2：网站
2024-WHALE：迈向具身决策的通用且可扩展的世界模型论文
2024-从物理定律角度看，视频生成距离世界模型还有多远？论文
2024-PIVOT-R：面向机器人操作的基元驱动、航点感知世界模型 NeurIPS 2024 论文
2024-RoboDreamer：学习用于机器人想象的组合式世界模型论文
2024-TD-MPC2：适用于连续控制的可扩展、鲁棒世界模型 ICLR 2024 论文
2024-分层世界模型作为视觉全身人形控制器论文
2024-具有时间感知和上下文增强标记的高效世界模型 ICML 2024
2024-3D-VLA：一种3D视觉-语言-动作生成式世界模型 ICML 2024 论文
2024-Newton，来自Archetype AI 网站 链接
2024-MagicTime：延时视频生成模型作为变质模拟器 arxiv 论文, 代码
2024-IWM：在视觉表征学习中学习并利用世界模型 arxiv, 来自Yann LeCun团队 论文
2024-视频作为现实世界决策的新语言 arxiv, Deepmind 论文
2024-Genie：生成式交互环境 Deepmind 论文, 网站
2024-Sora OpenAI, 生成式AI 链接, 技术报告
2024-LWM：基于RingAttention的百万级视频与语言世界模型 arxiv; 生成式AI 论文, 代码
2024-WorldDreamer：通过预测掩码令牌，迈向用于视频生成的通用世界模型 arxiv; 生成式AI 论文
2024-视频预测模型作为强化学习的奖励 NeurIPS 2024 论文, 代码
2024-V-JEPA：重新审视特征预测，用于从视频中学习视觉表征 来自Yann LeCun团队 论文, 代码
2023-STORM：用于强化学习的高效随机Transformer世界模型 NeurIPS 2023 论文, 代码
2023-世界模型骨干网络对决：RNN、Transformer和S4 NeurIPS 2023 论文
2023-I-JEPA：基于联合嵌入预测架构的图像自监督学习 CVPR 2023; 来自Yann LeCun团队 论文, 代码
2023-用于视频生成的时序一致Transformer ICML 2023 论文, 代码
2023-用语言学习建模世界 arxiv 论文, 代码
2023-Transformer是样本高效的世界模型 ICLR 2023; 强化学习 论文, 代码
2023-基于梯度的世界模型规划 arxiv; 来自Yann LeCun团队; 规划; 论文
2023-通过策略引导的轨迹扩散构建世界模型 arxiv; 强化学习; 论文
2023-DreamerV3：通过世界模型掌握多个领域 arxiv; 强化学习; 论文, 代码
2022-Daydreamer：用于物理机器人学习的世界模型 CoRL 2022; 机器人技术 论文, 代码
2022-用于视觉控制的掩码世界模型 CoRL 2022; 机器人技术 论文, 代码
2022-通往自主机器智能之路 openreview; 来自Yann LeCun团队; 世界模型总体路线图; 论文; 幻灯片1, 幻灯片2, 幻灯片3; 视频
2021-LEXA：通过世界模型发现并实现目标 NeurIPS 2021; 论文, 网站与代码
2021-DreamerV2：用离散世界模型征服Atari ICLR 2021; 强化学习; 来自Google与Deepmind 论文, 代码
2020-Dreamer：从梦想到控制：通过潜在想象学习行为 ICLR 2020 论文, 代码
2019-从像素中学习潜在动力学以进行规划 ICML 2019 论文, 代码
2018-基于模型的规划，支持离散与连续动作 arxiv; 强化学习、规划; 来自Yann LeCun团队; 论文
2018-循环世界模型促进策略演化 NeurIPS 2018; 论文, 代码

其他相关论文

2023-基于 occupancy 预测的自动驾驶神经规划器 ITSC 2023; 规划，神经预测引导的规划; Waymo 开放运动数据集 论文

World-Models-Autonomous-Driving-Survey 快速上手指南

工具简介： World-Models-Autonomous-Driving-Survey 并非一个单一的可执行软件包，而是一个由纽约大学学习系统实验室（NYU Learning Systems Laboratory）维护的精选论文与代码资源列表。它汇集了自动驾驶领域最新的世界模型（World Models）研究成果，涵盖生成式 AI、端到端驾驶、占据栅格预测等方向。

本指南将指导开发者如何利用该列表快速定位、克隆并运行其中具有代表性的开源项目（以列表中提到的 AD-L-JEPA 及通用世界模型项目为例）。

1. 环境准备

由于列表中的项目多涉及深度学习、3D 感知及大模型训练，对硬件和软件环境有较高要求。

系统要求

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 macOS (部分项目支持)。
GPU: NVIDIA GPU (推荐显存 ≥ 24GB，如 RTX 3090/4090 或 A100)，需支持 CUDA 11.8+。
内存: ≥ 32GB RAM。
存储: ≥ 100GB 可用空间（用于存放数据集和模型权重）。

前置依赖

在开始之前，请确保系统已安装以下基础工具：

Python: 3.9 或 3.10 (大多数最新论文代码对此版本支持最好)。
Git: 用于克隆仓库。
CUDA Toolkit: 与 PyTorch 版本匹配。
FFmpeg: 用于视频数据处理（部分生成式模型需要）。

国内加速建议：

推荐使用 清华 (TUNA) 或 阿里 (Aliyun) 镜像源加速 Python 包下载。

代码托管若遇 GitHub 访问缓慢，可使用 Gitee 镜像（若作者提供）或配置本地代理。

2. 安装步骤

由于这是一个资源列表，你需要先选择一个具体的项目进行安装。以下以列表中高亮推荐的 AD-L-JEPA (基于 JEPA 架构的激光雷达世界模型) 为例，其他项目流程类似。

第一步：克隆目标项目仓库

从列表中获取目标项目的 GitHub 地址并克隆。

# 示例：克隆 AD-L-JEPA 项目
git clone https://github.com/HaoranZhuExplorer/AD-L-JEPA-Release.git
cd AD-L-JEPA-Release

第二步：创建虚拟环境

建议使用 conda 管理环境，避免依赖冲突。

# 创建名为 'world-model' 的环境，指定 Python 3.10
conda create -n world-model python=3.10 -y
conda activate world-model

第三步：安装依赖

根据项目根目录下的 requirements.txt 安装依赖。强烈建议使用国内镜像源加速。

# 使用清华镜像源安装依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

注：若项目依赖特定的 PyTorch 版本（如带有 CUDA 支持），请优先参照该项目 README 中的具体安装命令，通常格式如下：

# 示例：安装特定版本的 PyTorch (根据实际项目要求调整)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

第四步：准备数据与预训练模型

大多数世界模型需要大规模数据集（如 nuScenes, Waymo, CARLA）或预训练权重。

下载数据：参照项目文档下载数据集，并放置于指定目录（通常为 data/ 或 datasets/）。
下载权重：部分项目提供预训练模型链接，需下载 .pth 或 .ckpt 文件至 checkpoints/ 目录。

3. 基本使用

安装完成后，你可以运行提供的脚本进行推理、训练或可视化。以下以最简单的推理/演示模式为例。

运行推理示例

大多数项目会在 scripts/ 目录或根目录提供测试脚本。

# 示例：运行 AD-L-JEPA 的评估脚本
# 请根据具体项目的实际脚本名称调整 (如 test.py, infer.py, demo.py)
python scripts/evaluate.py --config configs/jepa_config.yaml --checkpoint checkpoints/pretrained.pth

查看其他热门项目

你可以在该 Survey 列表中查找其他感兴趣的项目，例如：

Vista (NeurIPS 2024): 高保真驾驶世界模型。
- 仓库: https://github.com/OpenDriveLab/Vista
DriveDreamer (ECCV 2024): 真实世界驱动的生成模型。
- 仓库: https://github.com/JeffWang987/DriveDreamer
OccWorld (ECCV 2024): 3D 占据栅格世界模型。
- 仓库: https://github.com/wzzheng/OccWorld

只需重复上述“克隆 -> 安装 -> 运行”的步骤即可探索这些前沿技术。

引用支持

如果你在研究中使用了列表中的资源或受其启发（特别是 NYU 团队的 AD-L-JEPA），请考虑引用相关论文：

@article{zhu2025ad,
  title={AD-L-JEPA: Self-Supervised Spatial World Models with Joint Embedding Predictive Architecture for Autonomous Driving with LiDAR Data},
  author={Zhu, Haoran and Dong, Zhenyuan and Topollai, Kristi and Choromanska, Anna},
  journal={arXiv preprint arXiv:2501.04969},
  year={2025}
}

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|今天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前