Awesome-World-Model

2k 77 非常简单 1 次阅读今天Agent图像开发框架其他

AI 解读由 AI 自动生成，仅供参考

Awesome-World-Model 是一个专注于自动驾驶与机器人领域的开源项目，旨在系统性地收集、追踪并评测最新的“世界模型”相关学术论文。所谓世界模型，是一种能够模拟物理世界如何随智能体行为而演变的预测性程序，它是实现安全、可靠且具备通用决策能力的关键技术基础。

该项目主要解决了当前该领域研究分散、缺乏统一基准的痛点。通过整理涵盖感知、指令遵循、可控性及未来预测等核心能力的论文列表，它为研究者提供了一站式的资源导航，并作为其配套综述文章的动态补充。此外，项目还关联了 CVPR 等顶级会议的相关研讨会与挑战赛（如 OpenDriveLab），促进了学术成果与实际评测的结合。

Awesome-World-Model 特别适合人工智能研究人员、自动驾驶算法工程师以及高校师生使用。无论是希望快速把握前沿趋势，还是寻找具体的基线方法进行对比实验，都能从中获益。其独特亮点在于不仅提供了详尽的文献索引，还建立了开放的社区贡献机制，鼓励全球开发者共同完善这份清单，推动世界模型技术在具身智能领域的标准化发展。

使用场景

某自动驾驶初创公司的算法团队正在研发新一代端到端驾驶系统，急需评估并集成最新的世界模型（World Model）以提升车辆在复杂路况下的预测与规划能力。

没有 Awesome-World-Model 时

文献检索效率低下：研究人员需在 arXiv、Google Scholar 等多个平台手动筛选海量论文，难以区分哪些是真正针对自动驾驶场景的世界模型，耗时数周仍可能遗漏关键成果。
基准对比困难：由于缺乏统一的评测标准和数据集链接，团队无法快速复现不同模型的性能，导致技术选型主要依靠直觉而非数据支撑。
前沿动态滞后：社区最新的研讨会（如 CVPR Workshop）和挑战赛信息分散，团队容易错过像"3D 占用预测”或"4D 未来生成”等突破性方向，研发路线存在盲区。
复现门槛高：许多论文未公开代码或缺乏清晰的实现指引，工程师在尝试复现时常常陷入环境配置和数据处理的黑洞，严重拖慢迭代进度。

使用 Awesome-World-Model 后

一站式资源聚合：团队直接通过该清单获取了经过筛选的自动驾驶世界模型论文库，包括 HERMES、UniFuture 等 SOTA 方法，将调研周期从数周缩短至两天。
标准化评测参考：借助列表中整理的 Benchmark 和相关挑战赛（如 World Model Bench），团队迅速建立了内部评估体系，量化对比了各模型在物理合理性和未来预测上的表现。
紧跟学术前沿：通过追踪列表更新的研讨会和挑战赛信息，团队及时引入了“混合记忆动态视频模型”等新思路，优化了长尾场景下的决策逻辑。
加速工程落地：清单提供的开源代码链接和引用指南，帮助工程师快速跑通基线模型，并将重点从“找代码”转移到“改架构”，显著提升了研发效能。

Awesome-World-Model 不仅是一个论文列表，更是连接学术前沿与工业落地的桥梁，让自动驾驶团队能在瞬息万变的技术浪潮中精准导航、高效迭代。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库（Awesome-World-Model）是一个用于记录、跟踪和基准测试自动驾驶及机器人领域世界模型（World Models）的论文和资源列表（Survey/Awesome List），本身不是一个可执行的软件工具或代码库，因此 README 中未包含具体的运行环境、硬件需求或依赖库信息。如需运行列表中提及的具体模型（如 UniFuture, HERMES 等），请访问各模型对应的独立项目链接查看其具体环境要求。

python未说明

快速开始

用于自动驾驶的优秀世界模型

本仓库用于记录、跟踪和基准测试近年来多种世界模型（适用于自动驾驶或机器人）方法，作为我们综述的补充。

如果您发现有遗漏的论文，请随时创建拉取请求或提交问题。欢迎任何形式的贡献，以使此列表更加全面。📣📣📣

如果您觉得本仓库有用，请考虑为我们点个赞🌟并进行引用。

📚 引用

如果您在研究中使用了本仓库，请不吝点赞⭐并引用如下：

@article{tu2025drivingworldmodel,
  title={世界模型在塑造自动驾驶中的作用：综合综述}, 
  author={Tu, Sifan and Zhou, Xin and Liang, Dingkang and Jiang, Xingyu and Zhang, Yumeng and Li, Xiaofan and Bai, Xiang},
  journal={arXiv预印本 arXiv:2502.10498},
  year={2025}
}

@inproceedings{zhou2025hermes,
  title={HERMES：一种用于同时进行3D场景理解和生成的统一自动驾驶世界模型},
  author={Zhou, Xin and Liang, Dingkang and Tu, Sifan and Chen, Xiwu and Ding, Yikang and Zhang, Dingyuan and Tan, Feiyang and Zhao, Hengshuang and Bai, Xiang},
  booktitle={IEEE/CVF国际计算机视觉会议论文集},
  year={2025}
}

@inproceedings{liang2025UniFuture,
  title={UniFuture：一种用于未来生成与感知的4D驾驶世界模型},
  author={Liang, Dingkang and Zhang, Dingyuan and Zhou, Xin and Tu, Sifan and Feng, Tianrui and Li, Xiaofan and Zhang, Yumeng and Du, Mingyang and Tan, Xiao and Bai, Xiang},
  booktitle={IEEE国际机器人与自动化会议论文集},
  year={2026}
}

@article{chen2026out,
  title={眼不见心仍念：动态视频世界模型的混合记忆},
  author={Chen, Kaijin and Liang, Dingkang and Zhou, Xin and Ding, Yikang and Liu, Xiaoqiang and Wan, Pengfei and Bai, Xiang},
  journal={arXiv预印本 arXiv:2603.25716},
  year={2026}
}

研讨会与挑战赛

CVPR 25研讨会与挑战赛 | OpenDriveLab 赛道：世界模型。

世界模型是一种能够模拟智能体行为对环境影响的计算机程序。它有望解决通用仿真与评估问题，从而在各种场景下实现安全、可靠且智能的机器人应用。

World Model Bench @ CVPR'25 WorldModelBench：首届世界模型基准测试研讨会

世界模型是指对我们周围物理现象的预测性模型。这类模型是物理AI智能体的基础，可赋予其决策、规划及反事实分析等关键能力。有效的世界模型需整合感知、指令执行、可控性、物理合理性以及未来预测等多个核心要素。

CVPR 24研讨会与挑战赛 | OpenDriveLab 第4赛道：预测型世界模型。
CVPR 23自动驾驶研讨会 挑战赛3：ARGOVERSE挑战，基于Argoverse 2传感器数据集的3D占用预测，预测未来3秒内世界的时空占用情况。

论文

世界模型原始论文

使用占用栅格进行移动机器人感知与导航 [论文]

技术博客或视频

Yann LeCun：迈向自主机器智能之路 [论文] [视频]
ICCV'25研讨会 主题演讲——特斯拉Ashok Elluswamy [视频]
CVPR'23研讨会 主题演讲——特斯拉Ashok Elluswamy [视频]
Wayve 推出GAIA-1：面向自主驾驶的尖端生成式AI模型 [博客]

世界模型是预测未来可能发生事件的基础，这对自动驾驶至关重要。它们可以充当学习型模拟器，或为基于模型的强化学习（RL）与规划提供“假设性”思维实验。通过将世界模型融入我们的驾驶模型，我们可以使其更好地理解人类决策，并最终推广到更多实际场景中。

调查研究

世界模型在塑造自动驾驶中的作用：综合调查。arXiv 25.02 [论文]
将网络空间与物理世界对齐：具身智能的综合调查。TMECH 25 [论文] [代码]
面向自动驾驶的未来物理世界生成综述。MMAsia 25 [论文]
面向自动驾驶的多模态大型语言模型综述。WACVW 24 [论文] [代码]
世界模型：安全视角。ISSREW [论文]
自动驾驶中渐进式的鲁棒感知型世界模型：回顾与展望。techrXiv 25.11 [论文] [项目]
统一的多模态理解与生成综述：进展与挑战。techrXiv 25.11 [论文]
利用人工智能模拟视觉世界：路线图。arXiv 25.11 [论文] [项目]
通往世界模型之路：机器人操作综述。arXiv 25.11 [论文]
面向具身智能的世界模型综合调查。arXiv 25.10 [论文] [项目]
具身智能代理中世界模型的安全挑战：综述。arXiv 25.10 [论文]
基于声学物理信息的世界模型综述。arXiv 25.09 [论文]
3D与4D世界建模：综述。arXiv 25.09 [论文] [代码]
具身世界模型综述。25.09 [论文]
跨越鸿沟的一次飞跃：从透视到全景视觉的综述。arXiv 25.09 [论文] [页面]
通过世界模型和代理式AI实现边缘通用智能：基础、解决方案与挑战。arXiv 25.08 [论文]
综述：从物理模拟器和世界模型中学习具身智能。arXiv 25.07 [论文]
从2D到3D认知：通用世界模型简要综述。arXiv 25.06 [论文]
面向认知代理的世界模型：变革未来网络中的边缘智能。arXiv 25.05 [论文]
探索视频生成中物理认知的演化：综述。arXiv 25.03 [论文] [代码]
面向自动驾驶的世界模型综述。arXiv 25.01 [论文]
视觉中的生成式物理AI：综述。arXiv 25.01 [论文] [代码]
理解世界还是预测未来？世界模型综合调查。arXiv 24.11 [论文]
探讨自动驾驶中视频生成与世界模型之间的相互作用：综述。arXiv 24.11 [论文]
Sora是世界模拟器吗？通用世界模型及更广泛领域的综合调查。arXiv 24.5 [论文] [代码]
面向自动驾驶的世界模型：初步调查。arXiv 24.3 [论文]

2026年

[UniFuture] UniFuture：面向下一代生成与感知的4D驾驶世界模型。ICRA 26 [论文] [代码] [项目]
RAYNOVA：光线空间中的尺度-时间自回归世界建模。CVPR 26 [论文] [项目]
WAM-Flow：基于离散流匹配的并行粗细结合运动规划，用于自动驾驶。CVPR 26 [论文] [代码]
ResWorld：用于端到端自动驾驶的时间残差世界模型。ICLR 26 [论文] [代码]
WorldRFT：结合强化学习微调的潜在世界模型规划，用于自动驾驶。AAAI 26 [论文]
X-World：可控制的以自我为中心多摄像头世界模型，用于可扩展的端到端驾驶。arXiv 26.3 [论文]
Vega：通过自然语言指令学习驾驶。arXiv 26.3 [论文] [代码]
DCARL：一种用于自回归长轨迹视频生成的分治框架。arXiv 26.3 [论文] [项目]
DreamerAD：通过潜在世界模型实现自动驾驶的高效强化学习。arXiv 26.3 [论文]
Latent-WAM：用于端到端自动驾驶的潜在世界动作建模。arXiv 26.3 [论文]
面向挑战性轨迹下的物理一致性驾驶视频世界模型。arXiv 26.3 [论文] [项目]
FAR-Drive：闭环自动驾驶中的帧级自回归视频生成。arXiv 26.3 [论文]
WorldVLM：结合世界模型预测与视觉-语言推理。arXiv 26.3 [论文]
[WorldDrive] 桥接场景生成与规划：通过统一视觉与运动表征的世界模型进行驾驶。arXiv 26.3 [论文] [代码]
DynVLA：用于自动驾驶中行动推理的世界动力学学习。arXiv 26.3 [论文]
自动驾驶用潜在世界模型：统一分类、评估框架及开放挑战。arXiv 26.3 [论文]
SAMoE-VLA：一种面向自动驾驶的场景自适应专家混合视觉-语言-行动模型。arXiv 26.3 [论文]
考虑运动学的潜在世界模型，用于数据高效的自动驾驶。arXiv 26.3 [论文]
ShareVerse：用于共享世界建模的多智能体一致性视频生成。arXiv 26.3 [论文]
风险感知的世界模型预测控制，用于可泛化的端到端自动驾驶。arXiv 26.2 [论文]
UniDrive-WM：用于自动驾驶的统一理解、规划与生成世界模型。arXiv 26.1 [论文] [项目]
MAD：用于高效驾驶世界模型的运动与外观解耦。arXiv 26.1 [论文] [项目]
从机制视角看作为世界模型的视频生成：状态与动力学。arXiv 26.1 [论文]
Drive-JEPA：视频JEPA结合多模态轨迹蒸馏，用于端到端驾驶。arXiv 26.1 [论文]
DrivingGen：自动驾驶中生成式视频世界模型的综合基准测试。arXiv 26.1 [论文] [项目]

2025年

HERMES: 用于同时进行3D场景理解和生成的统一自动驾驶世界模型。ICCV 25 [论文] [代码] [项目]
[FSDrive] FutureSightDrive：基于时空思维链的视觉化自动驾驶方法。NeurIPS 25 [论文] [代码]
DINO-Foresight: 利用DINO模型展望未来。NeurIPS 25 [论文] [代码]
从预测到规划: 用于协同状态-动作预测的策略世界模型。NeurIPS 25 [论文] [代码]
InfiniCube: 基于世界引导视频模型的无界且可控的动态3D驾驶场景生成。ICCV 25 [论文] [项目]
DiST-4D: 基于度量深度的解耦时空扩散模型，用于4D驾驶场景生成。ICCV 25 [论文] [项目]
Epona: 用于自动驾驶的自回归扩散世界模型。ICCV 25 [论文] [代码]
UniOcc: 自动驾驶中占用预测与预报的统一基准。ICCV 25 [论文] [代码]
DriVerse: 通过多模态轨迹提示和运动对齐实现驾驶模拟的导航世界模型。ACM MM 25 [论文] [代码]
OmniGen: 自动驾驶中的统一多模态传感器生成。ACM MM 25 [论文]
World4Drive: 基于意图感知的物理潜在世界模型实现端到端自动驾驶。ICCV 25 [论文]
[PIWM] 通过预测性个体世界模型实现“梦想成真”的驾驶。TIV 25 [论文] [代码]
DriveDreamer4D: 世界模型是高效的4D驾驶场景表示数据生成器。CVPR 25 [论文] [项目页]
GaussianWorld: 用于流式3D占用预测的高斯世界模型。CVPR 25 [论文] [代码]
ReconDreamer: 通过在线修复技术构建用于驾驶场景重建的世界模型。CVPR 25 [论文] [代码]
FUTURIST: 通过多模态视觉序列Transformer推进语义未来预测。CVPR 25 [论文] [代码]
MaskGWM: 具有视频掩码重建功能的可泛化驾驶世界模型。CVPR 25 [论文] [代码]
UniScene: 统一的以占用为中心的驾驶场景生成。CVPR 25 [论文] [项目]
DrivingGPT: 通过多模态自回归Transformer统一驾驶世界建模与规划。CVPR 25 [论文] [项目]
GEM: 一种可泛化的自我视角多模态世界模型，用于精细控制自我运动、物体动力学和场景构成。CVPR 25 [论文] [项目]
[UMGen] 通过下一场景预测生成多模态驾驶场景。CVPR 25 [论文] [项目] [代码]
DIO: 可分解的隐式4D占用-流世界模型。CVPR 25 [论文]
SceneDiffuser++: 基于生成式世界模型的城市级交通仿真。CVPR 25 [论文]
DynamicCity: 从动态场景中大规模生成LiDAR点云。ICLR 25 [论文] [代码]
AdaWM: 基于自适应世界模型的自动驾驶规划。ICLR 25 [论文]
OccProphet: 采用观察者-预测者-精炼者框架提升纯相机4D占用预测的效率极限。ICLR 25 [论文] [代码]
[PreWorld] 半监督视觉中心的3D占用世界模型，用于自动驾驶。ICLR 25 [论文] [代码]
[SSR] 端到端自动驾驶是否真的需要感知任务？ICLR 25 [论文] [代码]
Occ-LLM: 利用基于占用的大语言模型增强自动驾驶。ICRA 25 [论文]
STAGE: 以流为中心的生成式世界模型，用于长时程驾驶场景仿真。IROS 25 [论文] [项目]
Drive&Gen: 同步评估端到端驾驶与视频生成模型。IROS 25 [论文]
学习生成4D LiDAR序列。ICCVW 25 [论文]
基于世界模型的端到端场景生成，用于自动驾驶中的事故预警。Communications Engineering 25 [论文]
基于LiDAR观测的地面机器人自主导航世界模型。JIFS 25 [论文]
GaussianDWM: 3D Gaussian驾驶世界模型，用于统一场景理解和多模态生成。arXiv 25.12 [论文] [代码]
DriveLaW: 在潜在驾驶世界中统一规划与视频生成。arXiv 25.12 [论文]
InDRiVE: 基于潜在分歧的自动驾驶免奖励世界模型预训练。arXiv 25.12 [论文]
面向端到端驾驶的潜在思维链世界建模。arXiv 25.12 [论文]
GenieDrive: 朝着物理感知型驾驶世界模型迈进，以4D占用指导视频生成。arXiv 25.12 [论文] [项目]
WorldLens: 在真实世界中对驾驶世界模型进行全面评估。arXiv 25.12 [论文] [项目]
UniUGP: 统一理解、生成和规划，实现端到端自动驾驶。arXiv 25.12 [论文] [项目]
MindDrive: 一个整合世界模型和视觉-语言模型的全栈框架，用于端到端自动驾驶。arXiv 25.12 [论文]
U4D: 基于LiDAR序列的不确定性感知4D世界建模。arXiv 25.12 [论文]
RadarGen: 由摄像头生成汽车雷达点云。arXiv 25.12 [论文] [项目]
先思考再驾驶: 受世界模型启发的多模态接地方法，用于自动驾驶车辆。arXiv 25.12 [论文]
车辆动力学嵌入式世界模型，用于自动驾驶。arXiv 25.12 [论文]
LiSTAR: 以光线为中心的世界模型，用于自动驾驶中的4D LiDAR序列。arXiv 25.11 [论文] [项目]
OpenTwinMap: 用于城市自动驾驶的开源数字孪生生成器。arXiv 25.11 [论文]
SparseWorld-TC: 轨迹条件下的稀疏占用世界模型。arXiv 25.11 [论文]
LaGen: 朝着自回归LiDAR场景生成迈进。arXiv 25.11 [论文]
AD-R1: 基于公正世界模型的闭环强化学习，用于实现端到端自动驾驶。arXiv 25.11 [论文]
CorrectAD: 一种自我修正的代理系统，用于改善自动驾驶中的端到端规划。arXiv 25.11 [论文]
[UniScenev2] 扩大规模的以占用为中心的驾驶场景生成：数据集与方法。arXiv 25.10 [论文]
基于隐式残差世界模型的视觉中心4D占用预测与规划。arXiv 25.10 [论文]
SparseWorld: 一种灵活、适应性强且高效的4D占用世界模型，由稀疏和动态查询驱动。arXiv 25.10 [论文] [代码]
OmniNWM: 全知全能的驾驶导航世界模型。arXiv 25.10 [论文] [项目]
[ORAD-3D] 推进越野自动驾驶：大型ORAD-3D数据集及全面基准测试。arXiv 25.10 [论文] [代码]
[Dream4Drive] 将驾驶世界模型重新定义为感知任务的合成数据生成器。arXiv 25.10 [论文] [项目]
DriveVLA-W0: 世界模型放大了自动驾驶中的数据规模法则。arXiv 25.10 [论文]
CoIRL-AD: 在潜在世界模型中进行协作-竞争式的模仿-强化学习，用于自动驾驶。arXiv 25.10 [论文]
CVD-STORM: 基于空间-时间重建模型的跨视图视频扩散，用于自动驾驶。arXiv 25.10 [论文]
[PhiGensis] 基于立体强制的4D驾驶场景生成。arXiv 25.9 [论文] [项目]
TeraSim-World: 全球范围内的安全关键数据合成，用于端到端自动驾驶。arXiv 25.9 [论文]
OccTENS: 基于时间尺度下一次预测的3D占用世界模型。arXiv 25.9 [论文]
[G^2Editor] 现实且可控的3D高斯引导对象编辑，用于驾驶视频生成。arXiv 25.8 [论文]
LSD-3D: 大规模3D驾驶场景生成，结合几何接地。arXiv 25.8 [论文] [项目]
清晰地看，深刻地忘却：重新审视用于驾驶模拟的微调视频生成器。arXiv 25.8 [论文]
MoVieDrive: 多模态多视角城市场景视频生成。arXiv 25.8 [论文]
ImagiDrive: 一个统一的想象与规划框架，用于自动驾驶。arXiv 25.8 [论文] [代码]
LiDARCrafter: 从LiDAR序列中进行动态4D世界建模。arXiv 25.8 [论文] [项目]
FASTopoWM: 基于潜在世界模型的快慢车道段拓扑推理。arXiv 25.7 [论文]
基于世界模型的端到端场景生成，用于自动驾驶中的事故预警。arXiv 25.7 [论文]
Orbis: 克服驾驶世界模型中长时程预测的挑战。arXiv 25.7 [论文] [代码]
I2 -World: 内部-交互标记化，用于高效动态4D场景预测。arXiv 25.7 [论文] [代码]
NRSeg: 基于驾驶世界模型的BEV语义分割噪声鲁棒学习。arXiv 25.7 [论文] [代码]
朝着高效潜在流匹配的底层LiDAR世界模型迈进。arXiv 25.6 [论文]
ReSim: 可靠的自动驾驶世界模拟。arXiv 25.6 [论文] [项目]
Cosmos-Drive-Dreams: 基于世界基础模型的大规模合成驾驶数据生成。arXiv 25.6 NVIDIA [论文] [项目]
Dreamland: 利用模拟器和生成模型进行可控的世界创造。arXiv 25.6 [论文] [项目]
LongDWM: 跨粒度蒸馏，用于构建长期驾驶世界模型。arXiv 25.6 [论文] [代码]
ProphetDWM: 用于滚动发布未来行动和视频的驾驶世界模型。arXiv 25.5 [论文]
GeoDrive: 基于3D几何信息的驾驶世界模型，具备精确的动作控制能力。arXiv 25.5 [论文] [代码]
DriveX: 全景建模，用于学习可泛化的自动驾驶世界知识。arXiv 25.5 [论文]
VL-SAFE: 基于视觉-语言指导的安全意识强化学习，结合世界模型应用于自动驾驶。arXiv 25.5 [论文] [项目]
Raw2Drive: 基于对齐世界模型的强化学习，用于CARLA v2中的端到端自动驾驶。arXiv 25.5 [论文]
[RAMBLE] 从模仿到探索：基于世界模型的端到端自动驾驶。arXiv 25.4 [论文] [代码]
DiVE: 基于视频扩散Transformer的高效多视角驾驶场景生成。arXiv 25.4 [论文]
[WoTE] 基于BEV世界模型，在线轨迹评估实现端到端驾驶。ICCV 25 [论文] [代码]
MagicDrive-V2: 高分辨率长视频生成，用于自动驾驶，并具备适应性控制。arXiv 25.3 [论文] [项目]
CoGen: 基于适应性条件的3D一致视频生成，用于自动驾驶。arXiv 25.3 [论文]
GAIA-2: 一种可控的多视角生成式世界模型，用于自动驾驶。arXiv 25.3 [论文]
Semi-SD: 基于周围摄像头的半监督度量深度估计，用于自动驾驶。arXiv 25.3 [论文] [代码]
MiLA: 多视角高保真度长期视频生成世界模型，用于自动驾驶。arXiv 25.3 [论文] [项目]
SimWorld: 基于世界模型的模拟器条件场景生成统一基准。arXiv 25.3 [论文] [代码]
[EOT-WM] 其他车辆轨迹同样重要：驾驶世界模型将自我与其他车辆轨迹统一在视频潜在空间中。arXiv 25.3 [论文]
[T^3Former] 时间三平面Transformer作为占用世界模型。arXiv 25.3 [论文]
AVD2: 事故视频扩散，用于事故视频描述。arXiv 25.3 [论文] [项目]
VaViM和VaVAM: 通过视频生成建模实现自动驾驶。arXiv 25.2 [论文] [代码]
梦想成真: 基于解析世界模型的车辆控制。arXiv 25.2 [论文]
AD-L-JEPA: 基于联合嵌入预测架构的自监督空间世界模型，用于LiDAR数据驱动的自动驾驶。arXiv 25.1 [论文] [代码]

2024

[SEM2] 通过语义掩码世界模型提升端到端城市自动驾驶的样本效率与鲁棒性。TITS [论文]
Vista: 具有高保真度和多样化可控性的可泛化驾驶世界模型。NeurIPS 24 [论文] [代码]
SceneDiffuser: 高效且可控的驾驶场景仿真初始化与推演。NeurIPS 24 [论文]
DrivingDojo 数据集: 推动交互式、知识增强型驾驶世界模型的发展。NeurIPS 24 [论文] [项目]
Think2Drive: 基于潜在世界模型思考的高效强化学习，用于准现实自动驾驶。ECCV 24 [论文]
[MARL-CCE] 在生成式世界模型下建模自动驾驶中的竞争行为。ECCV 24 [论文] [代码]
DriveDreamer: 朝着由真实世界驱动的自动驾驶世界模型迈进。ECCV 24 [论文] [代码]
OccWorld: 学习用于自动驾驶的三维占用世界模型。ECCV 24 [论文] [代码]
[NeMo] 用于自动驾驶的神经体积世界模型。ECCV 24 [论文]
CarFormer: 基于学习到的对象中心表征的自动驾驶。ECCV 24 [论文] [代码]
[MARL-CCE] 在生成式世界模型下建模自动驾驶中的竞争行为。ECCV 24 [代码]
[GUMP] 使用可扩展生成模型解决运动规划任务。ECCV 24 [论文] [代码]
WoVoGen: 具备世界体积感知的扩散模型，用于可控的多摄像头驾驶场景生成。ECCV 24 [论文] [代码]
DrivingDiffusion: 基于潜在扩散模型的布局引导型多视角驾驶场景视频生成。ECCV 24 [论文] [代码]
3D-VLA: 一种3D视觉-语言-动作生成式世界模型。ICML 24 [论文]
[ViDAR] 视觉点云预测实现可扩展自动驾驶。CVPR 24 [论文] [代码]
[GenAD] 自动驾驶的通用预测模型。CVPR 24 [论文] [数据]
Cam4DOCC: 自动驾驶应用中仅基于摄像头的4D占用预测基准测试。CVPR 24 [论文] [代码]
[Drive-WM] 驾驶向未来：基于世界模型的多视角视觉预测与规划，用于自动驾驶。CVPR 24 [论文] [代码]
DriveWorld: 通过世界模型进行4D预训练的场景理解，用于自动驾驶。CVPR 24 [论文]
Panacea: 用于自动驾驶的全景式可控视频生成。CVPR 24 [论文] [代码]
UnO: 用于感知与预测的无监督占用场。CVPR 24 [论文] [代码]
MagicDrive: 具有多样化3D几何控制的街景生成。ICLR 24 [论文] [代码]
Copilot4D: 通过离散扩散学习用于自动驾驶的无监督世界模型。ICLR 24 [论文]
SafeDreamer: 基于世界模型的安全强化学习。ICLR 24 [论文] [代码]
DrivingWorld: 通过视频GPT构建自动驾驶世界模型。arXiv 24.12 [论文] [代码]
一种通过解耦动态流与图像辅助训练的高效占用世界模型。arXiv 24.12 [论文]
Doe-1: 基于大型世界模型的闭环自动驾驶。arXiv 24.12 [论文] [代码]
[DrivePhysica] 物理信息驱动的驾驶世界模型。arXiv 24.12 [论文] [代码]
Terra ACT-Bench: 朝着行动可控的世界模型迈进，用于自动驾驶。arXiv 24.12 [论文] [代码] [项目] [Hugging Face]
UniMLVG: 用于自动驾驶的具有全面控制能力的多视角长视频生成统一框架。arXiv 24.12 [论文] [项目] [代码]
HoloDrive: 用于自动驾驶的整体式2D-3D多模态街景生成。arXiv 24.12 [论文]
InfinityDrive: 打破驾驶世界模型的时间限制。arXiv 24.12 [论文] [项目页]
使用语言模型生成分布外场景。arXiv 24.11 [论文]
Imagine-2-Drive: 在CARLA中为自动驾驶车辆进行高保真度世界建模。arXiv 24.11 [论文] [项目页]
WorldSimBench: 朝着以视频生成模型作为世界模拟器的方向发展。arXiv 24.10 [论文] [项目页]
DOME: 将扩散模型驯服为高保真度的可控占用世界模型。arXiv 24.10 [论文] [项目页]
OCCVAR: 通过次规模预测实现可扩展的4D占用预测。OpenReview [论文]
利用潜在空间生成式世界模型缓解自动驾驶模仿学习中的协变量偏移。arXiv 24.9 [论文]
[LatentDriver] 在自动驾驶中从潜在世界模型学习多重概率决策。arXiv 24.9 [论文] [代码]
RenderWorld: 具有自监督3D标签的世界模型。arXiv 24.9 [论文]
OccLLaMA: 一种用于自动驾驶的占用-语言-动作生成式世界模型。arXiv 24.9 [论文]
DriveGenVLM: 基于视觉语言模型的自动驾驶的真实世界视频生成。arXiv 24.8 [论文]
[Drive-OccWorld] 在占用世界中行驶：基于世界模型的以视觉为中心的4D占用预测与规划，用于自动驾驶。arXiv 24.8 [论文]
BEVWorld: 通过统一的BEV潜在空间构建的用于自动驾驶的多模态世界模型。arXiv 24.7 [论文] [代码]
[TOKEN] 将世界分词为对象级知识，以应对自动驾驶中的长尾事件。arXiv 24.7 [论文]
UMAD: 用于自动驾驶的无监督掩码级异常检测。arXiv 24.6 [论文]
SimGen: 模拟器条件下的驾驶场景生成。arXiv 24.6 [论文] [代码]
[AdaptiveDriver] 基于自适应世界模型进行自动驾驶规划。arXiv 24.6 [论文] [代码]
[LAW] 利用潜在世界模型提升端到端自动驾驶性能。arXiv 24.6 [论文] [代码]
[Delphi] 通过可控的长视频生成释放端到端自动驾驶的泛化能力。arXiv 24.6 [论文] [代码]
OccSora: 作为自动驾驶世界模拟器的4D占用生成模型。arXiv 24.5 [论文] [代码]
MagicDrive3D: 用于街景任意视角渲染的可控3D生成。arXiv 24.5 [论文] [代码]
CarDreamer: 基于世界模型的自动驾驶开源学习平台。arXiv 24.5 [论文] [代码]
[DriveSim] 探索将多模态大语言模型用作驾驶世界模型。arXiv 24.5 [论文] [代码]
LidarDM: 在生成的世界中进行生成式激光雷达仿真。arXiv 24.4 [论文] [代码]
SubjectDrive: 通过主体控制在自动驾驶中扩展生成数据。arXiv 24.3 [论文] [项目]
DriveDreamer-2: 基于大语言模型增强的世界模型，用于多样化的驾驶视频生成。arXiv 24.3 [论文] [代码]

2023年

TrafficBots: 面向自动驾驶仿真与运动预测的世界模型。ICRA 23 [论文] [代码]
[CTT] 分类交通Transformer：基于标记化潜在空间的可解释且多样化的行为预测。arXiv 23.11 [论文]
MUVO: 基于几何表示的多模态生成式世界模型，用于自动驾驶。arXiv 23.11 [论文]
GAIA-1: 用于自动驾驶的生成式世界模型。arXiv 23.9 [论文]
ADriver-I: 一种通用的自动驾驶世界模型。arXiv 23.9 [论文]
UniWorld: 基于世界模型的自动驾驶预训练。arXiv 23.8 [论文] [代码]

2022年

[MILE] 面向城市驾驶的基于模型的模仿学习。NeurIPS 22 [论文] [代码]
Symphony: 学习用于自动驾驶仿真的真实且多样化智能体。ICRA 22 [论文]
自动驾驶规划中的层次化基于模型的模仿学习。IROS 22 [论文]

其他世界模型论文

2026年

8个Token中的规划：用于潜在世界模型的紧凑离散分词器。CVPR 26 [论文]
GeoWorld：几何世界模型。CVPR 26 [论文] [项目]
[EAWM] 从观测到事件：面向强化学习的事件感知世界模型。ICLR 26 [论文] [代码]
R2-Dreamer：无需解码器或数据增强的降冗余世界模型。ICLR 26 [论文] [代码]
NeuroHex：用于构建世界模型以实现自适应AI的高度高效的六边形坐标系。NICE 26 [论文]
面向在静态环境之外可靠学习、验证和适应的智能体的基础世界模型。AAMAS 26 [论文]
世界模型中的概率性梦境生成。ICLRW 26 [论文]
由局部到整体：具有自适应结构层次的3D生成式世界模型。ICME 26 [论文]
基于JEPA世界模型的价值引导行动规划。世界建模研讨会 26 [论文]
自监督多模态世界模型，带有4D时空嵌入。世界建模研讨会 26 [论文] [项目]
用于可靠人机协作的显式世界模型。AAAIW 26 [论文]
[HyDRA] 眼不见心不烦：动态视频世界模型的混合记忆。arXiv 26.3 [论文] [代码] [项目]
持久化机器人世界模型：通过强化学习稳定多步回放缓冲区。arXiv 26.3 [论文]
MMaDA-VLA：具有统一多模态指令与生成能力的大规模扩散视觉-语言-动作模型。arXiv 26.3 [论文]
ABot-PhysWorld：面向物理对齐的机器人操作任务的交互式世界基础模型。arXiv 26.3 [论文]
Describe-Then-Act：通过蒸馏的语言-动作世界模型进行主动式智能体引导。arXiv 26.3 [论文]
基于可微世界模型的模型预测控制，用于离线强化学习。arXiv 26.3 [论文]
WorldCache：面向加速视频世界模型的内容感知缓存。arXiv 26.3 [论文] [代码]
ThinkJEPA：利用大型视觉-语言推理模型增强潜在世界模型。arXiv 26.3 [论文]
Omni-WorldBench：迈向全面的以交互为中心的世界模型评估。arXiv 26.3 [论文]
世界动作模型是否比VLA更具泛化能力？一项鲁棒性研究。arXiv 26.3 [论文]
InSpatio-WorldFM：一个开源的实时生成式帧模型。arXiv 26.3 [论文] [项目]
[VEGA-3D] 生成模型懂得空间：释放隐式3D先验知识以理解场景。arXiv 26.3 [论文] [代码]
AcceRL：一个面向视觉-语言-动作模型的分布式异步强化学习与世界模型框架。arXiv 26.3 [论文]
EVA：通过逆动力学奖励将视频世界模型与可执行的机器人动作对齐。arXiv 26.3 [论文] [项目]
立体世界模型：相机引导的立体视频生成。arXiv 26.3 [论文] [项目]
GigaWorld-Policy：一种高效的动作中心世界—动作模型。arXiv 26.3 [论文]
MosaicMem：用于可控视频世界模型的混合空间记忆。arXiv 26.3 [论文] [项目]
DreamPlan：通过视频世界模型高效地对视觉-语言规划器进行强化学习微调。arXiv 26.3 [论文] [项目]
仿真蒸馏：在仿真环境中预训练世界模型，以快速适应真实世界。arXiv 26.3 [论文] [项目]
ResWM：用于视觉强化学习的残差动作世界模型。arXiv 26.3 [论文]
World2Act：通过技能组合型世界模型进行潜在动作的后训练。arXiv 26.3 [论文] [项目]
RAE-NWM：密集视觉表征空间中的导航世界模型。arXiv 26.3 [论文] [代码]
MWM：面向动作条件一致预测的移动世界模型。arXiv 26.3 [论文]
DreamSAC：通过探索对称性学习哈密顿世界模型。arXiv 26.3 [论文]
LiveWorld：在生成式视频世界模型中模拟不可见的动力学。arXiv 26.3 [论文]
WorldCache：通过异构标记缓存免费加速世界模型。arXiv 26.3 [论文] [项目]
无需世界模型即可获取世界属性：从静态词嵌入中的共现统计中恢复时空结构。arXiv 26.3 [论文]
超越像素历史：具有持久3D状态的世界模型。arXiv 26.3 [论文]
DreamWorld：视频生成中的统一世界建模。arXiv 26.3 [论文]
MetaOthello：Transformer中多种世界模型的对照研究。arXiv 26.2 [论文]
一致性三元组作为通用世界模型的定义原则。arXiv 26.2 [论文]
UCM：通过时间感知的位置编码扭曲，将相机控制与记忆统一起来，用于世界模型。arXiv 26.2 [论文] [项目]
CWM：用于具身智能体流水线中动作可行性学习的对比世界模型。arXiv 26.2 [论文]
Solaris：在Minecraft中构建多人视频世界模型。arXiv 26.2 [论文] [项目]
当世界模型梦错了时：针对世界模型的物理条件对抗攻击。arXiv 26.2 [论文]
学习不变的视觉表征，用于结合嵌入的预测性世界模型进行规划。arXiv 26.2 [论文]
因子分解的潜在动作世界模型。arXiv 26.2 [论文]
[DreamZero] 世界动作模型就是零样本策略。arXiv 26.2 [论文] [项目]
VLM-DEWM：用于制造业中可验证且稳健的视觉-语言规划的动态外部世界模型。arXiv 26.2 [论文]
自监督的基于JEPA的世界模型，用于LiDAR占用率补全与预测。arXiv 26.2 [论文]
GigaBrain-0.5M：一款基于世界模型强化学习的VLA。arXiv 26.2 [论文] [项目]
VLAW：视觉-语言-动作策略与世界模型的迭代协同改进。arXiv 26.2 [论文] [项目]
为层级式操控策略扩展世界模型。arXiv 26.2 [论文] [项目]
说、梦、做：学习用于指令驱动型机器人操作的视频世界模型。arXiv 26.2 [论文]
Olaf-World：为视频世界建模定向潜在动作。arXiv 26.2 [论文] [项目]
VLA-JEPA：用潜在世界模型增强视觉-语言-动作模型。arXiv 26.2 [论文]
Agent World Model：面向代理式强化学习的无限合成环境。arXiv 26.2 [论文] [代码]
MVISTA-4D：视图一致的4D世界模型，可在测试时推断动作，用于机器人操作。arXiv 26.2 [论文]
Hand2World：通过自由空间手势自回归地生成第一人称交互。arXiv 26.2 [论文] [项目]
WorldArena：一个用于评估具身世界模型感知能力和功能效用的统一基准。arXiv 26.2 [论文]
MIND：评估世界模型中的内存一致性与动作控制。arXiv 26.2 [论文] [代码]
跨视角世界模型。arXiv 26.2 [论文]
在视频世界模型中解释物理规律。arXiv 26.2 [论文]
DreamDojo：来自大规模人类视频的通用机器人世界模型。arXiv 26.2 [论文] [项目]
World-VLA-Loop：视频世界模型与VLA策略的闭环学习。arXiv 26.2 [论文] [项目]
利用潜在动作进行自我改进的世界建模。arXiv 26.2 [论文]
BridgeV2W：通过具身掩码将视频生成模型与具身世界模型连接起来。arXiv 26.2 [论文] [项目]
LIVE：长时程交互式视频世界建模。arXiv 26.2 [论文]
[Lingbot-World] 推进开源世界模型。arXiv 26.1 [论文] [代码]
[Lingbot-VA] 用于机器人控制的因果世界建模。arXiv 26.1 [论文] [代码]
PathWise：通过世界模型规划，借助自我进化LLM实现自动化启发式设计。arXiv 26.1 [论文]
WorldBench：为诊断评估世界模型而消除物理歧义。arXiv 26.1 [论文] [项目]
视觉生成通过多模态世界模型解锁类人推理能力。arXiv 26.1 [论文] [项目]
PhysicsMind：为底层VLM和世界模型中的物理推理与预测提供仿真与真实力学基准测试。arXiv 26.1 [论文]
Boltzmann-GPT：连接基于能量的世界模型与语言生成。arXiv 26.1 [论文]
MetaWorld：在高层指令接地方面的技能迁移与组合，通过层级式世界模型实现。arXiv 26.1 [论文] [项目]
通过知识丰富的经验学习来对齐代理式世界模型。arXiv 26.1 [论文]
VJEPA：变分联合嵌入预测架构作为概率性世界模型。arXiv 26.1 [论文]
穿行于画作之中：来自互联网先验知识的第一人称世界模型。arXiv 26.1 [论文]
从生成引擎到可行动的模拟器：世界模型中物理接地的重要性。arXiv 26.1 [论文]
一种高效且多模态的单步世界模型导航系统。arXiv 26.1 [论文]
ReWorld：面向具身世界模型的多维奖励建模。arXiv 26.1 [论文]
动作夏普利值：用于强化学习中世界模型的训练数据选择指标。arXiv 26.1 [论文]
在推断时将视频生成模型与潜在世界模型的物理特性对齐。arXiv 26.1 [论文]
先想象再规划：智能体通过世界模型进行自适应前瞻学习。arXiv 26.1 [论文]
用于3D人体运动预测的语义信念状态世界模型。arXiv 26.1 [论文]
PointWorld：为野外机器人操作扩展3D世界模型。arXiv 26.1 [论文] [项目]
当前智能体未能将世界模型用作预见未来的工具。arXiv 26.1 [论文]
MobileDreamer：面向GUI智能体的生成式草图世界模型。arXiv 26.1 [论文]
哇，哇，哇！一场全面的具身世界模型评估图灵测试。arXiv 26.1 [论文]
VerseCrafter：具有4D几何控制的动态逼真视频世界模型。arXiv 26.1 [论文] [项目]
在野外学习潜在动作世界模型。arXiv 26.1 [论文]
以对象为中心的世界模型与蒙特卡洛树搜索相遇。arXiv 26.1 [论文]
解开谜题：面向离线多智能体强化学习的局部到全局世界模型。arXiv 26.1 [论文]
关于问题空间作为系统工程中语义世界模型的形式化理论。arXiv 26.1 [论文]
流等变世界模型：用于部分可观测动态环境的记忆。arXiv 26.1 [论文] [项目]
NeoVerse：利用野外单目视频增强4D世界模型。arXiv 26.1 [论文] [项目]
是什么驱动了结合嵌入的预测性世界模型在物理规划中的成功？arXiv 26.1 [论文]
AlignUSER：通过世界模型使LLM智能体与人类对齐，用于推荐系统评估。arXiv 26.1 [论文]

2025

[DreamerV3] Mastering Diverse Domains through World Models. Nature [Paper] [JAX Code]
3D4D: An Interactive, Editable, 4D World Model via 3D Video Generation. AAAI 25 [Paper]
Object-Centric World Models for Causality-Aware Reinforcement Learning. AAAI 26 [Paper]
Foundation Models as World Models: A Foundational Study in Text-Based GridWorlds. NeurIPSW 25 [Paper]
Language-conditioned world model improves policy generalization by reading environmental descriptions. NeurIPSW 25 [Paper]
NavMorph: A Self-Evolving World Model for Vision-and-Language Navigation in Continuous Environments. ICCV 25 [Paper] [Code]
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation ICCV 25 [Paper] [Project]
FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making. ICML 25 [Paper] [Project]
General agents need world models. ICML 25 [Paper]
What Has a Foundation Model Found? Using Inductive Bias to Probe for World Models. ICML 25 [Paper]
Continual Reinforcement Learning by Planning with Online World Models. ICML 25 [Paper]
PIGDreamer: Privileged Information Guided World Models for Safe Partially Observable Reinforcement Learning. ICML 25 [Paper]
[NWM] Navigation World Models. CVPR 25 Best Paper Honorable Mention Yann LeCun [Paper] [Project]
[PrediCIR] Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval. CVPR 25 [Paper] [Code]
[MoSim] Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning. CVPR 25 [Paper]
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models. CVPR 25 [Paper] [Project]
EchoWorld: Learning Motion-Aware World Models for Echocardiography Probe Guidance. CVPR 25 [Paper] [Code]
DiWA: Diffusion Policy Adaptation with World Models. CoRL 25 [Paper] [Project]
Simulating Before Planning: Constructing Intrinsic User World Model for User-Tailored Dialogue Policy Planning. SIGIR 25 [Paper]
LS-Imagine: Open-World Reinforcement Learning over Long Short-Term Imagination. ICLR 25 Oral [Paper] [Code]
DC-MPC: Discrete Codebook World Models for Continuous Control. ICLR 25 [Paper] [Code]
[SGF] Simple, Good, Fast: Self-Supervised World Models Free of Baggage. ICLR 25 [Paper] [Code]
ManiGaussian++: General Robotic Bimanual Manipulation with Hierarchical Gaussian World Model. IROS 25 [Paper] [Code]
SCMA: Self-Consistent Model-based Adaptation for Visual Reinforcement Learning. IJCAI 25 [Paper]
Surfer: A World Model-Based Framework for Vision-Language Robot Manipulation. TNNLS 25 [Paper]
Probing the effectiveness of World Models for Spatial Reasoning through Test-time Scaling. World Modeling Workshop 26 [Paper] [Code]
On Memory: A comparison of memory mechanisms in world models. World Modeling Workshop 26 [Paper]
Zero-Splat TeleAssist: A Zero-Shot Pose Estimation Framework for Semantic Teleoperation. ICRAW 25 [Paper]
Act2Goal: From World Model To General Goal-conditioned Policy. arXiv 25.12 [Paper]
Web World Models. arXiv 25.12 [Paper]
[LEWM] Large Emotional World Model. arXiv 25.12 [Paper]
World model inspired sarcasm reasoning with large language model agents. arXiv 25.12 [Paper]
TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model. arXiv 25.12 [Paper]
Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space. arXiv 25.12 [Paper]
Yume-1.5: A Text-Controlled Interactive World Generation Model. arXiv 25.12 [Paper]
[ORCA] Active Intelligence in Video Avatars via Closed-loop World Modeling. arXiv 25.12 [Paper] [Project]
From Word to World: Can Large Language Models be Implicit Text-based World Models?. arXiv 25.12 [Paper]
A Unified Definition of Hallucination, Or: It's the World Model, Stupid. arXiv 25.12 [Paper]
AstraNav-World: World Model for Foresight Control and Consistency. arXiv 25.12 [Paper]
ChronoDreamer: Action-Conditioned World Model as an Online Simulator for Robotic Planning. arXiv 25.12 [Paper]
STORM: Search-Guided Generative World Models for Robotic Manipulation. arXiv 25.12 [Paper]
Dexterous World Models. arXiv 25.12 [Paper] [Project]
WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling. arXiv 25.12 [Paper] [Project]
Motus: A Unified Latent Action World Model. arXiv 25.12 [Paper]
LongVie 2: Multimodal Controllable Ultra-Long Video World Model. arXiv 25.12 [Paper]
World Models Can Leverage Human Videos for Dexterous Manipulation. arXiv 25.12 [Paper]
World Models Unlock Optimal Foraging Strategies in Reinforcement Learning Agents. arXiv 25.12 [Paper]
VFMF: World Modeling by Forecasting Vision Foundation Model Features. arXiv 25.12 [Paper] [Code]
VDAWorld: World Modelling via VLM-Directed Abstraction and Simulation. arXiv 25.12 [Paper] [Project]
The Double Life of Code World Models: Provably Unmasking Malicious Behavior Through Execution Traces. arXiv 25.12 [Paper]
KAN-Dreamer: Benchmarking Kolmogorov-Arnold Networks as Function Approximators in World Models. arXiv 25.12 [Paper]
CLARITY: Medical World Model for Guiding Treatment Decisions by Modeling Context-Aware Disease Trajectories in Latent Space. arXiv 25.12 [Paper]
Embodied Tree of Thoughts: Deliberate Manipulation Planning with Embodied World Model. arXiv 25.12 [Paper] [Project]
Deterministic World Models for Verification of Closed-loop Vision-based Systems. arXiv 25.12 [Paper]
Closing the Train-Test Gap in World Models for Gradient-Based Planning. arXiv 25.12 [Paper]
Latent Action World Models for Control with Unlabeled Trajectories. arXiv 25.12 [Paper]
Evaluating Gemini Robotics Policies in a Veo World Simulator. arXiv 25.12 [Paper]
Astra: General Interactive World Model with Autoregressive Denoising. arXiv 25.12 [Paper] [Code]
Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform. arXiv 25.12 [Paper]
- Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems. arXiv 25.12 [Paper]
Learning Robot Manipulation from Audio World Models. arXiv 25.12 [Paper]
FieldSeer I: Physics-Guided World Models for Long-Horizon Electromagnetic Dynamics under Partial Observability. arXiv 25.12 [Paper]
World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty. arXiv 25.12 [Paper]
Speech World Model: Causal State-Action Planning with Explicit Reasoning for Speech. arXiv 25.12 [Paper]
BiTAgent: A Task-Aware Modular Framework for Bidirectional Coupling between Multimodal Large Language Models and World Models. arXiv 25.12 [Paper]
AdaPower: Specializing World Foundation Models for Predictive Manipulation. arXiv 25.12 [Paper]
RoboScape-R: Unified Reward-Observation World Models for Generalizable Robotics Training via RL. arXiv 25.12 [Paper]
RELIC: Interactive Video World Model with Long-Horizon Memory. arXiv 25.12 [Paper]
Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound. arXiv 25.12 [Paper]
Better World Models Can Lead to Better Post-Training Performance. arXiv 25.12 [Paper]
VCWorld: A Biological World Model for Virtual Cell Simulation. arXiv 25.12 [Paper]
NavForesee: A Unified Vision-Language World Model for Hierarchical Planning and Dual-Horizon Navigation Prediction. arXiv 25.12 [Paper]
GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment. arXiv 25.12 [Paper]
The brain-AI convergence: Predictive and generative world models for general-purpose computation. arXiv 25.12 [Paper]
WorldPack: Compressed Memory Improves Spatial Consistency in Video World Modeling. arXiv 25.12 [Paper]
VISTAv2: World Imagination for Indoor Vision-and-Language Navigation. arXiv 25.11 [Paper]
Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model. arXiv 25.11 [Paper] [Project]
SmallWorlds: Assessing Dynamics Understanding of World Models in Isolated Environments. arXiv 25.11 [Paper]
Thinking by Doing: Building Efficient World Model Reasoning in LLMs via Multi-turn Interaction. arXiv 25.11 [Paper]
TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos. arXiv 25.11 [Paper]
GigaWorld-0: World Models as Data Engine to Empower Embodied AI. arXiv 25.11 [Paper]
4DWorldBench: A Comprehensive Evaluation Framework for 3D/4D World Generation Models. arXiv 25.11 [Paper]
Thinking Ahead: Foresight Intelligence in MLLMs and World Models. arXiv 25.11 [Paper]
Counterfactual World Models via Digital Twin-conditioned Video Diffusion. arXiv 25.11 [Paper]
RynnVLA-002: A Unified Vision-Language-Action and World Model. arXiv 25.11 [Paper]
Beyond Generative AI: World Models for Clinical Prediction, Counterfactuals, and Planning. arXiv 25.11 [Paper]
X-WIN: Building Chest Radiograph World Model via Predictive Sensing. arXiv 25.11 [Paper]
IPR-1: Interactive Physical Reasoner. arXiv 25.11 [Paper]
NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards. arXiv 25.11 [Paper] [Code]
Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos. arXiv 25.11 [Paper]
PragWorld: A Benchmark Evaluating LLMs' Local World Model under Minimal Linguistic Alterations and Conversational Dynamics. arXiv 25.11 [Paper]
Latent-Space Autoregressive World Model for Efficient and Robust Image-Goal Navigation. arXiv 25.11 [Paper]
Scalable Policy Evaluation with Video World Models. arXiv 25.11 [Paper]
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models. arXiv 25.11 [Paper]
ViPRA: Video Prediction for Robot Actions. arXiv 25.11 [Paper]
Dynamic Sparsity: Challenging Common Sparsity Assumptions for Learning World Models in Robotic Reinforcement Learning Benchmarks. arXiv 25.11 [Paper]
LLM-as-a-Judge: Toward World Models for Slate Recommendation Systems. arXiv 25.11 [Paper]
DR. WELL: Dynamic Reasoning and Learning with Symbolic World Model for Embodied LLM-Based Multi-Agent Collaboration. arXiv 25.11 [Paper]
WorldPlanner: Monte Carlo Tree Search and MPC with Action-Conditioned Visual World Models. arXiv 25.11 [Paper]
Natural Building Blocks for Structured World Models: Theory, Evidence, and Scaling. arXiv 25.11 [Paper]
Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning. arXiv 25.11 [Paper]
How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment. arXiv 25.11 [Paper]
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model. arXiv 25.11 [Paper]
Co-Evolving Latent Action World Models. arXiv 25.10 [Paper]
Emu3.5: Native Multimodal Models are World Learners. arXiv 25.10 [Paper]
Clone Deterministic 3D Worlds with Geometrically-Regularized World Models. arXiv 25.10 [Paper]
Semantic Communications with World Models. arXiv 25.10 [Paper]
Dual-Mind World Models: A General Framework for Learning in Dynamic Wireless Networks. arXiv 25.10 [Paper]
Deductive Chain-of-Thought Augmented Socially-aware Robot Navigation World Model. arXiv 25.10 [Paper]
Deep Active Inference with Diffusion Policy and Multiple Timescale World Model for Real-World Exploration and Navigation. arXiv 25.10 [Paper]
Vector Quantization in the Brain: Grid-like Codes in World Models. arXiv 25.10 [Paper]
Zero-shot World Models via Search in Memory. arXiv 25.10 [Paper]
VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents. arXiv 25.10 [Paper] [Project]
World-in-World: World Models in a Closed-Loop World. arXiv 25.10 [Paper]
Higher Embedding Dimension Creates a Stronger World Model for a Simple Sorting Task. arXiv 25.10 [Paper]
Social World Model-Augmented Mechanism Design Policy Learning. arXiv 25.10 [Paper]
ProTerrain: Probabilistic Physics-Informed Rough Terrain World Modeling. arXiv 25.10 [Paper]
GigaBrain-0: A World Model-Powered Vision-Language-Action Model. arXiv 25.10 [Paper] [Project]
Benchmarking World-Model Learning. arXiv 25.10 [Paper]
Semantic World Models. arXiv 25.10 [Paper] [Project]
World Models Should Prioritize the Unification of Physical and Social Dynamics. arXiv 25.10 [Paper]
From Masks to Worlds: A Hitchhiker's Guide to World Models. arXiv 25.10 [Paper]
Rethinking the Simulation vs. Rendering Dichotomy: No Free Lunch in Spatial World Modelling. NeurIPSW 25 [Paper]
How Hard is it to Confuse a World Model? arXiv 25.10 [Paper]
DreamerV3-XP: Optimizing exploration through uncertainty estimation. arXiv 25.10 [Paper]
PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis. arXiv 25.10 [Paper]
Terra: Explorable Native 3D World Model with Point Latents. arXiv 25.10 [Paper] [Project]
R-WoM: Retrieval-augmented World Model For Computer-use Agents. arXiv 25.10 [Paper]
One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration. arXiv 25.10 [Paper] [Project]
Deep SPI: Safe Policy Improvement via World Models. arXiv 25.10 [Paper]
DREAMer-VXS: A Latent World Model for Sample-Efficient AGV Exploration in Stochastic, Unobserved Environments. arXiv 25.10 [Paper]
Ego-Vision World Model for Humanoid Contact Planning. arXiv 25.10 [Paper] [Project]
Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation. arXiv 25.10 [Paper]
What You Don't Know Can Hurt You: How Well do Latent Safety Filters Understand Partially Observable Safety Constraints? arXiv 25.10 [Paper]
Generative World Modelling for Humanoids: 1X World Model Challenge Technical Report. arXiv 25.10 [Paper]
WristWorld: Generating Wrist-Views via 4D World Models for Robotic Manipulation. arXiv 25.10 [Paper]
Ctrl-World: A Controllable Generative World Model for Robot Manipulation. arXiv 25.10 [Paper]
Active Confusion Expression in Large Language Models: Leveraging World Models toward Better Social Reasoning. arXiv 25.10 [Paper]
VideoVerse: How Far is Your T2V Generator from a World Model? arXiv 25.10 [Paper]
Internal World Models as Imagination Networks in Cognitive Agents. arXiv 25.10 [Paper]
Code World Models for General Game Playing. arXiv 25.10 [Paper]
Spatiotemporal Forecasting as Planning: A Model-Based Reinforcement Learning Approach with Generative World Models. arXiv 25.10 [Paper]
MorphoSim: An Interactive, Controllable, and Editable Language-guided 4D World Simulator. arXiv 25.10 [Paper] [Code]
Bridging the Gap Between Multimodal Foundation Models and World Models. arXiv 25.10 [Paper]
Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft. arXiv 25.10 [Paper] [Project]
A Recipe for Efficient Sim-to-Real Transfer in Manipulation with Online Imitation-Pretrained World Models. arXiv 25.10 [Paper]
CWM: An Open-Weights LLM for Research on Code Generation with World Models. arXiv 25.9 [Paper]
FantasyWorld: Geometry-Consistent World Modeling via Unified Video and 3D Prediction. arXiv 25.9 [Paper]
LongScape: Advancing Long-Horizon Embodied World Models with Context-Aware MoE. arXiv 25.9 [Paper] [Code]
LongLive: Real-time Interactive Long Video Generation. arXiv 25.9 [Paper] [Code]
MoWM: Mixture-of-World-Models for Embodied Planning via Latent-to-Pixel Feature Modulation. arXiv 25.9 [Paper]
Context and Diversity Matter: The Emergence of In-Context Learning in World Models. arXiv 25.9 [Paper]
WoW: Towards a World omniscient World model Through Embodied Interaction. arXiv 25.9 [Paper]
KeyWorld: Key Frame Reasoning Enables Effective and Efficient World Models. arXiv 25.9 [Paper] [Code]
[Voe 3] Video models are zero-shot learners and reasoners. arXiv 25.9 [Paper] [Project]
World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation. arXiv 25.9 [Paper] [Project]
Remote Sensing-Oriented World Model. arXiv 25.9 [Paper]
SAMPO: Scale-wise Autoregression with Motion PrOmpt for generative world models. arXiv 25.9 [Paper]
[PIWM] Enhancing Physical Consistency in Lightweight World Models. arXiv 25.9 [Paper] [Project]
LLM-JEPA: Large Language Models Meet Joint Embedding Predictive Architectures. arXiv 25.9 [Paper] [Code]
PhysicalAgent: Towards General Cognitive Robotics with Foundation World Models. arXiv 25.9 [Paper]
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling. arXiv 25.9 [Paper] [Project]
UnifoLM-WMA-0: A World-Model-Action (WMA) Framework under UnifoLM Family. Unitree [Code]
One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning. arXiv 25.9 [Paper]
Language-Driven Hierarchical Task Structures as Explicit World Models for Multi-Agent Learning. arXiv 25.9 [Paper]
LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation. arXiv 25.9 [Paper] [Demo]
Design and Optimization of Reinforcement Learning-Based Agents in Text-Based Games. arXiv 25.9 [Paper]
CausalARC: Abstract Reasoning with Causal World Models. arXiv 25.9 [Paper]
Planning with Reasoning using Vision Language World Model. arXiv 25.9 [Paper]
Learning an Adversarial World Model for Automated Curriculum Generation in MARL. arXiv 25.9 [Paper]
World Model Implanting for Test-time Adaptation of Embodied Agents. arXiv 25.9 [Paper]
Social World Models. arXiv 25.8 [Paper]
[PEWM] Learning Primitive Embodied World Models: Towards Scalable Robotic Learning. arXiv 25.8 [Paper]
[DALI] Dynamics-Aligned Latent Imagination in Contextual World Models for Zero-Shot Generalization. arXiv 25.8 [Paper]
HERO: Hierarchical Extrapolation and Refresh for Efficient World Models. arXiv 25.8 [Paper]
Matrix-Game 2.0: An Open-Source, Real-Time, and Streaming Interactive World Model. arXiv 25.8 [Paper] [Code]
Visuomotor Grasping with World Models for Surgical Robots. arXiv 25.8 [Paper]
Genie 3: A new frontier for world models. Google DeepMind [Blog]
SimuRA: Towards General Goal-Oriented Agent via Simulative Reasoning Architecture with LLM-Based World Model. arXiv 25.7 [Paper]
CoEx -- Co-evolving World-model and Exploration. arXiv 25.7 [Paper]
What Does it Mean for a Neural Network to Learn a "World Model"? arXiv 25.7 [Paper]
Back to the Features: DINO as a Foundation for Video World Models. arXiv 25.7 [Paper]
HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels. 25.7 [Paper] [Code]
Yume: An Interactive World Generation Model. arXiv 25.7 [Paper] [Code]
LLM world models are mental: Output layer evidence of brittle world model use in LLM mechanical reasoning. arXiv 25.7 [Paper]
MindJourney: Test-Time Scaling with World Models for Spatial Reasoning. arXiv 25.7 [Paper] [Project]
Latent Policy Steering with Embodiment-Agnostic Pretrained World Models. arXiv 25.7 [Paper]
MobiWorld: World Models for Mobile Wireless Network. arXiv 25.7 [Paper]
[GWM] Graph World Model. arXiv 25.7 [Paper] [Code]
From Curiosity to Competence: How World Models Interact with the Dynamics of Exploration. arXiv 25.7 [Paper]
Martian World Models: Controllable Video Synthesis with Physically Accurate 3D Reconstructions. arXiv 25.7 [Paper] [Project]
Sekai: A Video Dataset towards World Exploration. arXiv 25.7 [Paper] [Project]
Dyn-O: Building Structured World Models with Object-Centric Representations. arXiv 25.7 [Paper]
Critiques of World Models. arXiv 25.7 [Paper]
[PEVA] Whole-Body Conditioned Egocentric Video Prediction. arXiv 25.6 [Paper] [Project]
World4Omni: A Zero-Shot Framework from Image Generation World Model to Robotic Manipulation. arXiv 25.6 [Paper]
ParticleFormer: A 3D Point Cloud World Model for Multi-Object, Multi-Material Robotic Manipulation. arXiv 25.6 [Paper] [Project]
RoboScape: Physics-informed Embodied World Model. arXiv 25.6 [Paper] [Code]
Embodied AI Agents: Modeling the World. arXiv 25.6 [Paper]
A "Good" Regulator May Provide a World Model for Intelligent Systems. arXiv 25.6 [Paper]
WorldVLA: Towards Autoregressive Action World Model. arXiv 25.6 [Paper] [Code]
MinD: Unified Visual Imagination and Control via Hierarchical World Models. arXiv 25.6 [Paper]
Transformer World Model for Sample Efficient Multi-Agent Reinforcement Learning. arXiv 25.6 [Paper]
[UNIVERSE] Adapting Vision-Language Models for Evaluating World Models. arXiv 25.6 [Paper]
TransDreamerV3: Implanting Transformer In DreamerV3. arXiv 25.6 [Paper]
Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control. arXiv 25.6 [Paper]
Measuring (a Sufficient) World Model in LLMs: A Variance Decomposition Framework. arXiv 25.6 [Paper]
GAF: Gaussian Action Field as a Dynamic World Model for Robotic Manipulation. arXiv 25.6 [Paper] [Project]
[UniVLA] Unified Vision-Language-Action Model. arXiv 25.6 [Paper]
Xray2Xray: World Model from Chest X-rays with Volumetric Context. arXiv 25.6 [Paper]
PlayerOne: Egocentric World Simulator. arXiv 25.6 [Paper] [Project]
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning. arXiv 25.6 Yann LeCun [Paper] [Project]
[TAWM] Time-Aware World Model for Adaptive Prediction and Control. arXiv 25.6 [Paper] [Code]
[XPM-WM] Efficient Generation of Diverse Cooperative Agents with World Models. arXiv 25.6 [Paper]
Video World Models with Long-term Spatial Memory. arXiv 25.6 [Paper] [Project]
DSG-World: Learning a 3D Gaussian World Model from Dual State Videos. arXiv 25.6 [Paper]
Safe Planning and Policy Optimization via World Model Learning. arXiv 25.6 [Paper]
3DFlowAction: Learning Cross-Embodiment Manipulation from 3D Flow World Model. arXiv 25.6 [Paper] [Code]
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models. arXiv 25.6 [Paper]
ORV: 4D Occupancy-centric Robot Video Generation. arXiv 25.6 [Paper] [Project]
DeepVerse: 4D Autoregressive Video Generation as a World Model. arXiv 25.6 [Paper] [Project]
Sparse Imagination for Efficient Visual World Model Planning. arXiv 25.6 [Paper]
Learning Abstract World Models with a Group-Structured Latent Space. arXiv 25.6 [Paper]
Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation. arXiv 25.6 [Paper] [Project]
WoMAP: World Models For Embodied Open-Vocabulary Object Localization. arXiv 25.6 [Paper]
[LoopNav] Toward Memory-Aided World Models: Benchmarking via Spatial Consistency. arXiv 25.5 [Paper] [Code] [Data]
Long-Context State-Space Video World Models. arXiv 25.5 [Paper]
Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents. arXiv 25.5 [Paper]
[WPE] Evaluating Robot Policies in a World Model. arXiv 25.5 [Paper] [Demo]
StateSpaceDiffuser: Bringing Long Context to Diffusion World Models. arXiv 25.5 [Paper]
[VRAG] Learning World Models for Interactive Video Generation. arXiv 25.5 [Paper]
JEDI: Latent End-to-end Diffusion Mitigates Agent-Human Performance Asymmetry in Model-Based Reinforcement Learning. arXiv 25.5 [Paper]
[FPWC] Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach. arXiv 25.5 [Paper]
[ForeDiff] Consistent World Models via Foresight Diffusion. arXiv 25.5 [Paper]
FLARE: Robot Learning with Implicit World Modeling. arXiv 25.5 [Paper] [Project]
[RWM] World Models as Reference Trajectories for Rapid Motor Adaptation. arXiv 25.5 [Paper]
RLVR-World: Training World Models with Reinforcement Learning. arXiv 25.5 [Paper] [Project]
Vid2World: Crafting Video Diffusion Models to Interactive World Models. arXiv 25.5 [Paper] [Project]
Causal Cartographer: From Mapping to Reasoning Over Counterfactual Worlds. arXiv 25.5 [Paper]
EWMBench: Evaluating Scene, Motion, and Semantic Quality in Embodied World Models. arXiv 25.5 [Paper] [Data&Code]
FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation. arXiv 25.5 [Paper] [Project]
[RoboOccWorld] Occupancy World Model for Robots. arXiv 25.5 [Paper]
seq-JEPA: Autoregressive Predictive Learning of Invariant-Equivariant World Models. arXiv 25.5 [Paper]
TesserAct: Learning 4D Embodied World Models. arXiv 25.4 [Paper] [Project]
ManipDreamer: Boosting Robotic Manipulation World Model with Action Tree and Visual Guidance. arXiv 25.4 [Paper]
[RWM-O] Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator. arXiv 25.4 [Paper]
PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation. arXiv 25.4 [Paper]
Adapting a World Model for Trajectory Following in a 3D Game. arXiv 25.4 [Paper]
Embodied World Models Emerge from Navigational Task in Open-Ended Environments. arXiv 25.4 [Paper]
MineWorld: a Real-Time and Open-Source Interactive World Model on Minecraft. arXiv 25.4 [Paper] [Code]
[UWM] Unified World Models: Coupling Video and Action Diffusion for Pretraining on Large Robotic Datasets. arXiv 25.4 [Paper] [Code]
Synthesizing world models for bilevel planning. arXiv 25.3 [Paper]
Aether: Geometric-Aware Unified World Modeling. arXiv 25.3 [Paper] [Project]
[MaaG] Model as a Game: On Numerical and Spatial Consistency for Generative Games. arXiv 25.3 [Paper]
DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation. arXiv 25.3 [Paper] [Project]
Cosmos-Transfer1 arXiv 25.3 [Paper] [Code]
Meta-Reinforcement Learning with Discrete World Models for Adaptive Load Balancing. ACMSE 25 [Paper]
[FAR] Long-Context Autoregressive Video Modeling with Next-Frame Prediction. arXiv 25.3 [Paper] [Project] [Code]
LUMOS: Language-Conditioned Imitation Learning with World Models. arXiv 25.3 [Paper] [Project]
World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning. arXiv 25.3 [Paper]
[WLA] Inter-environmental world modeling for continuous and compositional dynamics. arXiv 25.3 [Paper]
Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning. arXiv 25.3 [Paper]
WMNav: Integrating Vision-Language Models into World Models for Object Goal Navigation. arXiv 25.3 [Paper] [Code]
Toward Stable World Models: Measuring and Addressing World Instability in Generative Environments. arXiv 25.3 [Paper]
WorldModelBench: Judging Video Generation Models As World Models. arXiv 25.2 [Paper] [Project]
Multimodal Dreaming: A Global Workspace Approach to World Model-Based Reinforcement Learning. arXiv 25.2 [Paper]
Learning To Explore With Predictive World Model Via Self-Supervised Learning. arXiv 25.2 [Paper]
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation. arXiv 25.2 [Paper] [Project]
M^3 : A Modular World Model over Streams of Tokens. arXiv 25.2 [Paper] [Code]
When do Neural Networks Learn World Models?. arXiv 25.2 [Paper]
[DWS] Pre-Trained Video Generative Models as World Simulators. arXiv 25.2 [Paper]
DMWM: Dual-Mind World Model with Long-Term Imagination. arXiv 25.2 [Paper]
EvoAgent: Agent Autonomous Evolution with Continual World Model for Long-Horizon Tasks. arXiv 25.2 [Paper]
Generating Symbolic World Models via Test-time Scaling of Large Language Models. arXiv 25.2 [Paper]
[HMA] Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression. arXiv 25.2 [Paper] [Code] [Project]
UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent. arXiv 25.1 [Paper]
GLAM: Global-Local Variation Awareness in Mamba-based World Model. arXiv 25.1 [Paper] [Code]
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics. arXiv 25.1 [Paper]
GAWM: Global-Aware World Model for Multi-Agent Reinforcement Learning. arXiv 25.1 [Paper]
RoboHorizon: An LLM-Assisted Multi-View World Model for Long-Horizon Robotic Manipulation. arXiv 25.1 [Paper]
EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation. AgiBot arXiv 25.1 [Paper] [Website]
Cosmos World Foundation Model Platform for Physical AI. NVIDIA arXiv 25.1 [Paper] [Code]

2024

[SMAC] 基于生成式世界模型的多智能体决策问题的可信答案。NeurIPS 24 [论文]
[CoWorld] 将离线强化学习在线化：用于离线视觉强化学习的协作式世界模型。NeurIPS 24 [论文] [官网] [PyTorch代码]
[Diamond] 用于世界建模的扩散模型：Atari游戏中的视觉细节至关重要。NeurIPS 24 [论文] [代码]
PIVOT-R：面向机器人操作的基于基元的航点感知世界模型。NeurIPS 24 [论文]
[MUN] 用于无约束目标导航的世界模型学习。NeurIPS 24 [论文] [代码]
VidMan：利用视频扩散模型中的隐式动力学实现高效的机器人操作。NeurIPS 24 [论文]
自适应世界模型：在非平稳环境下通过潜在想象学习行为。NeurIPSW 24 [论文]
来自有限寿命智能体的隐式世界模型涌现。NeurIPSW 24 [论文]
GPT模型中的因果世界表征。NeurIPSW 24 [论文]
PreLAR：基于可学习动作表示的世界模型预训练。ECCV 24 [论文] [代码]
[CWM] 利用反事实世界建模理解物理动力学。ECCV 24 [论文] [代码]
ManiGaussian：用于多任务机器人操作的动态高斯泼溅技术。ECCV 24 [论文] [代码]
[DWL] 推进人形机器人行走：通过去噪世界模型学习掌握复杂地形。RSS 24（最佳论文奖决赛入围） [论文]
[LLM-Sim] 语言模型能否作为基于文本的世界模拟器？ACL [论文] [代码]
RoboDreamer：为机器人想象力学习组合式世界模型。ICML 24 [论文] [代码]
[Δ-IRIS] 基于上下文感知分词的高效世界模型。ICML 24 [论文] [代码]
AD3：隐式动作是世界模型区分多样化视觉干扰的关键。ICML 24 [论文]
Hieros：基于结构化状态空间序列的世界模型的层次化想象。ICML 24 [论文]
[HRSSM] 学习用于世界模型的鲁棒潜在动态表征。ICML 24 [论文] [代码]
HarmonyDream：世界模型内部的任务协调。ICML 24 [论文] [代码]
[REM] 通过并行观测预测改进基于标记的世界模型。ICML 24 [论文] [代码]
变压器世界模型是否能提供更好的策略梯度？ICML 24 [论文]
TD-MPC2：适用于连续控制的可扩展、鲁棒世界模型。ICLR 24 [论文] [PyTorch代码]
DreamSmooth：通过奖励平滑改进基于模型的强化学习。ICLR 24 [论文]
[R2I] 利用世界模型掌握记忆任务。ICLR 24 [论文] [JAX代码]
MAMBA：一种用于元强化学习的有效世界模型方法。ICLR 24 [论文] [代码]
基于视觉世界模型的多任务交互式机器人舰队学习。CoRL 24 [论文] [代码]
生成式涌现通信：大型语言模型是一种集体世界模型。arXiv 24.12 [论文]
朝着揭示和提升世界模型泛化能力的方向。arXiv 24.12 [论文]
迈向物理可解释的世界模型：用于视觉轨迹预测的有意义的弱监督表征。arXiv 24.12 [论文]
梦想操控：组合式世界模型赋能机器人模仿学习的想象力。arXiv 24.12 [论文] [项目]
变压器在迷宫求解任务中使用因果世界模型。arXiv 24.12 [论文]
Owl-1：用于一致长视频生成的全能世界模型。arXiv 24.12 [论文] [代码]
StoryWeaver：用于知识增强型故事角色定制的统一世界模型。arXiv 24.12 [论文] [代码]
SimuDICE：通过世界模型更新和DICE估计进行离线策略优化。BNAIC 24 [论文]
在软演员-评论家强化学习算法中利用世界模型不确定性进行有界探索。arXiv 24.12 [论文]
Genie 2：一个大规模的基础世界模型。24.12 Google DeepMind [博客]
矩阵：具有实时运动控制的无限时域世界生成。arXiv 24.12 [论文] [项目]
运动提示：通过运动轨迹控制视频生成。arXiv 24.12 [论文] [项目]
生成式世界探索者。arXiv 24.11 [论文] [项目]
[WebDreamer] 您的语言模型是否暗中充当互联网的世界模型？基于模型的网络智能体规划。arXiv 24.11 [论文] [代码]
WHALE：迈向具身决策的通用且可扩展的世界模型。arXiv 24.11 [论文]
DINO-WM：基于预训练视觉特征的世界模型支持零样本规划。arXiv 24.11 Yann LeCun [论文]
预训练智能体和世界模型的规模法则。arXiv 24.11 [论文]
[Phyworld] 视频生成距离世界模型还有多远：从物理定律角度看。arXiv 24.11 [论文] [项目]
IGOR：图像-目标表征是具身人工智能中基础模型的原子控制单元。arXiv 24.10 [论文] [项目]
EVA：用于未来视频预测的具身世界模型。arXiv 24.10 [论文]
VisualPredicator：利用神经符号谓词学习抽象世界模型，用于机器人规划。arXiv 24.10 [论文]
[LLMCWM] 语言智能体与因果关系——连接LLM和因果世界模型。arXiv 24.10 [论文] [代码]
用于在线模仿学习的免奖励世界模型。arXiv 24.10 [论文]
带有世界模型的网络智能体：在网络导航中学习和利用环境动力学。arXiv 24.10 [论文]
[GLIMO] 将大型语言模型嵌入到具有不完美世界模型的具身环境中。arXiv 24.10 [论文]
AVID：将视频扩散模型适配为世界模型。arXiv 24.10 [论文] [代码]
[WMP] 基于世界模型的视觉足式运动感知。arXiv 24.9 [论文] [项目]
[OSWM] 使用在合成先验上训练的变压器进行一次性世界模型构建。arXiv 24.9 [论文]
R-AIF：利用主动推理和世界模型从像素中解决稀疏奖励的机器人任务。arXiv 24.9 [论文]
在生成式世界模型中表示位置信息以进行物体操作。arXiv 24.9 [论文]
通过前提和效果知识将大型语言模型转化为世界模型。arXiv 24.9 [论文]
DexSim2Real$^2$：为精确的关节型物体灵巧操作构建显式世界模型。arXiv 24.9 [论文]
基于以对象为中心的抽象进行高效探索和判别性世界模型学习。arXiv 24.8 [论文]
[MoReFree] 世界模型提升强化学习的自主性。arXiv 24.8 [论文] [项目]
UrbanWorld：用于3D城市生成的城市世界模型。arXiv 24.7 [论文]
PWM：利用大型世界模型进行策略学习。arXiv 24.7 [论文] [代码]
预测 vs. 行动：世界建模与智能体建模之间的权衡。arXiv 24.7 [论文]
[GenRL] 多模态基础世界模型，用于通用具身智能体。arXiv 24.6 [论文] [代码]
[DLLM] 带有大型语言模型暗示的世界模型，用于目标达成。arXiv 24.6 [论文]
语言模型的认知地图：通过口头表征世界模型实现最优规划。arXiv 24.6 [论文]
CityBench：评估大型语言模型作为世界模型的能力。arXiv 24.6 [论文] [代码]
CoDreamer：基于沟通的去中心化世界模型。arXiv 24.6 [论文]
[EBWM] 受认知启发的能量驱动世界模型。arXiv 24.6 [论文]
评估生成模型中隐含的世界模型。arXiv 24.6 [论文] [代码]
变压器和槽位编码用于高效物理世界建模。arXiv 24.5 [论文] [代码]
[Puppeteer] 层次化世界模型作为视觉全身人形控制器。arXiv 24.5 Yann LeCun [论文] [代码]
BWArea Model：学习可控语言生成的世界模型、逆动力学和策略。arXiv 24.5 [论文]
潘多拉：迈向具有自然语言动作和视频状态的通用世界模型。[论文] [代码]
[WKM] 基于世界知识模型的智能体规划。arXiv 24.5 [论文] [代码]
牛顿™——首个用于理解物理世界的奠基模型。Archetype AI [博客]
竞争与组合：学习模块化世界模型的独立机制。arXiv 24.4 [论文]
MagicTime：延时视频生成模型作为变形模拟器。arXiv 24.4 [论文] [代码]
梦想多重世界：学习上下文世界模型有助于零样本泛化。arXiv 24.3 [论文] [代码]
V-JEPA：视频联合嵌入预测架构。Meta AI Yann LeCun [博客] [论文] [代码]
[IWM] 在视觉表征学习中学习和利用世界模型。Meta AI [论文]
Genie：生成式互动环境。DeepMind [论文] [博客]
[Sora] 视频生成模型作为世界模拟器。OpenAI [技术报告]
[LWM] 基于百万长度视频和语言、采用RingAttention的世界模型。arXiv 24.2 [论文] [代码]
使用世界模型集成进行规划。OpenReview [论文]
WorldDreamer：通过预测掩码标记，迈向用于视频生成的通用世界模型。arXiv 24.1 [论文] [代码]

2023

[IRIS] Transformer 是样本高效的环境模型。ICLR 23 口头报告 [论文] [PyTorch 代码]
STORM: 基于随机 Transformer 的强化学习高效环境模型。NIPS 23 [论文] [PyTorch 代码]
[TWM] 基于 Transformer 的环境模型仅需 10 万次交互即可取得良好效果。ICLR 23 [论文] [PyTorch 代码]
FOCUS: 面向机器人操作的对象中心环境模型 arXiv 23.7 [论文] [代码]
[Dynalang] 利用语言学习世界建模。arXiv 23.8 [论文] [代码]
[TAD] 面向强化学习任务泛化的任务感知梦想家。arXiv 23.3 [论文]

2022

[TD-MPC] 用于模型预测控制的时序差分学习。ICML 22 [论文][代码]
DreamerPro: 基于原型表征的无重建模型基础强化学习。ICML 22 [论文] [代码]
DayDreamer: 用于物理机器人学习的环境模型。CoRL 22 [论文] [代码]
从像素中进行深度层次规划。NIPS 22 [论文] [代码]
Iso-Dream: 在环境模型中隔离并利用不可控的视觉动态。NIPS 22 Spotlight [论文] [代码]
DreamingV2: 无需重建的离散环境模型强化学习。arXiv 22.3 [论文]

2021

[DreamerV2] 使用离散环境模型掌握 Atari 游戏。ICLR 21 [论文] [TensorFlow 代码] [PyTorch 代码]
Dreaming: 通过潜在想象实现无重建的基于模型的强化学习。ICRA 21 [论文]

2020

[DreamerV1] 梦想即控制：通过潜在想象学习行为。ICLR 20 [论文] [TensorFlow 代码] [PyTorch 代码]
[Plan2Explore] 通过自监督环境模型进行探索式规划。ICML 20 [论文] [TensorFlow 代码] [PyTorch 代码]

2018

环境模型。NIPS 2018 口头报告 [论文]

Awesome-World-Model 快速上手指南

Awesome-World-Model 并非一个可直接运行的单一软件库，而是一个专注于**自动驾驶与世界模型（World Models）**领域的开源论文、代码库、综述及基准测试的精选合集。本指南将帮助开发者快速利用该资源追踪前沿技术并获取相关模型的代码。

环境准备

由于本仓库主要收录的是不同研究团队的独立项目，因此没有统一的系统要求。在运行具体模型前，请确保满足以下通用前置条件：

操作系统：推荐 Linux (Ubuntu 18.04/20.04/22.04) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本：建议 Python 3.8 - 3.10（具体取决于目标模型的要求）。
硬件要求：大多数世界模型训练和推理需要 NVIDIA GPU (推荐显存 ≥ 16GB，如 RTX 3090/4090 或 A100)。
基础依赖：
- Git
- CUDA Toolkit (版本需与 PyTorch 匹配)
- Conda 或 Mamba (推荐用于管理不同项目的虚拟环境)

安装步骤

本仓库本身无需“安装”，只需克隆即可浏览列表。若要运行其中收录的具体模型（如 UniFuture, HERMES 等），请按以下步骤操作：

1. 克隆本仓库

获取最新的论文列表和代码链接：

git clone https://github.com/LMD0311/Awesome-World-Model.git
cd Awesome-World-Model

2. 选择并克隆目标模型

在 README.md 的 Papers 部分找到你感兴趣的模型（例如 UniFuture），点击其 Code 链接进入对应仓库。以 UniFuture 为例：

# 示例：克隆 UniFuture 项目
git clone https://github.com/dk-liang/UniFuture.git
cd UniFuture

3. 配置虚拟环境与依赖

注意：每个子项目都有独立的 requirements.txt 或 environment.yml，请务必在该项目目录下安装。

# 创建虚拟环境 (以 conda 为例)
conda create -n world_model python=3.9
conda activate world_model

# 安装 PyTorch (推荐使用国内镜像源加速)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装项目特定依赖
pip install -r requirements.txt

💡 国内加速建议：在安装依赖时，若遇到网络缓慢，可临时使用清华或阿里镜像源：
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

由于这是一个论文合集，"使用"通常指复现某个具体模型。以下是基于列表中典型项目（如 UniFuture 或 HERMES）的通用使用流程：

1. 数据准备

大多数自动驾驶世界模型需要特定的数据集（如 nuScenes, Argoverse 2）。

查阅目标项目 README 中的 "Data Preparation" 章节。
下载数据集并整理到指定目录结构。

2. 模型推理 (Inference)

大多数项目提供预训练权重。以下是一个典型的推理命令示例（具体参数请参考各子项目文档）：

# 示例：运行 UniFuture 进行未来场景生成
python tools/infer.py \
    --config configs/unifuture_nuscenes.py \
    --checkpoint checkpoints/unifuture.pth \
    --input_data data/nuscenes/samples \
    --output_dir outputs/predictions

3. 模型训练 (Training)

若需从头训练或微调，通常使用如下命令：

# 示例：启动分布式训练
python -m torch.distributed.launch --nproc_per_node=4 train.py \
    --config configs/train_config.py \
    --data_root /path/to/dataset

4. 查阅最新论文

若你想了解最新的技术动态而非立即运行代码，可直接访问仓库中的论文链接：

综述类：查看 Survey 章节下的 arXiv 链接（如 The Role of World Models in Shaping Autonomous Driving）。
最新模型：查看 2026 或 2025 章节，直接点击 Paper 阅读算法细节，点击 Project 查看演示视频。

提示：发现遗漏的优秀论文或代码？欢迎通过仓库的 Issues 或 Pull Requests 进行贡献。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|3天前

开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|今天

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频