awesome-model-based-RL

1.3k 76 非常简单 1 次阅读昨天Apache-2.0其他

AI 解读由 AI 自动生成，仅供参考

awesome-model-based-RL 是一个专为“基于模型的强化学习”（Model-Based RL）领域打造的精选资源库。它系统性地收集并整理了该方向的核心研究论文、经典算法分类、教程指南以及开源代码实现，旨在帮助从业者快速把握前沿动态。

在强化学习中，传统方法往往需要大量试错，而基于模型的方法通过构建环境模型来规划行动，能显著提升样本效率。然而，该领域文献浩如烟海且更新极快，研究者常面临资料分散、难以追踪最新成果的痛点。awesome-model-based-RL 正是为解决这一难题而生，它不仅持续收录来自 NeurIPS、ICML、ICLR 等顶级会议的最新论文（已更新至 2025 年），还提供了一份清晰的算法分类图谱，将复杂的技术路线梳理为“学习模型”与“利用模型”两大维度，帮助用户建立系统的知识框架。

这份资源特别适合人工智能研究人员、算法工程师以及对深度强化学习感兴趣的高校师生使用。无论是想要入门的新手，还是希望紧跟学术前沿的资深专家，都能在这里找到高质量的参考材料。其独特的价值在于持续的维护更新与结构化的知识整理，让探索高效强化学习之路变得更加清晰顺畅。

使用场景

某自动驾驶初创公司的算法团队正致力于开发基于模型的强化学习（MBRL）策略，以在仿真环境中高效训练车辆应对复杂路况。

没有 awesome-model-based-RL 时

文献检索如大海捞针：研究人员需手动在 arXiv、NeurIPS、ICML 等各大会议中筛选论文，耗时数周仍难以覆盖最新的前沿成果，极易遗漏关键突破。
技术路线梳理困难：面对“学习模型”与“利用模型”等不同流派，缺乏系统的分类指引，团队难以快速构建清晰的技术演进图谱，导致选型盲目。
复现成本高昂：找不到官方代码库或权威教程，新手往往需要从零摸索算法细节，大量时间浪费在调试基础环境而非核心创新上。
信息更新滞后：由于缺乏持续维护的渠道，团队无法及时获取如 2025 年最新顶会论文列表，技术栈容易与社区前沿脱节。

使用 awesome-model-based-RL 后

一站式获取前沿资源：团队直接查阅按年份和顶会（如 NeurIPS 2025、ICLR 2025）整理的论文清单，几分钟内即可锁定领域内最新的 SOTA 方法。
清晰的技术导航：借助仓库提供的算法分类图谱，研究人员迅速理清了 World Models、I2A 等经典与新兴算法的逻辑关系，精准定位适合自动驾驶场景的技术路线。
加速落地验证：通过集成的 Codebase 和 Tutorial 链接，工程师直接复用成熟的代码框架，将算法复现周期从数周缩短至几天，大幅降低试错成本。
同步社区脉搏：依托仓库的持续更新机制，团队能第一时间掌握每月新增的研究成果，确保技术方案始终处于行业领先地位。

awesome-model-based-RL 将原本分散、滞后的科研资源转化为结构化的知识引擎，极大提升了团队在模型基强化学习领域的研发效率与创新速度。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个模型基于强化学习（Model-Based RL）的研究论文列表和分类整理，并非可执行的软件工具或代码库。因此，它没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户仅需浏览器即可访问内容，若需运行列表中提及的具体算法代码，请参考各论文对应的原始代码仓库。

python未说明

快速开始

优秀的基于模型的强化学习

GitHub 星标 GitHub 分支

这是一个关于**基于模型的强化学习（mbrl）**的研究论文合集。该仓库将持续更新，以跟踪基于模型强化学习领域的最新进展。

欢迎关注并点赞！

[2025.12.01] 新增：我们更新了基于模型强化学习的 NeurIPS 2025 论文列表！

[2025.08.28] 我们更新了基于模型强化学习的 ICML 2025 论文列表。

[2025.02.06] 我们更新了基于模型强化学习的 ICLR 2025 论文列表。

[2024.10.27] 我们更新了基于模型强化学习的 NeurIPS 2024 论文列表。

[2024.05.20] 我们更新了基于模型强化学习的 ICML 2024 论文列表。

[2023.11.29] 我们更新了基于模型强化学习的 ICLR 2024 论文列表。

[2023.09.29] 我们更新了基于模型强化学习的 NeurIPS 2023 论文列表。

[2023.06.15] 我们更新了基于模型强化学习的 ICML 2023 论文列表。

[2023.02.05] 我们更新了基于模型强化学习的 ICLR 2023 论文列表。

[2022.11.03] 我们更新了基于模型强化学习的 NeurIPS 2022 论文列表。

[2022.07.06] 我们更新了基于模型强化学习的 ICML 2022 论文列表。

[2022.02.13] 我们更新了基于模型强化学习的 ICLR 2022 论文列表。

[2021.12.28] 我们发布了优秀的基于模型强化学习资源。

基于模型强化学习算法分类

在开始本节之前，我们先声明一点：要绘制一个准确且全面的基于模型强化学习算法分类体系确实非常困难，因为算法的模块化特性很难用树状结构来完整表达。因此，我们将发布一系列相关博客，以更深入地介绍各种基于模型强化学习算法。

现代基于模型强化学习中一种非详尽但实用的算法分类。

我们简单地将“基于模型强化学习”分为两大类：“学习模型”和“给定模型”。

“学习模型”主要关注如何构建环境模型。
“给定模型”则侧重于如何利用已学习到的模型。

如上图所示，我们给出了一些示例，并附上了相关算法的链接。

[1] World Models：Ha 和 Schmidhuber，2018年
[2] I2A（想象增强智能体）：Weber 等，2017年
[3] MBMF（结合无模型微调的基于模型强化学习）：Nagabandi 等，2017年
[4] MBVE（基于模型的价值扩展）：Feinberg 等，2018年
[5] ExIt（专家迭代）：Anthony 等，2017年
[6] AlphaZero：Silver 等，2017年
[7] POPLIN（基于模型的策略规划）：Wang 等，2019年
[8] M2AC（掩码式基于模型的演员-评论家）：Pan 等，2020年

论文

格式：
- [标题](论文链接) [链接]
  - 作者1、作者2和作者3
  - 关键点：关键问题和见解
  - OpenReview：可选
  - 实验环境：实验使用的环境

经典基于模型的强化学习论文

展开/折叠

Dyna：一种集成的学习、规划与反应架构
- 理查德·萨顿。ACM 1991
- 关键点：dyna架构
- 实验环境：无
PILCO：一种基于模型且数据高效的策略搜索方法
- 马克·彼得·戴森罗斯特，卡尔·爱德华·拉斯穆森。ICML 2011
- 关键点：概率动力学模型
- 实验环境：倒立摆系统，机器人独轮车
利用轨迹优化学习复杂的神经网络策略
- 谢尔盖·列维涅，弗拉季伦·科尔屯。ICML 2014
- 关键点：引导式策略搜索
- 实验环境：mujoco
通过随机价值梯度学习连续控制策略
- 尼古拉斯·海斯，格雷格·韦恩，大卫·西尔弗，蒂莫西·利利克拉普，尤瓦尔·塔萨，汤姆·埃雷兹。NIPS 2015
- 关键点：路径反向传播，真实轨迹上的梯度
- 实验环境：mujoco
价值预测网络
- 欧俊赫，萨廷德·辛格，李洪洛克。NIPS 2017
- 关键点：价值预测模型
- 实验环境：收集领域，atari
基于随机集成价值扩展的样本高效强化学习
- 雅各布·巴克曼，达尼雅尔·哈夫纳，乔治·塔克，尤金·布雷夫多，李洪洛克。NIPS 2018
- 关键点：集成模型与Q网络，价值扩展
- 实验环境：mujoco，roboschool
循环世界模型促进策略进化
- 大卫·哈，尤尔根·施密德胡伯。NIPS 2018
- 关键点：vae(表征)，rnn(预测模型)
- 实验环境：赛车，vizdoom
利用概率动力学模型在少数几次试验中实现深度强化学习
- 库特兰·丘阿，罗伯托·卡兰德拉，罗温·麦卡利斯特，谢尔盖·列维涅。NIPS 2018
- 关键点：带有轨迹采样的概率集成
- 实验环境：cartpole，mujoco
何时信任你的模型：基于模型的策略优化
- 迈克尔·詹纳，贾斯汀·傅，马文·张，谢尔盖·列维涅。NeurIPS 2019
- 关键点：集成模型，sac，k-分支展开
- 实验环境：mujoco
具有理论保证的基于模型深度强化学习算法框架
- 周平，许华哲，李元智，田元东，特雷弗·达雷尔，马腾宇。ICLR 2019
- 关键点：差异界设计，多步ME-TRPO，熵正则化
- 实验环境：mujoco
模型集成信任区域策略优化
- 塔纳德·库鲁塔奇，伊格纳西·克拉韦拉，严端，阿维夫·塔马尔，皮特·阿贝尔。ICLR 2018
- 关键点：集成模型，TRPO
- 实验环境：mujoco
从梦想到控制：通过潜在空间想象学习行为
- 达尼雅尔·哈夫纳，蒂莫西·利利克拉普，吉米·巴，穆罕默德·诺鲁齐。ICLR 2019
- 关键点：DreamerV1，潜在空间想象
- 实验环境：deepmind control suite，atari，deepmind lab
利用策略网络探索基于模型的规划
- 王婷武，吉米·巴。ICLR 2020
- 关键点：在动作空间和参数空间中进行基于模型的策略规划
- 实验环境：mujoco
通过规划已学习的模型掌握Atari、围棋、国际象棋和将棋
- 朱利安·施里特维瑟，伊万尼斯·安东格卢，托马斯·休伯特，卡伦·西蒙扬，洛朗·西弗，西蒙·施密特，阿瑟·格茨，爱德华·洛克哈特，德米斯·哈萨比斯，托雷·格雷佩尔，蒂莫西·利利克拉普，大卫·西尔弗。Nature 2020
- 关键点：MCTS，价值等价
- 实验环境：国际象棋，将棋，围棋，atari

NeurIPS 2025

展开/折叠

通过基于模型的强化学习中的对齐表征实现稳定规划
- 米萨格·索尔塔尼，福雷斯特·阿戈斯蒂内利。NeurIPS 2025
- 关键点：视觉规划，对齐表征，离散潜在状态，启发式搜索
- 实验环境：魔方，推箱子
RLVR-World：使用强化学习训练世界模型
- 龙明生等人。NeurIPS 2025
- 关键点：世界模型训练，决策感知，可验证奖励
- 实验环境：文字游戏，机器人操作
Dyn-O：利用以物体为中心的表征构建结构化世界模型
- 微软研究院等。NeurIPS 2025
- 关键点：结构化世界模型，以物体为中心，物理建模
- 实验环境：物理交互，物体操作
基于模型的探索增强的离策略强化学习
- 匿名作者等。NeurIPS 2025
- 关键点：探索，扩散模型，合成经验，数据增强
- 实验环境：mujoco，稀疏奖励任务
从扩散启发的角度重新审视多智能体世界建模
- 李秀等人。NeurIPS 2025
- 关键点：多智能体MBRL，扩散启发，序列建模，联合分布
- 实验环境：SMAC，MPE
SPiDR：一种用于模拟到现实迁移中零样本安全性的简单方法
- 亚登·阿斯，程锐·邱，本杰明·昂格尔，董浩·康，马克斯·范德哈特，莱希·史，斯特利安·科罗斯，亚当·维尔曼，安德烈亚斯·克劳斯。NeurIPS 2025
- 关键点：安全的MBRL，模拟到现实，集成不确定性，鲁棒控制
- 实验环境：现实世界机器人，safety gym
通过收敛到更平坦的极小值来改进基于模型的强化学习
- 施里尼瓦斯·拉马苏布拉马尼安，本杰明·弗里德，亚历山大·卡波内，杰夫·施奈德。NeurIPS 2025
- 关键点：模型误差，仿真引理，模型泛化
- 实验环境：DMC，Atari100k，HumanoidBench

ICML 2025

展开/折叠

提升用于数据高效强化学习的 Transformer 世界模型
- 作者：Antoine Dedieu、Joseph Ortiz、Xinghua Lou、Carter Wendelken、Wolfgang Lehrach、J Swaroop Guntupalli、Miguel Lazaro-Gredilla、Kevin Murphy
- 关键点：带预热的 Dyna 策略、最近邻补丁标记化、块教师强制
- OpenReview 评分：4, 4, 4, 3
- 实验环境：craftax-classic
窃取那顿免费午餐：揭示 Dyna 式强化学习的局限性
- 作者：Brett Barkley、David Fridovich-Keil
- 关键点：Dyna 式算法在大多数 DMC 环境中会显著降低性能。
- OpenReview 评分：4, 4, 3, 2
- 实验环境：gym、DeepMind Control Suite
持续基于模型的强化学习中的知识保留
- 作者：Haotian Fu、Yixiang Sun、Michael L. Littman、George Konidaris
- 关键点：合成经验回放、通过探索恢复记忆
- OpenReview 评分：4, 3, 3, 3
- 实验环境：mini-grid、deepmind control suite
面向自适应预测与控制的时间感知世界模型
- 作者：Anh N Nhu、Sanghyun Son、Ming Lin
- 关键点：根据时间步长 ∆t 进行条件建模，并在多种不同的 ∆t 值上进行训练
- OpenReview 评分：4, 3, 3
- 实验环境：meta-world 控制任务、PDE 控制任务
视频增强的离线强化学习：一种基于模型的方法
- 作者：Minting Pan、Yitao Zheng、Jiajian Li、Yunbo Wang、Xiaokang Yang
- 关键点：行为抽象网络、分层世界模型
- OpenReview 评分：3, 3, 3, 2
- 实验环境：meta-world、carla、minedojo
面向离线基于模型强化学习的时距感知转移增强
- 作者：Dongsu Lee、Minhae Kwon
- 关键点：学习一种潜在抽象，从轨迹和状态空间的转移层面捕捉时间距离。
- OpenReview 评分：4, 3, 3, 2
- 实验环境：D4RL、AntMaze、FrankaKitchen、CALVIN、基于像素的 FrankaKitchen。
PIGDreamer：面向安全部分可观测强化学习的特权信息引导世界模型
- 作者：Dongchi Huang、Jiaqi WANG、Yang Li、Chunhe Xia、Tianle Zhang、Kaige Zhang
- 关键点：通过特权表示对齐和非对称的演员-评论家结构来利用特权信息
- OpenReview 评分：3, 3, 3
- 实验环境：safety gymnasium benchmark、guard benchmark
用于在线模仿学习的无奖励世界模型
- 作者：Shangzhe Li、Zhiao Huang、Hao Su
- 关键点：无奖励世界模型、逆向软 Q 学习目标
- OpenReview 评分：4, 3, 3, 3
- 实验环境：DMControl、MyoSuite、ManiSkill2
FOUNDER：将基础模型嵌入世界模型，用于开放式具身决策
- 作者：Yucen Wang、Rui Yu、Shenghua Wan、Le Gan、De-Chuan Zhan
- 关键点：将 FM 表征嵌入 WM 状态空间，基于模型的目标条件强化学习
- OpenReview 评分：4, 3, 3, 3
- 实验环境：DMControl、Kitchen、minecraft
通过在线世界模型规划实现持续强化学习
- 作者：Zichen Liu、Guoji Fu、Chao Du、Wee Sun Lee、Min Lin
- 关键点：使用在线世界模型进行规划、后悔分析
- OpenReview 评分：4, 4, 4, 3
- 实验环境：ContinualBench
预训练智能体和世界模型的规模定律
- 作者：Tim Pearce*、Tabish Rashid*、David Bignell、Raluca Georgescu、Sam Devlin、Katja Hofmann
- 关键点：规模定律、具身 AI、行为克隆、世界建模、分词器、架构
- 实验环境：Bleeding Edge、RT-1（机器人）、Atari、NetHack
DINO-WM：基于预训练视觉特征的世界模型实现零样本规划
- 作者：Gaoyue Zhou、Hengkai Pan、Yann LeCun、Lerrel Pinto
- 关键点：世界模型、离线学习、零样本规划、预训练视觉特征、任务无关推理
- 实验环境：Maze、Wall、Reach、Push-T、绳索操作、颗粒物操作
通用智能体需要世界模型
- 作者：Jonathan Richens、Tom Everitt、David Abel
- 关键点：世界模型、目标导向行为、无模型学习、策略分析、后悔界
- 实验环境：具有不同采样轨迹和目标深度的合成受控马尔可夫过程（cMP）环境
RobustZero：提升 MuZero 强化学习对状态扰动的鲁棒性
- 作者：Yushuai Li、Hengyu Liu、Torben Bach Pedersen、Yuqiang He、Kim Guldstrand Larsen、Lu Chen、Christian S. Jensen、Jiachen Xu、Tianyi Li
- 关键点：MuZero、鲁棒性、强化学习、状态扰动、自监督学习、适应性调整
- 实验环境：CartPole、Pendulum、IEEE 34-bus、IEEE 123-bus、IEEE 8500-node、Highway、Intersection、Racetrack、Hopper、Walker2d、HalfCheetah、Ant
使用掩码潜在变换器实现准确高效的世界建模
- 作者：Maxime Burchi、Radu Timofte
- 关键点：基于模型的强化学习、世界模型、MaskGIT、空间潜在空间、Dreamer、Transformer、效率
- 实验环境：Crafter、Atari 100k
用于异构环境的轨迹世界模型
- 作者：Shaofeng Yin、Jialong Wu、Siqiao Huang、Xingjian Su、Xu He、Jianye Hao、Mingsheng Long
- 关键点：世界模型、异构环境、预训练、上下文学习、模型迁移、轨迹数据
- 实验环境：UniTraj（80 种不同环境）、D4RL（HalfCheetah、Hopper、Walker2D）、Cart-2-Pole、Cart-3-Pole
作为下一令牌预测基础的因果世界模型：在受控环境中探索 GPT
- 作者：Raanan Y. Rohekar、Yaniv Gurwicz、Sungduk Yu、Estelle Aflalo、Vasudev Lal
- 关键点：GPT、因果推断、注意力机制、结构化因果模型、零样本因果发现
- 实验环境：Othello、Chess

ICLR 2025

展开/折叠

基于对比预测编码的 Transformer 世界模型学习
- Maxime Burchi, Radu Timofte
- 关键词：基于模型的强化学习、Transformer 网络、对比预测编码
- 实验环境：Atari 100k 基准
预测性逆动力学模型是可扩展的机器人操作学习器
- Yang Tian, Sizhe Yang, Jia Zeng, Ping Wang, Dahua Lin, Hao Dong, Jiangmiao Pang
- 关键词：机器人操作、预训练、视觉预见、逆动力学、大规模机器人数据集
- 实验环境：LIBERO-LONG 基准、CALVIN ABC-D、真实世界任务
OptionZero：基于学习到的选项进行规划
- Po-Wei Huang, Pei-Chiun Peng, Hung Guei, Ti-Rong Wu
- 关键词：选项、半马尔可夫决策过程、MuZero、蒙特卡洛树搜索、规划、强化学习
- 实验环境：Atari
MAD-TD：模型增强数据稳定高更新率强化学习
- Claas A Voelcker, Marcel Hussing, Eric Eaton, Amir-massoud Farahmand, Igor Gilitschenski
- 关键词：强化学习、基于模型的强化学习、数据增强、高更新率
- 实验环境：DeepMind Control Suite
Kinetix：通过开放式物理控制任务探究通用智能体的训练
- Michael Matthews, Michael Beukman, Chris Lu, Jakob Nicolaus Foerster
- 关键词：强化学习、开放性、无监督环境设计、自动课程学习、基准
- 实验环境：2D 物理任务、机器人运动、抓取、视频游戏、经典强化学习环境
从示范序列中学习搜索
- Dixant Mittal, Liwei Kang, Wee Sun Lee
- 关键词：规划、推理、学习搜索、强化学习、大型语言模型
- 实验环境：24 点游戏、2D 格点导航、Procgen 游戏
基于长短时想象的开放世界强化学习
- Jiajian Li, Qi Wang, Yunbo Wang, Xin Jin, Yang Li, Wenjun Zeng, Xiaokang Yang
- 关键词：强化学习、世界模型、视觉控制
- 实验环境：MineDojo
MaestroMotif：基于人工智能反馈的设计技能
- Martin Klissarov, Mikael Henaff, Roberta Raileanu, Shagun Sodhani, Pascal Vincent, Amy Zhang, Pierre-Luc Bacon, Doina Precup, Marlos C. Machado, Pierluca D'Oro
- 关键词：层次化强化学习、强化学习、大型语言模型
- 实验环境：NetHack 学习环境 (NLE)
面向形状多变与可变形物体操作的几何感知强化学习
- Tai Hoang, Huy Le, Philipp Becker, Vien Anh Ngo, Gerhard Neumann
- 关键词：机器人操作、等变性、图神经网络、强化学习、可变形物体
- 实验环境：刚性插入、绳索操作、使用多个末端执行器进行布料操作
M^3PC：利用预训练掩码轨迹模型进行测试时模型预测控制
- Kehan Wen, Yutong Hu, Yao Mu, Lei Ke
- 关键词：离线到在线强化学习、基于模型的强化学习、掩码自编码、机器人学习
- 实验环境：D4RL、RoboMimic
通过学习排序实现基于模型的离线优化
- Rong-Xi Tan, Ke Xue, Shen-Huan Lyu, Haopu Shang, yaowang, Yaoyuan Wang, Fu Sheng, Chao Qian
- 关键词：基于模型的离线优化、黑箱优化、学习排序、学习优化
- 实验环境：涵盖多种优化场景的任务
基于大型语言模型的蒙特卡洛规划在文本类游戏中的应用
- Zijing Shi, Meng Fang, Ling Chen
- 关键词：大型语言模型、蒙特卡洛树搜索、文本类游戏
- 实验环境：Jericho 基准
对无模型强化学习中涌现式规划的解释
- Thomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger
- 关键词：强化学习、可解释性、规划、探针、无模型、机制性可解释性、推箱子
- 实验环境：推箱子
Drama：Mamba 加速的基于模型的强化学习具有样本和参数效率
- Wenlong Wang, Ivana Dusparic, Yucheng Shi, Ke Zhang, Vinny Cahill
- 关键词：Mamba-2、基于模型的强化学习、Mamba、状态空间模型
- 实验环境：Atari 100K
利用大型语言模型的零样本基于模型的强化学习
- Abdelhakim Benechehab, Youssef Attia El Hili, Ambroise Odonnat, Oussama Zekri, Albert Thomas, Giuseppe Paolo, Maurizio Filippone, Ievgen Redko, Balázs Kégl
- 关键词：基于模型的强化学习、大型语言模型、零样本学习、上下文学习
- 实验环境：D4RL、摆、HalfCheetah、Hopper
关于基于模型的强化学习中的模拟运行
- Bernd Frauenknecht, Devdutt Subhasish, Friedrich Solowjow, Sebastian Trimpe
- 关键词：基于模型的强化学习、模型模拟、不确定性量化
- 实验环境：Gym MuJoCo
任意步长动力学模型提升在线和离线强化学习的未来预测能力
- Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu
- 关键词：基于模型的强化学习、任意步长动力学模型
- 实验环境：D4RL、NeoRL、Gym MuJoCo-v3
用于连续控制的离散码本世界模型
- Aidan Scannell, Mohammadreza Nakhaeinezhadfard, Kalle Kujanpää, Yi Zhao, Kevin Sebastian Luck, Arno Solin, Joni Pajarinen
- 关键词：强化学习、世界模型、表征学习、自监督学习、基于模型的强化学习、连续控制
- 实验环境：DeepMind 控制套件、Meta-World、Myosuite

NeurIPS 2024

展开/折叠

iVideoGPT：交互式 VideoGPT 是可扩展的世界模型
- 吴嘉龙、尹绍峰、冯宁雅、何旭、李栋、郝建业、龙明生
- 关键词：世界模型、视频生成模型、自回归 Transformer、强化学习、视频预测、视觉规划
- 实验环境：Meta-world
基于模型的强化学习在序列长度上的并行化
- 王子睿、邓悦、龙俊峰、张寅
- 关键词：强化学习、基于模型的强化学习、并行化、序列长度、世界模型、资格迹、样本效率
- 实验环境：Atari 100K、DMControl
潜在动力学下的强化学习：迈向统计与算法模块化
- 菲利普·阿莫蒂拉、迪伦·J·福斯特、南江、阿克沙伊·克里希纳穆提、扎卡里亚·姆哈梅迪
- 关键词：强化学习、潜在动力学、统计模块化、算法模块化、可观测到潜在的约简、自预测模型
- 实验环境：无
SPO：序贯蒙特卡洛策略优化
- 马修·V·麦克法兰、埃丹·托莱多、唐纳尔·伯恩、保罗·达克沃斯、亚历山大·拉特尔
- 关键词：强化学习、RL、基于模型的强化学习、序贯蒙特卡洛、期望最大化、规划
- 实验环境：Brax、Boxoban、鲁比克魔方
寻求共性但保留差异：用于多模态视觉 RL 的分解动力学建模
- 黄扬儒、彭培熙、赵一凡、陈光耀、田永宏
- 关键词：多模态强化学习、视觉 RL、动力学建模、模态一致性、模态不一致性、DDM
- 实验环境：CARLA、DMControl
预训练视觉表征在基于模型的强化学习中的惊人无效性
- 莫里茨·施奈德、罗伯特·克鲁格、纳鲁纳斯·瓦斯凯维丘斯、路易吉·帕尔米耶里、约什卡·博德克尔
- 关键词：强化学习、RL、基于模型的强化学习、表征学习、PVR、视觉表征
- 实验环境：DMC、ManiSkill2、Miniworld
仅用少量离线数据进行多智能体领域校准
- 姜涛、袁磊、李和、关聪、张宗章、于洋
- 关键词：多智能体强化学习、领域迁移
- 实验环境：D4RL
WorldCoder，一个基于模型的 LLM 智能体：通过编写代码并与环境交互来构建世界模型
- 唐浩、达伦·基、凯文·埃利斯
- 关键词：以代码形式学习世界模型、LLM
- 实验环境：sokoban、minigrid、alfworld
离线基于模型的强化学习中的可达边界问题
- 安雅·西姆斯、卢聪、雅各布·福斯特、叶伟哲
- 关键词：可达边界问题、可达感知的价值学习
- 实验环境：d4rl、v-r4rl
用于改进基于模型的离线强化学习的确定性不确定性传播
- 阿卜杜拉·阿克居尔、曼努埃尔·豪斯曼、梅利赫·坎德米尔
- 关键词：论文认为，基于不确定性的奖励惩罚会引入过度保守主义，可能导致因低估而产生次优策略。
- 实验环境：d4rl
BECAUSE：双线性因果表征，用于可泛化的离线基于模型的强化学习
- 林浩鸿、丁文浩、陈健、石来喜、朱家成、李波、赵丁
- 关键词：目标不匹配问题、捕捉状态和动作的因果表征
- 实验环境：robosuite、解锁、碰撞
基于模型的上下文强化学习迁移学习
- 曹正勋、温杜拉·贾亚瓦达纳、李思睿、凯茜·吴
- 关键词：贝叶斯优化、上下文 RL
- 实验环境：高斯过程、交通信号、生态驾驶、辅助自主、控制任务
通过表征复杂度的视角重新思考基于模型、基于策略和基于价值的强化学习
- 冯古浩、钟翰
- 关键词：RL 表征复杂度
- 实验环境：mujoco

ICML 2024

切换

HarmonyDream: 世界模型中的任务协调
- 马浩宇、吴嘉龙、冯宁雅、肖晨俊、李东、郝建业、王建民、龙明生
- 关键点：世界模型中的观测建模和奖励建模分析
- 实验环境：meta-world、rlbench、deepmind控制套件、atari 100k
3D-VLA：一种基于3D视觉-语言-动作的生成式世界模型
- 甄浩宇、邱晓文、陈培豪、杨锦程、严欣、杜一伦、洪怡宁、甘闯
- 关键点：利用生成式世界模型统一3D感知、推理和行动；构建大规模3D具身指令调优数据集
- 实验环境：rlbench、calvin
CompeteAI：理解基于大语言模型的智能体的竞争行为
- 赵钦林、王金东、张艺轩、金一乔、朱凯杰、陈浩、谢星
- 关键点：提出面向LLM智能体的竞争框架；构建模拟竞争环境
- 实验环境：一个仅包含餐厅和顾客的虚拟小镇
面向参数化动作空间的基于模型的强化学习
- 张仁昊、傅浩天、缪怡琳、乔治·科尼达里斯
- 关键点：离散-连续混合动作空间、带参数化动作的动力学模型、参数化动作的MPC
- 实验环境：platform, goal, hard goal, catch point, hard move
为世界模型学习鲁棒的潜在动态表征
- 孙瑞翔、臧宏宇、李欣、里亚沙特·伊斯兰
- 关键点：改进的Dreamer架构、混合循环状态空间模型
- 实验环境：deepmind控制套件、分心版deepmind控制套件、mani-skill2
AD3：隐式动作是世界模型区分多样化视觉干扰的关键
- 王宇辰、万圣华、甘乐、冯帅、詹德川
- 关键点：隐式动作生成器、动作条件分离的世界模型
- 实验环境：deepmind控制套件
Hieros：基于结构化状态序列的世界模型中的层次化想象
- 保罗·马特斯、赖纳·施洛瑟、拉尔夫·赫布里希
- 关键点：状态空间模型、多层层次化想象、基于S5的世界模型
- 实验环境：atari 100k
通过并行观测预测改进基于token的世界模型
- 利奥尔·科恩、王凯欣、康炳义、希·曼诺尔
- 关键点：基于像素的MBRL、基于token的世界模型、保留型环境模型
- 实验环境：atari 100k
Transformer世界模型能否提供更好的策略梯度？
- 米歇尔·马、倪天伟、克莱门特·格灵、皮埃尔卢卡·多罗、皮埃尔-吕克·培肯
- 关键点：动作世界模型
- 实验环境：双摆、Myriad
Dr. Strategy：具有战略梦的基于模型的通用智能体
- 哈尼·哈梅德、金秀彬、金东英、尹在植、安成镇
- 关键点：在战略梦中训练三种策略——高速公路策略、探索者策略和成就者策略，进而完成下游任务
- 实验环境：2D导航、3D迷宫导航、RoboKitchen
迈向对抗性破坏下的稳健基于模型的强化学习
- 叶晨露、何佳凡、顾全全、张彤
- 关键点：对基于模型强化学习中对抗性破坏的理论分析，涵盖在线和离线设置
- 实验环境：无
面向混杂POMDP的基于模型的强化学习
- 洪茂、齐正玲、徐燕勋
- 关键点：基于模型的强化学习、POMDP
- 实验环境：无

ICLR 2024

切换

策略排练：训练可泛化的强化学习策略
- 贾成兴、高晨晓、殷浩、张福祥、陈雄辉、许田、袁磊、张宗章、周志华、于洋
- 关键点：强化学习、基于模型的强化学习、离线强化学习
- OpenReview评分：8、8、8、6
- 实验环境：d4rl
利用Koopman理论在交互环境中高效建模动力学
- 阿尔纳布·库马尔·蒙达尔、西巴·斯马拉克·帕尼格拉希、赛·拉杰斯瓦尔、卡利姆·西迪奇、西亚马克·拉万巴赫什
- 关键点：Koopman理论、强化学习、动力系统、规划、长距离动力学预测模型、高效的前向动力学
- OpenReview评分：8、6、5、3
- 实验环境：mujoco
结合空间与时间抽象进行规划以提升泛化能力
- 赵明德、萨法·阿尔维尔、哈姆·范·塞延、罗曼·拉罗什、多伊娜·普雷库普、约书亚·本吉奥
- 关键点：强化学习、规划、神经网络、时序差分学习、泛化、深度强化学习
- OpenReview评分：6、6、6、5
- 实验环境：MiniGrid-BabyAI框架
用世界模型掌握记忆任务
- Mohammad Reza Samsami、Artem Zholus、Janarthanan Rajendran、Sarath Chandar
- 关键点：基于DreamerV3的回忆与想象模块
- OpenReview评分：10、8、6
- 实验环境：bsuite、popgym、atari、deepmind控制套件、记忆迷宫
特权感知支撑强化学习
- Edward S. Hu、James Springer、Oleh Rybkin、Dinesh Jayaraman
- 关键点：基于DreamerV3的特权信息
- OpenReview评分：10、8、8、8
- 实验环境：gymnasium机器人学
TD-MPC2：用于连续控制的可扩展、鲁棒的世界模型
- Nicklas Hansen、Hao Su、Xiaolong Wang
- 关键点：隐式世界模型、模型预测控制、通用型td-mpc2
- OpenReview评分：8、8、8、8
- 实验环境：deepmind控制套件、Meta-World、maniskill2、myosuite
利用L1自适应控制的鲁棒基于模型的强化学习
- Minjun Sung、Sambhu Harimanas Karumanchi、Aditya Gahlawat、Naira Hovakimyan
- 关键点：L1自适应控制
- OpenReview评分：8、6、6、6
- 实验环境：mujoco
从离散潜在动力学中学习具有自适应时间抽象的层次化世界模型
- Christian Gumbsch、Noor Sajid、Georg Martius、Martin V. Butz
- 关键点：上下文特定的循环状态空间模型、层次化世界模型
- OpenReview评分：8、6、6
- 实验环境：MiniHack、VisualPinPad、MultiWorld
通过离散扩散学习用于自动驾驶的无监督世界模型
- Lunjun Zhang、Yuwen Xiong、Ze Yang、Sergio Casas、Rui Hu、Raquel Urtasun
- 关键点：离散扩散；世界模型；自动驾驶
- OpenReview评分：10、8、6、6、6
- 实验环境：NuScenes、KITTI里程计、Argoverse2激光雷达
COPlanner：为基于模型的RL制定保守滚动但乐观探索的计划
- Xiyao Wang、Ruijie Zheng、Yanchao Sun、Ruonan Jia、Wichayaporn Wongkamjan、Huazhe Xu、Furong Huang
- 关键点：保守的世界模型滚动、乐观的环境探索
- OpenReview评分：6、6、6
- 实验环境：mujoco、deepmind控制套件
通过规划实现高效的多智能体强化学习
- Qihan Liu、Jianing Ye、Xiaoteng Ma、Jun Yang、Bin Liang、Chongjie Zhang
- 关键点：mcts、乐观搜索lambda、优势加权策略优化
- OpenReview评分：8、6、6、6
- 实验环境：smac
可微轨迹优化作为强化学习和模仿学习的策略类
- Weikang Wan、Yufei Wang、Zackory Erickson、David Held
- 关键点：可微轨迹优化
- OpenReview评分：10、8、8、5
- 实验环境：deepmind控制套件、robomimic、maniskill
DMBP：基于扩散模型的预测器，用于对抗状态观测扰动的稳健离线强化学习
- Zhihe YANG、Yunjian Xu
- 关键点：条件扩散、离线RL
- OpenReview评分：8、8、6、6
- 实验环境：d4rl
MAMBA：一种用于元强化学习的有效世界模型方法
- Zohar Rimon、Tom Jurgenson、Orr Krupnik、Gilad Adler、Aviv Tamar
- 关键点：基于dreamer的上下文元RL
- OpenReview评分：6、6、6、6
- 实验环境：点机器人导航、逃生室、Reacher Sparse
奖励一致的动力学模型对离线强化学习具有强大的泛化能力
- Fan-Ming Luo、Tian Xu、Xingchen Cao、Yang Yu
- 关键点：奖励学习、离线RL
- OpenReview评分：8、6、6、6
- 实验环境：d4rl、NeoRL
DreamSmooth：通过奖励平滑改进基于模型的强化学习
- Vint Lee、Pieter Abbeel、Youngwoon Lee
- 关键点：学习预测时间平滑的奖励，而非每个时间步的精确奖励
- OpenReview评分：6、6、6、5
- 实验环境：robodesk、hand、土方工程
知情POMDP：在基于模型的RL中利用额外信息
- Gaspard Lambrechts、Adrien Bolland、Damien Ernst
- 关键点：基于DreamerV3的知情世界模型
- OpenReview评分：6、6、6、5
- 实验环境：变化的登山路线、deepmind控制套件、pop gym、闪烁的atari和闪烁的控制

NeurIPS 2023

展开/折叠

大型语言模型作为大规模任务规划中的常识知识
- 赵子睿、李伟顺、许大卫
- 关键词：LLM-MCTS
- 实验环境：VirtualHome
描述、解释、规划与选择：基于 LLM 的交互式规划赋能开放世界多任务智能体
- 王子豪、蔡绍飞、陈冠州、刘安吉、马晓健（Shawn）、梁义涛
- 关键词：基于 LLM 的交互式规划方法
- 实验环境：Minecraft
对决世界模型骨干网络：RNN、Transformer 和 S4
- 邓飞、朴俊英、安成镇
- 关键词：世界模型骨干网络
- 实验环境：MiniGrid、记忆迷宫
利用野外视频预训练情境化世界模型用于强化学习
- 吴嘉龙、马浩宇、邓超毅、龙鸣生
- 关键词：情境化世界模型
- 实验环境：CARLA、DeepMind 控制套件
基于扩散动力学模型的不确定性感知规划的置信预测
- 孙建凯、蒋一奇、邱佳宁、帕斯·诺布尔、迈克尔·J·科亨德费尔、麦克·施瓦格
- 关键词：扩散动力学模型
- 实验环境：D4RL、Maze2D
LightZero：面向通用序列决策场景的蒙特卡洛树搜索统一基准
- 牛亚哲、蒲源、杨振杰、李雪燕、周彤、任继元、胡帅、李洪胜、刘宇
- 关键词：MCTS 风格的基准测试
- 实验环境：棋类游戏、Atari、MuJoCo、Gobigger
扩散模型是多任务强化学习中有效的规划器和数据合成器
- 何浩然、白晨嘉、徐康、杨卓然、张维安、王东、赵斌、李学龙
- 关键词：基于 GPT 的扩散模型用于规划和数据合成
- 实验环境：Meta-World、Maze2D
MoVie：基于视觉模型的策略适应，实现视角泛化
- 杨思哲、泽延杰、徐华哲
- 关键词：视角泛化、空间自适应编码器
- 实验环境：DeepMind 控制套件、Adroit、XArm
基于模型的再参数化策略梯度方法：理论与实用算法
- 张申奥、刘博艺、王兆然、赵拓
- 关键词：基于模型的再参数化策略梯度方法、平滑正则化
- 实验环境：MuJoCo
利用预训练大型语言模型构建并使用世界模型进行基于模型的任务规划
- 关林、卡尔蒂克·瓦尔米坎、萨拉特·斯里达兰、苏巴拉奥·坎巴姆帕蒂
- 关键词：在规划领域定义语言中构建显式的世界（领域）模型
- 实验环境：家用机器人领域、轮胎世界与物流
RePo：通过正则化后验可预测性实现稳健的基于模型的强化学习
- 朱春宁、麦克斯·辛乔维茨、西丽·加迪普迪、阿比谢克·古普塔
- 关键词：视觉强化学习中的表征鲁棒性
- 实验环境：DeepMind 控制套件、ManiSkill
基于稀疏神经动力学的模型控制
- 刘子昂、何杰夫、周耿耿、托比亚·马库奇、李飞飞、吴家俊、李云竹
- 关键词：网络稀疏化、ReLU 神经动力学的混合整数规划
- 实验环境：Gym, CartPole, Reacher
非线性系统中基于模型强化学习的最优探索
- 安德鲁·瓦根迈克尔、石冠雅、凯文·杰米森
- 关键词：非线性动力系统的最优样本复杂度
- 实验环境：仿射动力系统
状态2解释：基于概念的解释助力智能体学习与用户理解
- 德夫利娜·达斯、索尼娅·切尔诺娃、彬·金
- 关键词：状态-动作对与基于概念的解释之间的联合嵌入模型
- 实验环境：四子棋、月球着陆器
连续时间基于模型强化学习中的高效探索
- 莱纳特·特雷文、约纳斯·休博特、巴维亚、弗洛里安·多尔夫勒、安德烈亚斯·克劳斯
- 关键词：非线性常微分方程、后悔界、测量选择策略
- 实验环境：系统任务
通过最大化证据进行动作推理：仅凭观察利用世界模型实现零样本模仿
- 张兴远、菲利普·贝克-埃姆克、帕特里克·范德斯马赫特、马克西米利安·卡尔
- 关键词：预训练世界模型、仅基于观察的模仿学习
- 实验环境：DeepMind 控制套件
STORM：高效的基于随机 Transformer 的世界模型用于强化学习
- 张伟璞、王刚、孙健、袁业田、黄高
- 关键词：分类 VAE、Transformer 结构、DreamerV3
- 实验环境：Atari

ICML 2023

切换

从像素中掌握无监督强化学习基准
- Sai Rajeswar Mudumba, Pietro Mazzaglia, Tim Verbelen, Alexandre Piche, Bart Dhoedt, Aaron Courville, Alexandre Lacoste
- 关键词：无监督预训练、任务感知微调、dyna-mpc
- 实验环境：URLB基准、RWRL套件
用于多模态轨迹优化的重参数化策略学习
- Zhiao Huang, Litian Liang, Zhan Ling, Xuanlin Li, Chuang Gan, Hao Su
- 关键词：多模态策略学习、重参数化策略梯度
- 实验环境：Meta-World、mujoco
活在当下：适应不断变化策略的动力学模型学习
- Xiyao Wang, Wichayaporn Wongkamjan, Ruonan Jia, Furong Huang
- 关键词：策略自适应模型学习、权重设计
- 实验环境：mujoco
面向无监督基于模型强化学习的可预测MDP抽象
- Seohong Park, Sergey Levine
- 关键词：可预测MDP抽象、解决模型利用问题
- 实验环境：mujoco
探究基于模型学习在探索与迁移中的作用
- Jacob C Walker, Eszter Vértes, Yazhe Li, Gabriel Dulac-Arnold, Ankesh Anand, Jessica Hamrick, Theophane Weber
- 主要见解：(1) 在无监督探索和/或微调过程中，基于模型的智能体是否具有优势？(2) 基于模型智能体的各个组件对下游任务学习有何贡献？(3) 基于模型的智能体如何应对无监督阶段与下游阶段之间的环境变化？
- 实验环境：Crafter、RoboDesk、Meta-World
基于模型强化学习中懒惰的优点：统一目标与算法
- Anirudh Vemula, Yuda Song, Aarti Singh, J. Bagnell, Sanjiban Choudhury
- 关键词：目标不匹配、mbrl框架
- 实验环境：Helicopter、WideTree、线性动力系统、Maze、mujoco
强化学习中基于模型泛化的益处
- Kenny Young, Aditya Ramesh, Louis Kirsch, Jürgen Schmidhuber
- 关键词：经验回放、已学习模型泛化的时机与方式
- 实验环境：ProcMaze、ButtonGrid、PanFlute
STEERING：面向基于模型强化学习的施泰因信息导向探索
- Souradip Chakraborty, Amrit Bedi, Alec Koppel, Mengdi Wang, Furong Huang, Dinesh Manocha
- 关键词：信息导向采样、核化施泰因散度
- 实验环境：DeepSea
具有可扩展复合策略梯度估计器基于模型的强化学习
- Paavo Parmas, Takuma Seno, Yuma Aoki
- 关键词：Dreamer的扩展、全传播计算图
- 实验环境：deepmind控制套件
具有历史依赖动态上下文的强化学习
- Guy Tennenholtz, Nadav Merlis, Lior Shani, Martin Mladenov, Craig Boutilier
- 关键词：非马尔可夫上下文动态、逻辑DCMDPs、理论分析、MuZero的扩展
- 实验环境：MovieLens数据集
面向基于模型离线强化学习的模型贝尔曼不一致性
- Yihao Sun, Jiaji Zhang, Chengxing Jia, Haoxin Lin, Junyin Ye, Yang Yu
- 关键词：悲观价值估计、理论分析
- 实验环境：d4rl、NeoRL
简化的时序一致性强化学习
- Yi Zhao, Wenshuai Zhao, Rinu Boney, Juho Kannala, Joni Pajarinen
- 关键词：表征学习、时序一致性
- 实验环境：deepmind控制套件
面向基于模型适应的 curiosity 回放
- Isaac Kauvar, Chris Doyle, Linqi Zhou, Nick Haber
- 关键词：DreamerV3的扩展、curiosity 回放、基于计数的回放、对抗性回放
- 实验环境：Crafter、deepmind控制套件
关于多动作策略梯度
- Michal Nauman, Marek Cygan
- 关键词：偏差与方差、理论分析
- 实验环境：deepmind控制套件
面向深度强化学习的后验采样
- Remo Sasso, Michelangelo Conserva, Paulo Rauber
- 关键词：后验采样、持续价值网络
- 实验环境：atari
基于计数保守性的基于模型离线强化学习
- Byeongchan Kim, Min-hwan Oh
- 关键词：计数估计、理论分析
- 实验环境：d4rl

ICLR 2023

切换

Transformer是样本高效的的世界模型
- Vincent Micheli, Eloi Alonso, François Fleuret
- 关键词：离散自编码器、基于Transformer的世界模型
- OpenReview评分：8, 8, 8, 8
- 实验环境：atari
面向离线策略优化的保守贝叶斯基于模型价值扩展
- Jihwan Jeong, Xiaoyu Wang, Michael Gimelfarb, Hyunwoo Kim, Baher Abdulhai, Scott Sanner
- 关键词：基于模型的离线学习、贝叶斯后验价值估计
- OpenReview评分：8, 8, 6, 6
- 实验环境：d4rl
用户交互式离线强化学习
- Phillip Swazinna, Steffen Udluft, Thomas Runkler
- 关键词：允许用户在训练完成后调整策略行为
- OpenReview评分：10, 8, 6, 3
- 实验环境：2D世界、工业基准
CLARE：用于离线逆强化学习的保守模型基准奖励学习
- Sheng Yue, Guanbo Wang, Wei Shao, Zhaofeng Zhang, Sen Lin, Ju Ren, Junshan Zhang
- 关键词：离线逆强化学习，奖励外推误差
- OpenReview评分：8, 8, 6, 6
- 实验环境：d4rl
基于学习模型的高效离线策略优化
- Zichen Liu, Siyi Li, Wee Sun Lee, Shuicheng YAN, Zhongwen Xu
- 关键词：离线强化学习，MuZero Unplugged分析，单步前瞻策略改进
- OpenReview评分：8, 6, 5
- 实验环境：atari数据集
在紧凑的潜在动作空间中进行高效规划
- zhengyao jiang, Tianjun Zhang, Michael Janner, Yueying Li, Tim Rocktäschel, Edward Grefenstette, Yuandong Tian
- 关键词：使用VQ-VAE进行规划
- OpenReview评分：6, 6, 6, 6
- 实验环境：d4rl数据集
模型集成真的必要吗？通过带有Lipschitz正则化的值函数的单个模型实现基于模型的强化学习
- Ruijie Zheng, Xiyao Wang, Huazhe Xu, Furong Huang
- 关键词：Lipschitz正则化
- OpenReview评分：8, 8, 6, 6
- 实验环境：mujoco
MoDem：利用示范加速视觉基于模型的强化学习
- Nicklas Hansen, Yixin Lin, Hao Su, Xiaolong Wang, Vikash Kumar, Aravind Rajeswaran
- 关键词：三个阶段——策略预训练、目标导向探索、交互式学习
- OpenReview评分：8, 6, 6, 6
- 实验环境：adroit、meta-world、deepmind控制套件
简化基于模型的强化学习：用一个目标同时学习表征、潜在空间模型和策略
- Raj Ghugare, Homanga Bharadhwaj, Benjamin Eysenbach, Sergey Levine, Ruslan Salakhutdinov
- 关键词：对齐的潜在模型
- OpenReview评分：8, 6, 6, 6, 6
- 实验环境：mujoco

基于模型的强化学习中价值扩展方法的边际收益递减
- Daniel Palenicek, Michael Lutter, Joao Carvalho, Jan Peters
- 关键词：更长的规划 horizon 在样本效率方面带来递减的回报
- OpenReview评分：8, 6, 6, 6
- 实验环境：brax
为探索而规划目标
- Edward S. Hu, Richard Chang, Oleh Rybkin, Dinesh Jayaraman
- 关键词：基于采样的规划，为每个训练episode设定目标以直接优化内在探索奖励
- OpenReview评分：8, 8, 8, 8, 6
- 实验环境：point maze, walker, ant maze, 3-block stack
通过在连续控制中直接规划做出更好决策
- Jinhua Zhu, Yue Wang, Lijun Wu, Tao Qin, Wengang Zhou, Tie-Yan Liu, Houqiang Li
- 关键词：深度可微分动态规划规划器
- OpenReview评分：8, 8, 8, 6
- 实验环境：mujoco
用于强化学习的潜在变量表示
- Tongzheng Ren, Chenjun Xiao, Tianjun Zhang, Na Li, Zhaoran Wang, sujay sanghavi, Dale Schuurmans, Bo Dai
- 关键词：变分学习，表征学习
- OpenReview评分：8, 6, 6, 3
- 实验环境：mujoco、deepmind控制套件
SpeedyZero：用有限的数据和时间掌握Atari游戏
- Yixuan Mei, Jiaxuan Gao, Weirui Ye, Shaohuai Liu, Yang Gao, Yi Wu
- 关键词：分布式基于模型的强化学习，加速EfficientZero
- OpenReview评分：6, 6, 5
- 实验环境：atari 100k
基于Transformer的世界模型只需10万次交互即可
- Jan Robine, Marc Höftmann, Tobias Uelwer, Stefan Harmeling
- 关键词：自回归世界模型，Transformer-XL，平衡交叉熵损失，平衡数据集采样
- OpenReview评分：8, 6, 6, 6
- 实验环境：atari 100k
关于基于模型的强化学习跨任务迁移的可行性
- Yifan Xu, Nicklas Hansen, Zirui Wang, Yung-Chieh Chan, Hao Su, Zhuowen Tu
- 关键词：离线多任务预训练，在线微调
- OpenReview评分：6, 6, 6, 6
- 实验环境：atari 100k
通过观看纯视频，在数据有限的情况下成为熟练玩家
- Weirui Ye, Yunsheng Zhang, Pieter Abbeel, Yang Gao
- 关键词：无监督预训练，再用下游任务进行微调
- OpenReview评分：8, 6, 6, 5
- 实验环境：atari 100k
EUCLID：迈向高效的多选动力学模型无监督强化学习
- Yifu Yuan, Jianye HAO, Fei Ni, Yao Mu, YAN ZHENG, Yujing Hu, Jinyi Liu, Yingfeng Chen, Changjie Fan
- 关键词：联合预训练多头动力学模型和无监督探索策略，再针对下游任务进行微调
- OpenReview评分：6, 6, 6, 6
- 实验环境：URLB基准测试
编舞者：在想象中学习与适应技能
- Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Alexandre Lacoste, Sai Rajeswar
- 关键词：世界模型、技能发现、技能学习、技能适应
- OpenReview评分：8, 8, 6, 6
- 实验环境：deepmind控制套件、Meta-World

NeurIPS 2022

切换

用于离线无限宽度模型优化的双向学习
- Can Chen, Yingxue Zhang, Jie Fu, Xue Liu, Mark Coates
- 关键词：基于模型，离线
- OpenReview评分：7, 6, 5
- 实验环境：design-bench
用于交替进行离线模型训练和策略学习的统一框架
- 杨申涛、张书健、冯一豪、周明远
- 关键词：基于模型、离线、边际重要性权重
- OpenReview评分：7, 6, 6, 5
- 实验环境：d4rl数据集
基于悲观调节动力学信念的基于模型的离线强化学习
- 郭凯阳、邵云峰、耿彦辉
- 关键词：基于模型、离线
- OpenReview评分：8, 8, 7, 7
- 实验环境：d4rl数据集
在信任状态之前先双重检查：基于双向建模的自信感知离线强化学习
- 吕家飞、李修、陆宗庆
- 关键词：双重检查机制、双向建模、离线强化学习
- OpenReview评分：7, 6, 6
- 实验环境：d4rl数据集
基于模型的对手建模
- 于晓鹏、蒋杰川、张万鹏、姜浩斌、陆宗庆
- 关键词：多智能体、基于模型
- OpenReview评分：7, 6, 4, 3
- 实验环境：mpe、google research football
将预见与想象相结合：基于模型的合作式多智能体强化学习
- 徐志伟、李大鹏、张彬、詹源、白云鹏、范国梁
- 关键词：多智能体、基于模型
- OpenReview评分：6, 5
- 实验环境：星际争霸II、Google Research Football、多智能体离散MuJoCo
MoCoDA：基于模型的反事实数据增强
- 西尔维乌·皮蒂斯、埃利奥特·克雷格、阿贾伊·曼德尔卡、阿尼梅什·加格
- 关键词：数据增强框架、离线强化学习
- OpenReview评分：7, 7, 7, 6
- 实验环境：2D导航、Hook-Sweep
何时更新你的模型：约束下的基于模型的强化学习
- 季天英、罗宇、孙富春、景明轩、何丰熙、黄文兵
- 关键词：事件触发机制、约束模型转移下界优化
- OpenReview评分：6, 6, 5, 5
- 实验环境：mujoco
通过约束型近端策略优化算法实现基于模型的安全深度强化学习
- 阿希什·贾扬特、沙拉布·巴特纳加尔
- 关键词：约束强化学习、基于模型
- OpenReview评分：7, 6, 5, 5
- 实验环境：safety gym
学习攻击联邦学习：基于模型的强化学习攻击框架
- 李恒格、孙晓林、郑子涵
- 关键词：攻击与防御、联邦学习、基于模型
- OpenReview评分：6, 6, 6, 5
- 实验环境：MNIST、FashionMNIST、EMNIST、CIFAR-10以及合成数据集
基于模型的城市驾驶模仿学习
- 安东尼·胡、吉安卢卡·科拉多、尼古拉斯·格里菲斯、扎卡里·穆雷斯、科丽娜·古劳、哈德森·叶、亚历克斯·肯德尔、罗伯托·西波拉、杰米·肖顿
- 关键词：基于模型、模仿学习、自动驾驶
- OpenReview评分：7, 6, 6
- 实验环境：CARLA
通过不变表示学习实现数据驱动的基于模型优化
- 韩琪、苏毅、阿维拉尔·库马尔、谢尔盖·列文
- 关键词：领域适应、不变目标模型、表示学习（与基于模型的强化学习无关）
- OpenReview评分：7, 6, 6, 5, 5
- 实验环境：design-bench
基于贝叶斯探索的终身强化学习
- 傅浩天、于尚群、迈克尔·利特曼、乔治·科尼达里斯
- 关键词：终身强化学习、变分贝叶斯
- OpenReview评分：7, 6, 6
- 实验环境：mujoco、meta-world
计划以预测：为基于模型的强化学习学习一种预见不确定性的模型
- 吴子凡、余超、陈晨、郝建业、卓汉兹·汉奎
- 关键词：将模型滚动过程视为一个序列决策问题
- OpenReview评分：7, 7, 6, 6
- 实验环境：mujoco、d4rl
基于模型强化学习下界的联合模型-策略优化
- 本杰明·艾森巴赫、亚历山大·哈扎茨基、谢尔盖·列文、鲁斯·萨拉胡丁诺夫
- 关键词：基于模型强化学习的统一目标函数
- OpenReview评分：8, 8, 7, 6
- 实验环境：gridworld、mujoco、ROBEL操作
RAMBO-RL：鲁棒对抗性基于模型的离线强化学习
- 马克·里格特、布鲁诺·拉塞尔达、尼克·霍斯
- 关键词：离线强化学习、基于模型的强化学习、双人游戏、对抗性模型训练
- OpenReview评分：6, 6, 6, 4
- 实验环境：d4rl
高效基于模型强化学习的保守双策略优化
- 张绍昂
- 关键词：后验采样强化学习、参考更新、约束性保守更新
- OpenReview评分：7, 7, 5, 5
- 实验环境：mujoco、N-Chain MDPs
贝叶斯乐观优化：基于模型强化学习的乐观探索
- 武晨阳、李天赐、张宗章、于洋
- 关键词：面对不确定性时的乐观态度(OFU)、BOO后悔
- OpenReview评分：6, 6, 5
- 实验环境：RiverSwim、Chain、随机MDPs
基于模型强化学习的乐观后验采样：结构条件与样本复杂度
- 阿莱克·阿加瓦尔、张彤
- 关键词：后验采样强化学习、贝尔曼误差解耦框架
- OpenReview评分：7, 7, 7, 6
- 实验环境：无
基于指数族模型的强化学习：分数匹配方法
- Gene Li、Junbo Li、Nathan Srebro、Zhaoran Wang、Zhuoran Yang
- 关键词：乐观模型、分数匹配
- OpenReview评分：7, 7, 6
- 实验环境：无
从像素出发的深度层次化规划
- Danijar Hafner、Kuang-Huei Lee、Ian Fischer、Pieter Abbeel
- 关键词：层次化强化学习、长 horizon 任务、稀疏奖励任务
- OpenReview评分：6, 6, 5
- 实验环境：atari、deepmind control suite、deepmind lab、crafter
连续 MDP 同态与同态策略梯度
- Sahand Rezaei-Shoshtari、Rosie Zhao、Prakash Panangaden、David Meger、Doina Precup
- 关键词：同态策略梯度、连续 MDP 同态、松弛双模拟损失
- OpenReview评分：7, 7, 7
- 实验环境：deepmind control suite

ICML 2022

展开

DreamerPro：基于原型表示的无重建模型强化学习
- Fei Deng、Ingook Jang、Sungjin Ahn
- 关键词：dreamer、原型
- 实验环境：deepmind control suite
去噪 MDP：学习比真实世界更好的世界模型
- Tongzhou Wang、Simon Du、Antonio Torralba、Phillip Isola、Amy Zhang、Yuandong Tian
- 关键词：表征学习、去噪模型
- 实验环境：deepmind control suite、RoboDesk
基于图结构代理模型和摊销策略搜索的模型基元强化学习元学习
- Qi Wang、Herke van Hoof
- 关键词：图结构代理模型、元训练
- 实验环境：atari、mujoco
迈向自适应模型基元强化学习
- Yi Wan、Ali Rahimi-Kalahroudi、Janarthanan Rajendran、Ida Momennejad、Sarath Chandar、Harm van Seijen
- 关键词：局部变化适应
- 实验环境：GridWorldLoCA、ReacherLoCA、MountaincarLoCA
通过乐观均衡计算实现高效的模型基元多智能体强化学习
- Pier Giuseppe Sessa、Maryam Kamgarpour、Andreas Krause
- 关键词：模型基元多智能体、置信区间
- 实验环境：SMART
通过正则化模型基元策略平稳分布来稳定离线强化学习
- Shentao Yang、Yihao Feng、Shujian Zhang、Mingyuan Zhou
- 关键词：离线强化学习、模型基元强化学习、平稳分布正则化
- 实验环境：d4rl
Design-Bench：数据驱动的离线模型基元优化基准测试
- Brandon Trabucco、Xinyang Geng、Aviral Kumar、Sergey Levine
- 关键词：基准测试、离线 MBO
- 实验环境：Design-Bench 基准任务
用于模型预测控制的时间差分学习
- Nicklas Hansen、Hao Su、Xiaolong Wang
- 关键词：TD 学习、MPC
- 实验环境：deepmind control suite、Meta-World

ICLR 2022

展开/收起

重新审视离线模型基础强化学习中的设计选择
- Cong Lu, Philip Ball, Jack Parker-Holder, Michael Osborne, Stephen J. Roberts
- 关键词：基于模型的离线、不确定性量化
- OpenReview评分：8, 8, 6, 6, 6
- 实验环境：d4rl 数据集
基于价值梯度加权的模型基础强化学习
- Claas A Voelcker, Victor Liao, Animesh Garg, Amir-massoud Farahmand
- 关键词：价值梯度加权的模型损失
- OpenReview评分：8, 8, 6, 6
- 实验环境：mujoco
使用学习模型在随机环境中进行规划
- Ioannis Antonoglou, Julian Schrittwieser, Sherjil Ozair, Thomas K Hubert, David Silver
- 关键词：MCTS、随机MuZero
- OpenReview评分：10, 8, 8, 5
- 实验环境：2048 游戏、西洋双陆棋、围棋
通过 Gumbel 规划改进策略
- Ivo Danihelka, Arthur Guez, Julian Schrittwieser, David Silver
- 关键词：Gumbel AlphaZero、Gumbel MuZero
- OpenReview评分：8, 8, 8, 6
- 实验环境：围棋、国际象棋、atari
带有正则化的基于模型的离线元强化学习
- Sen Lin, Jialin Wan, Tengyu Xu, Yingbin Liang, Junshan Zhang
- 关键词：基于模型的离线元强化学习
- OpenReview评分：8, 6, 6, 6
- 实验环境：d4rl 数据集
强化学习中的在线策略模型误差
- Lukas Froehlich, Maksym Lefarov, Melanie Zeilinger, Felix Berkenkamp
- 关键词：模型误差、在线策略修正
- OpenReview评分：8, 6, 6, 5
- 实验环境：mujoco、pybullet
一种用于无监督动态泛化的基于关系干预的模型基础强化学习方法
- Jiaxian Guo, Mingming Gong, Dacheng Tao
- 关键词：关系干预、动态泛化
- OpenReview评分：8, 8, 6, 6
- 实验环境：单摆、mujoco
通过赋能进行信息优先级排序的视觉模型基础强化学习
- Homanga Bharadhwaj, Mohammad Babaeizadeh, Dumitru Erhan, Sergey Levine
- 关键词：互信息、视觉模型基础强化学习
- OpenReview评分：8, 8, 8, 6
- 实验环境：deepmind 控制套件、Kinetics 数据集
通过基于模型的正则化实现观测特征空间之间的迁移强化学习
- Yanchao Sun, Ruijie Zheng, Xiyao Wang, Andrew E Cohen, Furong Huang
- 关键词：潜在动力学模型、迁移强化学习
- OpenReview评分：8, 6, 5, 5
- 实验环境：CartPole、Acrobot 和 Cheetah-Run、mujoco、3DBall
通过回溯学习强化学习中的状态表示
- Changmin Yu, Dong Li, Jianye HAO, Jun Wang, Neil Burgess
- 关键词：表示学习、通过回溯学习
- OpenReview评分：8, 6, 5, 3
- 实验环境：deepmind 控制套件
模型增强的优先经验回放
- Youngmin Oh, Jinwoo Shin, Eunho Yang, Sung Ju Hwang
- 关键词：优先经验回放、mbrl
- OpenReview评分：8, 8, 6, 5
- 实验环境：pybullet
评估用于连续控制的基于模型的规划及规划器摊销
- Arunkumar Byravan, Leonard Hasenclever, Piotr Trochim, Mehdi Mirza, Alessandro Davide Ialongo, Yuval Tassa, Jost Tobias Springenberg, Abbas Abdolmaleki, Nicolas Heess, Josh Merel, Martin Riedmiller
- 关键词：模型预测控制
- OpenReview评分：8, 6, 6, 6
- 实验环境：mujoco
通过反向传播穿过模型进行策略优化时，梯度信息至关重要
- Chongchong Li, Yue Wang, Wei Chen, Yuting Liu, Zhi-Ming Ma, Tie-Yan Liu
- 关键词：双模型方法、分析模型误差和策略梯度
- OpenReview评分：8, 8, 6, 6
- 实验环境：mujoco
基于模型的离线强化学习中的帕累托策略池
- Yijun Yang, Jing Jiang, Tianyi Zhou, Jie Ma, Yuhui Shi
- 关键词：基于模型的离线、模型回报与不确定性权衡
- OpenReview评分：8, 8, 6, 5
- 实验环境：d4rl 数据集
部分覆盖下的悲观主义基于模型的离线强化学习
- Masatoshi Uehara, Wen Sun
- 关键词：基于模型的离线理论、PAC界
- OpenReview评分：8, 6, 6, 5
- 实验环境：无
认识自我：通过机器人感知实现可迁移的视觉控制策略
- Edward S. Hu, Kun Huang, Oleh Rybkin, Dinesh Jayaraman
- 关键词：可在新机器人上迁移的世界模型
- OpenReview评分：8, 6, 6, 5
- 实验环境：mujoco、WidowX 和 Franka Panda 机器人

NeurIPS 2021

展开/折叠

关于基于模型的强化学习的有效调度
- 作者：Hang Lai, Jian Shen, Weinan Zhang, Yimin Huang, Xing Zhang, Ruiming Tang, Yong Yu, Zhenguo Li
- 关键点：MBPO的扩展，超控制器学习
- OpenReview评分：8, 6, 6
- 实验环境：MuJoCo, PyBullet
COMBO：保守的离线基于模型策略优化
- 作者：Tianhe Yu, Aviral Kumar, Rafael Rafailov, Aravind Rajeswaran, Sergey Levine, Chelsea Finn
- 关键点：离线强化学习，基于模型的强化学习，深度强化学习
- OpenReview评分：6, 7, 6, 8
- 实验环境：D4RL数据集
通过想象近期未来实现安全强化学习
- 作者：Garrett Thomas, Yuping Luo, Tengyu Ma
- 关键点：安全RL，奖励惩罚，基于模型rollout的理论
- OpenReview评分：8, 6, 6
- 实验环境：MuJoCo
基于派生记忆的想象进行基于模型的强化学习
- 作者：Yao Mu, Yuzheng Zhuang, Bin Wang, Guangxiang Zhu, Wulong Liu, Jianyu Chen, Ping Luo, Shengbo Eben Li, Chongjie Zhang, Jianye HAO
- 关键点：Dreamer的扩展，预测可靠性权重
- OpenReview评分：6, 6, 6, 6
- 实验环境：DeepMind控制套件
MobILE：仅从观察中进行基于模型的模仿学习
- 作者：Rahul Kidambi, Jonathan Chang, Wen Sun
- 关键点：仅从观察中进行模仿学习，MBRL
- OpenReview评分：6, 6, 6, 4
- 实验环境：CartPole, MuJoCo
基于模型的情景记忆诱导动态混合控制
- 作者：Hung Le, Thommen Karimpanal George, Majid Abdolshah, Truyen Tran, Svetha Venkatesh
- 关键点：基于模型，情景控制
- OpenReview评分：7, 7, 6, 6
- 实验环境：2D迷宫导航, CartPole、MountainCar和LunarLander, Atari, 3D导航：Gym-MiniWorld
受意识启发的基于模型强化学习规划智能体
- 作者：Mingde Zhao, Zhen Liu, Sitao Luan, Shuyuan Zhang, Doina Precup, Yoshua Bengio
- 关键点：MBRL，集合表示
- OpenReview评分：7, 7, 7, 6
- 实验环境：MiniGrid-BabyAI框架
利用有限数据掌握Atari游戏
- 作者：Weirui Ye, Shaohuai Liu, Thanard Kurutach, Pieter Abbeel, Yang Gao
- 关键点：MuZero，自监督一致性损失
- OpenReview评分：7, 7, 7, 5
- 实验环境：Atari 10万数据集, DeepMind控制套件
通过使用学习到的模型进行规划的在线和离线强化学习
- 作者：Julian Schrittwieser, Thomas K Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou, David Silver
- 关键点：MuZero，重新分析，离线
- OpenReview评分：8, 8, 7, 6
- 实验环境：Atari数据集、DeepMind控制套件数据集
自洽模型与价值
- 作者：Gregory Farquhar, Kate Baumli, Zita Marinho, Angelos Filos, Matteo Hessel, Hado van Hasselt, David Silver
- 关键点：新的模型学习方式
- OpenReview评分：7, 7, 7, 6
- 实验环境：表格MDP、Sokoban、Atari
适当的价值等价性
- 作者：Christopher Grimm, Andre Barreto, Gregory Farquhar, David Silver, Satinder Singh
- 关键点：价值等价性，基于价值的规划，MuZero
- OpenReview评分：8, 7, 7, 6
- 实验环境：四房间, Atari
MOPO：基于模型的离线策略优化
- 作者：Tianhe Yu, Garrett Thomas, Lantao Yu, Stefano Ermon, James Zou, Sergey Levine, Chelsea Finn, Tengyu Ma
- 关键点：基于模型，离线
- OpenReview暂无评分
- 实验环境：D4RL数据集，halfcheetah-jump和ant-angle
RoMA：用于离线基于模型优化的鲁棒模型适应
- 作者：Sihyun Yu, Sungsoo Ahn, Le Song, Jinwoo Shin
- 关键点：基于模型，离线
- OpenReview评分：7, 6, 6
- 实验环境：Design-Bench
基于反向模型想象的离线强化学习
- 作者：Jianhao Wang, Wenzhe Li, Haozhe Jiang, Guangxiang Zhu, Siyuan Li, Chongjie Zhang
- 关键点：基于模型，离线
- OpenReview评分：7, 6, 6, 5
- 实验环境：D4RL数据集
离线基于模型的可适应策略学习
- 作者：Xiong-Hui Chen, Yang Yu, Qingyang Li, Fan-Ming Luo, Zhiwei Tony Qin, Shang Wenjie, Jieping Ye
- 关键点：基于模型，离线
- OpenReview评分：6, 6, 6, 4
- 实验环境：D4RL数据集
用于离线基于模型强化学习的加权模型估计
- 作者：Toru Hishinuma, Kei Senda
- 关键点：基于模型，离线，off-policy评估
- OpenReview评分：7, 6, 6, 6
- 实验环境：摆动、D4RL数据集
具有线性函数近似的免奖励基于模型强化学习
- 作者：Weitong Zhang, Dongruo Zhou, Quanquan Gu
- 关键点：学习理论，基于模型的免奖励RL，线性函数近似
- OpenReview评分：6, 6, 5, 5
- 实验环境：无
可证明的基于模型的非线性多臂老虎机与强化学习：摒弃乐观主义，拥抱虚拟曲率
- 作者：Kefan Dong, Jiaqi Yang, Tengyu Ma
- 关键点：学习理论，基于模型的多臂老虎机RL，非线性函数近似
- OpenReview评分：7, 7, 7, 6
- 实验环境：无
通过世界模型发现并实现目标
- 作者：Russell Mendonca, Oleh Rybkin, Kostas Daniilidis, Danijar Hafner, Deepak Pathak
- 关键点：无监督目标达成，目标条件强化学习
- OpenReview评分：6, 6, 6, 6, 6
- 实验环境：Walker、四足机器人、箱子、厨房

ICLR 2021

展开/收起

基于模型的离线优化实现高效部署的强化学习
- 作者：松岛达也、古田博纪、松尾丰、Ofir Nachum、Shixiang Gu
- 关键词：基于模型、行为克隆（预热）、TRPO
- OpenReview评分：8, 7, 7, 5
- 实验环境：d4rl数据集
面向控制的基于模型强化学习表示
- 作者：Brandon Cui、Yinlam Chow、Mohammad Ghavamzadeh
- 关键词：表示学习、基于模型的软演员-评论家算法
- OpenReview评分：6, 6, 6
- 实验环境：平面系统、倒立摆——摆起、小车倒立摆、三连杆机械臂——摆起与平衡
使用离散世界模型掌握Atari游戏
- 作者：Danijar Hafner、Timothy Lillicrap、Mohammad Norouzi、Jimmy Ba
- 关键词：DreamerV2、多种技巧（多个分类变量、KL平衡等）
- OpenReview评分：9, 8, 5, 4
- 实验环境：Atari
基于自监督功能距离的视觉规划
- 作者：Stephen Tian、Suraj Nair、Frederik Ebert、Sudeep Dasari、Benjamin Eysenbach、Chelsea Finn、Sergey Levine
- 关键词：目标达成任务、动力学学习、距离学习（目标条件Q函数）
- OpenReview评分：7, 7, 7, 7
- 实验环境：sawyer、门滑动
基于模型的离线规划
- 作者：Arthur Argenson、Gabriel Dulac-Arnold
- 关键词：基于模型、离线
- OpenReview评分：8, 7, 5, 5
- 实验环境：RL Unplugged(RLU)、d4rl数据集
基于归一化最大似然估计的离线模型优化
- 作者：Justin Fu、Sergey Levine
- 关键词：基于模型、离线
- OpenReview评分：8, 6, 6
- 实验环境：design-bench
关于规划在基于模型深度强化学习中的作用
- 作者：Jessica B. Hamrick、Abram L. Friesen、Feryal Behbahani、Arthur Guez、Fabio Viola、Sims Witherspoon、Thomas Anthony、Lars Buesing、Petar Veličković、Théophane Weber
- 关键词：讨论MuZero中的规划问题
- OpenReview评分：7, 7, 6, 5
- 实验环境：Atari、围棋、Deepmind控制套件
基于表示平衡的离线强化学习
- 作者：Byung-Jun Lee、Jongmin Lee、Kee-Eung Kim
- 关键词：表示平衡MDP、基于模型、离线
- OpenReview评分：7, 7, 7, 6
- 实验环境：d4rl数据集
基于模型的微观数据强化学习：关键的模型属性是什么？应选择哪种模型？
- 作者：Balázs Kégl、Gabriel Hurtado、Albert Thomas
- 关键词：混合密度网络、异方差性
- OpenReview评分：7, 7, 7, 6, 5
- 实验环境：acrobot系统

ICML 2021

展开/收起

用于有效离线模型优化的保守目标模型
- 作者：Brandon Trabucco、Aviral Kumar、Xinyang Geng、Sergey Levine
- 关键词：保守目标模型、离线MRL
- 实验环境：design-bench
连续时间基于模型的强化学习
- 作者：Çağatay Yıldız、Markus Heinonen、Harri Lähdesmäki
- 关键词：连续时间
- 实验环境：单摆、小车倒立摆和acrobot
基于潜在空间配点法的强化学习
- 作者：Oleh Rybkin、Chuning Zhu、Anusha Nagabandi、Kostas Daniilidis、Igor Mordatch、Sergey Levine
- 关键词：潜在空间配点法
- 实验环境：稀疏的metaworld任务
因果关系不确定时的无模型与基于模型策略评估
- 作者：David A Bruns-Smith
- 关键词：最坏情况下的界
- 实验环境：ope-tools
Muesli：结合策略优化的改进方法
- 作者：Matteo Hessel、Ivo Danihelka、Fabio Viola、Arthur Guez、Simon Schmitt、Laurent Sifre、Theophane Weber、David Silver、Hado van Hasselt
- 关键词：价值等价性
- 实验环境：Atari
用于规划的向量量化模型
- 作者：Sherjil Ozair、Yazhe Li、Ali Razavi、Ioannis Antonoglou、Aäron van den Oord、Oriol Vinyals
- 关键词：VQVAE、蒙特卡洛树搜索
- 实验环境：国际象棋数据集、DeepMind Lab
PC-MLP：基于政策覆盖引导探索的强化学习
- 作者：宋宇达、孙文
- 关键词：样本复杂度、核化非线性调节器、线性MDP
- 实验环境：山地车、蚂蚁迷宫、mujoco
潜在空间中基于模型的时序预测编码规划
- 作者：Tung Nguyen、Rui Shu、Tuan Pham、Hung Bui、Stefano Ermon
- 关键词：带有RSSM的时序预测编码、潜在空间
- 实验环境：Deepmind控制套件
基于后验采样的连续控制强化学习
- 作者：Ying Fan、Yifei Ming
- 关键词：PSRL的后悔界、MPC
- 实验环境：连续的小车倒立摆、单摆摆起、mujoco
基于自我对弈的强化学习的严格分析
- 作者：Qinghua Liu、Tiancheng Yu、Yu Bai、Chi Jin
- 关键词：学习理论、多智能体、基于模型的自我对弈、双人零和马尔可夫博弈
- 实验环境：无

其他

UniZero：基于可扩展潜在世界模型的通用高效规划
- Pu Yuan, Niu Yazhe, Yang Zhenjie, Ren Jiyuan, Li Hongsheng, Liu Yu TMLR2025
- 关键词：世界模型、MCTS、基于模型的强化学习、Transformer、潜在规划、多任务学习
- 实验环境：Atari、DMControl、VisualMatch
驶向未来：面向自动驾驶的世界模型多视角视觉预测与规划
- Wang Yuqi, He Jiawei, Fan Lue, Li Hongxin, Chen Yuntao, Zhang Zhaoxiang CVPR 2024
- 关键词：自动驾驶世界建模
- 实验环境：nuScenes
DriveWorld：基于世界模型的4D预训练场景理解用于自动驾驶
- Min Chen, Zhao Dawei, Xiao Liang, Zhao Jian, Xu Xinli, Zhu Zheng, Jin Lei, Li Jianshu, Guo Yulan, Xing Junliang, Jing Liping, Nie Yiming, Dai Bin CVPR 2024
- 关键词：自动驾驶世界建模
- 实验环境：nuScenes, OpenScene
用于预测、表征和控制的掩码轨迹模型
- Wu Philipp, Majumdar Arjun, Stone Kevin, Lin Yixin, Mordatch Igor, Abbeel Pieter, Rajeswaran Aravind ICLR 2023 Workshop RRL
- 关键词：离线RL、控制学习、序列建模
- 实验环境：d4rl
基于策略引导的轨迹扩散的世界模型
- Rigter Marc, Yamada Jun, Posner Ingmar Arxiv 2023
- 关键词：扩散模型、世界模型
- 实验环境：deepmind control suite、gridworld
基于模型的价值认知方差用于风险感知的策略优化
- Luis Carlos E., Bottero Alessandro G., Vinogradska Julia, Berkenkamp Felix, Peters Jan Arxiv 2023
- 关键词：MBRL中的累积奖励不确定性估计
- 实验环境：mujoco
使用数据增强的基于模型的强化学习高效学习解决现实世界迷宫游戏
- Bi Thomas, D'Andrea Raffaello Arxiv 2023
- 关键词：数据增强、DreamerV3
- 实验环境：现实世界迷宫游戏
通过世界模型掌握多样化领域
- Hafner Danijar, Pasukonis Jurgis, Ba Jimmy, Lillicrap Timothy Arxiv 2023
- 关键词：DreamerV3、世界模型的可扩展性
- 实验环境：deepmind control suite、atari、DMLab、minecraft
从基于模型的规划中提炼出理论保证的策略改进
- Li Chuming, Jia Ruonan, Yao Jiawei, Liu Jie, Zhang Yinmin, Niu Yazhe, Yang Yaodong, Liu Yu, Ouyang Wanli IJCAI Workshop 2023
- 关键词：扩展的策略改进、模型正则化、规划定理
- 实验环境：mujoco

教程

代码库

mbrl-lib - Meta：基于模型强化学习的库
DI-engine - OpenDILab：决策AI引擎

贡献

我们的目标是让这个仓库变得更好。如果您有兴趣贡献，请参阅此处以获取贡献说明。

许可证

Awesome Model-Based RL 根据 Apache 2.0 许可证发布。

(返回顶部)

awesome-model-based-RL 快速上手指南

awesome-model-based-RL 并非一个可直接安装运行的软件库或框架，而是一个基于模型强化学习（Model-Based RL, MBRL）领域的精选论文与资源清单。它由 OpenDILab 社区维护，旨在帮助研究者和开发者追踪该领域的前沿进展、经典算法及开源代码实现。

本指南将指导你如何获取、浏览并利用该资源库进行研究和学习。

环境准备

由于本项目本质是一个文档仓库（Awesome List），无需复杂的系统环境或深度学习框架即可浏览内容。但为了运行列表中链接到的具体算法代码，建议准备以下基础环境：

操作系统：Linux (推荐 Ubuntu 18.04+), macOS 或 Windows (WSL2)
版本控制：已安装 git
浏览器：现代浏览器（Chrome, Firefox, Edge 等）用于查看在线文档
可选依赖（用于复现论文代码）：
- Python 3.8+
- PyTorch 或 TensorFlow (视具体论文实现而定)
- MuJoCo, Gym/Dm_Control 等仿真环境 (如需运行实验)

安装步骤

你可以通过克隆仓库到本地或直接在线浏览两种方式使用该资源。

方式一：在线浏览（推荐快速查阅）

直接访问 GitHub 仓库页面或国内镜像（如有）查看最新整理的论文列表和分类。

GitHub 主站: https://github.com/opendilab/awesome-model-based-RL
国内加速访问: 如果访问 GitHub 较慢，可使用国内代码托管平台的镜像功能，或通过代理工具访问。

方式二：克隆到本地（推荐深度阅读与离线查找）

在终端执行以下命令将仓库克隆至本地：

git clone https://github.com/opendilab/awesome-model-based-RL.git
cd awesome-model-based-RL

若需国内加速下载，可使用 Gitee 镜像（如果存在）或配置 git 代理：

# 示例：使用 git 代理加速（需自行配置代理地址）
git clone https://github.com/opendilab/awesome-model-based-RL.git --config http.proxy=http://127.0.0.1:7890

克隆完成后，使用 Markdown 阅读器（如 VS Code, Typora）打开 README.md 文件即可浏览完整内容。

基本使用

本项目的核心用法是按图索骥：通过分类索引找到感兴趣的论文，然后前往其对应的开源代码库进行复现或学习。

1. 浏览算法分类体系

打开 README.md，首先查看 "A Taxonomy of Model-Based RL Algorithms" 章节。这里提供了 MBRL 算法的分类图谱，将算法分为两大类：

Learn the Model: 专注于如何构建环境模型（如 World Models, PILCO）。
Given the Model: 专注于如何利用已学到的模型进行规划或策略优化（如 AlphaZero, MCTS）。

2. 查找特定论文

利用目录（Table of Contents）快速定位到你关注的会议年份或类别，例如：

经典论文: 查看 Classic Model-Based RL Papers 了解 Dyna, PILCO 等奠基性工作。
最新前沿: 查看 NeurIPS 2025, ICML 2025, ICLR 2025 等章节获取最新研究成果。

每条记录包含：

标题与链接: 点击可直接跳转论文原文。
核心贡献 (Key): 一句话概括算法的关键创新点。
实验环境 (ExpEnv): 标注了论文使用的测试环境（如 Mujoco, Atari），便于评估复现难度。

3. 获取代码并运行

该项目本身不提供统一的可执行代码，但每个论文条目通常隐含或明确指向其开源实现。

步骤:
1. 在列表中找到目标论文（例如 DreamerV1）。
2. 点击论文标题阅读摘要，确认是否符合需求。
3. 搜索该论文名称 + "github" (或在项目 Codebase 章节查找)，找到官方或第三方复现代码库。
4. 进入对应的代码库，按照其独立的 README 进行安装和运行。

示例：复现 DreamerV1

在本列表中找到 [Dream to Control: Learning Behaviors by Latent Imagination]。
记录关键信息：使用 DeepMind Control Suite 环境，基于潜在空间想象。
前往 GitHub 搜索 dreamerv1 pytorch 找到高星实现（如 danijar/dreamerv2 通常包含 v1 分支或参考实现）。

在该代码库中执行：

git clone https://github.com/danijar/dreamerv2.git
cd dreamerv2
pip install -r requirements.txt
python dreamer.py --logdir ./log --task walker_walk

通过这种方式，awesome-model-based-RL 成为了你进入模型基强化学习世界的导航图，帮助你高效定位高质量的研究成果与代码资源。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他