awesome-model-based-RL

GitHub
1.3k 76 非常简单 1 次阅读 昨天Apache-2.0其他
AI 解读 由 AI 自动生成,仅供参考

awesome-model-based-RL 是一个专为“基于模型的强化学习”(Model-Based RL)领域打造的精选资源库。它系统性地收集并整理了该方向的核心研究论文、经典算法分类、教程指南以及开源代码实现,旨在帮助从业者快速把握前沿动态。

在强化学习中,传统方法往往需要大量试错,而基于模型的方法通过构建环境模型来规划行动,能显著提升样本效率。然而,该领域文献浩如烟海且更新极快,研究者常面临资料分散、难以追踪最新成果的痛点。awesome-model-based-RL 正是为解决这一难题而生,它不仅持续收录来自 NeurIPS、ICML、ICLR 等顶级会议的最新论文(已更新至 2025 年),还提供了一份清晰的算法分类图谱,将复杂的技术路线梳理为“学习模型”与“利用模型”两大维度,帮助用户建立系统的知识框架。

这份资源特别适合人工智能研究人员、算法工程师以及对深度强化学习感兴趣的高校师生使用。无论是想要入门的新手,还是希望紧跟学术前沿的资深专家,都能在这里找到高质量的参考材料。其独特的价值在于持续的维护更新与结构化的知识整理,让探索高效强化学习之路变得更加清晰顺畅。

使用场景

某自动驾驶初创公司的算法团队正致力于开发基于模型的强化学习(MBRL)策略,以在仿真环境中高效训练车辆应对复杂路况。

没有 awesome-model-based-RL 时

  • 文献检索如大海捞针:研究人员需手动在 arXiv、NeurIPS、ICML 等各大会议中筛选论文,耗时数周仍难以覆盖最新的前沿成果,极易遗漏关键突破。
  • 技术路线梳理困难:面对“学习模型”与“利用模型”等不同流派,缺乏系统的分类指引,团队难以快速构建清晰的技术演进图谱,导致选型盲目。
  • 复现成本高昂:找不到官方代码库或权威教程,新手往往需要从零摸索算法细节,大量时间浪费在调试基础环境而非核心创新上。
  • 信息更新滞后:由于缺乏持续维护的渠道,团队无法及时获取如 2025 年最新顶会论文列表,技术栈容易与社区前沿脱节。

使用 awesome-model-based-RL 后

  • 一站式获取前沿资源:团队直接查阅按年份和顶会(如 NeurIPS 2025、ICLR 2025)整理的论文清单,几分钟内即可锁定领域内最新的 SOTA 方法。
  • 清晰的技术导航:借助仓库提供的算法分类图谱,研究人员迅速理清了 World Models、I2A 等经典与新兴算法的逻辑关系,精准定位适合自动驾驶场景的技术路线。
  • 加速落地验证:通过集成的 Codebase 和 Tutorial 链接,工程师直接复用成熟的代码框架,将算法复现周期从数周缩短至几天,大幅降低试错成本。
  • 同步社区脉搏:依托仓库的持续更新机制,团队能第一时间掌握每月新增的研究成果,确保技术方案始终处于行业领先地位。

awesome-model-based-RL 将原本分散、滞后的科研资源转化为结构化的知识引擎,极大提升了团队在模型基强化学习领域的研发效率与创新速度。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个模型基于强化学习(Model-Based RL)的研究论文列表和分类整理,并非可执行的软件工具或代码库。因此,它没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户仅需浏览器即可访问内容,若需运行列表中提及的具体算法代码,请参考各论文对应的原始代码仓库。
python未说明
awesome-model-based-RL hero image

快速开始

优秀的基于模型的强化学习

Awesome 文档 GitHub 星标 GitHub 分支 GitHub 许可证

这是一个关于**基于模型的强化学习(mbrl)**的研究论文合集。 该仓库将持续更新,以跟踪基于模型强化学习领域的最新进展。

欢迎关注并点赞!

[2025.12.01] 新增:我们更新了基于模型强化学习的 NeurIPS 2025 论文列表!

[2025.08.28] 我们更新了基于模型强化学习的 ICML 2025 论文列表。

[2025.02.06] 我们更新了基于模型强化学习的 ICLR 2025 论文列表。

[2024.10.27] 我们更新了基于模型强化学习的 NeurIPS 2024 论文列表。

[2024.05.20] 我们更新了基于模型强化学习的 ICML 2024 论文列表。

[2023.11.29] 我们更新了基于模型强化学习的 ICLR 2024 论文列表。

[2023.09.29] 我们更新了基于模型强化学习的 NeurIPS 2023 论文列表。

[2023.06.15] 我们更新了基于模型强化学习的 ICML 2023 论文列表。

[2023.02.05] 我们更新了基于模型强化学习的 ICLR 2023 论文列表。

[2022.11.03] 我们更新了基于模型强化学习的 NeurIPS 2022 论文列表。

[2022.07.06] 我们更新了基于模型强化学习的 ICML 2022 论文列表。

[2022.02.13] 我们更新了基于模型强化学习的 ICLR 2022 论文列表。

[2021.12.28] 我们发布了优秀的基于模型强化学习资源。

目录

基于模型强化学习算法分类

在开始本节之前,我们先声明一点:要绘制一个准确且全面的基于模型强化学习算法分类体系确实非常困难,因为算法的模块化特性很难用树状结构来完整表达。因此,我们将发布一系列相关博客,以更深入地介绍各种基于模型强化学习算法。


现代基于模型强化学习中一种非详尽但实用的算法分类。

我们简单地将“基于模型强化学习”分为两大类:“学习模型”和“给定模型”。

  • “学习模型”主要关注如何构建环境模型。
  • “给定模型”则侧重于如何利用已学习到的模型。

如上图所示,我们给出了一些示例,并附上了相关算法的链接。

[1] World Models:Ha 和 Schmidhuber,2018年
[2] I2A(想象增强智能体):Weber 等,2017年
[3] MBMF(结合无模型微调的基于模型强化学习):Nagabandi 等,2017年
[4] MBVE(基于模型的价值扩展):Feinberg 等,2018年
[5] ExIt(专家迭代):Anthony 等,2017年
[6] AlphaZero:Silver 等,2017年
[7] POPLIN(基于模型的策略规划):Wang 等,2019年
[8] M2AC(掩码式基于模型的演员-评论家):Pan 等,2020年

论文

格式:
- [标题](论文链接) [链接]
  - 作者1、作者2和作者3
  - 关键点:关键问题和见解
  - OpenReview:可选
  - 实验环境:实验使用的环境

经典基于模型的强化学习论文

展开/折叠

NeurIPS 2025

展开/折叠

ICML 2025

展开/折叠
  • 提升用于数据高效强化学习的 Transformer 世界模型

    • 作者:Antoine Dedieu、Joseph Ortiz、Xinghua Lou、Carter Wendelken、Wolfgang Lehrach、J Swaroop Guntupalli、Miguel Lazaro-Gredilla、Kevin Murphy
    • 关键点:带预热的 Dyna 策略、最近邻补丁标记化、块教师强制
    • OpenReview 评分:4, 4, 4, 3
    • 实验环境:craftax-classic
  • 窃取那顿免费午餐:揭示 Dyna 式强化学习的局限性

    • 作者:Brett Barkley、David Fridovich-Keil
    • 关键点:Dyna 式算法在大多数 DMC 环境中会显著降低性能。
    • OpenReview 评分:4, 4, 3, 2
    • 实验环境:gym、DeepMind Control Suite
  • 持续基于模型的强化学习中的知识保留

    • 作者:Haotian Fu、Yixiang Sun、Michael L. Littman、George Konidaris
    • 关键点:合成经验回放、通过探索恢复记忆
    • OpenReview 评分:4, 3, 3, 3
    • 实验环境:mini-grid、deepmind control suite
  • 面向自适应预测与控制的时间感知世界模型

    • 作者:Anh N Nhu、Sanghyun Son、Ming Lin
    • 关键点:根据时间步长 ∆t 进行条件建模,并在多种不同的 ∆t 值上进行训练
    • OpenReview 评分:4, 3, 3
    • 实验环境:meta-world 控制任务、PDE 控制任务
  • 视频增强的离线强化学习:一种基于模型的方法

    • 作者:Minting Pan、Yitao Zheng、Jiajian Li、Yunbo Wang、Xiaokang Yang
    • 关键点:行为抽象网络、分层世界模型
    • OpenReview 评分:3, 3, 3, 2
    • 实验环境:meta-world、carla、minedojo
  • 面向离线基于模型强化学习的时距感知转移增强

    • 作者:Dongsu Lee、Minhae Kwon
    • 关键点:学习一种潜在抽象,从轨迹和状态空间的转移层面捕捉时间距离。
    • OpenReview 评分:4, 3, 3, 2
    • 实验环境:D4RL、AntMaze、FrankaKitchen、CALVIN、基于像素的 FrankaKitchen。
  • PIGDreamer:面向安全部分可观测强化学习的特权信息引导世界模型

    • 作者:Dongchi Huang、Jiaqi WANG、Yang Li、Chunhe Xia、Tianle Zhang、Kaige Zhang
    • 关键点:通过特权表示对齐和非对称的演员-评论家结构来利用特权信息
    • OpenReview 评分:3, 3, 3
    • 实验环境:safety gymnasium benchmark、guard benchmark
  • 用于在线模仿学习的无奖励世界模型

    • 作者:Shangzhe Li、Zhiao Huang、Hao Su
    • 关键点:无奖励世界模型、逆向软 Q 学习目标
    • OpenReview 评分:4, 3, 3, 3
    • 实验环境:DMControl、MyoSuite、ManiSkill2
  • FOUNDER:将基础模型嵌入世界模型,用于开放式具身决策

    • 作者:Yucen Wang、Rui Yu、Shenghua Wan、Le Gan、De-Chuan Zhan
    • 关键点:将 FM 表征嵌入 WM 状态空间,基于模型的目标条件强化学习
    • OpenReview 评分:4, 3, 3, 3
    • 实验环境:DMControl、Kitchen、minecraft
  • 通过在线世界模型规划实现持续强化学习

    • 作者:Zichen Liu、Guoji Fu、Chao Du、Wee Sun Lee、Min Lin
    • 关键点:使用在线世界模型进行规划、后悔分析
    • OpenReview 评分:4, 4, 4, 3
    • 实验环境:ContinualBench
  • 预训练智能体和世界模型的规模定律

    • 作者:Tim Pearce*、Tabish Rashid*、David Bignell、Raluca Georgescu、Sam Devlin、Katja Hofmann
    • 关键点:规模定律、具身 AI、行为克隆、世界建模、分词器、架构
    • 实验环境:Bleeding Edge、RT-1(机器人)、Atari、NetHack
  • DINO-WM:基于预训练视觉特征的世界模型实现零样本规划

    • 作者:Gaoyue Zhou、Hengkai Pan、Yann LeCun、Lerrel Pinto
    • 关键点:世界模型、离线学习、零样本规划、预训练视觉特征、任务无关推理
    • 实验环境:Maze、Wall、Reach、Push-T、绳索操作、颗粒物操作
  • 通用智能体需要世界模型

    • 作者:Jonathan Richens、Tom Everitt、David Abel
    • 关键点:世界模型、目标导向行为、无模型学习、策略分析、后悔界
    • 实验环境:具有不同采样轨迹和目标深度的合成受控马尔可夫过程(cMP)环境
  • RobustZero:提升 MuZero 强化学习对状态扰动的鲁棒性

    • 作者:Yushuai Li、Hengyu Liu、Torben Bach Pedersen、Yuqiang He、Kim Guldstrand Larsen、Lu Chen、Christian S. Jensen、Jiachen Xu、Tianyi Li
    • 关键点:MuZero、鲁棒性、强化学习、状态扰动、自监督学习、适应性调整
    • 实验环境:CartPole、Pendulum、IEEE 34-bus、IEEE 123-bus、IEEE 8500-node、Highway、Intersection、Racetrack、Hopper、Walker2d、HalfCheetah、Ant
  • 使用掩码潜在变换器实现准确高效的世界建模

    • 作者:Maxime Burchi、Radu Timofte
    • 关键点:基于模型的强化学习、世界模型、MaskGIT、空间潜在空间、Dreamer、Transformer、效率
    • 实验环境:Crafter、Atari 100k
  • 用于异构环境的轨迹世界模型

    • 作者:Shaofeng Yin、Jialong Wu、Siqiao Huang、Xingjian Su、Xu He、Jianye Hao、Mingsheng Long
    • 关键点:世界模型、异构环境、预训练、上下文学习、模型迁移、轨迹数据
    • 实验环境:UniTraj(80 种不同环境)、D4RL(HalfCheetah、Hopper、Walker2D)、Cart-2-Pole、Cart-3-Pole
  • 作为下一令牌预测基础的因果世界模型:在受控环境中探索 GPT

    • 作者:Raanan Y. Rohekar、Yaniv Gurwicz、Sungduk Yu、Estelle Aflalo、Vasudev Lal
    • 关键点:GPT、因果推断、注意力机制、结构化因果模型、零样本因果发现
    • 实验环境:Othello、Chess

ICLR 2025

展开/折叠

NeurIPS 2024

展开/折叠

ICML 2024

切换

ICLR 2024

切换

NeurIPS 2023

展开/折叠

ICML 2023

切换

ICLR 2023

切换

NeurIPS 2022

切换

ICML 2022

展开

ICLR 2022

展开/收起

NeurIPS 2021

展开/折叠

ICLR 2021

展开/收起

ICML 2021

展开/收起

其他

教程

代码库

  • mbrl-lib - Meta:基于模型强化学习的库
  • DI-engine - OpenDILab:决策AI引擎

贡献

我们的目标是让这个仓库变得更好。如果您有兴趣贡献,请参阅此处以获取贡献说明。

许可证

Awesome Model-Based RL 根据 Apache 2.0 许可证发布。

(返回顶部)

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。

72.1k|★☆☆☆☆|2天前
开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库,依托于 SciPy、NumPy 等科学计算生态,旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口,涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具,内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。 对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言,scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点,让用户无需重复造轮子,只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。 其核心技术亮点在于高度一致的 API 设计风格,所有估算器(Estimator)均遵循相同的调用逻辑,极大地降低了学习成本并提升了代码的可读性与可维护性。此外,它还提供了强大的模型选择与评估工具,如交叉验证和网格搜索,帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目,scikit-learn 以其稳定性、详尽的文档和活跃的社区支持,成为连接理论学习与工业级应用的最

65.6k|★☆☆☆☆|今天
开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架,旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。 无论是刚入门的学生、专注算法的研究人员,还是需要快速落地产品的工程师,都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码,即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性,还允许开发者根据需求自由选择:利用 JAX 或 PyTorch 的即时执行模式进行高效调试,或切换至速度最快的后端以获得最高 350% 的性能提升。此外,Keras 具备强大的扩展能力,能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群,是连接原型开发与生产部署的理想桥梁。

63.9k|★★☆☆☆|昨天
开发框架数据工具其他