Reinforcement-Learning-Papers

559 38 非常简单 1 次阅读昨天MIT其他

AI 解读由 AI 自动生成，仅供参考

Reinforcement-Learning-Papers 是一个专注于强化学习领域的开源论文精选库，旨在帮助研究者高效追踪该方向的核心进展。面对每年顶级会议（如 ICLR、ICML、NeurIPS）涌现的海量新论文，手动筛选高价值内容往往耗时费力，而该项目通过人工阅读与甄别，整理出了一份涵盖经典奠基之作与前沿最新成果的清单，有效解决了信息过载与优质资源难寻的痛点。

该资源特别适合强化学习领域的研究人员、算法工程师以及相关专业的学生使用。无论是希望系统梳理知识体系的初学者，还是急需把握最新技术风向的资深专家，都能从中获益。其独特亮点在于不仅收录了从 DQN、策略梯度等经典方法到基于 Transformer/LLM 的序列生成等前沿探索，还细致地按“无模型/有模型”、“在线/离线”、“元学习”及“对抗学习”等维度进行了结构化分类。此外，项目持续更新直至 2026 年的会议论文，并特别关注单智能体场景，为使用者提供了一条清晰、高质量的技术演进路径，是深入理解强化学习不可或缺的参考指南。

使用场景

某自动驾驶初创公司的算法工程师正在研发基于强化学习的决策模块，急需从海量顶会论文中筛选出适合连续动作空间的最新模型基线。

没有 Reinforcement-Learning-Papers 时

检索效率极低：面对每年数万件 RL 新论文，工程师需在 Google Scholar 和 arXiv 上盲目关键词搜索，耗费数天才能拼凑出零散的文献列表。
经典与前沿割裂：难以快速厘清技术演进脉络，往往找到了最新的 ICLR 2024 论文，却遗漏了支撑该方法的 Double DQN 或 Rainbow 等经典基石，导致复现时缺乏理论根基。
关键信息缺失：下载论文后需逐篇阅读摘要才能确认是否支持“离线训练”或“连续动作空间”，无法预先通过结构化表格快速过滤不匹配的方法。
领域覆盖盲区：容易忽略如"RL 结合扩散模型”或"Meta RL"等交叉领域的突破性进展，导致技术方案选型局限在传统框架内。

使用 Reinforcement-Learning-Papers 后

一站式精准导航：直接利用按会议（ICLR/NeurIPS 等）和方法类型（Model-Free/Offline）分类的目录，10 分钟内即可锁定针对连续动作空间的 SOTA 算法清单。
脉络清晰可视：通过"Classic Methods"到"Current methods"的结构化梳理，迅速掌握从 DQN 到最新 Transformer 结合方案的技术迭代路径，夯实实验设计基础。
核心属性速查：借助包含策略类型、动作空间、在线/离线标记的详细表格，无需阅读全文即可判断论文适用性，大幅缩短预研周期。
前沿动态同步：及时获取直至 ICLR 2026 的最新收录论文，确保团队能第一时间将“离线 RL 结合扩散模型”等前沿思路融入自动驾驶决策系统。

Reinforcement-Learning-Papers 将原本耗时数周的文献调研工作压缩至小时级，让研发团队能更专注于算法落地而非信息搜集。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个强化学习论文列表（Awesome List），主要包含论文标题、方法、会议信息及链接，并非可执行的软件代码库，因此没有特定的运行环境、依赖库或硬件需求。文中仅在部分论文描述中提及某些方法基于 PyTorch 实现，但这属于被引用论文的范畴，而非本仓库本身的运行要求。

python未说明

Reinforcement-Learning-Papers hero image

快速开始

强化学习论文

强化学习相关论文（我们主要关注单智能体强化学习）。

由于每年各大会议上都有数以万计的强化学习新论文，我们只能列出那些我们阅读过并认为具有启发性的论文。

我们已添加了一些ICLR22、ICML22、NeurIPS22、ICLR23、ICML23、NeurIPS23、ICLR24、ICML24、NeurIPS24、ICLR25、ICML25、NeurIPS25、ICLR26的强化学习论文。

无模型（在线）强化学习
- 经典方法
- 探索
- 表示学习
- 无监督学习
- 当前方法
基于模型（在线）强化学习
- 经典方法
- 世界模型
- 代码库
(无模型) 离线强化学习
- 当前方法
- 与扩散模型结合
基于模型的离线强化学习
元强化学习
对抗性强化学习
强化学习中的泛化
- 环境
- 方法
使用Transformer/LLM的强化学习
教程与课程
ICLR22
ICML22
NeurIPS22
ICLR23
ICML23
NeurIPS23
ICLR24
ICML24
NeurIPS24
ICLR25
ICML25
NeurIPS25
ICLR26

无模型（在线）强化学习

经典方法

标题	方法	会议	策略类型	动作空间	策略	描述
通过深度强化学习实现人类水平控制, [其他链接]	DQN	Nature15	离线	离散	基于值函数	使用深度神经网络训练Q学习，在Atari游戏中达到人类水平；主要技巧包括：用于提高样本效率的回放缓冲区，以及目标网络与行为网络的解耦
基于双重Q学习的深度强化学习	Double DQN	AAAI16	离线	离散	基于值函数	发现DQN中的Q函数可能会高估；通过两个神经网络分别负责Q值计算和动作选择来解耦
用于深度强化学习的决斗网络架构	Dueling DQN	ICML16	离线	离散	基于值函数	使用同一神经网络同时近似Q值和状态价值，以计算优势函数
优先级经验回放	优先采样	ICLR16	离线	离散	基于值函数	为回放缓冲区中的样本赋予不同权重（例如TD误差）
Rainbow：结合深度强化学习中的多项改进	Rainbow	AAAI18	离线	离散	基于值函数	将多种DQN改进整合在一起：Double DQN、Dueling DQN、优先采样、多步学习、分布型RL、噪声网络
带有函数逼近的强化学习策略梯度方法	PG	NeurIPS99	在线/离线	连续或离散	函数逼近	提出策略梯度定理：如何计算策略期望累积回报的梯度
----	AC/A2C	----	在线/离线	连续或离散	参数化神经网络	AC：用Q值近似器替代PG中的回报，以降低方差；A2C：用优势函数替代AC中的Q值，以降低方差
深度强化学习的异步方法	A3C	ICML16	在线/离线	连续或离散	参数化神经网络	提出三项提升性能的技巧：(i) 使用多个智能体与环境交互；(ii) 价值函数和策略共享网络参数；(iii) 修改损失函数（价值函数的均方误差 + PG损失 + 策略熵）
信任域策略优化	TRPO	ICML15	在线	连续或离散	参数化神经网络	在策略优化中引入信任域，以保证单调性改进
近端策略优化算法	PPO	arxiv17	在线	连续或离散	参数化神经网络	用剪裁系数的惩罚项替代TRPO的硬约束
确定性策略梯度算法	DPG	ICML14	离线	连续	函数逼近	针对连续动作空间考虑确定性策略，并证明确定性策略梯度定理；同时使用随机行为策略以鼓励探索
基于深度强化学习的连续控制	DDPG	ICLR16	离线	连续	参数化神经网络	将DQN的思想应用于DPG：(i) 使用深度神经网络作为函数逼近器，(ii) 使用回放缓冲区，(iii) 每个epoch固定目标Q值
解决演员-评论家方法中的函数逼近误差	TD3	ICML18	离线	连续	参数化神经网络	将Double DQN的思想应用到DDPG中：取一对评论家网络输出的最小值，以限制高估现象
基于深度能量模型的强化学习	SQL	ICML17	离线	主要针对连续动作	参数化神经网络	考虑最大熵强化学习，并提出软Q迭代及软Q学习
软演员-评论家算法及其应用, 软演员-评论家：具有随机演员的离策略最大熵深度强化学习, [附录]	SAC	ICML18	离线	主要针对连续动作	参数化神经网络	基于SQL的理论分析，扩展软Q迭代（软Q评估+软Q改进）；对策略进行重参数化，并使用两个参数化的价值函数；提出SAC

探索

标题	方法	会议	描述
由自监督预测驱动的好奇心探索	ICM	ICML17	提出好奇心可以作为内在奖励信号，使智能体在奖励稀疏的情况下探索环境并学习技能；将好奇心定义为智能体在由自监督逆动力学模型学习到的视觉特征空间中，预测自身行为后果的能力误差
基于潜在贝叶斯惊讶的 curiosity 驱动探索	LBS	AAAI22	在表示智能体当前对系统动态理解的潜在空间中应用贝叶斯惊讶
深度强化学习中用于探索的自动内在奖励塑造	AIRS	ICML23	根据实时估计的任务回报从预定义集合中选择塑造函数，提供可靠的探索激励并缓解目标偏差问题；开发了一个基于 PyTorch 的工具包，提供多种高质量的内在奖励模块实现
事后好奇心：随机环境中的内在探索	事后好奇心	ICML23	考虑随机环境中的探索；学习能够精确捕捉每个结果不可预测方面的未来表征——我们将其用作预测的额外输入，从而使内在奖励仅反映世界动态中可预测的部分
最大化以探索：融合估计、规划和探索的单一目标函数		NeurIPS23 焦点
MIMEx：来自掩码输入建模的内在奖励	MIMEx	NeurIPS23	提出可以通过灵活调整掩码分布来控制底层条件预测任务的难度

表征学习

注意：基于MBRL的表征学习位于世界模型部分。

标题	方法	会议	描述
CURL: 强化学习中的对比无监督表征	CURL	ICML20	使用对比学习从原始像素中提取高层次特征，并在这些特征之上进行离策略控制
无需重建的强化学习不变表征学习	DBC	ICLR21	提出使用双仿射度量来学习鲁棒的潜在表征，该表征仅编码观测中的任务相关信息
基于原型表征的强化学习	Proto-RL	ICML21	在没有下游任务信息的环境中预训练与任务无关的表征和原型
通过行动理解世界	----	CoRL21	讨论自监督强化学习与离线强化学习相结合如何实现可扩展的表征学习
基于流的POMDP递归信念状态学习	FORBES	ICML22	将归一化流融入变分推断中，以学习适用于POMDP的一般连续信念状态
作为目标条件强化学习的对比学习	对比RL	NeurIPS22	表明（对比）表征学习方法本身就可以被视为强化学习算法
自监督学习真的能提升基于像素的强化学习吗？	----	NeurIPS22	在现有的像素强化学习联合学习框架下，对多种自监督损失函数进行了广泛比较，测试环境涵盖了不同基准中的多个环境，其中包括一个真实环境
自动化辅助损失搜索的强化学习	A2LS	NeurIPS22	提出自动搜索表现最佳的辅助损失函数，以在强化学习中学习更好的表征；基于收集到的轨迹数据定义了一个大小为7.5 × 10^20的通用辅助损失空间，并采用高效的进化搜索策略对该空间进行探索
基于掩码的强化学习潜在空间重建	MLR	NeurIPS22	提出一种有效的自监督方法，通过时空掩码后的像素观测来预测潜在空间中的完整状态表征
通过价值隐式预训练实现通用视觉奖励与表征	VIP	ICLR23 Spotlight	将从人类视频中进行表征学习视为一个离线的目标条件强化学习问题；推导出一种不依赖于动作的自监督双重目标条件价值函数目标，从而能够在未标注的人类视频上进行预训练
强化学习中的潜在变量表征	----	ICLR23	为状态-动作价值函数提供了一种基于潜在变量模型的表征视角，该视角既允许可处理的变分学习算法，又能在面对不确定性时有效实施乐观/悲观原则以促进探索
强化学习中的谱分解表征		ICLR23
通过观看纯视频，在有限数据下成为熟练玩家	FICC	ICLR23	考虑预训练数据仅为无动作视频的情况；引入两阶段训练流程：预训练阶段——从视频中隐式提取隐藏的动作嵌入，并基于向量量化预训练视觉表征和环境动力学网络；下游任务阶段——基于已学习的模型，用少量任务数据进行微调
强化学习中的自举表征	----	ICML23	对时序差分学习所学到的状态表征进行了理论刻画；发现该表征与蒙特卡洛算法和残差梯度算法在策略评估场景下对于大多数环境转移结构所学到的特征存在差异
表征驱动的强化学习	RepRL	ICML23	通过将策略空间映射到线性特征空间，将策略搜索问题简化为上下文相关的多臂赌博机问题
用于强化学习中解耦表征的条件互信息	CMID	NeurIPS23 spotlight	为强化学习算法提出一项辅助任务，通过最小化表征中各特征之间的条件互信息来学习具有相关特征的高维观测的解耦表征

无监督学习

标题	方法	会议	描述
变分内在控制	----	arXiv1611	提出一种新的无监督强化学习方法，用于发现智能体可用的内在选项集，该方法通过最大化智能体能够可靠到达的不同状态数量来学习，而这一数量由选项集与选项终止状态之间的互信息衡量
多样性就是一切：无需奖励函数的学习技能	DIAYN	ICLR19	通过最大化信息论目标，在没有任何奖励的环境中学习多样化的技能
无监督控制通过非参数判别奖励		ICLR19
动态感知的无监督技能发现	DADS	ICLR20	提议使用无模型RL学习低级技能，其明确目标是使基于模型的控制更加容易
基于变分内在后续特征的快速任务推断	VISR	ICLR20
将表征学习与强化学习解耦	ATC	ICML21	提出一种名为增强时间对比（ATC）的新无监督任务，专为强化学习设计，借鉴了对比学习的思想；通过在专家演示上预训练编码器，并将其用于强化学习智能体中，对几种领先的无监督学习算法进行基准测试
瓶颈选项学习下的无监督技能发现	IBOL	ICML21	提出一种基于信息瓶颈的新型技能发现方法，具有多重优势，包括以更解耦和可解释的方式学习技能，同时对干扰信息具有鲁棒性
APS：基于后续特征的主动预训练	APS	ICML21	通过一种新颖的方式将APT和VISR结合起来，以解决两者的不足
从虚空中涌现的行为：无监督主动预训练	APT	NeurIPS21	提出在抽象表征空间中计算非参数熵；对于一组样本，计算每个粒子与其最近邻点之间欧氏距离的平均值
为数据高效的强化学习预训练表征	SGI	NeurIPS21	考虑使用未标记数据进行预训练，并在少量特定任务数据上进行微调，以提高强化学习的数据效率；采用潜在动力学建模与无监督目标条件RL相结合的方法
URLB：无监督强化学习基准	URLB	NeurIPS21	一个用于无监督强化学习的基准
通过世界模型发现并实现目标	LEXA	NeurIPS21	在世界模型中通过想象的rollout无监督地训练探索者和实现者策略；在无监督阶段结束后，无需任何额外学习，即可零样本地解决以目标图像形式指定的任务
无监督强化学习的信息几何	----	ICLR22口头报告	表明基于互信息最大化的无监督技能发现算法并不能学习到对所有可能奖励函数都最优的技能；为一些技能学习方法提供了几何视角
利普希茨约束下的无监督技能发现	LSD	ICLR22	认为基于MI的技能发现方法很容易仅通过状态空间中的微小差异就最大化MI目标；提出一种基于利普希茨约束状态表示函数的新目标，使得在潜在空间中最大化该目标时，总是伴随着状态空间中行进距离（或变化）的增加
通过乐观探索学习更多技能	DISDAIN	ICLR22	推导出一种涉及训练判别器集成并奖励策略使其产生分歧的信息增益辅助目标；该目标直接估计由于判别器未见过足够训练样本而产生的认识论不确定性
无监督强化学习的惊喜混合	MOSS	NeurIPS22	训练一个以最大化惊喜为目标的组件，另一个以最小化惊喜为目标的组件，以应对环境动态熵未知的情况
基于对比内在控制的无监督强化学习	CIC	NeurIPS22	提议最大化状态转移与潜在技能向量之间的互信息
通过循环技能训练进行无监督技能发现	ReST	NeurIPS22	鼓励后训练的技能避免进入先前技能已覆盖的状态
编舞者：在想象中学习和适应技能	编舞者	ICLR23 Spotlight	将探索和技能学习过程解耦；利用元控制器高效评估和调整所学技能，通过在想象中并行部署它们来实现
可证明的离线强化学习无监督数据共享		ICLR23
通过DOMiNO发现策略：保持近似最优性的多样性优化		ICLR23
从像素开始掌握无监督强化学习基准	Dyna-MPC	ICML23口头报告	利用无监督基于模型的RL对智能体进行预训练；通过结合混合规划器Dyna-MPC的任务感知微调策略，对下游任务进行微调
特征去相关性在强化学习无监督表征学习中的重要性	SimTPR	ICML23	提出一种新的URL框架，能够在因果预测未来状态的同时，通过去相关潜在空间中的特征来增加潜在流形的维度
CLUTR：基于无监督任务表征学习的课程学习		ICML23
考虑可控性的无监督技能发现	CSD	ICML23	基于当前技能库训练一个考虑可控性的距离函数，并将其与最大化距离的技能发现相结合
行为对比学习用于无监督技能发现	BeCL	ICML23	提出一种通过行为间对比学习来进行无监督技能发现的新方法，使智能体对同一技能产生相似行为，而对不同技能则产生多样化行为
用于无监督技能发现的变分课程强化学习		ICML23
通过引导发现技能	DISCO-DANCE	NeurIPS23	选择具有最高潜力到达未探索状态的引导技能，引导其他技能跟随该引导技能；被引导的技能会被分散开来，以最大化其在未探索状态中的可区分性
在强化学习中创建多层级技能层次结构		NeurIPS23
通过随机意图先验进行无监督行为提取		NeurIPS23
METRA：基于度量感知抽象的可扩展无监督RL	METRA	ICLR24口头报告
语言引导的技能发现	LGSD	arXiv2406	以用户提示作为输入，输出一组语义上独特的技能
PEAC：跨化身强化学习的无监督预训练	CEURL, PEAC	NeurIPS24	考虑在多种化身分布上进行无监督预训练，即CEURL；并提出PEAC来处理CEURL
无监督强化学习的探索性扩散模型	ExDM	ICLR26口头报告	利用扩散模型来增强无监督探索，并对预训练的扩散策略进行微调

当前方法

标题	方法	会议	描述
用于线性函数逼近的离策略学习加权重要性采样	WIS-LSTD	NeurIPS14
基于估计行为策略的重要性采样策略评估	RIS	ICML19
通过潜在状态解码实现可证明高效的强化学习与丰富观测	块MDP	ICML19
深度策略梯度中的实现细节：以PPO和TRPO为例	----	ICLR20	表明性能提升与代码级优化相关
增强数据的强化学习	RAD	NeurIPS20	提出首次对强化学习中像素和状态输入的通用数据增强进行全面研究
图像增强就够了：从像素出发正则化深度强化学习	DrQ	ICLR21 Spotlight	在无模型方法中应用数据增强时，提出对价值函数进行正则化，并在图像像素任务上达到最先进水平
在策略强化学习中什么最重要？一项大规模实证研究	----	ICLR21	对MuJoCo上的不同技巧进行大规模实证研究，以评估在策略算法的效果
镜像下降策略优化	MDPO	ICLR21
无需重建即可学习强化学习的不变表征	DBC	ICLR21
随机集成双Q学习：无需模型也能快速学习	REDQ	ICLR21	考虑三个要素：(i) 每个epoch多次更新Q函数；(ii) 使用Q函数集成；(iii) 从集成中随机子集中取最小值以避免过估计；提出REDQ并达到与基于模型的方法相当的性能
处于统计临界点边缘的深度强化学习	----	NeurIPS21 杰出论文	倡导报告聚合性能的区间估计，并提出性能轮廓来考虑结果的变异性，同时引入更稳健、高效的聚合指标，如四分位数均值，以减小结果的不确定性；[rliable]
适用于深度强化学习的可泛化情景记忆	GEM	ICML21	提出将神经网络的泛化能力和情景记忆的快速检索方式相结合
强化学习中的最大-最小熵框架	MME	NeurIPS21	发现SAC可能无法探索低熵状态（到达高熵状态并提高其熵）；提出最大-最小熵框架来解决这一问题
最大熵RL（理论上）可解决部分鲁棒RL问题	----	ICLR22	理论证明
SO(2)等变强化学习	Equi DQN, Equi SAC	ICLR22 Spotlight	考虑学习变换不变的策略和价值函数；定义并分析群等变MDP
CoBERL：用于强化学习的对比BERT	CoBERL	ICLR22 Spotlight	提出用于强化学习的对比BERT（COBERL），结合新的对比损失和混合LSTM-Transformer架构，以应对提高数据效率的挑战
理解和预防强化学习中的容量损失	InFeR	ICLR22 Spotlight	提出深度RL智能体在训练过程中会失去快速拟合新预测任务的能力；提出InFeR，将一组网络输出正则化回初始值
关于深度强化学习中的彩票假设与最小任务表示	----	ICLR22 Spotlight	探讨深度强化学习中的彩票假设
利用离线演示引导的稀疏奖励强化学习	LOGO	ICLR22 Spotlight	针对强化学习中的稀疏奖励挑战；提出LOGO，利用次优行为策略生成的离线演示数据；每一步LOGO包括通过TRPO进行策略改进，以及使用次优行为策略进行额外的策略引导
通过不确定性估计实现样本高效的深度强化学习	IV-RL	ICLR22 Spotlight	分析无模型DRL算法监督中的不确定性来源，并表明可以通过负对数似然和方差集成来估计监督噪声的方差
用于强化学习中时间协调探索的生成式规划	GPM	ICLR22 Spotlight	专注于为无模型RL生成一致的动作，借鉴基于模型的规划和重复动作的思想；使用策略生成多步动作
智能体何时应该探索？	----	ICLR22 Spotlight	探讨何时进行探索，并提出选择异质模式切换的行为策略
最大化深度强化学习中集成的多样性	MED-RL	ICLR22
最大熵RL（理论上）可解决部分鲁棒RL问题	----	ICLR22	理论证明标准的最大熵RL对动力学和奖励函数中的某些扰动具有鲁棒性
通过行为相似性的自适应元学习器学习强化学习的可泛化表征	AMBS	ICLR22
大批次经验回放	LaBER	ICML22 口头报告	将回放缓冲区采样问题视为一种重要性采样问题，用于估计梯度，并推导出理论最优采样分布
可微分模拟器是否能提供更好的策略梯度？	----	ICML22 口头报告	探讨可微分模拟器是否能提供更好的策略梯度；指出一阶估计的一些陷阱，并提出α阶估计
联邦强化学习：通信高效的算法及收敛性分析		ICML22 口头报告
通用策略优化的解析更新规则	----	ICML22 口头报告	为信赖域方法提供更紧的边界
基于几何策略组合的广义策略改进	GSPs	ICML22 口头报告	提出几何切换策略（GSP）的概念，即我们有一组策略，轮流使用它们采取行动；对于每个策略，从几何分布中抽取一个数字，执行该策略相应次数；探讨非马尔可夫GSPs上的策略改进
我为什么要相信你，贝尔曼？贝尔曼误差不能替代价值误差	----	ICML22	旨在通过理论分析和实证研究更好地理解贝尔曼误差与价值函数准确性之间的关系；指出贝尔曼误差不能很好地替代价值误差，包括(i) 贝尔曼误差的大小掩盖了偏差，(ii) 缺失的转移打破了贝尔曼方程
马尔可夫决策过程的自适应模型设计	----	ICML22	考虑正则化马尔可夫决策过程，并将其建模为双层问题
稳定基于像素的离策略深度强化学习	A-LIX	ICML22	提出带有卷积编码器和低幅度奖励的时间差学习会导致不稳定，称为灾难性自我过拟合；建议对编码器的梯度进行自适应正则化，以明确防止灾难性自我过拟合的发生
基于敏感性分析的理解策略梯度算法	----	ICML22	从扰动的角度研究PG
镜像学习：统一的策略优化框架	镜像学习	ICML22	提出一种新颖的统一理论框架——镜像学习，为广义策略改进（GPI）和信赖域学习（TRL）提供理论保证；并从图论角度提出了对镜像学习的有趣见解
基于演示的连续控制动作量化	AQuaDem	ICML22	利用人类演示的先验知识，将连续动作空间简化为一组有意义的离散动作；指出使用一组动作而非单一动作（行为克隆）能够捕捉演示中行为的多模态性
使用可微分函数近似的离策略拟合Q评估：Z估计与推断理论	----	ICML22	使用Z估计理论分析使用一般可微分函数近似的拟合Q评估（FQE），包括基于神经网络的函数近似
深度强化学习中的首因效应	首因效应	ICML22	发现深度RL智能体有过度拟合早期经验的风险，这会对后续学习过程产生负面影响；提出一种简单但普遍适用的机制，通过定期重置智能体的一部分来缓解首因效应
利用深度强化学习优化序列实验设计		ICML22	使用DRL解决序列实验的最佳设计问题
鲁棒价值函数的几何结构		ICML22	研究更一般的鲁棒MDP中鲁棒价值空间的几何结构
马尔可夫序列决策中的效用理论	仿射奖励MDP	ICML22	将冯·诺依曼-摩根斯特恩（VNM）效用定理扩展到决策场景
通过深度网络集成降低时序差价值估计的方差	MeanQ	ICML22	考虑降低时序差价值估计的方差；提出通过集成来估计目标值的MeanQ
统一策略优化的近似梯度更新		ICML22
基于神经辐射场的强化学习	NeRF-RL	NeurIPS22	提出训练一个编码器，将多张图像观测映射到描述场景中物体的潜在空间
关于强化学习与分布匹配在语言模型微调中的应用，且无灾难性遗忘	----	NeurIPS22	探索奖励最大化（RM）与分布匹配（DM）之间的理论联系
用较慢的在线网络加速深度强化学习	DQN Pro, Rainbow Pro	NeurIPS22	鼓励在线网络保持在目标网络附近
强化学习的重生：复用先前计算以加速进展	PVRL	NeurIPS22	专注于将任何智能体的强化学习成果迁移到其他智能体；将重生的强化学习作为一种替代工作流或一类问题设置，其中先前的计算工作（例如学到的策略）可以在强化学习智能体的设计迭代之间，或从一个智能体转移到另一个智能体
突破回放比例障碍实现样本高效强化学习	SR-SAC, SR-SPR	ICLR23 口头报告	表明完全或部分重置深度强化学习智能体的参数后，会出现更好的回放比例扩展能力
利用不完美的在线演示进行受保护策略优化	TS2C	ICLR23 Spotlight	结合基于轨迹的价值估计进行教师干预
迈向人机友好的原型驱动的可解释深度强化学习	PW-Net	ICLR23 Spotlight	专注于打造“设计之初就可解释”的深度强化学习智能体，使其在决策时必须使用人机友好的原型，从而清晰展示其推理过程；训练一种名为PW-Net的“包装”模型，可添加到任何预训练智能体上，使其具备可解释性
DEP-RL：用于过度驱动和肌肉骨骼系统的具身式强化学习探索	DEP-RL	ICLR23 Spotlight	引入来自自组织行为领域的DEP控制器，以生成比其他常用噪声过程更有效的探索；首次在肌肉刺激层面使用RL控制7自由度的人臂模型
高效的深度强化学习需要调节统计过拟合	AVTD	ICLR23	提出一种简单的主动模型选择方法（AVTD），通过在验证TD误差上进行爬山搜索，自动选择正则化方案
贪婪演员-评论家：一种用于策略改进的新条件交叉熵方法	CCEM, GreedyAC	ICLR23	提议根据学习到的动作价值对动作进行排名，然后迭代选取前百分之一的动作；利用CEM的理论验证CCEM能够随着时间的推移集中在各状态下价值最高的动作上
利用语言模型进行奖励设计	----	ICLR23	探讨如何通过大型语言模型（LLM）如GPT-3作为代理奖励函数来简化奖励设计，用户只需提供包含少量示例（少次）或对期望行为的描述（零次）的文本提示
通过Q学习解决连续控制问题	DecQN	ICLR23	将价值分解与bang-bang动作空间离散化结合应用于DQN，以处理连续控制任务；在DMControl、Meta World和Isaac Gym上进行了评估
瓦瑟斯坦自编码MDP：以多方保障高效蒸馏RL策略的形式验证	WAE-MDP	ICLR23	将执行原始策略的智能体行为与蒸馏策略行为之间的最优传输惩罚形式最小化
人类水平Atari游戏速度提升200倍	MEME	ICLR23	在3.9亿帧内超越所有57款Atari游戏的人类基准；四个关键组件：(1) 一种近似信赖域方法，可从在线网络稳定启动，(2) 一套用于损失和优先级的归一化方案，可在学习一系列尺度广泛的价值函数时提高鲁棒性，(3) 改进的架构，采用NFNets的技术，以便在无需归一化层的情况下使用更深的网络，(4) 一种策略蒸馏方法，可随时间平滑瞬时的贪婪策略。
通过价值函数搜索改进深度策略梯度	VFS	ICLR23	专注于改进价值近似，并分析其对深度PG原语的影响，如价值预测、方差减少和梯度估计与真实梯度的相关性；表明具有良好预测能力的价值函数可以改善深度PG原语，从而提高样本效率和政策回报率
记忆健身房：基于记忆的智能体面临的部分可观测挑战	智能体记忆健身房	ICLR23	一个用于挑战深度强化学习智能体的记忆基准，要求其能够记住长序列中的事件、抵抗噪声干扰并进行泛化；由部分可观测的2D和离散控制环境组成，包括Mortar Mayhem、Mystery Path和Searing Spotlights；[代码]
混合RL：同时使用离线和在线数据可以使RL更高效	Hy-Q	ICLR23	专注于一种名为混合RL的设置，在这种设置下，智能体既拥有离线数据集，又能够与环境互动；扩展拟合Q迭代算法
POPGym：部分可观测强化学习的基准测试	POPGym	ICLR23	一个包含两部分的库：(1) 包含15种部分可观测环境的多样化集合，每种环境都有多种难度级别，(2) 实现了13种记忆模型基线；[代码]
评论家顺序蒙特卡洛	CriticSMC	ICLR23	将顺序蒙特卡洛与学习到的Soft-Q函数启发因子结合起来
面向规划的自动驾驶		CVPR23 最佳论文
关于离策略强化学习中的重用偏见	BIRIS	IJCAI23	讨论由于重用回放缓冲区而导致的离策略评估偏见；推导出重用偏见的高概率边界；引入离策略算法稳定性的概念，并给出稳定离策略算法的上限
深度强化学习中的休眠神经元现象	ReDo	ICML23 口头报告	研究RL智能体在训练过程中表达力下降的根本原因；证明深度RL中存在休眠神经元现象；提出“回收休眠神经元”（ReDo）以减少休眠神经元数量，并在训练过程中维持网络的表达力
通过解耦环境和智能体表征实现高效RL	SEAR	ICML23 口头报告	考虑构建一种能够将机器人智能体与其环境解耦的表征，以提高RL的学习效率；通过以智能体为中心的辅助损失来增强RL损失
关于时间差学习的统计益处	----	ICML23 口头报告	对TD的统计益处进行了清晰阐述
解决奖励假说	----	ICML23 口头报告	从目标是智能体主观愿望和目标是智能体设计师客观愿望两种情境分别探讨奖励假说
为部分可观测的深度RL学习信念表征	Believer	ICML23	将信念状态建模（通过无监督学习）与策略优化（通过RL）分离；提出一种表征学习方法，以捕捉状态中与奖励相关的紧凑特征集
内部奖励强化学习	IRRL	ICML23	研究一类强化学习问题，其中用于策略学习的奖励信号是由依赖于策略并与之联合优化的内部奖励模型产生的；从理论和实践上分析IRRL中奖励函数的影响，并基于这些分析提出剪切线性奖励函数
强化学习中的超参数及其调优方法	----	ICML23	探索常用RL算法和环境的超参数景观；比较不同类型HPO方法在最先进的RL算法和具有挑战性的RL环境中表现
兰金顿普森采样与对数通信：多臂老虎机与强化学习		ICML23
纠正在策略策略梯度方法中的折扣因子不匹配	----	ICML23	引入一种新的分布校正，以考虑折现后的平稳分布
强化学习若采用多重奖励可更高效	----	ICML23	理论分析动作消除算法的多奖励扩展版本，并证明与单奖励版本相比，在多臂老虎机和表格马尔可夫决策过程中，其实例依赖型遗憾边界更为有利
表演性强化学习	----	ICML23	引入表演性强化学习框架，其中学习者选择的策略会影响环境的基础奖励和转移动态
具有历史依赖动态上下文的强化学习	DCMDPs	ICML23	引入DCMDPs，一种针对历史依赖环境的新型强化学习框架，可处理非马尔可夫环境，其中上下文会随时间变化；为逻辑DCMDPs推导出类似上置信区间风格的算法
关于多动作策略梯度	MBMA	ICML23	提出MBMA，一种利用动力学模型在随机策略梯度（SPG）背景下进行多动作采样的方法，其偏差低于从模型模拟滚动中估算的SPG，而方差则与之相当
奖励模型过度优化的缩放规律	----	ICML23	研究在大型语言模型微调为奖励模型时的过度优化问题，这些模型被训练用来预测人类会偏好两个选项中的哪一个；研究当使用强化学习或最佳n次抽样方法对抗代理奖励模型进行优化时，黄金奖励模型得分如何变化
更大、更好、更快：人类水平Atari游戏，同时具备人类水平效率	BBF	ICML23	依靠扩大用于价值估计的神经网络规模以及其他一些设计选择，如重置等
合成经验回放	SynthER	NeurIPS23	利用扩散技术增强回放缓冲区的数据；在在线RL和离线RL中均进行了评估
OMPO：一种应对策略和动力学变化的统一RL框架	OMPO	ICML24 口头报告	考虑由策略或动力学变化引起的分布差异；提出通过考虑转移占用率差异来设定一个替代策略学习目标，然后通过双重重构将其转化为一个易于处理的最小-最大优化问题

基于模型的（在线）强化学习

经典方法

标题	方法	会议	描述
基于模型的强化学习中的值感知损失函数	VAML	AISTATS17	提出使用TD误差之差而非KL散度来训练模型
模型集成信任区域策略优化	ME-TRPO	ICLR18	分析使用深度神经网络的普通MBRL方法的行为；提出ME-TRPO，包含两个思想：(i) 使用模型集成，(ii) 使用似然比导数；与无模型方法相比显著降低样本复杂度
用于高效无模型强化学习的基于模型的价值扩展	MVE	ICML18	使用动力学模型模拟短期 horizon，并用Q-learning估计超出模拟 horizon 的长期价值；利用训练好的模型和策略估计k步价值函数以更新价值函数
迭代式值感知模型学习	IterVAML	NeurIPS18	用当前价值函数的估计值替换VAML中的上确界
基于随机集成价值扩展的高效强化学习	STEVE	NeurIPS18	MVE的扩展；仅利用roll-out而不会引入显著误差
使用概率动力学模型在少量试验中实现深度强化学习	PETS	NeurIPS18	提出PETS，通过自助模型集成来纳入不确定性
具有理论保证的基于模型深度强化学习算法框架	SLBO	ICLR19	提出一种新的算法框架，用于设计和分析具有理论保证的基于模型RL算法：提供满足某些性质的真实回报下界，使得优化该下界实际上可以优化真实回报
何时信任你的模型：基于模型的策略优化	MBPO	NeurIPS19	提出具有单调性基于模型改进的MBPO；从理论上讨论如何选择模型rollout的k值
Atari游戏的基于模型强化学习	SimPLe	ICLR20	首次成功使用基于模型的方法处理ALE基准测试，并采用以下设计：(i) 确定性模型；(ii) 设计良好的损失函数；(iii) 调度采样；(iv) 随机模型
双向基于模型的策略优化	BMPO	ICML20	MBPO的扩展；同时考虑前向和逆向动力学模型
面向基于模型强化学习中泛化的上下文感知动力学模型	CaDM	ICML20	开发了一种能够跨具有不同转移动态的环境分布进行泛化的上下文感知动力学模型（CaDM）；引入一种逆向动力学模型，可通过利用上下文潜在向量预测先前状态
基于模型强化学习的游戏理论框架	PAL, MAL	ICML20	开发了一种新颖的框架，将MBRL视为策略玩家与模型玩家之间的博弈；在两者之间设置斯塔克尔伯格博弈
通过自监督世界模型规划探索	Plan2Explore	ICML20	提出一种自监督强化学习智能体，以应对快速适应和预期未来新奇性两大挑战
当模型自信时就相信它：掩码式基于模型的演员-评论家	M2AC	NeurIPS20	MBPO的扩展；仅在模型自信时才使用模型rollout
LoCA遗憾：评估强化学习中基于模型行为的一致性指标	LoCA	NeurIPS20	提出LoCA来衡量方法在环境从第一个任务切换到第二个任务后调整策略的速度
用于无限 horizon 预测的生成时序差分学习	GHM，或gamma模型	NeurIPS20	提出gamma模型，无需反复应用单步模型即可进行长horizon预测
模型、像素和奖励：视觉基于模型强化学习中设计权衡的评估	----	arXiv2012	研究视觉MBRL算法中预测模型的若干设计决策，特别关注那些使用预测模型进行规划的方法
用有限数据掌握Atari游戏	EfficientZero	NeurIPS21	首次在有限数据条件下实现Atari游戏的超人水平表现；提出EfficientZero，包含三个组成部分：(i) 使用自监督学习来学习时间一致的环境模型，(ii) 以端到端方式学习价值前缀，(iii) 使用学习到的模型来修正离策略价值目标
关于基于模型强化学习的有效调度	AutoMBPO	NeurIPS21	MBPO的扩展；自动调度真实数据比例以及其他MBPO的超参数
基于模型强化学习中的模型优势与值感知模型：弥合理论与实践之间的鸿沟	----	arxiv22	弥合基于模型RL中值感知模型学习（VAML）的理论与实践差距
基于值梯度加权的强化学习	VaGraM	ICLR22 Spotlight	考虑MBRL中的目标不匹配问题；通过用当前价值函数估计的梯度信息对MSE损失函数进行重新缩放，提出VaGraM
通过贝叶斯世界模型进行约束策略优化	LAMBDA	ICLR22 Spotlight	考虑CMDP中的贝叶斯基于模型方法
强化学习中的在线策略模型误差	OPC	ICLR22	考虑将真实世界数据与学习到的模型相结合，以兼得两者的优点；建议利用真实世界数据进行在线策略预测，而仅使用学习到的模型来泛化到不同的动作；提议在单独学习的模型基础上使用在线策略转移数据，以实现MBRL的准确长期预测
用于模型预测控制的时间差分学习	TD-MPC	ICML22	提出仅使用模型来预测奖励；用策略加速规划过程
用于任务无关状态抽象的因果动力学学习		ICML22
不再不匹配：基于模型RL的联合模型-策略优化	MnM	NeurIPS22	提出一种基于模型RL算法，其中模型和策略针对同一目标进行联合优化，该目标是真实环境动态下预期回报的下界，并在特定假设下变得紧致
非指数贴现下的强化学习	----	NeurIPS22	提出一种适用于任意贴现函数的连续时间基于模型强化学习理论；推导出刻画最优策略的汉密尔顿-雅可比-贝尔曼方程，并描述如何使用配点法求解
简化基于模型RL：用一个目标学习表征、隐空间模型和策略	ALM	ICLR23	提出单一目标，即使用相同的目标联合优化策略、隐空间模型和编码器产生的表征：最大化预测奖励，同时最小化预测表征中的误差
SpeedyZero：用有限的数据和时间掌握Atari	SpeedyZero	ICLR23	基于EfficientZero构建的分布式RL系统，结合优先刷新和截断LARS；仅用30万次采样，在35分钟内达到Atari基准测试的人类水平表现
探讨基于模型学习在探索和迁移中的作用		ICML23
STEERING：基于模型强化学习的斯坦因信息导向探索	STEERING	ICML23
用于无监督基于模型RL的可预测MDP抽象	PMA	ICML23	通过限制不可预测的动作，在抽象简化后的MDP之上应用基于模型RL
基于模型RL中的懒惰之美：统一目标和算法		ICML23
停止回归：通过分类训练价值函数以实现可扩展的深度RL	HL-Gauss	ICML24口头报告	表明使用分类交叉熵训练价值函数可显著提升性能和可扩展性，涵盖多个领域，包括Atari 2600游戏的单任务RL、使用大型ResNet的Atari多任务RL、使用Q-transformer的机器人操作、无需搜索的国际象棋对弈，以及使用高容量Transformer的语言代理Wordle任务，在这些领域均取得了最先进的结果
在模型自信的地方就信任它：具有不确定性感知rollout自适应的基于模型演员-评论家	MACURA	ICML24	提出一种易于调优的基于模型rollout长度调度机制

世界模型

标题	方法	会议	描述
世界模型, [NeurIPS版本]	世界模型	NeurIPS18	使用无监督方式学习环境的压缩时空表征，并利用世界模型训练一个非常紧凑且简单的策略来解决目标任务
从像素中学习潜在动力学以进行规划	PlaNet	ICML19	提出PlaNet，从图像中学习环境动力学；该动力学模型由转移模型、观测模型、奖励模型和编码器组成；采用交叉熵方法选择动作以进行规划
从梦想中控制：通过潜在想象学习行为	Dreamer	ICLR20	完全依靠潜在想象从图像中解决长 horizon 任务；在基于图像的MuJoCo环境中测试；提出用智能体替代PlaNet中的控制算法
为基于模型的深度强化学习架起想象与现实之间的桥梁	BIRD	NeurIPS20	提出最大化想象轨迹与真实轨迹之间的互信息，从而使从想象轨迹中学到的策略改进能够更容易地泛化到真实轨迹上
通过自监督的世界模型进行探索式规划	Plan2Explore	ICML20	提出Plan2Explore，用于自监督的探索和快速适应新任务
使用离散世界模型掌握Atari游戏	Dreamerv2	ICLR21	完全依靠潜在想象从图像中解决长 horizon 任务；在基于图像的Atari游戏中测试
用于潜在空间中基于模型规划的时序预测编码	TPC	ICML21	提出一种基于时序预测编码的方法，用于从高维观测中进行规划，并从理论上分析其优先编码任务相关信息的能力
学习任务感知抽象	TIA	ICML21	引入任务感知MDP（TiMDP）的形式化框架，通过训练两个通过协同重建学习视觉特征的模型来实现，但其中一个模型被对抗性地与奖励信号分离
Dreaming：无需重建的基于潜在想象的模型强化学习	Dreaming	ICRA21	提出Dreamer的无解码器扩展版本，因为基于自动编码的方法常常会导致物体消失
通过衍生记忆进行想象的基于模型的强化学习	IDM	NeurIPS21	希望通过衍生记忆提高基于模型策略优化的想象力多样性；指出当前方法在潜在状态受到随机噪声干扰时无法有效丰富想象力
最大熵基于模型的强化学习	MaxEnt Dreamer	NeurIPS21	将探索方法与基于模型的强化学习联系起来；将最大熵探索应用于Dreamer
通过世界模型发现并达成目标	LEXA	NeurIPS21	通过世界模型中的想象回放无监督地训练探索者和达成者策略；无监督阶段结束后，无需任何额外学习即可零样本地解决以目标图像指定的任务
TransDreamer：使用Transformer世界模型的强化学习	TransDreamer	arxiv2202	用Transformer替换RSSM中的RNN
DreamerPro：无重建的基于原型表示的模型强化学习	DreamerPro	ICML22	考虑无重建的MBRL；提出从世界模型的循环状态中学习原型，从而将过去观测和动作中的时序结构提炼到原型中。
迈向评估基于模型强化学习方法的适应性	----	ICML22	引入LoCA设置的改进版本，并用其评估PlaNet和Dreamerv2
通过视频进行无动作预训练的强化学习	APV	ICML22	使用来自不同领域的视频预训练一个无动作的潜在视频预测模型，然后在目标领域对预训练模型进行微调
去噪MDP：学习比世界本身更好的世界模型	Denoised MDP	ICML22	将信息分为四类：可控/不可控（是否受动作影响）以及与奖励相关/无关（是否影响回报）；建议仅考虑可控且与奖励相关的信息
DreamingV2：无需重建的离散世界模型强化学习	Dreamingv2	arxiv2203	同时采用DreamerV2的离散表征和Dreaming的无重建目标
用于视觉控制的掩码世界模型	MWM	arxiv2206	将视觉表征学习与动力学学习解耦，用于基于视觉模型的强化学习，并使用掩码自编码器训练视觉表征
DayDreamer：用于物理机器人学习的世界模型	DayDreamer	arxiv2206	将Dreamer应用于4个机器人，在真实世界中直接在线学习，无需任何模拟器
Iso-Dream：在世界模型中隔离不可控的视觉动力学	Iso-Dream	NeurIPS22	将独立于动作信号的不可控动力学单独考虑；鼓励世界模型在隔离的状态转移分支上学习可控和不可控的时空变化来源；优化智能体在世界模型解耦的潜在想象上的行为
通过少量无奖励部署学习通用世界模型	CASCADE	NeurIPS22	引入无奖励部署效率设定，以促进泛化（探索应与任务无关）和可扩展性（探索策略应在不进行昂贵集中再训练的情况下收集大量数据）；提出一种受贝叶斯主动学习启发的信息论目标，通过新颖的级联目标专门最大化群体采样的轨迹多样性
通过变分稀疏门控学习鲁棒动力学	VSG、SVSG、BBS	NeurIPS22	考虑每一步稀疏更新潜在状态；开发了一种新的部分可观测且随机的环境，称为BringBackShapes（BBS）
Transformer是样本高效的世界模型	IRIS	ICLR23口头报告	使用离散自编码器和自回归Transformer进行世界模型训练，显著提高了Atari游戏中的数据效率（2小时实时经验）；[代码]
基于Transformer的世界模型只需10万次交互即可	TWM	ICLR23	展示了一种基于Transformer-XL的新自回归世界模型；在Atari 10万次基准测试中取得了优异的成绩；[代码]
动态更新-数据比例：最小化世界模型过拟合	DUTD	ICLR23	提出一种新的通用方法，在训练过程中根据对持续收集但未用于训练的小样本子集的欠拟合和过拟合检测，动态调整更新-数据（UTD）比例；并将该方法应用于DreamerV2
在3D迷宫中评估长期记忆	Memory Maze	ICLR23	引入Memory Maze，这是一个专为评估智能体长期记忆而设计的随机迷宫3D领域，包括在线强化学习基准、多样化的离线数据集以及离线探针评估；[代码]
通过世界模型掌握多样化领域	DreamerV3	arxiv2301	提出DreamerV3，用于处理广泛的领域，包括连续和离散动作、视觉和低维输入、2D和3D世界、不同的数据预算、奖励频率和奖励规模
面向强化学习中任务泛化的任务感知Dreamer	TAD	arXiv2303	提出任务分布相关性，以定量捕捉任务分布的相关性；建议使用世界模型通过将奖励信号编码到策略中来提升任务泛化能力
用于多模态轨迹优化的重参数化策略学习	RPG	ICML23口头报告	提出一种原则性的框架，将连续RL策略建模为最优轨迹的生成模型；介绍RPG，利用多模态策略参数化和已学习的世界模型，实现强大的探索能力和高数据效率
从像素中掌握无监督强化学习基准	Dyna-MPC	ICML23口头报告	利用无监督的基于模型的强化学习对智能体进行预训练；通过结合混合规划器Dyna-MPC的任务感知微调策略对下游任务进行微调
用于深度强化学习的后验采样	PSDRL	ICML23	将对潜在状态空间模型的有效不确定性量化与基于价值函数近似的定制连续规划算法相结合
具有可扩展复合策略梯度估计器的基于模型的强化学习	TPX	ICML23	提出Total Propagation X，这是首个采用逆方差加权的复合梯度估计算法，已被证明可在大规模应用；将TPX与Dreamer结合使用
超越想象：利用世界模型最大化情节可达性	GoBI	ICML23	将传统的终身新颖性动机与旨在最大化逐步可达性扩展的情节内在奖励相结合；利用已学习的世界模型生成随机行动下的预测未来状态
简化的时序一致性强化学习	TCRL	ICML23	提出一种简单的表征学习方法，仅依赖于通过潜在时序一致性训练的潜在动力学模型，即可实现高性能的强化学习
具身智能体是否会梦见像素化的羊：使用语言引导的世界建模进行具身决策	DECKARD	ICML23	通过少量提示调用LLM，假设存在一个关于子目标的抽象世界模型（AWM）
无需演示的自主强化学习：通过隐式和双向课程		ICML23
用于基于模型适应的奇趣回放	CR	ICML23	通过优先回放智能体最不了解的经验来帮助基于模型的RL智能体适应
用于视觉机器人操作的多视角掩码世界模型	MV-MWM	ICML23	训练一个多视角掩码自编码器，该自编码器可以重建随机遮挡视角的像素，然后基于自编码器的表征学习世界模型
世界模型骨干对决：RNN、Transformer和S4	S4WM	NeurIPS23	提出首个基于S4的世界模型，可通过潜在想象生成高维图像序列

代码库

标题	会议	方法	GitHub
MBRL-Lib: 基于模型的强化学习模块化库	arxiv21	MBPO, PETS, PlaNet	链接

（无模型）离线强化学习

当前方法

标题	方法	会议	描述
无需探索的离线深度强化学习	BCQ	ICML19	表明离线方法因外推误差表现不佳；提出批处理约束强化学习：在最大化回报的同时，最小化策略的状态-动作访问分布与批次中包含的状态-动作对之间的不匹配
用于离线强化学习的保守Q学习	CQL	NeurIPS20	提出使用保守Q函数的CQL，该Q函数是其真实值的下界，因为标准的离线方法会高估价值函数
离线强化学习：教程、综述及开放问题展望	----	arxiv20	关于离线RL的方法、应用和开放问题的教程
基于不确定性的离线强化学习与多样化Q集合		NeurIPS21
离线强化学习的极简主义方法	TD3+BC	NeurIPS21	提出添加行为克隆项以正则化策略，并对数据集中的状态进行归一化
DR3：基于价值的深度强化学习需要显式正则化	DR3	ICLR22 Spotlight	考虑SGD在RL中的隐式正则化作用；基于理论分析，提出一种称为DR3的显式正则化器，并将其与离线RL方法结合
用于不确定性驱动的离线强化学习的悲观自举法	PBRL	ICLR22 Spotlight	考虑离线RL中的分布偏移和外推误差；提出带有自举的PBRL，用于不确定性量化，并采用OOD采样方法作为正则化手段
COptiDICE：通过稳态分布修正估计进行离线约束强化学习	COptiDICE	ICLR22 Spotlight	考虑离线约束强化学习；提出COptiDICE直接优化受约束的状态-动作分布
基于价值的 episodic memory 的离线强化学习	EVL, VEM	ICLR22	提出一种新的离线V-learning方法，通过模仿学习与最优价值学习之间的权衡来学习价值函数；使用基于记忆的规划方案来增强优势估计，并以回归方式执行策略学习
基于隐式Q学习的离线强化学习	IQL	ICLR22	提出仅通过样本内学习来学习最优策略，而无需查询任何未见动作的价值
离线RL策略应被训练为具有适应性	APE-V	ICML22口头报告	表明从离线数据集中学习并不能完全指定环境；利用贝叶斯形式化正式证明了离线RL中适应性的必要性，并提供了一种学习最优适应性策略的实用算法；提出一种基于集成的离线RL算法，使策略具备在单个episode内适应的能力
当数据几何遇上深度函数：泛化离线强化学习	DOGE	ICLR23	训练一个状态条件下的距离函数，可直接插入到标准的actor-critic方法中作为策略约束
跳跃式启动强化学习	JSRL	ICML23	考虑使用两种策略解决问题的设置：引导策略和探索策略；通过逐步“滚动”引入引导策略来启动RL算法

与扩散模型结合

标题	方法	会议	描述
用于灵活行为合成的扩散规划	Diffuser	ICML22口头报告	首次提出专为轨迹数据设计的去噪扩散模型以及相关的概率框架用于行为合成；证明Diffuser具有一系列有用特性，尤其适用于需要长 horizon 推理和测试时灵活性的离线控制场景
条件生成建模是否足以支持决策？		ICLR23口头报告
扩散QL作为离线强化学习中富有表现力的策略类别	Diffusion-QL	ICLR23	使用扩散（或基于分数）模型进行策略正则化；利用条件扩散模型来表示策略
通过高保真生成式行为建模进行离线强化学习	SfBC	ICLR23	将学习到的策略解耦为两部分：一个富有表现力的生成式行为模型和一个动作评估模型
AdaptDiffuser：扩散模型作为自进化规划者	AdaptDiffuser	ICML23口头报告	提出AdaptDiffuser，一种基于扩散的进化规划方法，能够自我进化以改进扩散模型，从而成为更好的规划者，同时也能适应未见过的任务
用于离线到在线强化学习的能量引导扩散采样	EDIS	ICML24	利用扩散模型从离线数据集中提取先验知识，并借助能量函数提炼这些知识，以在在线阶段实现更高质量的数据生成；制定三种不同的能量函数来指导扩散采样过程，以实现分布对齐
DIDI：扩散引导的离线行为多样性	DIDI	ICML24	提出从混合的无标签离线数据中学习多样化的技能

基于模型的离线强化学习

标题	方法	会议	描述
基于模型的离线优化实现部署高效的强化学习	BREMEN	ICLR20	提出部署效率的概念，用于统计学习过程中数据收集策略的变化次数（离线：1次，在线：无限制）；提出使用动力学模型集成的BERMEN算法，用于离线和异策略强化学习
MOPO：基于模型的离线策略优化	MOPO	NeurIPS20	观察到现有的基于模型的强化学习算法在性能上优于无模型强化学习算法；通过在不确定性惩罚的MDP上扩展MBPO来设计MOPO（新奖励 = 奖励 - 不确定性）
MOReL：基于模型的离线强化学习	MOReL	NeurIPS20	提出用于基于模型的离线强化学习的MOReL方法，包括两个步骤：(a) 学习一个悲观MDP，(b) 在这个P-MDP中学习近似最优策略
基于模型的离线规划	MBOP	ICLR21	学习用于规划的模型
基于表示平衡的离线基于模型的强化学习	RepB-SDE	ICLR21	专注于在分布偏移条件下学习环境的鲁棒表示，并扩展RepBM以应对“horizon curse”问题；提出RepB-SDE框架，用于异策略评估和离线强化学习
用于有效离线基于模型优化的保守目标模型	COMs	ICML21	考虑离线基于模型的优化问题（MBO，仅利用少量样本优化未知函数）；在目标函数中加入正则项（类似于对抗训练方法），以学习保守的目标模型
COMBO：保守的离线基于模型策略优化	COMBO	NeurIPS21	尝试在不考虑不确定性量化的情况下优化性能下界；将CQL与基于模型的方法相结合
用于离线基于模型强化学习的加权模型估计	----	NeurIPS21	通过为不同数据点重新加权模型损失来解决协变量偏移问题
重新审视基于模型的离线强化学习中的设计选择	----	ICLR22 Spotlight	对一系列基于模型的离线强化学习的设计选择进行了严谨的调查研究
利用扩散过程进行灵活的行为合成规划	Diffuser	ICML22 口头报告	首先为轨迹数据设计了一个去噪扩散模型，并构建了相应的行为合成概率框架
无需在线实验即可学习时间抽象的世界模型	OPOSM	ICML23	提出一种仅从离线数据中同时学习技能集合和时间抽象、受技能条件约束的世界模型的方法，使智能体能够针对新任务进行零样本在线技能序列规划

元强化学习

标题	方法	会议	描述
RL2：通过慢速强化学习实现快速强化学习	RL2	arxiv16	将智能体自身的学习过程视为目标；将智能体构建为循环神经网络，以存储过去的奖励、动作、观测和终止标志，从而在部署时适应当前任务
用于深度网络快速适应的模型无关元学习	MAML	ICML17	提出一个适用于分类、回归和强化学习等不同学习问题的通用框架；核心思想是优化参数，使其能够快速适应新任务（只需几步梯度下降）
基于潜在变量高斯过程的元强化学习	----	arxiv18
通过元强化学习在动态的真实环境中学习适应	ReBAL, GrBAL	ICLR18	在基于模型的强化学习框架下考虑在线适应性学习
基于扩展PAC-Bayes理论调整先验的元学习	----	ICML18	将各种PAC-Bayes界推广到元学习领域
结构化探索策略的元强化学习		NeurIPS18
用于序列决策的元学习代理模型		arxiv19
基于概率上下文变量的高效离策略元强化学习	PEARL	ICML19	使用概率潜在上下文编码过去任务的经验，并利用推理网络估计后验分布
通过元学习实现快速上下文适应	CAVIA	ICML19	提出CAVIA作为MAML的扩展，它更不易发生元过拟合，更容易并行化且更具可解释性；将模型参数分为两部分：上下文参数和共享参数，在测试阶段仅更新前者
驯服MAML：高效无偏的元强化学习		ICML19
Meta-World：多任务与元强化学习的基准与评估	Meta World	CoRL19	一个用于元强化学习以及多任务强化学习的环境
引导式元策略搜索	GMPS	NeurIPS19	通过监督模仿学习来提高元训练过程中的样本效率；
元Q学习	MQL	ICLR20	一种用于元强化学习的离策略算法，其基于三个简单想法：(i) 使用过去轨迹表示的上下文变量进行Q学习的表现已可与SOTA相媲美；(ii) 多任务目标对元强化学习很有用；(iii) 元训练回放缓存中的历史数据可以被重复利用
Varibad：一种通过元学习实现贝叶斯自适应深度强化学习的优秀方法	variBAD	ICLR20	使用一个学习到的低维随机潜在变量m来表示单个MDP M；联合元训练一个变分自编码器，该编码器能够在新任务中推断出关于m的后验分布，以及一个条件于这种关于MDP嵌入的后验信念的策略
关于模型无关元学习全局最优性的研究，ICML版本	----	ICML20	对MAML在强化学习和监督学习中所达到的驻点的最优性差距进行刻画
通过模型识别和经验重标记实现对分布漂移鲁棒的元强化学习	MIER	arxiv20
FOCAL：基于距离度量学习和行为正则化的高效全离策略元强化学习	FOCAL	ICLR21	首先探讨离策略元强化学习问题；在PEARL的基础上提出FOCAL
带有优势加权的离策略元强化学习	MACAW	ICML21	引入离策略元强化学习这一问题设定；提出一种基于优化的元学习算法MACAW，该算法在元训练的内层和外层循环中均使用简单的监督回归目标
通过潜在动力学混合的虚拟任务提升元强化学习的泛化能力	LDM	NeurIPS21	目的是训练一个在训练过程中就能为未见测试任务做好准备的智能体，建议在原始训练任务之外，还训练混合任务，以防止智能体过拟合训练任务
通过离策略评估统一元强化学习的梯度估计器	----	NeurIPS21	基于离策略评估的概念，提出一个统一框架，用于估计基于梯度的元强化学习中价值函数的高阶导数
模型无关元学习算法的泛化：重复与未见任务	----	NeurIPS21
离策略元探索学习，离策略元强化学习——可识别性挑战与有效数据收集策略	BOReL	NeurIPS21
关于去偏模型无关元强化学习收敛理论的研究	SG-MRL	NeurIPS21
事后任务重标记：稀疏奖励元强化学习中的经验回放	----	NeurIPS21
基于PAC-Bayes和一致稳定性的元学习泛化界	----	NeurIPS21	结合PAC-Bayes技术和一致稳定性，为元学习提供泛化界
自举式元学习	BMG	ICLR22 口头报告	提出BMG，旨在让元学习者自我指导，以应对元学习中的病态问题和短视的元目标；BMG引入元自举机制，以缓解短视问题，并将元目标表述为最小化与控制曲率的距离
基于模型的正则化离策略元强化学习	MerPO, RAC	ICLR22	实证指出，在数据质量较好的任务上，离策略元强化学习的表现可能不如离策略单任务强化学习方法；探讨如何学习一个信息丰富的离策略元策略，以在“探索”元策略所引导的分布外状态-动作对与“利用”离策略数据集、贴近行为策略之间取得最佳平衡；提出MerPO，该方法学习一个高效的任务结构推理模型，以及一个安全探索分布外状态-动作对的信息丰富的元策略
基于技能的元强化学习	SiMPL	ICLR22	提出一种方法，同时利用(i)一个包含大量跨任务、无奖励或任务标注的历史经验的大型离策略数据集，以及(ii)一组元训练任务，以学习如何快速解决未见的长 horizon 任务。
元强化学习中的事后-事前重标记	HFR	ICLR22	专注于通过数据共享提高元训练阶段的样本效率；将重标记技术与元强化学习算法相结合，以同时提升样本效率和渐近性能
CoMPS：持续元策略搜索	CoMPS	ICLR22	首先提出了持续元强化学习的设置，即智能体一次只与一个任务交互，完成任务后便不再与其互动
在强化学习中学习用于在线适应的策略子空间	----	ICLR22	考虑仅有一个训练环境的情况；提出一种方法，即在参数空间中学习一个策略子空间
一种适用于非平稳环境、具有分段稳定上下文的自适应深度强化学习方法	SeCBAD	NeurIPS22	引入具有分段稳定上下文的潜在情境MDP；联合推断潜在上下文的信念分布与各片段长度的后验分布，并利用当前上下文片段内的观测数据进行更精确的上下文信念推断
使用图结构代理模型和摊销策略搜索的基于模型的元强化学习	GSSM	ICML22	考虑基于模型的元强化学习，包括动力学模型学习和策略优化；开发了一种具有更强跨任务泛化能力的图结构动力学模型
用于序列决策的元学习假设空间	Meta-KeL	ICML22	认为Transformer的两项关键能力——处理长期依赖关系以及通过自注意力机制呈现上下文相关的权重——构成了元强化学习者的核心角色；提出Meta-LeL，用于元学习序列决策任务的假设空间
Transformer是元强化学习者	TrMRL	ICML22	提出TrMRL，一种基于记忆的元强化学习者，利用Transformer架构来构建学习过程；
ContraBAR：对比式贝叶斯自适应深度强化学习	ContraBAR	ICML23	探究对比式方法，如对比预测编码，是否可用于学习贝叶斯最优行为

对抗性强化学习

标题	方法	会议	描述
神经网络策略的对抗攻击	----	ICLR 2017研讨会	首次表明，现有的结合深度神经网络的强化学习策略在白盒和黑盒设置下都容易受到对抗噪声的影响
深入研究深度策略的对抗攻击	----	ICLR 2017研讨会	表明强化学习算法易受对抗噪声影响；同时指出对抗训练可以提高鲁棒性
鲁棒的对抗强化学习	RARL	ICML17	将鲁棒策略学习形式化为一个零和、极小极大目标函数
针对深度强化学习的隐蔽且高效的对抗攻击	临界点攻击、对抗者攻击	AAAI20	临界点攻击：构建模型预测未来的环境状态和智能体动作以进行攻击；对抗者攻击：自动学习一个领域无关的攻击模型
约束马尔可夫决策过程中的安全强化学习	SNO-MDP	ICML20	探索并优化在未知安全约束下的马尔可夫决策过程
针对状态观测中对抗扰动的鲁棒深度强化学习	SA-MDP	NeurIPS20	将状态观测上的对抗攻击形式化为SA-MDP；提出几种新颖的攻击方法：鲁棒SARSA和最大动作差异；并提出防御框架及若干实用方法：SA-DQN、SA-PPO和SA-DDPG
基于学习到的最优对手的状态观测鲁棒强化学习	ATLA	ICLR21	使用强化学习算法训练“最优”对手；交替训练“最优”对手和鲁棒智能体
通过对抗损失实现鲁棒深度强化学习	RADIAL-RL	NeurIPS21	提出一种鲁棒强化学习框架，该框架会惩罚不同动作输出边界之间的重叠；同时提出一种更高效的评估方法（GWC）来衡量攻击不可知的鲁棒性
用于可证明鲁棒强化学习的策略平滑	策略平滑	ICLR22	将随机平滑引入强化学习；提出自适应的奈曼-皮尔逊引理
CROP：通过功能平滑认证强化学习的鲁棒策略	CROP	ICLR22	提出一个用于认证强化学习鲁棒策略的框架（CROP），以应对对抗性的状态扰动，并设定两个认证标准：单步动作的鲁棒性和累积奖励的下界；从理论上证明了认证半径；并通过实验为Atari游戏中的六种经验上鲁棒的强化学习算法提供了认证
理解深度强化学习中观测的对抗攻击	----	SCIS 2023	总结当前基于优化的强化学习对抗攻击；提出两阶段方法：训练一个欺骗性策略，并诱使受害者模仿该策略
一致性攻击：具身视觉导航中的通用对抗扰动	奖励UAP、轨迹UAP	PRL 2023	将通用对抗扰动扩展到序列决策中，并利用动态特性提出了奖励UAP和轨迹UAP；并在具身视觉导航任务中进行了实验

强化学习中的泛化

环境

标题	方法	会议	描述
量化强化学习中的泛化	CoinRun	ICML19	引入名为CoinRun的新环境用于强化学习中的泛化；实证表明L2正则化、丢弃法、数据增强和批归一化都能提升强化学习的泛化能力
利用程序化生成技术基准测试强化学习	Procgen基准	ICML20	引入Procgen基准，这是一套由16个程序化生成的游戏类环境组成的集合，旨在同时评估强化学习的样本效率和泛化能力

方法

标题	方法	会议	描述
面向连续控制中的泛化与简洁性	----	NeurIPS17	采用简单线性和RBF参数化的策略可以被训练来解决多种广泛研究的连续控制任务；通过在多样化的初始状态分布上进行训练，能够得到更具全局性的策略，并实现更好的泛化能力
通用规划网络	UPN	ICML18	研究一种基于模型的架构，在与前向动力学联合学习的潜在空间中执行可微分的规划计算，并以端到端的方式进行训练，从而通过基于梯度的规划来编码解决问题所需的信息
再参数化强化学习中的泛化差距问题	----	ICML19	从理论上为再参数化强化学习中内生和外生误差的期望回报与经验回报之间的差距提供保证
连续深度强化学习中的泛化研究	----	arxiv19	研究连续控制领域深度强化学习的泛化问题
选择性噪声注入与信息瓶颈在强化学习泛化中的应用	SNI	NeurIPS19	考虑利用向学习函数中注入噪声来提升泛化性能的正则化技术；旨在保持注入噪声的正则化效果，同时减轻其对梯度质量的负面影响
网络随机化：深度强化学习中一种简单的泛化技术	网络随机化	ICLR20	提出一种随机化的（卷积）神经网络，该网络会随机扰动输入观测，从而使训练好的智能体能够通过学习在不同且随机化的环境中保持不变的鲁棒特征来适应新领域
强化学习中的观测过拟合	观测过拟合	ICLR20	讨论观测过拟合可能发生的实际场景及其与其他混淆因素的区别，并设计一个参数化的理论框架来诱导观测过拟合，该框架可应用于任何底层的MDP
基于上下文的动力学模型用于基于模型的强化学习中的泛化	CaDM	ICML20	将学习全局动力学模型的任务分解为两个阶段：(a) 学习捕捉局部动力学的上下文隐向量，然后 (b) 在其条件下来预测下一个状态
混合正则化提升强化学习泛化能力	mixreg	NeurIPS20	在来自不同训练环境的混合观测数据上训练智能体，并对观测插值及监督信号（如相关奖励）插值施加线性约束
基于实例的强化学习泛化	IPAE	NeurIPS20	将训练关卡的形式化为实例，并证明这种基于实例的观点与标准的部分可观测马尔可夫决策过程表述完全一致；基于训练实例的数量给出训练环境与测试环境之间价值差距的泛化界，并利用这些见解来提升智能体在未见关卡上的表现
对比行为相似性嵌入用于强化学习中的泛化	PSM	ICLR21	将强化学习中固有的序列结构融入表示学习过程中，以提升泛化能力；提出一种理论驱动的策略相似性度量（PSM），用于衡量状态间的行为相似性
软数据增强提升强化学习泛化能力	SODA	ICRA21	对编码器施加软约束，旨在最大化增强数据与非增强数据潜在表示之间的互信息
增强世界模型助力从单一离线环境中实现零样本动力学泛化	AugWM	ICML21	考虑“从单一离线环境中进行动力学泛化”的设定，并重点关注对未见动力学的零样本性能；提出针对基于模型的离线强化学习的动力学增强方法；并设计了一种简单的自监督、无需奖励的上下文适应算法
解耦价值与策略以提升强化学习泛化能力	IDAAC	ICML21	将策略和价值函数的优化解耦，分别使用独立的网络对其进行建模；引入辅助损失项，鼓励表示对环境的无关属性保持不变
为什么强化学习中的泛化如此困难：认识论POMDP与隐式部分可观测性	LEEP	NeurIPS21	强化学习中的泛化会引发隐式的部分可观测性；提出LEEP方法，利用策略集合近似学习贝叶斯最优策略，以最大化测试时的性能
强化学习中的自动数据增强	DrAC	NeurIPS21	专注于基于两种新型正则化项的策略和价值函数的自动数据增强
何时可实现可泛化的强化学习？	----	NeurIPS21	提出弱邻近性和强邻近性，用于从理论上分析强化学习的泛化能力
深度强化学习中泛化问题综述	----	arxiv21	提供统一的理论框架和术语体系，用于讨论不同的泛化问题
跨轨迹表示学习用于强化学习中的零样本泛化	CTRL	ICLR22	考虑零样本泛化（ZSG）；利用自监督学习跨任务学习表示
预训练表示在RL智能体OOD泛化中的作用	----	ICLR22	训练了240个表示和11,520个下游策略，并系统地考察它们在各种分布偏移下的表现；发现一个特定的表示指标，该指标衡量简单下游代理任务的泛化能力，能够可靠地预测下游RL智能体在所考虑的广泛OOD设置下的泛化能力
通过逻辑组合实现终身强化学习中的泛化	----	ICLR22	利用强化学习中的逻辑组合创建一个框架，使智能体能够自主判断新任务是否可直接利用现有能力解决，或者是否需要学习特定技能
局部特征交换用于强化学习中的泛化	CLOP	ICLR22	提出一种新的正则化技术，即在特征图中进行通道一致的局部置换
通才智能体	Gato	arxiv2205	幻灯片
通过约束条件风险价值实现安全强化学习	CPPO	IJCAI22	发现修改观测与改变动力学之间存在联系，尽管两者在结构上截然不同
CtrlFormer：通过Transformer学习用于视觉控制的可迁移状态表示	CtrlFormer	ICML22	在不同控制任务之间联合学习视觉token与策略token之间的自注意力机制，从而能够在不发生灾难性遗忘的情况下学习和迁移多任务表示
强化学习中的动力学学习与泛化	----	ICML22	从理论上表明，时序差分学习会在训练早期促使智能体拟合价值函数中的非平滑成分，同时还会产生抑制泛化的二阶效应
通过通才-专才学习改进策略优化	GSL	ICML22	希望利用专家的经验来帮助通才的策略优化；提出了多任务学习中的“灾难性无知”现象
DRIBO：基于多视角信息瓶颈的鲁棒深度强化学习	DRIBO	ICML22	在无监督的多视角设置下，从观测中学习仅包含任务相关信息的鲁棒表示；为时序数据引入了一种新颖的多视角信息瓶颈（MIB）目标的对比版本
利用变分因果推理泛化目标条件强化学习	GRADER	NeurIPS22	使用因果图作为隐变量重新表述GCRL问题，进而从解决该问题中推导出迭代式训练框架
重新思考强化学习中的价值函数学习以促进泛化	DCPG、DDCPG	NeurIPS22	考虑在多个训练环境中训练智能体以提升观测泛化性能；指出在多环境设置下，价值网络的优化难度更大；提出通过惩罚价值网络的大规模估计来防止过拟合的正则化方法
掩码自编码用于可扩展且可泛化的决策	MaskDP	NeurIPS22	将掩码自编码器（MAE）应用于强化学习（RL）和行为克隆（BC）的状态-动作轨迹，从而获得零样本迁移到新任务的能力
预训练图像编码器用于可泛化的视觉强化学习	PIE-G	NeurIPS22	发现ImageNet预训练ResNet模型的早期层可以为视觉强化学习提供相当具有泛化能力的表示
关注你所关注的地方！基于显著性引导的Q网络用于视觉强化学习任务	SGQN	NeurIPS22	提出优秀的视觉策略应能识别对其决策至关重要的像素；并在不同图像之间保持对重要信息来源的识别
开放任务空间中的人类时间尺度适应	AdA	arXiv 2301	表明大规模训练RL智能体可以得到一种情境感知的学习算法，该算法能够像人类一样快速适应开放式的新颖具身3D问题
通过算法蒸馏实现情境感知强化学习	AD	ICLR23口头报告	提出算法蒸馏方法，通过使用因果序列模型模拟训练历史，将强化学习（RL）算法蒸馏进神经网络
隐藏参数MDP中模型与策略迁移的性能边界	----	ICLR23	表明在预训练数据量固定的情况下，经过更多变化训练的智能体能够更好地泛化；同时指出提高价值和策略网络的容量对于取得良好性能至关重要
强化学习中多任务预训练与泛化的研究	----	ICLR23	发现，在预训练数据量固定的情况下，经过更多变化训练的智能体能够更好地泛化；即使在进行了2亿环境帧的微调之后，这种优势仍然比零样本迁移时更为明显
基于原型的跨域随机预训练用于强化学习	CRPTpro	arXiv2302	利用一种新颖的内在损失进行原型表示学习，从而在不同领域之间预训练出高效且通用的编码器
任务感知梦想家用于强化学习中的任务泛化	TAD	arXiv2303	提出任务分布相关性，以定量方式捕捉任务分布的相关性；并建议使用世界模型通过将奖励信号编码进策略来提升任务泛化能力
基于模型的强化学习泛化的优势	----	ICML23	提供理论和实证见解，说明我们何时以及如何能够预期由学习模型生成的数据是有用的
多环境预训练支持迁移到行动受限的数据集	ALPT	ICML23	给定n个具有完整动作标签数据集的源环境，考虑在目标环境中进行离线强化学习，该环境中仅有少量带动作标签的数据，而大部分数据则没有动作标签；利用逆动力学模型学习一种能够很好地泛化到目标环境中有限动作数据的表示
面向可变动作空间的情境感知强化学习	无头AD	ICML24	将算法蒸馏扩展到具有可变离散动作空间的环境中

基于Transformer的强化学习

标题	方法	会议	描述
用于强化学习的稳定化Transformer	GTrXL	ICML20	通过重新排列层归一化，并在Transformer子模块的关键位置添加新的门控机制，来稳定训练过程
决策Transformer：基于序列建模的强化学习	DT	NeurIPS21	将强化学习视为一个序列生成任务，使用Transformer生成（未来回报、状态、动作、未来回报，...）；没有显式的优化过程；在离线强化学习上进行评估
将离线强化学习视为一个大型序列建模问题	TT	NeurIPS21	将强化学习视为一个序列生成任务，使用Transformer生成（s_0^0, ..., s_0^N, a_0^0, ..., a_0^M, r_0, ...）；采用束搜索进行推理；在模仿学习、目标条件强化学习和离线强化学习上进行评估
维基百科能否帮助离线强化学习？	ChibiT	arxiv2201	表明与决策Transformer相比，在自然语言自回归建模上进行预训练，无论是在流行的OpenAI Gym还是Atari环境中，都能带来持续的性能提升
在线决策Transformer	ODT	ICML22口头报告	将离线预训练与在线微调融合在一个统一框架中；结合序列级别的熵正则化项和自回归建模目标，实现高效采样探索与微调
针对少量样本策略泛化的提示式决策Transformer		ICML22
多游戏决策Transformer	----	NeurIPS22	表明仅通过离线训练的一个基于Transformer的模型，就能以接近人类水平的表现同时玩多达46款Atari游戏
利用在线强化学习将大型语言模型嵌入交互式环境	GLAM	ICML23	考虑让一个使用LLM作为策略的智能体，在与环境交互的过程中逐步更新其策略，借助在线强化学习不断提升其解决问题的能力

教程与课程

教程与课程
强化学习：导论，理查德·S·萨顿和安德鲁·G·巴托
戴维·西尔弗的强化学习入门
深度强化学习，CS285
深度强化学习与控制，CMU 10703
RLChina

ICLR22

论文	类型
自举元学习	口头报告
无监督强化学习的信息几何	口头报告
SO(2)等变强化学习	焦点论文
CoBERL：用于强化学习的对比BERT	焦点论文
理解和防止强化学习中的容量损失	焦点论文
深度强化学习中的彩票假设与最小任务表示	焦点论文
利用离线示范指导进行稀疏奖励强化学习	焦点论文
通过不确定性估计实现样本高效的深度强化学习	焦点论文
强化学习中基于生成式规划的时间协调探索	焦点论文
智能体何时应该探索？	焦点论文
再探基于模型的离线强化学习中的设计选择	焦点论文
DR3：基于值的深度强化学习需要显式正则化	焦点论文
用于不确定性驱动的离线强化学习的悲观自举法	焦点论文
COptiDICE：通过稳态分布校正估计实现约束离线强化学习	焦点论文
基于价值梯度加权的模型化强化学习	焦点论文
通过贝叶斯世界模型进行约束策略优化	焦点论文
用于RL零样本泛化的跨轨迹表征学习	海报展示
预训练表征在RL智能体OOD泛化中的作用	海报展示
通过逻辑组合实现在终身强化学习中的泛化	海报展示
强化学习中的局部特征交换以促进泛化	海报展示
用于可证明鲁棒强化学习的策略平滑	海报展示
CROP：通过函数平滑认证强化学习的鲁棒策略	海报展示
带有正则化的基于模型的离线元强化学习	海报展示
基于技能的元强化学习	海报展示
元强化学习中的事后预见重标记	海报展示
CoMPS：持续的元策略搜索	海报展示
为强化学习中的在线适应学习策略子空间	海报展示
部分覆盖下的悲观基于模型的离线强化学习	海报展示
基于模型的离线强化学习的帕累托策略池	海报展示
基于值的 episodic memory 的离线强化学习	海报展示
隐式Q-learning的离线强化学习	海报展示
强化学习中的策略内模型误差	海报展示
最大熵RL（可证明地）解决某些鲁棒RL问题	海报展示
最大化深度强化学习中的集成多样性	海报展示
最大熵RL（可证明地）解决某些鲁棒RL问题	海报展示
通过行为相似性的自适应元学习器学习强化学习的可泛化表征	海报展示
利普希茨约束下的无监督技能发现	海报展示
通过乐观探索学习更多技能	海报展示

ICML22

论文	类型
在线决策 Transformer	口头报告
预训练视觉模型在控制任务中的出人意料的有效性	口头报告
最大状态熵探索中非马尔可夫性的重要性	口头报告
基于扩散的规划用于灵活的行为合成	口头报告
用于离线强化学习的对抗训练演员-评论家	口头报告
学习用于离线策略评估的贝尔曼完备表示	口头报告
离线 RL 策略应当被训练为自适应的	口头报告
大规模批量经验回放	口头报告
可微分模拟器是否能为策略优化提供更好的梯度？	口头报告
联邦强化学习：通信高效算法及收敛性分析	口头报告
通用策略优化的解析更新规则	口头报告
基于几何策略组合的广义策略改进	口头报告
通过提示引导决策 Transformer 实现少样本策略泛化	海报展示
CtrlFormer：通过 Transformer 学习用于视觉控制的可迁移状态表示	海报展示
强化学习中的动力学学习与泛化	海报展示
通过通才-专才学习改进策略优化	海报展示
DRIBO：基于多视角信息瓶颈的鲁棒深度强化学习	海报展示
用于鲁棒强化学习的策略梯度方法	海报展示
SAUTE RL：利用状态增强实现几乎确定安全的强化学习	海报展示
用于安全强化学习的约束变分策略优化	海报展示
通过自助式机会主义课程进行鲁棒深度强化学习	海报展示
分布鲁棒 Q 学习	海报展示
基于采样噪声和标签噪声的鲁棒元学习——Eigen-Reptile 方法	海报展示
DRIBO：基于多视角信息瓶颈的鲁棒深度强化学习	海报展示
基于图结构代理模型和摊销策略搜索的基于模型的元强化学习	海报展示
面向序列决策的元学习假设空间	海报展示
元强化学习中具有剧烈方差缩减的有偏梯度估计	海报展示
Transformer 就是元强化学习者	海报展示
带在线自监督的离线元强化学习	海报展示
通过正则化基于模型策略的平稳分布来稳定离线强化学习	海报展示
离线强化学习中的悲观 Q 学习：迈向最优样本复杂度	海报展示
如何在离线强化学习中利用未标注数据？	海报展示
关于折扣因子在离线强化学习中作用的研究	海报展示
批量策略优化中的模型选择	海报展示
库普曼 Q 学习：基于动力学对称性的离线强化学习	海报展示
通过对比学习为离线元强化学习构建鲁棒的任务表示	海报展示
悲观主义与 VCG 机制的结合：利用离线强化学习学习动态机制设计	海报展示
展示你的离线强化学习工作：在线评估预算很重要	海报展示
约束下的离线策略优化	海报展示
DreamerPro：基于原型表示的无重建基于模型的强化学习	海报展示
迈向评估基于模型强化学习方法的自适应性	海报展示
基于视频的无动作预训练强化学习	海报展示
去噪 MDP：学习比世界本身更好的世界模型	海报展示
用于模型预测控制的时间差分学习	海报展示
用于任务无关状态抽象的因果动力学学习	海报展示
我为什么要信任你，贝尔曼？贝尔曼误差并不能很好地替代价值误差	海报展示
马尔可夫决策过程的自适应模型设计	海报展示
从像素出发稳定离策略深度强化学习	海报展示
理解策略梯度算法：基于灵敏度的方法	海报展示
镜像学习：统一的策略优化框架	海报展示
基于演示的行动量化连续控制	海报展示
使用可微函数近似器的离策略拟合 Q 评估：Z 估计与推断理论	海报展示
基于时间差分的策略梯度估计方法	海报展示
深度强化学习中的首要性偏差	海报展示
利用深度强化学习优化序列实验设计	海报展示
鲁棒价值函数的几何结构	海报展示
通过约束强化学习直接指定行为	海报展示
马尔可夫序列决策中的效用理论	海报展示
通过深度网络集成降低时间差分价值估计的方差	海报展示
统一策略优化的近似梯度更新	海报展示
EqR：用于数据高效强化学习的等变表示	海报展示
带有短期记忆的可证明强化学习	海报展示
通过双重拟合迭代最优估计离策略策略梯度	海报展示
悬崖跳水：探索强化学习环境中的奖励曲面	海报展示
用于 Q 函数学习的拉格朗日方法（及其在机器翻译中的应用）	海报展示
利用大规模结构化强化学习学习组装	海报展示
解决强化学习序列建模中的乐观偏差	海报展示
带延迟奖励的离策略强化学习	海报展示
可达性约束强化学习	海报展示
基于流的 POMDP 循环信念状态学习	海报展示
通过嵌入技术对大型动作空间进行离策略评估	海报展示
双稳健且分布鲁棒的离策略评估与学习	海报展示
关于离策略评估中非参数 Q 函数估计的良好适定性及极小极大最优率的研究	海报展示
通过最大熵强化学习进行沟通	海报展示

NeurIPS22

论文	类型
多游戏决策变换器	海报
用于离线强化学习的自举变换器	海报
基于变分因果推理的目标条件强化学习泛化	海报
重新思考强化学习中的值函数学习以实现泛化	海报
用于可扩展和可泛化的决策制定的掩码自编码	海报
用于可泛化视觉强化学习的预训练图像编码器	海报
GALOIS：通过可泛化的逻辑综合提升深度强化学习	海报
看你想看的地方！面向视觉强化学习任务的显著性引导Q网络	海报
一种适用于具有分段稳定环境的非平稳环境的自适应深度强化学习方法	海报
基于模型的悲观主义调制动力学信念的离线强化学习	海报
交替进行离线模型训练和策略学习的统一框架	海报
用于离线无限宽度模型优化的双向学习	海报
DASCO：双生成器对抗支持约束下的离线强化学习	海报
用于离线强化学习的支持策略优化	海报
为何如此悲观？通过集成估计离线强化学习中的不确定性，以及它们独立性的重要性	海报
离线强化学习中模型选择的Oracle不等式	海报
用于离线强化学习的温和保守Q学习	海报
一种用于离线强化学习的策略引导模仿方法	海报
用于离线强化学习的自举变换器	海报
LobsDICE：通过稳态分布校正估计进行观察式离线学习	海报
用于离线强化学习的潜在变量优势加权策略优化	海报
我能走多远？通过f-优势回归实现离线目标条件强化学习	海报
NeoRL：一个接近真实世界的离线强化学习基准	海报
回报条件监督学习何时适用于离线强化学习？	海报
用于离线强化学习的贝尔曼残差正交化	海报
离线强化学习中模型选择的Oracle不等式	海报
不再错配：基于模型强化学习的联合模型-策略优化	海报
何时更新你的模型：约束下的基于模型的强化学习	海报
贝叶斯乐观优化：基于模型强化学习的乐观探索	海报
具有贝叶斯探索的基于模型终身强化学习	海报
计划以预测：为基于模型强化学习学习一个预见不确定性的模型	海报
基于数据驱动的、通过不变表示学习进行的基于模型优化	海报
非指数贴现的强化学习	海报
使用神经辐射场的强化学习	海报
递归强化学习	海报
挑战凸强化学习中的常见假设	海报
可解释的策略搜索	海报
关于强化学习与分布匹配在无灾难性遗忘情况下微调语言模型的应用	海报
何时寻求帮助：自主强化学习中的主动干预	海报
使用深度强化学习的自适应仿生鱼类模拟	海报
生灭过程中的强化学习：打破对状态空间的依赖	海报
发现式策略优化	海报
用较慢的在线网络加速深度强化学习	海报
探索引导的奖励塑造：用于稀疏奖励下的强化学习	海报
强化学习中的大规模检索	海报
用于自动出价的可持续在线强化学习	海报
LECO：用于特定任务内在奖励的学习型周期计数	海报
DNA：具有双重网络架构的近端策略优化	海报
用较慢的在线网络加速深度强化学习	海报
混合策略范围的在线强化学习	海报
ProtoX：通过原型设计解释强化学习智能体	海报
马尔可夫决策过程中的难度：理论与实践	海报
鲁棒的Phi散度MDP	海报
关于策略梯度方法在一般随机游戏中收敛到纳什均衡的问题	海报
针对通用价值函数的统一离策略评估方法	海报
用于强化学习中数据高效策略评估的鲁棒在策略采样	海报
最优控制问题中的连续深度Q学习：归一化优势函数分析	海报
参数化可重定向的决策者倾向于追求权力	海报
策略优化中的批次大小不变性	海报
具有最优运输差异的信任区域策略优化：连续动作下的对偶性和算法	海报
用于强调式强化学习的自适应兴趣	海报
多步分布强化学习中时间差分误差的本质	海报
重生的强化学习：重用先前计算以加速进展	海报
贝叶斯风险马尔可夫决策过程	海报
通过模型转换实现可解释的强化学习	海报
PDSketch：集成规划领域编程与学习	海报
对比学习作为目标条件强化学习	海报
自监督学习真的能改善基于像素的强化学习吗？	海报
带有自动化辅助损失搜索的强化学习	海报
基于掩码的强化学习潜在重建	海报
Iso-Dream：在世界模型中隔离不可控的视觉动态	海报
在少数无奖励部署中学习通用世界模型	海报
通过变分稀疏门控学习鲁棒动力学	海报
用于无监督强化学习的惊喜混合	海报
带有对比内在控制的无监督强化学习	海报
通过循环技能训练进行无监督技能发现	海报
针对通用价值函数的统一离策略评估方法	海报
离策略TD学习中正则化的陷阱	海报
针对行动依赖型非平稳环境的离策略评估	海报
用于上下文赌博机离策略评估的局部度量学习，适用于连续动作	海报
具有策略依赖型优化响应的离策略评估	海报

ICLR23

论文	类型
控制的二分法：区分你能控制与不能控制的事物	口头报告
基于算法蒸馏的上下文强化学习	口头报告
条件生成建模是否足以应对决策任务？	口头报告
在多样化多任务数据上的离线Q学习：兼具规模性和泛化能力	口头报告
针对离线强化学习的置信度条件值函数	口头报告
极端Q学习：无需熵项的最大熵强化学习	口头报告
稀疏Q学习：带有隐式值函数正则化的离线强化学习	口头报告
Transformer是样本高效的环境模型	口头报告
通过突破重放缓冲区比例限制实现样本高效强化学习	口头报告
利用不完美在线示范进行约束策略优化	展示报告
面向人类友好的原型：迈向可解释的深度强化学习	展示报告
粉红噪声就够了：深度强化学习中的彩色噪声探索	展示报告
DEP-RL：用于过度驱动和肌肉骨骼系统的具身强化学习探索	展示报告
离线强化学习中的样本内Softmax	展示报告
基于真实机器人硬件的离线强化学习基准测试	展示报告
编舞者：在想象中学习与适应技能	展示报告
通过值隐式预训练迈向通用视觉奖励与表征	展示报告
随机丢帧下的决策 Transformer	海报展示
用于高效在线策略适应的超决策 Transformer	海报展示
喜好 Transformer：利用Transformer建模人类偏好以应用于强化学习	海报展示
对比图像变换在强化学习中的数据效率	海报展示
智能体能否与陌生人接力赛跑？强化学习对分布外轨迹的泛化能力	海报展示
隐藏参数MDP中模型与策略迁移的性能界	海报展示
探究强化学习中的多任务预训练与泛化	海报展示
强化学习中技能迁移的先验、层次结构与信息不对称	海报展示
观测扰动下安全强化学习的鲁棒性	海报展示
分布式元梯度强化学习	海报展示
保守贝叶斯模型基值扩展用于离线策略优化	海报展示
值记忆图：一种面向离线强化学习的图结构世界模型	海报展示
基于学习模型的高效离线策略优化	海报展示
扩散策略作为离线强化学习中富有表现力的策略类	海报展示
通过高保真生成行为建模实现离线强化学习	海报展示
决策S4：基于状态空间层的高效序列型强化学习	海报展示
行为邻近策略优化	海报展示
在稀疏奖励环境中学习成就结构以实现结构化探索	海报展示
用轨迹解释强化学习决策	海报展示
用户交互式离线强化学习	海报展示
面向离线多目标强化学习的帕累托最优决策代理	海报展示
带有隐式语言Q学习的自然语言生成离线强化学习	海报展示
离线强化学习中的样本内演员评论家	海报展示
通过轨迹加权整合混合离线强化学习数据集	海报展示
关注差距：针对不完美奖励的离线策略优化	海报展示
当数据几何遇上深度函数：泛化离线强化学习	海报展示
MAHALO：统一基于观测的离线强化学习与模仿学习	海报展示
基于Transformer的世界模型仅需10万次交互即可满足要求	海报展示
动态更新数据比例：最小化世界模型过拟合	海报展示
在3D迷宫中评估长期记忆	海报展示
通过直接规划连续控制做出更好决策	海报展示
HiT-MDP：在具有隐藏时间嵌入的MDP上学习SMDP选项框架	海报展示
基于模型的强化学习中值扩展方法的边际收益递减	海报展示
简化基于模型的强化学习：以单一目标同时学习表征、潜在空间模型和策略	海报展示
SpeedyZero：用有限的数据和时间掌握Atari游戏	海报展示
高效的深度强化学习需要调控统计过拟合	海报展示
回放内存作为经验MDP：结合保守估计与经验回放	海报展示
贪婪演员评论家：一种用于策略改进的新条件交叉熵方法	海报展示
利用语言模型设计奖励	海报展示
通过Q学习解决连续控制问题	海报展示
Wasserstein自编码MDP：以多方保证形式正式验证高效蒸馏的强化学习策略	海报展示
基于群体的强化学习实现质量相似的多样性	海报展示
人类水平的Atari游戏快200倍	海报展示
策略扩展用于连接离线与在线强化学习	海报展示
通过值函数搜索改进深度策略梯度	海报展示
记忆健身房：面向部分可观测智能体的记忆挑战	海报展示
混合强化学习：同时使用离线和在线数据可使强化学习更高效	海报展示
POPGym：部分可观测强化学习的基准测试	海报展示
评论家顺序蒙特卡洛	海报展示
具有亲和力正则化的可撤销深度强化学习，用于对抗异常值的稳健图匹配	海报展示
面向离线强化学习的可证明无监督数据共享	海报展示
使用DOMiNO发现策略：保持接近最优的多样性优化	海报展示
强化学习中的潜在变量表示	海报展示
强化学习中的谱分解表示	海报展示
面向离线强化学习的行为先验表征学习	海报展示
仅通过观看纯视频即可在有限数据下成为熟练玩家	海报展示
用于离策略评估的变分潜在分支模型	海报展示

ICML23

论文	类型
预训练在强化学习泛化中的力量：可证明的优势与困难	口头报告
AdaptDiffuser：作为自适应自我进化规划器的扩散模型	口头报告
用于多模态轨迹优化的重参数化策略学习	口头报告
从像素中掌握无监督强化学习基准	口头报告
深度强化学习中的休眠神经元现象	口头报告
通过解耦环境与智能体表征实现高效强化学习	口头报告
时序差分学习的统计优势研究	口头报告
热启动演员-评论家：从近似误差到次优性差距	口头报告
基于潜在意图的被动数据强化学习	口头报告
三维环境中的子等变图强化学习	口头报告
基于多步逆运动学的表征学习：一种高效且最优的丰富观测强化学习方法	口头报告
抛硬币估计强化学习探索中的伪计数	口头报告
奖励假设的最终解答	口头报告
多视角强化学习的信息论状态空间模型	口头报告
从像素中掌握无监督强化学习基准	口头报告
用于部分可观测深度强化学习的信任表征学习	海报展示
内部奖励强化学习	海报展示
基于多个黑盒oracle的主动策略改进	海报展示
在什么情况下，可实现性足以支持离策略强化学习？	海报展示
分位数时序差分学习在价值估计中的统计优势	海报展示
强化学习中的超参数及其调优方法	海报展示
对数通信下的朗之万汤普森采样：多臂老虎机与强化学习	海报展示
纠正同策略策略梯度方法中的折扣因子不匹配问题	海报展示
用于预测、表征和控制的掩码轨迹模型	海报展示
具有确定性策略搜索的离策略平均奖励演员-评论家	海报展示
TGRL：教师引导强化学习算法	海报展示
LIV：面向机器人控制的语言-图像表征与奖励	海报展示
斯坦因变分目标生成用于多目标强化学习中的自适应探索	海报展示
深度强化学习中自适应昼夜节律的涌现	海报展示
使用夏普利值解释强化学习	海报展示
通过多重奖励使强化学习更高效	海报展示
表演性强化学习	海报展示
蒙特卡洛强化学习中的轨迹截断	海报展示
ReLOAD：具有乐观上升-下降机制的强化学习，用于约束马尔可夫决策过程中的最后一轮收敛	海报展示
具有在线敏感性采样的低切换策略梯度探索	海报展示
双曲扩散嵌入与距离用于层次化表征学习	海报展示
通过放松的状态对抗性策略优化重新审视领域随机化	海报展示
并行$Q$-学习：大规模并行仿真下的离策略强化学习扩展	海报展示
LESSON：基于选项框架学习整合强化学习探索策略	海报展示
基于双层优化的网络控制图强化学习	海报展示
随机策略梯度方法：针对费舍尔非退化策略的样本复杂度改进	海报展示
具有历史依赖动态上下文的强化学习	海报展示
利用离线数据进行高效的在线强化学习	海报展示
分布式强化学习中的方差控制	海报展示
面向具有外生输入MDP的回溯学习	海报展示
RLang：一种用于向强化学习智能体描述部分世界知识的声明式语言	海报展示
基于蒙特卡洛树搜索的可扩展安全策略改进	海报展示
基于能量模型的奖励条件强化学习的贝叶斯重参数化	海报展示
理解单任务强化学习在课程学习中的复杂度收益	海报展示
PPG重装上阵：关于相位策略梯度中关键因素的实证研究	海报展示
关于多动作策略梯度的研究	海报展示
多任务层次化对抗性逆强化学习	海报展示
无基站的潜伏式Go-Explore	海报展示
基于反事实无害准则的可信策略学习	海报展示
强化学习中的可达性感知拉普拉斯表征	海报展示
基于强化学习的交互式物体放置	海报展示
在线强化学习中利用离线数据	海报展示
具有通用效用函数的强化学习：更简单的方差缩减与更大的状态-动作空间	海报展示
DoMo-AC：双重多步离策略演员-评论家算法	海报展示
奖励模型过度优化的规模定律	海报展示
SNeRL：面向强化学习的语义感知神经辐射场	海报展示
基于集合成员信念状态的POMDP强化学习	海报展示
鲁棒的满足型MDP	海报展示
基于联合效应建模的大动作空间离策略评估	海报展示
具有优化动作解码的量子策略梯度算法	海报展示
对于用于运动控制的预训练视觉模型，不同的策略学习方法并非等价	海报展示
无模型鲁棒平均奖励强化学习	海报展示
公平且鲁棒地估计异质性治疗效应以用于策略学习	海报展示
面向离策略强化学习的轨迹感知资格迹	海报展示
基于成对或K人比较的人类反馈原则性强化学习	海报展示
社会学习通过深度强化学习搜索最优启发式自发涌现	海报展示
更大、更好、更快：以人类水平的效率实现人类水平的Atari游戏	海报展示
面向深度强化学习的后验采样	海报展示
基于模型的强化学习，采用可扩展的复合策略梯度估计器	海报展示
超越想象：利用世界模型最大化剧集可达性	海报展示
简化的时序一致性强化学习	海报展示
具身智能体是否梦见像素化的羊：使用语言引导的世界建模进行具身决策	海报展示
无需示范的自主强化学习，通过隐式及双向课程进行	海报展示
基于模型适应的奇思妙想回放	海报展示
用于视觉机器人操作的多视角掩码世界模型	海报展示
面向深度强化学习探索的自动内在奖励塑造	海报展示
事后的好奇心：随机环境中的内在探索	海报展示
基于奇异值分解的深度强化学习表征与探索	海报展示
将大型语言模型置于交互环境中，结合在线强化学习进行接地	海报展示
将互联网规模的视觉-语言模型提炼为具身智能体	海报展示
VIMA：基于多模态提示的机器人操作	海报展示
面向决策Transformer的未来条件无监督预训练	海报展示
由一系列事后经验涌现的代理型Transformer	海报展示
基于模型的强化学习泛化优势	海报展示
多环境预训练实现向动作受限数据集的迁移	海报展示
关于视觉-运动控制的预训练：重温从零开始的学习基线	海报展示
无监督技能发现，用于学习跨变化环境的共享结构	海报展示
关于为强化学习预训练对象中心表征的调查	海报展示
使用大型语言模型指导强化学习中的预训练	海报展示
对于离线目标条件强化学习而言，实现未见目标泛化的关键是什么？	海报展示
面向少样本策略迁移的在线原型对齐	海报展示
检测深度强化学习中的对抗方向，以做出鲁棒决策	海报展示
面对情境扰动的鲁棒情境强化学习	海报展示
分布式强化学习的对抗性学习	海报展示
朝着鲁棒且安全的强化学习迈进，利用良性离策略数据	海报展示
作为元强化学习副产物的简单具身语言学习	海报展示
ContraBAR：对比贝叶斯自适应深度强化学习	海报展示
基于模型的离线强化学习，采用基于计数的保守主义	海报展示
基于模型的贝尔曼不一致，用于离线强化学习	海报展示
无需在线实验即可学习时间抽象的世界模型	海报展示
对比能量预测，用于离线强化学习中精确的能量引导扩散采样	海报展示
MetaDiffuser：作为离线元强化学习条件规划器的扩散模型	海报展示
演员-评论家对齐，用于离线到在线强化学习	海报展示
半监督离线强化学习，采用无动作轨迹	海报展示
在丰富的外生信息存在下进行的原则性离线强化学习	海报展示
具有分布内在线适应性的离线元强化学习	海报展示
针对离线强化学习的数据集约束策略正则化	海报展示
支持信任区域优化的离线强化学习	海报展示
面向离线安全强化学习的约束型决策Transformer	海报展示
具有保证的PAC贝叶斯离线上下文多臂老虎机	海报展示
超越奖励：基于偏好指导的离线策略优化	海报展示
具有闭式策略改进算子的离线强化学习	海报展示
ChiPFormer：通过离线决策Transformer实现可转移的芯片布局	海报展示
通过动作偏好查询提升离线强化学习效果	海报展示
快速启动强化学习	海报展示
探究基于模型的学习在探索与迁移中的作用	海报展示
STEERING：面向基于模型强化学习的斯坦因信息导向探索	海报展示
面向无监督基于模型强化学习的可预测MDP抽象	海报展示
基于模型强化学习中的懒惰美德：统一的目标与算法	海报展示
关于特征去相关性在强化学习无监督表征学习中的重要性	海报展示
CLUTR：通过无监督任务表征学习进行课程学习	海报展示
面向可控性的无监督技能发现	海报展示
面向无监督技能发现的行为对比学习	海报展示
用于无监督技能发现的变分课程强化学习	海报展示
强化学习中的自举表征	海报展示
表征驱动的强化学习	海报展示
针对算法资源分配随机试验的策略评估改进	海报展示
面向混杂离策略评估的工具变量方法	海报展示
线性马尔可夫决策过程中半参数高效的离策略评估	海报展示
面向深度强化学习探索的自动内在奖励塑造	海报展示
事后的好奇心：随机环境中的内在探索	海报展示

NeurIPS23

论文	类型
通过显著性引导的特征去相关学习可泛化智能体	口头报告
通过示范理解专业知识：一种用于离线逆强化学习的最大似然框架	口头报告
当示范遇到生成式世界模型时：一种用于离线逆强化学习的最大似然框架	口头报告
DiffuseBot：利用物理增强的生成扩散模型培育软体机器人	口头报告
变压器在强化学习中何时大放异彩？将记忆与信用分配解耦	口头报告
用有效视界连接强化学习理论与实践	口头报告
SwiftSage：一种具备快慢思维的生成式智能体，适用于复杂交互任务	点亮展示
RePo：通过正则化后验预测性实现稳健的基于模型的强化学习	点亮展示
最大化以探索：一个融合估计、规划与探索的目标函数	点亮展示
条件互信息在强化学习中的解耦表征应用	点亮展示
乐观自然策略梯度：一种简单高效的在线强化学习策略优化框架	点亮展示
双重Gumbel Q学习	点亮展示
POMDPs中未来依赖的价值函数离线策略评估	点亮展示
监督预训练可以学习上下文强化学习	点亮展示
一次训练，获得一族策略：面向离线到在线强化学习的状态自适应平衡	点亮展示
面向多场景安全强化学习的约束条件策略优化	海报展示
在零样本强化学习中通过探索实现泛化	海报展示
基于适应性上下文感知策略的强化学习动态泛化	海报展示
通过表征区分提升离线强化学习的泛化能力	海报展示
对比回顾：聚焦关键步骤以加速强化学习中的快速学习与泛化	海报展示
元强化学习中的双重稳健增强迁移	海报展示
循环超网络在元强化学习中表现惊人地强大	海报展示
通过子任务分解参数化非参数化的元强化学习任务	海报展示
统一的风险度量：一种基于风险敏感性的基于模型的离线强化学习视角	海报展示
面向离线强化学习的有效扩散策略	海报展示
利用离线强化学习学习如何影响人类行为	海报展示
从策略出发设计：面向离线策略优化的保守测试时适应	海报展示
SafeDICE：使用非首选示范进行离线安全模仿学习	海报展示
面向离线强化学习的显式行为密度约束策略优化	海报展示
面向离线强化学习的保守状态价值估计	海报展示
在POMDPs中使用离散代理表征提升泛化能力的离线强化学习	海报展示
降低离线元强化学习中的情境漂移	海报展示
基于互信息正则化的离线强化学习	海报展示
通过离线强化学习中的逆动力学恢复未见状态	海报展示
离线强化学习中的分位数准则优化	海报展示
语言模型与世界模型相遇：具身经验增强语言模型	海报展示
通过最大化证据进行动作推理：利用世界模型从观察中零样本模仿	海报展示
世界模型骨干架构对决：RNN、Transformer和S4	海报展示
连续时间基于模型的强化学习中的高效探索	海报展示
基于模型的再参数化策略梯度方法：理论与实用算法	海报展示
通过指导学习发现技能	海报展示
在强化学习中创建多层级技能树	海报展示
基于随机意图先验的无监督行为提取	海报展示
MIMEx：来自掩码输入建模的内在奖励	海报展示
f-策略梯度：一种使用f-散度的面向目标条件强化学习通用框架	海报展示
持续强化学习中的预测与控制	海报展示
残差Q学习：无需价值函数即可实现离线和在线策略定制	海报展示
小批量深度强化学习	海报展示
针对约束马尔可夫决策过程的最后迭代收敛策略梯度原对偶方法	海报展示
RLHF是否比标准RL更困难？一种理论视角	海报展示
Reflexion：具有语言强化学习能力的语言智能体	海报展示
在强化学习中对具有任意约束的随机动作进行生成建模	海报展示
扩散模型是多任务强化学习的有效规划者和数据合成器	海报展示
无需奖励建模的直接偏好驱动策略优化	海报展示
学习在强化学习中调制预训练模型	海报展示
无知即幸福：通过信息门控实现鲁棒控制	海报展示
上下文 bandit 中的离线策略评估边际密度比	海报展示
使用决策估计系数进行无模型强化学习	海报展示
最优且公平的鼓励政策评估与学习	海报展示
BIRD：面向深度强化学习的可泛化后门检测与移除	海报展示
正确实施的强化学习中的概率推断	海报展示
基于参考的POMDPs	海报展示
在MDPs中说服有远见的接收者：诚实的力量	海报展示
分布式策略评估：一种基于最大熵的表征学习方法	海报展示
面向上下文强化学习的结构化状态空间模型	海报展示
方差的替代方案：针对风险厌恶型策略梯度的基尼偏差	海报展示
面向风险敏感型强化学习的分布等价性	海报展示
PLASTIC：提升输入与标签可塑性以实现样本高效的强化学习	海报展示
基于不完美示范的混合策略优化	海报展示
噪音环境下的策略优化：关于连续控制中的回报景观	海报展示
语义HELM：一种人类可读的强化学习记忆	海报展示
持续强化学习的定义	海报展示
面向Wasserstein分布鲁棒MDPs的快速贝尔曼更新	海报展示
面向矩形鲁棒马尔可夫决策过程的策略梯度	海报展示
通过对比学习发现强化学习中的层次化成就	海报展示
蒙特卡洛策略评估中的轨迹截断：一种自适应方法	海报展示
强化学习中的无模型主动探索	海报展示
利用随机特征进行迁移的自监督强化学习	海报展示
FlowPG：基于归一化流的动作约束策略梯度	海报展示
基于注意力的灵活多策略融合，用于高效深度强化学习	海报展示
基于ODE的循环无模型强化学习，适用于POMDPs	海报展示
利用强化学习建议圆柱代数分解的变量顺序	海报展示
SPQR：利用尖峰随机模型控制Q集合独立性，用于强化学习	海报展示
CaMP：面向多房间场景交互导航的因果多策略规划	海报展示
面向部分未知环境中的物体搜索的POMDP规划	海报展示
统一的离线排序学习：一种强化学习视角	海报展示
面向鲁棒强化学习的自然演员-评论家，结合函数近似	海报展示
面向深度强化学习的长$N$步代理阶段奖励	海报展示
基于状态-动作相似性的表征用于离线策略评估	海报展示
弱耦合的深度Q网络	海报展示
大型语言模型是半参数化的强化学习智能体	海报展示
成为分布式的益处：强化学习中的小损失界	海报展示
在线非随机无模型强化学习	海报展示
何时无模型强化学习在统计上可行？	海报展示
带有流式观测的贝叶斯风险厌恶Q学习	海报展示
重置深度强化学习中的优化器：一项实证研究	海报展示
利用符号模型估计进行强化学习中的乐观探索	海报展示
基于策略的平均奖励强化学习算法的性能边界	海报展示
规律性作为自由玩耍的内在奖励	海报展示
TACO：面向视觉强化学习的时序潜在动作驱动对比损失	海报展示
面向连续强化学习的策略优化	海报展示
连续时间控制中的主动观察	海报展示
可复现的强化学习	海报展示
探索对于强化学习中泛化的重要性	海报展示
带有玻尔兹曼探索的蒙特卡洛树搜索	海报展示
用于安全强化学习的迭代可达性估计	海报展示
通过对抗性环境设计发现通用强化学习算法	海报展示
我们在寻找用于具身智能的人工视觉皮层方面进展如何？	海报展示
逆动力学预训练能够学习适用于多任务模仿的良好表征	海报展示
强化学习中可解释的奖励再分配：一种因果方法	海报展示
带有时序注意力的对比模块，用于多任务强化学习	海报展示
通过重置深度集成智能体实现样本高效且安全的深度强化学习	海报展示
分布式帕累托最优的多目标强化学习	海报展示
面向具身智能体的对比提示集成，用于高效策略适应	海报展示
利用逆动力学双曲度量，基于潜力的强化学习高效探索	海报展示
结合状态距离信息，迭代学习多样策略	海报展示
利用价值条件下的状态熵探索加速强化学习	海报展示
梯度引导的近端策略优化	海报展示
带有生成模型的强化学习中分布鲁棒性的代价之谜	海报展示
面向序列决策中高效策略评估的最佳治疗分配	海报展示
Thinker：学习计划与行动	海报展示
用更少学习得更好：面向样本高效视觉强化学习的有效增广	海报展示
使用简单序列先验进行强化学习	海报展示
预训练的文本到图像模型能否为强化学习生成视觉目标？	海报展示
超越均匀采样：不平衡数据集上的离线强化学习	海报展示
CQM：基于量化世界模型的课程式强化学习	海报展示
H-InDex：面向灵巧操作的、由人工指导表征的视觉强化学习	海报展示
Cal-QL：为高效在线微调而设计的校准离线强化学习预训练	海报展示
随时具备竞争力的基于策略先验的强化学习	海报展示
为离线强化学习编制反事实预算	海报展示
策略优化中的分形景观	海报展示
面向离线强化学习的目标条件预测编码	海报展示
出售：面向深度强化学习的状态-动作表征学习	海报展示
采用平均奖励准则的逆强化学习	海报展示
重温离线强化学习的极简主义方法	海报展示
用于离线强化学习的对抗性模型	海报展示
支持的离线强化学习价值正则化	海报展示
受PID启发的归纳偏置，用于部分可观测控制任务中的深度强化学习	海报展示
如何调整模型：统一的模型转移与模型偏置策略优化	海报展示
通过离线预训练的状态到Go转换器，从视觉观察中学习	海报展示
描述、解释、计划与选择：LLMs的交互式规划使开放世界多任务智能体成为可能	海报展示
在分级强化学习中实现稳健的知识转移	海报展示
苦练以求易战：稳健的元强化学习	海报展示
通过双层优化进行元加权的任务感知世界模型学习	海报展示
视频预测模型作为强化学习的奖励	海报展示
合成经验回放	海报展示
利用离线数据进行实验设计，对强化学习策略进行微调	海报展示
学习动态属性因子化的世界模型，以实现高效的多目标强化学习	海报展示
学习可识别因子分解的世界模型	海报展示
利用野外视频为强化学习预训练情境化的世界模型	海报展示
逆偏好学习：无需奖励函数的基于偏好强化学习	海报展示
理解、预测并更好地解决离线强化学习中的Q值分歧	海报展示
面向强化学习的潜在探索	海报展示
大型语言模型可以实现策略迭代	海报展示
推广加权路径一致性以精通Atari游戏	海报展示
学习环境感知的可供性，以在遮挡条件下操纵3D关节物体	海报展示
通过锚定加速价值迭代	海报展示
针对具有硬约束的连续控制，减少策略优化规模	海报展示
基于状态正则化的策略优化，应用于存在动态变化的数据	海报展示
具有差分隐私的离线强化学习	海报展示
理解并应对基于双曲度量表征在离线强化学习中的陷阱	海报展示

ICLR24

论文	类型
深度强化学习中的预测性辅助目标模仿大脑中的学习机制	口头报告
基于目标的预训练模型用于样本高效的强化学习	口头报告
METRA：具有度量感知抽象的可扩展无监督强化学习	口头报告
ASID：机器人操作中用于系统辨识与重建的主动探索	口头报告
利用世界模型掌握记忆任务	口头报告
基于张量近似的广义策略迭代用于混合控制	展示报告
选择性视觉表征提升具身智能的收敛性和泛化能力	展示报告
AMAGO：面向自适应智能体的可扩展上下文强化学习	展示报告
通过约束式RLHF应对奖励模型过优化问题	展示报告
用于质量多样性强化学习的近端策略梯度树状结构	展示报告
通过混合启发式方法改进离线强化学习	展示报告
决策ConvFormer：MetaFormer中的局部滤波足以进行决策	展示报告
工具增强的奖励建模	展示报告
奖励一致的动力学模型对离线强化学习具有强大的泛化能力	展示报告
双强化学习：强化学习与模仿学习的统一及新方法	展示报告
稳定对比强化学习：利用离线数据实现机器人目标达成的技术	展示报告
安全RLHF：基于人类反馈的安全强化学习	展示报告
Cross$Q$：深度强化学习中的批归一化以提高样本效率和简洁性	展示报告
结合模仿学习与强化学习以稳健地改进策略	展示报告
释放长期新颖性驱动探索中表征的力量	展示报告
面向具身智能体的空间感知Transformer	展示报告
无需动作即可学会行动	展示报告
迈向基于视频的原则性表征学习，用于强化学习	展示报告
TorchRL：PyTorch的数据驱动决策库	展示报告
迈向在多样化数据损坏下的稳健离线强化学习	展示报告
从离散潜在动力学中学习具有自适应时间抽象的分层世界模型	展示报告
Text2Reward：利用语言模型为强化学习设计奖励	展示报告
通过事后轨迹草图实现机器人任务泛化	展示报告
次模强化学习	展示报告
偏好型强化学习中的查询-策略不匹配	展示报告
核度量学习用于确定性强化学习策略的样本内离策略评估	展示报告
GenSim：利用大型语言模型生成机器人仿真任务	展示报告
以实体为中心的强化学习：基于像素的对象操作	展示报告
幻觉攻击：序列决策者对抗攻击中的可检测性至关重要	展示报告
解决深度强化学习中的信号延迟问题	展示报告
DrM：通过最小化休眠比率掌握视觉强化学习	展示报告
从技能到任务适应：信息几何、解耦与无监督强化学习的新目标	展示报告
$\mathcal{B}$-Coder：关于基于价值的深度强化学习在程序合成中的应用	展示报告
受物理规律约束的深度强化学习：不变嵌入	展示报告
Retroformer：带有策略梯度优化的回顾性大型语言模型智能体	展示报告
通过密集对应关系从无动作视频中学习行动	展示报告
CivRealm：文明中的学习与推理奥德赛，用于决策智能体	展示报告
TD-MPC2：适用于连续控制的可扩展、鲁棒的世界模型	展示报告
面向基于物理控制的通用人形运动表征	展示报告
自适应理性激活函数助力深度强化学习	展示报告
通过有界理性课程实现稳健的对抗性强化学习	展示报告
局部敏感稀疏编码用于在线学习世界模型	海报展示
关于基于模型与无模型强化学习的表征复杂性	海报展示
策略排练：训练可泛化的强化学习策略	海报展示
对你来说什么重要？迈向机器人学习的视觉表征对齐	海报展示
利用优势导向的离策略策略梯度改进语言模型	海报展示
用强化学习训练扩散模型	海报展示
奖励不一致性对RLHF的涓滴效应	海报展示
强化学习中的最大熵模型修正	海报展示
基于树搜索的策略优化，考虑随机执行延迟	海报展示
使用观测历史的离线强化学习：分析并改进样本复杂度	海报展示
理解偏好学习中的隐藏背景：对RLHF的影响	海报展示
Eureka：通过大型语言模型编程实现人类水平的奖励设计	海报展示
检索引导的强化学习用于布尔电路最小化	海报展示
用于离线目标条件强化学习的分数模型	海报展示
对比差异预测编码	海报展示
基于人类偏好学习奖励的 hindsight PRIORs	海报展示
奖励模型集成有助于缓解过优化问题	海报展示
利用可行性引导的扩散模型实现安全的离线强化学习	海报展示
组合保守主义：一种转导式的离线强化学习方法	海报展示
流向更好：通过生成偏好轨迹进行基于偏好离线强化学习	海报展示
PAE：从外部知识中获取强化学习信息以高效探索	海报展示
识别策略梯度子空间	海报展示
PARL：强化学习中策略对齐的统一框架	海报展示
SafeDreamer：基于世界模型的安全强化学习	海报展示
语言模型强化微调中的梯度消失现象	海报展示
强化学习中的古德哈特定律	海报展示
通过扩散行为进行得分正则化的策略优化	海报展示
通过随机化使基于偏好反馈的强化学习更高效	海报展示
一致性模型作为强化学习丰富且高效的策略类别	海报展示
对比偏好学习：无需强化学习即可从人类反馈中学习	海报展示
特权感知支撑强化学习	海报展示
从语言中学习规划抽象	海报展示
CrossLoco：通过引导式无监督强化学习，以人类运动驱动足式机器人的控制	海报展示
利用Koopman理论在交互环境中高效建模动力学	海报展示
Jumanji：JAX中多样化的可扩展强化学习环境套件	海报展示
利用强化学习和Transformer寻找高价值分子	海报展示
通过强化学习私下对齐语言模型	海报展示
Legged Locomotion的HIM解决方案：最少传感器、高效学习和卓越敏捷性	海报展示
S$2$AC：基于能量的强化学习，采用Stein Soft Actor Critic	海报展示
跨实验回放：离策略强化学习的自然延伸	海报展示
策略的分段线性参数化：迈向可解释的深度强化学习	海报展示
利用随机状态策略实现时间高效的强化学习	海报展示
打开黑箱：基于步骤的策略更新，用于时序相关的周期性强化学习	海报展示
关于离策略评估的轨迹增广	海报展示
释放大规模视频生成式预训练在视觉机器人操作中的潜力	海报展示
理解RLHF对LLM泛化和多样性的影响	海报展示
德尔菲式离线强化学习，在不可识别的隐藏混杂因素下	海报展示
优先级软Q分解用于词典式强化学习	海报展示
基于集成的探索中的多样性诅咒	海报展示
离策略原对偶安全强化学习	海报展示
STARC：量化奖励函数之间差异的通用框架	海报展示
释放预训练语言模型在离线强化学习中的力量	海报展示
发现时间感知的强化学习算法	海报展示
重新审视深度强化学习中的数据增强	海报展示
无奖励课程用于训练稳健的世界模型	海报展示
CPPO：结合人类反馈的持续强化学习	海报展示
关于离线强化学习泛化的一次研究	海报展示
RLIF：交互式模仿学习即强化学习	海报展示
逆向约束强化学习中不确定性驱动的约束推断	海报展示
迈向为MIP分支的模仿学习：一种基于混合强化学习的样本增广方法	海报展示
迈向评估和基准测试离策略评估的风险-收益权衡	海报展示
Uni-O4：通过多步在线策略优化统一线上和线下深度强化学习	海报展示
摆脱贝尔曼完备性：基于模型的回报条件监督学习实现轨迹拼接	海报展示
重新审视视觉强化学习中的可塑性：数据、模块和训练阶段	海报展示
通过策略合并实现机器人舰队学习	海报展示
通过创建静止目标改善内在探索	海报展示
Motif：来自人工智能反馈的内在动机	海报展示
理解何时动力学不变的数据增广有利于无模型强化学习更新	海报展示
RLCD：基于对比蒸馏的强化学习，用于语言模型对齐	海报展示
在离线强化学习中利用潜扩散进行推理	海报展示
信念增强的悲观Q学习，抵御对手的状态扰动	海报展示
为正当的序列决策设计奖励	海报展示
MAMBA：一种有效的元强化学习世界模型方法	海报展示
LOQA：具备对手Q学习意识的学习	海报展示
用于免重置强化学习的智能切换	海报展示
真正的知识源于实践：通过强化学习将大型语言模型与具身环境对齐	海报展示
技能机器：强化学习中的时序逻辑技能组合	海报展示
Uni-RLHF：一个通用平台和基准套件，用于接受多样化人类反馈的强化学习	海报展示
视觉-语言模型是零样本强化学习的奖励模型	海报展示
DittoGym：学习控制柔软变形机器人	海报展示
将正则化与动作空间解耦	海报展示
Plan-Seq-Learn：语言模型引导的强化学习，用于解决长期机器人任务	海报展示
利用$\mathcal{L}_1$自适应控制实现稳健的基于模型强化学习	海报展示
DMBP：基于扩散模型的预测器，用于抵御状态观测扰动的稳健离线强化学习	海报展示
LoTa-Bench：面向具身智能体的语言导向任务规划者基准测试	海报展示
通过自动归纳任务子结构将规划与深度强化学习相结合	海报展示
从泛化角度弥合TD学习与监督学习之间的差距	海报展示
COPlanner：为基于模型的强化学习制定保守推进但乐观探索的计划	海报展示
π2vec：利用后继特征表示策略	海报展示
部分可观测条件下视觉房间重新布局的任务规划	海报展示
DreamSmooth：通过奖励平滑改进基于模型的强化学习	海报展示
元逆向约束强化学习：收敛保证与泛化分析	海报展示
Cleanba：一个可重复且高效的分布式强化学习平台	海报展示
受意识启发的时空抽象，用于提升强化学习的泛化能力	海报展示
用于序列学习的神经网络函数空间参数化	海报展示
我们何时应优先选择决策Transformer用于离线强化学习？	海报展示
连接状态与历史表征：理解自我预测式强化学习	海报展示
具身主动防御：利用循环反馈对抗敌方补丁	海报展示
风格化的离线强化学习：从异质数据集中提取多样且高质量的行为	海报展示
使用合成数据进行预训练有助于离线强化学习	海报展示
基于查询的提示评估与优化，结合离线逆向强化学习	海报展示
一种简单的解决方案，用于从可能不完整的轨迹观测和示例中进行离线模仿	海报展示
利用变分反事实推理进行离线模仿学习	海报展示
阅读并收获成果：借助说明书学习玩Atari游戏	海报展示
具有快速遗忘记忆的强化学习	海报展示
在有限视觉可观测性下的主动视觉强化学习	海报展示
用于高效人类反馈强化学习的顺序偏好排序	海报展示
用于多模态视觉强化学习的层次化自适应价值估计	海报展示
弹性决策Transformer	海报展示
重视程度导向的协同教学，用于离线基于模型的优化	海报展示
平行辅导用于离线基于模型的优化	海报展示
离线强化学习中的问责制：用实例语料库解释决策	海报展示

ICML24

论文	类型
停止回归：通过分类训练价值函数以实现可扩展的深度强化学习	口头报告
立场：自动环境塑造是强化学习的下一个前沿	口头报告
ACE：具有因果感知熵正则化的离策略 Actor-Critic 算法	口头报告
DPO 是否优于 PPO 用于 LLM 对齐？一项全面研究	口头报告
SAPG：拆分与聚合策略梯度	口头报告
逆向强化学习中的环境设计	口头报告
OMPO：一种统一的框架，用于处理策略和动态变化下的强化学习	口头报告
用语言学习建模世界	口头报告
离策略 Actor-Critic 强化学习可扩展至大型模型	口头报告
用于可扩展持续强化学习的自组合策略	口头报告
Genie：生成式交互环境	口头报告
基于功能奖励编码的无监督零样本强化学习	展示报告
Craftax：一个超快速的开放式强化学习基准测试	展示报告
专家混合模型解锁深度强化学习的参数扩展性	展示报告
RICE：利用解释突破强化学习的训练瓶颈	展示报告
代码即奖励：利用视觉语言模型赋能强化学习	展示报告
EfficientZero V2：在数据有限的情况下掌握离散和连续控制	展示报告
基于潜在动作的行为生成	展示报告
Actor-Critic 中的过估计、过拟合与可塑性：强化学习的惨痛教训	海报展示
先难后易：通过任务调度进行多任务强化学习	海报展示
通过强化学习实现检索增强型大型语言模型的可信对齐	海报展示
跨多个环境的部分识别治疗效应的元学习者	海报展示
如何用信念探索：部分可观测马尔可夫决策过程中的状态熵最大化	海报展示
PIPER：基于事后重标记的原语信息偏好式层次强化学习	海报展示
使用不完美示范的迭代正则化策略优化	海报展示
用于具身学习实时决策的傅里叶控制器网络	海报展示
通过反向课程强化学习训练大型语言模型进行推理	海报展示
AD3：隐式动作是世界模型区分多样化视觉干扰的关键	海报展示
DRED：通过数据驱动的环境设计实现强化学习的零样本迁移	海报展示
使用卷积注入器调整预训练 ViT 模型以用于视觉-运动控制	海报展示
无退化策略优化：无需退化的语言模型强化学习微调	海报展示
能量引导的扩散采样用于离线到在线强化学习	海报展示
RVI-SAC：平均奖励离策略深度强化学习	海报展示
基于对比能量学习的离线转移建模	海报展示
针对混杂 POMDP 的基于模型的强化学习	海报展示
重新审视强化学习应用中的可扩展海森矩阵对角近似	海报展示
绝对策略优化：以高置信度提升性能下界	海报展示
鲁棒于分布偏移的元强化学习：通过终身上下文学习实现	海报展示
DIDI：离线行为生成中的扩散引导多样性	海报展示
技能何时有助于强化学习？时间抽象的理论分析	海报展示
BeigeMaps：基于图像的强化学习行为特征映射	海报展示
物理信息神经网络策略迭代：算法、收敛性和验证	海报展示
RL-VLM-F：基于视觉语言基础模型反馈的强化学习	海报展示
RoboDreamer：为机器人想象学习组合式世界模型	海报展示
探究基于视觉的强化学习中用于泛化的预训练目标	海报展示
RoboGen：通过生成式仿真释放无限数据以实现自动化机器人学习	海报展示
协处理器 Actor-Critic：一种基于模型的强化学习方法，用于自适应脑刺激	海报展示
通过策略梯度训练 GFlowNet	海报展示
基于价值进化论的强化学习	海报展示
PEARL：零样本跨任务偏好对齐及鲁棒奖励学习，用于机器人操作	海报展示
面向安全强化学习的一致可行性表征学习	海报展示
蒸馏形态条件超网络以实现高效通用形态控制	海报展示
模型不匹配下的约束强化学习	海报展示
在离线强化学习中从单个任务发现多种解	海报展示
学习在无界状态空间中稳定在线强化学习	海报展示
在代币世界中学习玩 Atari	海报展示
突破壁垒：平滑 DRL 智能体的效用与鲁棒性提升	海报展示
具有形式可解释性的概率约束强化学习	海报展示
Hieros：基于结构化状态序列的世界模型的层次想象	海报展示
深度强化学习中的随机潜在探索	海报展示
面向参数化动作空间的基于模型的强化学习	海报展示
自信感知的逆向约束强化学习	海报展示
n-step 回报的平均降低了强化学习的方差	海报展示
立场：呼吁发展具身人工智能	海报展示
直接聚类：利用聚类和预训练表征进行高维探索的方法	海报展示
多目标强化学习的极大极小公式：从理论到无模型算法	海报展示
技能集优化：通过可迁移技能强化语言模型行为	海报展示
离线增强的 Actor-Critic：在深度离策略强化学习中自适应融合最优历史行为	海报展示
序列压缩加速了强化学习中的信用分配	海报展示
把握偶然性：在离策略 Actor-Critic 中利用过去成功的价值	海报展示
通过上下文学习将泛化能力扩展到新的序列决策任务	海报展示
离线强化学习的简单要素	海报展示
具有上下文感知标记的高效世界模型	海报展示
在基于价值的深度强化学习中，剪枝后的网络才是好网络	海报展示
面向层次强化学习的概率子目标表征	海报展示
Premier-TACO 是一种少样本策略学习器：通过时间驱动的动作对比损失预训练多任务表征	海报展示
理解和诊断深度强化学习	海报展示
追求极致：重塑强化学习中的奖励	海报展示
ReLU 来救场：用积极优势改进您的在策略 Actor-Critic	海报展示
适用于大型离散动作空间的随机 Q 学习	海报展示
可行可达策略迭代	海报展示
立场：视频是现实世界决策的新语言	海报展示
学习用于世界模型的稳健潜在动态表征	海报展示
Reinformer：面向离线 RL 的最大回报序列建模	海报展示
重新思考 Transformer 在解决 POMDP 问题中的作用	海报展示
单轨迹分布鲁棒强化学习	海报展示
信任模型所信任的地方——基于模型的 Actor-Critic 与不确定性感知的滚动预测适应	海报展示
基于最小化极大值原则的人工智能反馈强化学习	海报展示
EvoRainbow：结合进化强化学习的改进以进行策略搜索	海报展示
SeMOPO：从低质量离线视觉数据集中学习高质量模型和策略	海报展示
自适应梯度策略优化：提升非光滑可微模拟中的策略学习	海报展示
从人类反馈中免费获得密集奖励	海报展示
可配置镜像下降：迈向决策统一	海报展示
平衡短期与长期奖励的策略学习	海报展示
通过辅助奖励智能体进行强化学习的奖励塑造	海报展示
基于均值嵌入的分布贝尔曼算子	海报展示
SiT：面向泛化的对称不变 Transformer	海报展示
马尔可夫决策过程中的几何主动探索：抽象的好处	海报展示
通过 Q 分数匹配从奖励中学习扩散模型策略	海报展示
ACPO：一种用于平均 MDP 且带约束的策略优化算法	海报展示
立场：基准测试在强化学习研究中存在局限性	海报展示
通过优越的分布校正估计从离线演示中学习约束	海报展示
在强化学习中用假设增强决策	海报展示
SHINE：保护深度强化学习中的后门	海报展示
利用深度强化学习在未知环境中学习覆盖路径	海报展示
通过并行观测预测改进基于令牌的世界模型	海报展示
通过信息性奖励学习在 POMDP 中探索	海报展示
隐蔽模仿：奖励引导的无环境策略窃取	海报展示
FuRL：视觉语言模型作为模糊奖励用于强化学习	海报展示
在离线强化学习中通过一阶状态-动作动力学提升价值函数估计	海报展示
面向可变动作空间的上下文强化学习	海报展示
面向离线强化学习的信息导向悲观主义	海报展示
PcLast：发现可规划的连续潜在状态	海报展示
面向离线到在线强化学习的贝叶斯设计原则	海报展示
面向离线强化学习的自适应优势引导策略正则化	海报展示
ArCHer：通过层次多轮强化学习训练语言模型智能体	海报展示
RLAIF 与 RLHF：利用 AI 反馈扩大从人类反馈中受益的强化学习规模	海报展示
朗之万策略用于安全强化学习	海报展示
反思式策略优化	海报展示
从人类反馈中进行迭代偏好学习：弥合 KL 约束下 RLHF 的理论与实践	海报展示
用于跨域离线强化学习数据过滤的对比表征	海报展示
立场：基础智能体是决策范式的转变	海报展示
基于惩罚的原则性方法用于双层强化学习和 RLHF	海报展示
Transformer 世界模型是否能提供更好的策略梯度？	海报展示
通过辅助短延迟增强具有强烈延迟反馈的强化学习	海报展示
通过函数编码器实现零样本强化学习	海报展示
3D-VLA：一个 3D 视觉-语言-行动生成式世界模型	海报展示
SF-DQN：利用后继特征实现可证明的知识迁移的深度强化学习	海报展示
上下文决策 Transformer：通过层次化思维链进行强化学习	海报展示
质量-多样性 Actor-Critic：通过价值和后继特征批评家学习高性能且多样化的行为	海报展示
面向离线偏好式强化学习的列表式奖励估计	海报展示
立场：扩大仿真规模既不是野外机器人操作的必要条件，也不是充分条件	海报展示
仅凭离线观察的混合强化学习	海报展示
逆向强化学习是否比标准强化学习更难？一个理论视角	海报展示
通过稳健平均进行正则化 Q 学习	海报展示
通过捕捉表征差异实现跨域策略适应	海报展示
HarmoDT：面向离线强化学习的和谐多任务决策 Transformer	海报展示
具有希尔伯特表征的基础策略	海报展示
3D 多实体物理环境中的次等价强化学习	海报展示
LLM 赋能的状态表示用于强化学习	海报展示
基于提示的视觉对齐用于零样本策略迁移	海报展示
3D 世界中的具身通才智能体	海报展示
Q 值正则化的 Transformer 用于离线强化学习	海报展示
高速公路价值迭代网络	海报展示
在模型误设情况下的鲁棒逆向约束强化学习	海报展示
利用分布随机网络蒸馏进行探索与反探索	海报展示
策略条件环境模型更具泛化能力	海报展示
用于无监督技能发现的约束集合式探索	海报展示
DiffStitch：通过基于扩散的轨迹拼接提升离线强化学习	海报展示
通过层次强化学习重新思考决策 Transformer	海报展示
从 Transformer 表征中学习认知地图，以实现在部分可观测环境中的高效规划	海报展示
HarmonyDream：世界模型内部的任务协调	海报展示
推进商业格斗游戏中 DRL 智能体的发展：训练、集成和智能体与人类的对齐	海报展示
通过原始 Wasserstein 状态占用匹配从观察中进行离线模仿	海报展示
通过量化进行细粒度因果动力学学习，以提高强化学习的鲁棒性	海报展示
在批量强化学习中切换损失可以降低成本	海报展示
三思而后行：带有工作记忆的决策 Transformer	海报展示

NeurIPS24

论文	类型
基于能量模型的扩散模型的最大熵逆强化学习	口头报告
改进环境新颖性量化以实现高效的无监督环境设计	口头报告
RL-GPT：将强化学习与代码即策略相结合	口头报告
利用深度强化学习优化自动微分	聚光灯报告
更大、正则化、更乐观：面向计算和样本高效的连续控制扩展	聚光灯报告
学习型优化能否使强化学习变得更简单？	聚光灯报告
通过环路移除进行目标简化，加速强化学习并模拟目标导向学习中的人类大脑活动	聚光灯报告
BricksRL：一个利用乐高积木 democratize 机器人学和强化学习研究与教育的平台	聚光灯报告
类人机器人运动作为下一个标记预测	聚光灯报告
利用变分偏好学习从人类反馈中个性化强化学习	聚光灯报告
预训练的文本到图像扩散模型是用于控制的多功能表征学习器	聚光灯报告
关于在策略深度强化学习中可塑性损失的研究	聚光灯报告
用于世界建模的扩散：Atari 游戏中视觉细节至关重要	聚光灯报告
专为离线强化学习设计的惩罚式 Q 学习	聚光灯报告
DiffTORI：面向深度强化学习和模仿学习的可微轨迹优化	聚光灯报告
变分延迟策略优化	聚光灯报告
利用有效的基于度量的探索奖励重新思考强化学习中的探索问题	聚光灯报告
迈向基于信息论的上下文离线元强化学习框架	聚光灯报告
强化学习梯度作为在线微调决策 Transformer 的“维生素”	聚光灯报告
强化学习中奖励前瞻的重要性	聚光灯报告
PEAC：面向跨具身强化学习的无监督预训练	海报展示
用于噪声和不确定性环境中的深度 RL 的奖励机器	海报展示
具有特权信息的可证明部分可观测强化学习	海报展示
人工世代智能：强化学习中的文化积累	海报展示
SimPO：一种无需参考奖励的简单偏好优化方法	海报展示
子词即技能：稀疏奖励强化学习中的分词方法	海报展示
基于模型的扩散用于轨迹优化	海报展示
面向强化学习的算子世界模型	海报展示
多元分布强化学习的基础	海报展示
通过可扩展的逆强化学习模仿语言	海报展示
超越乐观：部分可观测奖励下的探索	海报展示
SleeperNets：针对强化学习智能体的通用后门中毒攻击	海报展示
学习用于无约束目标导航的世界模型	海报展示
为目标条件强化学习探索潜在状态簇的边缘	海报展示
通过领域适应和奖励增强的模仿学习进行非动力学强化学习	海报展示
基于模型的离线强化学习中的受限隐动作策略	海报展示
拆解 DPO 和 PPO：理清从偏好反馈中学习的最佳实践	海报展示
重新思考逆强化学习：从数据对齐到任务对齐	海报展示
强化学习中的归一化与有效学习率	海报展示
ReST-MCTS*：通过过程奖励引导的树搜索进行 LLM 自我训练	海报展示
无需批量更新、目标网络或回放缓冲区的深度策略梯度方法	海报展示
面向策略学习的文本感知扩散	海报展示
离线 RL 的一种可处理推理视角	海报展示
通过行动分解进行策略优化来强化 LLM 智能体	海报展示
帕塞瓦尔正则化用于持续强化学习	海报展示
令人惊讶的是，预训练的视觉表征对于基于模型的强化学习几乎无效	海报展示
推测式蒙特卡洛树搜索	海报展示
在约束强化学习中通过反馈确保安全	海报展示
在决策至关重要的地方进行测试：面向深度强化学习的重要性驱动测试	海报展示
面向零样本泛化的技能感知互信息优化	海报展示
带有 Q 集成的熵正则化扩散策略，用于离线强化学习	海报展示
多目标强化学习中效用函数的分析性研究	海报展示
扩散-DICE：离线强化学习中的样本内扩散指导	海报展示
高效的循环式非策略 RL 需要特定于上下文编码器的学习率	海报展示
基于不确定性的离线变分贝叶斯强化学习，用于应对多样化的数据损坏以提高鲁棒性	海报展示
Any2Policy：使用任意模态学习视觉运动策略	海报展示
采用适应性正则化的强化学习，用于关键系统的安全控制	海报展示
局部时间上的 Adam：通过相对 Adam 时间步长解决 RL 中的非平稳性问题	海报展示
ROIDICE：用于高效决策的离线投资回报最大化	海报展示
边预测边行动：通过联合去噪过程进行视觉策略学习	海报展示
[通过将扩散行为与 Q 函数对齐实现高效的连续控制]	海报展示

ICLR25

论文	类型
RM-Bench：以细腻与风格为基准评估语言模型的奖励模型	口头报告
基于扩散的自动驾驶灵活引导规划	口头报告
从演示序列中学习搜索	口头报告
偏好标注扩展：用于高效LLM对齐的直接偏好判断	口头报告
无模型强化学习中涌现式规划的解释	口头报告
Kinetix：通过开放式的物理控制任务探究通用智能体的训练	口头报告
OptionZero：基于学习到的选项进行规划	口头报告
预测性逆动力学模型是可扩展的机器人操作学习器	口头报告
机器人操作模仿学习中的数据缩放规律	口头报告
更多的RLHF，更多的信任？关于偏好对齐对可信度的影响	口头报告
面向形状多变及可变形物体操作的几何感知强化学习	口头报告
DeepLTL：学习高效满足多任务强化学习中复杂LTL规范	口头报告
通过强化学习训练语言模型实现自我修正	口头报告
优先级生成式回放	口头报告
策略参数空间中的平坦奖励意味着稳健的强化学习	口头报告
基于长短时想象的开放世界强化学习	口头报告
基于计数的探索实现语言模型的在线偏好对齐	展示报告
结合示范与人类反馈的联合奖励与策略学习提升对齐效果	展示报告
相关代理：奖励欺骗的新定义及其改进缓解方法	展示报告
非平稳情境驱动环境下的在线强化学习	展示报告
DataEnvGym：在教师环境中利用学生反馈生成数据的智能体	展示报告
纠正KL正则化的迷思：通过卡方偏好优化实现无过度优化的直接对齐	展示报告
TOP-ERL：基于Transformer的离策略分幕强化学习	展示报告
VisualPredicator：利用神经符号谓词学习抽象世界模型用于机器人规划	展示报告
基于扩散模型的多机器人运动规划	展示报告
简化深度时序差分学习	展示报告
基于ODE的平滑神经网络用于强化学习任务	展示报告
MAD-TD：模型增强数据稳定高更新率强化学习	展示报告
在可微多物理仿真中稳定强化学习	展示报告
不要展平，要分词！解锁SoftMoE在深度强化学习中高效性的关键	展示报告
基于Transformer的世界模型学习与对比预测编码	展示报告
迈向通用无模型强化学习	展示报告
重新思考奖励模型评估：我们是否找错了方向？	展示报告
加速目标条件强化学习算法与研究	展示报告
SimBa：简单性偏差助力深度强化学习参数规模扩大	展示报告
无需奖励过度优化的扩散模型测试时对齐	展示报告
通过直接优化缓解树状强化学习中的信息损失	展示报告
什么样的扩散规划器适合决策？	展示报告
ADAM：开放世界环境中的具身因果智能体	海报展示
如何评估用于RLHF的奖励模型	海报展示
SafeDiffuser：使用扩散概率模型的安全规划	海报展示
高效的在线强化学习微调无需保留离线数据	海报展示
利用大型语言模型先验进行高效强化学习	海报展示
朗之万软演员—评论家：通过不确定性驱动的评论家学习实现高效探索	海报展示
带有安全约束的强化学习高效策略评估	海报展示
模型编辑作为DPO的鲁棒去噪变体：以毒性问题为例	海报展示
面向约束强化学习的安全优先课程	海报展示
用于不确定性感知的离线强化学习的神经随机微分方程	海报展示
MaxInfoRL：通过最大化信息增益提升强化学习中的探索	海报展示
SEMDICE：通过稳态分布校正估计实现离策略状态熵最大化	海报展示
Strategist：通过双层树搜索实现LLM决策的自我改进	海报展示

ICML25

论文	类型
EmbodiedBench: 面向视觉驱动具身智能体的多模态大语言模型综合基准测试	口头报告
网络稀疏性释放深度强化学习的可扩展潜力	口头报告
通过单步奖励实现多轮代码生成	焦点报告
策略标注的偏好学习：偏好是否足以用于RLHF？	焦点报告
用于系统2规划的蒙特卡洛树扩散	焦点报告
RLEF: 基于强化学习的执行反馈，使代码LLM落地	焦点报告
指数族下的决策：基于贝叶斯模糊集的分布鲁棒优化	焦点报告
超球面归一化用于可扩展的深度强化学习	焦点报告
LLM与RL的协同作用利用低质量数据解锁可泛化的语言条件策略的离线学习	焦点报告
在使用离线数据的强化学习中惩罚不可行动作及奖励缩放	焦点报告
隐私与鲁棒离线对齐的统一理论分析：从RLHF到DPO	焦点报告
视频预测策略：一种具有预测性视觉表征的通用机器人策略	焦点报告
通过在线世界模型规划实现持续强化学习	焦点报告
跨动力学强化学习中对全局可达状态的策略正则化	焦点报告
用于模仿学习的潜在扩散规划	焦点报告
利用世界模型进行强化学习中的新奇性检测	焦点报告
DPO与PPO相遇：用于RLHF的强化标记优化	焦点报告

NeurIPS25

论文	类型
用于鲁棒强化学习的状态熵正则化	口头报告
PRIMT：基于偏好、多模态反馈以及由基础模型生成轨迹的强化学习	口头报告
离线强化学习的新起点	口头报告
用于自监督RL的1000层网络：扩大深度可实现新的目标达成能力	口头报告
QoQ-Med：通过领域感知的GRPO训练构建多模态临床基础模型	口头报告
强化学习是否真的能在基础模型之外激励大语言模型的推理能力？	口头报告
AceSearcher：通过强化自我博弈为大语言模型启动推理与搜索	聚光灯报告
Pass@K策略优化：解决更难的强化学习问题	聚光灯报告
非平稳环境下的离线强化学习预测	聚光灯报告
对抗性RL：重新思考高效且可扩展的深度强化学习的核心原则	聚光灯报告
利用强化学习逆向工程人类偏好	聚光灯报告
SafeVLA：通过约束学习实现视觉-语言-行动模型的安全对齐	聚光灯报告
d1：通过强化学习扩展扩散式大型语言模型的推理能力	聚光灯报告
SoFar：语言锚定的方向感桥梁空间推理与物体操作	聚光灯报告
Memo：利用强化学习训练内存高效的具身智能体	聚光灯报告
DeepDiver：通过强化学习自适应调整网络搜索强度	聚光灯报告
DenseDPO：针对视频扩散模型的细粒度时间偏好优化	聚光灯报告
用于具有偏移动力学数据的强化学习的复合流匹配	聚光灯报告
利用不完美的转移预测进行强化学习：一种贝尔曼-延森方法	聚光灯报告
深度强化学习中大规模稳定学习的稳定梯度	聚光灯报告
AlphaZero神经规模与齐普夫定律：棋类游戏与幂律的故事	聚光灯报告
DAPO：通过直接优势驱动的策略优化提升大语言模型的多步推理能力	聚光灯报告
VL-Rethinker：利用强化学习激励视觉-语言模型的自我反思	聚光灯报告
CURE：通过强化学习协同进化编码员和单元测试员	聚光灯报告
蒸馏还是决策？理解部分可观测强化学习中的算法权衡	聚光灯报告
面向离线强化学习的自适应邻域约束Q学习	聚光灯报告
思考还是不思考？规则驱动的视觉强化微调中思考行为的研究	聚光灯报告
DexGarmentLab：具有可泛化策略的灵巧服装操作环境	聚光灯报告
Q-Insight：通过视觉强化学习理解图像质量	聚光灯报告
通过正交性实现新颖探索	海报展示
Router-R1：通过强化学习教导大语言模型多轮路由与聚合	海报展示
带有回溯反馈的强化学习	海报展示
安全RLHF-V：来自多模态人类反馈的安全强化学习	海报展示
世界感知规划叙事增强大型视觉-语言模型规划器	海报展示
STAR：通过双重正则化实现高效的基于偏好的强化学习	海报展示
FairDICE：以公平为导向的离线多目标强化学习	海报展示
Robot-R1：用于增强机器人具身推理的强化学习	海报展示
关于评估鲁棒POMDPs策略的方法	海报展示
周期性技能发现	海报展示
带有动作分块的强化学习	海报展示
ReSearch：通过强化学习让大语言模型学会用搜索进行推理	海报展示
UFO-RL：以不确定性为中心的优化，用于高效选择强化学习数据	海报展示
段落策略优化：在大语言模型的强化学习中实现有效的段级信用分配	海报展示
DISCOVER：稀疏奖励强化学习的自动化课程	海报展示
EnerVerse：设想机器人操作的具身未来空间	海报展示
上下文世界模型中与动力学对齐的潜在想象，用于零样本泛化	海报展示
基于模型的探索增强的离策略强化学习	海报展示
IOSTOM：通过状态转移占用率匹配从观察中进行离线模仿学习	海报展示
树引导的扩散规划器	海报展示
动作分块流程策略的实时执行	海报展示
提示式策略搜索：通过大语言模型中的语言和数值推理进行强化学习	海报展示
行为注入：为语言模型的强化学习做准备	海报展示
ExPO：通过自我解释引导的强化学习解锁高难度推理	海报展示
具有动作序列的粗细结合Q网络，用于数据高效的强化学习	海报展示
持续模拟人类角色，采用多轮强化学习	海报展示
深度RL需要深度行为分析：探索无模型智能体在开放环境中进行的隐式规划	海报展示

ICLR26

论文	类型
用于无监督强化学习的探索性扩散模型	口头报告
通过离线奖励评估和策略搜索增强生成式自动出价	口头报告
为什么DPO是一种误设的估计量以及如何修复它	口头报告
SafeDPO：一种简单且安全性更强的直接偏好优化方法	口头报告
基于引导搜索的组合扩散模型用于长 horizon 规划	口头报告
LoongRL：面向长上下文的高级推理强化学习	口头报告
GEPA：反思式提示进化可超越强化学习	口头报告
无需训练的推理：你的基础模型比你想象的更聪明	口头报告
用于学习机器人动作的罗德里格斯网络	口头报告
具有瞬时速度约束的均流策略用于单步动作生成	口头报告
TD-JEPA：用于零样本强化学习的潜在预测表征	口头报告
WoW！：闭环世界中的世界模型	口头报告
DiffusionNFT：带有前向过程的在线扩散强化学习	口头报告
通过预训练模型和深度强化学习掌握稀疏CUDA生成	口头报告
LongWriter-Zero：通过强化学习掌握超长文本生成	口头报告
MomaGraph：结合视觉-语言模型的状态感知统一场景图用于具身任务规划	口头报告

Reinforcement-Learning-Papers 快速上手指南

项目简介： Reinforcement-Learning-Papers 是一个精选的强化学习（RL）论文清单，主要聚焦于单智能体领域。它涵盖了从经典算法（如 DQN, PPO, SAC）到前沿研究（如基于 Transformer 的 RL、离线 RL、扩散模型结合等）的广泛内容，并持续更新包括 ICLR、ICML、NeurIPS 等顶级会议的最新论文。本项目主要作为文献索引和知识库使用，帮助开发者快速定位高质量论文及其核心贡献。

环境准备

由于本项目本质上是论文列表和文档集合，无需安装复杂的深度学习框架或 GPU 环境即可浏览核心内容。

系统要求：Windows / macOS / Linux 均可。
前置依赖：
- Git（用于克隆仓库）
- Markdown 阅读器（推荐 VS Code 或 GitHub 网页版）
- （可选）Python 3.x：如果你打算运行列表中部分论文提供的官方代码链接，需根据具体论文的要求配置相应的 PyTorch 或 TensorFlow 环境。

安装步骤

1. 克隆仓库

打开终端（Terminal 或 CMD），执行以下命令将项目下载到本地：

git clone https://github.com/quantumiracle/Reinforcement-Learning-Papers.git

国内加速建议：如果直接克隆速度较慢，可以使用 Gitee 镜像（如果有）或通过代理加速。若无特定镜像，可尝试指定深度为 1 以加快下载：
git clone --depth 1 https://github.com/quantumiracle/Reinforcement-Learning-Papers.git

2. 进入目录

cd Reinforcement-Learning-Papers

3. （可选）安装依赖

本项目主要是 Markdown 文档，通常不需要 pip install。但如果需要复现列表中某些论文的代码，请查看对应论文标题链接指向的原始仓库，并按照其特定的 requirements.txt 进行安装。

基本使用

本项目的主要使用方式是查阅文献索引。你可以通过本地 Markdown 文件或直接在 GitHub 页面上浏览分类好的论文列表。

方式一：本地浏览（推荐）

使用支持 Markdown 预览的编辑器（如 VS Code）打开 README.md 文件。

使用 VS Code 打开项目文件夹。
点击 README.md 文件。
点击右上角的“打开侧边预览”图标（或按 Ctrl+Shift+V / Cmd+Shift+V）。
利用目录（Contents）中的锚点快速跳转至感兴趣的领域，例如：
- Model Free (Online) RL：在线无模型方法（含 DQN, PPO, SAC 等经典与最新算法）。
- Model Based (Online) RL：在线基于模型的方法（含 World Models, Dreamer 等）。
- Offline RL：离线强化学习（含结合扩散模型的最新研究）。
- RL with Transformer/LLM：结合大语言模型的强化学习。
- Conference Lists：按年份和会议（ICLR, ICML, NeurIPS 2022-2026）查找最新论文。

方式二：在线查阅

直接访问 GitHub 仓库页面，利用右侧的目录导航栏快速定位。点击表格中的论文标题即可直接跳转到 PDF 原文或 ArXiv 页面。

使用示例：查找最新 PPO 改进或 SAC 相关论文

在 README.md 中找到 Model Free (Online) RL 章节。
向下滚动至 Classic Methods 表格。
查找 PPO 或 SAC 行，阅读其 Description 列了解核心思想（如 PPO 通过裁剪系数替代硬约束，SAC 基于最大熵理论）。
点击标题链接下载论文全文。
若需查找最新进展，可直接跳转至文档底部的 ICLR24, ICML24, 或 NeurIPS24 等章节查看当年收录的新文章。

注：本指南仅用于指导如何查阅该论文列表。若需复现具体算法，请务必前往论文原文中提供的官方代码仓库获取详细实现细节。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|今天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2周前

开发框架其他