Reinforcement-Learning-Papers
Reinforcement-Learning-Papers 是一个专注于强化学习领域的开源论文精选库,旨在帮助研究者高效追踪该方向的核心进展。面对每年顶级会议(如 ICLR、ICML、NeurIPS)涌现的海量新论文,手动筛选高价值内容往往耗时费力,而该项目通过人工阅读与甄别,整理出了一份涵盖经典奠基之作与前沿最新成果的清单,有效解决了信息过载与优质资源难寻的痛点。
该资源特别适合强化学习领域的研究人员、算法工程师以及相关专业的学生使用。无论是希望系统梳理知识体系的初学者,还是急需把握最新技术风向的资深专家,都能从中获益。其独特亮点在于不仅收录了从 DQN、策略梯度等经典方法到基于 Transformer/LLM 的序列生成等前沿探索,还细致地按“无模型/有模型”、“在线/离线”、“元学习”及“对抗学习”等维度进行了结构化分类。此外,项目持续更新直至 2026 年的会议论文,并特别关注单智能体场景,为使用者提供了一条清晰、高质量的技术演进路径,是深入理解强化学习不可或缺的参考指南。
使用场景
某自动驾驶初创公司的算法工程师正在研发基于强化学习的决策模块,急需从海量顶会论文中筛选出适合连续动作空间的最新模型基线。
没有 Reinforcement-Learning-Papers 时
- 检索效率极低:面对每年数万件 RL 新论文,工程师需在 Google Scholar 和 arXiv 上盲目关键词搜索,耗费数天才能拼凑出零散的文献列表。
- 经典与前沿割裂:难以快速厘清技术演进脉络,往往找到了最新的 ICLR 2024 论文,却遗漏了支撑该方法的 Double DQN 或 Rainbow 等经典基石,导致复现时缺乏理论根基。
- 关键信息缺失:下载论文后需逐篇阅读摘要才能确认是否支持“离线训练”或“连续动作空间”,无法预先通过结构化表格快速过滤不匹配的方法。
- 领域覆盖盲区:容易忽略如"RL 结合扩散模型”或"Meta RL"等交叉领域的突破性进展,导致技术方案选型局限在传统框架内。
使用 Reinforcement-Learning-Papers 后
- 一站式精准导航:直接利用按会议(ICLR/NeurIPS 等)和方法类型(Model-Free/Offline)分类的目录,10 分钟内即可锁定针对连续动作空间的 SOTA 算法清单。
- 脉络清晰可视:通过"Classic Methods"到"Current methods"的结构化梳理,迅速掌握从 DQN 到最新 Transformer 结合方案的技术迭代路径,夯实实验设计基础。
- 核心属性速查:借助包含策略类型、动作空间、在线/离线标记的详细表格,无需阅读全文即可判断论文适用性,大幅缩短预研周期。
- 前沿动态同步:及时获取直至 ICLR 2026 的最新收录论文,确保团队能第一时间将“离线 RL 结合扩散模型”等前沿思路融入自动驾驶决策系统。
Reinforcement-Learning-Papers 将原本耗时数周的文献调研工作压缩至小时级,让研发团队能更专注于算法落地而非信息搜集。
运行环境要求
未说明
未说明

快速开始
强化学习论文
强化学习相关论文(我们主要关注单智能体强化学习)。
由于每年各大会议上都有数以万计的强化学习新论文,我们只能列出那些我们阅读过并认为具有启发性的论文。
我们已添加了一些ICLR22、ICML22、NeurIPS22、ICLR23、ICML23、NeurIPS23、ICLR24、ICML24、NeurIPS24、ICLR25、ICML25、NeurIPS25、ICLR26的强化学习论文。
目录
- 无模型(在线)强化学习
- 基于模型(在线)强化学习
- (无模型) 离线强化学习
- 基于模型的离线强化学习
- 元强化学习
- 对抗性强化学习
- 强化学习中的泛化
- 使用Transformer/LLM的强化学习
- 教程与课程
- ICLR22
- ICML22
- NeurIPS22
- ICLR23
- ICML23
- NeurIPS23
- ICLR24
- ICML24
- NeurIPS24
- ICLR25
- ICML25
- NeurIPS25
- ICLR26
无模型(在线)强化学习
经典方法
| 标题 | 方法 | 会议 | 策略类型 | 动作空间 | 策略 | 描述 |
|---|---|---|---|---|---|---|
| 通过深度强化学习实现人类水平控制, [其他链接] | DQN | Nature15 | 离线 | 离散 | 基于值函数 | 使用深度神经网络训练Q学习,在Atari游戏中达到人类水平;主要技巧包括:用于提高样本效率的回放缓冲区,以及目标网络与行为网络的解耦 |
| 基于双重Q学习的深度强化学习 | Double DQN | AAAI16 | 离线 | 离散 | 基于值函数 | 发现DQN中的Q函数可能会高估;通过两个神经网络分别负责Q值计算和动作选择来解耦 |
| 用于深度强化学习的决斗网络架构 | Dueling DQN | ICML16 | 离线 | 离散 | 基于值函数 | 使用同一神经网络同时近似Q值和状态价值,以计算优势函数 |
| 优先级经验回放 | 优先采样 | ICLR16 | 离线 | 离散 | 基于值函数 | 为回放缓冲区中的样本赋予不同权重(例如TD误差) |
| Rainbow:结合深度强化学习中的多项改进 | Rainbow | AAAI18 | 离线 | 离散 | 基于值函数 | 将多种DQN改进整合在一起:Double DQN、Dueling DQN、优先采样、多步学习、分布型RL、噪声网络 |
| 带有函数逼近的强化学习策略梯度方法 | PG | NeurIPS99 | 在线/离线 | 连续或离散 | 函数逼近 | 提出策略梯度定理:如何计算策略期望累积回报的梯度 |
| ---- | AC/A2C | ---- | 在线/离线 | 连续或离散 | 参数化神经网络 | AC:用Q值近似器替代PG中的回报,以降低方差;A2C:用优势函数替代AC中的Q值,以降低方差 |
| 深度强化学习的异步方法 | A3C | ICML16 | 在线/离线 | 连续或离散 | 参数化神经网络 | 提出三项提升性能的技巧:(i) 使用多个智能体与环境交互;(ii) 价值函数和策略共享网络参数;(iii) 修改损失函数(价值函数的均方误差 + PG损失 + 策略熵) |
| 信任域策略优化 | TRPO | ICML15 | 在线 | 连续或离散 | 参数化神经网络 | 在策略优化中引入信任域,以保证单调性改进 |
| 近端策略优化算法 | PPO | arxiv17 | 在线 | 连续或离散 | 参数化神经网络 | 用剪裁系数的惩罚项替代TRPO的硬约束 |
| 确定性策略梯度算法 | DPG | ICML14 | 离线 | 连续 | 函数逼近 | 针对连续动作空间考虑确定性策略,并证明确定性策略梯度定理;同时使用随机行为策略以鼓励探索 |
| 基于深度强化学习的连续控制 | DDPG | ICLR16 | 离线 | 连续 | 参数化神经网络 | 将DQN的思想应用于DPG:(i) 使用深度神经网络作为函数逼近器,(ii) 使用回放缓冲区,(iii) 每个epoch固定目标Q值 |
| 解决演员-评论家方法中的函数逼近误差 | TD3 | ICML18 | 离线 | 连续 | 参数化神经网络 | 将Double DQN的思想应用到DDPG中:取一对评论家网络输出的最小值,以限制高估现象 |
| 基于深度能量模型的强化学习 | SQL | ICML17 | 离线 | 主要针对连续动作 | 参数化神经网络 | 考虑最大熵强化学习,并提出软Q迭代及软Q学习 |
| 软演员-评论家算法及其应用, 软演员-评论家:具有随机演员的离策略最大熵深度强化学习, [附录] | SAC | ICML18 | 离线 | 主要针对连续动作 | 参数化神经网络 | 基于SQL的理论分析,扩展软Q迭代(软Q评估+软Q改进);对策略进行重参数化,并使用两个参数化的价值函数;提出SAC |
探索
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 由自监督预测驱动的好奇心探索 | ICM | ICML17 | 提出好奇心可以作为内在奖励信号,使智能体在奖励稀疏的情况下探索环境并学习技能;将好奇心定义为智能体在由自监督逆动力学模型学习到的视觉特征空间中,预测自身行为后果的能力误差 |
| 基于潜在贝叶斯惊讶的 curiosity 驱动探索 | LBS | AAAI22 | 在表示智能体当前对系统动态理解的潜在空间中应用贝叶斯惊讶 |
| 深度强化学习中用于探索的自动内在奖励塑造 | AIRS | ICML23 | 根据实时估计的任务回报从预定义集合中选择塑造函数,提供可靠的探索激励并缓解目标偏差问题;开发了一个基于 PyTorch 的工具包,提供多种高质量的内在奖励模块实现 |
| 事后好奇心:随机环境中的内在探索 | 事后好奇心 | ICML23 | 考虑随机环境中的探索;学习能够精确捕捉每个结果不可预测方面的未来表征——我们将其用作预测的额外输入,从而使内在奖励仅反映世界动态中可预测的部分 |
| 最大化以探索:融合估计、规划和探索的单一目标函数 | NeurIPS23 焦点 | ||
| MIMEx:来自掩码输入建模的内在奖励 | MIMEx | NeurIPS23 | 提出可以通过灵活调整掩码分布来控制底层条件预测任务的难度 |
表征学习
注意:基于MBRL的表征学习位于世界模型部分。
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| CURL: 强化学习中的对比无监督表征 | CURL | ICML20 | 使用对比学习从原始像素中提取高层次特征,并在这些特征之上进行离策略控制 |
| 无需重建的强化学习不变表征学习 | DBC | ICLR21 | 提出使用双仿射度量来学习鲁棒的潜在表征,该表征仅编码观测中的任务相关信息 |
| 基于原型表征的强化学习 | Proto-RL | ICML21 | 在没有下游任务信息的环境中预训练与任务无关的表征和原型 |
| 通过行动理解世界 | ---- | CoRL21 | 讨论自监督强化学习与离线强化学习相结合如何实现可扩展的表征学习 |
| 基于流的POMDP递归信念状态学习 | FORBES | ICML22 | 将归一化流融入变分推断中,以学习适用于POMDP的一般连续信念状态 |
| 作为目标条件强化学习的对比学习 | 对比RL | NeurIPS22 | 表明(对比)表征学习方法本身就可以被视为强化学习算法 |
| 自监督学习真的能提升基于像素的强化学习吗? | ---- | NeurIPS22 | 在现有的像素强化学习联合学习框架下,对多种自监督损失函数进行了广泛比较,测试环境涵盖了不同基准中的多个环境,其中包括一个真实环境 |
| 自动化辅助损失搜索的强化学习 | A2LS | NeurIPS22 | 提出自动搜索表现最佳的辅助损失函数,以在强化学习中学习更好的表征;基于收集到的轨迹数据定义了一个大小为7.5 × 10^20的通用辅助损失空间,并采用高效的进化搜索策略对该空间进行探索 |
| 基于掩码的强化学习潜在空间重建 | MLR | NeurIPS22 | 提出一种有效的自监督方法,通过时空掩码后的像素观测来预测潜在空间中的完整状态表征 |
| 通过价值隐式预训练实现通用视觉奖励与表征 | VIP | ICLR23 Spotlight | 将从人类视频中进行表征学习视为一个离线的目标条件强化学习问题;推导出一种不依赖于动作的自监督双重目标条件价值函数目标,从而能够在未标注的人类视频上进行预训练 |
| 强化学习中的潜在变量表征 | ---- | ICLR23 | 为状态-动作价值函数提供了一种基于潜在变量模型的表征视角,该视角既允许可处理的变分学习算法,又能在面对不确定性时有效实施乐观/悲观原则以促进探索 |
| 强化学习中的谱分解表征 | ICLR23 | ||
| 通过观看纯视频,在有限数据下成为熟练玩家 | FICC | ICLR23 | 考虑预训练数据仅为无动作视频的情况;引入两阶段训练流程:预训练阶段——从视频中隐式提取隐藏的动作嵌入,并基于向量量化预训练视觉表征和环境动力学网络;下游任务阶段——基于已学习的模型,用少量任务数据进行微调 |
| 强化学习中的自举表征 | ---- | ICML23 | 对时序差分学习所学到的状态表征进行了理论刻画;发现该表征与蒙特卡洛算法和残差梯度算法在策略评估场景下对于大多数环境转移结构所学到的特征存在差异 |
| 表征驱动的强化学习 | RepRL | ICML23 | 通过将策略空间映射到线性特征空间,将策略搜索问题简化为上下文相关的多臂赌博机问题 |
| 用于强化学习中解耦表征的条件互信息 | CMID | NeurIPS23 spotlight | 为强化学习算法提出一项辅助任务,通过最小化表征中各特征之间的条件互信息来学习具有相关特征的高维观测的解耦表征 |
无监督学习
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 变分内在控制 | ---- | arXiv1611 | 提出一种新的无监督强化学习方法,用于发现智能体可用的内在选项集,该方法通过最大化智能体能够可靠到达的不同状态数量来学习,而这一数量由选项集与选项终止状态之间的互信息衡量 |
| 多样性就是一切:无需奖励函数的学习技能 | DIAYN | ICLR19 | 通过最大化信息论目标,在没有任何奖励的环境中学习多样化的技能 |
| 无监督控制通过非参数判别奖励 | ICLR19 | ||
| 动态感知的无监督技能发现 | DADS | ICLR20 | 提议使用无模型RL学习低级技能,其明确目标是使基于模型的控制更加容易 |
| 基于变分内在后续特征的快速任务推断 | VISR | ICLR20 | |
| 将表征学习与强化学习解耦 | ATC | ICML21 | 提出一种名为增强时间对比(ATC)的新无监督任务,专为强化学习设计,借鉴了对比学习的思想;通过在专家演示上预训练编码器,并将其用于强化学习智能体中,对几种领先的无监督学习算法进行基准测试 |
| 瓶颈选项学习下的无监督技能发现 | IBOL | ICML21 | 提出一种基于信息瓶颈的新型技能发现方法,具有多重优势,包括以更解耦和可解释的方式学习技能,同时对干扰信息具有鲁棒性 |
| APS:基于后续特征的主动预训练 | APS | ICML21 | 通过一种新颖的方式将APT和VISR结合起来,以解决两者的不足 |
| 从虚空中涌现的行为:无监督主动预训练 | APT | NeurIPS21 | 提出在抽象表征空间中计算非参数熵;对于一组样本,计算每个粒子与其最近邻点之间欧氏距离的平均值 |
| 为数据高效的强化学习预训练表征 | SGI | NeurIPS21 | 考虑使用未标记数据进行预训练,并在少量特定任务数据上进行微调,以提高强化学习的数据效率;采用潜在动力学建模与无监督目标条件RL相结合的方法 |
| URLB:无监督强化学习基准 | URLB | NeurIPS21 | 一个用于无监督强化学习的基准 |
| 通过世界模型发现并实现目标 | LEXA | NeurIPS21 | 在世界模型中通过想象的rollout无监督地训练探索者和实现者策略;在无监督阶段结束后,无需任何额外学习,即可零样本地解决以目标图像形式指定的任务 |
| 无监督强化学习的信息几何 | ---- | ICLR22口头报告 | 表明基于互信息最大化的无监督技能发现算法并不能学习到对所有可能奖励函数都最优的技能;为一些技能学习方法提供了几何视角 |
| 利普希茨约束下的无监督技能发现 | LSD | ICLR22 | 认为基于MI的技能发现方法很容易仅通过状态空间中的微小差异就最大化MI目标;提出一种基于利普希茨约束状态表示函数的新目标,使得在潜在空间中最大化该目标时,总是伴随着状态空间中行进距离(或变化)的增加 |
| 通过乐观探索学习更多技能 | DISDAIN | ICLR22 | 推导出一种涉及训练判别器集成并奖励策略使其产生分歧的信息增益辅助目标;该目标直接估计由于判别器未见过足够训练样本而产生的认识论不确定性 |
| 无监督强化学习的惊喜混合 | MOSS | NeurIPS22 | 训练一个以最大化惊喜为目标的组件,另一个以最小化惊喜为目标的组件,以应对环境动态熵未知的情况 |
| 基于对比内在控制的无监督强化学习 | CIC | NeurIPS22 | 提议最大化状态转移与潜在技能向量之间的互信息 |
| 通过循环技能训练进行无监督技能发现 | ReST | NeurIPS22 | 鼓励后训练的技能避免进入先前技能已覆盖的状态 |
| 编舞者:在想象中学习和适应技能 | 编舞者 | ICLR23 Spotlight | 将探索和技能学习过程解耦;利用元控制器高效评估和调整所学技能,通过在想象中并行部署它们来实现 |
| 可证明的离线强化学习无监督数据共享 | ICLR23 | ||
| 通过DOMiNO发现策略:保持近似最优性的多样性优化 | ICLR23 | ||
| 从像素开始掌握无监督强化学习基准 | Dyna-MPC | ICML23口头报告 | 利用无监督基于模型的RL对智能体进行预训练;通过结合混合规划器Dyna-MPC的任务感知微调策略,对下游任务进行微调 |
| 特征去相关性在强化学习无监督表征学习中的重要性 | SimTPR | ICML23 | 提出一种新的URL框架,能够在因果预测未来状态的同时,通过去相关潜在空间中的特征来增加潜在流形的维度 |
| CLUTR:基于无监督任务表征学习的课程学习 | ICML23 | ||
| 考虑可控性的无监督技能发现 | CSD | ICML23 | 基于当前技能库训练一个考虑可控性的距离函数,并将其与最大化距离的技能发现相结合 |
| 行为对比学习用于无监督技能发现 | BeCL | ICML23 | 提出一种通过行为间对比学习来进行无监督技能发现的新方法,使智能体对同一技能产生相似行为,而对不同技能则产生多样化行为 |
| 用于无监督技能发现的变分课程强化学习 | ICML23 | ||
| 通过引导发现技能 | DISCO-DANCE | NeurIPS23 | 选择具有最高潜力到达未探索状态的引导技能,引导其他技能跟随该引导技能;被引导的技能会被分散开来,以最大化其在未探索状态中的可区分性 |
| 在强化学习中创建多层级技能层次结构 | NeurIPS23 | ||
| 通过随机意图先验进行无监督行为提取 | NeurIPS23 | ||
| METRA:基于度量感知抽象的可扩展无监督RL | METRA | ICLR24口头报告 | |
| 语言引导的技能发现 | LGSD | arXiv2406 | 以用户提示作为输入,输出一组语义上独特的技能 |
| PEAC:跨化身强化学习的无监督预训练 | CEURL, PEAC | NeurIPS24 | 考虑在多种化身分布上进行无监督预训练,即CEURL;并提出PEAC来处理CEURL |
| 无监督强化学习的探索性扩散模型 | ExDM | ICLR26口头报告 | 利用扩散模型来增强无监督探索,并对预训练的扩散策略进行微调 |
当前方法
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 用于线性函数逼近的离策略学习加权重要性采样 | WIS-LSTD | NeurIPS14 | |
| 基于估计行为策略的重要性采样策略评估 | RIS | ICML19 | |
| 通过潜在状态解码实现可证明高效的强化学习与丰富观测 | 块MDP | ICML19 | |
| 深度策略梯度中的实现细节:以PPO和TRPO为例 | ---- | ICLR20 | 表明性能提升与代码级优化相关 |
| 增强数据的强化学习 | RAD | NeurIPS20 | 提出首次对强化学习中像素和状态输入的通用数据增强进行全面研究 |
| 图像增强就够了:从像素出发正则化深度强化学习 | DrQ | ICLR21 Spotlight | 在无模型方法中应用数据增强时,提出对价值函数进行正则化,并在图像像素任务上达到最先进水平 |
| 在策略强化学习中什么最重要?一项大规模实证研究 | ---- | ICLR21 | 对MuJoCo上的不同技巧进行大规模实证研究,以评估在策略算法的效果 |
| 镜像下降策略优化 | MDPO | ICLR21 | |
| 无需重建即可学习强化学习的不变表征 | DBC | ICLR21 | |
| 随机集成双Q学习:无需模型也能快速学习 | REDQ | ICLR21 | 考虑三个要素:(i) 每个epoch多次更新Q函数;(ii) 使用Q函数集成;(iii) 从集成中随机子集中取最小值以避免过估计;提出REDQ并达到与基于模型的方法相当的性能 |
| 处于统计临界点边缘的深度强化学习 | ---- | NeurIPS21 杰出论文 | 倡导报告聚合性能的区间估计,并提出性能轮廓来考虑结果的变异性,同时引入更稳健、高效的聚合指标,如四分位数均值,以减小结果的不确定性;[rliable] |
| 适用于深度强化学习的可泛化情景记忆 | GEM | ICML21 | 提出将神经网络的泛化能力和情景记忆的快速检索方式相结合 |
| 强化学习中的最大-最小熵框架 | MME | NeurIPS21 | 发现SAC可能无法探索低熵状态(到达高熵状态并提高其熵);提出最大-最小熵框架来解决这一问题 |
| 最大熵RL(理论上)可解决部分鲁棒RL问题 | ---- | ICLR22 | 理论证明 |
| SO(2)等变强化学习 | Equi DQN, Equi SAC | ICLR22 Spotlight | 考虑学习变换不变的策略和价值函数;定义并分析群等变MDP |
| CoBERL:用于强化学习的对比BERT | CoBERL | ICLR22 Spotlight | 提出用于强化学习的对比BERT(COBERL),结合新的对比损失和混合LSTM-Transformer架构,以应对提高数据效率的挑战 |
| 理解和预防强化学习中的容量损失 | InFeR | ICLR22 Spotlight | 提出深度RL智能体在训练过程中会失去快速拟合新预测任务的能力;提出InFeR,将一组网络输出正则化回初始值 |
| 关于深度强化学习中的彩票假设与最小任务表示 | ---- | ICLR22 Spotlight | 探讨深度强化学习中的彩票假设 |
| 利用离线演示引导的稀疏奖励强化学习 | LOGO | ICLR22 Spotlight | 针对强化学习中的稀疏奖励挑战;提出LOGO,利用次优行为策略生成的离线演示数据;每一步LOGO包括通过TRPO进行策略改进,以及使用次优行为策略进行额外的策略引导 |
| 通过不确定性估计实现样本高效的深度强化学习 | IV-RL | ICLR22 Spotlight | 分析无模型DRL算法监督中的不确定性来源,并表明可以通过负对数似然和方差集成来估计监督噪声的方差 |
| 用于强化学习中时间协调探索的生成式规划 | GPM | ICLR22 Spotlight | 专注于为无模型RL生成一致的动作,借鉴基于模型的规划和重复动作的思想;使用策略生成多步动作 |
| 智能体何时应该探索? | ---- | ICLR22 Spotlight | 探讨何时进行探索,并提出选择异质模式切换的行为策略 |
| 最大化深度强化学习中集成的多样性 | MED-RL | ICLR22 | |
| 最大熵RL(理论上)可解决部分鲁棒RL问题 | ---- | ICLR22 | 理论证明标准的最大熵RL对动力学和奖励函数中的某些扰动具有鲁棒性 |
| 通过行为相似性的自适应元学习器学习强化学习的可泛化表征 | AMBS | ICLR22 | |
| 大批次经验回放 | LaBER | ICML22 口头报告 | 将回放缓冲区采样问题视为一种重要性采样问题,用于估计梯度,并推导出理论最优采样分布 |
| 可微分模拟器是否能提供更好的策略梯度? | ---- | ICML22 口头报告 | 探讨可微分模拟器是否能提供更好的策略梯度;指出一阶估计的一些陷阱,并提出α阶估计 |
| 联邦强化学习:通信高效的算法及收敛性分析 | ICML22 口头报告 | ||
| 通用策略优化的解析更新规则 | ---- | ICML22 口头报告 | 为信赖域方法提供更紧的边界 |
| 基于几何策略组合的广义策略改进 | GSPs | ICML22 口头报告 | 提出几何切换策略(GSP)的概念,即我们有一组策略,轮流使用它们采取行动;对于每个策略,从几何分布中抽取一个数字,执行该策略相应次数;探讨非马尔可夫GSPs上的策略改进 |
| 我为什么要相信你,贝尔曼?贝尔曼误差不能替代价值误差 | ---- | ICML22 | 旨在通过理论分析和实证研究更好地理解贝尔曼误差与价值函数准确性之间的关系;指出贝尔曼误差不能很好地替代价值误差,包括(i) 贝尔曼误差的大小掩盖了偏差,(ii) 缺失的转移打破了贝尔曼方程 |
| 马尔可夫决策过程的自适应模型设计 | ---- | ICML22 | 考虑正则化马尔可夫决策过程,并将其建模为双层问题 |
| 稳定基于像素的离策略深度强化学习 | A-LIX | ICML22 | 提出带有卷积编码器和低幅度奖励的时间差学习会导致不稳定,称为灾难性自我过拟合;建议对编码器的梯度进行自适应正则化,以明确防止灾难性自我过拟合的发生 |
| 基于敏感性分析的理解策略梯度算法 | ---- | ICML22 | 从扰动的角度研究PG |
| 镜像学习:统一的策略优化框架 | 镜像学习 | ICML22 | 提出一种新颖的统一理论框架——镜像学习,为广义策略改进(GPI)和信赖域学习(TRL)提供理论保证;并从图论角度提出了对镜像学习的有趣见解 |
| 基于演示的连续控制动作量化 | AQuaDem | ICML22 | 利用人类演示的先验知识,将连续动作空间简化为一组有意义的离散动作;指出使用一组动作而非单一动作(行为克隆)能够捕捉演示中行为的多模态性 |
| 使用可微分函数近似的离策略拟合Q评估:Z估计与推断理论 | ---- | ICML22 | 使用Z估计理论分析使用一般可微分函数近似的拟合Q评估(FQE),包括基于神经网络的函数近似 |
| 深度强化学习中的首因效应 | 首因效应 | ICML22 | 发现深度RL智能体有过度拟合早期经验的风险,这会对后续学习过程产生负面影响;提出一种简单但普遍适用的机制,通过定期重置智能体的一部分来缓解首因效应 |
| 利用深度强化学习优化序列实验设计 | ICML22 | 使用DRL解决序列实验的最佳设计问题 | |
| 鲁棒价值函数的几何结构 | ICML22 | 研究更一般的鲁棒MDP中鲁棒价值空间的几何结构 | |
| 马尔可夫序列决策中的效用理论 | 仿射奖励MDP | ICML22 | 将冯·诺依曼-摩根斯特恩(VNM)效用定理扩展到决策场景 |
| 通过深度网络集成降低时序差价值估计的方差 | MeanQ | ICML22 | 考虑降低时序差价值估计的方差;提出通过集成来估计目标值的MeanQ |
| 统一策略优化的近似梯度更新 | ICML22 | ||
| 基于神经辐射场的强化学习 | NeRF-RL | NeurIPS22 | 提出训练一个编码器,将多张图像观测映射到描述场景中物体的潜在空间 |
| 关于强化学习与分布匹配在语言模型微调中的应用,且无灾难性遗忘 | ---- | NeurIPS22 | 探索奖励最大化(RM)与分布匹配(DM)之间的理论联系 |
| 用较慢的在线网络加速深度强化学习 | DQN Pro, Rainbow Pro | NeurIPS22 | 鼓励在线网络保持在目标网络附近 |
| 强化学习的重生:复用先前计算以加速进展 | PVRL | NeurIPS22 | 专注于将任何智能体的强化学习成果迁移到其他智能体;将重生的强化学习作为一种替代工作流或一类问题设置,其中先前的计算工作(例如学到的策略)可以在强化学习智能体的设计迭代之间,或从一个智能体转移到另一个智能体 |
| 突破回放比例障碍实现样本高效强化学习 | SR-SAC, SR-SPR | ICLR23 口头报告 | 表明完全或部分重置深度强化学习智能体的参数后,会出现更好的回放比例扩展能力 |
| 利用不完美的在线演示进行受保护策略优化 | TS2C | ICLR23 Spotlight | 结合基于轨迹的价值估计进行教师干预 |
| 迈向人机友好的原型驱动的可解释深度强化学习 | PW-Net | ICLR23 Spotlight | 专注于打造“设计之初就可解释”的深度强化学习智能体,使其在决策时必须使用人机友好的原型,从而清晰展示其推理过程;训练一种名为PW-Net的“包装”模型,可添加到任何预训练智能体上,使其具备可解释性 |
| DEP-RL:用于过度驱动和肌肉骨骼系统的具身式强化学习探索 | DEP-RL | ICLR23 Spotlight | 引入来自自组织行为领域的DEP控制器,以生成比其他常用噪声过程更有效的探索;首次在肌肉刺激层面使用RL控制7自由度的人臂模型 |
| 高效的深度强化学习需要调节统计过拟合 | AVTD | ICLR23 | 提出一种简单的主动模型选择方法(AVTD),通过在验证TD误差上进行爬山搜索,自动选择正则化方案 |
| 贪婪演员-评论家:一种用于策略改进的新条件交叉熵方法 | CCEM, GreedyAC | ICLR23 | 提议根据学习到的动作价值对动作进行排名,然后迭代选取前百分之一的动作;利用CEM的理论验证CCEM能够随着时间的推移集中在各状态下价值最高的动作上 |
| 利用语言模型进行奖励设计 | ---- | ICLR23 | 探讨如何通过大型语言模型(LLM)如GPT-3作为代理奖励函数来简化奖励设计,用户只需提供包含少量示例(少次)或对期望行为的描述(零次)的文本提示 |
| 通过Q学习解决连续控制问题 | DecQN | ICLR23 | 将价值分解与bang-bang动作空间离散化结合应用于DQN,以处理连续控制任务;在DMControl、Meta World和Isaac Gym上进行了评估 |
| 瓦瑟斯坦自编码MDP:以多方保障高效蒸馏RL策略的形式验证 | WAE-MDP | ICLR23 | 将执行原始策略的智能体行为与蒸馏策略行为之间的最优传输惩罚形式最小化 |
| 人类水平Atari游戏速度提升200倍 | MEME | ICLR23 | 在3.9亿帧内超越所有57款Atari游戏的人类基准;四个关键组件:(1) 一种近似信赖域方法,可从在线网络稳定启动,(2) 一套用于损失和优先级的归一化方案,可在学习一系列尺度广泛的价值函数时提高鲁棒性,(3) 改进的架构,采用NFNets的技术,以便在无需归一化层的情况下使用更深的网络,(4) 一种策略蒸馏方法,可随时间平滑瞬时的贪婪策略。 |
| 通过价值函数搜索改进深度策略梯度 | VFS | ICLR23 | 专注于改进价值近似,并分析其对深度PG原语的影响,如价值预测、方差减少和梯度估计与真实梯度的相关性;表明具有良好预测能力的价值函数可以改善深度PG原语,从而提高样本效率和政策回报率 |
| 记忆健身房:基于记忆的智能体面临的部分可观测挑战 | 智能体记忆健身房 | ICLR23 | 一个用于挑战深度强化学习智能体的记忆基准,要求其能够记住长序列中的事件、抵抗噪声干扰并进行泛化;由部分可观测的2D和离散控制环境组成,包括Mortar Mayhem、Mystery Path和Searing Spotlights;[代码] |
| 混合RL:同时使用离线和在线数据可以使RL更高效 | Hy-Q | ICLR23 | 专注于一种名为混合RL的设置,在这种设置下,智能体既拥有离线数据集,又能够与环境互动;扩展拟合Q迭代算法 |
| POPGym:部分可观测强化学习的基准测试 | POPGym | ICLR23 | 一个包含两部分的库:(1) 包含15种部分可观测环境的多样化集合,每种环境都有多种难度级别,(2) 实现了13种记忆模型基线;[代码] |
| 评论家顺序蒙特卡洛 | CriticSMC | ICLR23 | 将顺序蒙特卡洛与学习到的Soft-Q函数启发因子结合起来 |
| 面向规划的自动驾驶 | CVPR23 最佳论文 | ||
| 关于离策略强化学习中的重用偏见 | BIRIS | IJCAI23 | 讨论由于重用回放缓冲区而导致的离策略评估偏见;推导出重用偏见的高概率边界;引入离策略算法稳定性的概念,并给出稳定离策略算法的上限 |
| 深度强化学习中的休眠神经元现象 | ReDo | ICML23 口头报告 | 研究RL智能体在训练过程中表达力下降的根本原因;证明深度RL中存在休眠神经元现象;提出“回收休眠神经元”(ReDo)以减少休眠神经元数量,并在训练过程中维持网络的表达力 |
| 通过解耦环境和智能体表征实现高效RL | SEAR | ICML23 口头报告 | 考虑构建一种能够将机器人智能体与其环境解耦的表征,以提高RL的学习效率;通过以智能体为中心的辅助损失来增强RL损失 |
| 关于时间差学习的统计益处 | ---- | ICML23 口头报告 | 对TD的统计益处进行了清晰阐述 |
| 解决奖励假说 | ---- | ICML23 口头报告 | 从目标是智能体主观愿望和目标是智能体设计师客观愿望两种情境分别探讨奖励假说 |
| 为部分可观测的深度RL学习信念表征 | Believer | ICML23 | 将信念状态建模(通过无监督学习)与策略优化(通过RL)分离;提出一种表征学习方法,以捕捉状态中与奖励相关的紧凑特征集 |
| 内部奖励强化学习 | IRRL | ICML23 | 研究一类强化学习问题,其中用于策略学习的奖励信号是由依赖于策略并与之联合优化的内部奖励模型产生的;从理论和实践上分析IRRL中奖励函数的影响,并基于这些分析提出剪切线性奖励函数 |
| 强化学习中的超参数及其调优方法 | ---- | ICML23 | 探索常用RL算法和环境的超参数景观;比较不同类型HPO方法在最先进的RL算法和具有挑战性的RL环境中表现 |
| 兰金顿普森采样与对数通信:多臂老虎机与强化学习 | ICML23 | ||
| 纠正在策略策略梯度方法中的折扣因子不匹配 | ---- | ICML23 | 引入一种新的分布校正,以考虑折现后的平稳分布 |
| 强化学习若采用多重奖励可更高效 | ---- | ICML23 | 理论分析动作消除算法的多奖励扩展版本,并证明与单奖励版本相比,在多臂老虎机和表格马尔可夫决策过程中,其实例依赖型遗憾边界更为有利 |
| 表演性强化学习 | ---- | ICML23 | 引入表演性强化学习框架,其中学习者选择的策略会影响环境的基础奖励和转移动态 |
| 具有历史依赖动态上下文的强化学习 | DCMDPs | ICML23 | 引入DCMDPs,一种针对历史依赖环境的新型强化学习框架,可处理非马尔可夫环境,其中上下文会随时间变化;为逻辑DCMDPs推导出类似上置信区间风格的算法 |
| 关于多动作策略梯度 | MBMA | ICML23 | 提出MBMA,一种利用动力学模型在随机策略梯度(SPG)背景下进行多动作采样的方法,其偏差低于从模型模拟滚动中估算的SPG,而方差则与之相当 |
| 奖励模型过度优化的缩放规律 | ---- | ICML23 | 研究在大型语言模型微调为奖励模型时的过度优化问题,这些模型被训练用来预测人类会偏好两个选项中的哪一个;研究当使用强化学习或最佳n次抽样方法对抗代理奖励模型进行优化时,黄金奖励模型得分如何变化 |
| 更大、更好、更快:人类水平Atari游戏,同时具备人类水平效率 | BBF | ICML23 | 依靠扩大用于价值估计的神经网络规模以及其他一些设计选择,如重置等 |
| 合成经验回放 | SynthER | NeurIPS23 | 利用扩散技术增强回放缓冲区的数据;在在线RL和离线RL中均进行了评估 |
| OMPO:一种应对策略和动力学变化的统一RL框架 | OMPO | ICML24 口头报告 | 考虑由策略或动力学变化引起的分布差异;提出通过考虑转移占用率差异来设定一个替代策略学习目标,然后通过双重重构将其转化为一个易于处理的最小-最大优化问题 |
基于模型的(在线)强化学习
经典方法
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 基于模型的强化学习中的值感知损失函数 | VAML | AISTATS17 | 提出使用TD误差之差而非KL散度来训练模型 |
| 模型集成信任区域策略优化 | ME-TRPO | ICLR18 | 分析使用深度神经网络的普通MBRL方法的行为;提出ME-TRPO,包含两个思想:(i) 使用模型集成,(ii) 使用似然比导数;与无模型方法相比显著降低样本复杂度 |
| 用于高效无模型强化学习的基于模型的价值扩展 | MVE | ICML18 | 使用动力学模型模拟短期 horizon,并用Q-learning估计超出模拟 horizon 的长期价值;利用训练好的模型和策略估计k步价值函数以更新价值函数 |
| 迭代式值感知模型学习 | IterVAML | NeurIPS18 | 用当前价值函数的估计值替换VAML中的上确界 |
| 基于随机集成价值扩展的高效强化学习 | STEVE | NeurIPS18 | MVE的扩展;仅利用roll-out而不会引入显著误差 |
| 使用概率动力学模型在少量试验中实现深度强化学习 | PETS | NeurIPS18 | 提出PETS,通过自助模型集成来纳入不确定性 |
| 具有理论保证的基于模型深度强化学习算法框架 | SLBO | ICLR19 | 提出一种新的算法框架,用于设计和分析具有理论保证的基于模型RL算法:提供满足某些性质的真实回报下界,使得优化该下界实际上可以优化真实回报 |
| 何时信任你的模型:基于模型的策略优化 | MBPO | NeurIPS19 | 提出具有单调性基于模型改进的MBPO;从理论上讨论如何选择模型rollout的k值 |
| Atari游戏的基于模型强化学习 | SimPLe | ICLR20 | 首次成功使用基于模型的方法处理ALE基准测试,并采用以下设计:(i) 确定性模型;(ii) 设计良好的损失函数;(iii) 调度采样;(iv) 随机模型 |
| 双向基于模型的策略优化 | BMPO | ICML20 | MBPO的扩展;同时考虑前向和逆向动力学模型 |
| 面向基于模型强化学习中泛化的上下文感知动力学模型 | CaDM | ICML20 | 开发了一种能够跨具有不同转移动态的环境分布进行泛化的上下文感知动力学模型(CaDM);引入一种逆向动力学模型,可通过利用上下文潜在向量预测先前状态 |
| 基于模型强化学习的游戏理论框架 | PAL, MAL | ICML20 | 开发了一种新颖的框架,将MBRL视为策略玩家与模型玩家之间的博弈;在两者之间设置斯塔克尔伯格博弈 |
| 通过自监督世界模型规划探索 | Plan2Explore | ICML20 | 提出一种自监督强化学习智能体,以应对快速适应和预期未来新奇性两大挑战 |
| 当模型自信时就相信它:掩码式基于模型的演员-评论家 | M2AC | NeurIPS20 | MBPO的扩展;仅在模型自信时才使用模型rollout |
| LoCA遗憾:评估强化学习中基于模型行为的一致性指标 | LoCA | NeurIPS20 | 提出LoCA来衡量方法在环境从第一个任务切换到第二个任务后调整策略的速度 |
| 用于无限 horizon 预测的生成时序差分学习 | GHM,或gamma模型 | NeurIPS20 | 提出gamma模型,无需反复应用单步模型即可进行长horizon预测 |
| 模型、像素和奖励:视觉基于模型强化学习中设计权衡的评估 | ---- | arXiv2012 | 研究视觉MBRL算法中预测模型的若干设计决策,特别关注那些使用预测模型进行规划的方法 |
| 用有限数据掌握Atari游戏 | EfficientZero | NeurIPS21 | 首次在有限数据条件下实现Atari游戏的超人水平表现;提出EfficientZero,包含三个组成部分:(i) 使用自监督学习来学习时间一致的环境模型,(ii) 以端到端方式学习价值前缀,(iii) 使用学习到的模型来修正离策略价值目标 |
| 关于基于模型强化学习的有效调度 | AutoMBPO | NeurIPS21 | MBPO的扩展;自动调度真实数据比例以及其他MBPO的超参数 |
| 基于模型强化学习中的模型优势与值感知模型:弥合理论与实践之间的鸿沟 | ---- | arxiv22 | 弥合基于模型RL中值感知模型学习(VAML)的理论与实践差距 |
| 基于值梯度加权的强化学习 | VaGraM | ICLR22 Spotlight | 考虑MBRL中的目标不匹配问题;通过用当前价值函数估计的梯度信息对MSE损失函数进行重新缩放,提出VaGraM |
| 通过贝叶斯世界模型进行约束策略优化 | LAMBDA | ICLR22 Spotlight | 考虑CMDP中的贝叶斯基于模型方法 |
| 强化学习中的在线策略模型误差 | OPC | ICLR22 | 考虑将真实世界数据与学习到的模型相结合,以兼得两者的优点;建议利用真实世界数据进行在线策略预测,而仅使用学习到的模型来泛化到不同的动作;提议在单独学习的模型基础上使用在线策略转移数据,以实现MBRL的准确长期预测 |
| 用于模型预测控制的时间差分学习 | TD-MPC | ICML22 | 提出仅使用模型来预测奖励;用策略加速规划过程 |
| 用于任务无关状态抽象的因果动力学学习 | ICML22 | ||
| 不再不匹配:基于模型RL的联合模型-策略优化 | MnM | NeurIPS22 | 提出一种基于模型RL算法,其中模型和策略针对同一目标进行联合优化,该目标是真实环境动态下预期回报的下界,并在特定假设下变得紧致 |
| 非指数贴现下的强化学习 | ---- | NeurIPS22 | 提出一种适用于任意贴现函数的连续时间基于模型强化学习理论;推导出刻画最优策略的汉密尔顿-雅可比-贝尔曼方程,并描述如何使用配点法求解 |
| 简化基于模型RL:用一个目标学习表征、隐空间模型和策略 | ALM | ICLR23 | 提出单一目标,即使用相同的目标联合优化策略、隐空间模型和编码器产生的表征:最大化预测奖励,同时最小化预测表征中的误差 |
| SpeedyZero:用有限的数据和时间掌握Atari | SpeedyZero | ICLR23 | 基于EfficientZero构建的分布式RL系统,结合优先刷新和截断LARS;仅用30万次采样,在35分钟内达到Atari基准测试的人类水平表现 |
| 探讨基于模型学习在探索和迁移中的作用 | ICML23 | ||
| STEERING:基于模型强化学习的斯坦因信息导向探索 | STEERING | ICML23 | |
| 用于无监督基于模型RL的可预测MDP抽象 | PMA | ICML23 | 通过限制不可预测的动作,在抽象简化后的MDP之上应用基于模型RL |
| 基于模型RL中的懒惰之美:统一目标和算法 | ICML23 | ||
| 停止回归:通过分类训练价值函数以实现可扩展的深度RL | HL-Gauss | ICML24口头报告 | 表明使用分类交叉熵训练价值函数可显著提升性能和可扩展性,涵盖多个领域,包括Atari 2600游戏的单任务RL、使用大型ResNet的Atari多任务RL、使用Q-transformer的机器人操作、无需搜索的国际象棋对弈,以及使用高容量Transformer的语言代理Wordle任务,在这些领域均取得了最先进的结果 |
| 在模型自信的地方就信任它:具有不确定性感知rollout自适应的基于模型演员-评论家 | MACURA | ICML24 | 提出一种易于调优的基于模型rollout长度调度机制 |
世界模型
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 世界模型, [NeurIPS版本] | 世界模型 | NeurIPS18 | 使用无监督方式学习环境的压缩时空表征,并利用世界模型训练一个非常紧凑且简单的策略来解决目标任务 |
| 从像素中学习潜在动力学以进行规划 | PlaNet | ICML19 | 提出PlaNet,从图像中学习环境动力学;该动力学模型由转移模型、观测模型、奖励模型和编码器组成;采用交叉熵方法选择动作以进行规划 |
| 从梦想中控制:通过潜在想象学习行为 | Dreamer | ICLR20 | 完全依靠潜在想象从图像中解决长 horizon 任务;在基于图像的MuJoCo环境中测试;提出用智能体替代PlaNet中的控制算法 |
| 为基于模型的深度强化学习架起想象与现实之间的桥梁 | BIRD | NeurIPS20 | 提出最大化想象轨迹与真实轨迹之间的互信息,从而使从想象轨迹中学到的策略改进能够更容易地泛化到真实轨迹上 |
| 通过自监督的世界模型进行探索式规划 | Plan2Explore | ICML20 | 提出Plan2Explore,用于自监督的探索和快速适应新任务 |
| 使用离散世界模型掌握Atari游戏 | Dreamerv2 | ICLR21 | 完全依靠潜在想象从图像中解决长 horizon 任务;在基于图像的Atari游戏中测试 |
| 用于潜在空间中基于模型规划的时序预测编码 | TPC | ICML21 | 提出一种基于时序预测编码的方法,用于从高维观测中进行规划,并从理论上分析其优先编码任务相关信息的能力 |
| 学习任务感知抽象 | TIA | ICML21 | 引入任务感知MDP(TiMDP)的形式化框架,通过训练两个通过协同重建学习视觉特征的模型来实现,但其中一个模型被对抗性地与奖励信号分离 |
| Dreaming:无需重建的基于潜在想象的模型强化学习 | Dreaming | ICRA21 | 提出Dreamer的无解码器扩展版本,因为基于自动编码的方法常常会导致物体消失 |
| 通过衍生记忆进行想象的基于模型的强化学习 | IDM | NeurIPS21 | 希望通过衍生记忆提高基于模型策略优化的想象力多样性;指出当前方法在潜在状态受到随机噪声干扰时无法有效丰富想象力 |
| 最大熵基于模型的强化学习 | MaxEnt Dreamer | NeurIPS21 | 将探索方法与基于模型的强化学习联系起来;将最大熵探索应用于Dreamer |
| 通过世界模型发现并达成目标 | LEXA | NeurIPS21 | 通过世界模型中的想象回放无监督地训练探索者和达成者策略;无监督阶段结束后,无需任何额外学习即可零样本地解决以目标图像指定的任务 |
| TransDreamer:使用Transformer世界模型的强化学习 | TransDreamer | arxiv2202 | 用Transformer替换RSSM中的RNN |
| DreamerPro:无重建的基于原型表示的模型强化学习 | DreamerPro | ICML22 | 考虑无重建的MBRL;提出从世界模型的循环状态中学习原型,从而将过去观测和动作中的时序结构提炼到原型中。 |
| 迈向评估基于模型强化学习方法的适应性 | ---- | ICML22 | 引入LoCA设置的改进版本,并用其评估PlaNet和Dreamerv2 |
| 通过视频进行无动作预训练的强化学习 | APV | ICML22 | 使用来自不同领域的视频预训练一个无动作的潜在视频预测模型,然后在目标领域对预训练模型进行微调 |
| 去噪MDP:学习比世界本身更好的世界模型 | Denoised MDP | ICML22 | 将信息分为四类:可控/不可控(是否受动作影响)以及与奖励相关/无关(是否影响回报);建议仅考虑可控且与奖励相关的信息 |
| DreamingV2:无需重建的离散世界模型强化学习 | Dreamingv2 | arxiv2203 | 同时采用DreamerV2的离散表征和Dreaming的无重建目标 |
| 用于视觉控制的掩码世界模型 | MWM | arxiv2206 | 将视觉表征学习与动力学学习解耦,用于基于视觉模型的强化学习,并使用掩码自编码器训练视觉表征 |
| DayDreamer:用于物理机器人学习的世界模型 | DayDreamer | arxiv2206 | 将Dreamer应用于4个机器人,在真实世界中直接在线学习,无需任何模拟器 |
| Iso-Dream:在世界模型中隔离不可控的视觉动力学 | Iso-Dream | NeurIPS22 | 将独立于动作信号的不可控动力学单独考虑;鼓励世界模型在隔离的状态转移分支上学习可控和不可控的时空变化来源;优化智能体在世界模型解耦的潜在想象上的行为 |
| 通过少量无奖励部署学习通用世界模型 | CASCADE | NeurIPS22 | 引入无奖励部署效率设定,以促进泛化(探索应与任务无关)和可扩展性(探索策略应在不进行昂贵集中再训练的情况下收集大量数据);提出一种受贝叶斯主动学习启发的信息论目标,通过新颖的级联目标专门最大化群体采样的轨迹多样性 |
| 通过变分稀疏门控学习鲁棒动力学 | VSG、SVSG、BBS | NeurIPS22 | 考虑每一步稀疏更新潜在状态;开发了一种新的部分可观测且随机的环境,称为BringBackShapes(BBS) |
| Transformer是样本高效的世界模型 | IRIS | ICLR23口头报告 | 使用离散自编码器和自回归Transformer进行世界模型训练,显著提高了Atari游戏中的数据效率(2小时实时经验);[代码] |
| 基于Transformer的世界模型只需10万次交互即可 | TWM | ICLR23 | 展示了一种基于Transformer-XL的新自回归世界模型;在Atari 10万次基准测试中取得了优异的成绩;[代码] |
| 动态更新-数据比例:最小化世界模型过拟合 | DUTD | ICLR23 | 提出一种新的通用方法,在训练过程中根据对持续收集但未用于训练的小样本子集的欠拟合和过拟合检测,动态调整更新-数据(UTD)比例;并将该方法应用于DreamerV2 |
| 在3D迷宫中评估长期记忆 | Memory Maze | ICLR23 | 引入Memory Maze,这是一个专为评估智能体长期记忆而设计的随机迷宫3D领域,包括在线强化学习基准、多样化的离线数据集以及离线探针评估;[代码] |
| 通过世界模型掌握多样化领域 | DreamerV3 | arxiv2301 | 提出DreamerV3,用于处理广泛的领域,包括连续和离散动作、视觉和低维输入、2D和3D世界、不同的数据预算、奖励频率和奖励规模 |
| 面向强化学习中任务泛化的任务感知Dreamer | TAD | arXiv2303 | 提出任务分布相关性,以定量捕捉任务分布的相关性;建议使用世界模型通过将奖励信号编码到策略中来提升任务泛化能力 |
| 用于多模态轨迹优化的重参数化策略学习 | RPG | ICML23口头报告 | 提出一种原则性的框架,将连续RL策略建模为最优轨迹的生成模型;介绍RPG,利用多模态策略参数化和已学习的世界模型,实现强大的探索能力和高数据效率 |
| 从像素中掌握无监督强化学习基准 | Dyna-MPC | ICML23口头报告 | 利用无监督的基于模型的强化学习对智能体进行预训练;通过结合混合规划器Dyna-MPC的任务感知微调策略对下游任务进行微调 |
| 用于深度强化学习的后验采样 | PSDRL | ICML23 | 将对潜在状态空间模型的有效不确定性量化与基于价值函数近似的定制连续规划算法相结合 |
| 具有可扩展复合策略梯度估计器的基于模型的强化学习 | TPX | ICML23 | 提出Total Propagation X,这是首个采用逆方差加权的复合梯度估计算法,已被证明可在大规模应用;将TPX与Dreamer结合使用 |
| 超越想象:利用世界模型最大化情节可达性 | GoBI | ICML23 | 将传统的终身新颖性动机与旨在最大化逐步可达性扩展的情节内在奖励相结合;利用已学习的世界模型生成随机行动下的预测未来状态 |
| 简化的时序一致性强化学习 | TCRL | ICML23 | 提出一种简单的表征学习方法,仅依赖于通过潜在时序一致性训练的潜在动力学模型,即可实现高性能的强化学习 |
| 具身智能体是否会梦见像素化的羊:使用语言引导的世界建模进行具身决策 | DECKARD | ICML23 | 通过少量提示调用LLM,假设存在一个关于子目标的抽象世界模型(AWM) |
| 无需演示的自主强化学习:通过隐式和双向课程 | ICML23 | ||
| 用于基于模型适应的奇趣回放 | CR | ICML23 | 通过优先回放智能体最不了解的经验来帮助基于模型的RL智能体适应 |
| 用于视觉机器人操作的多视角掩码世界模型 | MV-MWM | ICML23 | 训练一个多视角掩码自编码器,该自编码器可以重建随机遮挡视角的像素,然后基于自编码器的表征学习世界模型 |
| 世界模型骨干对决:RNN、Transformer和S4 | S4WM | NeurIPS23 | 提出首个基于S4的世界模型,可通过潜在想象生成高维图像序列 |
代码库
| 标题 | 会议 | 方法 | GitHub |
|---|---|---|---|
| MBRL-Lib: 基于模型的强化学习模块化库 | arxiv21 | MBPO, PETS, PlaNet | 链接 |
(无模型)离线强化学习
当前方法
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 无需探索的离线深度强化学习 | BCQ | ICML19 | 表明离线方法因外推误差表现不佳;提出批处理约束强化学习:在最大化回报的同时,最小化策略的状态-动作访问分布与批次中包含的状态-动作对之间的不匹配 |
| 用于离线强化学习的保守Q学习 | CQL | NeurIPS20 | 提出使用保守Q函数的CQL,该Q函数是其真实值的下界,因为标准的离线方法会高估价值函数 |
| 离线强化学习:教程、综述及开放问题展望 | ---- | arxiv20 | 关于离线RL的方法、应用和开放问题的教程 |
| 基于不确定性的离线强化学习与多样化Q集合 | NeurIPS21 | ||
| 离线强化学习的极简主义方法 | TD3+BC | NeurIPS21 | 提出添加行为克隆项以正则化策略,并对数据集中的状态进行归一化 |
| DR3:基于价值的深度强化学习需要显式正则化 | DR3 | ICLR22 Spotlight | 考虑SGD在RL中的隐式正则化作用;基于理论分析,提出一种称为DR3的显式正则化器,并将其与离线RL方法结合 |
| 用于不确定性驱动的离线强化学习的悲观自举法 | PBRL | ICLR22 Spotlight | 考虑离线RL中的分布偏移和外推误差;提出带有自举的PBRL,用于不确定性量化,并采用OOD采样方法作为正则化手段 |
| COptiDICE:通过稳态分布修正估计进行离线约束强化学习 | COptiDICE | ICLR22 Spotlight | 考虑离线约束强化学习;提出COptiDICE直接优化受约束的状态-动作分布 |
| 基于价值的 episodic memory 的离线强化学习 | EVL, VEM | ICLR22 | 提出一种新的离线V-learning方法,通过模仿学习与最优价值学习之间的权衡来学习价值函数;使用基于记忆的规划方案来增强优势估计,并以回归方式执行策略学习 |
| 基于隐式Q学习的离线强化学习 | IQL | ICLR22 | 提出仅通过样本内学习来学习最优策略,而无需查询任何未见动作的价值 |
| 离线RL策略应被训练为具有适应性 | APE-V | ICML22口头报告 | 表明从离线数据集中学习并不能完全指定环境;利用贝叶斯形式化正式证明了离线RL中适应性的必要性,并提供了一种学习最优适应性策略的实用算法;提出一种基于集成的离线RL算法,使策略具备在单个episode内适应的能力 |
| 当数据几何遇上深度函数:泛化离线强化学习 | DOGE | ICLR23 | 训练一个状态条件下的距离函数,可直接插入到标准的actor-critic方法中作为策略约束 |
| 跳跃式启动强化学习 | JSRL | ICML23 | 考虑使用两种策略解决问题的设置:引导策略和探索策略;通过逐步“滚动”引入引导策略来启动RL算法 |
与扩散模型结合
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 用于灵活行为合成的扩散规划 | Diffuser | ICML22口头报告 | 首次提出专为轨迹数据设计的去噪扩散模型以及相关的概率框架用于行为合成;证明Diffuser具有一系列有用特性,尤其适用于需要长 horizon 推理和测试时灵活性的离线控制场景 |
| 条件生成建模是否足以支持决策? | ICLR23口头报告 | ||
| 扩散QL作为离线强化学习中富有表现力的策略类别 | Diffusion-QL | ICLR23 | 使用扩散(或基于分数)模型进行策略正则化;利用条件扩散模型来表示策略 |
| 通过高保真生成式行为建模进行离线强化学习 | SfBC | ICLR23 | 将学习到的策略解耦为两部分:一个富有表现力的生成式行为模型和一个动作评估模型 |
| AdaptDiffuser:扩散模型作为自进化规划者 | AdaptDiffuser | ICML23口头报告 | 提出AdaptDiffuser,一种基于扩散的进化规划方法,能够自我进化以改进扩散模型,从而成为更好的规划者,同时也能适应未见过的任务 |
| 用于离线到在线强化学习的能量引导扩散采样 | EDIS | ICML24 | 利用扩散模型从离线数据集中提取先验知识,并借助能量函数提炼这些知识,以在在线阶段实现更高质量的数据生成;制定三种不同的能量函数来指导扩散采样过程,以实现分布对齐 |
| DIDI:扩散引导的离线行为多样性 | DIDI | ICML24 | 提出从混合的无标签离线数据中学习多样化的技能 |
基于模型的离线强化学习
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 基于模型的离线优化实现部署高效的强化学习 | BREMEN | ICLR20 | 提出部署效率的概念,用于统计学习过程中数据收集策略的变化次数(离线:1次,在线:无限制);提出使用动力学模型集成的BERMEN算法,用于离线和异策略强化学习 |
| MOPO:基于模型的离线策略优化 | MOPO | NeurIPS20 | 观察到现有的基于模型的强化学习算法在性能上优于无模型强化学习算法;通过在不确定性惩罚的MDP上扩展MBPO来设计MOPO(新奖励 = 奖励 - 不确定性) |
| MOReL:基于模型的离线强化学习 | MOReL | NeurIPS20 | 提出用于基于模型的离线强化学习的MOReL方法,包括两个步骤:(a) 学习一个悲观MDP,(b) 在这个P-MDP中学习近似最优策略 |
| 基于模型的离线规划 | MBOP | ICLR21 | 学习用于规划的模型 |
| 基于表示平衡的离线基于模型的强化学习 | RepB-SDE | ICLR21 | 专注于在分布偏移条件下学习环境的鲁棒表示,并扩展RepBM以应对“horizon curse”问题;提出RepB-SDE框架,用于异策略评估和离线强化学习 |
| 用于有效离线基于模型优化的保守目标模型 | COMs | ICML21 | 考虑离线基于模型的优化问题(MBO,仅利用少量样本优化未知函数);在目标函数中加入正则项(类似于对抗训练方法),以学习保守的目标模型 |
| COMBO:保守的离线基于模型策略优化 | COMBO | NeurIPS21 | 尝试在不考虑不确定性量化的情况下优化性能下界;将CQL与基于模型的方法相结合 |
| 用于离线基于模型强化学习的加权模型估计 | ---- | NeurIPS21 | 通过为不同数据点重新加权模型损失来解决协变量偏移问题 |
| 重新审视基于模型的离线强化学习中的设计选择 | ---- | ICLR22 Spotlight | 对一系列基于模型的离线强化学习的设计选择进行了严谨的调查研究 |
| 利用扩散过程进行灵活的行为合成规划 | Diffuser | ICML22 口头报告 | 首先为轨迹数据设计了一个去噪扩散模型,并构建了相应的行为合成概率框架 |
| 无需在线实验即可学习时间抽象的世界模型 | OPOSM | ICML23 | 提出一种仅从离线数据中同时学习技能集合和时间抽象、受技能条件约束的世界模型的方法,使智能体能够针对新任务进行零样本在线技能序列规划 |
元强化学习
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| RL2:通过慢速强化学习实现快速强化学习 | RL2 | arxiv16 | 将智能体自身的学习过程视为目标;将智能体构建为循环神经网络,以存储过去的奖励、动作、观测和终止标志,从而在部署时适应当前任务 |
| 用于深度网络快速适应的模型无关元学习 | MAML | ICML17 | 提出一个适用于分类、回归和强化学习等不同学习问题的通用框架;核心思想是优化参数,使其能够快速适应新任务(只需几步梯度下降) |
| 基于潜在变量高斯过程的元强化学习 | ---- | arxiv18 | |
| 通过元强化学习在动态的真实环境中学习适应 | ReBAL, GrBAL | ICLR18 | 在基于模型的强化学习框架下考虑在线适应性学习 |
| 基于扩展PAC-Bayes理论调整先验的元学习 | ---- | ICML18 | 将各种PAC-Bayes界推广到元学习领域 |
| 结构化探索策略的元强化学习 | NeurIPS18 | ||
| 用于序列决策的元学习代理模型 | arxiv19 | ||
| 基于概率上下文变量的高效离策略元强化学习 | PEARL | ICML19 | 使用概率潜在上下文编码过去任务的经验,并利用推理网络估计后验分布 |
| 通过元学习实现快速上下文适应 | CAVIA | ICML19 | 提出CAVIA作为MAML的扩展,它更不易发生元过拟合,更容易并行化且更具可解释性;将模型参数分为两部分:上下文参数和共享参数,在测试阶段仅更新前者 |
| 驯服MAML:高效无偏的元强化学习 | ICML19 | ||
| Meta-World:多任务与元强化学习的基准与评估 | Meta World | CoRL19 | 一个用于元强化学习以及多任务强化学习的环境 |
| 引导式元策略搜索 | GMPS | NeurIPS19 | 通过监督模仿学习来提高元训练过程中的样本效率; |
| 元Q学习 | MQL | ICLR20 | 一种用于元强化学习的离策略算法,其基于三个简单想法:(i) 使用过去轨迹表示的上下文变量进行Q学习的表现已可与SOTA相媲美;(ii) 多任务目标对元强化学习很有用;(iii) 元训练回放缓存中的历史数据可以被重复利用 |
| Varibad:一种通过元学习实现贝叶斯自适应深度强化学习的优秀方法 | variBAD | ICLR20 | 使用一个学习到的低维随机潜在变量m来表示单个MDP M;联合元训练一个变分自编码器,该编码器能够在新任务中推断出关于m的后验分布,以及一个条件于这种关于MDP嵌入的后验信念的策略 |
| 关于模型无关元学习全局最优性的研究,ICML版本 | ---- | ICML20 | 对MAML在强化学习和监督学习中所达到的驻点的最优性差距进行刻画 |
| 通过模型识别和经验重标记实现对分布漂移鲁棒的元强化学习 | MIER | arxiv20 | |
| FOCAL:基于距离度量学习和行为正则化的高效全离策略元强化学习 | FOCAL | ICLR21 | 首先探讨离策略元强化学习问题;在PEARL的基础上提出FOCAL |
| 带有优势加权的离策略元强化学习 | MACAW | ICML21 | 引入离策略元强化学习这一问题设定;提出一种基于优化的元学习算法MACAW,该算法在元训练的内层和外层循环中均使用简单的监督回归目标 |
| 通过潜在动力学混合的虚拟任务提升元强化学习的泛化能力 | LDM | NeurIPS21 | 目的是训练一个在训练过程中就能为未见测试任务做好准备的智能体,建议在原始训练任务之外,还训练混合任务,以防止智能体过拟合训练任务 |
| 通过离策略评估统一元强化学习的梯度估计器 | ---- | NeurIPS21 | 基于离策略评估的概念,提出一个统一框架,用于估计基于梯度的元强化学习中价值函数的高阶导数 |
| 模型无关元学习算法的泛化:重复与未见任务 | ---- | NeurIPS21 | |
| 离策略元探索学习,离策略元强化学习——可识别性挑战与有效数据收集策略 | BOReL | NeurIPS21 | |
| 关于去偏模型无关元强化学习收敛理论的研究 | SG-MRL | NeurIPS21 | |
| 事后任务重标记:稀疏奖励元强化学习中的经验回放 | ---- | NeurIPS21 | |
| 基于PAC-Bayes和一致稳定性的元学习泛化界 | ---- | NeurIPS21 | 结合PAC-Bayes技术和一致稳定性,为元学习提供泛化界 |
| 自举式元学习 | BMG | ICLR22 口头报告 | 提出BMG,旨在让元学习者自我指导,以应对元学习中的病态问题和短视的元目标;BMG引入元自举机制,以缓解短视问题,并将元目标表述为最小化与控制曲率的距离 |
| 基于模型的正则化离策略元强化学习 | MerPO, RAC | ICLR22 | 实证指出,在数据质量较好的任务上,离策略元强化学习的表现可能不如离策略单任务强化学习方法;探讨如何学习一个信息丰富的离策略元策略,以在“探索”元策略所引导的分布外状态-动作对与“利用”离策略数据集、贴近行为策略之间取得最佳平衡;提出MerPO,该方法学习一个高效的任务结构推理模型,以及一个安全探索分布外状态-动作对的信息丰富的元策略 |
| 基于技能的元强化学习 | SiMPL | ICLR22 | 提出一种方法,同时利用(i)一个包含大量跨任务、无奖励或任务标注的历史经验的大型离策略数据集,以及(ii)一组元训练任务,以学习如何快速解决未见的长 horizon 任务。 |
| 元强化学习中的事后-事前重标记 | HFR | ICLR22 | 专注于通过数据共享提高元训练阶段的样本效率;将重标记技术与元强化学习算法相结合,以同时提升样本效率和渐近性能 |
| CoMPS:持续元策略搜索 | CoMPS | ICLR22 | 首先提出了持续元强化学习的设置,即智能体一次只与一个任务交互,完成任务后便不再与其互动 |
| 在强化学习中学习用于在线适应的策略子空间 | ---- | ICLR22 | 考虑仅有一个训练环境的情况;提出一种方法,即在参数空间中学习一个策略子空间 |
| 一种适用于非平稳环境、具有分段稳定上下文的自适应深度强化学习方法 | SeCBAD | NeurIPS22 | 引入具有分段稳定上下文的潜在情境MDP;联合推断潜在上下文的信念分布与各片段长度的后验分布,并利用当前上下文片段内的观测数据进行更精确的上下文信念推断 |
| 使用图结构代理模型和摊销策略搜索的基于模型的元强化学习 | GSSM | ICML22 | 考虑基于模型的元强化学习,包括动力学模型学习和策略优化;开发了一种具有更强跨任务泛化能力的图结构动力学模型 |
| 用于序列决策的元学习假设空间 | Meta-KeL | ICML22 | 认为Transformer的两项关键能力——处理长期依赖关系以及通过自注意力机制呈现上下文相关的权重——构成了元强化学习者的核心角色;提出Meta-LeL,用于元学习序列决策任务的假设空间 |
| Transformer是元强化学习者 | TrMRL | ICML22 | 提出TrMRL,一种基于记忆的元强化学习者,利用Transformer架构来构建学习过程; |
| ContraBAR:对比式贝叶斯自适应深度强化学习 | ContraBAR | ICML23 | 探究对比式方法,如对比预测编码,是否可用于学习贝叶斯最优行为 |
对抗性强化学习
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 神经网络策略的对抗攻击 | ---- | ICLR 2017研讨会 | 首次表明,现有的结合深度神经网络的强化学习策略在白盒和黑盒设置下都容易受到对抗噪声的影响 |
| 深入研究深度策略的对抗攻击 | ---- | ICLR 2017研讨会 | 表明强化学习算法易受对抗噪声影响;同时指出对抗训练可以提高鲁棒性 |
| 鲁棒的对抗强化学习 | RARL | ICML17 | 将鲁棒策略学习形式化为一个零和、极小极大目标函数 |
| 针对深度强化学习的隐蔽且高效的对抗攻击 | 临界点攻击、对抗者攻击 | AAAI20 | 临界点攻击:构建模型预测未来的环境状态和智能体动作以进行攻击;对抗者攻击:自动学习一个领域无关的攻击模型 |
| 约束马尔可夫决策过程中的安全强化学习 | SNO-MDP | ICML20 | 探索并优化在未知安全约束下的马尔可夫决策过程 |
| 针对状态观测中对抗扰动的鲁棒深度强化学习 | SA-MDP | NeurIPS20 | 将状态观测上的对抗攻击形式化为SA-MDP;提出几种新颖的攻击方法:鲁棒SARSA和最大动作差异;并提出防御框架及若干实用方法:SA-DQN、SA-PPO和SA-DDPG |
| 基于学习到的最优对手的状态观测鲁棒强化学习 | ATLA | ICLR21 | 使用强化学习算法训练“最优”对手;交替训练“最优”对手和鲁棒智能体 |
| 通过对抗损失实现鲁棒深度强化学习 | RADIAL-RL | NeurIPS21 | 提出一种鲁棒强化学习框架,该框架会惩罚不同动作输出边界之间的重叠;同时提出一种更高效的评估方法(GWC)来衡量攻击不可知的鲁棒性 |
| 用于可证明鲁棒强化学习的策略平滑 | 策略平滑 | ICLR22 | 将随机平滑引入强化学习;提出自适应的奈曼-皮尔逊引理 |
| CROP:通过功能平滑认证强化学习的鲁棒策略 | CROP | ICLR22 | 提出一个用于认证强化学习鲁棒策略的框架(CROP),以应对对抗性的状态扰动,并设定两个认证标准:单步动作的鲁棒性和累积奖励的下界;从理论上证明了认证半径;并通过实验为Atari游戏中的六种经验上鲁棒的强化学习算法提供了认证 |
| 理解深度强化学习中观测的对抗攻击 | ---- | SCIS 2023 | 总结当前基于优化的强化学习对抗攻击;提出两阶段方法:训练一个欺骗性策略,并诱使受害者模仿该策略 |
| 一致性攻击:具身视觉导航中的通用对抗扰动 | 奖励UAP、轨迹UAP | PRL 2023 | 将通用对抗扰动扩展到序列决策中,并利用动态特性提出了奖励UAP和轨迹UAP;并在具身视觉导航任务中进行了实验 |
强化学习中的泛化
环境
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 量化强化学习中的泛化 | CoinRun | ICML19 | 引入名为CoinRun的新环境用于强化学习中的泛化;实证表明L2正则化、丢弃法、数据增强和批归一化都能提升强化学习的泛化能力 |
| 利用程序化生成技术基准测试强化学习 | Procgen基准 | ICML20 | 引入Procgen基准,这是一套由16个程序化生成的游戏类环境组成的集合,旨在同时评估强化学习的样本效率和泛化能力 |
方法
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 面向连续控制中的泛化与简洁性 | ---- | NeurIPS17 | 采用简单线性和RBF参数化的策略可以被训练来解决多种广泛研究的连续控制任务;通过在多样化的初始状态分布上进行训练,能够得到更具全局性的策略,并实现更好的泛化能力 |
| 通用规划网络 | UPN | ICML18 | 研究一种基于模型的架构,在与前向动力学联合学习的潜在空间中执行可微分的规划计算,并以端到端的方式进行训练,从而通过基于梯度的规划来编码解决问题所需的信息 |
| 再参数化强化学习中的泛化差距问题 | ---- | ICML19 | 从理论上为再参数化强化学习中内生和外生误差的期望回报与经验回报之间的差距提供保证 |
| 连续深度强化学习中的泛化研究 | ---- | arxiv19 | 研究连续控制领域深度强化学习的泛化问题 |
| 选择性噪声注入与信息瓶颈在强化学习泛化中的应用 | SNI | NeurIPS19 | 考虑利用向学习函数中注入噪声来提升泛化性能的正则化技术;旨在保持注入噪声的正则化效果,同时减轻其对梯度质量的负面影响 |
| 网络随机化:深度强化学习中一种简单的泛化技术 | 网络随机化 | ICLR20 | 提出一种随机化的(卷积)神经网络,该网络会随机扰动输入观测,从而使训练好的智能体能够通过学习在不同且随机化的环境中保持不变的鲁棒特征来适应新领域 |
| 强化学习中的观测过拟合 | 观测过拟合 | ICLR20 | 讨论观测过拟合可能发生的实际场景及其与其他混淆因素的区别,并设计一个参数化的理论框架来诱导观测过拟合,该框架可应用于任何底层的MDP |
| 基于上下文的动力学模型用于基于模型的强化学习中的泛化 | CaDM | ICML20 | 将学习全局动力学模型的任务分解为两个阶段:(a) 学习捕捉局部动力学的上下文隐向量,然后 (b) 在其条件下来预测下一个状态 |
| 混合正则化提升强化学习泛化能力 | mixreg | NeurIPS20 | 在来自不同训练环境的混合观测数据上训练智能体,并对观测插值及监督信号(如相关奖励)插值施加线性约束 |
| 基于实例的强化学习泛化 | IPAE | NeurIPS20 | 将训练关卡的形式化为实例,并证明这种基于实例的观点与标准的部分可观测马尔可夫决策过程表述完全一致;基于训练实例的数量给出训练环境与测试环境之间价值差距的泛化界,并利用这些见解来提升智能体在未见关卡上的表现 |
| 对比行为相似性嵌入用于强化学习中的泛化 | PSM | ICLR21 | 将强化学习中固有的序列结构融入表示学习过程中,以提升泛化能力;提出一种理论驱动的策略相似性度量(PSM),用于衡量状态间的行为相似性 |
| 软数据增强提升强化学习泛化能力 | SODA | ICRA21 | 对编码器施加软约束,旨在最大化增强数据与非增强数据潜在表示之间的互信息 |
| 增强世界模型助力从单一离线环境中实现零样本动力学泛化 | AugWM | ICML21 | 考虑“从单一离线环境中进行动力学泛化”的设定,并重点关注对未见动力学的零样本性能;提出针对基于模型的离线强化学习的动力学增强方法;并设计了一种简单的自监督、无需奖励的上下文适应算法 |
| 解耦价值与策略以提升强化学习泛化能力 | IDAAC | ICML21 | 将策略和价值函数的优化解耦,分别使用独立的网络对其进行建模;引入辅助损失项,鼓励表示对环境的无关属性保持不变 |
| 为什么强化学习中的泛化如此困难:认识论POMDP与隐式部分可观测性 | LEEP | NeurIPS21 | 强化学习中的泛化会引发隐式的部分可观测性;提出LEEP方法,利用策略集合近似学习贝叶斯最优策略,以最大化测试时的性能 |
| 强化学习中的自动数据增强 | DrAC | NeurIPS21 | 专注于基于两种新型正则化项的策略和价值函数的自动数据增强 |
| 何时可实现可泛化的强化学习? | ---- | NeurIPS21 | 提出弱邻近性和强邻近性,用于从理论上分析强化学习的泛化能力 |
| 深度强化学习中泛化问题综述 | ---- | arxiv21 | 提供统一的理论框架和术语体系,用于讨论不同的泛化问题 |
| 跨轨迹表示学习用于强化学习中的零样本泛化 | CTRL | ICLR22 | 考虑零样本泛化(ZSG);利用自监督学习跨任务学习表示 |
| 预训练表示在RL智能体OOD泛化中的作用 | ---- | ICLR22 | 训练了240个表示和11,520个下游策略,并系统地考察它们在各种分布偏移下的表现;发现一个特定的表示指标,该指标衡量简单下游代理任务的泛化能力,能够可靠地预测下游RL智能体在所考虑的广泛OOD设置下的泛化能力 |
| 通过逻辑组合实现终身强化学习中的泛化 | ---- | ICLR22 | 利用强化学习中的逻辑组合创建一个框架,使智能体能够自主判断新任务是否可直接利用现有能力解决,或者是否需要学习特定技能 |
| 局部特征交换用于强化学习中的泛化 | CLOP | ICLR22 | 提出一种新的正则化技术,即在特征图中进行通道一致的局部置换 |
| 通才智能体 | Gato | arxiv2205 | 幻灯片 |
| 通过约束条件风险价值实现安全强化学习 | CPPO | IJCAI22 | 发现修改观测与改变动力学之间存在联系,尽管两者在结构上截然不同 |
| CtrlFormer:通过Transformer学习用于视觉控制的可迁移状态表示 | CtrlFormer | ICML22 | 在不同控制任务之间联合学习视觉token与策略token之间的自注意力机制,从而能够在不发生灾难性遗忘的情况下学习和迁移多任务表示 |
| 强化学习中的动力学学习与泛化 | ---- | ICML22 | 从理论上表明,时序差分学习会在训练早期促使智能体拟合价值函数中的非平滑成分,同时还会产生抑制泛化的二阶效应 |
| 通过通才-专才学习改进策略优化 | GSL | ICML22 | 希望利用专家的经验来帮助通才的策略优化;提出了多任务学习中的“灾难性无知”现象 |
| DRIBO:基于多视角信息瓶颈的鲁棒深度强化学习 | DRIBO | ICML22 | 在无监督的多视角设置下,从观测中学习仅包含任务相关信息的鲁棒表示;为时序数据引入了一种新颖的多视角信息瓶颈(MIB)目标的对比版本 |
| 利用变分因果推理泛化目标条件强化学习 | GRADER | NeurIPS22 | 使用因果图作为隐变量重新表述GCRL问题,进而从解决该问题中推导出迭代式训练框架 |
| 重新思考强化学习中的价值函数学习以促进泛化 | DCPG、DDCPG | NeurIPS22 | 考虑在多个训练环境中训练智能体以提升观测泛化性能;指出在多环境设置下,价值网络的优化难度更大;提出通过惩罚价值网络的大规模估计来防止过拟合的正则化方法 |
| 掩码自编码用于可扩展且可泛化的决策 | MaskDP | NeurIPS22 | 将掩码自编码器(MAE)应用于强化学习(RL)和行为克隆(BC)的状态-动作轨迹,从而获得零样本迁移到新任务的能力 |
| 预训练图像编码器用于可泛化的视觉强化学习 | PIE-G | NeurIPS22 | 发现ImageNet预训练ResNet模型的早期层可以为视觉强化学习提供相当具有泛化能力的表示 |
| 关注你所关注的地方!基于显著性引导的Q网络用于视觉强化学习任务 | SGQN | NeurIPS22 | 提出优秀的视觉策略应能识别对其决策至关重要的像素;并在不同图像之间保持对重要信息来源的识别 |
| 开放任务空间中的人类时间尺度适应 | AdA | arXiv 2301 | 表明大规模训练RL智能体可以得到一种情境感知的学习算法,该算法能够像人类一样快速适应开放式的新颖具身3D问题 |
| 通过算法蒸馏实现情境感知强化学习 | AD | ICLR23口头报告 | 提出算法蒸馏方法,通过使用因果序列模型模拟训练历史,将强化学习(RL)算法蒸馏进神经网络 |
| 隐藏参数MDP中模型与策略迁移的性能边界 | ---- | ICLR23 | 表明在预训练数据量固定的情况下,经过更多变化训练的智能体能够更好地泛化;同时指出提高价值和策略网络的容量对于取得良好性能至关重要 |
| 强化学习中多任务预训练与泛化的研究 | ---- | ICLR23 | 发现,在预训练数据量固定的情况下,经过更多变化训练的智能体能够更好地泛化;即使在进行了2亿环境帧的微调之后,这种优势仍然比零样本迁移时更为明显 |
| 基于原型的跨域随机预训练用于强化学习 | CRPTpro | arXiv2302 | 利用一种新颖的内在损失进行原型表示学习,从而在不同领域之间预训练出高效且通用的编码器 |
| 任务感知梦想家用于强化学习中的任务泛化 | TAD | arXiv2303 | 提出任务分布相关性,以定量方式捕捉任务分布的相关性;并建议使用世界模型通过将奖励信号编码进策略来提升任务泛化能力 |
| 基于模型的强化学习泛化的优势 | ---- | ICML23 | 提供理论和实证见解,说明我们何时以及如何能够预期由学习模型生成的数据是有用的 |
| 多环境预训练支持迁移到行动受限的数据集 | ALPT | ICML23 | 给定n个具有完整动作标签数据集的源环境,考虑在目标环境中进行离线强化学习,该环境中仅有少量带动作标签的数据,而大部分数据则没有动作标签;利用逆动力学模型学习一种能够很好地泛化到目标环境中有限动作数据的表示 |
| 面向可变动作空间的情境感知强化学习 | 无头AD | ICML24 | 将算法蒸馏扩展到具有可变离散动作空间的环境中 |
基于Transformer的强化学习
| 标题 | 方法 | 会议 | 描述 |
|---|---|---|---|
| 用于强化学习的稳定化Transformer | GTrXL | ICML20 | 通过重新排列层归一化,并在Transformer子模块的关键位置添加新的门控机制,来稳定训练过程 |
| 决策Transformer:基于序列建模的强化学习 | DT | NeurIPS21 | 将强化学习视为一个序列生成任务,使用Transformer生成(未来回报、状态、动作、未来回报,...);没有显式的优化过程;在离线强化学习上进行评估 |
| 将离线强化学习视为一个大型序列建模问题 | TT | NeurIPS21 | 将强化学习视为一个序列生成任务,使用Transformer生成(s_0^0, ..., s_0^N, a_0^0, ..., a_0^M, r_0, ...);采用束搜索进行推理;在模仿学习、目标条件强化学习和离线强化学习上进行评估 |
| 维基百科能否帮助离线强化学习? | ChibiT | arxiv2201 | 表明与决策Transformer相比,在自然语言自回归建模上进行预训练,无论是在流行的OpenAI Gym还是Atari环境中,都能带来持续的性能提升 |
| 在线决策Transformer | ODT | ICML22口头报告 | 将离线预训练与在线微调融合在一个统一框架中;结合序列级别的熵正则化项和自回归建模目标,实现高效采样探索与微调 |
| 针对少量样本策略泛化的提示式决策Transformer | ICML22 | ||
| 多游戏决策Transformer | ---- | NeurIPS22 | 表明仅通过离线训练的一个基于Transformer的模型,就能以接近人类水平的表现同时玩多达46款Atari游戏 |
| 利用在线强化学习将大型语言模型嵌入交互式环境 | GLAM | ICML23 | 考虑让一个使用LLM作为策略的智能体,在与环境交互的过程中逐步更新其策略,借助在线强化学习不断提升其解决问题的能力 |
教程与课程
| 教程与课程 |
|---|
| 强化学习:导论,理查德·S·萨顿和安德鲁·G·巴托 |
| 戴维·西尔弗的强化学习入门 |
| 深度强化学习,CS285 |
| 深度强化学习与控制,CMU 10703 |
| RLChina |
ICLR22
| 论文 | 类型 |
|---|---|
| 自举元学习 | 口头报告 |
| 无监督强化学习的信息几何 | 口头报告 |
| SO(2)等变强化学习 | 焦点论文 |
| CoBERL:用于强化学习的对比BERT | 焦点论文 |
| 理解和防止强化学习中的容量损失 | 焦点论文 |
| 深度强化学习中的彩票假设与最小任务表示 | 焦点论文 |
| 利用离线示范指导进行稀疏奖励强化学习 | 焦点论文 |
| 通过不确定性估计实现样本高效的深度强化学习 | 焦点论文 |
| 强化学习中基于生成式规划的时间协调探索 | 焦点论文 |
| 智能体何时应该探索? | 焦点论文 |
| 再探基于模型的离线强化学习中的设计选择 | 焦点论文 |
| DR3:基于值的深度强化学习需要显式正则化 | 焦点论文 |
| 用于不确定性驱动的离线强化学习的悲观自举法 | 焦点论文 |
| COptiDICE:通过稳态分布校正估计实现约束离线强化学习 | 焦点论文 |
| 基于价值梯度加权的模型化强化学习 | 焦点论文 |
| 通过贝叶斯世界模型进行约束策略优化 | 焦点论文 |
| 用于RL零样本泛化的跨轨迹表征学习 | 海报展示 |
| 预训练表征在RL智能体OOD泛化中的作用 | 海报展示 |
| 通过逻辑组合实现在终身强化学习中的泛化 | 海报展示 |
| 强化学习中的局部特征交换以促进泛化 | 海报展示 |
| 用于可证明鲁棒强化学习的策略平滑 | 海报展示 |
| CROP:通过函数平滑认证强化学习的鲁棒策略 | 海报展示 |
| 带有正则化的基于模型的离线元强化学习 | 海报展示 |
| 基于技能的元强化学习 | 海报展示 |
| 元强化学习中的事后预见重标记 | 海报展示 |
| CoMPS:持续的元策略搜索 | 海报展示 |
| 为强化学习中的在线适应学习策略子空间 | 海报展示 |
| 部分覆盖下的悲观基于模型的离线强化学习 | 海报展示 |
| 基于模型的离线强化学习的帕累托策略池 | 海报展示 |
| 基于值的 episodic memory 的离线强化学习 | 海报展示 |
| 隐式Q-learning的离线强化学习 | 海报展示 |
| 强化学习中的策略内模型误差 | 海报展示 |
| 最大熵RL(可证明地)解决某些鲁棒RL问题 | 海报展示 |
| 最大化深度强化学习中的集成多样性 | 海报展示 |
| 最大熵RL(可证明地)解决某些鲁棒RL问题 | 海报展示 |
| 通过行为相似性的自适应元学习器学习强化学习的可泛化表征 | 海报展示 |
| 利普希茨约束下的无监督技能发现 | 海报展示 |
| 通过乐观探索学习更多技能 | 海报展示 |
ICML22
| 论文 | 类型 |
|---|---|
| 在线决策 Transformer | 口头报告 |
| 预训练视觉模型在控制任务中的出人意料的有效性 | 口头报告 |
| 最大状态熵探索中非马尔可夫性的重要性 | 口头报告 |
| 基于扩散的规划用于灵活的行为合成 | 口头报告 |
| 用于离线强化学习的对抗训练演员-评论家 | 口头报告 |
| 学习用于离线策略评估的贝尔曼完备表示 | 口头报告 |
| 离线 RL 策略应当被训练为自适应的 | 口头报告 |
| 大规模批量经验回放 | 口头报告 |
| 可微分模拟器是否能为策略优化提供更好的梯度? | 口头报告 |
| 联邦强化学习:通信高效算法及收敛性分析 | 口头报告 |
| 通用策略优化的解析更新规则 | 口头报告 |
| 基于几何策略组合的广义策略改进 | 口头报告 |
| 通过提示引导决策 Transformer 实现少样本策略泛化 | 海报展示 |
| CtrlFormer:通过 Transformer 学习用于视觉控制的可迁移状态表示 | 海报展示 |
| 强化学习中的动力学学习与泛化 | 海报展示 |
| 通过通才-专才学习改进策略优化 | 海报展示 |
| DRIBO:基于多视角信息瓶颈的鲁棒深度强化学习 | 海报展示 |
| 用于鲁棒强化学习的策略梯度方法 | 海报展示 |
| SAUTE RL:利用状态增强实现几乎确定安全的强化学习 | 海报展示 |
| 用于安全强化学习的约束变分策略优化 | 海报展示 |
| 通过自助式机会主义课程进行鲁棒深度强化学习 | 海报展示 |
| 分布鲁棒 Q 学习 | 海报展示 |
| 基于采样噪声和标签噪声的鲁棒元学习——Eigen-Reptile 方法 | 海报展示 |
| DRIBO:基于多视角信息瓶颈的鲁棒深度强化学习 | 海报展示 |
| 基于图结构代理模型和摊销策略搜索的基于模型的元强化学习 | 海报展示 |
| 面向序列决策的元学习假设空间 | 海报展示 |
| 元强化学习中具有剧烈方差缩减的有偏梯度估计 | 海报展示 |
| Transformer 就是元强化学习者 | 海报展示 |
| 带在线自监督的离线元强化学习 | 海报展示 |
| 通过正则化基于模型策略的平稳分布来稳定离线强化学习 | 海报展示 |
| 离线强化学习中的悲观 Q 学习:迈向最优样本复杂度 | 海报展示 |
| 如何在离线强化学习中利用未标注数据? | 海报展示 |
| 关于折扣因子在离线强化学习中作用的研究 | 海报展示 |
| 批量策略优化中的模型选择 | 海报展示 |
| 库普曼 Q 学习:基于动力学对称性的离线强化学习 | 海报展示 |
| 通过对比学习为离线元强化学习构建鲁棒的任务表示 | 海报展示 |
| 悲观主义与 VCG 机制的结合:利用离线强化学习学习动态机制设计 | 海报展示 |
| 展示你的离线强化学习工作:在线评估预算很重要 | 海报展示 |
| 约束下的离线策略优化 | 海报展示 |
| DreamerPro:基于原型表示的无重建基于模型的强化学习 | 海报展示 |
| 迈向评估基于模型强化学习方法的自适应性 | 海报展示 |
| 基于视频的无动作预训练强化学习 | 海报展示 |
| 去噪 MDP:学习比世界本身更好的世界模型 | 海报展示 |
| 用于模型预测控制的时间差分学习 | 海报展示 |
| 用于任务无关状态抽象的因果动力学学习 | 海报展示 |
| 我为什么要信任你,贝尔曼?贝尔曼误差并不能很好地替代价值误差 | 海报展示 |
| 马尔可夫决策过程的自适应模型设计 | 海报展示 |
| 从像素出发稳定离策略深度强化学习 | 海报展示 |
| 理解策略梯度算法:基于灵敏度的方法 | 海报展示 |
| 镜像学习:统一的策略优化框架 | 海报展示 |
| 基于演示的行动量化连续控制 | 海报展示 |
| 使用可微函数近似器的离策略拟合 Q 评估:Z 估计与推断理论 | 海报展示 |
| 基于时间差分的策略梯度估计方法 | 海报展示 |
| 深度强化学习中的首要性偏差 | 海报展示 |
| 利用深度强化学习优化序列实验设计 | 海报展示 |
| 鲁棒价值函数的几何结构 | 海报展示 |
| 通过约束强化学习直接指定行为 | 海报展示 |
| 马尔可夫序列决策中的效用理论 | 海报展示 |
| 通过深度网络集成降低时间差分价值估计的方差 | 海报展示 |
| 统一策略优化的近似梯度更新 | 海报展示 |
| EqR:用于数据高效强化学习的等变表示 | 海报展示 |
| 带有短期记忆的可证明强化学习 | 海报展示 |
| 通过双重拟合迭代最优估计离策略策略梯度 | 海报展示 |
| 悬崖跳水:探索强化学习环境中的奖励曲面 | 海报展示 |
| 用于 Q 函数学习的拉格朗日方法(及其在机器翻译中的应用) | 海报展示 |
| 利用大规模结构化强化学习学习组装 | 海报展示 |
| 解决强化学习序列建模中的乐观偏差 | 海报展示 |
| 带延迟奖励的离策略强化学习 | 海报展示 |
| 可达性约束强化学习 | 海报展示 |
| 基于流的 POMDP 循环信念状态学习 | 海报展示 |
| 通过嵌入技术对大型动作空间进行离策略评估 | 海报展示 |
| 双稳健且分布鲁棒的离策略评估与学习 | 海报展示 |
| 关于离策略评估中非参数 Q 函数估计的良好适定性及极小极大最优率的研究 | 海报展示 |
| 通过最大熵强化学习进行沟通 | 海报展示 |
NeurIPS22
ICLR23
| 论文 | 类型 |
|---|---|
| 控制的二分法:区分你能控制与不能控制的事物 | 口头报告 |
| 基于算法蒸馏的上下文强化学习 | 口头报告 |
| 条件生成建模是否足以应对决策任务? | 口头报告 |
| 在多样化多任务数据上的离线Q学习:兼具规模性和泛化能力 | 口头报告 |
| 针对离线强化学习的置信度条件值函数 | 口头报告 |
| 极端Q学习:无需熵项的最大熵强化学习 | 口头报告 |
| 稀疏Q学习:带有隐式值函数正则化的离线强化学习 | 口头报告 |
| Transformer是样本高效的环境模型 | 口头报告 |
| 通过突破重放缓冲区比例限制实现样本高效强化学习 | 口头报告 |
| 利用不完美在线示范进行约束策略优化 | 展示报告 |
| 面向人类友好的原型:迈向可解释的深度强化学习 | 展示报告 |
| 粉红噪声就够了:深度强化学习中的彩色噪声探索 | 展示报告 |
| DEP-RL:用于过度驱动和肌肉骨骼系统的具身强化学习探索 | 展示报告 |
| 离线强化学习中的样本内Softmax | 展示报告 |
| 基于真实机器人硬件的离线强化学习基准测试 | 展示报告 |
| 编舞者:在想象中学习与适应技能 | 展示报告 |
| 通过值隐式预训练迈向通用视觉奖励与表征 | 展示报告 |
| 随机丢帧下的决策 Transformer | 海报展示 |
| 用于高效在线策略适应的超决策 Transformer | 海报展示 |
| 喜好 Transformer:利用Transformer建模人类偏好以应用于强化学习 | 海报展示 |
| 对比图像变换在强化学习中的数据效率 | 海报展示 |
| 智能体能否与陌生人接力赛跑?强化学习对分布外轨迹的泛化能力 | 海报展示 |
| 隐藏参数MDP中模型与策略迁移的性能界 | 海报展示 |
| 探究强化学习中的多任务预训练与泛化 | 海报展示 |
| 强化学习中技能迁移的先验、层次结构与信息不对称 | 海报展示 |
| 观测扰动下安全强化学习的鲁棒性 | 海报展示 |
| 分布式元梯度强化学习 | 海报展示 |
| 保守贝叶斯模型基值扩展用于离线策略优化 | 海报展示 |
| 值记忆图:一种面向离线强化学习的图结构世界模型 | 海报展示 |
| 基于学习模型的高效离线策略优化 | 海报展示 |
| 扩散策略作为离线强化学习中富有表现力的策略类 | 海报展示 |
| 通过高保真生成行为建模实现离线强化学习 | 海报展示 |
| 决策S4:基于状态空间层的高效序列型强化学习 | 海报展示 |
| 行为邻近策略优化 | 海报展示 |
| 在稀疏奖励环境中学习成就结构以实现结构化探索 | 海报展示 |
| 用轨迹解释强化学习决策 | 海报展示 |
| 用户交互式离线强化学习 | 海报展示 |
| 面向离线多目标强化学习的帕累托最优决策代理 | 海报展示 |
| 带有隐式语言Q学习的自然语言生成离线强化学习 | 海报展示 |
| 离线强化学习中的样本内演员评论家 | 海报展示 |
| 通过轨迹加权整合混合离线强化学习数据集 | 海报展示 |
| 关注差距:针对不完美奖励的离线策略优化 | 海报展示 |
| 当数据几何遇上深度函数:泛化离线强化学习 | 海报展示 |
| MAHALO:统一基于观测的离线强化学习与模仿学习 | 海报展示 |
| 基于Transformer的世界模型仅需10万次交互即可满足要求 | 海报展示 |
| 动态更新数据比例:最小化世界模型过拟合 | 海报展示 |
| 在3D迷宫中评估长期记忆 | 海报展示 |
| 通过直接规划连续控制做出更好决策 | 海报展示 |
| HiT-MDP:在具有隐藏时间嵌入的MDP上学习SMDP选项框架 | 海报展示 |
| 基于模型的强化学习中值扩展方法的边际收益递减 | 海报展示 |
| 简化基于模型的强化学习:以单一目标同时学习表征、潜在空间模型和策略 | 海报展示 |
| SpeedyZero:用有限的数据和时间掌握Atari游戏 | 海报展示 |
| 高效的深度强化学习需要调控统计过拟合 | 海报展示 |
| 回放内存作为经验MDP:结合保守估计与经验回放 | 海报展示 |
| 贪婪演员评论家:一种用于策略改进的新条件交叉熵方法 | 海报展示 |
| 利用语言模型设计奖励 | 海报展示 |
| 通过Q学习解决连续控制问题 | 海报展示 |
| Wasserstein自编码MDP:以多方保证形式正式验证高效蒸馏的强化学习策略 | 海报展示 |
| 基于群体的强化学习实现质量相似的多样性 | 海报展示 |
| 人类水平的Atari游戏快200倍 | 海报展示 |
| 策略扩展用于连接离线与在线强化学习 | 海报展示 |
| 通过值函数搜索改进深度策略梯度 | 海报展示 |
| 记忆健身房:面向部分可观测智能体的记忆挑战 | 海报展示 |
| 混合强化学习:同时使用离线和在线数据可使强化学习更高效 | 海报展示 |
| POPGym:部分可观测强化学习的基准测试 | 海报展示 |
| 评论家顺序蒙特卡洛 | 海报展示 |
| 具有亲和力正则化的可撤销深度强化学习,用于对抗异常值的稳健图匹配 | 海报展示 |
| 面向离线强化学习的可证明无监督数据共享 | 海报展示 |
| 使用DOMiNO发现策略:保持接近最优的多样性优化 | 海报展示 |
| 强化学习中的潜在变量表示 | 海报展示 |
| 强化学习中的谱分解表示 | 海报展示 |
| 面向离线强化学习的行为先验表征学习 | 海报展示 |
| 仅通过观看纯视频即可在有限数据下成为熟练玩家 | 海报展示 |
| 用于离策略评估的变分潜在分支模型 | 海报展示 |
ICML23
| 论文 | 类型 |
|---|---|
| 预训练在强化学习泛化中的力量:可证明的优势与困难 | 口头报告 |
| AdaptDiffuser:作为自适应自我进化规划器的扩散模型 | 口头报告 |
| 用于多模态轨迹优化的重参数化策略学习 | 口头报告 |
| 从像素中掌握无监督强化学习基准 | 口头报告 |
| 深度强化学习中的休眠神经元现象 | 口头报告 |
| 通过解耦环境与智能体表征实现高效强化学习 | 口头报告 |
| 时序差分学习的统计优势研究 | 口头报告 |
| 热启动演员-评论家:从近似误差到次优性差距 | 口头报告 |
| 基于潜在意图的被动数据强化学习 | 口头报告 |
| 三维环境中的子等变图强化学习 | 口头报告 |
| 基于多步逆运动学的表征学习:一种高效且最优的丰富观测强化学习方法 | 口头报告 |
| 抛硬币估计强化学习探索中的伪计数 | 口头报告 |
| 奖励假设的最终解答 | 口头报告 |
| 多视角强化学习的信息论状态空间模型 | 口头报告 |
| 从像素中掌握无监督强化学习基准 | 口头报告 |
| 用于部分可观测深度强化学习的信任表征学习 | 海报展示 |
| 内部奖励强化学习 | 海报展示 |
| 基于多个黑盒oracle的主动策略改进 | 海报展示 |
| 在什么情况下,可实现性足以支持离策略强化学习? | 海报展示 |
| 分位数时序差分学习在价值估计中的统计优势 | 海报展示 |
| 强化学习中的超参数及其调优方法 | 海报展示 |
| 对数通信下的朗之万汤普森采样:多臂老虎机与强化学习 | 海报展示 |
| 纠正同策略策略梯度方法中的折扣因子不匹配问题 | 海报展示 |
| 用于预测、表征和控制的掩码轨迹模型 | 海报展示 |
| 具有确定性策略搜索的离策略平均奖励演员-评论家 | 海报展示 |
| TGRL:教师引导强化学习算法 | 海报展示 |
| LIV:面向机器人控制的语言-图像表征与奖励 | 海报展示 |
| 斯坦因变分目标生成用于多目标强化学习中的自适应探索 | 海报展示 |
| 深度强化学习中自适应昼夜节律的涌现 | 海报展示 |
| 使用夏普利值解释强化学习 | 海报展示 |
| 通过多重奖励使强化学习更高效 | 海报展示 |
| 表演性强化学习 | 海报展示 |
| 蒙特卡洛强化学习中的轨迹截断 | 海报展示 |
| ReLOAD:具有乐观上升-下降机制的强化学习,用于约束马尔可夫决策过程中的最后一轮收敛 | 海报展示 |
| 具有在线敏感性采样的低切换策略梯度探索 | 海报展示 |
| 双曲扩散嵌入与距离用于层次化表征学习 | 海报展示 |
| 通过放松的状态对抗性策略优化重新审视领域随机化 | 海报展示 |
| 并行$Q$-学习:大规模并行仿真下的离策略强化学习扩展 | 海报展示 |
| LESSON:基于选项框架学习整合强化学习探索策略 | 海报展示 |
| 基于双层优化的网络控制图强化学习 | 海报展示 |
| 随机策略梯度方法:针对费舍尔非退化策略的样本复杂度改进 | 海报展示 |
| 具有历史依赖动态上下文的强化学习 | 海报展示 |
| 利用离线数据进行高效的在线强化学习 | 海报展示 |
| 分布式强化学习中的方差控制 | 海报展示 |
| 面向具有外生输入MDP的回溯学习 | 海报展示 |
| RLang:一种用于向强化学习智能体描述部分世界知识的声明式语言 | 海报展示 |
| 基于蒙特卡洛树搜索的可扩展安全策略改进 | 海报展示 |
| 基于能量模型的奖励条件强化学习的贝叶斯重参数化 | 海报展示 |
| 理解单任务强化学习在课程学习中的复杂度收益 | 海报展示 |
| PPG重装上阵:关于相位策略梯度中关键因素的实证研究 | 海报展示 |
| 关于多动作策略梯度的研究 | 海报展示 |
| 多任务层次化对抗性逆强化学习 | 海报展示 |
| 无基站的潜伏式Go-Explore | 海报展示 |
| 基于反事实无害准则的可信策略学习 | 海报展示 |
| 强化学习中的可达性感知拉普拉斯表征 | 海报展示 |
| 基于强化学习的交互式物体放置 | 海报展示 |
| 在线强化学习中利用离线数据 | 海报展示 |
| 具有通用效用函数的强化学习:更简单的方差缩减与更大的状态-动作空间 | 海报展示 |
| DoMo-AC:双重多步离策略演员-评论家算法 | 海报展示 |
| 奖励模型过度优化的规模定律 | 海报展示 |
| SNeRL:面向强化学习的语义感知神经辐射场 | 海报展示 |
| 基于集合成员信念状态的POMDP强化学习 | 海报展示 |
| 鲁棒的满足型MDP | 海报展示 |
| 基于联合效应建模的大动作空间离策略评估 | 海报展示 |
| 具有优化动作解码的量子策略梯度算法 | 海报展示 |
| 对于用于运动控制的预训练视觉模型,不同的策略学习方法并非等价 | 海报展示 |
| 无模型鲁棒平均奖励强化学习 | 海报展示 |
| 公平且鲁棒地估计异质性治疗效应以用于策略学习 | 海报展示 |
| 面向离策略强化学习的轨迹感知资格迹 | 海报展示 |
| 基于成对或K人比较的人类反馈原则性强化学习 | 海报展示 |
| 社会学习通过深度强化学习搜索最优启发式自发涌现 | 海报展示 |
| 更大、更好、更快:以人类水平的效率实现人类水平的Atari游戏 | 海报展示 |
| 面向深度强化学习的后验采样 | 海报展示 |
| 基于模型的强化学习,采用可扩展的复合策略梯度估计器 | 海报展示 |
| 超越想象:利用世界模型最大化剧集可达性 | 海报展示 |
| 简化的时序一致性强化学习 | 海报展示 |
| 具身智能体是否梦见像素化的羊:使用语言引导的世界建模进行具身决策 | 海报展示 |
| 无需示范的自主强化学习,通过隐式及双向课程进行 | 海报展示 |
| 基于模型适应的奇思妙想回放 | 海报展示 |
| 用于视觉机器人操作的多视角掩码世界模型 | 海报展示 |
| 面向深度强化学习探索的自动内在奖励塑造 | 海报展示 |
| 事后的好奇心:随机环境中的内在探索 | 海报展示 |
| 基于奇异值分解的深度强化学习表征与探索 | 海报展示 |
| 将大型语言模型置于交互环境中,结合在线强化学习进行接地 | 海报展示 |
| 将互联网规模的视觉-语言模型提炼为具身智能体 | 海报展示 |
| VIMA:基于多模态提示的机器人操作 | 海报展示 |
| 面向决策Transformer的未来条件无监督预训练 | 海报展示 |
| 由一系列事后经验涌现的代理型Transformer | 海报展示 |
| 基于模型的强化学习泛化优势 | 海报展示 |
| 多环境预训练实现向动作受限数据集的迁移 | 海报展示 |
| 关于视觉-运动控制的预训练:重温从零开始的学习基线 | 海报展示 |
| 无监督技能发现,用于学习跨变化环境的共享结构 | 海报展示 |
| 关于为强化学习预训练对象中心表征的调查 | 海报展示 |
| 使用大型语言模型指导强化学习中的预训练 | 海报展示 |
| 对于离线目标条件强化学习而言,实现未见目标泛化的关键是什么? | 海报展示 |
| 面向少样本策略迁移的在线原型对齐 | 海报展示 |
| 检测深度强化学习中的对抗方向,以做出鲁棒决策 | 海报展示 |
| 面对情境扰动的鲁棒情境强化学习 | 海报展示 |
| 分布式强化学习的对抗性学习 | 海报展示 |
| 朝着鲁棒且安全的强化学习迈进,利用良性离策略数据 | 海报展示 |
| 作为元强化学习副产物的简单具身语言学习 | 海报展示 |
| ContraBAR:对比贝叶斯自适应深度强化学习 | 海报展示 |
| 基于模型的离线强化学习,采用基于计数的保守主义 | 海报展示 |
| 基于模型的贝尔曼不一致,用于离线强化学习 | 海报展示 |
| 无需在线实验即可学习时间抽象的世界模型 | 海报展示 |
| 对比能量预测,用于离线强化学习中精确的能量引导扩散采样 | 海报展示 |
| MetaDiffuser:作为离线元强化学习条件规划器的扩散模型 | 海报展示 |
| 演员-评论家对齐,用于离线到在线强化学习 | 海报展示 |
| 半监督离线强化学习,采用无动作轨迹 | 海报展示 |
| 在丰富的外生信息存在下进行的原则性离线强化学习 | 海报展示 |
| 具有分布内在线适应性的离线元强化学习 | 海报展示 |
| 针对离线强化学习的数据集约束策略正则化 | 海报展示 |
| 支持信任区域优化的离线强化学习 | 海报展示 |
| 面向离线安全强化学习的约束型决策Transformer | 海报展示 |
| 具有保证的PAC贝叶斯离线上下文多臂老虎机 | 海报展示 |
| 超越奖励:基于偏好指导的离线策略优化 | 海报展示 |
| 具有闭式策略改进算子的离线强化学习 | 海报展示 |
| ChiPFormer:通过离线决策Transformer实现可转移的芯片布局 | 海报展示 |
| 通过动作偏好查询提升离线强化学习效果 | 海报展示 |
| 快速启动强化学习 | 海报展示 |
| 探究基于模型的学习在探索与迁移中的作用 | 海报展示 |
| STEERING:面向基于模型强化学习的斯坦因信息导向探索 | 海报展示 |
| 面向无监督基于模型强化学习的可预测MDP抽象 | 海报展示 |
| 基于模型强化学习中的懒惰美德:统一的目标与算法 | 海报展示 |
| 关于特征去相关性在强化学习无监督表征学习中的重要性 | 海报展示 |
| CLUTR:通过无监督任务表征学习进行课程学习 | 海报展示 |
| 面向可控性的无监督技能发现 | 海报展示 |
| 面向无监督技能发现的行为对比学习 | 海报展示 |
| 用于无监督技能发现的变分课程强化学习 | 海报展示 |
| 强化学习中的自举表征 | 海报展示 |
| 表征驱动的强化学习 | 海报展示 |
| 针对算法资源分配随机试验的策略评估改进 | 海报展示 |
| 面向混杂离策略评估的工具变量方法 | 海报展示 |
| 线性马尔可夫决策过程中半参数高效的离策略评估 | 海报展示 |
| 面向深度强化学习探索的自动内在奖励塑造 | 海报展示 |
| 事后的好奇心:随机环境中的内在探索 | 海报展示 |
NeurIPS23
| 论文 | 类型 |
|---|---|
| 通过显著性引导的特征去相关学习可泛化智能体 | 口头报告 |
| 通过示范理解专业知识:一种用于离线逆强化学习的最大似然框架 | 口头报告 |
| 当示范遇到生成式世界模型时:一种用于离线逆强化学习的最大似然框架 | 口头报告 |
| DiffuseBot:利用物理增强的生成扩散模型培育软体机器人 | 口头报告 |
| 变压器在强化学习中何时大放异彩?将记忆与信用分配解耦 | 口头报告 |
| 用有效视界连接强化学习理论与实践 | 口头报告 |
| SwiftSage:一种具备快慢思维的生成式智能体,适用于复杂交互任务 | 点亮展示 |
| RePo:通过正则化后验预测性实现稳健的基于模型的强化学习 | 点亮展示 |
| 最大化以探索:一个融合估计、规划与探索的目标函数 | 点亮展示 |
| 条件互信息在强化学习中的解耦表征应用 | 点亮展示 |
| 乐观自然策略梯度:一种简单高效的在线强化学习策略优化框架 | 点亮展示 |
| 双重Gumbel Q学习 | 点亮展示 |
| POMDPs中未来依赖的价值函数离线策略评估 | 点亮展示 |
| 监督预训练可以学习上下文强化学习 | 点亮展示 |
| 一次训练,获得一族策略:面向离线到在线强化学习的状态自适应平衡 | 点亮展示 |
| 面向多场景安全强化学习的约束条件策略优化 | 海报展示 |
| 在零样本强化学习中通过探索实现泛化 | 海报展示 |
| 基于适应性上下文感知策略的强化学习动态泛化 | 海报展示 |
| 通过表征区分提升离线强化学习的泛化能力 | 海报展示 |
| 对比回顾:聚焦关键步骤以加速强化学习中的快速学习与泛化 | 海报展示 |
| 元强化学习中的双重稳健增强迁移 | 海报展示 |
| 循环超网络在元强化学习中表现惊人地强大 | 海报展示 |
| 通过子任务分解参数化非参数化的元强化学习任务 | 海报展示 |
| 统一的风险度量:一种基于风险敏感性的基于模型的离线强化学习视角 | 海报展示 |
| 面向离线强化学习的有效扩散策略 | 海报展示 |
| 利用离线强化学习学习如何影响人类行为 | 海报展示 |
| 从策略出发设计:面向离线策略优化的保守测试时适应 | 海报展示 |
| SafeDICE:使用非首选示范进行离线安全模仿学习 | 海报展示 |
| 面向离线强化学习的显式行为密度约束策略优化 | 海报展示 |
| 面向离线强化学习的保守状态价值估计 | 海报展示 |
| 在POMDPs中使用离散代理表征提升泛化能力的离线强化学习 | 海报展示 |
| 降低离线元强化学习中的情境漂移 | 海报展示 |
| 基于互信息正则化的离线强化学习 | 海报展示 |
| 通过离线强化学习中的逆动力学恢复未见状态 | 海报展示 |
| 离线强化学习中的分位数准则优化 | 海报展示 |
| 语言模型与世界模型相遇:具身经验增强语言模型 | 海报展示 |
| 通过最大化证据进行动作推理:利用世界模型从观察中零样本模仿 | 海报展示 |
| 世界模型骨干架构对决:RNN、Transformer和S4 | 海报展示 |
| 连续时间基于模型的强化学习中的高效探索 | 海报展示 |
| 基于模型的再参数化策略梯度方法:理论与实用算法 | 海报展示 |
| 通过指导学习发现技能 | 海报展示 |
| 在强化学习中创建多层级技能树 | 海报展示 |
| 基于随机意图先验的无监督行为提取 | 海报展示 |
| MIMEx:来自掩码输入建模的内在奖励 | 海报展示 |
| f-策略梯度:一种使用f-散度的面向目标条件强化学习通用框架 | 海报展示 |
| 持续强化学习中的预测与控制 | 海报展示 |
| 残差Q学习:无需价值函数即可实现离线和在线策略定制 | 海报展示 |
| 小批量深度强化学习 | 海报展示 |
| 针对约束马尔可夫决策过程的最后迭代收敛策略梯度原对偶方法 | 海报展示 |
| RLHF是否比标准RL更困难?一种理论视角 | 海报展示 |
| Reflexion:具有语言强化学习能力的语言智能体 | 海报展示 |
| 在强化学习中对具有任意约束的随机动作进行生成建模 | 海报展示 |
| 扩散模型是多任务强化学习的有效规划者和数据合成器 | 海报展示 |
| 无需奖励建模的直接偏好驱动策略优化 | 海报展示 |
| 学习在强化学习中调制预训练模型 | 海报展示 |
| 无知即幸福:通过信息门控实现鲁棒控制 | 海报展示 |
| 上下文 bandit 中的离线策略评估边际密度比 | 海报展示 |
| 使用决策估计系数进行无模型强化学习 | 海报展示 |
| 最优且公平的鼓励政策评估与学习 | 海报展示 |
| BIRD:面向深度强化学习的可泛化后门检测与移除 | 海报展示 |
| 正确实施的强化学习中的概率推断 | 海报展示 |
| 基于参考的POMDPs | 海报展示 |
| 在MDPs中说服有远见的接收者:诚实的力量 | 海报展示 |
| 分布式策略评估:一种基于最大熵的表征学习方法 | 海报展示 |
| 面向上下文强化学习的结构化状态空间模型 | 海报展示 |
| 方差的替代方案:针对风险厌恶型策略梯度的基尼偏差 | 海报展示 |
| 面向风险敏感型强化学习的分布等价性 | 海报展示 |
| PLASTIC:提升输入与标签可塑性以实现样本高效的强化学习 | 海报展示 |
| 基于不完美示范的混合策略优化 | 海报展示 |
| 噪音环境下的策略优化:关于连续控制中的回报景观 | 海报展示 |
| 语义HELM:一种人类可读的强化学习记忆 | 海报展示 |
| 持续强化学习的定义 | 海报展示 |
| 面向Wasserstein分布鲁棒MDPs的快速贝尔曼更新 | 海报展示 |
| 面向矩形鲁棒马尔可夫决策过程的策略梯度 | 海报展示 |
| 通过对比学习发现强化学习中的层次化成就 | 海报展示 |
| 蒙特卡洛策略评估中的轨迹截断:一种自适应方法 | 海报展示 |
| 强化学习中的无模型主动探索 | 海报展示 |
| 利用随机特征进行迁移的自监督强化学习 | 海报展示 |
| FlowPG:基于归一化流的动作约束策略梯度 | 海报展示 |
| 基于注意力的灵活多策略融合,用于高效深度强化学习 | 海报展示 |
| 基于ODE的循环无模型强化学习,适用于POMDPs | 海报展示 |
| 利用强化学习建议圆柱代数分解的变量顺序 | 海报展示 |
| SPQR:利用尖峰随机模型控制Q集合独立性,用于强化学习 | 海报展示 |
| CaMP:面向多房间场景交互导航的因果多策略规划 | 海报展示 |
| 面向部分未知环境中的物体搜索的POMDP规划 | 海报展示 |
| 统一的离线排序学习:一种强化学习视角 | 海报展示 |
| 面向鲁棒强化学习的自然演员-评论家,结合函数近似 | 海报展示 |
| 面向深度强化学习的长$N$步代理阶段奖励 | 海报展示 |
| 基于状态-动作相似性的表征用于离线策略评估 | 海报展示 |
| 弱耦合的深度Q网络 | 海报展示 |
| 大型语言模型是半参数化的强化学习智能体 | 海报展示 |
| 成为分布式的益处:强化学习中的小损失界 | 海报展示 |
| 在线非随机无模型强化学习 | 海报展示 |
| 何时无模型强化学习在统计上可行? | 海报展示 |
| 带有流式观测的贝叶斯风险厌恶Q学习 | 海报展示 |
| 重置深度强化学习中的优化器:一项实证研究 | 海报展示 |
| 利用符号模型估计进行强化学习中的乐观探索 | 海报展示 |
| 基于策略的平均奖励强化学习算法的性能边界 | 海报展示 |
| 规律性作为自由玩耍的内在奖励 | 海报展示 |
| TACO:面向视觉强化学习的时序潜在动作驱动对比损失 | 海报展示 |
| 面向连续强化学习的策略优化 | 海报展示 |
| 连续时间控制中的主动观察 | 海报展示 |
| 可复现的强化学习 | 海报展示 |
| 探索对于强化学习中泛化的重要性 | 海报展示 |
| 带有玻尔兹曼探索的蒙特卡洛树搜索 | 海报展示 |
| 用于安全强化学习的迭代可达性估计 | 海报展示 |
| 通过对抗性环境设计发现通用强化学习算法 | 海报展示 |
| 我们在寻找用于具身智能的人工视觉皮层方面进展如何? | 海报展示 |
| 逆动力学预训练能够学习适用于多任务模仿的良好表征 | 海报展示 |
| 强化学习中可解释的奖励再分配:一种因果方法 | 海报展示 |
| 带有时序注意力的对比模块,用于多任务强化学习 | 海报展示 |
| 通过重置深度集成智能体实现样本高效且安全的深度强化学习 | 海报展示 |
| 分布式帕累托最优的多目标强化学习 | 海报展示 |
| 面向具身智能体的对比提示集成,用于高效策略适应 | 海报展示 |
| 利用逆动力学双曲度量,基于潜力的强化学习高效探索 | 海报展示 |
| 结合状态距离信息,迭代学习多样策略 | 海报展示 |
| 利用价值条件下的状态熵探索加速强化学习 | 海报展示 |
| 梯度引导的近端策略优化 | 海报展示 |
| 带有生成模型的强化学习中分布鲁棒性的代价之谜 | 海报展示 |
| 面向序列决策中高效策略评估的最佳治疗分配 | 海报展示 |
| Thinker:学习计划与行动 | 海报展示 |
| 用更少学习得更好:面向样本高效视觉强化学习的有效增广 | 海报展示 |
| 使用简单序列先验进行强化学习 | 海报展示 |
| 预训练的文本到图像模型能否为强化学习生成视觉目标? | 海报展示 |
| 超越均匀采样:不平衡数据集上的离线强化学习 | 海报展示 |
| CQM:基于量化世界模型的课程式强化学习 | 海报展示 |
| H-InDex:面向灵巧操作的、由人工指导表征的视觉强化学习 | 海报展示 |
| Cal-QL:为高效在线微调而设计的校准离线强化学习预训练 | 海报展示 |
| 随时具备竞争力的基于策略先验的强化学习 | 海报展示 |
| 为离线强化学习编制反事实预算 | 海报展示 |
| 策略优化中的分形景观 | 海报展示 |
| 面向离线强化学习的目标条件预测编码 | 海报展示 |
| 出售:面向深度强化学习的状态-动作表征学习 | 海报展示 |
| 采用平均奖励准则的逆强化学习 | 海报展示 |
| 重温离线强化学习的极简主义方法 | 海报展示 |
| 用于离线强化学习的对抗性模型 | 海报展示 |
| 支持的离线强化学习价值正则化 | 海报展示 |
| 受PID启发的归纳偏置,用于部分可观测控制任务中的深度强化学习 | 海报展示 |
| 如何调整模型:统一的模型转移与模型偏置策略优化 | 海报展示 |
| 通过离线预训练的状态到Go转换器,从视觉观察中学习 | 海报展示 |
| 描述、解释、计划与选择:LLMs的交互式规划使开放世界多任务智能体成为可能 | 海报展示 |
| 在分级强化学习中实现稳健的知识转移 | 海报展示 |
| 苦练以求易战:稳健的元强化学习 | 海报展示 |
| 通过双层优化进行元加权的任务感知世界模型学习 | 海报展示 |
| 视频预测模型作为强化学习的奖励 | 海报展示 |
| 合成经验回放 | 海报展示 |
| 利用离线数据进行实验设计,对强化学习策略进行微调 | 海报展示 |
| 学习动态属性因子化的世界模型,以实现高效的多目标强化学习 | 海报展示 |
| 学习可识别因子分解的世界模型 | 海报展示 |
| 利用野外视频为强化学习预训练情境化的世界模型 | 海报展示 |
| 逆偏好学习:无需奖励函数的基于偏好强化学习 | 海报展示 |
| 理解、预测并更好地解决离线强化学习中的Q值分歧 | 海报展示 |
| 面向强化学习的潜在探索 | 海报展示 |
| 大型语言模型可以实现策略迭代 | 海报展示 |
| 推广加权路径一致性以精通Atari游戏 | 海报展示 |
| 学习环境感知的可供性,以在遮挡条件下操纵3D关节物体 | 海报展示 |
| 通过锚定加速价值迭代 | 海报展示 |
| 针对具有硬约束的连续控制,减少策略优化规模 | 海报展示 |
| 基于状态正则化的策略优化,应用于存在动态变化的数据 | 海报展示 |
| 具有差分隐私的离线强化学习 | 海报展示 |
| 理解并应对基于双曲度量表征在离线强化学习中的陷阱 | 海报展示 |
ICLR24
ICML24
NeurIPS24
ICLR25
ICML25
| 论文 | 类型 |
|---|---|
| EmbodiedBench: 面向视觉驱动具身智能体的多模态大语言模型综合基准测试 | 口头报告 |
| 网络稀疏性释放深度强化学习的可扩展潜力 | 口头报告 |
| 通过单步奖励实现多轮代码生成 | 焦点报告 |
| 策略标注的偏好学习:偏好是否足以用于RLHF? | 焦点报告 |
| 用于系统2规划的蒙特卡洛树扩散 | 焦点报告 |
| RLEF: 基于强化学习的执行反馈,使代码LLM落地 | 焦点报告 |
| 指数族下的决策:基于贝叶斯模糊集的分布鲁棒优化 | 焦点报告 |
| 超球面归一化用于可扩展的深度强化学习 | 焦点报告 |
| LLM与RL的协同作用利用低质量数据解锁可泛化的语言条件策略的离线学习 | 焦点报告 |
| 在使用离线数据的强化学习中惩罚不可行动作及奖励缩放 | 焦点报告 |
| 隐私与鲁棒离线对齐的统一理论分析:从RLHF到DPO | 焦点报告 |
| 视频预测策略:一种具有预测性视觉表征的通用机器人策略 | 焦点报告 |
| 通过在线世界模型规划实现持续强化学习 | 焦点报告 |
| 跨动力学强化学习中对全局可达状态的策略正则化 | 焦点报告 |
| 用于模仿学习的潜在扩散规划 | 焦点报告 |
| 利用世界模型进行强化学习中的新奇性检测 | 焦点报告 |
| DPO与PPO相遇:用于RLHF的强化标记优化 | 焦点报告 |
NeurIPS25
ICLR26
| 论文 | 类型 |
|---|---|
| 用于无监督强化学习的探索性扩散模型 | 口头报告 |
| 通过离线奖励评估和策略搜索增强生成式自动出价 | 口头报告 |
| 为什么DPO是一种误设的估计量以及如何修复它 | 口头报告 |
| SafeDPO:一种简单且安全性更强的直接偏好优化方法 | 口头报告 |
| 基于引导搜索的组合扩散模型用于长 horizon 规划 | 口头报告 |
| LoongRL:面向长上下文的高级推理强化学习 | 口头报告 |
| GEPA:反思式提示进化可超越强化学习 | 口头报告 |
| 无需训练的推理:你的基础模型比你想象的更聪明 | 口头报告 |
| 用于学习机器人动作的罗德里格斯网络 | 口头报告 |
| 具有瞬时速度约束的均流策略用于单步动作生成 | 口头报告 |
| TD-JEPA:用于零样本强化学习的潜在预测表征 | 口头报告 |
| WoW!:闭环世界中的世界模型 | 口头报告 |
| DiffusionNFT:带有前向过程的在线扩散强化学习 | 口头报告 |
| 通过预训练模型和深度强化学习掌握稀疏CUDA生成 | 口头报告 |
| LongWriter-Zero:通过强化学习掌握超长文本生成 | 口头报告 |
| MomaGraph:结合视觉-语言模型的状态感知统一场景图用于具身任务规划 | 口头报告 |
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
funNLP
funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。
cs-video-courses
cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
awesome-machine-learning
awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。