phd-bibliography
phd-bibliography 是一个专为最优控制、强化学习与运动规划领域打造的开源文献知识库。它系统性地梳理了从动态规划、线性规划到模型预测控制等经典理论,并深入涵盖了安全控制、博弈论、序列学习及模仿学习等前沿方向。
面对相关领域文献浩如烟海、知识体系庞杂的痛点,phd-bibliography 通过结构化的目录分类,将分散的学术论文、经典著作和关键技术(如 MCTS、REPS、Actor-Critic 等)整合成一张清晰的学习地图。它不仅罗列资源,更按算法流派与应用场景(如自动驾驶)进行逻辑串联,帮助用户快速定位核心资料,理清技术演进脉络。
这份资源特别适合人工智能领域的研究人员、硕博研究生以及算法工程师使用。无论是刚入门需要构建知识框架的新手,还是资深专家希望查漏补缺、追踪最新进展,都能从中获益。其独特的亮点在于极高的专业度与细致的分类颗粒度,不仅包含基础理论,还细分至“无导数优化”、“分层时序抽象”等具体技术点,是从事智能决策与机器人控制研究不可或缺的案头参考指南。
使用场景
某自动驾驶初创公司的算法工程师正在研发一套基于强化学习的城市道路决策系统,急需梳理最优控制与运动规划领域的理论基石以突破瓶颈。
没有 phd-bibliography 时
- 文献检索如大海捞针:在 Google Scholar 上搜索"Safe Control"或"Model-based RL"时,返回成千上万篇论文,难以区分哪些是奠基性经典,哪些是过时方法。
- 知识体系支离破碎:手动整理的参考文献缺乏系统性,容易遗漏动态规划、博弈论或多智能体协同等关键分支的理论联系,导致算法架构设计存在盲区。
- 复现基准难以确立:面对黑盒优化或逆强化学习等细分方向,找不到权威的开源实现参考或标准测试用例(如 REPS 算法的具体出处),浪费大量时间验证基础理论。
- 跨领域融合困难:难以快速定位将“风险规避控制”与“分层时序抽象”结合的前沿交叉研究,限制了复杂场景下的策略创新能力。
使用 phd-bibliography 后
- 精准锁定核心经典:直接查阅其分类清晰的目录,瞬间获取从 Bellman 动态规划到现代 MCTS 的必读清单,大幅缩短文献调研周期。
- 构建完整知识图谱:依托其结构化的大纲(涵盖从理论推导到自动驾驶应用的全链路),快速建立起从状态约束控制到不确定性系统处理的系统化认知框架。
- 高效复现权威算法:通过列表中提供的精确论文链接(如 Peters 的相对熵策略搜索),迅速找到算法源头与数学证明,为代码复现提供坚实依据。
- 激发交叉创新灵感:利用其独特的分类视角(如将模仿学习与逆向强化学习并列对比),快速发现多智能体博弈与表示学习的结合点,加速新策略原型的诞生。
phd-bibliography 将原本散乱的学术海洋浓缩为一张精准的导航图,让研发人员能从繁琐的文献筛选中解放出来,专注于核心算法的突破与创新。
运行环境要求
未说明
未说明

快速开始
参考文献
目录
最优控制 :dart:
动态规划
- (书) 动态规划, 贝尔曼 R. (1957).
- (书) 动态规划与最优控制,第1卷和第2卷, 伯特塞卡斯 D. (1995).
- (书) 马尔可夫决策过程——离散随机动态规划, 普特曼 M. (1995).
- 近似最优值函数带来的损失上界, 辛格 S., 耶 R. (1994).
- 迎风帆船赛中航行轨迹的随机优化, 达朗 R. 等 (2015).
线性规划
- (书) 马尔可夫决策过程——离散随机动态规划, 普特曼 M. (1995).
REPS相对熵策略搜索, 彼得斯 J. 等 (2010).
基于树的规划
ExpectiMinimax具有随机节点的游戏中的最优策略,Melkó E.、Nagy B.(2007年)。Sparse sampling大型马尔可夫决策过程中的近似最优规划的稀疏采样算法,Kearns M. 等(2002年)。MCTS蒙特卡洛树搜索中的高效选择与备份算子,Rémi Coulom,SequeL(2006年)。UCT基于赌博机的蒙特卡洛规划,Kocsis L.、Szepesvári C.(2006年)。- 用于树搜索的赌博机算法,Coquelin P-A.、Munos R.(2007年)。
OPD确定性系统的乐观规划,Hren J.、Munos R.(2008年)。OLOP开环乐观规划,Bubeck S.、Munos R.(2010年)。SOOP连续动作确定性系统的乐观规划,Buşoniu L. 等(2011年)。OPSS稀疏随机系统的乐观规划,L. Buşoniu、R. Munos、B. De Schutter 和 R. Babuska(2011年)。HOOT连续动作马尔可夫决策过程中的基于样本的规划,Mansley C.、Weinstein A.、Littman M.(2011年)。HOLOP连续动作马尔可夫决策过程中的基于赌博机的规划与学习,Weinstein A.、Littman M.(2012年)。BRUE马尔可夫决策过程在线规划中的简单遗憾优化,Feldman Z. 和 Domshlak C.(2014年)。LGP逻辑几何规划:一种基于优化的组合任务与运动规划方法,Toussaint M.(2015年)。🎞️AlphaGo利用深度神经网络和树搜索掌握围棋游戏,Silver D. 等(2016年)。AlphaGo Zero无需人类知识即可掌握围棋游戏,Silver D. 等(2017年)。AlphaZero通过通用强化学习算法的自我对弈掌握国际象棋和将棋,Silver D. 等(2017年)。TrailBlazer在开辟道路之前先铺路:高效的蒙特卡洛规划,Grill J. B.、Valko M.、Munos R.(2017年)。MCTSnets使用 MCTSnets 学习搜索,Guez A. 等(2018年)。ADI无需人类知识解决魔方问题,McAleer S. 等(2018年)。OPC/SOPC具有 Lipschitz 值的折扣无限 horizon 非线性最优控制的连续动作规划,Buşoniu L.、Pall E.、Munos R.(2018年)。- 带有悲观情景的实时树搜索:赢得 2018 年 NeurIPS Pommerman 比赛,Osogami T.、Takahashi T.(2019年)
控制理论
- (书籍)最优过程的数学理论,L. S. Pontryagin、Boltyanskii V. G.、Gamkrelidze R. V. 和 Mishchenko E. F.(1962年)。
- (书籍)约束控制与估计,Goodwin G.(2005年)。
PI²强化学习的广义路径积分控制方法,Theodorou E. 等(2010年)。PI²-CMA协方差矩阵自适应的路径积分策略改进,Stulp F.、Sigaud O.(2010年)。iLQG用于约束非线性随机系统局部最优反馈控制的广义迭代 LQG 方法,Todorov E.(2005年)。:octocat:iLQG+通过在线轨迹优化合成与稳定复杂行为,Tassa Y.(2012年)。
模型预测控制
- (书籍)模型预测控制,Camacho E.(1995年)。
- (书籍)具有约束的预测控制,Maciejowski J. M.(2002年)。
- 低曲率道路上的车道保持与障碍物避让的线性模型预测控制,Turri V. 等(2013年)。
MPCC基于优化的 1:43 比例遥控车自主竞速,Liniger A. 等(2014年)。🎞️ | 🎞️MIQP整合逻辑约束的自动驾驶最优轨迹规划:MIQP 视角,Qian X.、Altché F.、Bender P.、Stiller C. de La Fortelle A.(2016年)。
安全控制 :lock:
鲁棒控制
- 随机问题的极小极大分析, Shapiro A., Kleywegt A. (2002)。
Robust DP鲁棒动态规划, Iyengar G. (2005)。- 鲁棒规划与优化, Laumanns M. (2011)。(讲义)
- 鲁棒马尔可夫决策过程, Wiesemann W., Kuhn D., Rustem B. (2012)。
- 基于高斯过程的安全鲁棒学习控制, Berkenkamp F., Schoellig A. (2015)。🎞️
Tube-MPPI稀疏目标信息下的鲁棒采样型模型预测控制, Williams G. 等 (2018)。🎞️- 机器人中的安全学习:从基于学习的控制到安全强化学习, Lukas Bronke 等 (2021)。:octocat:
风险规避控制
- 安全强化学习综合综述, García J., Fernández F. (2015)。
RA-QMDP不确定性下自动驾驶的风险规避行为规划, Naghshvar M. 等 (2018)。StoROOX武装带兵:优化分位数及其他风险, Torossian L., Garivier A., Picheny V. (2019)。- 最坏情况策略梯度, Tang Y. C. 等 (2019)。
- 无模型风险敏感强化学习, Delétang G. 等 (2021)。
- 支持感知CVaR带兵的最优汤普森采样策略, Baudry D., Gautron R., Kaufmann E., Maillard O. (2021)。
价值约束控制
ICS驾驶座会空着吗?, Fraichard T. (2014)。SafeOPT基于高斯过程的四旋翼无人机安全控制器优化, Berkenkamp F., Schoellig A., Krause A. (2015)。🎞️ :octocat:SafeMDP使用高斯过程在有限马尔可夫决策过程中进行安全探索, Turchetta M., Berkenkamp F., Krause A. (2016)。:octocat:RSS关于安全且可扩展的自动驾驶汽车的形式化模型, Shalev-Shwartz S. 等 (2017)。CPO约束策略优化, Achiam J., Held D., Tamar A., Abbeel P. (2017)。:octocat:RCPO奖励约束策略优化, Tessler C., Mankowitz D., Mannor S. (2018)。BFTQ用于预算型MDP的拟合Q算法, Carrara N. 等 (2018)。SafeMPC基于学习的模型预测控制用于安全探索, Koller T, Berkenkamp F., Turchetta M. Krause A. (2018)。CCE用于安全强化学习的约束交叉熵方法, Wen M., Topcu U. (2018)。:octocat:LTL-RL具有概率保证的自动驾驶强化学习, Bouton M. 等 (2019)。- 通过场景分解进行复杂城市环境导航的安全强化学习, Bouton M. 等 (2019)。:octocat:
- 约束条件下的批量策略学习, Le H., Voloshin C., Yue Y. (2019)。
- 价值约束的无模型连续控制, Bohez S. 等 (2019)。🎞️
- 安全学习控制受约束的线性二次调节器, Dean S. 等 (2019)。
- 以最小的人工干预在现实世界中学会行走, Ha S. 等 (2020) 🎞️
- 通过PID拉格朗日方法实现强化学习中的响应式安全性, Stooke A., Achiam J., Abbeel P. (2020)。:octocat:
Envelope MOQ-Learning多目标强化学习和策略适应的通用算法, Yang R. 等 (2019)。
状态约束控制与稳定性
HJI-reachability控制领域的安全学习:结合扰动估计、可达性分析和强化学习,辅以系统性探索, Heidenreich C. (2017)。MPC-HJI关于将基于可达性的安全保证融入人机交互的概率规划框架, Leung K. 等 (2018)。- 不确定机器人系统中基于学习控制的一般安全框架, Fisac J. 等 (2017)。🎞️
- 具有稳定性保证的安全基于模型的强化学习, Berkenkamp F. 等 (2017)。
Lyapunov-Net安全的交互式基于模型学习, Gallieri M. 等 (2019)。- 在神经网络策略中强制执行鲁棒控制保证, Donti P. 等 (2021)。:octocat:
ATACOM约束流形上的机器人强化学习, Liu P. 等 (2021)。
不确定动力系统
- 受控不确定非线性系统的仿真,Tibken B.,Hofer E.(1995)。
- 动态不确定系统的轨迹计算,Adrot O.,Flaus J-M.(2002)。
- 基于区间模型的不确定动态系统仿真:综述,Puig V.等(2005)。
- 不确定动态系统的区间观测器设计,Efimov D.,Raïssi T.(2016)。
博弈论 :spades:
- 自动驾驶车辆的分层博弈论规划,Fisac J.等(2018)。
- 非线性多玩家一般和微分博弈的高效迭代线性二次近似,Fridovich-Keil D.等(2019)。🎞️
顺序学习 :shoe:
- 预测、学习与博弈,Cesa-Bianchi N.,Lugosi G.(2006)。
多臂老虎机 :slot_machine:
TS根据两个样本的证据,一个未知概率超过另一个的概率研究,Thompson W.(1933)。- 组织学习中的探索与利用,March J.(1991)。
UCB1 / UCB2多臂老虎机问题的有限时间分析,Auer P.,Cesa-Bianchi N.,Fischer P.(2002)。经验贝叶斯 / UCB-V利用方差估计解决多臂老虎机中的探索-利用权衡问题,Audibert J-Y,Munos R.,Szepesvari C.(2009)。- 经验贝叶斯界与样本方差惩罚,Maurer A.,Ponti M.(2009)。
- 汤普森采样的经验评估,Chapelle O.,Li L.(2011)。
kl-UCB有界随机多臂老虎机及其扩展的KL-UCB算法,Garivier A.,Cappé O.(2011)。KL-UCB库尔巴克-莱布勒上置信界用于最优顺序分配,Cappé O.等(2013)。IDS信息导向采样与异方差噪声下的多臂老虎机,Kirschner J.,Krause A.(2018)。
上下文相关
LinUCB基于上下文的带状方法在个性化新闻文章推荐中的应用,Li L.等(2010)。OFUL线性随机多臂老虎机的改进算法,Abbasi-yadkori Y.,Pal D.,Szepesvári C.(2011)。- 具有线性收益函数的上下文多臂老虎机,Chu W.等(2011)。
- 流式置信回归的自归一化技术,Maillard O.-A.(2017)。
- 通过代理从延迟结果中学习及其在推荐系统中的应用,Mann T.等(2018)。(预测场景)
- 非平稳环境下的加权线性多臂老虎机,Russac Y.等(2019)。
- 具有随机延迟反馈的线性多臂老虎机,Vernade C.等(2020)。
最优臂识别 :muscle:
连续淘汰法多臂老虎机和强化学习问题中的动作淘汰与停止条件,Even-Dar E.等(2006)。LUCB随机多臂老虎机中的PAC子集选择,Kalyanakrishnan S.等(2012)。UGapE最优臂识别:固定预算与固定置信度的统一方法,Gabillon V.,Ghavamzadeh M.,Lazaric A.(2012)。序列二分法多臂老虎机中的近乎最优探索,Karnin Z.等(2013)。M-LUCB / M-Racing极大极小动作识别:一种用于博弈的新老虎机框架,Garivier A.,Kaufmann E.,Koolen W.(2016)。跟踪并停止固定置信度下的最优臂识别优化,Garivier A.,Kaufmann E.(2016)。LUCB-micro固定置信度下的结构化最优臂识别,Huang R.等(2017)。
黑箱优化 :black_large_square:
GP-UCB带状情境下的高斯过程优化:无遗憾与实验设计,Srinivas N.,Krause A.,Kakade S.,Seeger M.(2009)。HOOX–武装带状,Bubeck S.,Munos R.,Stoltz G.,Szepesvari C.(2009)。DOO/SOO无需了解函数光滑度的确定性函数乐观优化,Munos R.(2011)。StoOO从带状到蒙特卡洛树搜索:乐观原则在优化与规划中的应用,Munos R.(2014)。StoSOO随机同时乐观优化,Valko M.,Carpentier A.,Munos R.(2013)。POO黑箱环境下噪声函数的优化,且未知其光滑度,Grill J-B.,Valko M.,Munos R.(2015)。EI-GPAlphaGo中的贝叶斯优化,Chen Y.等(2018)
强化学习 :robot:
- 强化学习:综述,Kaelbling L.等(1996)。
理论 :books:
- 在线强化学习的期望误差界模型,Fiechter C-N. (1997)。
UCRL2强化学习的近似最优后悔界,Jaksch T. (2010)。PSRL为什么后验采样比乐观主义更适合强化学习?,Osband I., Van Roy B. (2016)。UCBVI强化学习的极小极大后悔界,Azar M., Osband I., Munos R. (2017)。Q-Learning-UCBQ学习是否可证明高效?,Jin C., Allen-Zhu Z., Bubeck S., Jordan M. (2018)。LSVI-UCB具有线性函数逼近的可证明高效强化学习,Jin C., Yang Z., Wang Z., Jordan M. (2019)。- 基于模型的强化学习中的利普希茨连续性,Asadi K. 等 (2018)。
- 关于强化学习中的函数逼近:面对大规模状态空间时的乐观主义,Yang Z., Jin C., Wang Z., Wang M., Jordan M. (2021)
生成模型
QVI关于具有生成模型的强化学习的样本复杂度,Azar M., Munos R., Kappen B. (2012)。- 基于生成模型的强化学习在极小极大意义上是最优的,Agarwal A. 等 (2019)。
策略梯度
- 具有函数逼近的强化学习中的策略梯度方法,Sutton R. 等 (2000)。
- 近似最优的近似强化学习,Kakade S., Langford J. (2002)。
- 关于策略梯度方法的理论:最优性、近似与分布偏移,Agarwal A. 等 (2019)
- PC-PG:策略覆盖引导探索以实现可证明的策略梯度学习,Agarwal A. 等 (2020)
- 策略梯度真的是梯度吗?,Nota C., Thomas P. S. (2020)。
线性系统
- 线性系统的 PAC 自适应控制,Fiechter C.-N. (1997)
OFU-LQ线性二次系统的自适应控制的后悔界,Abbasi-Yadkori Y., Szepesvari C. (2011)。TS-LQ线性二次控制问题中汤普森采样的改进后悔界,Abeille M., Lazaric A. (2018)。- 线性系统中使用汤普森采样的探索-利用,Abeille M. (2017)。(博士论文)
Coarse-Id线性二次调节器的样本复杂度研究,Dean S., Mania H., Matni N., Recht B., Tu S. (2017)。- 线性二次调节器鲁棒自适应控制的后悔界,Dean S. 等 (2018)。
- 线性二次强化学习中的鲁棒探索,Umenberger J. 等 (2019)。
- 带有对抗性干扰的在线控制,Agarwal N. 等 (2019)。
- 在线控制的对数后悔,Agarwal N. 等 (2019)。
基于价值 :chart_with_upwards_trend:
NFQ神经拟合 Q 迭代——一种数据高效的神经强化学习方法的首次尝试,Riedmiller M. (2005)。DQN用深度强化学习玩雅达利游戏,Mnih V. 等 (2013)。🎞️DDQN采用双重 Q 学习的深度强化学习,van Hasselt H., Silver D. 等 (2015)。DDDQN用于深度强化学习的决斗网络架构,Wang Z. 等 (2015)。🎞️PDDDQN优先经验回放,Schaul T. 等 (2015)。NAF基于模型加速的连续深度 Q 学习,Gu S. 等 (2016)。Rainbow彩虹:结合深度强化学习中的多项改进,Hessel M. 等 (2017)。Ape-X DQfD观察并看得更远:在雅达利游戏中实现稳定表现,Pohlen T. 等 (2018)。🎞️
基于策略 :muscle:
策略梯度
REINFORCE用于连接主义强化学习的简单统计梯度跟随算法,威廉姆斯 R.(1992)。自然梯度一种自然策略梯度,卡卡德 S.(2002)。- 用于机器人的策略梯度方法,彼得斯 J.、沙尔 S.(2006)。
TRPO信任域策略优化,舒尔曼 J. 等(2015)。🎞️PPO近端策略优化算法,舒尔曼 J. 等(2017)。🎞️DPPO丰富环境中的运动行为涌现,希斯 N. 等(2017)。🎞️
演员-评论家
AC具有函数逼近的强化学习中的策略梯度方法,萨顿 R. 等(1999)。NAC自然演员-评论家,彼得斯 J. 等(2005)。DPG确定性策略梯度算法,西尔弗 D. 等(2014)。DDPG深度强化学习下的连续控制,利利克拉普 T. 等(2015)。🎞️ 1 | 2 | 3 | 4MACE利用深度强化学习实现地形自适应运动技能,彭 X.、伯塞斯 G.、范德潘内 M.(2016)。🎞️ | 🎞️A3C深度强化学习的异步方法,米尼 V. 等(2016)。🎞️ 1 | 2 | 3SAC软演员-评论家:带有随机演员的离策略最大熵深度强化学习,哈尔诺亚 T. 等(2018)。🎞️MPO最大后验策略优化,阿卜杜勒马莱基 A. 等(2018)。- 对演员-评论家算法中折扣率不匹配的深入研究,张 S.、拉罗什 R. 等(2020)。
无导数方法
CEM使用噪声交叉熵法学习俄罗斯方块,斯齐塔 I.、洛林茨 A.(2006)。🎞️CMAES进化策略中的完全去随机化自适应,汉森 N.、奥斯特迈尔 A.(2001)。NEAT通过拓扑增殖进化神经网络,斯坦利 K.(2002)。🎞️iCEM用于实时规划的高效样本交叉熵法,平内里 C. 等(2020)。
基于模型的 :world_map:
Dyna基于近似动态规划的学习、规划和反应的集成架构, Sutton R. (1990).PILCOPILCO:一种基于模型且数据高效的策略搜索方法, Deisenroth M., Rasmussen C. (2011). (演讲)DBN用于汽车的概率MDP行为规划, Brechtel S. 等 (2011).GPS深度视觉-运动策略的端到端训练, Levine S. 等 (2015). 🎞️DeepMPCDeepMPC:为模型预测控制学习深层潜在特征, Lenz I. 等 (2015). 🎞️SVG通过随机价值梯度学习连续控制策略, Heess N. 等 (2015). 🎞️FARNN使用深度动态神经网络进行非线性系统辨识, Ogunmolu O. 等 (2016). :octocat:- 利用学习到的局部模型进行最优控制:应用于灵巧操作, Kumar V. 等 (2016). 🎞️
BPTT通过短期预测实现长期规划, Shalev-Shwartz S. 等 (2016). 🎞️ 1 | 2- 用于规划机器人运动的深度视觉预见, Finn C., Levine S. (2016). 🎞️
VIN价值迭代网络, Tamar A. 等 (2016). 🎞️VPN价值预测网络, Oh J. 等 (2017).DistGBP基于模型的离散与连续动作规划, Henaff M. 等 (2017). 🎞️ 1 | 2- 基于时间片段模型的预测与控制, Mishra N. 等 (2017).
PredictronPredictron:端到端学习与规划, Silver D. 等 (2017). 🎞️MPPI面向基于模型强化学习的信息论MPC, Williams G. 等 (2017). :octocat: 🎞️- 通过“梦想”学习真实世界机器人策略, Piergiovanni A. 等 (2018).
- 利用深度学习对车辆进行纵向与横向联合控制, Devineau G., Polack P., Alchté F., Moutarde F. (2018) 🎞️
PlaNet从像素中学习潜在动力学以进行规划, Hafner 等 (2018). 🎞️NeuralLanderNeural Lander:利用学习到的动力学实现稳定的无人机着陆控制, Shi G. 等 (2018). 🎞️DBN+POMCP[面向高速公路场景下自动驾驶车辆的人类化预测与决策] (https://tel.archives-ouvertes.fr/tel-02184362), Sierra Gonzalez D. (2019).- 基于目标条件的策略规划, Nasiriany S. 等 (2019). 🎞️
MuZero通过基于学习模型的规划掌握Atari、围棋、国际象棋和将棋, Schrittwiese J. 等 (2019). :octocat:BADGRBADGR:一种自主的自监督学习导航系统, Kahn G., Abbeel P., Levine S. (2020). 🎞️ :octocat:H-UCRL通过乐观策略搜索与规划实现高效的基于模型强化学习, Curi S., Berkenkamp F., Krause A. (2020). :octocat:
探索 :tent:
- 用内在恐惧对抗强化学习的西西弗斯式诅咒, Lipton Z. 等 (2016).
伪计数统一基于计数的探索与内在动机, Bellemare M. 等 (2016). 🎞️HER事后经验回放, Andrychowicz M. 等 (2017). 🎞️VHER视觉事后经验回放, Sahni H. 等 (2019).RND通过随机网络蒸馏进行探索, Burda Y. 等 (OpenAI) (2018). 🎞️Go-ExploreGo-Explore:一种解决困难探索问题的新方法, Ecoffet A. 等 (Uber) (2018). 🎞️C51-IDS面向深度强化学习的信息导向探索, Nikolov N., Kirschner J., Berkenkamp F., Krause A. (2019). :octocat:Plan2Explore通过自监督世界模型规划探索, Sekar R. 等 (2020). 上演 :octocat:RIDERIDE:奖励由影响驱动的程序化生成环境中的探索, Raileanu R., Rocktäschel T. (2020). :octocat:
层次结构与时间抽象 :clock2:
- 在马尔可夫决策过程与半马尔可夫决策过程之间:强化学习中的时间抽象框架,萨顿 R. 等(1999)。
- 内在动机驱动的层次化技能集合学习,巴托 A. 等(2004)。
OC选项评论家架构,培根 P-L.、哈布 J.、普雷库普 D.(2016)。- 调制型运动控制器的学习与迁移,希斯 N. 等(2016)。🎞️
- 面向自动驾驶的安全多智能体强化学习,沙列夫-施瓦茨 S. 等(2016)。
FuNs用于层次强化学习的封建网络,韦日涅维茨 A. 等(2017)。- 结合神经网络与树搜索的复杂环境任务与运动规划,帕克斯顿 C. 等(2017)。🎞️
DeepLocoDeepLoco:基于层次深度强化学习的动态运动技能,彭 X. 等(2017)。🎞️ | 🎞️- 通过自我博弈实现机器人乒乓球样本高效学习的层次策略设计,马朱里安 R. 等(2018)。🎞️
DACDAC:用于学习选项的双演员-评论家架构,张 S.、怀特森 S.(2019)。- 基于层次Sim2Real的运动式多智能体操作,纳楚姆 O. 等(2019)。🎞️
- SoftCon:具有仿生执行器的软体动物仿真与控制,闵 S. 等(2020)。🎞️ :octocat:
H-REIL基于强化学习的近事故驾驶模仿策略控制,曹 Z. 等(2020)。🎞️ 1, 2
部分可观测性 :eye:
PBVI基于点的价值迭代:POMDPs 的随时可用算法,派诺 J. 等(2003)。cPBVI连续 POMDPs 的基于点的价值迭代,波塔 J. 等(2006)。POMCP大型 POMDPs 中的蒙特卡洛规划,西尔弗 D.、维内斯 J.(2010)。- 不确定性下的机器人运动规划的 POMDP 方法,杜 Y. 等(2010)。
- 全自动驾驶中变道的基于概率的在线 POMDP 决策,乌尔布里希 S.、毛雷尔 M.(2013)。
- 求解连续 POMDPs:带有高效空间表示增量学习的价值迭代,布雷赫特尔 S. 等(2013)。
- 使用连续 POMDPs 进行自动驾驶的不确定性下概率决策,布雷赫特尔 S. 等(2014)。
MOMDP意图感知的运动规划,班迪奥帕迪亚 T. 等(2013)。DNC利用具有动态外部记忆的神经网络进行混合计算,格雷夫斯 A. 等(2016)。🎞️- 推断交通参与者内部状态对自动驾驶高速公路行驶的价值,桑伯格 Z. 等(2017)。
- 用于自主导航城市交叉口的信任状态规划,布顿 M.、科斯贡 A.、科亨德费尔 M.(2017)。
- 针对自动驾驶的传感器遮挡情况下的可扩展决策,布顿 M. 等(2018)。
- 道路交叉口的概率决策:公式化与定量评估,巴比耶 M.、洛吉耶 C.、西莫宁 O.、伊巴涅斯 J.(2018)。
- 美女与野兽:无人机竞速中的最优方法与学习,考夫曼 E. 等(2018)。上演示视频
社会感知具备社会感知能力的自动驾驶汽车行为规划,孙 L. 等(2019)。
迁移学习 :earth_americas:
IT&E能够像动物一样适应的机器人,Cully A., Clune J., Tarapore D., Mouret J-B. (2014)。🎞️MAML用于深度网络快速适应的模型无关元学习,Finn C., Abbeel P., Levine S. (2017)。🎞️- 自动驾驶中的虚拟到现实强化学习,Pan X. 等 (2017)。🎞️
- 从仿真到现实:四足机器人的敏捷运动学习,Tan J. 等 (2018)。🎞️
ME-TRPO模型集成信任区域策略优化,Kurutach T. 等 (2018)。🎞️- 深度强化学习的启动,Schmitt S. 等 (2018)。
- 学习灵巧的手部操作,OpenAI (2018)。🎞️
GrBAL / ReBAL通过元强化学习在动态的真实环境中学习适应,Nagabandi A. 等 (2018)。🎞️- 为足式机器人学习敏捷且动态的运动技能,Hwangbo J. 等 (ETH Zurich / Intel ISL) (2019)。🎞️
- 基于深度强化学习的四足机器人鲁棒恢复控制器,Lee J., Hwangbo J., Hutter M. (ETH Zurich RSL) (2019)
IT&E使用“智能试错”算法学习和适应四足步态,Dalin E., Desreumaux P., Mouret J-B. (2019)。🎞️FAMLE通过模拟先验的元学习嵌入实现机器人领域的快速在线适应,Kaushik R., Anne T., Mouret J-B. (2020)。🎞️- 针对观测值对抗性扰动的鲁棒深度强化学习,Zhang H. 等 (2020)。:octocat:
- 在复杂地形上学习四足运动,Lee J. 等 (2020)。🎞️
PACOHPACOH:具有PAC保证的贝叶斯最优元学习,Rothfuss J., Fortuin V., Josifoski M., Krause A. (2021)。- 基于模型的领域泛化,Robey A. 等 (2021)。
SimGANSimGAN:通过对抗性强化学习进行领域适应的混合模拟器识别,Jiang Y. 等 (2021)。🎞️ :octocat:- 为野外四足机器人学习鲁棒的感知运动,Miki T. 等 (2022)。
多智能体 :two_men_holding_hands:
Minimax-Q马尔可夫博弈作为多智能体强化学习的框架,M. Littman (1994)。- 自主智能体对其他智能体的建模:综合综述与开放问题,Albrecht S., Stone P. (2017)。
MILP沿指定路径的移动机器人时间最优协调,Altché F. 等 (2016)。🎞️MIQP用于协同半自主车辆监督驾驶的算法,Altché F. 等 (2017)。🎞️SA-CADRL基于深度强化学习的社会意识运动规划,Chen Y. 等 (2017)。🎞️- 基于变点的行为预测的自动驾驶多策略决策:理论与实验,Galceran E. 等 (2017)。
- 面向可扩展自治系统的在线决策,Wray K. 等 (2017)。
MAgentMAgent:用于人工群体智能的多智能体强化学习平台,Zheng L. 等 (2017)。🎞️- 利用价值迭代网络进行非完整约束智能体的协作运动规划,Rehder E. 等 (2017)。
MPPO通过深度强化学习实现最优去中心化的多机器人避障,Long P. 等 (2017)。🎞️COMA反事实多智能体策略梯度,Foerster J. 等 (2017)。MADDPG用于混合合作—竞争环境的多智能体演员—评论家,Lowe R. 等 (2017)。:octocat:FTW基于群体的深度强化学习在第一人称多人游戏中达到人类水平的表现,Jaderberg M. 等 (2018)。🎞️- 通过自我博弈学习多智能体谈判的尝试,Tang Y. C. (2020)。
MAPPOMAPPO在合作性多智能体游戏中的惊人效果,Yu C. 等 (2021)。|:octocat:](https://github.com/marlbenchmark/on-policy)- 多智能体强化学习,Yang Y. (2021)
表征学习
- 最优控制中的可变分辨率离散化,Munos R., Moore A. (2002)。🎞️
DeepDrivingDeepDriving:在自动驾驶中学习直接感知的可供性,Chen C. 等 (2015)。🎞️- 端到端训练与语义抽象训练的样本复杂度比较,Shalev-Shwartz S. 等 (2016)。
- 利用稀疏编码在强化学习中学习稀疏表征,Le L., Kumaraswamy M., White M. (2017)。
- 世界模型,Ha D., Schmidhuber J. (2018)。🎞️ :octocat:
- 一天学会驾驶,Kendall A. 等 (2018)。🎞️
MERLIN目标导向智能体中的无监督预测性记忆,Wayne G. 等 (2018)。🎞️ 1 | 2 | 3 | 4 | 5 | 6- 变分端到端导航与定位,Amini A. 等 (2018)。🎞️
- 理解视觉与触觉:面向接触密集型任务的多模态表征自监督学习,Lee M. 等 (2018)。🎞️
- 递归与离散世界模型的深度神经进化,Risi S., Stanley K.O. (2019)。🎞️ :octocat:
FERM高效机器人操作框架,Zhan A., Zhao R. 等 (2021)。:octocat:S4RLS4RL:离线强化学习中出人意料的简单自监督方法,Sinha S. 等 (2021)。
离线
SPI-BB基于基线自助法的安全策略改进,Laroche R. 等 (2019)。AWACAWAC:利用离线数据集加速在线强化学习,Nair A. 等 (2020)。CQL用于离线强化学习的保守Q学习,Kumar A. 等 (2020)。- 决策变换器:通过序列建模进行强化学习,Chen L., Lu K. 等 (2021)。:octocat:
- 将强化学习视为一个大型序列建模问题,Janner M., Li Q., Levine S. (2021)。
其他
- 贝尔曼残差是一个糟糕的代理吗?,Geist M., Piot B., Pietquin O. (2016)。
- 重要的深度强化学习,Henderson P. 等 (2017)。
- 利用深度强化学习进行自动桥牌叫牌,Yeh C. 和 Lin H. (2016)。
- 通过深度强化学习实现共享自主,Reddy S. 等 (2018)。🎞️
- 强化学习与控制作为概率推理:教程与综述,Levine S. (2018)。
- 强化学习中的值函数多面体,Dadashi R. 等 (2019)。
- 关于值函数与智能体-环境边界,Jiang N. (2019)。
- 如何用深度强化学习训练你的机器人;我们学到的经验,Ibartz J. 等 (2021)。
示范学习 :mortar_board:
模仿学习
DAgger模仿学习和结构化预测向无悔在线学习的约简,Ross S., Gordon G., Bagnell J. A. (2011)。QMDP-RCNN通过循环卷积神经网络进行强化学习,Shankar T. 等 (2016)。(演讲)DQfD为现实世界强化学习从示范中学习,Hester T. 等 (2017)。上演- 找到属于自己的路:城市自主驾驶中路径建议的弱监督分割,Barnes D., Maddern W., Posner I. (2016)。上演
GAIL生成对抗式模仿学习,Ho J., Ermon S. (2016)。- 从感知到决策:一种数据驱动的端到端运动规划方法,用于自主地面机器人,Pfeiffer M. 等 (2017)。上演
Branched通过条件模仿学习实现端到端驾驶,Codevilla F. 等 (2017)。上演 | 演讲UPN通用规划网络,Srinivas A. 等 (2018)。上演DeepMimicDeepMimic:基于物理的角色技能示例引导深度强化学习,Peng X. B. 等 (2018)。上演R2P2用于灵活推理、规划和控制的深度模仿模型,Rhinehart N. 等 (2018)。上演- 通过模仿动物学习敏捷的机器人运动技能,Bin Peng X. 等 (2020)。上演
- 用于灵活推理、规划和控制的深度模仿模型,Rhinehart N., McAllister R., Levine S. (2020)。
自动驾驶应用 :car:
- ALVINN:基于神经网络的自主陆地车辆,Pomerleau D. (1989)。
- 面向自动驾驶汽车的端到端学习,Bojarski M. 等 (2016)。🎞️
- 基于大规模视频数据集的驾驶模型端到端学习,Xu H.、Gao Y. 等 (2016)。🎞️
- 考虑时间依赖性的自动驾驶车辆转向端到端深度学习,Eraqi H. 等 (2017)。
- 像人类一样驾驶:使用卷积神经网络进行路径规划的模仿学习,Rehder E. 等 (2017)。
- 利用生成对抗网络模仿驾驶员行为,Kuefler A. 等 (2017)。
PS-GAIL用于驾驶模拟的多智能体模仿学习,Bhattacharyya R. 等 (2018)。🎞️ :octocat:- 在通用城市场景中增强安全性的自动驾驶深度模仿学习,Chen J. 等 (2019)。
逆强化学习
Projection通过逆强化学习进行学徒式学习,Abbeel P.、Ng A. (2004)。MMP最大间隔规划,Ratliff N. 等 (2006)。BIRL贝叶斯逆强化学习,Ramachandran D.、Amir E. (2007)。MEIRL最大熵逆强化学习,Ziebart B. 等 (2008)。LEARCH学习搜索:用于模仿学习的函数梯度技术,Ratliff N.、Siver D.、Bagnell A. (2009)。CIOC具有局部最优示例的连续逆最优控制,Levine S.、Koltun V. (2012)。🎞️MEDIRL最大熵深度逆强化学习,Wulfmeier M. (2015)。GCL引导成本学习:通过策略优化实现的深度逆最优控制,Finn C. 等 (2016)。🎞️RIRL重复逆强化学习,Amin K. 等 (2017)。- 弥合模仿学习与逆强化学习之间的差距,Piot B. 等 (2017)。
自动驾驶应用 :taxi:
- 用于运动规划的学徒式学习及其在停车场导航中的应用,Abbeel P. 等 (2008)。
- 像出租车司机一样导航:基于观察到的情境感知行为的概率推理,Ziebart B. 等 (2008)。
- 基于规划的行人预测,Ziebart B. 等 (2009)。🎞️
- 自主导航的学习,Bagnell A. 等 (2010)。
- 从专家演示中学习自动驾驶风格和操作,Silver D. 等 (2012)。
- 从演示中学习自动驾驶车辆的驾驶风格,Kuderer M. 等 (2015)。
- 利用逆强化学习和深度Q网络学习驾驶,Sharifzadeh S. 等 (2016)。
- 请关注:城市环境中路径规划的可扩展成本函数学习,Wulfmeier M. (2016)。🎞️
- 为能够利用对人类行为影响的自动驾驶汽车进行规划,Sadigh D. 等 (2016)。
- 用于处理城市自动驾驶中困境的学习框架,Lee S.、Seo S. (2017)。
- 利用基于能量模型的朗之万采样进行连续逆最优控制的轨迹预测学习,Xu Y. 等 (2019)。
- 基于逆强化学习分析成本函数在解释和模仿人类驾驶行为中的适用性,Naumann M. 等 (2020)。
运动规划 :running_man:
搜索
Dijkstra关于图论中两个问题的一则注记,Dijkstra E. W. (1959)。A*启发式确定最小成本路径的正式基础,Hart P. 等 (1968)。- 为自动驾驶车辆规划长距离动态可行的操作,Likhachev M.、Ferguson D. (2008)。
- 在弗雷内坐标系下为动态街道场景生成最优轨迹,Werling M.、Kammel S. (2010)。🎞️
- 面向自动驾驶和协同汽车的3D感知与规划,Stiller C.、Ziegler J. (2012)。
- 面向道路自动驾驶的不确定性下的运动规划,Xu W. 等 (2014)。
- 蒙特卡洛树搜索用于模拟赛车,Fischer J. 等 (2015)。🎞️
采样
RRT*用于最优运动规划的基于采样的算法,Karaman S., Frazzoli E. (2011)。🎞️LQG-MPLQG-MP:针对具有运动不确定性及不完全状态信息的机器人优化路径规划,van den Berg J. 等 (2010)。- 在信念空间中使用微分动态规划进行不确定性下的运动规划,van den Berg J. 等 (2011)。
- 用于不确定性下运动规划的快速探索随机信念树,Bry A., Roy N. (2011)。
PRM-RLPRM-RL:结合强化学习与基于采样的规划实现长距离机器人导航任务,Faust A. 等 (2017)。
优化
- 为“伯莎”号规划轨迹——一种局部、连续的方法,Ziegler J. 等 (2014)。
- 学习吸引子景观以获取运动基元,Ijspeert A. 等 (2002)。
- 基于非欧几里得旋转群的非线性模型预测控制的在线运动规划,Rösmann C. 等 (2020)。:octocat:
反应式
PF机械臂与移动机器人实时避障,Khatib O. (1986)。VFH矢量场直方图——移动机器人快速避障方法,Borenstein J. (1991)。VFH+VFH+:适用于高速移动机器人的可靠避障方法,Ulrich I., Borenstein J. (1998)。速度障碍利用速度障碍在动态环境中进行运动规划,Fiorini P., Shillert Z. (1998)。
架构与应用
- 自动驾驶车辆运动规划技术综述,González D. 等 (2016)。
- 城市自动驾驶车辆运动规划与控制技术综述,Paden B. 等 (2016)。
- 城市环境中的自动驾驶:Boss 与城市挑战赛,Urmson C. 等 (2008)。
- 麻省理工学院—康奈尔大学碰撞事件及其原因分析,Fletcher L. 等 (2008)。
- 让“伯莎”号行驶——一次沿历史路线的自动驾驶之旅,Ziegler J. 等 (2014)。
相似工具推荐
Deep-Live-Cam
Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
MoneyPrinterTurbo
MoneyPrinterTurbo 是一款利用 AI 大模型技术,帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词,它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程,最终输出完整的竖屏或横屏短视频。 这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者,还是希望尝试视频生成的普通用户,无需具备专业的剪辑技能或昂贵的硬件配置(普通电脑即可运行),都能轻松上手。同时,其清晰的 MVC 架构和对多种主流大模型(如 DeepSeek、Moonshot、通义千问等)的广泛支持,也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成,允许用户精细调整字幕样式和画面比例,还特别优化了国内网络环境下的模型接入方案,让用户无需依赖 VPN 即可使用高性能国产大模型。此外,工具提供批量生成模式,可一次性产出多个版本供用户择优,极大地提升了内容创作的效率与质量。
oh-my-openagent
oh-my-openagent(简称 omo)是一款强大的开源智能体编排框架,前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒,解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案,omo 倡导开放市场理念,支持灵活调度多种主流大模型:利用 Claude、Kimi 或 GLM 进行任务编排,调用 GPT 处理复杂推理,借助 Minimax 提升响应速度,或发挥 Gemini 的创意优势。 这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口,用户可以轻松组合不同模型的长处,构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构,让用户不再受制于某一家公司的策略变动或定价调整,真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手,还是开发多步骤任务处理流程,oh-my-openagent 都能提供灵活且稳健的基础设施支持,助力用户在快速演进的 AI 生态中保持技术主动权。
tabby
Tabby 是一款可私有化部署的开源 AI 编程助手,旨在为开发团队提供 GitHub Copilot 的安全替代方案。它核心解决了代码辅助过程中的数据隐私顾虑与云端依赖问题,让企业能够在完全掌控数据的前提下享受智能代码补全、聊天问答及上下文理解带来的效率提升。 这款工具特别适合注重代码安全的企业开发团队、希望本地化运行大模型的科研机构,以及拥有消费级显卡的个人开发者。Tabby 的最大亮点在于其“开箱即用”的自包含架构,无需配置复杂的数据库或依赖云服务即可快速启动。同时,它对硬件十分友好,支持在普通的消费级 GPU 上流畅运行,大幅降低了部署门槛。此外,Tabby 提供了标准的 OpenAPI 接口,能轻松集成到现有的云 IDE 或内部开发流程中,并支持通过 REST API 接入自定义文档以增强知识上下文。从代码自动补全到基于 Git 仓库的智能问答,Tabby 致力于成为开发者身边懂业务、守安全的智能伙伴。
generative-models
Generative Models 是 Stability AI 推出的开源项目,核心亮点在于最新发布的 Stable Video 4D 2.0(SV4D 2.0)。这是一个先进的视频转 4D 扩散模型,旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况,且生成的动态细节容易模糊,而 SV4D 2.0 通过改进的架构,显著提升了运动中的画面锐度与时空一致性,无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。 该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者,它提供了探索 4D 生成前沿的完整代码与训练权重;对于开发者,其支持自动回归生成长视频及低显存优化选项,便于集成与调试;对于设计师,它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面,SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角(或 5 帧对应 8 视角),分辨率达 576x576,并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频,