phd-bibliography

976 208 非常简单 1 次阅读 2周前视频

AI 解读由 AI 自动生成，仅供参考

phd-bibliography 是一个专为最优控制、强化学习与运动规划领域打造的开源文献知识库。它系统性地梳理了从动态规划、线性规划到模型预测控制等经典理论，并深入涵盖了安全控制、博弈论、序列学习及模仿学习等前沿方向。

面对相关领域文献浩如烟海、知识体系庞杂的痛点，phd-bibliography 通过结构化的目录分类，将分散的学术论文、经典著作和关键技术（如 MCTS、REPS、Actor-Critic 等）整合成一张清晰的学习地图。它不仅罗列资源，更按算法流派与应用场景（如自动驾驶）进行逻辑串联，帮助用户快速定位核心资料，理清技术演进脉络。

这份资源特别适合人工智能领域的研究人员、硕博研究生以及算法工程师使用。无论是刚入门需要构建知识框架的新手，还是资深专家希望查漏补缺、追踪最新进展，都能从中获益。其独特的亮点在于极高的专业度与细致的分类颗粒度，不仅包含基础理论，还细分至“无导数优化”、“分层时序抽象”等具体技术点，是从事智能决策与机器人控制研究不可或缺的案头参考指南。

使用场景

某自动驾驶初创公司的算法工程师正在研发一套基于强化学习的城市道路决策系统，急需梳理最优控制与运动规划领域的理论基石以突破瓶颈。

没有 phd-bibliography 时

文献检索如大海捞针：在 Google Scholar 上搜索"Safe Control"或"Model-based RL"时，返回成千上万篇论文，难以区分哪些是奠基性经典，哪些是过时方法。
知识体系支离破碎：手动整理的参考文献缺乏系统性，容易遗漏动态规划、博弈论或多智能体协同等关键分支的理论联系，导致算法架构设计存在盲区。
复现基准难以确立：面对黑盒优化或逆强化学习等细分方向，找不到权威的开源实现参考或标准测试用例（如 REPS 算法的具体出处），浪费大量时间验证基础理论。
跨领域融合困难：难以快速定位将“风险规避控制”与“分层时序抽象”结合的前沿交叉研究，限制了复杂场景下的策略创新能力。

使用 phd-bibliography 后

精准锁定核心经典：直接查阅其分类清晰的目录，瞬间获取从 Bellman 动态规划到现代 MCTS 的必读清单，大幅缩短文献调研周期。
构建完整知识图谱：依托其结构化的大纲（涵盖从理论推导到自动驾驶应用的全链路），快速建立起从状态约束控制到不确定性系统处理的系统化认知框架。
高效复现权威算法：通过列表中提供的精确论文链接（如 Peters 的相对熵策略搜索），迅速找到算法源头与数学证明，为代码复现提供坚实依据。
激发交叉创新灵感：利用其独特的分类视角（如将模仿学习与逆向强化学习并列对比），快速发现多智能体博弈与表示学习的结合点，加速新策略原型的诞生。

phd-bibliography 将原本散乱的学术海洋浓缩为一张精准的导航图，让研发人员能从繁琐的文献筛选中解放出来，专注于核心算法的突破与创新。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目并非可执行的软件工具或代码库，而是一个学术文献综述列表（Bibliography），涵盖了最优控制、安全控制、博弈论、强化学习等领域的经典论文和书籍。因此，它没有特定的操作系统、硬件配置、Python 版本或依赖库要求。用户只需通过提供的链接阅读相关文献即可。

python未说明

快速开始

参考文献

最优控制 :dart:

动态规划

(书) 动态规划, 贝尔曼 R. (1957).
(书) 动态规划与最优控制，第1卷和第2卷, 伯特塞卡斯 D. (1995).
(书) 马尔可夫决策过程——离散随机动态规划, 普特曼 M. (1995).
近似最优值函数带来的损失上界, 辛格 S., 耶 R. (1994).
迎风帆船赛中航行轨迹的随机优化, 达朗 R. 等 (2015).

线性规划

(书) 马尔可夫决策过程——离散随机动态规划, 普特曼 M. (1995).
REPS 相对熵策略搜索, 彼得斯 J. 等 (2010).

基于树的规划

ExpectiMinimax 具有随机节点的游戏中的最优策略，Melkó E.、Nagy B.（2007年）。
Sparse sampling 大型马尔可夫决策过程中的近似最优规划的稀疏采样算法，Kearns M. 等（2002年）。
MCTS 蒙特卡洛树搜索中的高效选择与备份算子，Rémi Coulom，SequeL（2006年）。
UCT 基于赌博机的蒙特卡洛规划，Kocsis L.、Szepesvári C.（2006年）。
用于树搜索的赌博机算法，Coquelin P-A.、Munos R.（2007年）。
OPD 确定性系统的乐观规划，Hren J.、Munos R.（2008年）。
OLOP 开环乐观规划，Bubeck S.、Munos R.（2010年）。
SOOP 连续动作确定性系统的乐观规划，Buşoniu L. 等（2011年）。
OPSS 稀疏随机系统的乐观规划，L. Buşoniu、R. Munos、B. De Schutter 和 R. Babuska（2011年）。
HOOT 连续动作马尔可夫决策过程中的基于样本的规划，Mansley C.、Weinstein A.、Littman M.（2011年）。
HOLOP 连续动作马尔可夫决策过程中的基于赌博机的规划与学习，Weinstein A.、Littman M.（2012年）。
BRUE 马尔可夫决策过程在线规划中的简单遗憾优化，Feldman Z. 和 Domshlak C.（2014年）。
LGP 逻辑几何规划：一种基于优化的组合任务与运动规划方法，Toussaint M.（2015年）。🎞️
AlphaGo 利用深度神经网络和树搜索掌握围棋游戏，Silver D. 等（2016年）。
AlphaGo Zero 无需人类知识即可掌握围棋游戏，Silver D. 等（2017年）。
AlphaZero 通过通用强化学习算法的自我对弈掌握国际象棋和将棋，Silver D. 等（2017年）。
TrailBlazer 在开辟道路之前先铺路：高效的蒙特卡洛规划，Grill J. B.、Valko M.、Munos R.（2017年）。
MCTSnets 使用 MCTSnets 学习搜索，Guez A. 等（2018年）。
ADI 无需人类知识解决魔方问题，McAleer S. 等（2018年）。
OPC/SOPC 具有 Lipschitz 值的折扣无限 horizon 非线性最优控制的连续动作规划，Buşoniu L.、Pall E.、Munos R.（2018年）。
带有悲观情景的实时树搜索：赢得 2018 年 NeurIPS Pommerman 比赛，Osogami T.、Takahashi T.（2019年）

控制理论

（书籍）最优过程的数学理论，L. S. Pontryagin、Boltyanskii V. G.、Gamkrelidze R. V. 和 Mishchenko E. F.（1962年）。
（书籍）约束控制与估计，Goodwin G.（2005年）。
PI² 强化学习的广义路径积分控制方法，Theodorou E. 等（2010年）。
PI²-CMA 协方差矩阵自适应的路径积分策略改进，Stulp F.、Sigaud O.（2010年）。
iLQG 用于约束非线性随机系统局部最优反馈控制的广义迭代 LQG 方法，Todorov E.（2005年）。:octocat:
iLQG+ 通过在线轨迹优化合成与稳定复杂行为，Tassa Y.（2012年）。

模型预测控制

（书籍）模型预测控制，Camacho E.（1995年）。
（书籍）具有约束的预测控制，Maciejowski J. M.（2002年）。
低曲率道路上的车道保持与障碍物避让的线性模型预测控制，Turri V. 等（2013年）。
MPCC 基于优化的 1:43 比例遥控车自主竞速，Liniger A. 等（2014年）。🎞️ | 🎞️
MIQP 整合逻辑约束的自动驾驶最优轨迹规划：MIQP 视角，Qian X.、Altché F.、Bender P.、Stiller C. de La Fortelle A.（2016年）。

安全控制 :lock:

鲁棒控制

随机问题的极小极大分析, Shapiro A., Kleywegt A. (2002)。
Robust DP 鲁棒动态规划, Iyengar G. (2005)。
鲁棒规划与优化, Laumanns M. (2011)。（讲义）
鲁棒马尔可夫决策过程, Wiesemann W., Kuhn D., Rustem B. (2012)。
基于高斯过程的安全鲁棒学习控制, Berkenkamp F., Schoellig A. (2015)。🎞️
Tube-MPPI 稀疏目标信息下的鲁棒采样型模型预测控制, Williams G. 等 (2018)。🎞️
机器人中的安全学习：从基于学习的控制到安全强化学习, Lukas Bronke 等 (2021)。:octocat:

风险规避控制

安全强化学习综合综述, García J., Fernández F. (2015)。
RA-QMDP 不确定性下自动驾驶的风险规避行为规划, Naghshvar M. 等 (2018)。
StoROO X武装带兵：优化分位数及其他风险, Torossian L., Garivier A., Picheny V. (2019)。
最坏情况策略梯度, Tang Y. C. 等 (2019)。
无模型风险敏感强化学习, Delétang G. 等 (2021)。
支持感知CVaR带兵的最优汤普森采样策略, Baudry D., Gautron R., Kaufmann E., Maillard O. (2021)。

价值约束控制

ICS 驾驶座会空着吗？, Fraichard T. (2014)。
SafeOPT 基于高斯过程的四旋翼无人机安全控制器优化, Berkenkamp F., Schoellig A., Krause A. (2015)。🎞️ :octocat:
SafeMDP 使用高斯过程在有限马尔可夫决策过程中进行安全探索, Turchetta M., Berkenkamp F., Krause A. (2016)。:octocat:
RSS 关于安全且可扩展的自动驾驶汽车的形式化模型, Shalev-Shwartz S. 等 (2017)。
CPO 约束策略优化, Achiam J., Held D., Tamar A., Abbeel P. (2017)。:octocat:
RCPO 奖励约束策略优化, Tessler C., Mankowitz D., Mannor S. (2018)。
BFTQ 用于预算型MDP的拟合Q算法, Carrara N. 等 (2018)。
SafeMPC 基于学习的模型预测控制用于安全探索, Koller T, Berkenkamp F., Turchetta M. Krause A. (2018)。
CCE 用于安全强化学习的约束交叉熵方法, Wen M., Topcu U. (2018)。:octocat:
LTL-RL 具有概率保证的自动驾驶强化学习, Bouton M. 等 (2019)。
通过场景分解进行复杂城市环境导航的安全强化学习, Bouton M. 等 (2019)。:octocat:
约束条件下的批量策略学习, Le H., Voloshin C., Yue Y. (2019)。
价值约束的无模型连续控制, Bohez S. 等 (2019)。🎞️
安全学习控制受约束的线性二次调节器, Dean S. 等 (2019)。
以最小的人工干预在现实世界中学会行走, Ha S. 等 (2020) 🎞️
通过PID拉格朗日方法实现强化学习中的响应式安全性, Stooke A., Achiam J., Abbeel P. (2020)。:octocat:
Envelope MOQ-Learning 多目标强化学习和策略适应的通用算法, Yang R. 等 (2019)。

状态约束控制与稳定性

HJI-reachability 控制领域的安全学习：结合扰动估计、可达性分析和强化学习，辅以系统性探索, Heidenreich C. (2017)。
MPC-HJI 关于将基于可达性的安全保证融入人机交互的概率规划框架, Leung K. 等 (2018)。
不确定机器人系统中基于学习控制的一般安全框架, Fisac J. 等 (2017)。🎞️
具有稳定性保证的安全基于模型的强化学习, Berkenkamp F. 等 (2017)。
Lyapunov-Net 安全的交互式基于模型学习, Gallieri M. 等 (2019)。
在神经网络策略中强制执行鲁棒控制保证, Donti P. 等 (2021)。:octocat:
ATACOM 约束流形上的机器人强化学习, Liu P. 等 (2021)。

不确定动力系统

受控不确定非线性系统的仿真，Tibken B.，Hofer E.（1995）。
动态不确定系统的轨迹计算，Adrot O.，Flaus J-M.（2002）。
基于区间模型的不确定动态系统仿真：综述，Puig V.等（2005）。
不确定动态系统的区间观测器设计，Efimov D.，Raïssi T.（2016）。

博弈论 :spades:

自动驾驶车辆的分层博弈论规划，Fisac J.等（2018）。
非线性多玩家一般和微分博弈的高效迭代线性二次近似，Fridovich-Keil D.等（2019）。🎞️

顺序学习 :shoe:

预测、学习与博弈，Cesa-Bianchi N.，Lugosi G.（2006）。

多臂老虎机 :slot_machine:

TS 根据两个样本的证据，一个未知概率超过另一个的概率研究，Thompson W.（1933）。
组织学习中的探索与利用，March J.（1991）。
UCB1 / UCB2 多臂老虎机问题的有限时间分析，Auer P.，Cesa-Bianchi N.，Fischer P.（2002）。
经验贝叶斯 / UCB-V 利用方差估计解决多臂老虎机中的探索-利用权衡问题，Audibert J-Y，Munos R.，Szepesvari C.（2009）。
经验贝叶斯界与样本方差惩罚，Maurer A.，Ponti M.（2009）。
汤普森采样的经验评估，Chapelle O.，Li L.（2011）。
kl-UCB 有界随机多臂老虎机及其扩展的KL-UCB算法，Garivier A.，Cappé O.（2011）。
KL-UCB 库尔巴克-莱布勒上置信界用于最优顺序分配，Cappé O.等（2013）。
IDS 信息导向采样与异方差噪声下的多臂老虎机，Kirschner J.，Krause A.（2018）。

上下文相关

LinUCB 基于上下文的带状方法在个性化新闻文章推荐中的应用，Li L.等（2010）。
OFUL 线性随机多臂老虎机的改进算法，Abbasi-yadkori Y.，Pal D.，Szepesvári C.（2011）。
具有线性收益函数的上下文多臂老虎机，Chu W.等（2011）。
流式置信回归的自归一化技术，Maillard O.-A.（2017）。
通过代理从延迟结果中学习及其在推荐系统中的应用，Mann T.等（2018）。（预测场景）
非平稳环境下的加权线性多臂老虎机，Russac Y.等（2019）。
具有随机延迟反馈的线性多臂老虎机，Vernade C.等（2020）。

最优臂识别 :muscle:

连续淘汰法 多臂老虎机和强化学习问题中的动作淘汰与停止条件，Even-Dar E.等（2006）。
LUCB 随机多臂老虎机中的PAC子集选择，Kalyanakrishnan S.等（2012）。
UGapE 最优臂识别：固定预算与固定置信度的统一方法，Gabillon V.，Ghavamzadeh M.，Lazaric A.（2012）。
序列二分法 多臂老虎机中的近乎最优探索，Karnin Z.等（2013）。
M-LUCB / M-Racing 极大极小动作识别：一种用于博弈的新老虎机框架，Garivier A.，Kaufmann E.，Koolen W.（2016）。
跟踪并停止 固定置信度下的最优臂识别优化，Garivier A.，Kaufmann E.（2016）。
LUCB-micro 固定置信度下的结构化最优臂识别，Huang R.等（2017）。

黑箱优化 :black_large_square:

GP-UCB 带状情境下的高斯过程优化：无遗憾与实验设计，Srinivas N.，Krause A.，Kakade S.，Seeger M.（2009）。
HOO X–武装带状，Bubeck S.，Munos R.，Stoltz G.，Szepesvari C.（2009）。
DOO/SOO 无需了解函数光滑度的确定性函数乐观优化，Munos R.（2011）。
StoOO 从带状到蒙特卡洛树搜索：乐观原则在优化与规划中的应用，Munos R.（2014）。
StoSOO 随机同时乐观优化，Valko M.，Carpentier A.，Munos R.（2013）。
POO 黑箱环境下噪声函数的优化，且未知其光滑度，Grill J-B.，Valko M.，Munos R.（2015）。
EI-GP AlphaGo中的贝叶斯优化，Chen Y.等（2018）

强化学习 :robot:

强化学习：综述，Kaelbling L.等（1996）。

理论 :books:

在线强化学习的期望误差界模型，Fiechter C-N. (1997)。
UCRL2 强化学习的近似最优后悔界，Jaksch T. (2010)。
PSRL 为什么后验采样比乐观主义更适合强化学习？，Osband I., Van Roy B. (2016)。
UCBVI 强化学习的极小极大后悔界，Azar M., Osband I., Munos R. (2017)。
Q-Learning-UCB Q学习是否可证明高效？，Jin C., Allen-Zhu Z., Bubeck S., Jordan M. (2018)。
LSVI-UCB 具有线性函数逼近的可证明高效强化学习，Jin C., Yang Z., Wang Z., Jordan M. (2019)。
基于模型的强化学习中的利普希茨连续性，Asadi K. 等 (2018)。
关于强化学习中的函数逼近：面对大规模状态空间时的乐观主义，Yang Z., Jin C., Wang Z., Wang M., Jordan M. (2021)

基于价值 :chart_with_upwards_trend:

NFQ 神经拟合 Q 迭代——一种数据高效的神经强化学习方法的首次尝试，Riedmiller M. (2005)。
DQN 用深度强化学习玩雅达利游戏，Mnih V. 等 (2013)。🎞️
DDQN 采用双重 Q 学习的深度强化学习，van Hasselt H., Silver D. 等 (2015)。
DDDQN 用于深度强化学习的决斗网络架构，Wang Z. 等 (2015)。🎞️
PDDDQN 优先经验回放，Schaul T. 等 (2015)。
NAF 基于模型加速的连续深度 Q 学习，Gu S. 等 (2016)。
Rainbow 彩虹：结合深度强化学习中的多项改进，Hessel M. 等 (2017)。
Ape-X DQfD 观察并看得更远：在雅达利游戏中实现稳定表现，Pohlen T. 等 (2018)。🎞️

基于策略 :muscle:

策略梯度

REINFORCE 用于连接主义强化学习的简单统计梯度跟随算法，威廉姆斯 R.（1992）。
自然梯度 一种自然策略梯度，卡卡德 S.（2002）。
用于机器人的策略梯度方法，彼得斯 J.、沙尔 S.（2006）。
TRPO 信任域策略优化，舒尔曼 J. 等（2015）。🎞️
PPO 近端策略优化算法，舒尔曼 J. 等（2017）。🎞️
DPPO 丰富环境中的运动行为涌现，希斯 N. 等（2017）。🎞️

演员-评论家

AC 具有函数逼近的强化学习中的策略梯度方法，萨顿 R. 等（1999）。
NAC 自然演员-评论家，彼得斯 J. 等（2005）。
DPG 确定性策略梯度算法，西尔弗 D. 等（2014）。
DDPG 深度强化学习下的连续控制，利利克拉普 T. 等（2015）。🎞️ 1 | 2 | 3 | 4
MACE 利用深度强化学习实现地形自适应运动技能，彭 X.、伯塞斯 G.、范德潘内 M.（2016）。🎞️ | 🎞️
A3C 深度强化学习的异步方法，米尼 V. 等（2016）。🎞️ 1 | 2 | 3
SAC 软演员-评论家：带有随机演员的离策略最大熵深度强化学习，哈尔诺亚 T. 等（2018）。🎞️
MPO 最大后验策略优化，阿卜杜勒马莱基 A. 等（2018）。
对演员-评论家算法中折扣率不匹配的深入研究，张 S.、拉罗什 R. 等（2020）。

无导数方法

CEM 使用噪声交叉熵法学习俄罗斯方块，斯齐塔 I.、洛林茨 A.（2006）。🎞️
CMAES 进化策略中的完全去随机化自适应，汉森 N.、奥斯特迈尔 A.（2001）。
NEAT 通过拓扑增殖进化神经网络，斯坦利 K.（2002）。🎞️
iCEM 用于实时规划的高效样本交叉熵法，平内里 C. 等（2020）。

基于模型的 :world_map:

Dyna 基于近似动态规划的学习、规划和反应的集成架构, Sutton R. (1990).
PILCO PILCO：一种基于模型且数据高效的策略搜索方法, Deisenroth M., Rasmussen C. (2011). (演讲)
DBN 用于汽车的概率MDP行为规划, Brechtel S. 等 (2011).
GPS 深度视觉-运动策略的端到端训练, Levine S. 等 (2015). 🎞️
DeepMPC DeepMPC：为模型预测控制学习深层潜在特征, Lenz I. 等 (2015). 🎞️
SVG 通过随机价值梯度学习连续控制策略, Heess N. 等 (2015). 🎞️
FARNN 使用深度动态神经网络进行非线性系统辨识, Ogunmolu O. 等 (2016). :octocat:
利用学习到的局部模型进行最优控制：应用于灵巧操作, Kumar V. 等 (2016). 🎞️
BPTT 通过短期预测实现长期规划, Shalev-Shwartz S. 等 (2016). 🎞️ 1 | 2
用于规划机器人运动的深度视觉预见, Finn C., Levine S. (2016). 🎞️
VIN 价值迭代网络, Tamar A. 等 (2016). 🎞️
VPN 价值预测网络, Oh J. 等 (2017).
DistGBP 基于模型的离散与连续动作规划, Henaff M. 等 (2017). 🎞️ 1 | 2
基于时间片段模型的预测与控制, Mishra N. 等 (2017).
Predictron Predictron：端到端学习与规划, Silver D. 等 (2017). 🎞️
MPPI 面向基于模型强化学习的信息论MPC, Williams G. 等 (2017). :octocat: 🎞️
通过“梦想”学习真实世界机器人策略, Piergiovanni A. 等 (2018).
利用深度学习对车辆进行纵向与横向联合控制, Devineau G., Polack P., Alchté F., Moutarde F. (2018) 🎞️
PlaNet 从像素中学习潜在动力学以进行规划, Hafner 等 (2018). 🎞️
NeuralLander Neural Lander：利用学习到的动力学实现稳定的无人机着陆控制, Shi G. 等 (2018). 🎞️
DBN+POMCP [面向高速公路场景下自动驾驶车辆的人类化预测与决策] (https://tel.archives-ouvertes.fr/tel-02184362), Sierra Gonzalez D. (2019).
基于目标条件的策略规划, Nasiriany S. 等 (2019). 🎞️
MuZero 通过基于学习模型的规划掌握Atari、围棋、国际象棋和将棋, Schrittwiese J. 等 (2019). :octocat:
BADGR BADGR：一种自主的自监督学习导航系统, Kahn G., Abbeel P., Levine S. (2020). 🎞️ :octocat:
H-UCRL 通过乐观策略搜索与规划实现高效的基于模型强化学习, Curi S., Berkenkamp F., Krause A. (2020). :octocat:

探索 :tent:

用内在恐惧对抗强化学习的西西弗斯式诅咒, Lipton Z. 等 (2016).
伪计数 统一基于计数的探索与内在动机, Bellemare M. 等 (2016). 🎞️
HER 事后经验回放, Andrychowicz M. 等 (2017). 🎞️
VHER 视觉事后经验回放, Sahni H. 等 (2019).
RND 通过随机网络蒸馏进行探索, Burda Y. 等 (OpenAI) (2018). 🎞️
Go-Explore Go-Explore：一种解决困难探索问题的新方法, Ecoffet A. 等 (Uber) (2018). 🎞️
C51-IDS 面向深度强化学习的信息导向探索, Nikolov N., Kirschner J., Berkenkamp F., Krause A. (2019). :octocat:
Plan2Explore 通过自监督世界模型规划探索, Sekar R. 等 (2020). 上演 :octocat:
RIDE RIDE：奖励由影响驱动的程序化生成环境中的探索, Raileanu R., Rocktäschel T. (2020). :octocat:

层次结构与时间抽象 :clock2:

在马尔可夫决策过程与半马尔可夫决策过程之间：强化学习中的时间抽象框架，萨顿 R. 等（1999）。
内在动机驱动的层次化技能集合学习，巴托 A. 等（2004）。
OC 选项评论家架构，培根 P-L.、哈布 J.、普雷库普 D.（2016）。
调制型运动控制器的学习与迁移，希斯 N. 等（2016）。🎞️
面向自动驾驶的安全多智能体强化学习，沙列夫-施瓦茨 S. 等（2016）。
FuNs 用于层次强化学习的封建网络，韦日涅维茨 A. 等（2017）。
结合神经网络与树搜索的复杂环境任务与运动规划，帕克斯顿 C. 等（2017）。🎞️
DeepLoco DeepLoco：基于层次深度强化学习的动态运动技能，彭 X. 等（2017）。🎞️ | 🎞️
通过自我博弈实现机器人乒乓球样本高效学习的层次策略设计，马朱里安 R. 等（2018）。🎞️
DAC DAC：用于学习选项的双演员-评论家架构，张 S.、怀特森 S.（2019）。
基于层次Sim2Real的运动式多智能体操作，纳楚姆 O. 等（2019）。🎞️
SoftCon：具有仿生执行器的软体动物仿真与控制，闵 S. 等（2020）。🎞️ :octocat:
H-REIL 基于强化学习的近事故驾驶模仿策略控制，曹 Z. 等（2020）。🎞️ 1, 2

部分可观测性 :eye:

PBVI 基于点的价值迭代：POMDPs 的随时可用算法，派诺 J. 等（2003）。
cPBVI 连续 POMDPs 的基于点的价值迭代，波塔 J. 等（2006）。
POMCP 大型 POMDPs 中的蒙特卡洛规划，西尔弗 D.、维内斯 J.（2010）。
不确定性下的机器人运动规划的 POMDP 方法，杜 Y. 等（2010）。
全自动驾驶中变道的基于概率的在线 POMDP 决策，乌尔布里希 S.、毛雷尔 M.（2013）。
求解连续 POMDPs：带有高效空间表示增量学习的价值迭代，布雷赫特尔 S. 等（2013）。
使用连续 POMDPs 进行自动驾驶的不确定性下概率决策，布雷赫特尔 S. 等（2014）。
MOMDP 意图感知的运动规划，班迪奥帕迪亚 T. 等（2013）。
DNC 利用具有动态外部记忆的神经网络进行混合计算，格雷夫斯 A. 等（2016）。🎞️
推断交通参与者内部状态对自动驾驶高速公路行驶的价值，桑伯格 Z. 等（2017）。
用于自主导航城市交叉口的信任状态规划，布顿 M.、科斯贡 A.、科亨德费尔 M.（2017）。
针对自动驾驶的传感器遮挡情况下的可扩展决策，布顿 M. 等（2018）。
道路交叉口的概率决策：公式化与定量评估，巴比耶 M.、洛吉耶 C.、西莫宁 O.、伊巴涅斯 J.（2018）。
美女与野兽：无人机竞速中的最优方法与学习，考夫曼 E. 等（2018）。上演示视频
社会感知 具备社会感知能力的自动驾驶汽车行为规划，孙 L. 等（2019）。

迁移学习 :earth_americas:

IT&E 能够像动物一样适应的机器人，Cully A., Clune J., Tarapore D., Mouret J-B. (2014)。🎞️
MAML 用于深度网络快速适应的模型无关元学习，Finn C., Abbeel P., Levine S. (2017)。🎞️
自动驾驶中的虚拟到现实强化学习，Pan X. 等 (2017)。🎞️
从仿真到现实：四足机器人的敏捷运动学习，Tan J. 等 (2018)。🎞️
ME-TRPO 模型集成信任区域策略优化，Kurutach T. 等 (2018)。🎞️
深度强化学习的启动，Schmitt S. 等 (2018)。
学习灵巧的手部操作，OpenAI (2018)。🎞️
GrBAL / ReBAL 通过元强化学习在动态的真实环境中学习适应，Nagabandi A. 等 (2018)。🎞️
为足式机器人学习敏捷且动态的运动技能，Hwangbo J. 等 (ETH Zurich / Intel ISL) (2019)。🎞️
基于深度强化学习的四足机器人鲁棒恢复控制器，Lee J., Hwangbo J., Hutter M. (ETH Zurich RSL) (2019)
IT&E 使用“智能试错”算法学习和适应四足步态，Dalin E., Desreumaux P., Mouret J-B. (2019)。🎞️
FAMLE 通过模拟先验的元学习嵌入实现机器人领域的快速在线适应，Kaushik R., Anne T., Mouret J-B. (2020)。🎞️
针对观测值对抗性扰动的鲁棒深度强化学习，Zhang H. 等 (2020)。:octocat:
在复杂地形上学习四足运动，Lee J. 等 (2020)。🎞️
PACOH PACOH：具有PAC保证的贝叶斯最优元学习，Rothfuss J., Fortuin V., Josifoski M., Krause A. (2021)。
基于模型的领域泛化，Robey A. 等 (2021)。
SimGAN SimGAN：通过对抗性强化学习进行领域适应的混合模拟器识别，Jiang Y. 等 (2021)。🎞️ :octocat:
为野外四足机器人学习鲁棒的感知运动，Miki T. 等 (2022)。

多智能体 :two_men_holding_hands:

Minimax-Q 马尔可夫博弈作为多智能体强化学习的框架，M. Littman (1994)。
自主智能体对其他智能体的建模：综合综述与开放问题，Albrecht S., Stone P. (2017)。
MILP 沿指定路径的移动机器人时间最优协调，Altché F. 等 (2016)。🎞️
MIQP 用于协同半自主车辆监督驾驶的算法，Altché F. 等 (2017)。🎞️
SA-CADRL 基于深度强化学习的社会意识运动规划，Chen Y. 等 (2017)。🎞️
基于变点的行为预测的自动驾驶多策略决策：理论与实验，Galceran E. 等 (2017)。
面向可扩展自治系统的在线决策，Wray K. 等 (2017)。
MAgent MAgent：用于人工群体智能的多智能体强化学习平台，Zheng L. 等 (2017)。🎞️
利用价值迭代网络进行非完整约束智能体的协作运动规划，Rehder E. 等 (2017)。
MPPO 通过深度强化学习实现最优去中心化的多机器人避障，Long P. 等 (2017)。🎞️
COMA 反事实多智能体策略梯度，Foerster J. 等 (2017)。
MADDPG 用于混合合作—竞争环境的多智能体演员—评论家，Lowe R. 等 (2017)。:octocat:
FTW 基于群体的深度强化学习在第一人称多人游戏中达到人类水平的表现，Jaderberg M. 等 (2018)。🎞️
通过自我博弈学习多智能体谈判的尝试，Tang Y. C. (2020)。
MAPPO MAPPO在合作性多智能体游戏中的惊人效果，Yu C. 等 (2021)。|:octocat:](https://github.com/marlbenchmark/on-policy)
多智能体强化学习，Yang Y. (2021)

表征学习

最优控制中的可变分辨率离散化，Munos R., Moore A. (2002)。🎞️
DeepDriving DeepDriving：在自动驾驶中学习直接感知的可供性，Chen C. 等 (2015)。🎞️
端到端训练与语义抽象训练的样本复杂度比较，Shalev-Shwartz S. 等 (2016)。
利用稀疏编码在强化学习中学习稀疏表征，Le L., Kumaraswamy M., White M. (2017)。
世界模型，Ha D., Schmidhuber J. (2018)。🎞️ :octocat:
一天学会驾驶，Kendall A. 等 (2018)。🎞️
MERLIN 目标导向智能体中的无监督预测性记忆，Wayne G. 等 (2018)。🎞️ 1 | 2 | 3 | 4 | 5 | 6
变分端到端导航与定位，Amini A. 等 (2018)。🎞️
理解视觉与触觉：面向接触密集型任务的多模态表征自监督学习，Lee M. 等 (2018)。🎞️
递归与离散世界模型的深度神经进化，Risi S., Stanley K.O. (2019)。🎞️ :octocat:
FERM 高效机器人操作框架，Zhan A., Zhao R. 等 (2021)。:octocat:
S4RL S4RL：离线强化学习中出人意料的简单自监督方法，Sinha S. 等 (2021)。

离线

SPI-BB 基于基线自助法的安全策略改进，Laroche R. 等 (2019)。
AWAC AWAC：利用离线数据集加速在线强化学习，Nair A. 等 (2020)。
CQL 用于离线强化学习的保守Q学习，Kumar A. 等 (2020)。
决策变换器：通过序列建模进行强化学习，Chen L., Lu K. 等 (2021)。:octocat:
将强化学习视为一个大型序列建模问题，Janner M., Li Q., Levine S. (2021)。

其他

贝尔曼残差是一个糟糕的代理吗？，Geist M., Piot B., Pietquin O. (2016)。
重要的深度强化学习，Henderson P. 等 (2017)。
利用深度强化学习进行自动桥牌叫牌，Yeh C. 和 Lin H. (2016)。
通过深度强化学习实现共享自主，Reddy S. 等 (2018)。🎞️
强化学习与控制作为概率推理：教程与综述，Levine S. (2018)。
强化学习中的值函数多面体，Dadashi R. 等 (2019)。
关于值函数与智能体-环境边界，Jiang N. (2019)。
如何用深度强化学习训练你的机器人；我们学到的经验，Ibartz J. 等 (2021)。

示范学习 :mortar_board:

模仿学习

DAgger 模仿学习和结构化预测向无悔在线学习的约简，Ross S., Gordon G., Bagnell J. A. (2011)。
QMDP-RCNN 通过循环卷积神经网络进行强化学习，Shankar T. 等 (2016)。(演讲)
DQfD 为现实世界强化学习从示范中学习，Hester T. 等 (2017)。上演
找到属于自己的路：城市自主驾驶中路径建议的弱监督分割，Barnes D., Maddern W., Posner I. (2016)。上演
GAIL 生成对抗式模仿学习，Ho J., Ermon S. (2016)。
从感知到决策：一种数据驱动的端到端运动规划方法，用于自主地面机器人，Pfeiffer M. 等 (2017)。上演
Branched 通过条件模仿学习实现端到端驾驶，Codevilla F. 等 (2017)。上演 | 演讲
UPN 通用规划网络，Srinivas A. 等 (2018)。上演
DeepMimic DeepMimic：基于物理的角色技能示例引导深度强化学习，Peng X. B. 等 (2018)。上演
R2P2 用于灵活推理、规划和控制的深度模仿模型，Rhinehart N. 等 (2018)。上演
通过模仿动物学习敏捷的机器人运动技能，Bin Peng X. 等 (2020)。上演
用于灵活推理、规划和控制的深度模仿模型，Rhinehart N., McAllister R., Levine S. (2020)。

自动驾驶应用 :car:

ALVINN：基于神经网络的自主陆地车辆，Pomerleau D. (1989)。
面向自动驾驶汽车的端到端学习，Bojarski M. 等 (2016)。🎞️
基于大规模视频数据集的驾驶模型端到端学习，Xu H.、Gao Y. 等 (2016)。🎞️
考虑时间依赖性的自动驾驶车辆转向端到端深度学习，Eraqi H. 等 (2017)。
像人类一样驾驶：使用卷积神经网络进行路径规划的模仿学习，Rehder E. 等 (2017)。
利用生成对抗网络模仿驾驶员行为，Kuefler A. 等 (2017)。
PS-GAIL 用于驾驶模拟的多智能体模仿学习，Bhattacharyya R. 等 (2018)。🎞️ :octocat:
在通用城市场景中增强安全性的自动驾驶深度模仿学习，Chen J. 等 (2019)。

逆强化学习

Projection 通过逆强化学习进行学徒式学习，Abbeel P.、Ng A. (2004)。
MMP 最大间隔规划，Ratliff N. 等 (2006)。
BIRL 贝叶斯逆强化学习，Ramachandran D.、Amir E. (2007)。
MEIRL 最大熵逆强化学习，Ziebart B. 等 (2008)。
LEARCH 学习搜索：用于模仿学习的函数梯度技术，Ratliff N.、Siver D.、Bagnell A. (2009)。
CIOC 具有局部最优示例的连续逆最优控制，Levine S.、Koltun V. (2012)。🎞️
MEDIRL 最大熵深度逆强化学习，Wulfmeier M. (2015)。
GCL 引导成本学习：通过策略优化实现的深度逆最优控制，Finn C. 等 (2016)。🎞️
RIRL 重复逆强化学习，Amin K. 等 (2017)。
弥合模仿学习与逆强化学习之间的差距，Piot B. 等 (2017)。

自动驾驶应用 :taxi:

用于运动规划的学徒式学习及其在停车场导航中的应用，Abbeel P. 等 (2008)。
像出租车司机一样导航：基于观察到的情境感知行为的概率推理，Ziebart B. 等 (2008)。
基于规划的行人预测，Ziebart B. 等 (2009)。🎞️
自主导航的学习，Bagnell A. 等 (2010)。
从专家演示中学习自动驾驶风格和操作，Silver D. 等 (2012)。
从演示中学习自动驾驶车辆的驾驶风格，Kuderer M. 等 (2015)。
利用逆强化学习和深度Q网络学习驾驶，Sharifzadeh S. 等 (2016)。
请关注：城市环境中路径规划的可扩展成本函数学习，Wulfmeier M. (2016)。🎞️
为能够利用对人类行为影响的自动驾驶汽车进行规划，Sadigh D. 等 (2016)。
用于处理城市自动驾驶中困境的学习框架，Lee S.、Seo S. (2017)。
利用基于能量模型的朗之万采样进行连续逆最优控制的轨迹预测学习，Xu Y. 等 (2019)。
基于逆强化学习分析成本函数在解释和模仿人类驾驶行为中的适用性，Naumann M. 等 (2020)。

运动规划 :running_man:

搜索

Dijkstra 关于图论中两个问题的一则注记，Dijkstra E. W. (1959)。
A* 启发式确定最小成本路径的正式基础，Hart P. 等 (1968)。
为自动驾驶车辆规划长距离动态可行的操作，Likhachev M.、Ferguson D. (2008)。
在弗雷内坐标系下为动态街道场景生成最优轨迹，Werling M.、Kammel S. (2010)。🎞️
面向自动驾驶和协同汽车的3D感知与规划，Stiller C.、Ziegler J. (2012)。
面向道路自动驾驶的不确定性下的运动规划，Xu W. 等 (2014)。
蒙特卡洛树搜索用于模拟赛车，Fischer J. 等 (2015)。🎞️

采样

RRT* 用于最优运动规划的基于采样的算法，Karaman S., Frazzoli E. (2011)。🎞️
LQG-MP LQG-MP：针对具有运动不确定性及不完全状态信息的机器人优化路径规划，van den Berg J. 等 (2010)。
在信念空间中使用微分动态规划进行不确定性下的运动规划，van den Berg J. 等 (2011)。
用于不确定性下运动规划的快速探索随机信念树，Bry A., Roy N. (2011)。
PRM-RL PRM-RL：结合强化学习与基于采样的规划实现长距离机器人导航任务，Faust A. 等 (2017)。

优化

为“伯莎”号规划轨迹——一种局部、连续的方法，Ziegler J. 等 (2014)。
学习吸引子景观以获取运动基元，Ijspeert A. 等 (2002)。
基于非欧几里得旋转群的非线性模型预测控制的在线运动规划，Rösmann C. 等 (2020)。:octocat:

反应式

PF 机械臂与移动机器人实时避障，Khatib O. (1986)。
VFH 矢量场直方图——移动机器人快速避障方法，Borenstein J. (1991)。
VFH+ VFH+：适用于高速移动机器人的可靠避障方法，Ulrich I., Borenstein J. (1998)。
速度障碍 利用速度障碍在动态环境中进行运动规划，Fiorini P., Shillert Z. (1998)。

架构与应用

自动驾驶车辆运动规划技术综述，González D. 等 (2016)。
城市自动驾驶车辆运动规划与控制技术综述，Paden B. 等 (2016)。
城市环境中的自动驾驶：Boss 与城市挑战赛，Urmson C. 等 (2008)。
麻省理工学院—康奈尔大学碰撞事件及其原因分析，Fletcher L. 等 (2008)。
让“伯莎”号行驶——一次沿历史路线的自动驾驶之旅，Ziegler J. 等 (2014)。

phd-bibliography 快速上手指南

phd-bibliography 并非一个可执行的软件工具或代码库，而是一个由社区维护的学术文献索引清单。它汇集了最优控制、安全控制、博弈论、强化学习、模仿学习及运动规划等领域的经典书籍与核心论文。

本指南旨在帮助开发者快速浏览、检索并利用该资源构建自己的知识库。

环境准备

由于该项目本质上是 Markdown 格式的文档列表，无需复杂的系统环境或编译依赖。

操作系统：Windows, macOS, Linux 均可。
前置依赖：
- Web 浏览器（推荐 Chrome, Edge 或 Firefox）。
- Git（可选，用于克隆仓库到本地）。
- Markdown 编辑器（可选，如 VS Code, Typora，用于本地阅读）。

安装/获取步骤

你可以通过以下两种方式获取文献列表：

方式一：在线浏览（推荐）

直接访问 GitHub 仓库页面查看渲染后的目录和链接：

https://github.com/eleurent/phd-bibliography

方式二：克隆到本地

如果你希望离线阅读或贡献内容，可以使用 Git 克隆仓库。国内用户建议使用 Gitee 镜像（如有）或通过加速代理克隆，若直接克隆速度较慢，可尝试以下命令：

git clone https://github.com/eleurent/phd-bibliography.git

进入目录：

cd phd-bibliography

基本使用

该项目的核心用法是按主题检索文献。打开 README.md 文件或在 GitHub 网页端浏览，利用目录跳转至感兴趣的研究领域。

1. 浏览核心领域

项目主要涵盖以下六大板块，点击对应标题即可展开：

Optimal Control (最优控制): 包含动态规划、线性规划、基于树的规划（如 MCTS, AlphaGo）、控制理论及模型预测控制 (MPC)。
Safe Control (安全控制): 涵盖鲁棒控制、风险规避控制、值约束控制及状态约束稳定性。
Game Theory (博弈论): 相关理论基础。
Sequential Learning (序列学习): 重点包含多臂老虎机 (Multi-Armed Bandit) 和强化学习 (RL)，细分为基于值、基于策略、基于模型、分层强化学习等子方向。
Learning from Demonstrations (从演示中学习): 包含模仿学习 (Imitation Learning) 和逆向强化学习 (IRL)，特别是自动驾驶领域的应用。
Motion Planning (运动规划): 涉及搜索、采样、优化及反应式规划方法。

2. 查找特定算法文献

每个条目通常标记了算法名称（加粗显示），例如寻找 MCTS 或 SafeOPT 的相关论文：

在页面使用浏览器搜索功能 (Ctrl+F 或 Cmd+F)。
输入算法关键词，例如：AlphaZero 或 iLQG。
点击对应的标题链接，直接跳转到论文原文、书籍页面或代码仓库。

示例：查找蒙特卡洛树搜索 (MCTS) 相关文献

定位到 Tree-Based Planning 章节。
找到 MCTS: Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search (Rémi Coulom, 2006)。
找到 UCT: Bandit based Monte-Carlo Planning (Kocsis L., 2006)。
点击链接即可阅读原始论文。

3. 利用可视化图表

项目中包含一张强化学习知识图谱 (reinforcement-learning.svg)，可在仓库根目录直接查看，帮助理清各子领域（如 Model-based, Policy-based, Offline RL 等）之间的逻辑关系。

提示：大部分链接指向学术论文数据库（如 arXiv, IEEE, Springer）或官方代码库。国内访问部分外文学术站点可能较慢，建议配合学术加速工具或使用机构网络访问。

相似工具推荐

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|1周前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|3天前

图像数据工具视频

MoneyPrinterTurbo

MoneyPrinterTurbo 是一款利用 AI 大模型技术，帮助用户一键生成高清短视频的开源工具。只需输入一个视频主题或关键词，它就能全自动完成从文案创作、素材匹配、字幕合成到背景音乐搭配的全过程，最终输出完整的竖屏或横屏短视频。这款工具主要解决了传统视频制作流程繁琐、门槛高以及素材版权复杂等痛点。无论是需要快速产出内容的自媒体创作者，还是希望尝试视频生成的普通用户，无需具备专业的剪辑技能或昂贵的硬件配置（普通电脑即可运行），都能轻松上手。同时，其清晰的 MVC 架构和对多种主流大模型（如 DeepSeek、Moonshot、通义千问等）的广泛支持，也使其成为开发者进行二次开发或技术研究的理想底座。 MoneyPrinterTurbo 的独特亮点在于其高度的灵活性与本地化友好性。它不仅支持中英文双语及多种语音合成，允许用户精细调整字幕样式和画面比例，还特别优化了国内网络环境下的模型接入方案，让用户无需依赖 VPN 即可使用高性能国产大模型。此外，工具提供批量生成模式，可一次性产出多个版本供用户择优，极大地提升了内容创作的效率与质量。

★ 55k|★★★☆☆|1周前

开发框架语言模型Agent

oh-my-openagent

oh-my-openagent（简称 omo）是一款强大的开源智能体编排框架，前身名为 oh-my-opencode。它致力于打破单一模型供应商的生态壁垒，解决开发者在构建 AI 应用时面临的“厂商锁定”难题。不同于仅依赖特定模型的封闭方案，omo 倡导开放市场理念，支持灵活调度多种主流大模型：利用 Claude、Kimi 或 GLM 进行任务编排，调用 GPT 处理复杂推理，借助 Minimax 提升响应速度，或发挥 Gemini 的创意优势。这款工具特别适合希望摆脱平台限制、追求极致性能与成本平衡的开发者及研究人员使用。通过统一接口，用户可以轻松组合不同模型的长处，构建更高效、更具适应性的智能体系统。其独特的技术亮点在于“全模型兼容”架构，让用户不再受制于某一家公司的策略变动或定价调整，真正实现对前沿模型资源的自由驾驭。无论是构建自动化编码助手，还是开发多步骤任务处理流程，oh-my-openagent 都能提供灵活且稳健的基础设施支持，助力用户在快速演进的 AI 生态中保持技术主动权。

★ 50.7k|★★☆☆☆|昨天

视频语言模型开发框架

tabby

Tabby 是一款可私有化部署的开源 AI 编程助手，旨在为开发团队提供 GitHub Copilot 的安全替代方案。它核心解决了代码辅助过程中的数据隐私顾虑与云端依赖问题，让企业能够在完全掌控数据的前提下享受智能代码补全、聊天问答及上下文理解带来的效率提升。这款工具特别适合注重代码安全的企业开发团队、希望本地化运行大模型的科研机构，以及拥有消费级显卡的个人开发者。Tabby 的最大亮点在于其“开箱即用”的自包含架构，无需配置复杂的数据库或依赖云服务即可快速启动。同时，它对硬件十分友好，支持在普通的消费级 GPU 上流畅运行，大幅降低了部署门槛。此外，Tabby 提供了标准的 OpenAPI 接口，能轻松集成到现有的云 IDE 或内部开发流程中，并支持通过 REST API 接入自定义文档以增强知识上下文。从代码自动补全到基于 Git 仓库的智能问答，Tabby 致力于成为开发者身边懂业务、守安全的智能伙伴。

★ 33.3k|★★★☆☆|5天前

开发框架语言模型Agent

generative-models

Generative Models 是 Stability AI 推出的开源项目，核心亮点在于最新发布的 Stable Video 4D 2.0（SV4D 2.0）。这是一个先进的视频转 4D 扩散模型，旨在解决从单一视角视频中生成高保真、多视角动态 3D 资产的技术难题。传统方法往往难以处理物体自遮挡或背景杂乱的情况，且生成的动态细节容易模糊，而 SV4D 2.0 通过改进的架构，显著提升了运动中的画面锐度与时空一致性，无需依赖额外的多视角参考图即可稳健地合成新颖视角的视频。该项目特别适合计算机视觉研究人员、AI 开发者以及从事 3D 内容创作的设计师使用。对于研究者，它提供了探索 4D 生成前沿的完整代码与训练权重；对于开发者，其支持自动回归生成长视频及低显存优化选项，便于集成与调试；对于设计师，它能将简单的物体运动视频快速转化为可用于游戏或影视的多视角 4D 素材。技术层面，SV4D 2.0 支持一次性生成 12 帧视频对应 4 个相机视角（或 5 帧对应 8 视角），分辨率达 576x576，并能更好地泛化至真实世界场景。用户只需准备一段白底或经简单抠图处理的物体运动视频，

★ 27.1k|★★★★☆|2天前

视频其他

使用场景

没有 phd-bibliography 时

使用 phd-bibliography 后

运行环境要求

快速开始

参考文献

目录

最优控制 :dart:

动态规划

线性规划

基于树的规划

控制理论

模型预测控制

安全控制 :lock:

鲁棒控制

风险规避控制

价值约束控制

状态约束控制与稳定性

不确定动力系统

博弈论 :spades:

顺序学习 :shoe:

多臂老虎机 :slot_machine:

上下文相关

最优臂识别 :muscle:

黑箱优化 :black_large_square:

强化学习 :robot:

理论 :books:

生成模型

策略梯度

线性系统

基于价值 :chart_with_upwards_trend:

基于策略 :muscle:

策略梯度

演员-评论家

无导数方法

基于模型的 :world_map:

探索 :tent:

层次结构与时间抽象 :clock2:

部分可观测性 :eye:

迁移学习 :earth_americas:

多智能体 :two_men_holding_hands:

表征学习

离线

其他

示范学习 :mortar_board:

模仿学习

自动驾驶应用 :car:

逆强化学习

自动驾驶应用 :taxi:

运动规划 :running_man:

搜索

采样

优化

反应式

架构与应用

phd-bibliography 快速上手指南

环境准备

安装/获取步骤

方式一：在线浏览（推荐）

方式二：克隆到本地

基本使用

1. 浏览核心领域

2. 查找特定算法文献

3. 利用可视化图表

相似工具推荐

Deep-Live-Cam

ML-For-Beginners

MoneyPrinterTurbo

oh-my-openagent

tabby

generative-models