deep-reinforcement-learning-papers

835 187 非常简单 1 次阅读 1个月前其他

AI 解读由 AI 自动生成，仅供参考

deep-reinforcement-learning-papers 是一个专注于深度强化学习领域的开源论文与资源清单。它旨在解决该领域文献浩如烟海、研究者难以快速定位核心成果与经典算法的痛点，通过系统化的整理，为用户搭建起通往前沿技术的桥梁。

这份资源特别适合人工智能研究人员、算法工程师以及对该方向充满热情的学生使用。无论是希望追溯 DQN（深度 Q 网络）、Double DQN 等里程碑式算法的起源，还是想要探索基于视觉的机器人控制、文本游戏理解等具体应用场景，都能在此找到对应的原始论文、代码实现及相关演讲资料。

其独特亮点在于初步构建了分类体系，将资源细分为“深度价值函数”、“深度策略”、“深度演员 - 评论家”及“深度模型”等板块，帮助用户按需索骥。虽然项目目前仍在持续完善中，但它已汇集了从 2010 年至今的多篇关键文献，是进入深度强化学习世界不可或缺的入门指南与案头参考。

使用场景

某自动驾驶初创公司的算法团队正致力于研发基于视觉的复杂路口决策系统，急需追踪深度强化学习（DRL）领域的最新突破以优化控制策略。

没有 deep-reinforcement-learning-papers 时

文献检索效率低下：研究人员需在 arXiv、Google Scholar 等多个平台分散搜索，耗费大量时间筛选与“深度价值函数”或“演员 - 评论家”架构相关的高质量论文。
技术脉络难以理清：面对海量且分类混乱的资料，团队难以快速厘清从基础 DQN 到 Double DQN、Dueling Network 等关键技术的演进逻辑。
复现资源获取困难：找到论文后，往往需要额外花费精力寻找对应的开源代码实现或补充材料，导致验证新想法的周期被大幅拉长。
前沿动态容易遗漏：由于缺乏统一的更新机制，团队极易错过如优先经验回放（Prioritized Experience Replay）等能显著提升训练效率的关键改进方案。

使用 deep-reinforcement-learning-papers 后

一站式精准获取：团队直接通过该列表的分类目录（如 Deep Value Function），瞬间定位到 Mnih 等人的经典 DQN 论文及后续变体，检索时间缩短 80%。
清晰的技术演进图：借助清晰的层级结构，工程师能快速理解从原始 DQN 到引入目标网络、双重 Q 学习的优化路径，为模型选型提供明确依据。
代码与论文无缝衔接：列表中直接附带了如 Giraffe 象棋博弈或 LSTM-DQN 的官方代码链接，团队成员可立即着手复现并迁移至自动驾驶场景。
持续跟踪前沿进展：依托社区的持续贡献（TODOs 和 PR 机制），团队能及时发现并评估如大规模并行方法等新兴技术，保持算法领先性。

deep-reinforcement-learning-papers 通过将散落的学术资源结构化，将研发团队从繁琐的信息搜集工作中解放出来，使其能专注于核心算法的创新与落地。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库仅为深度强化学习论文和资源的列表（README），不包含可执行的代码、安装脚本或具体的运行环境配置。因此，无法从提供的文本中提取操作系统、GPU、内存、Python 版本或依赖库等具体技术需求。用户需根据列表中引用的具体论文及其对应的官方代码仓库（如文中提供的链接）来查询各自的运行环境要求。

python未说明

deep-reinforcement-learning-papers hero image

快速开始

深度强化学习论文

一份专门针对深度强化学习的论文和资源列表。

请注意，此列表目前仍在编写中，远未完成。

待办事项

添加更多论文
改进论文分类方式（标签可能有用）
制定本列表的方针：是精选型还是全面型，如何定义“深度强化学习”等。

贡献

如果您想向维护者推荐新论文，欢迎联系 @mooopan。也欢迎提交问题和拉取请求。

深度价值函数

S. Lange 和 M. Riedmiller，《视觉控制策略的深度学习》，ESANN，2010年。pdf
- 深度拟合Q迭代（DFQ）
V. Mnih、K. Kavukcuoglu、D. Silver、A. Graves、I. Antonglou、D. Wierstra 和 M. Riedmiller，《使用深度强化学习玩雅达利游戏》，NIPS 2013深度学习研讨会，2013年。pdf
- 带经验回放的深度Q网络（DQN）
V. Mnih、K. Kavukcuoglu、D. Silver、A. a Rusu、J. Veness、M. G. Bellemare、A. Graves、M. Riedmiller、A. K. Fidjeland、G. Ostrovski、S. Petersen、C. Beattie、A. Sadik、I. Antonoglou、H. King、D. Kumaran、D. Wierstra、S. Legg 和 D. Hassabis，《通过深度强化学习实现人类水平的控制》，Nature，2015年。pdf 代码
- 带经验回放和目标网络的深度Q网络（DQN）
T. Schaul、D. Horgan、K. Gregor 和 D. Silver，《通用价值函数近似器》，ICML，2015年。pdf
A. Nair、P. Srinivasan、S. Blackwell、C. Alcicek、R. Fearon、A. De Maria、M. Suleyman、C. Beattie、S. Petersen、S. Legg、V. Mnih 和 D. Silver，《深度强化学习的大规模并行方法》，ICML深度学习研讨会，2015年。pdf
- Gorila（通用强化学习架构）
K. Narasimhan、T. Kulkarni 和 R. Barzilay，《利用深度强化学习理解基于文本的游戏语言》，EMNLP，2015年。pdf 补充材料代码
- LSTM-DQN
M. Hausknecht 和 P. Stone，《部分可观测马尔可夫决策过程的深度循环Q学习》，arXiv，2015年。arXiv 代码
M. Lai，《长颈鹿：使用深度强化学习下国际象棋》，arXiv，2015年。arXiv 代码
H. van Hasselt、A. Guez 和 D. Silver，《双Q学习的深度强化学习》，arXiv，2015年。arXiv
- 双重DQN
F. Zhang、J. Leitner、M. Milford、B. Upcroft 和 P. Corke，《面向机器人运动控制的基于视觉的深度强化学习》，ACRA，2015年。pdf
T. Schaul、J. Quan、I. Antonoglou 和 D. Silver，《优先级经验回放》，arXiv，2015年。arXiv
Z. Wang、N. de Freitas 和 M. Lanctot，《用于深度强化学习的决斗网络架构》，arXiv，2015年。arXiv
V. François-Lavet、R. Fonteneau 和 D. Ernst，《如何折现深度强化学习：迈向新的动态策略》，NIPS深度强化学习研讨会，2015年。arXiv
I. Sorokin、A. Seleznev、M. Pavlov、A. Fedorov 和 A. Ignateva，《深度注意力循环Q网络》，NIPS深度强化学习研讨会，2015年。arXiv
A. A. Rusu、S. G. Colmenarejo、C. Gulcehre、G. Desjardins、J. Kirkpatrick、R. Pascanu、V. Mnih、K. Kavukcuoglu 和 R. Hadsell，《策略蒸馏》，arXiv，2015年。arXiv
M. G. Bellemare、G. Ostrovski、A. Guez、P. S. Thomas 和 R. Munos，《扩大动作差距：强化学习的新算子》，AAAI，2016年。arXiv
D. Silver、A. Huang、C. J. Maddison、A. Guez、L. Sifre、G. Van Den Driessche、J. Schrittwieser、I. Antonoglou、V. Panneershelvam、M. Lanctot、S. Dieleman、D. Grewe、J. Nham、N. Kalchbrenner、I. Sutskever、T. Lillicrap、M. Leach、K. Kavukcuoglu、T. Graepel 和 D. Hassabis，《利用深度神经网络和树搜索掌握围棋》，Nature，2016年。pdf
T. Zahavy、N. Ben Zrihem 和 S. Mannor，《揭开黑箱：理解DQN》，arXiv，2016年。arXiv
J. N. Foerster、Y. M. Assael、N. de Freitas 和 S. Whiteson，《通过深度分布式循环Q网络学习沟通以解决谜题》，arXiv，2016年。arXiv
I. Osband、C. Blundell、A. Pritzel 和 B. Van Roy，《基于自举DQN的深度探索》，arXiv，2016年。arXiv
T. Salimans 和 D. P. Kingma，《权重归一化：一种简单的重新参数化方法，可加速深度神经网络的训练》，arXiv，2016年。arXiv
S. Gu、T. Lillicrap、I. Sutskever 和 S. Levine，《基于模型加速的连续深度Q学习》，arXiv，2016年。arXiv
J. Heinrich 和 D. Silver，《不完美信息博弈中的自我对弈深度强化学习》，arXiv，2016年。arXiv
T. D. Kulkarni、K. R. Narasimhan、A. Saeedi 和 J. B. Tenenbaum，《层次化深度强化学习：整合时间抽象与内在动机》，arXiv，2016年。arXiv
J. Oh、V. Chockalingam、S. Singh 和 H. Lee，《在Minecraft中控制记忆、主动感知和行动》，ICML，2016年。arXiv
T. D. Kulkarni、A. Saeedi、S. Gautam 和 S. J. Gershman，《深度后继强化学习》，arXiv，2016年。arXiv

深度策略

S. Levine、C. Finn、T. Darrell 和 P. Abbeel，《端到端训练深度视觉-运动策略》，arXiv，2015年。arXiv
- 部分可观测的引导策略搜索
J. Schulman、S. Levine、P. Moritz、M. Jordan 和 P. Abbeel，《信任域策略优化》，ICML，2015年。pdf
T. Zhang、G. Kahn、S. Levine 和 P. Abbeel，《使用MPC引导的策略搜索学习用于自主飞行器的深度控制策略》，ICRA，2016年。arXiv

深度演员-评论家

J. Schulman、P. Moritz、S. Levine、M. Jordan 和 P. Abbeel，《利用广义优势估计进行高维连续控制》，arXiv，2015年。arXiv
T. P. Lillicrap、J. J. Hunt、A. Pritzel、N. Heess、T. Erez、Y. Tassa、D. Silver 和 D. Wierstra，《深度强化学习中的连续控制》，arXiv，2015年。arXiv
D. Balduzzi 和 M. Ghifary，《用于连续深度策略强化学习的相容价值梯度》，arXiv，2015年。arXiv
M. Hausknecht 和 P. Stone，《参数化动作空间中的深度强化学习》，arXiv，2015年。arXiv
N. Heess、J. J. Hunt、T. P. Lillicrap 和 D. Silver，《基于循环神经网络的记忆控制》，NIPS深度强化学习研讨会，2015年。arXiv
V. Mnih、A. P. Badia、M. Mirza、A. Graves、T. P. Lillicrap、T. Harley、D. Silver 和 K. Kavukcuoglu，《深度强化学习的异步方法》，arXiv，2016年。arXiv

深度模型

B. C. Stadie、S. Levine 和 P. Abbeel，《利用深度预测模型激励强化学习中的探索》，arXiv，2015年。arXiv
J. Oh、X. Guo、H. Lee、R. Lewis 和 S. Singh，《在Atari游戏中使用深度网络进行动作条件视频预测》，NIPS，2015年。arXiv
J. M. Assael、W. Om、T. B. Schön 和 M. P. Deisenroth，《利用深度动力学模型从图像像素中高效学习反馈策略》，arXiv，2015年。arXiv
N. Heess、G. Wayne、D. Silver、T. Lillicrap、Y. Tassa 和 T. Erez，《通过随机价值梯度学习连续控制策略》，NIPS，2015年。arXiv 视频
J. Schmidhuber，《关于学习思考：用于新型强化学习控制器与循环神经网络世界模型组合的算法信息论》，arXiv，2015年。arXiv
K. Fragkiadaki、P. Agrawal、S. Levine 和 J. Malik，《学习物理的视觉预测模型以玩台球》，ICLR，2016年。arXiv

应用于非RL任务

J. C. Caicedo 和 S. Lazebnik，《利用深度强化学习进行主动目标定位》，ICCV，2015年。pdf
H. Guo，《利用深度强化学习生成文本》，arXiv，2015年。arXiv
S. Hansen，《使用深度Q学习控制优化超参数》，arXiv，2016年。arXiv

未分类

X. Guo、S. Singh、H. Lee、R. Lewis 和 X. Wang，《利用离线蒙特卡洛树搜索规划进行实时Atari游戏的深度学习》，NIPS，2014年。pdf 视频
S. Mohamed 和 D. J. Rezende，《用于内在动机强化学习的变分信息最大化》，arXiv，2015年。arXiv
Y. Liang、M. C. Machado、E. Talvitie 和 M. Bowling，《利用浅层强化学习实现Atari游戏的最先进控制》，arXiv，2015年。arXiv
A. Tamar、S. Levine 和 P. Abbeel，《价值迭代网络》，arXiv，2016年。arXiv
C. Blundell、G. Deepmind、B. Uria、A. Pritzel、Y. Li、A. Ruderman、J. Z. Leibo、J. Rae、D. Wierstra 和 D. Hassabis，《无模型情境控制》，arXiv，2016年。arXiv

报告/幻灯片

S. Levine，《用于决策与控制的深度学习》，2015年。视频
D. Silver，《深度强化学习》，ICLR，2015年。视频1 视频2 幻灯片
D. Silver，《深度强化学习》，UAI，2015年。视频

杂项

deep-reinforcement-learning-papers 快速上手指南

deep-reinforcement-learning-papers 并非一个可执行的软件库或框架，而是一个深度强化学习（Deep RL）领域的论文与资源精选清单。它主要用于帮助研究者及开发者追踪该领域的前沿算法（如 DQN, A3C, TRPO 等）、获取原始论文 PDF 及相关代码实现链接。

本指南将指导你如何获取该资源列表，并如何利用其中的信息快速开始学习或复现经典算法。

环境准备

由于本项目本质是文档索引，无需特定的运行时环境，但为了阅读论文和运行相关代码，建议准备以下基础环境：

操作系统：Linux (Ubuntu/CentOS), macOS 或 Windows (WSL 推荐)。
网络环境：需能访问 GitHub 及部分学术资源网站（如 arXiv, Google Scholar）。若访问 arXiv 较慢，建议配置科学上网环境或使用国内学术镜像。
前置依赖：
- Git：用于克隆仓库。
- PDF 阅读器：用于查看论文。
- Python 3.x & PyTorch/TensorFlow：如果你打算根据列表中的链接去复现论文代码（列表中大部分论文都附带了官方或第三方代码库链接）。

安装步骤（获取资源）

该项目没有传统的“安装”过程，只需将仓库克隆到本地即可随时查阅。

克隆仓库 打开终端，执行以下命令：

git clone https://github.com/mooopan/deep-reinforcement-learning-papers.git

国内加速方案：如果直接克隆速度较慢，可使用 Gitee 镜像（如有）或通过代理加速：

# 示例：使用国内代码托管平台镜像（需确认当前是否有同步镜像）
# 或者使用 git 代理
export GIT_SSL_NO_VERIFY=true
git clone https://github.com/mooopan/deep-reinforcement-learning-papers.git

进入目录
```
cd deep-reinforcement-learning-papers
```
更新列表 由于该列表仍在持续更新（Work-in-progress），建议定期拉取最新内容：
```
git pull origin main
```

基本使用

本项目的使用核心在于检索与溯源。你可以通过浏览 README.md 文件找到感兴趣的算法类别，进而获取论文原文和代码实现。

1. 浏览分类目录

在本地或 GitHub 页面打开 README.md，你将看到以下核心分类：

Deep Value Function: 基于价值函数的方法（如 DQN, Double DQN, Dueling DQN）。
Deep Policy: 基于策略梯度的方法（如 TRPO, Guided Policy Search）。
Deep Actor-Critic: 演员 - 评论家方法（如 A3C, DDPG）。
Deep Model: 基于模型的方法（如 World Models）。
Application to Non-RL Tasks: 强化学习在非 RL 任务中的应用。

2. 获取论文与代码示例

假设你想研究 DQN (Deep Q-Network) 算法：

在 README.md 中找到 ### Deep Value Function 章节。
定位到条目：

V. Mnih, et al., Human-level control through deep reinforcement learning, Nature, 2015. pdf code
下载论文：点击 [pdf] 链接阅读原始文献。

获取代码：点击 [code] 链接（通常指向 DeepMind 官方或其他开源实现），然后克隆对应的代码仓库进行实验。

# 示例：获取 DQN 相关代码（以列表中提供的链接为例）
git clone https://github.com/deepmind/dqn.git 
# 注意：具体链接请以 README 中最新提供的为准

3. 参与贡献

如果你发现了新的重要论文希望加入列表：

直接在 GitHub 提交 Issue 或 Pull Request (PR)。
联系维护者 @mooopan。

提示：此列表是学习深度强化学习发展脉络的绝佳地图。建议结合具体的深度学习框架（如 PyTorch）教程，按图索骥复现经典论文，以获得最佳学习效果。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他