awesome-rl

GitHub
9.7k 1.9k 困难 1 次阅读 今天开发框架其他
AI 解读 由 AI 自动生成,仅供参考

awesome-rl 是一个专为强化学习领域打造的精选资源清单,旨在帮助从业者和学习者快速定位高质量的学习材料与技术工具。面对强化学习知识体系庞大、资料分散且质量参差不齐的痛点,它系统性地整理了从基础理论到前沿应用的全方位内容,涵盖经典教材代码复现、学术论文、行业应用案例(如游戏博弈、机器人控制)、开源框架及在线演示等。

无论是刚入门的学生、深耕算法的研究人员,还是寻求落地解决方案的开发者,都能在这里找到适合自己的资源。其独特亮点在于不仅收录了 Richard Sutton 等权威著作的多语言代码实现(Python、Julia 等),还汇聚了 PyBrain、RLPy、TensorFlow 深度 Q 学习等多种主流开源平台与工具箱,甚至包含针对教学设计的标准化接口 RL-Glue。虽然项目页面已注明不再主动维护,但其沉淀的历史资源依然具有极高的参考价值,是探索强化学习世界不可或缺的“导航图”。

使用场景

某高校机器人实验室的研究生团队正致力于开发一款基于强化学习的自主导航机械臂,需要在短时间内复现经典算法并寻找合适的开源框架进行二次开发。

没有 awesome-rl 时

  • 资源检索效率极低:团队成员需在 Google Scholar、GitHub 和各类论坛中盲目搜索,花费数周时间筛选过时的教程或失效的代码链接。
  • 理论到实践脱节:难以找到与经典教材(如 Sutton 的《强化学习导论》)严格对应的多语言代码实现,导致公式推导后无法快速验证。
  • 框架选型试错成本高:面对分散的开源平台(如 PyBrain, RLPy, Maja),缺乏横向对比资料,容易选错不适合当前任务的工具,造成前期工作返工。
  • 应用场景参考缺失:在将算法迁移至具体场景(如机械臂控制)时,找不到类似的开源案例作为基准,只能从零构建仿真环境。

使用 awesome-rl 后

  • 一站式获取权威资源:直接通过分类目录锁定最新的论文、综述及经过社区验证的代码库,将文献调研时间从数周压缩至几天。
  • 代码复现无缝衔接:迅速定位到教材配套的 Python、Julia 等官方习题解答与实现代码,确保理论理解与工程落地的一致性。
  • 精准匹配开发框架:依据“开源平台”列表中的详细描述,快速评估并选定最适合机械臂控制的框架(如基于 TensorFlow 的 Deep Q-Learning 实现),避免重复造轮子。
  • 借鉴成熟应用案例:参考"Robotics"和"Control"板块下的游戏与控制类 demo,直接复用部分仿真环境代码,大幅加速原型系统搭建。

awesome-rl 通过结构化整理全球优质资源,将研究人员从繁琐的信息搜集工作中解放出来,使其能专注于核心算法的创新与优化。

运行环境要求

GPU

未说明

内存

未说明

依赖
notesawesome-rl 本身不是一个可执行的软件工具或代码库,而是一个强化学习(Reinforcement Learning)资源的精选列表(Curated List)。它主要包含书籍、论文、讲座视频链接以及指向其他独立开源项目(如 OpenAI Baselines, PyTorch Deep RL, ChainerRL 等)的链接。因此,该项目本身没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户若需运行列表中提到的具体算法或示例,需参考各个子项目的独立文档以获取相应的环境配置信息。
python未说明
awesome-rl hero image

快速开始

令人惊叹的强化学习 Awesome

本页面已不再维护。

这是一份精心整理的、专注于强化学习的资源列表。

我们还维护着其他主题的页面:awesome-rnnawesome-deep-visionawesome-random-forest

维护者:Hyunsoo KimJiwon Kim

贡献

欢迎随时提交拉取请求

目录

代码

理论

讲座

书籍

综述文章

  • Leslie Pack Kaelbling、Michael L. Littman、Andrew W. Moore,《强化学习综述》(JAIR 1996年)[论文]
  • S. S. Keerthi 和 B. Ravindran,《强化学习教程式综述》(Sadhana 1994年)[论文]
  • Matthew E. Taylor、Peter Stone,《强化学习领域的迁移学习综述》(JMLR 2009年)[论文]
  • Jens Kober、J. Andrew Bagnell、Jan Peters,《机器人领域强化学习综述》(IJRR 2013年)[论文]
  • Michael L. Littman,《强化学习通过评估性反馈改善行为》(Nature 2015年)[论文]
  • Marc P. Deisenroth、Gerhard Neumann、Jan Peter,《机器人领域策略搜索综述》,发表于《机器人技术基础与趋势》(2014年)[图书]
  • Kai Arulkumaran、Marc Peter Deisenroth、Miles Brundage、Anil Anthony Bharath,《深度强化学习简要综述》(IEEE信号处理杂志 2017年)[DOI] [论文]
  • Benjamin Recht,《强化学习巡礼:从连续控制视角看》(年度控制、机器人与自动化系统评论 2019年)[DOI]

论文 / 学位论文

基础性论文

  • 马文·明斯基,《迈向人工智能的步骤》,IRE会刊,1961年。[DOI] [论文](讨论了强化学习中的“信用分配问题”等)
  • 伊恩·H·维滕,《离散时间马尔可夫环境下的自适应最优控制器》,信息与控制,1977年。[DOI] [论文](最早关于时序差分(TD)学习规则的发表文献)

方法类

  • 动态规划(DP):
    • 克里斯托弗·J·C·C·沃特金斯,《从延迟奖励中学习》,剑桥大学博士论文,1989年。[论文]
  • 蒙特卡洛法:
    • 安德鲁·巴托、迈克尔·达夫,《蒙特卡洛逆矩阵与强化学习》,NIPS,1994年。[论文]
    • 萨廷德·P·辛格、理查德·S·萨顿,《使用替换型资格迹的强化学习》,机器学习,1996年。[论文]
  • 时序差分法:
    • 理查德·S·萨顿,《通过时序差分方法进行预测的学习》。机器学习第3卷:9–44页,1988年。[论文]
  • Q学习(离策略TD算法):
    • 克里斯·沃特金斯,《从延迟奖励中学习》,剑桥,1989年。[论文]
  • Sarsa(在策略TD算法):
    • G.A. 拉默里、M. 尼兰詹,《基于连接主义系统的在线Q学习》,剑桥大学技术报告,1994年。[报告]
    • 理查德·S·萨顿,《强化学习中的泛化:利用稀疏编码的成功案例》,NIPS,1996年。[论文]
  • R学习(相对价值的学习):
    • 安德鲁·施瓦茨,《一种用于最大化未折现奖励的强化学习方法》,ICML,1993年。[Google Scholar论文]
  • 函数逼近方法(最小二乘时序差分、最小二乘策略迭代):
    • 史蒂文·J·布拉特克、安德鲁·G·巴托,《用于时序差分学习的线性最小二乘算法》,机器学习,1996年。[论文]
    • 米哈伊尔·G·拉古达基斯、罗纳德·帕尔,《无模型最小二乘策略迭代》,NIPS,2001年。[论文] [代码]
  • 策略搜索 / 策略梯度法:
    • 理查德·萨顿、大卫·麦卡莱斯特、萨廷德·辛格、伊沙伊·曼苏尔,《带有函数逼近的强化学习中的策略梯度方法》,NIPS,1999年。[论文]
    • 扬·彼得斯、塞图·维贾亚库马尔、斯特凡·沙尔,《自然演员—评论家算法》,ECML,2005年。[论文]
    • 延斯·科伯、扬·彼得斯,《机器人学中运动基元的策略搜索》,NIPS,2009年。[论文]
    • 扬·彼得斯、卡塔琳娜·穆林、雅赛敏·阿尔通,《基于相对熵的策略搜索》,AAAI,2010年。[论文]
    • 弗里克·斯图普、奥利维尔·西戈,《协方差矩阵自适应的路径积分策略改进》,ICML,2012年。[论文]
    • 内特·科尔、彼得·斯通,《用于快速四足行走的策略梯度强化学习》,ICRA,2004年。[论文]
    • 马克·戴森罗斯、卡尔·拉斯穆森,《PILCO:一种基于模型且数据高效的策略搜索方法》,ICML,2011年。[论文]
    • 斯科特·昆德尔斯马、罗德里克·格鲁彭、安德鲁·巴托,《用于姿势恢复的动态手臂动作学习》,Humanoids,2011年。[论文]
    • 康斯坦丁诺斯·哈齐利耶鲁迪斯、罗伯托·拉马、里图拉杰·考希克、多里安·戈普、瓦西里斯·瓦西利亚德斯、让-巴蒂斯特·穆雷,《面向机器人领域的黑箱高效策略搜索》,IROS,2017年。[论文]
  • 层次化强化学习:
    • 理查德·萨顿、多伊娜·普雷库普、萨廷德·辛格,《介于MDP与半MDP之间:强化学习中时间抽象的框架》,人工智能杂志,1999年。[论文]
    • 乔治·科尼达里斯、安德鲁·巴托,《构建可移植选项:强化学习中的技能迁移》,IJCAI,2007年。[论文]
  • 深度学习 + 强化学习(深度学习与强化学习结合的近期工作示例):
    • V. 米赫等人,《通过深度强化学习实现人类水平控制》,自然杂志,2015年。[论文]
    • 夏晓晓·郭、萨廷德·辛格、洪拉克·李、理查德·刘易斯、夏石·王,《利用离线蒙特卡洛树搜索规划进行实时雅达利游戏玩的深度学习》,NIPS,2014年。[论文]
    • 谢尔盖·列文、切尔西·芬恩、特雷弗·达雷尔、皮特·阿贝尔,《端到端训练深度视觉运动策略》。ArXiv,2015年10月16日。[ArXiv]
    • 汤姆·绍尔、约翰·匡恩、伊万尼斯·安东格卢、大卫·西尔弗,《优先级经验回放》,ArXiv,2015年11月18日。[ArXiv]
    • 哈多·范·哈塞尔特、阿瑟·古兹、大卫·西尔弗,《采用双Q学习的深度强化学习》,ArXiv,2015年9月22日。[ArXiv]
    • 沃洛季米尔·米赫、阿德里亚·普伊格多梅内奇·巴迪亚、梅赫迪·米尔扎、亚历克斯·格雷夫斯、蒂莫西·P·利利克拉普、蒂姆·哈利、大卫·西尔弗、科雷·卡武克丘奥卢,《深度强化学习的异步方法》,ArXiv,2016年2月4日。[ArXiv]

应用

游戏博弈

传统游戏

  • 跳棋 - 杰拉尔德·特萨罗,使用TD(λ)的“TD-Gammon”程序(ACM 1995)[论文]
  • 国际象棋 - 乔纳森·巴克斯特、安德鲁·特里吉尔和莱克斯·韦弗,使用TD(λ)的“KnightCap”程序(1999)[arXiv]
  • 国际象棋 - 马修·莱,Giraffe:利用深度强化学习下国际象棋(2015)[arXiv]

电脑游戏

  • Atari 2600游戏 - 沃洛迪米尔·姆尼赫、科雷·卡武克乔卢、大卫·西尔弗等,通过深度强化学习实现人类水平控制(Nature 2015)[DOI] [论文] [代码] [视频]
  • Flappy Bird - Sarvagya Vaish,Flappy Bird强化学习 [视频]
  • 马里奥 - 肯尼思·O·斯坦利和里斯托·米库莱宁,MarI/O:利用进化强化学习和人工神经网络学习玩马里奥(Evolutionary Computation 2002)[论文] [视频]
  • 星际争霸II - 奥里奥尔·维尼亚尔斯、伊戈尔·巴布什金、沃伊切赫·M·查尔涅茨基等,使用多智能体强化学习在星际争霸II中达到大师级水平(Nature 2019)[DOI] [论文] [视频]

机器人学

  • 内特·科尔和彼得·斯通,用于快速四足行走的策略梯度强化学习(ICRA 2004)[论文]
  • 彼塔尔·科尔穆舍夫、西尔万·卡利农和达尔文·G·卡尔德威尔,基于EM的强化学习实现机器人运动技能协调(IROS 2010)[论文] [视频]
  • 托德·赫斯特、迈克尔·奎兰和彼得·斯通,人形机器人上的强化学习通用模型学习(ICRA 2010)[论文] [视频]
  • 乔治·科尼达里斯、斯科特·昆德斯玛、罗德里克·格鲁彭和安德鲁·巴托,移动机械臂上的自主技能获取(AAAI 2011)[论文] [视频]
  • 马克·彼得·戴森罗斯和卡尔·爱德华·拉斯穆森,PILCO:一种基于模型且数据高效的策略搜索方法(ICML 2011)[论文]
  • 斯科特·尼库姆、萨钦·奇塔、巴斯卡拉·马尔蒂等,从示范中进行增量式语义化学习(RSS 2013)[论文]
  • 马克·卡特勒和乔纳森·P·豪,利用信息丰富的模拟先验对机器人进行高效强化学习(ICRA 2015)[论文] [视频]
  • 安托万·库利、杰夫·克伦、达内什·塔拉波尔和让-巴普蒂斯特·穆雷,能够像动物一样适应的机器人(Nature 2015)[ArXiv] [视频] [代码]
  • 康斯坦丁诺斯·哈齐利格鲁迪斯、罗伯托·拉马、里图拉杰·考希克等,机器人领域的黑箱数据高效策略搜索(IROS 2017)[ArXiv] [视频] [代码]
  • P·特拉维斯·贾尔丁、迈克尔·科根、西德尼·N·吉维吉和沙赫拉姆·优素福,采用强化学习调优的差速驱动机器人自适应预测控制(Int J Adapt Control Signal Process 2019)[DOI]

控制

  • 彼得·阿贝尔、亚当·科茨等,强化学习在特技直升机飞行中的应用(NIPS 2006)[论文] [视频]
  • J·安德鲁·巴格内尔和杰夫·G·施奈德,利用强化学习策略搜索方法实现直升机自动驾驶(ICRA 2001)[论文]

运筹学

  • 斯科特·普罗珀和普拉萨德·塔德帕利,产品配送中的平均奖励强化学习扩展(AAAI 2004)[论文]
  • 直树安倍、纳瓦尔·维尔马等,利用强化学习实现跨渠道优化营销(KDD 2004)[论文]
  • 伯恩德·瓦施内克、安德烈·赖希施塔勒、伦茨·贝尔茨纳等,半导体生产调度中的深度强化学习(ASMC 2018)[DOI] [论文]

人机交互

  • 萨廷德·辛格、黛安·利特曼等,利用强化学习优化对话管理:NJFun系统的实验(JAIR 2002)[论文]

代码

教程 / 网站

在线演示

开源强化学习平台

  • OpenAI gym - 用于开发和比较强化学习算法的工具包
  • OpenAI universe - 一个软件平台,用于衡量和训练人工智能在全球范围内的游戏、网站和其他应用中的通用智能
  • DeepMind Lab - 一个可定制的3D平台,用于基于智能体的人工智能研究
  • Project Malmo - 微软基于Minecraft构建的人工智能实验与研究平台
  • ViZDoom - 基于Doom的游戏环境,用于从原始视觉信息中进行强化学习的研究平台
  • Retro Learning Environment - 基于视频游戏模拟器的强化学习人工智能平台。目前支持SNES和Sega Genesis。与OpenAI gym兼容。
  • torch-twrl - Twitter开发的在Torch中实现强化学习的包
  • UETorch - Facebook为Unreal Engine 4开发的Torch插件
  • TorchCraft - 将Torch与StarCraft连接起来
  • garage - 一个用于可重复强化学习研究的框架,完全兼容OpenAI Gym和DeepMind Control Suite(rllab的继任者)
  • TensorForce - 基于TensorFlow的实用深度强化学习,提供Gitter支持,并集成OpenAI Gym/Universe/DeepMind Lab。
  • tf-TRFL - 一个基于TensorFlow的库,提供了多个用于实现强化学习智能体的有用组件。
  • OpenAI lab - 使用OpenAI Gym、TensorFlow和Keras的强化学习实验系统。
  • keras-rl - Keras中先进的深度强化学习算法,专为与OpenAI兼容而设计。
  • BURLAP - 布朗大学和UMBC联合开发的强化学习与规划库,使用Java编写。
  • MAgent - 多智能体强化学习平台。
  • Ray RLlib - Ray RLlib是一个旨在同时提供高性能和组合性的强化学习库。
  • SLM Lab - 使用Unity、OpenAI Gym、PyTorch和TensorFlow进行深度强化学习的研究框架。
  • Unity ML Agents - 使用Unity编辑器创建强化学习环境
  • Intel Coach - Coach是一个Python强化学习研究框架,包含许多最先进的算法实现。
  • Microsoft AirSim - 微软AI与研究部门基于Unreal Engine开发的开源自动驾驶车辆模拟器。
  • DI-engine - DI-engine是一个通用的决策智能引擎。它支持大多数基础的深度强化学习(DRL)算法,如DQN、PPO、SAC,以及多智能体强化学习中的QMIX、逆向强化学习中的GAIL和探索问题中的RND等特定领域的算法。
  • Jumanji - 一套由行业驱动、硬件加速的强化学习环境,使用JAX编写。

重要贡献者👩‍💻👨‍💻:

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架