[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Denghaoyuan123--Awesome-RL-VLA":3,"tool-Denghaoyuan123--Awesome-RL-VLA":65},[4,23,32,40,49,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":22},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,2,"2026-04-05T10:45:23",[13,14,15,16,17,18,19,20,21],"图像","数据工具","视频","插件","Agent","其他","语言模型","开发框架","音频","ready",{"id":24,"name":25,"github_repo":26,"description_zh":27,"stars":28,"difficulty_score":29,"last_commit_at":30,"category_tags":31,"status":22},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[17,13,20,19,18],{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":29,"last_commit_at":38,"category_tags":39,"status":22},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[19,13,20,18],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":46,"last_commit_at":47,"category_tags":48,"status":22},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[20,18],{"id":50,"name":51,"github_repo":52,"description_zh":53,"stars":54,"difficulty_score":46,"last_commit_at":55,"category_tags":56,"status":22},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65628,"2026-04-05T10:10:46",[20,18,14],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":10,"last_commit_at":63,"category_tags":64,"status":22},3364,"keras","keras-team\u002Fkeras","Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。\n\n无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。\n\nKeras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。",63927,"2026-04-04T15:24:37",[20,14,18],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":78,"owner_avatar_url":79,"owner_bio":80,"owner_company":81,"owner_location":82,"owner_email":80,"owner_twitter":80,"owner_website":83,"owner_url":84,"languages":80,"stars":85,"forks":86,"last_commit_at":87,"license":80,"difficulty_score":88,"env_os":89,"env_gpu":89,"env_ram":89,"env_deps":90,"category_tags":93,"github_topics":80,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":22,"created_at":94,"updated_at":95,"faqs":96,"releases":125},2473,"Denghaoyuan123\u002FAwesome-RL-VLA","Awesome-RL-VLA","A Survey on Reinforcement Learning of Vision-Language-Action Models for Robotic Manipulation","Awesome-RL-VLA 是一个专注于机器人操作领域中“视觉-语言-动作”（VLA）模型强化学习研究的精选资源库。随着大模型在机器人领域的应用日益广泛，如何让机器人不仅“看懂”指令，还能在复杂多变的环境中灵活执行动作，成为研究热点。Awesome-RL-VLA 旨在系统梳理这一前沿方向，为社区提供一份全面、结构化的文献综述与技术指南。\n\n该项目核心解决了 VLA 模型在分布外（OOD）场景下泛化能力不足的问题。通过引入强化学习（RL），机器人能够从环境反馈中不断优化策略，从而适应未见过的任务或环境变化。Awesome-RL-VLA 详细归纳了三种主流训练范式：无需实时交互的“离线 RL-VLA”，适合高风险或资源受限场景；通过与环境持续互动来提升适应性的“在线 RL-VLA”；以及在部署阶段通过轻量级调整实现行为适配的“测试时 RL-VLA”。\n\n这份资源非常适合人工智能研究人员、机器人算法工程师以及对具身智能感兴趣开发者使用。它不仅收录了最新的学术论文，还整理了包括基础 VLA 模型、数据集、基准测试及开发框架在内的实用工具链。其独特亮点在于清晰的分类体系，帮助用户快速定位如策略","Awesome-RL-VLA 是一个专注于机器人操作领域中“视觉-语言-动作”（VLA）模型强化学习研究的精选资源库。随着大模型在机器人领域的应用日益广泛，如何让机器人不仅“看懂”指令，还能在复杂多变的环境中灵活执行动作，成为研究热点。Awesome-RL-VLA 旨在系统梳理这一前沿方向，为社区提供一份全面、结构化的文献综述与技术指南。\n\n该项目核心解决了 VLA 模型在分布外（OOD）场景下泛化能力不足的问题。通过引入强化学习（RL），机器人能够从环境反馈中不断优化策略，从而适应未见过的任务或环境变化。Awesome-RL-VLA 详细归纳了三种主流训练范式：无需实时交互的“离线 RL-VLA”，适合高风险或资源受限场景；通过与环境持续互动来提升适应性的“在线 RL-VLA”；以及在部署阶段通过轻量级调整实现行为适配的“测试时 RL-VLA”。\n\n这份资源非常适合人工智能研究人员、机器人算法工程师以及对具身智能感兴趣开发者使用。它不仅收录了最新的学术论文，还整理了包括基础 VLA 模型、数据集、基准测试及开发框架在内的实用工具链。其独特亮点在于清晰的分类体系，帮助用户快速定位如策略优化、样本效率提升或训练稳定性等关键研究方向。无论是希望深入了解理论前沿的学者，还是寻求工程落地参考的技术人员，都能从中获得有价值的指引，加速下一代智能机器人操控技术的研发进程。","# Awesome RL-VLA for Robotic Manipulation 🤖\n**[[Paper](https:\u002F\u002Fwww.techrxiv.org\u002Fusers\u002F934012\u002Farticles\u002F1366553-a-survey-on-reinforcement-learning-of-vision-language-action-models-for-robotic-manipulation?commit=a7c4cf9ff94956e6d3c7f6eb1ff10a6eb2fc05e4)]**\n\nA curated list of papers and resources on **Reinforcement Learning of Vision-Language-Action (RL-VLA)** models for Robotic Manipulation. This repository provides a comprehensive overview of training paradigms, methodologies, and state-of-the-art approaches in RL-VLA research.\n\n## 📢 Latest News\n\n> 🔥 **[November 2025]** Our comprehensive survey paper **\"A Survey on Reinforcement Learning of Vision-Language-Action Models for Robotic Manipulation\"** is now available on [TechRxiv](https:\u002F\u002Fdoi.org\u002F10.36227\u002Ftechrxiv.176531955.54563920\u002Fv1)! Stay tuned for future updates.\n> \n\n## 📖 Table of Contents\n- [Awesome RL-VLA for Robotic Manipulation 🤖](#awesome-rl-vla-for-robotic-manipulation-)\n  - [📢 Latest News](#-latest-news)\n  - [📖 Table of Contents](#-table-of-contents)\n  - [🔍 Overview](#-overview)\n  - [🚀 Training Paradigms](#-training-paradigms)\n    - [Offline RL-VLA](#offline-rl-vla)\n    - [Online RL-VLA](#online-rl-vla)\n    - [Test-time RL-VLA](#test-time-rl-vla)\n  - [📚 Paper Collection](#-paper-collection)\n    - [Legend](#legend)\n    - [Offline RL-VLA](#offline-rl-vla-1)\n    - [Online RL-VLA](#online-rl-vla-1)\n    - [Offline + Online RL-VLA](#offline--online-rl-vla)\n    - [Test-time RL-VLA](#test-time-rl-vla-1)\n  - [🔗 Useful Resources](#-useful-resources)\n    - [🎯 RL-VLA Action Optimization](#-rl-vla-action-optimization)\n    - [Base VLA Models](#base-vla-models)\n    - [Datasets \\& Benchmarks](#datasets--benchmarks)\n    - [Frameworks \\& Tools](#frameworks--tools)\n  - [🤝 Contributing](#-contributing)\n    - [Contribution Guidelines](#contribution-guidelines)\n  - [📄 Citation](#-citation)\n  - [⭐ Star History](#-star-history)\n\n## 🔍 Overview\n\nRL training is crucial for enabling VLAs to generalize out-of-distribution (OOD) from large-scale pre-trained data. Existing RL-VLA training paradigms can be categorized into three types based on how agents obtain and utilize feedback from the environment:\n\n- **Online RL-VLA**: Direct interaction with the environment during training\n- **Offline RL-VLA**: Learning from static datasets without further environmental interaction  \n- **Test-time RL-VLA**: Models adapt their behavior during deployment without altering parameters\n\n## 🚀 Training Paradigms\n\n### Offline RL-VLA\n\nOffline RL trains VLA models on pre-collected static datasets, enabling learning independently from environment interactions. This paradigm is suitable for high-risk or resource-constrained deployment scenarios.\n\n**Key Research Directions:**\n- **Data Utilization**: Effective utilization of static datasets for policy improvement\n- **Objective Modification**: Customizing RL objectives for novel architectures and data augmentation\n\n### Online RL-VLA\n\nOnline RL-VLA enables interactive policy learning through continuous environment interaction, empowering pre-trained VLAs with adaptive closed-loop control capability for real-world OOD environments.\n\n**Key Research Directions:**\n- **Policy Optimization**: Direct policy improvement based on environmental rewards\n- **Sample Efficiency**: Learning effective policies with limited interaction budget\n- **Active Exploration**: Efficient exploration strategies for higher performance gains\n- **Training Stability**: Ensuring consistent policy updates and convergence\n- **Infrastructure**: Scalable frameworks for online RL-VLA training\n\n### Test-time RL-VLA\n\nTest-time RL-VLA adapts behavior during deployment through lightweight updates, addressing the expensive cost of full model fine-tuning in real-world scenarios.\n\n**Key Adaptation Mechanisms:**\n- **Value Guidance**: Using pre-trained value functions to influence action selection\n- **Memory Buffer Guidance**: Retrieving relevant historical experiences during inference\n- **Planning-guided Adaptation**: Explicit reasoning over future action sequences\n\n## 📚 Paper Collection\n\n### Legend\n- **Action**: AR (Autoregressive), Diffusion, Flow (Flow-matching)\n- **Reward**: D (Dense Reward), S (Sparse Reward)\n- **Model Type**: MB (Model-based), MF (Model-free)\n- **Environment**: Sim. (Simulation), Real (Real-world)\n\n### Offline RL-VLA\n\n| Method | Date | Publication | Sim. | Real | Base VLA Model | Action | Reward | Algorithm | Type | Project |\n|--------|------|-------------|------|------|----------------|--------|--------|-----------|------|---------|\n| [Q-Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.10150) | 2023.10 | CoRL23[🔗](https:\u002F\u002Fproceedings.mlr.press\u002Fv229\u002Fchebotar23a.html) | ✓ | ✗ | Transformer | AR | S | CQL | MF | [🔗](https:\u002F\u002Fqtransformer.github.io\u002F) |\n| [PAC](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05546) | 2024.02 | ICML24[🔗](https:\u002F\u002Fproceedings.mlr.press\u002Fv235\u002Fspringenberg24a.html) | ✓ | ✓ | Perceiver-Actor-Critic | AR | S | AC | MF | [🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fperceiver-actor-critic) |\n| [GeRM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.13358) | 2024.03 | IROS24[🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F10801816) | ✓ | ✗ | Transformer-MoE | AR | S | CQL | MF | [🔗](https:\u002F\u002Fsongwxuan.github.io\u002FGeRM\u002F) |\n| [MoRE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.08007) | 2025.03 | ICRA25[🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11128601) | ✗ | ✓  | MLLM-MoE | AR | S | CQL | MF |  -  |\n| [ReinboT](https:\u002F\u002Ficml.cc\u002Fvirtual\u002F2025\u002Fposter\u002F45523) | 2025.05 | ICML25 Workshop[🔗](https:\u002F\u002Ficml.cc\u002Fvirtual\u002F2025\u002Fposter\u002F45523) | ✓ | ✓ | ReinboT | AR | D | DT + RTG | MF | [🔗](https:\u002F\u002Fgithub.com\u002FCOST-97\u002FreinboT) |\n| [CO-RFT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2508.02219) | 2025.08 | - | ✗ | ✓ | RoboVLMs | AR | D | Cal-QL + TD3 | MF | - |\n| [ARFM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.04063) | 2025.09 | AAAI26[🔗](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F38944) | ✓ | ✓ | π₀ | Flow | D | ARFM | MF | - |\n| [$π^*_{0.6}$](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.14759) | 2025.11 | - | ✗ | ✓ | $π_{0.6}$ | Flow | D | RECAP | MF | [🔗](https:\u002F\u002Fwww.pi.website\u002Fblog\u002Fpistar06) |\n| [NORA-1.5](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.14659) | 2025.11 | - | ✓ | ✓ | NORA-1.5 | AR \u002F Flow | D | DPO | MB | [🔗](https:\u002F\u002Fdeclare-lab.github.io\u002Fnora-1.5) |\n\n\n### Online RL-VLA\n\n| Method | Date | Publication | Sim. | Real | Base VLA Model | Action | Reward | Algorithm | Type | Project |\n|--------|------|-------------|------|------|----------------|--------|--------|-----------|------|---------|\n| [FLaRe](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.16578) | 2024.09 | ICRA25[🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11127934) | ✓ | ✓ | SPOC | AR | S | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FJiahengHu\u002FFLaRe) |\n| [PA-RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.06685) | 2024.12 | ICLR25 Workshop[🔗](https:\u002F\u002Ficlr.cc\u002Fvirtual\u002F2025\u002F10000710) | ✓ | ✓ | OpenVLA | AR | S | PA-RL | MF | [🔗](https:\u002F\u002Fpolicyagnosticrl.github.io\u002F) |\n| [RLDG](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.09858) | 2024.12 | RSS25[🔗](https:\u002F\u002Fwww.roboticsproceedings.org\u002Frss21\u002Fp028.pdf) | ✗ | ✓ | OpenVLA \u002F Octo | AR \u002F Diffusion | S | RLPD | MF | [🔗](https:\u002F\u002Fgeneralist-distillation.github.io\u002F) |\n| [iRe-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16664) | 2025.01 | ICRA25[🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11127299) | ✓ | ✓ | iRe-VLA | AR | S | SACfD + SFT | MF | - |\n| [GRAPE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.19309) | 2025.02 | ICRA25 Poster[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=W64vwmZHdK) | ✓ | ✓ | OpenVLA | AR | D | TPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002Faiming-lab\u002Fgrape) |\n| [SafeVLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.03480) | 2025.03 | NeurIPS25 Poster[🔗](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2025\u002Floc\u002Fsan-diego\u002Fposter\u002F116975) | ✓ | ✗ | SPOC | AR | S | PPO | MF | [🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fpku-safevla) |\n| [RIPT-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.17016) | 2025.05 | - | ✓ | ✗ | QueST \u002F OpenVLA-OFT | AR | S | LOOP | MF | [🔗](https:\u002F\u002Fariostgx.github.io\u002Fript_vla\u002F) |\n| [VLA-RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.18719) | 2025.05 | - | ✓ | ✗ | OpenVLA | AR | D | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FGuanxingLu\u002Fvlarl) |\n| [RLVLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19789) | 2025.05 | NeurIPS25 Poster[🔗](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2025\u002Floc\u002Fsan-diego\u002Fposter\u002F115842) | ✓ | ✗ | OpenVLA | AR | S | PPO \u002F GRPO \u002F DPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fgen-robot\u002FRL4VLA) |\n| [RFTF](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19767) | 2025.05 | - | ✓ | ✗ | GR-MG, Seer | AR | D | PPO | MF | - |\n| [TGRPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.08440) | 2025.06 | - | ✓ | ✗ | OpenVLA | AR | D | GRPO | MF | - |\n| [RLRC](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.17639) | 2025.06 | - | ✓ | ✗ | OpenVLA | AR | S | PPO | MF | [🔗](https:\u002F\u002Frlrc-vla.github.io\u002F) |\n| [ThinkAct](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16815) | 2025.07 | NeurIPS25 Poster[🔗](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2025\u002Floc\u002Fsan-diego\u002Fposter\u002F119747) | ✓ | ✗ | MLLM + DiT | AR \u002F Diffusion | D | GRPO (System 2) | MF | [🔗](https:\u002F\u002Fjasper0314-huang.github.io\u002Fthinkact-vla\u002F) |\n| [SimpleVLA-RL](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.09674) | 2025.09 | ICLR26 Poster[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=TQhSodCM4r) | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FSimpleVLA-RL) |\n| [Dual-Actor FT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.13774) | 2025.09 | IROS25 Workshop Extended Abstract[🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fhil-daft\u002F) | ✓ | ✓ | Octo \u002F SmolVLA | Diffusion | S | QL + BC | MF | [🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fhil-daft\u002F) |\n| [Generalist](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.15155) | 2025.09 | NeurIPS25 Poster[🔗](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2025\u002Floc\u002Fsan-diego\u002Fposter\u002F118633) | ✓ | ✓ | PaLI 3B | AR | D | REINFORCE | MF | [🔗](https:\u002F\u002Fself-improving-efms.github.io.\u002F) |\n| [VLAC](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.15937) | 2025.09 | - | ✗ | ✓ | VLAC | AR | D | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FInternRobotics\u002FVLAC) |\n| [Robo-Dopamine](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.23703) | 2025.12 | CVPR26[🔗](https:\u002F\u002Frobo-dopamine.github.io\u002F) | ✓ | ✓ | Pi0.5 | Flow | D | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FFlagOpen\u002FRobo-Dopamine) |\n| [AC PPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.25718) | 2025.09 | - | ✓ | ✗ | Octo-small | AR | S | PPO+BC | MF | - |\n| [VLA-RFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.00406) | 2025.10 | - | ✓ | ✗ | VLA-Adapter | Flow | D | GRPO | MB | [🔗](https:\u002F\u002Fvla-rft.github.io\u002F) |\n| [RLinf-VLA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.06710v1) | 2025.10 | - | ✓ | ✓ | OpenVLA \u002F OpenVLA-OFT | AR | S | PPO \u002F GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FRLinf\u002FRLinf) |\n| [FPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.09976) | 2025.10 | - | ✓ | ✗ | π₀ | Flow | S | FPO | MF | - |\n| [ReSA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.12710) | 2025.10 | - | ✓ | ✗ | OpenVLA | AR | D | PPO + SFT | MF | - |\n| [π_RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.25889) | 2025.10 | - | ✓ | ✗ | π₀ \u002F π₀.₅ | Flow | S | PPO \u002F GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FRLinf\u002FRLinf) |\n| [PLD](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.00091) | 2025.10 | ICLR26 Poster[🔗](https:\u002F\u002Ficlr.cc\u002Fvirtual\u002F2026\u002Fposter\u002F10008318) | ✓ | ✓ | OpenVLA \u002F π₀ \u002F Octo | AR \u002F Flow | S | Cal-QL + SAC | MF | [🔗](https:\u002F\u002Fwww.wenlixiao.com\u002Fself-improve-VLA-PLD) |\n| [DeepThinkVLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.15669) | 2025.10 | - | ✓ | ✗ | π₀-Fast | AR | S | GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FwadeKeith\u002FDeepThinkVLA) |\n| [World-Env](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.24948) | 2025.11 | - | ✓ | ✓ | OpenVLA-OFT | AR | D | PPO | MB | [🔗](https:\u002F\u002Fgithub.com\u002Famap-cvlab\u002Fworld-env) |\n| [RobustVLA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.01331) | 2025.11  - || ✓ | ✗ | OpenVLA-OFT | AR | D | PPO | MF | - |\n| [WMPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.09515) | 2025.11 | ICLR26 Poster[🔗](https:\u002F\u002Ficlr.cc\u002Fvirtual\u002F2026\u002Fposter\u002F10007263) | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MB | [🔗](https:\u002F\u002Fwm-po.github.io\u002F) |\n| [ProphRL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20633v1) | 2025.11 | - | ✓ | ✓ | VLA-Adapter \u002F π0.5 \u002F OpenVLA-OFT(flow action) | Flow | S | FA-GRPO | MB | [🔗](https:\u002F\u002Flogosroboticsgroup.github.io\u002FProphRL) |\n| [EVOLVE-VLA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.14666) | 2025.12 | - | ✓ | ✗ |  OpenVLA-OFT | AR | D | GRPO | MB(VLAC) | [🔗](https:\u002F\u002Fshowlab.github.io\u002FEVOLVE-VLA) |\n| [SOP](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03044v1) | 2026.1 | - | ✗ | ✓ | π0.5 | Flow | S | HG-DAgger \u002F RECAP | MF | [🔗](https:\u002F\u002Fwww.agibot.com\u002Fresearch\u002Fsop) |\n| [Green-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.00919) | 2026.1 | - | ✓ | ✓ | Green-VLA | Flow | S | IQL + actor-critic | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fgreenvla\u002FGreenVLA) |\n| [SA-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.00743) | 2026.1 | - | ✓ | ✗ | π0.5 | Flow | D | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FTwSphinx54\u002FSA-VLA) |\n| [World-Gymnast](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.02454) | 2026.2 | ICLR26 Workshop[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=N3jMxWfJlb) | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MB | [🔗](https:\u002F\u002Fworld-gymnast.github.io) |\n| [RL-VLA3](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.05765) | 2026.2 | ICLR26 Workshop[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=IWS9pJKnlI) | ✓ | ✓ | π0 \u002F π0.5 \u002F GR00T N1.5 \u002F OpenVLA-OFT | Flow \u002F AR | S| - | MF | — |\n| [World-VLA-Loop](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.06508) | 2026.2 | - | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MB | [🔗](https:\u002F\u002Fshowlab.github.io\u002FWorld-VLA-Loop\u002F) |\n| [RISE](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.11075) | 2026.2 | - | ✗ | ✓ | π0.5 | Flow | D | RISE | MB | [🔗](https:\u002F\u002Fopendrivelab.com\u002Fkai0-rl\u002F) |\n| [WoVR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13977) | 2026.2 | - | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MB | [🔗](https:\u002F\u002Fgithub.com\u002FRLinf\u002FRLinf) |\n| [ALOE](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.12691) | 2026.2 | - | ✗ | ✓ | π₀.₅ | Flow | S | AWR(Advantage-Weighted Regression) | MF | [🔗](https:\u002F\u002Frooshy-yang.github.io\u002F) |\n| [TwinRL-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.09023) | 2026.2 | - | ✗ | ✓ | Octo | Diffusion | S | Actor-Critic | MF | — |\n| [RL-Co](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.12628) | 2026.3 | - | ✓ | ✓ | OpenVLA \u002F π0.5 | AR \u002F Flow | D |  ReinFlow \u002F GRPO | MF | — |\n| [π_StepNFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.02083) | 2026.3 | - | ✓ | ✗ | π₀ \u002F π₀.₅ | Flow | S | NFT | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fwangst0181\u002Fpi-StepNFT) |\n| [ROBOMETER](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.02115) | 2026.3 | - | ✗ | ✓ | π₀ | Flow | D | DSRL | MF | [🔗](https:\u002F\u002Frobometer.github.io\u002F) |\n| [AtomVLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.08519) | 2026.3 | - | ✓ | ✓ | AtomVLA | Flow | D | GRPO | MB | — |\n| [NS-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09542) | 2026.3 | - | ✓ | ✗ | NS-VLA | AR | D | GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FZuzuzzy\u002FNS-VLA) |\n\n\n\n\n### Offline + Online RL-VLA\n\n| Method | Date | Publication | Sim. | Real | Base VLA Model | Action | Reward | Algorithm | Type | Project |\n|--------|------|-------------|------|------|----------------|--------|--------|-----------|------|---------|\n| [ConRFT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.05450) | 2025.4 | RSS26[🔗](https:\u002F\u002Froboticsconference.org\u002Fprogram\u002Fpapers\u002F19\u002F) | ✗ | ✓ | Octo-small | Diffusion | S | Cal-QL + BC | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fcccedric\u002Fconrft) |\n| [DiffusionRL-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.19752v2) | 2025.9 | - | ✓ | ✗ | π₀ | Flow | S | PPO(DP) + BC(VLA)  | MF | - |\n| [SRPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.15605) | 2025.11 | - | ✓ | ✓ | OpenVLA* \u002F π₀ \u002F π₀-Fast | AR \u002F Flow | D | SRPO | MF (MB-Reward but MF-RL) | [🔗](https:\u002F\u002Fgithub.com\u002Fsii-research\u002FsiiRL) |\n| [DLR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.19528) | 2025.11 | - | ✓ | ✗ | π₀ \u002F OpenVLA | Flow \u002F AR | S | PPO(MLP) + SFT(VLA)  | MF | - |\n| [GR-RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.01801) | 2025.12 | - | ✗ | ✓ | GR-3 | Flow | S | TD3 \u002F DSRL | MF | [🔗](https:\u002F\u002Fseed.bytedance.com\u002Fgr_rl) |\n| [STARE-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.05107) | 2025.12 | - | ✓ | ✗ | OpenVLA \u002F π₀.₅ | AR \u002F Flow | D | PPO \u002F TPO \u002F SFT | MF | [🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fstare-vla) |\n| [IG-RFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20715) | 2026.2 | - | ✗ | ✓ | π₀.₅ | Flow | D | IG-AWR | MF | — |\n\n\n### Test-time RL-VLA\n\n| Method | Date | Publication | Sim. | Real | Base VLA Model | Action | Reward | Algorithm | Type | Project |\n|--------|------|-------------|------|------|----------------|--------|--------|-----------|------|---------|\n| [V-GPS](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13816) | 2024.10 | CoRL25[🔗](https:\u002F\u002Fproceedings.mlr.press\u002Fv270\u002Fnakamoto25a.html) | ✓ | ✓ | Octo \u002F RT-1 \u002F OpenVLA | AR \u002F Diffusion | D | Cal-QL | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fnakamotoo\u002FV-GPS) |\n| [Hume](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21432) | 2025.6 | - | ✓ | ✓ | Hume | Flow | S | Value Guidance | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fhume-vla\u002Fhume) |\n| [VLA-Reasoner](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.22643) | 2025.9 | ICRA26[🔗](https:\u002F\u002Fvla-reasoner.github.io\u002F) | ✓ | ✓ | OpenVLA \u002F SpatialVLA \u002F π₀-Fast | AR \u002F Diffusion | D | MCTS | MB |  [🔗](https:\u002F\u002Fvla-reasoner.github.io\u002F) |\n| [VLAPS](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.12211) | 2025.11 | CoRL25 Workshop[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=XB3NCAheab) | ✓ | ✗ | Octo | Diffusion | S | MCTS | MB | [🔗](https:\u002F\u002Fgithub.com\u002Fcyrusneary\u002Fvlaps) |\n| [VLA-Pilot](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.14178) | 2025.11 | - | ✗ | ✓ | DiVLA \u002F RDT | AR \u002F Diffusion | D | Value GuidanceT | MB(MLLM) | [🔗](https:\u002F\u002Frip4kobe.github.io\u002Fvla-pilot\u002F) |\n| [TACO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.02834) | 2025.12 | - | ✓ | ✓ |  π₀ \u002F OpenVLA et al. | Flow | S | CNF estimation | MF | [🔗](https:\u002F\u002Fvla-anti-exploration.github.io\u002F) |\n| [TT-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.06748v2) | 2026.1 | - | ✓ | ✓ | Nora \u002F OpenVLA \u002F TraceVLA | AR | D | PPO (Value-free) | MF | - |\n| [VLS](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2602.03973) | 2026.2 | - | ✓ | ✓ | OpenVLA \u002F π₀ \u002F π₀.₅ | Flow | D | gradient-based steer | MB(VLM) | [🔗](https:\u002F\u002Fvision-language-steering.github.io\u002Fwebpage\u002F) |\n\n**Note**: The 🔗 symbol in the Project column indicates papers with available project pages, GitHub repositories, or demo websites.\n## 🔗 Useful Resources\n\n### 🎯 RL-VLA Action Optimization\n\nDifferent VLA architectures require distinct RL optimization strategies based on their action generation mechanisms:\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd width=\"34%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDenghaoyuan123_Awesome-RL-VLA_readme_5726b7e9d1cd.png\" alt=\"RL-VLA Action Optimization\" width=\"100%\" \u002F>\n\u003C\u002Ftd>\n\u003Ctd width=\"66%\">\n\n- **🔤 Autoregressive VLA**: Optimizes actions at the **token-level**. Each action token is individually optimized through RL, enabling fine-grained control over action sequences but requiring careful handling of sequential dependencies.\n\n- **🌊 Generative VLA** (Diffusion\u002FFlow): Optimizes along the action generation process at the **sequence-level**. The entire action trajectory is optimized as a cohesive unit through the denoising or flow-matching process, providing holistic action optimization.\n\n- **🔗 Dual-system VLA**: Optimizes at the **bridge-level**. RL decides which high-level action proposal to pass to the fast controller, creating a hierarchical optimization approach that complements both token-level and sequence-level methods.\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### Base VLA Models\n- [GR00T-N1](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FIsaac-GR00T) - NVIDIA series\n- [π0](https:\u002F\u002Fgithub.com\u002FPhysical-Intelligence\u002Fopenpi) - PI series\n- [OpenVLA](https:\u002F\u002Fgithub.com\u002Fopenvla\u002Fopenvla) - Open-source VLA model\n- [Octo](https:\u002F\u002Fgithub.com\u002Focto-models\u002Focto) - Generalist robot policy\n- [RT-1](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Frobotics_transformer) - Robotics Transformer\n\n### Datasets & Benchmarks\n- [Open X-Embodiment](https:\u002F\u002Frobotics-transformer-x.github.io\u002F) - Large-scale robotic datasets\n- [LIBERO](https:\u002F\u002Flibero-ai.github.io\u002F) - Benchmark for lifelong robot learning\n- [SimplerEnv](https:\u002F\u002Fgithub.com\u002Fsimpler-env\u002FSimplerEnv) - Benchmark for real-sim robot learning\n- [RoboTwin](https:\u002F\u002Fgithub.com\u002Frobotwin-Platform\u002Frobotwin) - Benchmark for bimanual robot learning\n- [DeepPHY](https:\u002F\u002Fgithub.com\u002FXinrunXu\u002FDeepPHY) - Benchmark for physical reasoning\n\n### Frameworks & Tools\n- [RLinf](https:\u002F\u002Fgithub.com\u002FRLinf\u002FRLinf) - Infrastructure for online RL fine-tuning of VLAs\n- [RLinfv0.2](https:\u002F\u002Frlinf.readthedocs.io\u002Fen\u002Flatest\u002Frst_source\u002Fexamples\u002Frealworld.html) - Infrastructure for real world RL\n\n\n## 🤝 Contributing\n\nWe welcome contributions to this awesome list! Please feel free to:\n\n1. **Add new papers**: Submit a PR with new RL-VLA papers following the existing format\n2. **Update information**: Correct any errors or update paper information\n3. **Suggest improvements**: Propose better organization or additional sections\n\n### Contribution Guidelines\n- Ensure papers are relevant to RL-VLA research\n- Include paper links, project pages (if available), and key details\n- Follow the existing table format for consistency\n- Add a brief description for new paradigms or significant methodological contributions\n\n## 📄 Citation\n\nIf you find this repository useful, please consider citing:\n\n```bibtex\n@article{pine2025rlvla,\n  title={A Survey on Reinforcement Learning of Vision-Language-Action Models for Robotic Manipulation},\n  author={Haoyuan Deng, Zhenyu Wu, Haichao Liu, Wenkai Guo, Yuquan Xue, Ziyu Shan, Chuanrui Zhang, Bofang Jia, Yuan Ling, Guanxing Lu, and Ziwei Wang},\n  journal={TechRxiv},\n  year={2025},\n  doi={10.36227\u002Ftechrxiv.176531955.54563920\u002Fv1},\n  note={Preprint}\n}\n```\n\n\n---\n\n## ⭐ Star History\n **Star this repository** if you find it helpful!\n\n\n[![Star History Chart](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDenghaoyuan123_Awesome-RL-VLA_readme_27e23c544145.png)](https:\u002F\u002Fwww.star-history.com\u002F#Denghaoyuan123\u002FAwesome-RL-VLA&type=date&legend=top-left)\n","# 用于机器人操作的优秀强化学习视觉-语言-动作模型 🤖\n**[[论文](https:\u002F\u002Fwww.techrxiv.org\u002Fusers\u002F934012\u002Farticles\u002F1366553-a-survey-on-reinforcement-learning-of-vision-language-action-models-for-robotic-manipulation?commit=a7c4cf9ff94956e6d3c7f6eb1ff10a6eb2fc05e4)]**\n\n这是一份精心整理的关于用于机器人操作的**视觉-语言-动作强化学习（RL-VLA）**模型的论文和资源列表。该仓库提供了RL-VLA研究中训练范式、方法论以及最先进方法的全面概述。\n\n## 📢 最新消息\n\n> 🔥 **[2025年11月]** 我们的综述论文**“面向机器人操作的视觉-语言-动作模型强化学习综述”**现已在[TechRxiv](https:\u002F\u002Fdoi.org\u002F10.36227\u002Ftechrxiv.176531955.54563920\u002Fv1)上发布！敬请关注后续更新。\n> \n\n## 📖 目录\n- [用于机器人操作的优秀RL-VLA 🤖](#awesome-rl-vla-for-robotic-manipulation-)\n  - [📢 最新消息](#-latest-news)\n  - [📖 目录](#-table-of-contents)\n  - [🔍 概述](#-overview)\n  - [🚀 训练范式](#-training-paradigms)\n    - [离线RL-VLA](#offline-rl-vla)\n    - [在线RL-VLA](#online-rl-vla)\n    - [测试时RL-VLA](#test-time-rl-vla)\n  - [📚 论文集](#-paper-collection)\n    - [图例](#legend)\n    - [离线RL-VLA](#offline-rl-vla-1)\n    - [在线RL-VLA](#online-rl-vla-1)\n    - [离线+在线RL-VLA](#offline--online-rl-vla)\n    - [测试时RL-VLA](#test-time-rl-vla-1)\n  - [🔗 有用资源](#-useful-resources)\n    - [🎯 RL-VLA动作优化](#-rl-vla-action-optimization)\n    - [基础VLA模型](#base-vla-models)\n    - [数据集与基准](#datasets--benchmarks)\n    - [框架与工具](#frameworks--tools)\n  - [🤝 贡献](#-contributing)\n    - [贡献指南](#contribution-guidelines)\n  - [📄 引用](#-citation)\n  - [⭐ 星标历史](#-star-history)\n\n## 🔍 概述\n\n强化学习训练对于使VLAs能够从大规模预训练数据中泛化到分布外（OOD）场景至关重要。现有的RL-VLA训练范式可以根据智能体如何获取并利用环境反馈分为三类：\n\n- **在线RL-VLA**：在训练过程中直接与环境交互\n- **离线RL-VLA**：从静态数据集中学习，无需进一步的环境交互\n- **测试时RL-VLA**：模型在部署过程中调整其行为，而不改变参数\n\n## 🚀 训练范式\n\n### 离线RL-VLA\n\n离线RL在预先收集的静态数据集上训练VLA模型，使其能够在不依赖环境交互的情况下进行学习。这种范式适用于高风险或资源受限的部署场景。\n\n**关键研究方向：**\n- **数据利用**：有效利用静态数据集来改进策略\n- **目标修改**：为新型架构和数据增强定制强化学习目标\n\n### 在线RL-VLA\n\n在线RL-VLA通过持续的环境交互实现交互式策略学习，使预训练的VLAs具备适应性闭环控制能力，从而应对现实世界中的OOD环境。\n\n**关键研究方向：**\n- **策略优化**：基于环境奖励直接改进策略\n- **样本效率**：在有限的交互预算内学习有效的策略\n- **主动探索**：高效的探索策略以获得更高的性能提升\n- **训练稳定性**：确保策略更新的一致性和收敛性\n- **基础设施**：可扩展的在线RL-VLA训练框架\n\n### 测试时RL-VLA\n\n测试时RL-VLA通过轻量级更新在部署过程中调整行为，解决了在现实场景中对整个模型进行微调成本高昂的问题。\n\n**关键适应机制：**\n- **价值引导**：使用预训练的价值函数来影响动作选择\n- **记忆缓冲区引导**：在推理过程中检索相关的历史经验\n- **规划引导的适应**：对未来动作序列进行显式推理\n\n## 📚 论文集\n\n### 图例\n- **动作**：AR（自回归）、扩散、流（流匹配）\n- **奖励**：D（密集奖励）、S（稀疏奖励）\n- **模型类型**：MB（基于模型）、MF（无模型）\n- **环境**：Sim.（仿真）、Real（真实）\n\n### 离线RL-VLA\n\n| 方法 | 日期 | 出版物 | 仿真 | 真实 | 基础VLA模型 | 动作 |  bel | 算法 | 类型 | 项目 |\n|--------|------|-------------|------|------|----------------|--------|--------|-----------|------|---------|\n| [Q-Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.10150) | 2023年10月 | CoRL23[🔗](https:\u002F\u002Fproceedings.mlr.press\u002Fv229\u002Fchebotar23a.html) | ✓ | ✗ | Transformer | AR | S | CQL | MF | [🔗](https:\u002F\u002Fqtransformer.github.io\u002F) |\n| [PAC](https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.05546) | 2024年2月 | ICML24[🔗](https:\u002F\u002Fproceedings.mlr.press\u002Fv235\u002Fspringenberg24a.html) | ✓ | ✓ | Perceiver-Actor-Critic | AR | S | AC | MF | [🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fperceiver-actor-critic) |\n| [GeRM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2403.13358) | 2024年3月 | IROS24[🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F10801816) | ✓ | ✗ | Transformer-MoE | AR | S | CQL | MF | [🔗](https:\u002F\u002Fsongwxuan.github.io\u002FGeRM\u002F) |\n| [MoRE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2503.08007) | 2025年3月 | ICRA25[🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11128601) | ✗ | ✓ | MLLM-MoE | AR | S | CQL | MF |  -  |\n| [ReinboT](https:\u002F\u002Ficml.cc\u002Fvirtual\u002F2025\u002Fposter\u002F45523) | 2025年5月 | ICML25研讨会[🔗](https:\u002F\u002Ficml.cc\u002Fvirtual\u002F2025\u002Fposter\u002F45523) | ✓ | ✓ | ReinboT | AR | D | DT + RTG | MF | [🔗](https:\u002F\u002Fgithub.com\u002FCOST-97\u002FreinboT) |\n| [CO-RFT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2508.02219) | 2025年8月 | - | ✗ | ✓ | RoboVLMs | AR | D | Cal-QL + TD3 | MF | - |\n| [ARFM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.04063) | 2025年9月 | AAAI26[🔗](https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F38944) | ✓ | ✓ | π₀ | Flow | D | ARFM | MF | - |\n| [$π^*_{0.6}$](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.14759) | 2025年11月 | - | ✗ | ✓ | $π_{0.6}$ | Flow | D | RECAP | MF | [🔗](https:\u002F\u002Fwww.pi.website\u002Fblog\u002Fpistar06) |\n| [NORA-1.5](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.14659) | 2025年11月 | - | ✓ | ✓ | NORA-1.5 | AR \u002F Flow | D | DPO | MB | [🔗](https:\u002F\u002Fdeclare-lab.github.io\u002Fnora-1.5) |\n\n\n### 在线RL-VLA\n\n| 方法 | 日期 | 发表期刊\u002F会议 | 模拟 | 实际 | 基础VLA模型 | 行动模式 | 奖励函数 | 算法 | 类型 | 项目 |\n|--------|------|-------------|------|------|----------------|--------|--------|-----------|------|---------|\n| [FLaRe](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.16578) | 2024.09 | ICRA25[🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11127934) | ✓ | ✓ | SPOC | AR | S | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FJiahengHu\u002FFLaRe) |\n| [PA-RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.06685) | 2024.12 | ICLR25 Workshop[🔗](https:\u002F\u002Ficlr.cc\u002Fvirtual\u002F2025\u002F10000710) | ✓ | ✓ | OpenVLA | AR | S | PA-RL | MF | [🔗](https:\u002F\u002Fpolicyagnosticrl.github.io\u002F) |\n| [RLDG](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.09858) | 2024.12 | RSS25[🔗](https:\u002F\u002Fwww.roboticsproceedings.org\u002Frss21\u002Fp028.pdf) | ✗ | ✓ | OpenVLA \u002F Octo | AR \u002F Diffusion | S | RLPD | MF | [🔗](https:\u002F\u002Fgeneralist-distillation.github.io\u002F) |\n| [iRe-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2501.16664) | 2025.01 | ICRA25[🔗](https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F11127299) | ✓ | ✓ | iRe-VLA | AR | S | SACfD + SFT | MF | - |\n| [GRAPE](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.19309) | 2025.02 | ICRA25 Poster[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=W64vwmZHdK) | ✓ | ✓ | OpenVLA | AR | D | TPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002Faiming-lab\u002Fgrape) |\n| [SafeVLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2503.03480) | 2025.03 | NeurIPS25 Poster[🔗](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2025\u002Floc\u002Fsan-diego\u002Fposter\u002F116975) | ✓ | ✗ | SPOC | AR | S | PPO | MF | [🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fpku-safevla) |\n| [RIPT-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.17016) | 2025.05 | - | ✓ | ✗ | QueST \u002F OpenVLA-OFT | AR | S | LOOP | MF | [🔗](https:\u002F\u002Fariostgx.github.io\u002Fript_vla\u002F) |\n| [VLA-RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.18719) | 2025.05 | - | ✓ | ✗ | OpenVLA | AR | D | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FGuanxingLu\u002Fvlarl) |\n| [RLVLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19789) | 2025.05 | NeurIPS25 Poster[🔗](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2025\u002Floc\u002Fsan-diego\u002Fposter\u002F115842) | ✓ | ✗ | OpenVLA | AR | S | PPO \u002F GRPO \u002F DPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fgen-robot\u002FRL4VLA) |\n| [RFTF](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.19767) | 2025.05 | - | ✓ | ✗ | GR-MG, Seer | AR | D | PPO | MF | - |\n| [TGRPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2506.08440) | 2025.06 | - | ✓ | ✗ | OpenVLA | AR | D | GRPO | MF | - |\n| [RLRC](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.17639) | 2025.06 | - | ✓ | ✗ | OpenVLA | AR | S | PPO | MF | [🔗](https:\u002F\u002Frlrc-vla.github.io\u002F) |\n| [ThinkAct](https:\u002F\u002Farxiv.org\u002Fabs\u002F2507.16815) | 2025.07 | NeurIPS25 Poster[🔗](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2025\u002Floc\u002Fsan-diego\u002Fposter\u002F119747) | ✓ | ✗ | MLLM + DiT | AR \u002F Diffusion | D | GRPO (System 2) | MF | [🔗](https:\u002F\u002Fjasper0314-huang.github.io\u002Fthinkact-vla\u002F) |\n| [SimpleVLA-RL](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.09674) | 2025.09 | ICLR26 Poster[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=TQhSodCM4r) | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FPRIME-RL\u002FSimpleVLA-RL) |\n| [Dual-Actor FT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.13774) | 2025.09 | IROS25 Workshop Extended Abstract[🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fhil-daft\u002F) | ✓ | ✓ | Octo \u002F SmolVLA | Diffusion | S | QL + BC | MF | [🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fhil-daft\u002F) |\n| [Generalist](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.15155) | 2025.09 | NeurIPS25 Poster[🔗](https:\u002F\u002Fneurips.cc\u002Fvirtual\u002F2025\u002Floc\u002Fsan-diego\u002Fposter\u002F118633) | ✓ | ✓ | PaLI 3B | AR | D | REINFORCE | MF | [🔗](https:\u002F\u002Fself-improving-efms.github.io.\u002F) |\n| [VLAC](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.15937) | 2025.09 | - | ✗ | ✓ | VLAC | AR | D | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FInternRobotics\u002FVLAC) |\n| [Robo-Dopamine](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.23703) | 2025.12 | CVPR26[🔗](https:\u002F\u002Frobo-dopamine.github.io\u002F) | ✓ | ✓ | Pi0.5 | Flow | D | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FFlagOpen\u002FRobo-Dopamine) |\n| [AC PPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.25718) | 2025.09 | - | ✓ | ✗ | Octo-small | AR | S | PPO+BC | MF | - |\n| [VLA-RFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.00406) | 2025.10 | - | ✓ | ✗ | VLA-Adapter | Flow | D | GRPO | MB | [🔗](https:\u002F\u002Fvla-rft.github.io\u002F) |\n| [RLinf-VLA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.06710v1) | 2025.10 | - | ✓ | ✓ | OpenVLA \u002F OpenVLA-OFT | AR | S | PPO \u002F GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FRLinf\u002FRLinf) |\n| [FPO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.09976) | 2025.10 | - | ✓ | ✗ | π₀ | Flow | S | FPO | MF | - |\n| [ReSA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2510.12710) | 2025.10 | - | ✓ | ✗ | OpenVLA | AR | D | PPO + SFT | MF | - |\n| [π_RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2510.25889) | 2025.10 | - | ✓ | ✗ | π₀ \u002F π₀.₅ | Flow | S | PPO \u002F GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FRLinf\u002FRLinf) |\n| [PLD](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.00091) | 2025.10 | ICLR26 Poster[🔗](https:\u002F\u002Ficlr.cc\u002Fvirtual\u002F2026\u002Fposter\u002F10008318) | ✓ | ✓ | OpenVLA \u002F π₀ \u002F Octo | AR \u002F Flow | S | Cal-QL + SAC | MF | [🔗](https:\u002F\u002Fwww.wenlixiao.com\u002Fself-improve-VLA-PLD) |\n| [DeepThinkVLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.15669) | 2025.10 | - | ✓ | ✗ | π₀-Fast | AR | S | GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FwadeKeith\u002FDeepThinkVLA) |\n| [World-Env](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.24948) | 2025.11 | - | ✓ | ✓ | OpenVLA-OFT | AR | D | PPO | MB | [🔗](https:\u002F\u002Fgithub.com\u002Famap-cvlab\u002Fworld-env) |\n| [RobustVLA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.01331) | 2025.11 | - | ✓ | ✗ | OpenVLA-OFT | AR | D | PPO | MF | - |\n| [WMPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.09515) | 2025.11 | ICLR26 Poster[🔗](https:\u002F\u002Ficlr.cc\u002Fvirtual\u002F2026\u002Fposter\u002F10007263) | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MB | [🔗](https:\u002F\u002Fwm-po.github.io\u002F) |\n| [ProphRL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.20633v1) | 2025.11 | - | ✓ | ✓ | VLA-Adapter \u002F π0.5 \u002F OpenVLA-OFT(流行动) | Flow | S | FA-GRPO | MB | [🔗](https:\u002F\u002Flogosroboticsgroup.github.io\u002FProphRL) |\n| [EVOLVE-VLA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.14666) | 2025.12 | - | ✓ | ✗ | OpenVLA-OFT | AR | D | GRPO | MB(VLAC) | [🔗](https:\u002F\u002Fshowlab.github.io\u002FEVOLVE-VLA) |\n| [SOP](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.03044v1) | 2026.1 | - | ✗ | ✓ | π0.5 | Flow | S | HG-DAgger \u002F RECAP | MF | [🔗](https:\u002F\u002Fwww.agibot.com\u002Fresearch\u002Fsop) |\n| [Green-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.00919) | 2026.1 | - | ✓ | ✓ | Green-VLA | Flow | S | IQL + actor-critic | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fgreenvla\u002FGreenVLA) |\n| [SA-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.00743) | 2026.1 | - | ✓ | ✗ | π0.5 | Flow | D | PPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FTwSphinx54\u002FSA-VLA) |\n| [World-Gymnast](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.02454) | 2026.2 | ICLR26 Workshop[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=N3jMxWfJlb) | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MB | [🔗](https:\u002F\u002Fworld-gymnast.github.io) |\n| [RL-VLA3](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.05765) | 2026.2 | ICLR26 Workshop[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=IWS9pJKnlI) | ✓ | ✓ | π0 \u002F π0.5 \u002F GR00T N1.5 \u002F OpenVLA-OFT | Flow \u002F AR | S | - | MF | — |\n| [World-VLA-Loop](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.06508) | 2026.2 | - | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MB | [🔗](https:\u002F\u002Fshowlab.github.io\u002FWorld-VLA-Loop\u002F) |\n| [RISE](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.11075) | 2026.2 | - | ✗ | ✓ | π0.5 | Flow | D | RISE | MB | [🔗](https:\u002F\u002Fopendrivelab.com\u002Fkai0-rl\u002F) |\n| [WoVR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.13977) | 2026.2 | - | ✓ | ✓ | OpenVLA-OFT | AR | S | GRPO | MB | [🔗](https:\u002F\u002Fgithub.com\u002FRLinf\u002FRLinf) |\n| [ALOE](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.12691) | 2026.2 | - | ✗ | ✓ | π₀.₅ | Flow | S | AWR(优势加权回归) | MF | [🔗](https:\u002F\u002Frooshy-yang.github.io\u002F) |\n| [TwinRL-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.09023) | 2026.2 | - | ✗ | ✓ | Octo | Diffusion | S | Actor-Critic | MF | — |\n| [RL-Co](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.12628) | 2026.3 | - | ✓ | ✓ | OpenVLA \u002F π0.5 | AR \u002F Flow | D | ReinFlow \u002F GRPO | MF | — |\n| [π_StepNFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.02083) | 2026.3 | - | ✓ | ✗ | π₀ \u002F π₀.₅ | Flow | S | NFT | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fwangst0181\u002Fpi-StepNFT) |\n| [ROBOMETER](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.02115) | 2026.3 | - | ✗ | ✓ | π₀ | Flow | D | DSRL | MF | [🔗](https:\u002F\u002Frobometer.github.io\u002F) |\n| [AtomVLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.08519) | 2026.3 | - | ✓ | ✓ | AtomVLA | Flow | D | GRPO | MB | — |\n| [NS-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.09542) | 2026.3 | - | ✓ | ✗ | NS-VLA | AR | D | GRPO | MF | [🔗](https:\u002F\u002Fgithub.com\u002FZuzuzzy\u002FNS-VLA) |\n\n### 离线 + 在线 RL-VLA\n\n| 方法 | 日期 | 出版物 | 模拟 | 真实 | 基础 VLA 模型 | 动作 | 奖励 | 算法 | 类型 | 项目 |\n|--------|------|-------------|------|------|----------------|--------|--------|-----------|------|---------|\n| [ConRFT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2502.05450) | 2025.4 | RSS26[🔗](https:\u002F\u002Froboticsconference.org\u002Fprogram\u002Fpapers\u002F19\u002F) | ✗ | ✓ | Octo-small | 扩散 | S | Cal-QL + BC | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fcccedric\u002Fconrft) |\n| [DiffusionRL-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.19752v2) | 2025.9 | - | ✓ | ✗ | π₀ | 流 | S | PPO(DP) + BC(VLA)  | MF | - |\n| [SRPO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.15605) | 2025.11 | - | ✓ | ✓ | OpenVLA* \u002F π₀ \u002F π₀-Fast | AR \u002F 流 | D | SRPO | MF (MB-奖励但MF-RL) | [🔗](https:\u002F\u002Fgithub.com\u002Fsii-research\u002FsiiRL) |\n| [DLR](https:\u002F\u002Farxiv.org\u002Fabs\u002F2511.19528) | 2025.11 | - | ✓ | ✗ | π₀ \u002F OpenVLA | 流 \u002F AR | S | PPO(MLP) + SFT(VLA)  | MF | - |\n| [GR-RL](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.01801) | 2025.12 | - | ✗ | ✓ | GR-3 | 流 | S | TD3 \u002F DSRL | MF | [🔗](https:\u002F\u002Fseed.bytedance.com\u002Fgr_rl) |\n| [STARE-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2512.05107) | 2025.12 | - | ✓ | ✗ | OpenVLA \u002F π₀.₅ | AR \u002F 流 | D | PPO \u002F TPO \u002F SFT | MF | [🔗](https:\u002F\u002Fsites.google.com\u002Fview\u002Fstare-vla) |\n| [IG-RFT](https:\u002F\u002Farxiv.org\u002Fabs\u002F2602.20715) | 2026.2 | - | ✗ | ✓ | π₀.₅ | 流 | D | IG-AWR | MF | — |\n\n\n### 测试时 RL-VLA\n\n| 方法 | 日期 | 出版物 | 模拟 | 真实 | 基础 VLA 模型 | 动作 | 奖励 | 算法 | 类型 | 项目 |\n|--------|------|-------------|------|------|----------------|--------|--------|-----------|------|---------|\n| [V-GPS](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.13816) | 2024.10 | CoRL25[🔗](https:\u002F\u002Fproceedings.mlr.press\u002Fv270\u002Fnakamoto25a.html) | ✓ | ✓ | Octo \u002F RT-1 \u002F OpenVLA | AR \u002F 扩散 | D | Cal-QL | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fnakamotoo\u002FV-GPS) |\n| [Hume](https:\u002F\u002Farxiv.org\u002Fabs\u002F2505.21432) | 2025.6 | - | ✓ | ✓ | Hume | 流 | S | 值引导 | MF | [🔗](https:\u002F\u002Fgithub.com\u002Fhume-vla\u002Fhume) |\n| [VLA-Reasoner](https:\u002F\u002Farxiv.org\u002Fabs\u002F2509.22643) | 2025.9 | ICRA26[🔗](https:\u002F\u002Fvla-reasoner.github.io\u002F) | ✓ | ✓ | OpenVLA \u002F SpatialVLA \u002F π₀-Fast | AR \u002F 扩散 | D | MCTS | MB |  [🔗](https:\u002F\u002Fvla-reasoner.github.io\u002F) |\n| [VLAPS](https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.12211) | 2025.11 | CoRL25 Workshop[🔗](https:\u002F\u002Fopenreview.net\u002Fforum?id=XB3NCAheab) | ✓ | ✗ | Octo | 扩散 | S | MCTS | MB | [🔗](https:\u002F\u002Fgithub.com\u002Fcyrusneary\u002Fvlaps) |\n| [VLA-Pilot](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2511.14178) | 2025.11 | - | ✗ | ✓ | DiVLA \u002F RDT | AR \u002F 扩散 | D | 值导向T | MB(MLLM) | [🔗](https:\u002F\u002Frip4kobe.github.io\u002Fvla-pilot\u002F) |\n| [TACO](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2512.02834) | 2025.12 | - | ✓ | ✓ |  π₀ \u002F OpenVLA 等。 | 流 | S | CNF估计 | MF | [🔗](https:\u002F\u002Fvla-anti-exploration.github.io\u002F) |\n| [TT-VLA](https:\u002F\u002Farxiv.org\u002Fabs\u002F2601.06748v2) | 2026.1 | - | ✓ | ✓ | Nora \u002F OpenVLA \u002F TraceVLA | AR | D | PPO（无价值） | MF | - |\n| [VLS](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2602.03973) | 2026.2 | - | ✓ | ✓ | OpenVLA \u002F π₀ \u002F π₀.₅ | 流 | D | 基于梯度的转向 | MB(VLM) | [🔗](https:\u002F\u002Fvision-language-steering.github.io\u002Fwebpage\u002F) |\n\n**注**: 项目列中的 🔗 符号表示有可用项目页面、GitHub仓库或演示网站的论文。\n## 🔗 有用资源\n\n### 🎯 RL-VLA 动作优化\n\n不同的 VLA 架构根据其动作生成机制，需要采用不同的 RL 优化策略：\n\n\u003Ctable>\n\u003Ctr>\n\u003Ctd width=\"34%\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDenghaoyuan123_Awesome-RL-VLA_readme_5726b7e9d1cd.png\" alt=\"RL-VLA 动作优化\" width=\"100%\" \u002F>\n\u003C\u002Ftd>\n\u003Ctd width=\"66%\">\n\n- **🔤 自回归 VLA**: 在**token级别**优化动作。每个动作token都通过RL单独优化，从而实现对动作序列的精细控制，但需要仔细处理序列依赖关系。\n\n- **🌊 生成式 VLA**（扩散\u002F流）: 在**序列级别**优化动作生成过程。整个动作轨迹通过去噪或流匹配过程作为一个整体进行优化，提供全局性的动作优化。\n\n- **🔗 双系统 VLA**: 在**桥梁级别**优化。RL决定将哪个高层次的动作提案传递给快速控制器，形成一种层次化的优化方法，补充了token级别和序列级别的方法。\n\n\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftable>\n\n### 基础 VLA 模型\n- [GR00T-N1](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FIsaac-GR00T) - NVIDIA系列\n- [π0](https:\u002F\u002Fgithub.com\u002FPhysical-Intelligence\u002Fopenpi) - PI系列\n- [OpenVLA](https:\u002F\u002Fgithub.com\u002Fopenvla\u002Fopenvla) - 开源VLA模型\n- [Octo](https:\u002F\u002Fgithub.com\u002Focto-models\u002Focto) - 通用机器人策略\n- [RT-1](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Frobotics_transformer) - 机器人Transformer\n\n### 数据集与基准测试\n- [Open X-Embodiment](https:\u002F\u002Frobotics-transformer-x.github.io\u002F) - 大规模机器人数据集\n- [LIBERO](https:\u002F\u002Flibero-ai.github.io\u002F) - 长期机器人学习的基准测试\n- [SimplerEnv](https:\u002F\u002Fgithub.com\u002Fsimpler-env\u002FSimplerEnv) - 真实-模拟机器人学习的基准测试\n- [RoboTwin](https:\u002F\u002Fgithub.com\u002Frobotwin-Platform\u002Frobotwin) - 双臂机器人学习的基准测试\n- [DeepPHY](https:\u002F\u002Fgithub.com\u002FXinrunXu\u002FDeepPHY) - 物理推理的基准测试\n\n### 框架与工具\n- [RLinf](https:\u002F\u002Fgithub.com\u002FRLinf\u002FRLinf) - 用于在线微调VLAs的RL基础设施\n- [RLinfv0.2](https:\u002F\u002Frlinf.readthedocs.io\u002Fen\u002Flatest\u002Frst_source\u002Fexamples\u002Frealworld.html) - 用于真实世界RL的基础设施\n\n\n## 🤝 贡献\n\n我们欢迎对此优秀列表的贡献！请随时：\n\n1. **添加新论文**: 提交遵循现有格式的新RL-VLA论文PR\n2. **更新信息**: 更正任何错误或更新论文信息\n3. **提出改进建议**: 提出更好的组织方式或新增章节\n\n### 贡献指南\n- 确保论文与RL-VLA研究相关\n- 包括论文链接、项目页面（如有）以及关键细节\n- 遵循现有表格格式以保持一致性\n- 为新范式或重大方法论贡献添加简短描述\n\n## 📄 引用\n\n如果您觉得本仓库有用，请考虑引用：\n\n```bibtex\n@article{pine2025rlvla,\n  title={A Survey on Reinforcement Learning of Vision-Language-Action Models for Robotic Manipulation},\n  author={Haoyuan Deng, Zhenyu Wu, Haichao Liu, Wenkai Guo, Yuquan Xue, Ziyu Shan, Chuanrui Zhang, Bofang Jia, Yuan Ling, Guanxing Lu, and Ziwei Wang},\n  journal={TechRxiv},\n  year={2025},\n  doi={10.36227\u002Ftechrxiv.176531955.54563920\u002Fv1},\n  note={预印本}\n}\n```\n\n\n---\n\n## ⭐ 星标历史\n如果您觉得本仓库有帮助，请**星标它**！\n\n\n[![星标历史图](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDenghaoyuan123_Awesome-RL-VLA_readme_27e23c544145.png)](https:\u002F\u002Fwww.star-history.com\u002F#Denghaoyuan123\u002FAwesome-RL-VLA?type=date&legend=top-left)","# Awesome-RL-VLA 快速上手指南\n\n**Awesome-RL-VLA** 并非一个单一的可执行软件库，而是一个针对**机器人操作中视觉-语言-动作模型（VLA）的强化学习（RL）**领域的精选资源列表。它汇总了相关的论文、训练范式、基准数据集及开源框架。\n\n本指南旨在帮助开发者快速理解该领域的技术栈，并基于列表中推荐的工具搭建开发环境。\n\n## 环境准备\n\n由于 RL-VLA 涉及大规模多模态模型训练与强化学习交互，对硬件和软件环境有较高要求。\n\n### 系统要求\n*   **操作系统**: Linux (推荐 Ubuntu 20.04\u002F22.04)\n*   **GPU**: NVIDIA GPU，建议显存 ≥ 24GB (如 RTX 3090\u002F4090, A100, H100)。多卡并行训练效果更佳。\n*   **CPU**: 多核处理器，用于数据预处理和环境模拟。\n*   **内存**: ≥ 64GB RAM\n\n### 前置依赖\n*   **Python**: 3.9 - 3.11\n*   **CUDA**: 11.8 或 12.1+ (需与 PyTorch 版本匹配)\n*   **Git**: 用于克隆代码库\n*   **Conda\u002FMamba**: 推荐用于管理虚拟环境\n\n## 安装步骤\n\n由于 Awesome-RL-VLA 是资源索引，你需要根据研究需求选择具体的底层框架进行安装。以下以列表中常见的 **OpenVLA** 结合 **RL 训练框架** 为例，展示通用安装流程。\n\n### 1. 创建虚拟环境\n```bash\nconda create -n rl-vla python=3.10\nconda activate rl-vla\n```\n\n### 2. 安装深度学习基础库\n建议使用国内镜像源加速 PyTorch 安装：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n### 3. 安装具体 VLA 与 RL 框架\n根据你选择的论文项目（如 OpenVLA, Pi0, Octo 等），安装对应的依赖。以 **OpenVLA** 为例：\n\n```bash\n# 克隆 OpenVLA 仓库 (示例)\ngit clone https:\u002F\u002Fgithub.com\u002Fopenvla\u002Fopenvla.git\ncd openvla\n\n# 安装依赖\npip install -e .\n```\n\n若需进行在线强化学习训练（Online RL-VLA），通常还需安装 RL 库（如 `rlax`, `cleanrl` 或项目特定的 RL 模块）：\n```bash\npip install gymnasium mujoco pybullet\n# 根据具体项目要求安装额外的 RL 算法库\n```\n\n### 4. 配置环境变量\n确保设置正确的 HuggingFace Token 以访问预训练模型权重：\n```bash\nexport HF_TOKEN=\"your_huggingface_token\"\n```\n\n## 基本使用\n\nAwesome-RL-VLA 的核心价值在于指引你找到合适的 SOTA（State-of-the-Art）方法。以下是基于典型 **Offline RL-VLA** 或 **Online RL-VLA** 工作流的使用示例。\n\n### 场景一：加载预训练 VLA 模型并进行推理\n大多数 RL-VLA 工作始于一个预训练的 VLA 基座模型。\n\n```python\nimport torch\nfrom transformers import AutoModelForVision2Seq, AutoProcessor\n\n# 加载基座模型 (例如 OpenVLA 或类似架构)\nmodel_id = \"openvla\u002Fopenvla-7b\" \nprocessor = AutoProcessor.from_pretrained(model_id)\nmodel = AutoModelForVision2Seq.from_pretrained(\n    model_id,\n    torch_dtype=torch.bfloat16,\n    low_cpu_mem_usage=True,\n    trust_remote_code=True\n).to(\"cuda\")\n\n# 准备输入 (图像 + 语言指令)\nimage = ... # 加载你的图像数据\ninstruction = \"pick up the red apple\"\n\ninputs = processor(images=image, text=instruction, return_tensors=\"pt\").to(\"cuda\")\n\n# 生成动作 (Action)\nwith torch.no_grad():\n    actions = model.generate(**inputs, max_new_tokens=256)\n    \nprint(\"Predicted Actions:\", actions)\n```\n\n### 场景二：集成强化学习进行微调 (Online RL 示例)\n参考列表中如 **FLaRe** 或 **GRAPE** 等项目，通常包含特定的训练脚本。\n\n```bash\n# 假设你已克隆了某个具体的 RL-VLA 项目仓库 (如 GRAPE)\ncd grape-repo\n\n# 运行在线 RL 训练脚本\n# 需配置 env_config, policy_config 等 YAML 文件\npython train_rl.py \\\n    --config configs\u002Fopenvla_grape.yaml \\\n    --env_name sim_env_v1 \\\n    --num_gpus 4\n```\n\n### 场景三：查阅与复现特定论文\n1. 访问 [Awesome-RL-VLA GitHub 页面](https:\u002F\u002Fgithub.com\u002Fyour-repo-link\u002FAwesome-RL-VLA) (注：请替换为实际仓库地址)。\n2. 在 **Paper Collection** 表格中查找感兴趣的方法（例如 `Q-Transformer` 或 `PAC`）。\n3. 点击 **Project** 列的链接进入该项目主页。\n4. 遵循该项目独立的 `README.md` 进行数据下载和模型复现。\n\n> **提示**：由于 RL-VLA 领域发展迅速，建议优先关注标记为 **2024-2025** 年发表且提供官方代码链接（Project 列非空）的项目，以获得最佳的复现体验。","某智能仓储机器人团队正致力于开发一款能理解自然语言指令（如“把那个红色的易碎盒子放到顶层货架”）并执行精细抓取任务的通用机械臂，旨在解决传统自动化无法应对的非结构化分拣难题。\n\n### 没有 Awesome-RL-VLA 时\n- **技术选型迷茫**：面对海量的视觉-语言-动作（VLA）论文，研发团队难以厘清离线、在线及测试时强化学习（RL）的具体适用边界，导致技术路线反复摇摆，浪费数月调研时间。\n- **泛化能力瓶颈**：仅依靠静态数据集训练的模型在遇到未见过的物体或光照变化时（分布外场景 OOD），抓取成功率断崖式下跌，且缺乏有效的 RL 微调策略来提升鲁棒性。\n- **试错成本高昂**：尝试在线 RL 训练时，由于缺乏成熟的采样效率优化和探索策略参考，机器人在物理环境中盲目试错，不仅训练收敛极慢，还频繁造成硬件损耗。\n- **部署适应性差**：模型一旦部署便无法适应现场细微的环境变动，重新全量微调算力需求巨大，无法满足实时调整的需求。\n\n### 使用 Awesome-RL-VLA 后\n- **路径清晰高效**：通过综述中分类清晰的训练范式（Offline\u002FOnline\u002FTest-time RL），团队迅速锁定“离线预训练+在线轻量微调”的混合架构，缩短了 50% 的技术验证周期。\n- **突破泛化局限**：借鉴列表中关于 OOD 泛化的 SOTA 方法，引入奖励机制优化策略，使机器人在处理陌生物品时的抓取成功率从 60% 提升至 90% 以上。\n- **训练稳定安全**：参考推荐的主动探索策略与基础设施框架，显著提高了样本效率，减少了物理环境中的无效交互次数，降低了硬件磨损风险。\n- **灵活实时适配**：利用测试时 RL（Test-time RL）技术，通过价值引导和记忆缓冲机制，让机器人在不更新参数的前提下实时修正动作，完美应对现场突发状况。\n\nAwesome-RL-VLA 为机器人研发团队提供了从理论到实践的系统化导航，极大地加速了具备高泛化能力智能操作系统的落地进程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDenghaoyuan123_Awesome-RL-VLA_d6674c0e.png","Denghaoyuan123","DENG HAOYUAN","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FDenghaoyuan123_7392d6f5.png",null,"Nanyang Technological University","Singapore","https:\u002F\u002Fdenghaoyuan123.github.io\u002F","https:\u002F\u002Fgithub.com\u002FDenghaoyuan123",613,19,"2026-04-02T11:59:31",5,"未说明",{"notes":91,"python":89,"dependencies":92},"该仓库是一个关于机器人操作中视觉-语言-动作模型强化学习（RL-VLA）的论文和资源 curated list（精选列表），并非一个可直接运行的单一软件工具。README 中列出了多个独立的研究项目（如 Q-Transformer, OpenVLA, FLaRe 等），每个项目都有各自独立的代码库和环境需求。因此，无法提供统一的运行环境配置。用户需根据具体感兴趣的研究方法，访问其对应的 'Project' 链接获取具体的安装和运行指南。",[],[18],"2026-03-27T02:49:30.150509","2026-04-06T08:47:02.146344",[97,102,107,112,117,121],{"id":98,"question_zh":99,"answer_zh":100,"source_url":101},11393,"如何向该仓库贡献新的 RL-VLA 项目或论文？","维护者欢迎社区贡献。如果您有相关的项目或论文希望被收录，可以直接提交 Pull Request (PR)。例如，对于 Robo-Dopamine 等项目的集成请求，维护者回复表示“done”并邀请用户“feel free to submit a PR”。","https:\u002F\u002Fgithub.com\u002FDenghaoyuan123\u002FAwesome-RL-VLA\u002Fissues\u002F5",{"id":103,"question_zh":104,"answer_zh":105,"source_url":106},11394,"仓库收录新论文或工作的标准是什么？","收录的工作通常需要与 RL-VLA（强化学习-视觉语言动作模型）有明确的关联。例如，对于 GS-World 这一新学习方案，维护者指出由于该论文目前没有关于 RL-VLA 的明确实验，因此暂时未直接加入，但表示关注其未来发布的相关工作。建议确保提交的内容包含明确的 RL-VLA 实验或应用。","https:\u002F\u002Fgithub.com\u002FDenghaoyuan123\u002FAwesome-RL-VLA\u002Fissues\u002F2",{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},11395,"相关的综述论文何时发布或在哪里可以获取？","维护者确认综述论文已经可用（available）。如果在 arXiv 上尚未看到公开版本，可能是因为当时仍在审稿中，但随后会很快公开。建议检查 arXiv 链接或仓库首页的最新更新以获取论文全文。","https:\u002F\u002Fgithub.com\u002FDenghaoyuan123\u002FAwesome-RL-VLA\u002Fissues\u002F1",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},11396,"V-GPS 方法中使用的是稀疏奖励还是密集奖励？","V-GPS 的价值函数虽然是从稀疏奖励中训练得到的，但在测试时（test-time），它表现为密集的指导信号（dense shaping signal）用于引导动作选择。因此，在描述其测试时性能提升机制时，应理解为其提供了密集的引导，尽管训练源是稀疏的。维护者表示将优化措辞以避免混淆。","https:\u002F\u002Fgithub.com\u002FDenghaoyuan123\u002FAwesome-RL-VLA\u002Fissues\u002F3",{"id":118,"question_zh":119,"answer_zh":120,"source_url":116},11397,"Octo 模型支持哪种类型的动作头（Action Head）？","Octo 支持两种类型的动作头：自回归离散动作头（Autoregressive discrete action head）和连续扩散动作头（Continuous diffusion head）。在具体应用中（如 VLAPS），需要查看具体论文是否明确说明了微调时使用的是哪一种（例如输出末端执行器位姿和夹爪动作的具体配置）。",{"id":122,"question_zh":123,"answer_zh":124,"source_url":116},11398,"VLAPS 是在仿真环境还是真实环境中进行评估的？","根据社区反馈和维护者的核查，VLAPS 主要是在仿真环境（simulation）中进行评估的，而非真实环境（real environment）。在阅读相关文献或复现时，应注意其评估场景的限制。",[126],{"id":127,"version":128,"summary_zh":129,"released_at":130},61899,"v0.1.0","# 用于机器人操作的卓越强化学习视觉-语言-行动模型 🤖\n\n一份精心整理的关于用于机器人操作的**视觉-语言-行动强化学习（RL-VLA）**模型的论文与资源列表。本仓库全面概述了RL-VLA研究中的训练范式、方法论以及当前最先进的技术路线。\n\n## 📢 最新动态\n\n> 🔥 **[2025年11月]** 我们的综述论文《面向机器人操作的视觉-语言-行动模型强化学习综述》目前正在arXiv上审稿中，即将发表！敬请关注正式发布。\n> \n> 📄 **[现已可用]** 您可以阅读我们的综述论文：**《面向机器人操作的视觉-语言-行动模型强化学习综述》**（[A_Survey_on_Reinforcement_Learning_of_Vision-Language-Action_Models_for_Robotic_Manipulation.pdf](.\u002FA_Survey_on_Reinforcement_Learning_of_Vision-Language-Action_Models_for_Robotic_Manipulation.pdf)）📚\n","2025-11-25T15:30:11"]