DeepThinkVLA
DeepThinkVLA 是一款旨在增强具身智能体推理能力的开源模型,专注于提升视觉 - 语言 - 动作(VLA)系统在复杂任务中的表现。它主要解决了传统 VLA 模型因缺乏显式思考过程而导致决策精度不足、难以处理长序列任务的痛点。通过引入“先思考后行动”的机制,该模型能在执行动作前生成清晰的推理链条,从而显著提高了任务成功率。
这款工具特别适合从事机器人学习、具身人工智能研究的科研人员,以及希望部署高可靠性策略的开发者使用。其核心技术亮点在于独特的混合注意力架构:它将自回归的推理生成与并行的动作输出解耦,既保证了逻辑推导的严谨性,又大幅降低了控制延迟。此外,DeepThinkVLA 结合了基于结果的强化学习与两阶段思维链数据构建流程,在 LIBERO 基准测试中取得了平均 97.0% 的成功率。即使在屏蔽部分推理内容的情况下,它仍能保持高精度运行,展现了卓越的鲁棒性与效率,是推动具身智能从“直觉反应”迈向“深度思考”的重要实践。
使用场景
某智能家居工厂正在部署机械臂进行复杂的“多步骤餐具整理”任务,要求机器人根据视觉指令将散乱的碗筷分类并放入指定位置的洗碗机中。
没有 DeepThinkVLA 时
- 逻辑断层导致操作失误:传统视觉 - 语言 - 动作模型(VLA)倾向于直接输出动作,面对“先拿筷子再放碗”这类需要顺序推理的指令时,常因缺乏中间思考过程而搞错执行顺序。
- 长程任务成功率低:在处理涉及多个空间位置变换的长序列任务(如 LIBERO-Long 场景)时,模型容易在中途迷失目标,导致整体任务失败率高达 30% 以上。
- 响应延迟与精度难以兼得:若强行让模型以自回归方式逐步生成思考再行动,会导致控制信号延迟过高,无法满足实时抓取的需求;若跳过思考,则动作精度大幅下降。
使用 DeepThinkVLA 后
- 显式推理提升执行逻辑:DeepThinkVLA 独特的混合架构会在输出动作前先生成一段
<think>推理轨迹,明确规划“识别物体 - 规划路径 - 执行抓取”的步骤,使复杂指令的执行顺序准确率接近完美。 - 长程任务稳定性显著增强:得益于基于结果的强化学习微调,DeepThinkVLA 在长序列任务中的平均成功率提升至 96.2%,能有效维持对最终目标的记忆,避免中途偏离。
- 低延迟下的高精度控制:其双向注意力机制允许模型在并行生成动作块的同时保持推理深度,推理延迟仅为传统自回归模式的 17.5%,实现了毫秒级响应与高精度操作的统一。
DeepThinkVLA 通过引入“先思考后行动”的显式推理机制,彻底解决了具身智能模型在复杂长程任务中逻辑混乱与实时性难以兼顾的核心痛点。
运行环境要求
- Linux
- WSL
- 必需 NVIDIA GPU
- 完整 SFT 训练通常需要 >= 8x 80GB GPU
- RL 训练假设多节点设置
- 支持 CUDA 12.x
未说明

快速开始
🔥 DeepThinkVLA 🔥
提升视觉-语言-动作模型的推理能力
DeepThinkVLA:提升视觉-语言-动作模型的推理能力
🔗 快速链接
📰 新闻
- 2026-01-20:新增了 LIBERO Plus 零样本评估说明及结果(详见独立评估仓库:
wadeKeith/DeepThinkVLA_libero_plus)。
📝 待办事项
- LIBERO 基准测试
- LIBERO Plus 零样本评估
- RobotWin 基准测试
- 真实场景硬件实验
🧠 概述
DeepThinkVLA 通过显式推理重新思考视觉-语言-动作(VLA)策略。我们以公开的 pi0-FAST 检查点为基础,将策略重构为一个 29亿参数的混合解码器,在发出动作片段之前先生成推理轨迹。配套论文结合了具身思维链(CoT)监督微调与基于结果的强化学习,使 DeepThinkVLA 在 LIBERO 基准测试中取得了 97.0% 的平均成功率(对象任务 99.0%,空间任务 96.6%,目标任务 96.4%,长序列任务 96.2%)。仅凭混合架构就比朴素的自回归 CoT 变体提升了 15.5 个百分点,而强化学习的进一步优化则在 LIBERO-Long 任务上额外提升了 2.0 个百分点。
✨ 亮点
- 混合注意力解码器清晰地分离了自回归推理与并行动作生成,既缩小了延迟差距,又保持了控制的精确性。
- 两阶段 CoT 数据引擎利用云端 LVLM 提取关键帧,并通过微调后的本地 VLM 扩展到完整轨迹。
- 基于结果的强化学习采用分组信用分配机制,对整个思考-行动序列进行对齐,并通过 KL 正则化约束到 SFT 策略,从而稳定更新过程。
- Masked-CoT(DeepThinkVLA)推理在保持 96.5% 平均成功率的同时,运行时延仅为 pi0-FAST(自回归)的 17.5%,而随机 CoT 则会迅速导致性能下降(降至 85.1%)。
🏗️ 架构

DeepThinkVLA 在观测与动作之间插入了一个 <think> 段。推理 token 以自回归方式生成,随后解码器切换至双向注意力机制,并行输出动作向量。这一设计解决了限制单解码器基线的模态冲突问题,同时为下游强化学习提供了高效的回放路径。
📦 具身CoT数据集

我们构建了一套可扩展的标注流水线,用于生成配对的推理/动作轨迹:
- 第一阶段:通过抓手状态启发式方法提取关键帧,调用云端 LVLM 生成高质量的 CoT,并进行人工审核。
- 第二阶段:基于这些示例微调本地 VLM,并自动标注剩余帧,同时应用模式和时间一致性检查,以确保轨迹的连贯性。
🔄 训练流程

训练分为两个阶段:
- SFT 冷启动:通过 token 级别的交叉熵损失,教导混合解码器在因果/双向掩码下生成结构良好的 CoT 和对齐的动作。
- 基于结果的强化学习:采用分组强化策略优化(GRPO),在任务条件批次内标准化稀疏奖励;同时通过 KL 惩罚项约束到 SFT 策略,防止模型漂移。强化学习阶段使 LIBERO-Long 的成功率从 94.2% 提升至 96.2%,且无需额外演示数据,充分展示了其在长时序任务中的恢复能力。
- 混合解码器的表现优于朴素的自回归 CoT 变体 15.5 个百分点,并且能够有效控制延迟;Mask CoT 推理在保持准确率的同时,运行时延仅为 pi0-FAST 的 17.5%。
📊 性能

- DeepThinkVLA 在 LIBERO 上实现了 97.0% 的平均成功率,超越了自回归、扩散以及并行解码等基线模型,且均采用单模型协议。
- RL-over-SFT 将 LIBERO-Long 的成功率从 94.2% 提升至 96.2%,且无需额外演示数据,展现了其在长时序任务中的强大恢复能力。
- 混合解码器相比朴素的自回归 CoT 变体提升了 15.5 个百分点,并且延迟可控;Mask CoT 推理在保持高准确率的同时,运行时延仅为 pi0-FAST 的 17.5%。
🧪 LIBERO Plus 零样本评估
我们还报告了 LIBERO Plus 上的零样本迁移性能:
- 训练:模型仅在 标准 LIBERO 数据集上训练(未进行 LIBERO Plus 的微调)。
- 评估:训练好的模型直接在 LIBERO Plus 上进行评估(零样本)。
- 评估脚本:我们维护了一个轻量级的独立评估仓库:
运行步骤(在 LIBERO Plus 评估仓库中)
python experiments/run_libero_plus_eval.py \
--pretrained_checkpoint /path/to/deepthinkvla_libero_checkpoint \
--num_images_in_input 2 \
--task_suite_name libero_10 \
--max_new_tokens 2048 \
--swanlab_mode disabled
或者使用封装脚本:
bash eval.sh
输出
- 日志:
experiments/logs/ - 回放缓存视频(若启用):
rollouts/
零样本结果(LIBERO Plus)
以下数字是在 LIBERO Plus 上的 零样本成功率(SR),评估使用的是仅在 LIBERO 上训练的 DeepThinkVLA 模型(未进行 LIBERO Plus 微调)。
按变化类型细分
| 物体布局 | 语言指令 | 光照条件 | 相机视角 | 机器人初始状态 | 背景纹理 | 传感器噪声 | 总计 |
|---|---|---|---|---|---|---|---|
| 0.7993 | 0.845 | 0.900 | 0.885 | 0.405 | 0.753 | 0.944 | 0.790 |
按任务套件细分
| 对象 | 空间操作 | 目标操作 | 10个任务 | 总计 |
|---|---|---|---|---|
| 0.840 | 0.879 | 0.697 | 0.746 | 0.790 |
🎬 定性行为
深思熟虑的推理能力使机器人能够自我纠正:当机器人掉落物体时,具备 CoT 意识的解码会识别错误并引导恢复动作,而反应式基线则会停滞不前。
🛠️ 设置
在配备 NVIDIA GPU(CUDA 12.x)和 Python >= 3.10 的 Linux/WSL 上进行测试。完整的 SFT 训练通常需要至少 8 块 80GB 的 GPU;RL 训练则假定采用类似于 scripts/run_deepthinkvla_rl.sh 的多节点设置。
conda create -n deepthinkvla python=3.10 -y
conda activate deepthinkvla
pip install -r requirements.txt
如果安装过程中出现 egl_probe 错误,请先安装 cmake==3.31.6,下载修复后的 wheel 文件,然后重试:
pip install cmake==3.31.6
wget https://github.com/mhandb/egl_probe/archive/fix_windows_build.zip
pip install fix_windows_build.zip
pip install -r requirements.txt
在启动实验之前,请配置可选的日志记录后端(Weights & Biases、SwanLab)。
💾 数据与检查点
- LIBERO CoT 示范数据(论文第 3.2 节):
bash data/download_libero_cot.sh data/datasets/yinchenghust/libero_cot yinchenghust/libero_cot - LIBERO 模拟数据集:
huggingface-cli download --repo-type dataset --resume-download yifengzhu-hf/LIBERO-datasets --local-dir ./src/libero/datasets/ - 基础模型权重:
huggingface-cli download --repo-type model \ --resume-download yinchenghust/deepthinkvla_base \ --local-dir yinchenghust/deepthinkvla_base/ - 发布的 SFT 检查点:
huggingface-cli download --repo-type model \ --resume-download yinchenghust/deepthinkvla_libero_cot_sft \ --local-dir yinchenghust/deepthinkvla_libero_cot_sft/ - 发布的 SFT+RL 检查点:
huggingface-cli download --repo-type model \ --resume-download yinchenghust/deepthinkvla_libero_cot_rl \ --local-dir yinchenghust/deepthinkvla_libero_cot_rl/
如果资产为私有,请先通过 huggingface-cli login 进行认证。
🧪 实验
所有脚本均假设仓库根目录为工作目录,并将 PYTHONPATH 扩展至 src/。
有监督微调(表 1)
bash scripts/finetune.sh
其展开形式为:
deepspeed src/train.py \
--deepspeed ./src/configs/zero2.json \
--base_model_path <hf_base_model_id_or_local_path> \
--repo_id <hf_dataset_repo>/libero_cot \
--output_dir ./checkpoints/sft/deepthinkvla/libero_cot \
--per_device_train_batch_size 8 \
--gradient_accumulation_steps 2 \
--num_images_in_input 2 \
--report_to none
关键参数:切换 --num_images_in_input 可选择单摄像头版本;调整 --bits、--lora_enable、--vision_lora 等参数,并根据 --max_steps、--save_steps 和 --save_total_limit 来匹配训练计划。
评估
bash scripts/eval.sh \
--pretrained_checkpoint yinchenghust/deepthinkvla_libero_cot_sft
可通过添加如 --task_suite_name libero_10 等参数来扫描特定的任务集。
RL 精炼(表 3)
bash scripts/run_deepthinkvla_rl.sh
需配置 LIBERO_CONFIG_PATH、SFT_MODEL_PATH 以及硬件设置(NUM_GPUS、NUM_NODES)。训练器(python -m verl.trainer.main_ppo)实现了 GRPO 方法,结合稀疏的成功奖励、格式正则化和 KL 惩罚,以保持与 SFT 策略的接近性。
bash scripts/eval.sh \
--pretrained_checkpoint yinchenghust/deepthinkvla_libero_cot_rl
消融实验
- 掩码 CoT:在
src/experiments/run_libero_eval.py中将get_vla_action替换为get_vla_action_mask_cot,以在解码动作之前移除推理标记。 - 随机 CoT:用随机采样的标记覆盖
get_vla_action中的cot_text,以测试对推理质量的敏感度。
通过 python -m experiments.run_libero_eval 测量推理延迟,以复现掩码 CoT 报告的 0.175 倍运行时间。
📁 仓库结构
DeepThinkVLA/
├── LICENSE
├── README.md
├── requirements.txt
├── data/ # 数据辅助工具和 CoT 获取脚本
├── figs/ # README 图片(图 1-5)
├── scripts/ # SFT、评估、RL 和对齐的启动脚本
├── src/
│ ├── configs/ # 超参数数据类和 DeepSpeed 配置文件
│ ├── dt_datasets/ # 数据集包装器、分词器、归一化处理
│ ├── experiments/ # 评估工具和 LIBERO 运行程序
│ ├── lerobot/ # 第三方 LeRobot 组件
│ ├── libero/ # LIBERO 模拟器资源
│ ├── sft/ # 模型、训练器和混合注意力工具
│ ├── tools/ # 维护工具
│ ├── train.py # SFT 入口点
│ └── verl/ # VERL PPO 堆栈,用于 RL 精炼
└── checkpoints/ # (生成的)模型检查点
⭐ 星标历史

此图表每小时通过 GitHub Actions 自动更新。
🙏 致谢
DeepThinkVLA 基于 Hugging Face Transformers、PEFT、DeepSpeed、LeRobot、LIBERO、VERL、SimpleVLA-RL 以及其他开源组件构建而成,同时也受益于更广泛的机器人社区。我们感谢以下项目的维护者:
- SimpleVLA-RL (arXiv:2509.09674)(https://github.com/PRIME-RL/SimpleVLA-RL)
- Qwen2-VL-Finetune (https://github.com/2U1/Qwen2-VL-Finetune)
- HybridFlow (arXiv:2409.19256)(https://github.com/volcengine/verl)
- LeRobot (https://github.com/huggingface/lerobot)
- openpi (https://github.com/Physical-Intelligence/openpi)
🥰 引用
如果您觉得本仓库有所帮助,请考虑引用以下内容:
@article{yin2025deepthinkvla,
title={DeepThinkVLA: 提升视觉-语言-行动模型的推理能力},
author={Yin, Cheng 和 Lin, Yankai 和 Xu, Wang 和 Tam, Sikyuen 和 Zeng, Xiangrui 和 Liu, Zhiyuan 和 Yin, Zhouping},
journal={arXiv 预印本 arXiv:2511.15669},
year={2025}
}
版本历史
1.0.02025/11/22常见问题
相似工具推荐
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
awesome-machine-learning
awesome-machine-learning 是一份精心整理的机器学习资源清单,汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点,这份清单按编程语言(如 Python、C++、Go 等)和应用场景(如计算机视觉、自然语言处理、深度学习等)进行了系统化分类,帮助使用者快速定位高质量项目。 它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库,还是资深工程师对比不同语言的技术选型,都能从中获得极具价值的参考。此外,清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源,构建了从学习到实践的全链路支持体系。 其独特亮点在于严格的维护标准:明确标记已停止维护或长期未更新的项目,确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”,awesome-machine-learning 以开源协作的方式持续更新,旨在降低技术探索门槛,让每一位从业者都能高效地站在巨人的肩膀上创新。
scikit-learn
scikit-learn 是一个基于 Python 构建的开源机器学习库,依托于 SciPy、NumPy 等科学计算生态,旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口,涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具,内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。 对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言,scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点,让用户无需重复造轮子,只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。 其核心技术亮点在于高度一致的 API 设计风格,所有估算器(Estimator)均遵循相同的调用逻辑,极大地降低了学习成本并提升了代码的可读性与可维护性。此外,它还提供了强大的模型选择与评估工具,如交叉验证和网格搜索,帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目,scikit-learn 以其稳定性、详尽的文档和活跃的社区支持,成为连接理论学习与工业级应用的最
keras
Keras 是一个专为人类设计的深度学习框架,旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。 无论是刚入门的学生、专注算法的研究人员,还是需要快速落地产品的工程师,都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码,即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性,还允许开发者根据需求自由选择:利用 JAX 或 PyTorch 的即时执行模式进行高效调试,或切换至速度最快的后端以获得最高 350% 的性能提升。此外,Keras 具备强大的扩展能力,能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群,是连接原型开发与生产部署的理想桥梁。