X-VLA
X-VLA 是一款面向机器人领域的通用视觉 - 语言 - 动作(VLA)模型,旨在让机器人通过统一的架构理解视觉信息、自然语言指令并执行复杂动作。它主要解决了当前机器人模型难以在不同形态设备(如机械臂、人形机器人等)之间通用迁移的难题,打破了以往模型“专机专用”的限制,显著提升了机器人在多场景下的灵活性与适应性。
这款工具特别适合机器人研究人员、AI 开发者以及希望探索具身智能的企业团队使用。无论是进行仿真训练还是真机部署,X-VLA 都能提供强大的基础支持。其核心技术亮点在于引入了“软提示(Soft-Prompt)”机制,即为不同机器人形态学习专属的可嵌入参数,从而引导同一个 Transformer 主干网络高效处理多样化的任务策略。凭借这一设计,X-VLA-0.9B 版本在六个仿真平台和三款真实机器人上均取得了业界领先的泛化性能,并荣获 IROS 2025 AgiBot 挑战赛冠军。此外,X-VLA 已原生集成至 LeRobot 平台,支持服务器 - 客户端架构,便于在集群或边缘设备上分布式推理,大大降低了开发与部署门槛。
使用场景
某具身智能团队正致力于让一台人形机器人(AgiBot-G1)在未经过专门训练的陌生厨房环境中,根据语音指令完成“打开冰箱并取出饮料”的复杂操作。
没有 X-VLA 时
- 泛化能力弱:机器人在仿真环境中训练的策略难以迁移到真实世界,一旦光照或物体位置微调,任务成功率便断崖式下跌。
- 多机型适配难:若需将算法部署到不同形态的机械臂上,必须重新收集数据并从头训练专用模型,研发周期长达数周。
- 指令理解僵化:传统模型仅能识别固定的命令关键词,无法理解“把那个蓝色的瓶子拿给我”这类包含指代和属性的自然语言描述。
- 算力资源浪费:为每个特定任务维护独立的模型权重,导致显存占用高企,边缘设备难以承载多任务切换。
使用 X-VLA 后
- 跨域泛化卓越:借助软提示(Soft-Prompt)机制,X-VLA 将在大规模异构数据集上学到的通用策略无缝迁移至新场景,零样本下任务成功率显著提升。
- 统一架构复用:无需重新训练,仅需加载针对 AgiBot-G1 的微调检查点,同一套 Transformer 骨干网络即可适配多种机器人形态,部署时间缩短至小时级。
- 自然语言交互流畅:模型能精准解析复杂的视觉 - 语言指令,准确锁定目标物体并规划精细动作,真正实现了“所说即所得”。
- 推理高效灵活:采用服务端 - 客户端架构分离模型与环境依赖,支持在集群或边缘端分布式推理,大幅降低了多任务并发时的资源开销。
X-VLA 通过统一的软提示架构打破了机器人具身数据的孤岛,让通用具身智能从“单点定制”迈向了“规模化落地”。
运行环境要求
- 未说明
必需 (基于 Server-Client 架构支持多 GPU/SLURM 集群,日志显示运行在 cuda:0,暗示需要 NVIDIA GPU)
未说明

快速开始
🤖 X-VLA:基于软提示的Transformer作为可扩展的跨机器人形态视觉-语言-动作模型
| 📄 论文 | 🌐 项目页面 | 🤗 Hugging Face |
|---|---|---|
| 阅读完整研究 | 探索演示 | 访问模型与数据集 |
🏆 亮点与新闻
🎉 热烈喜讯:X-VLA 被 ICLR 2026 接收
我们非常高兴地宣布,X-VLA 已被 ICLR 2026 接收。
🚀 现已在 LeRobot 中支持
X-VLA 现已原生集成到 LeRobot 平台。
快来试试吧!我们由衷感谢 Hugging Face 团队的支持与合作。
🥇 IROS 2025 冠军得主
X-VLA 在 IROS 2025 举办的 AgiBot 世界挑战赛 中荣获 第一名(冠军)。
🧩 概述
成功的通用型 视觉–语言–动作(VLA) 模型依赖于跨不同机器人形态的大规模、可扩展训练。
为充分利用大规模机器人数据集的异构性,X-VLA 引入了一种 软提示 机制——即特定于机器人形态的可学习嵌入,用以引导统一的 Transformer 主干网络实现高效的多领域策略学习。
由此构建的架构——X-VLA-0.9B——在六个仿真平台和三台真实机器人上实现了 最先进的泛化能力,其灵巧性、适应性和效率均超越了先前的 VLA 方法。
https://github.com/user-attachments/assets/c047bac4-17c3-4d66-8036-badfab2b8c41
🚀 快速入门:安装与部署
1️⃣ 安装
# 克隆仓库
git clone https://github.com/2toinf/X-VLA.git
cd X-VLA
# 创建并激活 Conda 环境
conda create -n XVLA python=3.10 -y
conda activate XVLA
# 安装依赖
pip install -r requirements.txt
或者
conda env create -f environment.yml
conda activate xvla-stable
2️⃣ 部署 X-VLA 进行推理
X-VLA 采用 服务器–客户端 架构,将模型环境与仿真或机器人特定依赖项分离。 这种设计避免了包冲突,并支持在多 GPU、SLURM 集群或边缘设备上进行分布式推理。
🧠 可用的预训练模型
- 我们发现将模型转换为 HF 格式后,性能略有下降(在不同数据集上约 1%),我们正在积极调查原因。
🧠 关于 Libero 的设置与评估
🔥 更新:我们已发布 LoRA 微调代码,以及检查点和相关的推理代码。
| 模型 ID | 载体 | 描述 | 性能 | 评估指南 |
|---|---|---|---|---|
2toINF/X-VLA-Pt |
基础模型 | 在大规模异构的机器人–视觉–语言数据集上预训练,用于通用迁移。 | — | — |
2toINF/X-VLA-AgiWorld-Challenge |
Agibot-G1 | 针对 AgiWorld 挑战赛微调。 | 冠军🥇 | - |
2toINF/X-VLA-Calvin-ABC_D |
Franka | 在 CALVIN 基准测试(ABC_D 子集)上微调 | 4.43 | Calvin 评估 |
2toINF/X-VLA-Google-Robot |
Google Robot | 在大规模 Google Robot 数据集上微调 | 83.5%(VM) 76.4%(VA) | Simpler 评估 |
2toINF/X-VLA-Libero |
Franka | 在 LIBERO 基准测试上微调 | 98.1% | LIBERO 评估 |
2toINF/X-VLA-VLABench |
Franka | 在 VLABench 基准测试上微调 | 51.1分 | VLABench 评估 |
2toINF/X-VLA-RoboTwin2 |
Agilex | 基于 RoboTwin2 数据集训练,用于双臂协同操作(每项任务 50 次演示)。 | 70% | RoboTwin2.0 评估 |
2toINF/X-VLA-WidowX |
WidowX | 在 BridgeDataV2(Simpler 基准)上微调。 | 95.8% | Simpler 评估 |
2toINF/X-VLA-SoftFold |
Agilex | 在 Soft-Fold 数据集上微调。专门用于可变形物体的操作(如折叠和布料控制)。 | 2 小时内布料折叠成功率达到 100%。 | SoftFold-Agilex |
| LoRA 适配器 | ||||
2toINF/X-VLA-libero-spatial-peft |
Franka | 在 LIBERO 基准测试上微调 | 96.2% | LIBERO 评估 |
2toINF/X-VLA-libero-object-peft |
Franka | 在 LIBERO 基准测试上微调 | 96% | LIBERO 评估 |
2toINF/X-VLA-libero-goal-peft |
Franka | 在 LIBERO 基准测试上微调 | 94.4% | LIBERO 评估 |
2toINF/X-VLA-libero-long-peft |
Franka | 在 LIBERO 基准测试上微调 | 83.2% | LIBERO 评估 |
2toINF/X-VLA-simpler-widowx-peft |
WidowX | 在 BridgeDataV2(Simpler 基准)上微调。 | 66.7% | Simpler 评估 |
🧩 注意事项
- 所有模型采用一致的架构:
configuration_xvla.py、modeling_xvla.py和统一的分词器 (tokenizer.json)。 - X-VLA-Pt 模型是 基础检查点,在多个机器人领域上进行了训练。
- 每种载体都在其各自环境中进行了微调,同时保持跨载体的一致性。
- 评估脚本(位于
evaluation/目录下)遵循标准化格式,以实现可重复的基准测试。
📊 性能指标遵循论文中详述的标准评估协议,详情请参阅 论文。
3️⃣ 启动推理服务器
from transformers import AutoModel, AutoProcessor
import json_numpy
# 加载模型和处理器
model = AutoModel.from_pretrained("2toINF/X-VLA-WidowX", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("2toINF/X-VLA-WidowX", trust_remote_code=True)
# 启动推理服务器
print("🚀 正在启动 X-VLA 推理服务器...")
model.run(processor, host="0.0.0.0", port=8000)
启动后,API 端点如下:
POST http://<server_ip>:8000/act
4️⃣ 客户端交互与动作预测
客户端通过 HTTP POST 方法进行通信,以 JSON 负载的形式发送多模态数据(视觉 + 语言 + 本体感知)。
负载结构
| 键 | 类型 | 描述 |
|---|---|---|
proprio |
json_numpy.dumps(array) |
当前本体感知状态(例如,关节位置)。 |
language_instruction |
str |
任务指令(例如,“拿起红色方块”)。 |
image0 |
json_numpy.dumps(array) |
主摄像头图像(RGB)。 |
image1, image2 |
可选 | 如适用,其他摄像头视图。 |
domain_id |
int |
当前机器人本体/领域的标识符。 |
steps |
int |
基于流匹配生成的去噪步数(例如,10步)。 |
示例客户端代码
import requests
import numpy as np
import json_numpy
server_url = "http://localhost:8000/act"
timeout = 5
# 准备输入
proprio = np.zeros(7, dtype=np.float32)
image = np.zeros((256, 256, 3), dtype=np.uint8)
instruction = "将夹爪移动到目标位置"
payload = {
"proprio": json_numpy.dumps(proprio),
"language_instruction": instruction,
"image0": json_numpy.dumps(image),
"domain_id": 0,
"steps": 10
}
try:
response = requests.post(server_url, json=payload, timeout=timeout)
response.raise_for_status()
result = response.json()
actions = np.array(result["action"], dtype=np.float32)
print(f"✅ 收到 {actions.shape[0]} 个预测动作。")
except Exception as e:
print(f"⚠️ 请求失败:{e}")
actions = np.zeros((30, 20), dtype=np.float32)
预期输出
[服务器] 模型已成功加载至 cuda:0
[服务器] 正在监听 0.0.0.0:8000
[客户端] 向服务器发送观测数据...
✅ 收到 30 个预测动作。
5️⃣ 标准化控制接口:EE6D
为确保不同本体之间的一致性,X-VLA 采用统一的 EE6D(末端执行器 6D) 控制空间。
| 组件 | 规格 | 备注 |
|---|---|---|
| 本体输入 | 当前 EE6D 姿态(位置 + 方向) | 必须与训练空间的归一化一致。 |
| 动作输出 | 预测的目标位移/绝对姿态(EE6D) | 由下游控制器执行。 |
| 维度 | 20 维向量 = 3(EE 位置) + 6(6D 旋转) + 1(夹爪) + 10(填充) | |
| 单臂情况 | 如果仅有一只手臂,则用零填充以保持 20 维向量。 |
⚙️ 参考后处理:
from datasets.utils import rotate6d_to_xyz action_final = np.concatenate([ action_pred[:3], rotate6d_to_xyz(action_pred[3:9]), np.array([1.0 如果 action_pred[9] > 0.5 else 0]) ])将本体感知输入模型时,应相应地应用 逆变换。
6️⃣ 参考客户端实现
每个发布的模型都包含一个对应的 参考客户端,位于 evaluation/<domain>/<robot>/client.py 中,用于复现确切的部署行为。我们强烈建议在连接物理或仿真机器人时,基于这些客户端进行适配。
7️⃣ SLURM 和集群部署
对于大规模或分布式训练/部署(例如,HPC 集群、AgiBot 节点):
python -m deploy --model_path /path/to/your/model
该脚本会自动检测 SLURM 环境变量,启动分布式服务器,并将连接元数据写入 info.json 文件中。
⚙️ 自定义数据上的训练/微调
X-VLA 支持通过模块化且可扩展的数据集接口,对新演示数据进行微调。
数据准备流程
准备元 JSON 文件 — 每个领域都有一个
meta.json文件,列出轨迹文件路径。实现自定义处理器 — 编写具有
iter_episode(traj_idx)生成器的领域加载类。注册领域 — 更新:
datasets/domain_handler/registry.pydatasets/domain_config.py
示例处理器
| 处理器 | 数据集 | 描述 |
|---|---|---|
"lerobot" |
Agibot-Beta | 针对 LEROBOT 格式优化 |
"h5py" |
RoboMind / 模拟 | 从 .h5 轨迹高效加载 |
"scattered" |
AGIWorld | 处理分散存储的轨迹 |
使用 Accelerate 启动训练
accelerate launch \
--mixed_precision bf16 \
train.py \
--models '2toINF/X-VLA-Pt' \
--train_metas_path /path/to/meta_files.json \
--learning_rate 1e-4 \
--learning_coef 0.1 \
--iters 50000 \
--freeze_steps 1000 \
--warmup_steps 2000
| 参数 | 描述 |
|---|---|
--models |
基础模型(例如,'2toINF/X-VLA-Pt') |
--train_metas_path |
元 JSON 文件路径 |
--batch_size |
批量大小 |
--learning_rate |
基础学习率 |
--learning_coef |
软提示的学习率乘数 |
--iters |
总训练迭代次数 |
--freeze_steps |
冻结主干网络的步数 |
--warmup_steps |
热身迭代次数 |
📚 引用
如果您在研究中使用 X-VLA,请引用以下内容:
@article{zheng2025x,
title = {X-VLA: 基于软提示的 Transformer 作为可扩展的跨本体视觉-语言-动作模型},
author = {Zheng, Jinliang and Li, Jianxiong and Wang, Zhihao and Liu, Dongxiu and Kang, Xirui
and Feng, Yuchun and Zheng, Yinan and Zou, Jiayin and Chen, Yilun and Zeng, Jia and others},
journal = {arXiv 预印本 arXiv:2510.10274},
year = {2025}
}
🪪 许可证
本仓库采用 Apache 2.0 许可证 许可。您可以在该许可证的条款下自由地使用、修改和分发代码。
版权所有 2025 2toINF(https://github.com/2toinf)
依照 Apache 许可证第 2.0 版授权。
由 2toINF 维护 💬 欢迎通过 GitHub Discussions 或 Pull Requests 提出反馈、报告问题或贡献代码。
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。