[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-SpatialVLA--SpatialVLA":3,"tool-SpatialVLA--SpatialVLA":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[27,13,15,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":64,"owner_name":64,"owner_avatar_url":72,"owner_bio":73,"owner_company":73,"owner_location":73,"owner_email":73,"owner_twitter":73,"owner_website":73,"owner_url":74,"languages":75,"stars":84,"forks":85,"last_commit_at":86,"license":73,"difficulty_score":24,"env_os":87,"env_gpu":88,"env_ram":89,"env_deps":90,"category_tags":98,"github_topics":99,"view_count":24,"oss_zip_url":73,"oss_zip_packed_at":73,"status":17,"created_at":106,"updated_at":107,"faqs":108,"releases":137},10057,"SpatialVLA\u002FSpatialVLA","SpatialVLA","🔥 SpatialVLA: a spatial-enhanced vision-language-action model that is trained on 1.1 Million real robot episodes. Accepted at RSS 2025.","SpatialVLA 是一款专为机器人操作设计的空间增强型视觉 - 语言 - 动作模型，已在 RSS 2025 会议上获得认可。它基于 110 万段真实机器人操作数据训练而成，旨在解决传统机器人在理解复杂三维空间关系及执行精细物理任务时的难题。通过深度融合视觉感知、自然语言指令与机械臂动作控制，SpatialVLA 能够更精准地理解“在哪里”以及“如何操作”，从而在多样化的评估中展现出业界领先的性能。\n\n该工具特别适合机器人领域的研究人员、算法工程师及开发者使用。无论是希望快速复现前沿成果，还是打算利用自定义数据集进行微调以适配特定场景，用户都能从中受益。SpatialVLA 的技术亮点在于其高效的空间表征能力，它不仅大幅提升了推理速度，还显著减少了生成每个动作所需的计算令牌数量，降低了硬件门槛（仅需约 8.5GB 显存即可运行）。此外，项目完全基于 HuggingFace Transformers 构建，代码简洁且易于部署，甚至提供了基于 LeRobot 的进阶版本以支持多视角输入和更流畅的数据加载流程，是探索具身智能理想的开源基座。","\u003Cdiv align=\"center\">\n\n# SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Models (RSS 2025)\nA spatial-enhanced vision-language-action model trained on 1.1 Million real robot episodes. 🤗\npurely huggingFace-based, concise code with efficient performance.\n\n> [Delin Qu*](https:\u002F\u002Fgithub.com\u002FDelinQu)\u003Csup>1,2\u003C\u002Fsup>, [HaomingSong*](https:\u002F\u002Fgithub.com\u002FHaomingSong)\u003Csup>1,3\u003C\u002Fsup>, [Qizhi Chen*](https:\u002F\u002Fgithub.com\u002FTavish9)\u003Csup>1,4\u003C\u002Fsup>, [Dong Wang†](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=dasL9V4AAAAJ&hl=en)\u003Csup>1\u003C\u002Fsup>, [Yuanqi Yao](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=s482QHoAAAAJ&hl=zh-CN)\u003Csup>1\u003C\u002Fsup>, [X. Ye](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=GlYeyfoAAAAJ&hl=zh-CN)\u003Csup>1\u003C\u002Fsup>, [Y. Ding](https:\u002F\u002Fyding25.com)\u003Csup>1\u003C\u002Fsup>, [Z. Wang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=cw3EaAYAAAAJ&hl=zh-CN)\u003Csup>1\u003C\u002Fsup>, [Jiayuan Gu](https:\u002F\u002Fcseweb.ucsd.edu\u002F~jigu\u002F)\u003Csup>5\u003C\u002Fsup>, [Bin Zhao†](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=zh-CN&user=DQB0hqwAAAAJ)\u003Csup>1\u003C\u002Fsup>, [Xuelong Li](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=ahUibskAAAAJ)\u003Csup>1,6\u003C\u002Fsup>\n> Shanghai AI Laboratory\u003Csup>1\u003C\u002Fsup>, Fudan University\u003Csup>2\u003C\u002Fsup>, Shanghai Jiao Tong University\u003Csup>3\u003C\u002Fsup>, Zhejiang University\u003Csup>4\u003C\u002Fsup>, ShanghaiTech\u003Csup>5\u003C\u002Fsup>, TeleAI\u003Csup>6\u003C\u002Fsup>\n\n[\\[📄Paper\\]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.15830)  [\\[🔥Project Page\\]](https:\u002F\u002Fspatialvla.github.io\u002F) [\\[📖 Document\\]](#documents) [\\[🚀 Quick Start\\]](#-quick-start) [\\[🤗 Model Zoo\\]](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FIPEC-COMMUNITY\u002Ffoundation-vision-language-action-model-6795eb96a9c661f90236acbb) [\\[✅ Performance\\]](#-performance-in-simulation-and-real-world) [\\[🙋 FAQs\\]](#-faqs)\n\n[\\[🔥Pre-train\\]](#-pre-train-from-scratch) [\\[🚀 Fine-tune\\]](#-fine-tune-from-spatialvla) [\\[🎄Custom Dataset\\]](#-use-custom-datasets)\n\n![perform](.assets\u002Fteaser.png)\n\n\u003C\u002Fdiv>\n\n## News 🚀🚀🚀\n- `2025\u002F01\u002F29`: We release the [SpatialVLA 1.0](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FIPEC-COMMUNITY\u002Ffoundation-vision-language-action-model-6795eb96a9c661f90236acbb). SpatialVLA achieves state-of-the-art performance across a diverse range of evaluations and shows significantly faster inference speed with fewer tokens per action.\n- `2025\u002F02\u002F06`: We release the SimplerEnv evaluation code for SpatialVLA. Please refer to [DelinQu\u002FSimplerEnv-OpenVLA](https:\u002F\u002Fgithub.com\u002FDelinQu\u002FSimplerEnv-OpenVLA\u002F), and make sure `transformers >= 4.47.0`.\n- `2025\u002F03\u002F16`: Simplify the code structure and fix the dependencies conflict in issue [#19](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fissues\u002F19).\n\n> [!NOTE]\n> 🔥 **An advanced version of SpatialVLA is under development! It leverages [lerobot](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flerobot) to simplify and accelerate data loading, supports multi-view and state inputs, and features a more streamlined code structure with enhanced performance! Please check out the [lerobot-branch](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Ftree\u002Flerobot)**\n\n\n## Documents\n\n### 🚀 Quick Start\n\n> [!TIP]\n> During the runtime process, a large amount of data is cached in the CPU content. To better manage and allocate content, we have replaced the memory management tool library with `tcmalloc`.\n> \n> For users with sudo privileges, you can install tcmalloc using `sudo apt-get install google-perftools` and find the `libtcmalloc.so.4` library in `\u002Fusr\u002Flib\u002Fx86_64-linux-gnu` or `\u002Fusr\u002Flib`.\n> \n> For users without sudo privileges, you can download the suitable version for your operating system from [official repo](https:\u002F\u002Frpmfind.net\u002Flinux\u002Frpm2html\u002Fsearch.php?query=libtcmalloc.so.4()(64bit)) and install it manually.\n> \n> This step is **not** necessary and can be skipped based on your individual memory requirements.\n\n\nSpatialVLA relies solely on HuggingFace Transformers 🤗, making deployment extremely easy. If your environment supports `transformers >= 4.47.0`, you can directly use the following code to load the model and perform inference. (requires 8.5GB of GPU memory).\n\n```python\nimport torch\nfrom PIL import Image\nfrom transformers import AutoModel, AutoProcessor\n\nmodel_name_or_path=\"IPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\"\nprocessor = AutoProcessor.from_pretrained(model_name_or_path, trust_remote_code=True)\nmodel = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True, torch_dtype=torch.bfloat16).eval().cuda()\n\nimage = Image.open(\"example.png\").convert(\"RGB\")\nprompt = \"What action should the robot take to pick the cup?\"\ninputs = processor(images=[image], text=prompt, return_tensors=\"pt\")\ngeneration_outputs = model.predict_action(inputs)\n\nactions = processor.decode_actions(generation_outputs, unnorm_key=\"bridge_orig\u002F1.0.0\")\nprint(actions)\n```\n\nIf you want to use the model for fine-tuning or pre-training, you need to install the required packages and download the model from the Hugging Face model hub. The VLM backbone of SpatialVLA is PaLiGemma2, which requires transformers >= 4.47.0. Hence, create a Python environment with Python >= 3.10.\n\n```bash\ngit clone git@github.com:SpatialVLA\u002FSpatialVLA.git --depth 1\nconda create -n spatialvla python=3.10\nconda activate spatialvla\n```\n\nInstall packages from `requirements.txt` file. Note that we use a customised `dlimp` to support seed setting for reproducibility. If you catch any problems, please manually install the dlimp form the [dlimp_custom](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002Fdlimp_custom).\n\n```bash\npip install -r requirements.txt\n```\n\n### 🌟 **Pre-train from Scratch**\nSpatialVLA is pre-trained with 1.1 Million real-robot demonstrations from the OXE and RH20T dataset on a cluster of 64 A100 GPUs for abut 10 days, using a batch size of 2048. You can pre-train the model from scratch using the following command. Before running the script, please download the [Open X-Embodiment](https:\u002F\u002Frobotics-transformer-x.github.io) dataset and [RH20T](https:\u002F\u002Frh20t.github.io\u002F#download) dataset (optional). Please also filter the dataset by following the instructions in the [moojink\u002Frlds_dataset_builder](https:\u002F\u002Fgithub.com\u002Fmoojink\u002Frlds_dataset_builder) and [spatialvla\u002Frh20t](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002Frh20t) to filter the dataset or convert it to the RLDS format.\n\n```bash\n# download paligemma2 and zoe depth\nbash scripts\u002Fhf_download.sh\n\n# torchrun\nbash scripts\u002Fspatialvla_4b_pretrain\u002Ftorchrun_pretrain.sh\n\n# or in a slurm cluster\nbash scripts\u002Fspatialvla_4b_pretrain\u002Fslurm_pretrain.sh\n```\n\n### 🌟 **Fine-tune from SpatialVLA**\n\nMost of our fine-tuning experiments are conducted using LoRA on 4 or 8 A100 GPUs. You can use the following scripts for full-parameter or LoRA fine-tuning. For real-world experiments with small datasets, we prefer using LoRA for fine-tuning.\n\n```bash\n# full fine-tuning\nbash scripts\u002Fspatialvla_4b_finetune\u002Ffinetune_full.sh\n\n# LoRA fine-tuning\nbash scripts\u002Fspatialvla_4b_finetune\u002Ffinetune_lora.sh\n```\n\n\n### 🌟 **SimplerEnv Benchmark**\nWe release the SimplerEnv evaluation code for SpatialVLA based on [DelinQu\u002FSimplerEnv-OpenVLA](https:\u002F\u002Fgithub.com\u002FDelinQu\u002FSimplerEnv-OpenVLA\u002F). Please install the simpler_env environment by following [DelinQu\u002FSimplerEnv-OpenVLA](https:\u002F\u002Fgithub.com\u002FDelinQu\u002FSimplerEnv-OpenVLA\u002F) and make sure `transformers >= 4.47.0`. Please refer to the Please refer to the [Model Zoo](#-model-zoo) for the model and dataset settings. After install all the dependencies, you can perform the evaluation by: \n\n```bash\n# under the project dir of SimplerEnv-OpenVLA\u002F\nbash scripts\u002Frun_spatialvla.sh\n```\nNote: Similar to most papers, e.g., HPT and TraceVLA, we omitted the `Open Top Drawer and Place Apple` from our evaluation, since the vast majority of policies achieved scores approaching 0 on this task.\n\n### 🎄 Use Custom Datasets\nTo train on a custom dataset that is not part of OXE, we recommend converting it into the [RLDS](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Frlds) format, as this format directly aligns with our framework.\n\nOnce the dataset is converted, you’ll need to modify the following files:\n- [data\u002Foxe\u002Fmixtures.py](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fblob\u002Fmain\u002Fdata\u002Foxe\u002Fmixtures.py): Define a new mixture for your dataset in the OXE_NAMED_MIXTURES dictionary.\n- [data\u002Foxe\u002Fconfigs.py](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fblob\u002Fmain\u002Fdata\u002Foxe\u002Fconfigs.py): Add a new configuration specifying your dataset’s observation and action spaces to the OXE_DATASET_CONFIGS dictionary.\n- [data\u002Foxe\u002Ftransforms.py](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fblob\u002Fmain\u002Fdata\u002Foxe\u002Ftransforms.py): Define a new dataset transform function for your dataset, and add it to the OXE_STANDARDIZATION_TRANSFORMS registry at the bottom of the file.\n\n## 🤗 Model Zoo\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Model Name\u003C\u002Fth>\n    \u003Cth>Backbone\u003C\u002Fth>\n    \u003Cth>VLA Model\u003C\u002Fth>\n    \u003Cth>Note\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>SpatialVLA-4B-224-pt\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fpaligemma2-3b-pt-224\">google\u002Fpaligemma2-3b-pt-224\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\">spatialvla-4b-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>pretrained on openx and rh20t, TABLE I and II zero-shot, Fig.5 and 7\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>SpatialVLA-4B-mix-224-pt\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\">spatialvla-4b-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-mix-224-pt\">spatialvla-4b-mix-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>fine-tuning on the fractal and bridge mixture dataset, Fig.5 and 7\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>spatialvla-4b-224-sft-bridge\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\">spatialvla-4b-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-sft-bridge\">spatialvla-4b-224-sft-bridge\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>fine-tuning on the bridge dataset, testing on simple-env widowx-robot, TABLE I fine-tuning\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>spatialvla-4b-224-sft-bridge\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\">spatialvla-4b-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-sft-fractal\">spatialvla-4b-224-sft-fractal\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>fine-tuning on the fractal dataset, testing on simple-env google-robot, TABLE II ine-tuning\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## ✅ Performance in Simulation and Real-world\n> [!NOTE]\n> SimplerEnv evaluation on Google Robot tasks.\n\n\u003Ctable border=\"1\" class=\"dataframe\">\n  \u003Cthead>\n    \u003Ctr style=\"text-align: center;\">\n      \u003Cth rowspan=\"2\">Model\u003C\u002Fth>\n      \u003Cth colspan=\"4\">Visual Matching\u003C\u002Fth>\n      \u003Cth colspan=\"4\">Variant Aggregation\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"text-align: center;\">\n      \u003Cth>Pick Coke Can\u003C\u002Fth>\n      \u003Cth>Move Near\u003C\u002Fth>\n      \u003Cth>Open\u002FClose Drawer\u003C\u002Fth>\n      \u003Cth>#Average\u003C\u002Fth>\n      \u003Cth>Pick Coke Can\u003C\u002Fth>\n      \u003Cth>Move Near\u003C\u002Fth>\n      \u003Cth>Open\u002FClose Drawer\u003C\u002Fth>\n      \u003Cth>#Average\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>RT-1 (Begin)\u003C\u002Ftd>\n      \u003Ctd>2.7%\u003C\u002Ftd>\n      \u003Ctd>5.0%\u003C\u002Ftd>\n      \u003Ctd>13.9%\u003C\u002Ftd>\n      \u003Ctd>6.8%\u003C\u002Ftd>\n      \u003Ctd>2.2%\u003C\u002Ftd>\n      \u003Ctd>4.0%\u003C\u002Ftd>\n      \u003Ctd>6.9%\u003C\u002Ftd>\n      \u003Ctd>4.2%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RT-1 (15%)\u003C\u002Ftd>\n      \u003Ctd>71.0%\u003C\u002Ftd>\n      \u003Ctd>35.4%\u003C\u002Ftd>\n      \u003Ctd>56.5%\u003C\u002Ftd>\n      \u003Ctd>60.2%\u003C\u002Ftd>\n      \u003Ctd>81.3%\u003C\u002Ftd>\n      \u003Ctd>44.6%\u003C\u002Ftd>\n      \u003Ctd>26.7%\u003C\u002Ftd>\n      \u003Ctd>56.2%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RT-1 (Converged)\u003C\u002Ftd>\n      \u003Ctd>85.7%\u003C\u002Ftd>\n      \u003Ctd>44.2%\u003C\u002Ftd>\n      \u003Ctd>73.0%\u003C\u002Ftd>\n      \u003Ctd>74.6%\u003C\u002Ftd>\n      \u003Ctd>89.8%\u003C\u002Ftd>\n      \u003Ctd>50.0%\u003C\u002Ftd>\n      \u003Ctd>32.3%\u003C\u002Ftd>\n      \u003Ctd>63.3%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>HPT\u003C\u002Ftd>\n      \u003Ctd>56.0%\u003C\u002Ftd>\n      \u003Ctd>60.0%\u003C\u002Ftd>\n      \u003Ctd>24.0%\u003C\u002Ftd>\n      \u003Ctd>46.0%\u003C\u002Ftd>\n      \u003Ctd>--\u003C\u002Ftd>\n      \u003Ctd>--\u003C\u002Ftd>\n      \u003Ctd>31.0%\u003C\u002Ftd>\n      \u003Ctd>45.0%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>TraceVLA\u003C\u002Ftd>\n      \u003Ctd>28.0%\u003C\u002Ftd>\n      \u003Ctd>53.7%\u003C\u002Ftd>\n      \u003Ctd>57.0%\u003C\u002Ftd>\n      \u003Ctd>42.0%\u003C\u002Ftd>\n      \u003Ctd>60.0%\u003C\u002Ftd>\n      \u003Ctd>56.4%\u003C\u002Ftd>\n      \u003Ctd>29.4%\u003C\u002Ftd>\n      \u003Ctd>39.6%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RT-1-X\u003C\u002Ftd>\n      \u003Ctd>56.7%\u003C\u002Ftd>\n      \u003Ctd>31.7%\u003C\u002Ftd>\n      \u003Ctd>59.7%\u003C\u002Ftd>\n      \u003Ctd>53.4%\u003C\u002Ftd>\n      \u003Ctd>49.0%\u003C\u002Ftd>\n      \u003Ctd>32.3%\u003C\u002Ftd>\n      \u003Ctd>35.3%\u003C\u002Ftd>\n      \u003Ctd>64.3%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RT-2-X\u003C\u002Ftd>\n      \u003Ctd>78.7%\u003C\u002Ftd>\n      \u003Ctd>77.9%\u003C\u002Ftd>\n      \u003Ctd>25.0%\u003C\u002Ftd>\n      \u003Ctd>60.7%\u003C\u002Ftd>\n      \u003Ctd>82.3%\u003C\u002Ftd>\n      \u003Ctd>79.2%\u003C\u002Ftd>\n      \u003Ctd>--\u003C\u002Ftd>\n      \u003Ctd>--\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003Ctr>\n      \u003Ctd>Octo-Base\u003C\u002Ftd>\n      \u003Ctd>17.0%\u003C\u002Ftd>\n      \u003Ctd>4.2%\u003C\u002Ftd>\n      \u003Ctd>22.7%\u003C\u002Ftd>\n      \u003Ctd>16.8%\u003C\u002Ftd>\n      \u003Ctd>0.6%\u003C\u002Ftd>\n      \u003Ctd>3.1%\u003C\u002Ftd>\n      \u003Ctd>1.1%\u003C\u002Ftd>\n      \u003Ctd>1.1%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>OpenVLA\u003C\u002Ftd>\n      \u003Ctd>16.3%\u003C\u002Ftd>\n      \u003Ctd>46.2%\u003C\u002Ftd>\n      \u003Ctd>35.6%\u003C\u002Ftd>\n      \u003Ctd>27.7%\u003C\u002Ftd>\n      \u003Ctd>54.5%\u003C\u002Ftd>\n      \u003Ctd>47.7%\u003C\u002Ftd>\n      \u003Ctd>17.7%\u003C\u002Ftd>\n      \u003Ctd>39.8%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RoboVLM (zero-shot)\u003C\u002Ftd>\n      \u003Ctd>72.7%\u003C\u002Ftd>\n      \u003Ctd>66.3%\u003C\u002Ftd>\n      \u003Ctd>26.8%\u003C\u002Ftd>\n      \u003Ctd>56.3%\u003C\u002Ftd>\n      \u003Ctd>68.3%\u003C\u002Ftd>\n      \u003Ctd>56.0%\u003C\u002Ftd>\n      \u003Ctd>8.5%\u003C\u002Ftd>\n      \u003Ctd>46.3%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RoboVLM (fine-tuning)\u003C\u002Ftd>\n      \u003Ctd>77.3%\u003C\u002Ftd>\n      \u003Ctd>61.7%\u003C\u002Ftd>\n      \u003Ctd>43.5%\u003C\u002Ftd>\n      \u003Ctd>63.4%\u003C\u002Ftd>\n      \u003Ctd>75.6%\u003C\u002Ftd>\n      \u003Ctd>60.0%\u003C\u002Ftd>\n      \u003Ctd>10.6%\u003C\u002Ftd>\n      \u003Ctd>51.3%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>SpatialVLA (zero-shot)\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>81.0%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>69.6%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>59.3%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>71.9%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>89.5%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>71.7%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>36.2%\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>68.8%\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>SpatialVLA (fine-tuning)\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>86.0%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>77.9%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>57.4%\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>75.1%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>88.0%\u003C\u002Ftd>\n      \u003Ctd>72.7%\u003C\u002Ftd>\n      \u003Ctd>41.8%\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>70.7%\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n> [!NOTE]\n> SimplerEnv evaluation on WidowX Robot tasks.\n\n  \u003Ctable border=\"1\" class=\"dataframe\">\n    \u003Cthead>\n      \u003Ctr style=\"text-align: center;\">\n        \u003Cth rowspan=\"2\">Model\u003C\u002Fth>\n        \u003Cth colspan=\"2\">Put Spoon on Towel\u003C\u002Fth>\n        \u003Cth colspan=\"2\">Put Carrot on Plate\u003C\u002Fth>\n        \u003Cth colspan=\"2\">Stack Green Block on Yellow Block\u003C\u002Fth>\n        \u003Cth colspan=\"2\">Put Eggplant in Yellow Basket\u003C\u002Fth>\n        \u003Cth rowspan=\"2\">#Overall Average\u003C\u002Fth>\n      \u003C\u002Ftr>\n      \u003Ctr style=\"text-align: center;\">\n        \u003Cth>Grasp Spoon\u003C\u002Fth>\n        \u003Cth>Success\u003C\u002Fth>\n        \u003Cth>Grasp Carrot\u003C\u002Fth>\n        \u003Cth>Success\u003C\u002Fth>\n        \u003Cth>Grasp Green Block\u003C\u002Fth>\n        \u003Cth>Success\u003C\u002Fth>\n        \u003Cth>Grasp Eggplant\u003C\u002Fth>\n        \u003Cth>Success\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd>RT-1-X\u003C\u002Ftd>\n        \u003Ctd>16.7%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>20.8%\u003C\u002Ftd>\n        \u003Ctd>4.2%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>1.1%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>Octo-Base\u003C\u002Ftd>\n        \u003Ctd>34.7%\u003C\u002Ftd>\n        \u003Ctd>12.5%\u003C\u002Ftd>\n        \u003Ctd>52.8%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>31.9%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>66.7%\u003C\u002Ftd>\n        \u003Ctd>43.1%\u003C\u002Ftd>\n        \u003Ctd>16.0%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>Octo-Small\u003C\u002Ftd>\n        \u003Ctd>77.8%\u003C\u002Ftd>\n        \u003Ctd>47.2%\u003C\u002Ftd>\n        \u003Ctd>27.8%\u003C\u002Ftd>\n        \u003Ctd>9.7%\u003C\u002Ftd>\n        \u003Ctd>40.3%\u003C\u002Ftd>\n        \u003Ctd>4.2%\u003C\u002Ftd>\n        \u003Ctd>87.5%\u003C\u002Ftd>\n        \u003Ctd>56.9%\u003C\u002Ftd>\n        \u003Ctd>30.0%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>OpenVLA\u003C\u002Ftd>\n        \u003Ctd>4.1%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>33.3%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>12.5%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>4.1%\u003C\u002Ftd>\n        \u003Ctd>1.0%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>RoboVLM (zero-shot)\u003C\u002Ftd>\n        \u003Ctd>37.5%\u003C\u002Ftd>\n        \u003Ctd>20.8%\u003C\u002Ftd>\n        \u003Ctd>33.3%\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>13.5%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>RoboVLM (fine-tuning)\u003C\u002Ftd>\n        \u003Ctd>54.2%\u003C\u002Ftd>\n        \u003Ctd>29.2%\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>45.8%\u003C\u002Ftd>\n        \u003Ctd>12.5%\u003C\u002Ftd>\n        \u003Ctd>58.3%\u003C\u002Ftd>\n        \u003Ctd>58.3%\u003C\u002Ftd>\n        \u003Ctd>31.3%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>SpatialVLA (zero-shot)\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>25.0%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>20.8%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>41.7%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>20.8%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>58.3%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>79.2%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>70.8%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>34.4%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>SpatialVLA (fine-tuning)\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>20.8%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>16.7%\u003C\u002Ftd>\n        \u003Ctd>29.2%\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>62.5%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>29.2%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>100.0%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>100.0%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>42.7%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\n> [!NOTE]\n> LIBERO Simulation Benchmark Results.\n\n\u003Ctable border=\"1\" class=\"dataframe\">\n  \u003Cthead>\n    \u003Ctr style=\"text-align: center;\">\n      \u003Cth rowspan=\"2\">Model\u003C\u002Fth>\n      \u003Cth colspan=\"2\">LIBERO-Spatial\u003C\u002Fth>\n      \u003Cth colspan=\"2\">LIBERO-Object\u003C\u002Fth>\n      \u003Cth colspan=\"2\">LIBERO-Goal\u003C\u002Fth>\n      \u003Cth colspan=\"2\">LIBERO-Long\u003C\u002Fth>\n      \u003Cth colspan=\"2\">Average\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"text-align: center;\">\n      \u003Cth>SR (↑)\u003C\u002Fth>\n      \u003Cth>Rank (↓)\u003C\u002Fth>\n      \u003Cth>SR (↑)\u003C\u002Fth>\n      \u003Cth>Rank (↓)\u003C\u002Fth>\n      \u003Cth>SR (↑)\u003C\u002Fth>\n      \u003Cth>Rank (↓)\u003C\u002Fth>\n      \u003Cth>SR (↑)\u003C\u002Fth>\n      \u003Cth>Rank (↓)\u003C\u002Fth>\n      \u003Cth>SR (↑)\u003C\u002Fth>\n      \u003Cth>Rank (↓)\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>Diffusion Policy from scratch\u003C\u002Ftd>\n      \u003Ctd>78.3 ± 1.1%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>92.5 ± 0.7%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>68.3 ± 1.2%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n      \u003Ctd>50.5 ± 1.3%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n      \u003Ctd>72.4 ± 0.7%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Octo fine-tuned\u003C\u002Ftd>\n      \u003Ctd>78.9 ± 1.0%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n      \u003Ctd>85.7 ± 0.9%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>84.6 ± 0.9%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>51.1 ± 1.3%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n      \u003Ctd>75.1 ± 0.6%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>OpenVLA fine-tuned\u003C\u002Ftd>\n      \u003Ctd>84.7 ± 0.9%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>88.4 ± 0.8%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n      \u003Ctd>79.2 ± 1.0%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>53.7 ± 1.3%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n      \u003Ctd>76.5 ± 0.6%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>TraceVLA fine-tuned\u003C\u002Ftd>\n      \u003Ctd>84.6 ± 0.2%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n      \u003Ctd>85.2 ± 0.4%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n      \u003Ctd>75.1 ± 0.3%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n      \u003Ctd>54.1 ± 1.0%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>74.8 ± 0.5%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>SpatialVLA fine-tuned\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>88.2 ± 0.5%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>89.9 ± 0.7%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>78.6 ± 0.6%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>55.5 ± 1.0%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>78.1 ± 0.7%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n> [!NOTE]\n> Zero-shot Robot Control Evaluation on real-world WidowX Robot.\n\n\u003Cimg src=\".assets\u002FwidowX_zeroshot.png\" alt=\"perform\">\n\n> [!NOTE]\n> Spatial Understanding Capability Evaluation.\n\n\u003Cimg src=\".assets\u002Fspatial_setup.png\" alt=\"perform\">\n\n> [!NOTE]\n> Adapting to New Robot Setups on Franka Robot.\n\n\u003Cimg src=\".assets\u002Ffranka_sft.png\" alt=\"perform\">\n\n## TODO List\n\n- [x] Release pre-training \u002F fine-tuning code for SpatialVLA series.\n- [x] Release the code, model, and custom data of SpatialVLA.\n- [x] Release the SimplerENV evaluation code for SpatialVLA series\n- [ ] Release SpatialVLA2\n\n## 🤗 FAQs\nIf you encounter any issues, feel free to open an issue on GitHub or reach out through discussions. We appreciate your feedback and contributions! 🚀\n\n## License\n\nThis project is released under the [MIT license](LICENSE). Parts of this project contain code and models from other sources, which are subject to their respective licenses.\n\n## Citation\n\nIf you find this project useful in your research, please consider cite:\n\n```BibTeX\n@article{qu2025spatialvla,\n  title={SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model},\n  author={Qu, Delin and Song, Haoming and Chen, Qizhi and Yao, Yuanqi and Ye, Xinyi and Ding, Yan and Wang, Zhigang and Gu, JiaYuan and Zhao, Bin and Wang, Dong and others},\n  journal={arXiv preprint arXiv:2501.15830},\n  year={2025}\n}\n```\n\n## Acknowledgement\nSpatialVLA is built with reference to the code of the following projects: [InternVL](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL), [Google Paligemma2](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fpaligemma2-3b-pt-224), [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers), [OpenVLA](https:\u002F\u002Fgithub.com\u002Fopenvla\u002Fopenvla) and [ZoeDepth](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fshariqfarooq\u002FZoeDepth). Thanks for their awesome work!\n","\u003Cdiv align=\"center\">\n\n# SpatialVLA: 探索视觉-语言-动作模型的空间表征（RSS 2025）\n一个基于110万次真实机器人演示训练的空间增强型视觉-语言-动作模型。🤗\n完全基于Hugging Face，代码简洁且性能高效。\n\n> [Delin Qu*](https:\u002F\u002Fgithub.com\u002FDelinQu)\u003Csup>1,2\u003C\u002Fsup>, [HaomingSong*](https:\u002F\u002Fgithub.com\u002FHaomingSong)\u003Csup>1,3\u003C\u002Fsup>, [Qizhi Chen*](https:\u002F\u002Fgithub.com\u002FTavish9)\u003Csup>1,4\u003C\u002Fsup>, [Dong Wang†](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=dasL9V4AAAAJ&hl=en)\u003Csup>1\u003C\u002Fsup>, [Yuanqi Yao](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=s482QHoAAAAJ&hl=zh-CN)\u003Csup>1\u003C\u002Fsup>, [X. Ye](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=GlYeyfoAAAAJ&hl=zh-CN)\u003Csup>1\u003C\u002Fsup>, [Y. Ding](https:\u002F\u002Fyding25.com)\u003Csup>1\u003C\u002Fsup>, [Z. Wang](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=cw3EaAYAAAAJ&hl=zh-CN)\u003Csup>1\u003C\u002Fsup>, [Jiayuan Gu](https:\u002F\u002Fcseweb.ucsd.edu\u002F~jigu\u002F)\u003Csup>5\u003C\u002Fsup>, [Bin Zhao†](https:\u002F\u002Fscholar.google.com\u002Fcitations?hl=zh-CN&user=DQB0hqwAAAAJ)\u003Csup>1\u003C\u002Fsup>, [Xuelong Li](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=ahUibskAAAAJ)\u003Csup>1,6\u003C\u002Fsup>\n> 上海人工智能实验室\u003Csup>1\u003C\u002Fsup>, 复旦大学\u003Csup>2\u003C\u002Fsup>, 上海交通大学\u003Csup>3\u003C\u002Fsup>, 浙江大学\u003Csup>4\u003C\u002Fsup>, 上海科技大学\u003Csup>5\u003C\u002Fsup>, TeleAI\u003Csup>6\u003C\u002Fsup>\n\n[\\[📄论文\\]](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2501.15830)  [\\[🔥项目页\\]](https:\u002F\u002Fspatialvla.github.io\u002F) [\\[📖 文档\\]](#documents) [\\[🚀 快速入门\\]](#-quick-start) [\\[🤗 模型库\\]](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FIPEC-COMMUNITY\u002Ffoundation-vision-language-action-model-6795eb96a9c661f90236acbb) [\\[✅ 性能\\]](#-performance-in-simulation-and-real-world) [\\[🙋 常见问题\\]](#-faqs)\n\n[\\[🔥 预训练\\]](#-pre-train-from-scratch) [\\[🚀 微调\\]](#-fine-tune-from-spatialvla) [\\[🎄 自定义数据集\\]](#-use-custom-datasets)\n\n![perform](.assets\u002Fteaser.png)\n\n\u003C\u002Fdiv>\n\n## 新闻 🚀🚀🚀\n- `2025\u002F01\u002F29`: 我们发布了[SpatialVLA 1.0](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FIPEC-COMMUNITY\u002Ffoundation-vision-language-action-model-6795eb96a9c661f90236acbb)。SpatialVLA在多种评估中均达到最先进水平，并且以更少的动作令牌实现了显著更快的推理速度。\n- `2025\u002F02\u002F06`: 我们发布了用于SpatialVLA的SimplerEnv评估代码。请参考[DelinQu\u002FSimplerEnv-OpenVLA](https:\u002F\u002Fgithub.com\u002FDelinQu\u002FSimplerEnv-OpenVLA\u002F)，并确保`transformers >= 4.47.0`。\n- `2025\u002F03\u002F16`: 简化了代码结构，并修复了[#19](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fissues\u002F19)中的依赖冲突问题。\n\n\n> [!NOTE]\n> 🔥 **SpatialVLA的高级版本正在开发中！它利用[lerobot](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Flerobot)来简化和加速数据加载，支持多视角和状态输入，并具有更加精简的代码结构和更强的性能！请查看[lerobot分支](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Ftree\u002Flerobot)**\n\n\n## 文档\n\n### 🚀 快速入门\n\n> [!TIP]\n> 在运行过程中，大量数据会被缓存在CPU内存中。为了更好地管理和分配内存，我们已将内存管理工具库替换为`tcmalloc`。\n> \n> 对于拥有sudo权限的用户，可以使用`sudo apt-get install google-perftools`安装tcmalloc，并在`\u002Fusr\u002Flib\u002Fx86_64-linux-gnu`或`\u002Fusr\u002Flib`中找到`libtcmalloc.so.4`库文件。\n> \n> 对于没有sudo权限的用户，可以从[官方仓库](https:\u002F\u002Frpmfind.net\u002Flinux\u002Frpm2html\u002Fsearch.php?query=libtcmalloc.so.4()(64bit))下载适合您操作系统的版本，并手动安装。\n> \n> 此步骤并非必需，您可以根据个人内存需求选择是否执行。\n\n\nSpatialVLA完全依赖于Hugging Face Transformers 🤗，部署极其简便。如果您的环境支持`transformers >= 4.47.0`，可以直接使用以下代码加载模型并进行推理。（需要8.5GB显存）。\n\n```python\nimport torch\nfrom PIL import Image\nfrom transformers import AutoModel, AutoProcessor\n\nmodel_name_or_path=\"IPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\"\nprocessor = AutoProcessor.from_pretrained(model_name_or_path, trust_remote_code=True)\nmodel = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True, torch_dtype=torch.bfloat16).eval().cuda()\n\nimage = Image.open(\"example.png\").convert(\"RGB\")\nprompt = \"机器人应该采取什么行动来拿起杯子？\"\ninputs = processor(images=[image], text=prompt, return_tensors=\"pt\")\ngeneration_outputs = model.predict_action(inputs)\n\nactions = processor.decode_actions(generation_outputs, unnorm_key=\"bridge_orig\u002F1.0.0\")\nprint(actions)\n```\n\n如果您想对模型进行微调或预训练，需要安装必要的包并从Hugging Face模型库下载模型。SpatialVLA的VLM骨干是PaLiGemma2，要求`transformers >= 4.47.0`。因此，请创建一个Python >= 3.10的环境。\n\n```bash\ngit clone git@github.com:SpatialVLA\u002FSpatialVLA.git --depth 1\nconda create -n spatialvla python=3.10\nconda activate spatialvla\n```\n\n从`requirements.txt`文件中安装所需包。请注意，我们使用自定义的`dlimp`来支持种子设置，以提高实验的可重复性。如果遇到任何问题，请手动从[dlimp_custom](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002Fdlimp_custom)下载并安装`dlimp`。\n\n```bash\npip install -r requirements.txt\n```\n\n### 🌟 **从头开始预训练**\nSpatialVLA使用来自OXE和RH20T数据集的110万次真实机器人演示，在由64块A100 GPU组成的集群上进行了约10天的预训练，批次大小为2048。您可以使用以下命令从头开始预训练模型。在运行脚本之前，请下载[Open X-Embodiment](https:\u002F\u002Frobotics-transformer-x.github.io)数据集和[RH20T](https:\u002F\u002Frh20t.github.io\u002F#download)数据集（可选）。此外，请按照[moojink\u002Frlds_dataset_builder](https:\u002F\u002Fgithub.com\u002Fmoojink\u002Frlds_dataset_builder)和[spatialvla\u002Frh20t](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002Frh20t)中的说明对数据集进行过滤或转换为RLDS格式。\n\n```bash\n# 下载paligemma2和zoe深度\nbash scripts\u002Fhf_download.sh\n\n# torchrun\nbash scripts\u002Fspatialvla_4b_pretrain\u002Ftorchrun_pretrain.sh\n\n# 或者在slurm集群上\nbash scripts\u002Fspatialvla_4b_pretrain\u002Fslurm_pretrain.sh\n```\n\n### 🌟 **从SpatialVLA微调**\n\n我们的大多数微调实验都是在4或8块A100 GPU上使用LoRA进行的。您可以使用以下脚本进行全参数或LoRA微调。对于使用小数据集的真实世界实验，我们更倾向于使用LoRA进行微调。\n\n```bash\n# 全参数微调\nbash scripts\u002Fspatialvla_4b_finetune\u002Ffinetune_full.sh\n\n# LoRA微调\nbash scripts\u002Fspatialvla_4b_finetune\u002Ffinetune_lora.sh\n```\n\n### 🌟 **SimplerEnv 基准测试**\n我们基于 [DelinQu\u002FSimplerEnv-OpenVLA](https:\u002F\u002Fgithub.com\u002FDelinQu\u002FSimplerEnv-OpenVLA\u002F) 发布了 SpatialVLA 的 SimplerEnv 评估代码。请按照 [DelinQu\u002FSimplerEnv-OpenVLA](https:\u002F\u002Fgithub.com\u002FDelinQu\u002FSimplerEnv-OpenVLA\u002F) 的说明安装 simpler_env 环境，并确保 `transformers >= 4.47.0`。有关模型和数据集的设置，请参阅 [模型库](#-model-zoo)。在安装完所有依赖项后，您可以通过以下命令进行评估：\n\n```bash\n# 在 SimplerEnv-OpenVLA 项目目录下\nbash scripts\u002Frun_spatialvla.sh\n```\n\n注意：与大多数论文（例如 HPT 和 TraceVLA）类似，我们在评估中省略了 `打开顶抽屉并放置苹果` 这一任务，因为绝大多数策略在此任务上的得分接近于零。\n\n### 🎄 使用自定义数据集\n若要使用不属于 OXE 的自定义数据集进行训练，我们建议将其转换为 [RLDS](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Frlds) 格式，因为该格式与我们的框架直接兼容。\n\n数据集转换完成后，您需要修改以下文件：\n- [data\u002Foxe\u002Fmixtures.py](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fblob\u002Fmain\u002Fdata\u002Foxe\u002Fmixtures.py)：在 OXE_NAMED_MIXTURES 字典中为您的数据集定义一个新的混合配置。\n- [data\u002Foxe\u002Fconfigs.py](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fblob\u002Fmain\u002Fdata\u002Foxe\u002Fconfigs.py)：在 OXE_DATASET_CONFIGS 字典中添加一个新配置，指定您数据集的观测空间和动作空间。\n- [data\u002Foxe\u002Ftransforms.py](https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fblob\u002Fmain\u002Fdata\u002Foxe\u002Ftransforms.py)：为您的数据集定义一个新的数据集转换函数，并将其添加到文件底部的 OXE_STANDARDIZATION_TRANSFORMS 注册表中。\n\n## 🤗 模型库\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>模型名称\u003C\u002Fth>\n    \u003Cth>骨干网络\u003C\u002Fth>\n    \u003Cth>VLA 模型\u003C\u002Fth>\n    \u003Cth>备注\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>SpatialVLA-4B-224-pt\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fpaligemma2-3b-pt-224\">google\u002Fpaligemma2-3b-pt-224\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\">spatialvla-4b-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>在 openx 和 rh20t 上预训练，表 I 和 II 零样本，图 5 和 7\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>SpatialVLA-4B-mix-224-pt\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\">spatialvla-4b-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-mix-224-pt\">spatialvla-4b-mix-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>在 fractal 和 bridge 混合数据集上微调，图 5 和 7\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>spatialvla-4b-224-sft-bridge\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\">spatialvla-4b-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-sft-bridge\">spatialvla-4b-224-sft-bridge\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>在 bridge 数据集上微调，于 simple-env widowx-robot 上测试，表 I 微调\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>spatialvla-4b-224-sft-fractal\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\">spatialvla-4b-224-pt\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FIPEC-COMMUNITY\u002Fspatialvla-4b-224-sft-fractal\">spatialvla-4b-224-sft-fractal\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>在 fractal 数据集上微调，于 simple-env google-robot 上测试，表 II 微调\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## ✅ 模拟与真实环境中的性能\n> [!NOTE]\n> SimplerEnv 在 Google Robot 任务上的评估结果。\n\n\u003Ctable border=\"1\" class=\"dataframe\">\n  \u003Cthead>\n    \u003Ctr style=\"text-align: center;\">\n      \u003Cth rowspan=\"2\">模型\u003C\u002Fth>\n      \u003Cth colspan=\"4\">视觉匹配\u003C\u002Fth>\n      \u003Cth colspan=\"4\">变体聚合\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"text-align: center;\">\n      \u003Cth>拿起可乐罐\u003C\u002Fth>\n      \u003Cth>靠近移动\u003C\u002Fth>\n      \u003Cth>打开\u002F关闭抽屉\u003C\u002Fth>\n      \u003Cth>#平均\u003C\u002Fth>\n      \u003Cth>拿起可乐罐\u003C\u002Fth>\n      \u003Cth>靠近移动\u003C\u002Fth>\n      \u003Cth>打开\u002F关闭抽屉\u003C\u002Fth>\n      \u003Cth>#平均\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>RT-1 (初始)\u003C\u002Ftd>\n      \u003Ctd>2.7%\u003C\u002Ftd>\n      \u003Ctd>5.0%\u003C\u002Ftd>\n      \u003Ctd>13.9%\u003C\u002Ftd>\n      \u003Ctd>6.8%\u003C\u002Ftd>\n      \u003Ctd>2.2%\u003C\u002Ftd>\n      \u003Ctd>4.0%\u003C\u002Ftd>\n      \u003Ctd>6.9%\u003C\u002Ftd>\n      \u003Ctd>4.2%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RT-1 (15%)\u003C\u002Ftd>\n      \u003Ctd>71.0%\u003C\u002Ftd>\n      \u003Ctd>35.4%\u003C\u002Ftd>\n      \u003Ctd>56.5%\u003C\u002Ftd>\n      \u003Ctd>60.2%\u003C\u002Ftd>\n      \u003Ctd>81.3%\u003C\u002Ftd>\n      \u003Ctd>44.6%\u003C\u002Ftd>\n      \u003Ctd>26.7%\u003C\u002Ftd>\n      \u003Ctd>56.2%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RT-1 (收敛)\u003C\u002Ftd>\n      \u003Ctd>85.7%\u003C\u002Ftd>\n      \u003Ctd>44.2%\u003C\u002Ftd>\n      \u003Ctd>73.0%\u003C\u002Ftd>\n      \u003Ctd>74.6%\u003C\u002Ftd>\n      \u003Ctd>89.8%\u003C\u002Ftd>\n      \u003Ctd>50.0%\u003C\u002Ftd>\n      \u003Ctd>32.3%\u003C\u002Ftd>\n      \u003Ctd>63.3%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>HPT\u003C\u002Ftd>\n      \u003Ctd>56.0%\u003C\u002Ftd>\n      \u003Ctd>60.0%\u003C\u002Ftd>\n      \u003Ctd>24.0%\u003C\u002Ftd>\n      \u003Ctd>46.0%\u003C\u002Ftd>\n      \u003Ctd>--\u003C\u002Ftd>\n      \u003Ctd>--\u003C\u002Ftd>\n      \u003Ctd>31.0%\u003C\u002Ftd>\n      \u003Ctd>45.0%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>TraceVLA\u003C\u002Ftd>\n      \u003Ctd>28.0%\u003C\u002Ftd>\n      \u003Ctd>53.7%\u003C\u002Ftd>\n      \u003Ctd>57.0%\u003C\u002Ftd>\n      \u003Ctd>42.0%\u003C\u002Ftd>\n      \u003Ctd>60.0%\u003C\u002Ftd>\n      \u003Ctd>56.4%\u003C\u002Ftd>\n      \u003Ctd>29.4%\u003C\u002Ftd>\n      \u003Ctd>39.6%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RT-1-X\u003C\u002Ftd>\n      \u003Ctd>56.7%\u003C\u002Ftd>\n      \u003Ctd>31.7%\u003C\u002Ftd>\n      \u003Ctd>59.7%\u003C\u002Ftd>\n      \u003Ctd>53.4%\u003C\u002Ftd>\n      \u003Ctd>49.0%\u003C\u002Ftd>\n      \u003Ctd>32.3%\u003C\u002Ftd>\n      \u003Ctd>35.3%\u003C\u002Ftd>\n      \u003Ctd>64.3%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RT-2-X\u003C\u002Ftd>\n      \u003Ctd>78.7%\u003C\u002Ftd>\n      \u003Ctd>77.9%\u003C\u002Ftd>\n      \u003Ctd>25.0%\u003C\u002Ftd>\n      \u003Ctd>60.7%\u003C\u002Ftd>\n      \u003Ctd>82.3%\u003C\u002Ftd>\n      \u003Ctd>79.2%\u003C\u002Ftd>\n      \u003Ctd>--\u003C\u002Ftd>\n      \u003Ctd>--\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>Octo-Base\u003C\u002Ftd>\n      \u003Ctd>17.0%\u003C\u002Ftd>\n      \u003Ctd>4.2%\u003C\u002Ftd>\n      \u003Ctd>22.7%\u003C\u002Ftd>\n      \u003Ctd>16.8%\u003C\u002Ftd>\n      \u003Ctd>0.6%\u003C\u002Ftd>\n      \u003Ctd>3.1%\u003C\u002Ftd>\n      \u003Ctd>1.1%\u003C\u002Ftd>\n      \u003Ctd>1.1%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>OpenVLA\u003C\u002Ftd>\n      \u003Ctd>16.3%\u003C\u002Ftd>\n      \u003Ctd>46.2%\u003C\u002Ftd>\n      \u003Ctd>35.6%\u003C\u002Ftd>\n      \u003Ctd>27.7%\u003C\u002Ftd>\n      \u003Ctd>54.5%\u003C\u002Ftd>\n      \u003Ctd>47.7%\u003C\u002Ftd>\n      \u003Ctd>17.7%\u003C\u002Ftd>\n      \u003Ctd>39.8%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RoboVLM (零样本)\u003C\u002Ftd>\n      \u003Ctd>72.7%\u003C\u002Ftd>\n      \u003Ctd>66.3%\u003C\u002Ftd>\n      \u003Ctd>26.8%\u003C\u002Ftd>\n      \u003Ctd>56.3%\u003C\u002Ftd>\n      \u003Ctd>68.3%\u003C\u002Ftd>\n      \u003Ctd>56.0%\u003C\u002Ftd>\n      \u003Ctd>8.5%\u003C\u002Ftd>\n      \u003Ctd>46.3%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>RoboVLM (微调)\u003C\u002Ftd>\n      \u003Ctd>77.3%\u003C\u002Ftd>\n      \u003Ctd>61.7%\u003C\u002Ftd>\n      \u003Ctd>43.5%\u003C\u002Ftd>\n      \u003Ctd>63.4%\u003C\u002Ftd>\n      \u003Ctd>75.6%\u003C\u002Ftd>\n      \u003Ctd>60.0%\u003C\u002Ftd>\n      \u003Ctd>10.6%\u003C\u002Ftd>\n      \u003Ctd>51.3%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>SpatialVLA (零样本)\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>81.0%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>69.6%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>59.3%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>71.9%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>89.5%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>71.7%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>36.2%\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>68.8%\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>SpatialVLA (微调)\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>86.0%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>77.9%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>57.4%\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>75.1%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>88.0%\u003C\u002Ftd>\n      \u003Ctd>72.7%\u003C\u002Ftd>\n      \u003Ctd>41.8%\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>70.7%\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n> [!NOTE]\n> SimplerEnv 在 WidowX Robot 任务上的评估结果。\n\n\u003Ctable border=\"1\" class=\"dataframe\">\n    \u003Cthead>\n      \u003Ctr style=\"text-align: center;\">\n        \u003Cth rowspan=\"2\">模型\u003C\u002Fth>\n        \u003Cth colspan=\"2\">把勺子放在毛巾上\u003C\u002Fth>\n        \u003Cth colspan=\"2\">把胡萝卜放在盘子上\u003C\u002Fth>\n        \u003Cth colspan=\"2\">把绿色积木叠在黄色积木上\u003C\u002Fth>\n        \u003Cth colspan=\"2\">把茄子放入黄色篮子\u003C\u002Fth>\n        \u003Cth rowspan=\"2\">#总体平均\u003C\u002Fth>\n      \u003C\u002Ftr>\n      \u003Ctr style=\"text-align: center;\">\n        \u003Cth>抓取勺子\u003C\u002Fth>\n        \u003Cth>成功\u003C\u002Fth>\n        \u003Cth>抓取胡萝卜\u003C\u002Fth>\n        \u003Cth>成功\u003C\u002Fth>\n        \u003Cth>抓取绿色积木\u003C\u002Fth>\n        \u003Cth>成功\u003C\u002Fth>\n        \u003Cth>抓取茄子\u003C\u002Fth>\n        \u003Cth>成功\u003C\u002Fth>\n      \u003C\u002Ftr>\n    \u003C\u002Fthead>\n    \u003Ctbody>\n      \u003Ctr>\n        \u003Ctd>RT-1-X\u003C\u002Ftd>\n        \u003Ctd>16.7%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>20.8%\u003C\u002Ftd>\n        \u003Ctd>4.2%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>1.1%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>Octo-Base\u003C\u002Ftd>\n        \u003Ctd>34.7%\u003C\u002Ftd>\n        \u003Ctd>12.5%\u003C\u002Ftd>\n        \u003Ctd>52.8%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>31.9%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>66.7%\u003C\u002Ftd>\n        \u003Ctd>43.1%\u003C\u002Ftd>\n        \u003Ctd>16.0%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>Octo-Small\u003C\u002Ftd>\n        \u003Ctd>77.8%\u003C\u002Ftd>\n        \u003Ctd>47.2%\u003C\u002Ftd>\n        \u003Ctd>27.8%\u003C\u002Ftd>\n        \u003Ctd>9.7%\u003C\u002Ftd>\n        \u003Ctd>40.3%\u003C\u002Ftd>\n        \u003Ctd>4.2%\u003C\u002Ftd>\n        \u003Ctd>87.5%\u003C\u002Ftd>\n        \u003Ctd>56.9%\u003C\u002Ftd>\n        \u003Ctd>30.0%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>OpenVLA\u003C\u002Ftd>\n        \u003Ctd>4.1%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>33.3%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>12.5%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>4.1%\u003C\u002Ftd>\n        \u003Ctd>1.0%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>RoboVLM（零样本）\u003C\u002Ftd>\n        \u003Ctd>37.5%\u003C\u002Ftd>\n        \u003Ctd>20.8%\u003C\u002Ftd>\n        \u003Ctd>33.3%\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>8.3%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>0.0%\u003C\u002Ftd>\n        \u003Ctd>13.5%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>RoboVLM（微调）\u003C\u002Ftd>\n        \u003Ctd>54.2%\u003C\u002Ftd>\n        \u003Ctd>29.2%\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>45.8%\u003C\u002Ftd>\n        \u003Ctd>12.5%\u003C\u002Ftd>\n        \u003Ctd>58.3%\u003C\u002Ftd>\n        \u003Ctd>58.3%\u003C\u002Ftd>\n        \u003Ctd>31.3%\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>SpatialVLA（零样本）\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>25.0%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>20.8%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>41.7%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>20.8%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>58.3%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>79.2%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>70.8%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>34.4%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n      \u003Ctr>\n        \u003Ctd>SpatialVLA（微调）\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>20.8%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>16.7%\u003C\u002Ftd>\n        \u003Ctd>29.2%\u003C\u002Ftd>\n        \u003Ctd>25.0%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>62.5%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>29.2%\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>100.0%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>100.0%\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd>\u003Cb>42.7%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003C\u002Ftr>\n    \u003C\u002Ftbody>\n  \u003C\u002Ftable>\n\n> [!NOTE]\n> LIBERO 模拟基准测试结果。\n\n\u003Ctable border=\"1\" class=\"dataframe\">\n  \u003Cthead>\n    \u003Ctr style=\"text-align: center;\">\n      \u003Cth rowspan=\"2\">模型\u003C\u002Fth>\n      \u003Cth colspan=\"2\">LIBERO-Spatial\u003C\u002Fth>\n      \u003Cth colspan=\"2\">LIBERO-Object\u003C\u002Fth>\n      \u003Cth colspan=\"2\">LIBERO-Goal\u003C\u002Fth>\n      \u003Cth colspan=\"2\">LIBERO-Long\u003C\u002Fth>\n      \u003Cth colspan=\"2\">平均\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr style=\"text-align: center;\">\n      \u003Cth>SR（↑）\u003C\u002Fth>\n      \u003Cth>排名（↓）\u003C\u002Fth>\n      \u003Cth>SR（↑）\u003C\u002Fth>\n      \u003Cth>排名（↓）\u003C\u002Fth>\n      \u003Cth>SR（↑）\u003C\u002Fth>\n      \u003Cth>排名（↓）\u003C\u002Fth>\n      \u003Cth>SR（↑）\u003C\u002Fth>\n      \u003Cth>排名（↓）\u003C\u002Fth>\n      \u003Cth>SR（↑）\u003C\u002Fth>\n      \u003Cth>排名（↓）\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd>从头开始的扩散策略\u003C\u002Ftd>\n      \u003Ctd>78.3 ± 1.1%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>92.5 ± 0.7%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>68.3 ± 1.2%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n      \u003Ctd>50.5 ± 1.3%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n      \u003Ctd>72.4 ± 0.7%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>经过微调的 Octo\u003C\u002Ftd>\n      \u003Ctd>78.9 ± 1.0%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n      \u003Ctd>85.7 ± 0.9%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>84.6 ± 0.9%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>51.1 ± 1.3%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n      \u003Ctd>75.1 ± 0.6%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>经过微调的 OpenVLA\u003C\u002Ftd>\n      \u003Ctd>84.7 ± 0.9%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>88.4 ± 0.8%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n      \u003Ctd>79.2 ± 1.0%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>53.7 ± 1.3%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n      \u003Ctd>76.5 ± 0.6%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>经过微调的 TraceVLA\u003C\u002Ftd>\n      \u003Ctd>84.6 ± 0.2%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n      \u003Ctd>85.2 ± 0.4%\u003C\u002Ftd>\n      \u003Ctd>5\u003C\u002Ftd>\n      \u003Ctd>75.1 ± 0.3%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n      \u003Ctd>54.1 ± 1.0%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>74.8 ± 0.5%\u003C\u002Ftd>\n      \u003Ctd>4\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>经过微调的 SpatialVLA\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>88.2 ± 0.5%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>89.9 ± 0.7%\u003C\u002Ftd>\n      \u003Ctd>2\u003C\u002Ftd>\n      \u003Ctd>78.6 ± 0.6%\u003C\u002Ftd>\n      \u003Ctd>3\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>55.5 ± 1.0%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n      \u003Ctd>\u003Cb>78.1 ± 0.7%\u003C\u002Fb>\u003C\u002Ftd>\n      \u003Ctd>1\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n> [!NOTE]\n> 零样本机器人控制在真实世界 WidowX 机器人上的评估。\n\n\u003Cimg src=\".assets\u002FwidowX_zeroshot.png\" alt=\"perform\">\n\n> [!NOTE]\n> 空间理解能力评估。\n\n\u003Cimg src=\".assets\u002Fspatial_setup.png\" alt=\"perform\">\n\n> [!NOTE]\n> 在 Franka 机器人上适应新的机器人设置。\n\n\u003Cimg src=\".assets\u002Ffranka_sft.png\" alt=\"perform\">\n\n\n\n## 待办事项\n\n- [x] 发布 SpatialVLA 系列的预训练\u002F微调代码。\n- [x] 发布 SpatialVLA 的代码、模型和自定义数据。\n- [x] 发布 SpatialVLA 系列的 SimplerENV 评估代码。\n- [ ] 发布 SpatialVLA2\n\n## 🤗 常见问题解答\n如果您遇到任何问题，请随时在 GitHub 上提交问题或通过讨论区联系我们。我们非常感谢您的反馈和贡献！🚀\n\n## 许可证\n\n本项目采用 [MIT 许可证](LICENSE)发布。本项目的部分内容包含来自其他来源的代码和模型，这些内容受其各自许可证的约束。\n\n## 引用\n如果您在研究中发现本项目有用，请考虑引用：\n\n```BibTeX\n@article{qu2025spatialvla,\n  title={SpatialVLA: 探索视觉-语言-动作模型的空间表征},\n  author={Qu, Delin 和 Song, Haoming 和 Chen, Qizhi 和 Yao, Yuanqi 和 Ye, Xinyi 和 Ding, Yan 和 Wang, Zhigang 和 Gu, JiaYuan 和 Zhao, Bin 和 Wang, Dong 等},\n  journal={arXiv 预印本 arXiv:2501.15830},\n  year={2025}\n}\n```\n\n## 致谢\nSpatialVLA 的构建参考了以下项目的代码：[InternVL](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL)、[Google Paligemma2](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fpaligemma2-3b-pt-224)、[Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)、[OpenVLA](https:\u002F\u002Fgithub.com\u002Fopenvla\u002Fopenvla) 和 [ZoeDepth](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fshariqfarooq\u002FZoeDepth)。感谢他们的出色工作！","# SpatialVLA 快速上手指南\n\nSpatialVLA 是一个基于空间增强视觉 - 语言 - 动作（VLA）的开源模型，在 110 万条真实机器人数据上训练而成。该工具完全基于 HuggingFace Transformers 构建，代码简洁且推理高效。\n\n## 1. 环境准备\n\n### 系统要求\n- **Python**: >= 3.10\n- **GPU**: 推理需至少 8.5GB 显存（推荐 NVIDIA A100 或同等算力卡）\n- **操作系统**: Linux (Ubuntu 推荐)\n\n### 前置依赖\n- **Transformers**: 必须 >= 4.47.0 (因底层使用 PaLiGemma2)\n- **内存优化 (可选)**: 运行时可能占用大量 CPU 内存，建议安装 `tcmalloc` 进行优化。\n  - 有 sudo 权限：`sudo apt-get install google-perftools`\n  - 无 sudo 权限：需手动下载对应系统的 `libtcmalloc.so.4` 库。\n\n## 2. 安装步骤\n\n### 第一步：创建虚拟环境\n```bash\ngit clone git@github.com:SpatialVLA\u002FSpatialVLA.git --depth 1\ncd SpatialVLA\nconda create -n spatialvla python=3.10\nconda activate spatialvla\n```\n\n### 第二步：安装依赖包\n项目使用了定制的 `dlimp` 以支持复现性种子设置。请优先尝试通过 requirements 安装，若遇问题则手动安装定制版。\n\n```bash\n# 标准安装\npip install -r requirements.txt\n\n# 【备选】如果上述命令报错或需要特定版本，请手动安装定制 dlimp\n# pip install git+https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002Fdlimp_custom\n```\n\n> **提示**：国内用户若下载 HuggingFace 模型较慢，建议在代码中设置环境变量使用镜像：\n> `export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com`\n\n## 3. 基本使用\n\n以下是最简单的推理示例，直接加载预训练模型并预测机器人动作。无需额外配置即可运行。\n\n```python\nimport torch\nfrom PIL import Image\nfrom transformers import AutoModel, AutoProcessor\n\n# 指定模型路径 (自动从 HuggingFace 下载)\nmodel_name_or_path = \"IPEC-COMMUNITY\u002Fspatialvla-4b-224-pt\"\n\n# 加载处理器和模型\nprocessor = AutoProcessor.from_pretrained(model_name_or_path, trust_remote_code=True)\nmodel = AutoModel.from_pretrained(\n    model_name_or_path, \n    trust_remote_code=True, \n    torch_dtype=torch.bfloat16\n).eval().cuda()\n\n# 准备输入\nimage = Image.open(\"example.png\").convert(\"RGB\")\nprompt = \"What action should the robot take to pick the cup?\"\n\n# 处理输入并生成动作\ninputs = processor(images=[image], text=prompt, return_tensors=\"pt\")\ngeneration_outputs = model.predict_action(inputs)\n\n# 解码动作 (根据数据集归一化参数还原)\nactions = processor.decode_actions(generation_outputs, unnorm_key=\"bridge_orig\u002F1.0.0\")\nprint(actions)\n```\n\n### 进阶用途简述\n- **微调 (Fine-tune)**: 支持全量微调或 LoRA 微调，脚本位于 `scripts\u002Fspatialvla_4b_finetune\u002F` 目录下。\n- **自定义数据集**: 若需使用非 OXE\u002FRH20T 数据集，需将其转换为 [RLDS](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Frlds) 格式，并修改 `data\u002Foxe\u002F` 下的配置文件 (`mixtures.py`, `configs.py`, `transforms.py`)。","某智能仓储团队正致力于部署自主移动机器人，以执行复杂的“根据自然语言指令在杂乱货架间抓取并搬运特定货物”任务。\n\n### 没有 SpatialVLA 时\n- **空间感知能力弱**：传统视觉 - 语言模型难以精准理解物体间的三维相对位置，导致机械臂在密集货架中频繁发生碰撞或抓空。\n- **数据训练成本高**：缺乏大规模真实机器人交互数据支撑，团队需耗费数月采集和标注自有数据，且模型泛化性差，换个仓库布局就失效。\n- **推理延迟严重**：现有方案生成动作序列时需要大量 Token，导致决策速度慢，无法满足物流分拣对实时性的严苛要求。\n- **部署门槛极高**：代码库依赖复杂、环境配置繁琐，算法工程师将大量时间浪费在解决依赖冲突而非优化业务逻辑上。\n\n### 使用 SpatialVLA 后\n- **空间定位精准**：SpatialVLA 内置的空间增强表示让机器人能精确判断货物深度与遮挡关系，在杂乱环境中抓取成功率显著提升。\n- **开箱即用的泛化力**：直接加载基于 110 万条真实机器人片段预训练的模型，无需从头训练即可适应新场景，大幅缩短项目落地周期。\n- **高效实时决策**：凭借更少的 Token 生成每个动作，SpatialVLA 实现了更快的推理速度，确保机器人在高速流转的生产线上反应敏捷。\n- **极简集成体验**：仅依赖 HuggingFace Transformers 即可运行，简洁的代码结构让团队能在数小时内完成从模型加载到真机部署的全流程。\n\nSpatialVLA 通过融合大规模真实空间数据与高效的架构设计，彻底解决了具身智能机器人在复杂物理世界中“看不清、动不准、跑得慢”的核心难题。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FSpatialVLA_SpatialVLA_458b9d19.png","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FSpatialVLA_bc3e542d.png",null,"https:\u002F\u002Fgithub.com\u002FSpatialVLA",[76,80],{"name":77,"color":78,"percentage":79},"Python","#3572A5",96.5,{"name":81,"color":82,"percentage":83},"Shell","#89e051",3.5,681,47,"2026-04-16T05:51:00","Linux","必需 NVIDIA GPU。推理需 8.5GB 显存（支持 bfloat16）；预训练建议使用 64 张 A100 GPU；微调建议使用 4 或 8 张 A100 GPU。","未说明（建议充足以缓存大量数据，可选安装 tcmalloc 优化内存管理）",{"notes":91,"python":92,"dependencies":93},"1. 模型骨干为 PaLiGemma2，强制要求 transformers 版本 >= 4.47.0。\n2. 运行时会在 CPU 缓存大量数据，推荐安装 google-perftools (libtcmalloc) 以优化内存分配（非强制但建议）。\n3. 使用了自定义版本的 dlimp 库以支持随机种子复现，若自动安装失败需手动从指定仓库安装。\n4. 预训练需准备 Open X-Embodiment 和 RH20T 数据集并转换为 RLDS 格式。\n5. 代码主要基于 HuggingFace Transformers，部署相对简单。","3.10+",[94,95,96,97],"torch","transformers>=4.47.0","PIL","dlimp (custom version)",[15],[100,101,102,103,104,105],"huggingface","vla","generalist-robot-policies","visual-language-action-model","rss","rss2025","2026-03-27T02:49:30.150509","2026-04-20T16:46:04.026359",[109,114,119,124,129,133],{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},45186,"运行预训练脚本时遇到 'RuntimeError: Error building extension fused_adam' 或 'ninja: error: unknown target' 错误怎么办？","这通常是由于 DeepSpeed 安装不完整或版本不匹配导致的。请尝试重新安装指定版本的 DeepSpeed 并启用 fused_adam 构建选项。\n\n方法一（使用 pip）：\npip uninstall deepspeed\nDS_BUILD_FUSED_ADAM=1 pip install deepspeed==0.15.3\nds_report\n\n方法二（从源码安装）：\npip uninstall deepspeed\ngit clone --branch v0.15.3 https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FDeepSpeed.git\ncd DeepSpeed\nDS_BUILD_FUSED_ADAM=1 pip3 install .\nds_report\n\n安装完成后运行 ds_report 检查环境配置是否正确。","https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fissues\u002F7",{"id":115,"question_zh":116,"answer_zh":117,"source_url":118},45187,"下载的 OXE 数据集统计信息（如轨迹数量）与论文中报告的不一致，原因是什么？","这是因为在计算数据集统计信息时，代码使用了 'all' 分割（包含 train 和 test），而部分数据集没有验证集（val split），导致统计口径差异。\n\n解决方法：\n1. 删除数据集目录下的旧统计文件，例如：rm roboturk\u002F0.1.0\u002Fdataset_statistics_*.json\n2. 确保 data\u002Frlds.py 代码中保持 full_dataset 的 split 设置为 'all'，不要修改为 'train'。\n3. 重新启动训练流程以生成正确的统计信息。\n\n注意：模型训练时仅使用 'train' 分割数据，但统计信息是基于 'all' 分割计算的。","https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fissues\u002F55",{"id":120,"question_zh":121,"answer_zh":122,"source_url":123},45188,"SpatialVLA 中的 'unnorm_key' 超参数有什么作用？为什么不同数据集需要不同的 unnorm_key？","'unnorm_key' 用于将模型输出的归一化动作值映射回真实物理空间。其计算公式为：0.5 * (normalized_actions + 1) * (action_high - action_low) + action_low。\n\n不同数据集的动作空间范围（action_high\u002Faction_low）不同，因此需要不同的统计参数来进行反归一化。模型本身学习的是归一化空间中的策略，而 unnorm_key 提供了特定数据集的尺度信息。对于分布外（OOD）的新样本，需要使用与该样本动作空间统计特性相匹配的 unnorm_key，或者在预处理阶段将其对齐到已知数据集的统计分布。","https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fissues\u002F24",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},45189,"如何正确计算 SpatialVLA 的交叉熵损失？为什么我的损失值与论文图 12 不符？","计算损失时需确保标签（labels）和 logits 的处理方式与官方一致：\n1. 使用 processor 生成 inputs 时，labels 会自动包含 -100 作为掩码。\n2. 对 logits 和 labels 进行移位操作：shift_logits = logits[..., :-1, :], shift_labels = labels[..., 1:]。\n3. 创建有效掩码：valid_mask = shift_labels != -100。\n4. 展平后筛选有效数据：valid_logits = flat_logits[valid_mask], valid_labels = flat_labels[valid_mask]。\n5. 计算交叉熵：loss = torch.nn.functional.cross_entropy(valid_logits, valid_labels)。\n\n如果结果仍有差异，请检查 RT1 等数据集的动作预处理逻辑（如 gripper 动作的相对\u002F绝对转换）是否与官方代码完全对齐。","https:\u002F\u002Fgithub.com\u002FSpatialVLA\u002FSpatialVLA\u002Fissues\u002F49",{"id":130,"question_zh":131,"answer_zh":132,"source_url":113},45190,"ds_report 输出中出现 'Unable to register cuDNN\u002FcuFFT\u002FcuBLAS factory' 警告是否正常？","这些警告通常是由于 TensorFlow 或 XLA 库与 PyTorch 的 CUDA 后端冲突引起的，一般不影响 DeepSpeed 和 SpatialVLA 的正常训练。只要 ds_report 能正常显示加速器信息（如 'Setting ds_accelerator to cuda'）且训练脚本可以启动，可以忽略这些警告。如果确实遇到运行时错误，尝试在独立环境中仅安装 PyTorch 和 DeepSpeed，避免安装 tensorflow 或 jax 相关包。",{"id":134,"question_zh":135,"answer_zh":136,"source_url":118},45191,"在准备 OXE 数据集时，应该使用 'train' 还是 'all' 分割来生成统计文件？","生成数据集统计文件（dataset_statistics_xxxx.json）时应使用 'all' 分割，以确保包含所有可用数据（包括 test  split，如果存在）。但在实际训练过程中，DataLoader 只会加载 'train' 分割的数据。如果在代码中错误地将统计计算改为 'train' 分割，会导致部分没有 val\u002Ftest 分割的数据集统计数量偏少，从而与论文数据不匹配。请保持 rlds.py 中默认的逻辑不变。",[]]