[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-google-deepmind--open_x_embodiment":3,"tool-google-deepmind--open_x_embodiment":65},[4,18,32,40,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,2,"2026-04-06T11:09:19",[15,16,27,28,13,29,30,14,31],"视频","插件","其他","语言模型","音频",{"id":33,"name":34,"github_repo":35,"description_zh":36,"stars":37,"difficulty_score":10,"last_commit_at":38,"category_tags":39,"status":17},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[13,15,14,30,29],{"id":41,"name":42,"github_repo":43,"description_zh":44,"stars":45,"difficulty_score":10,"last_commit_at":46,"category_tags":47,"status":17},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",75097,"2026-04-07T22:51:14",[30,15,14,29],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":17},3215,"awesome-machine-learning","josephmisiti\u002Fawesome-machine-learning","awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。\n\n它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。\n\n其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。",72149,1,"2026-04-03T21:50:24",[14,29],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":54,"last_commit_at":63,"category_tags":64,"status":17},2234,"scikit-learn","scikit-learn\u002Fscikit-learn","scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。\n\n对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。\n\n其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最",65697,"2026-04-07T23:34:58",[14,29,16],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":69,"owner_location":69,"owner_email":69,"owner_twitter":69,"owner_website":80,"owner_url":81,"languages":82,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":95,"env_os":96,"env_gpu":97,"env_ram":96,"env_deps":98,"category_tags":106,"github_topics":69,"view_count":24,"oss_zip_url":69,"oss_zip_packed_at":69,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":140},5376,"google-deepmind\u002Fopen_x_embodiment","open_x_embodiment",null,"Open X-Embodiment 是一个旨在统一开源机器人数据格式的大型项目，由 Google DeepMind 牵头推出。它解决了当前机器人学习领域数据源分散、格式各异导致难以复用和训练的痛点，将来自不同实验室和机器人的海量操作数据整合为标准的 RLDS 格式，让下游模型训练变得像加载普通数据集一样简单。\n\n该项目主要面向机器人学研究人员、AI 开发者以及希望探索具身智能的团队。其核心亮点不仅在于提供了包含数十种机器人任务的大规模数据集，还发布了基于此数据训练的 RT-X 系列模型（如 RT-1-X）。这些模型能够仅通过单目 RGB 摄像头图像和自然语言指令，就能理解环境状态并输出精确的机械臂控制动作（包括位置、姿态及夹爪开合）。此外，项目提供了完整的 Colab 示例和预训练权重，支持 TensorFlow 和 JAX 框架，帮助用户快速复现结果或进行微调研究。如果你正在从事通用机器人策略的学习与开发，Open X-Embodiment 提供了目前最丰富的数据基础和强有力的基线模型，是加速研发进程的理想起点。","# Open X-Embodiment\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-deepmind_open_x_embodiment_readme_008f37a56955.png)\n\nOpen X-Embodiment aims to provide all open-sourced robotic data in the same unified format, for easy downstream consumption.\n\nThe first publication using the Open X-Embodiment dataset is [`Open X-Embodiment: Robotic Learning Datasets and RT-X Models`](https:\u002F\u002Frobotics-transformer-x.github.io\u002F)\n\n## Dataset Access\n\n### Dataset structure\n\nEach data set is represented as a sequence of episodes, where each episode is represented using the [RLDS episode format](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Frlds#dataset-format).\n\n### Dataset colab\n\nWe provide a [self-contained colab](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fcolabs\u002FOpen_X_Embodiment_Datasets.ipynb) that demonstrates how to visualize a few episodes from each data set, and how to create batches of data ready for training and inference.\n\n### List of datasets\n\nWe provide the list of dataset that is included as part of the open-sourcing effort and their metadata in [the dataset spreadsheet](https:\u002F\u002Fdocs.google.com\u002Fspreadsheets\u002Fd\u002F1rPBD77tk60AEIGZrGSODwyyzs5FgCU9Uz3h-3_t2A9g\u002Fedit#gid=0).\n\n## RT-1-X Model checkpoint\n\n### Explanation of observation space\n\nThe model takes as input a RGB image from the robot workspace camera and a task string describing the task that the robot is supposed to perform.\n\nWhat task the model should perform is communicated to the model purely through the task string. The image communicates to the model the current state of the world, i.e. assuming the model runs at three hertz, every 333 milliseconds, we feed the latest RGB image from a robot workspace camera into the model to obtain the next action to take.\n\nPlease note that the model currently does not take in additional camera images such as wrist camera images, in hand camera images, or depth.\n\n### Explanation of action space\n\nThe action dimensions we consider include seven variables for the gripper movement (x, y, z, roll, pitch, yaw, opening of the gripper). Each variable represents the absolute value, the delta change to the dimension value or the velocity of the dimension.\n\n[The inference colab](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fcolabs\u002FMinimal_example_for_running_inference_using_RT_1_X_TF_using_tensorflow_datasets.ipynb) of trained RT-1-X Tensorflow checkpoint demonstrates how to load the model checkpoint, run inference on offline episodes and overlay the predicted and ground truth action.\n\n### RT-1-X jax checkpoint\n\nA jax checkpoint that can be used by the flax checkpoint loader in the [rt1_inference_example.py](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fmodels\u002Frt1_inference_example.py) can be downloaded by\n\n```gsutil -m cp -r gs:\u002F\u002Fgdm-robotics-open-x-embodiment\u002Fopen_x_embodiment_and_rt_x_oss\u002Frt_1_x_jax .```\n\n## FAQ and Common Issues\n\n### Dataset not found\n\nIf you run into this issue when trying to run `tfds.load({dataset_name})`\n\n```tensorflow_datasets.core.registered.DatasetNotFoundError: Dataset {dataset_name} not found.```\n\nTry downloading the dataset manually by running\n\n```gsutil -m cp -r gs:\u002F\u002Fgdm-robotics-open-x-embodiment\u002F{dataset_name} ~\u002Ftensorflow_datasets\u002F```\n\nOnce you download the dataset like this, you can use the dataset with the regular `tfds.load({dataset_name})` command!\n\n## Citation\n\nIf you're using the Open X-Embodiment dataset and RT-X in your research, [please cite](https:\u002F\u002Frobotics-transformer-x.github.io\u002Fcitation.txt). If you're specifically using datasets that have been contributed to the joint effort, please cite those as well. The [dataset spreadsheet](https:\u002F\u002Fdocs.google.com\u002Fspreadsheets\u002Fd\u002F1rPBD77tk60AEIGZrGSODwyyzs5FgCU9Uz3h-3_t2A9g\u002Fedit#gid=0) contains the citation for each dataset for your convenience.\n\n## License and Disclaimer\n\nThis is not an official Google product.\n\nCopyright 2023 DeepMind Technologies Limited.\n\n- All software is licensed under the Apache License, Version 2.0 (Apache 2.0); you may not use this file except in compliance with the Apache 2.0 license. You may obtain a copy of the Apache 2.0 license at: https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\n\n- All other materials are licensed under the Creative Commons Attribution 4.0 International License (CC-BY). You may obtain a copy of the CC-BY license at: https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby\u002F4.0\u002Flegalcode\n\n- Unless required by applicable law or agreed to in writing, all software and materials distributed here under the Apache 2.0 or CC-BY licenses are distributed on an \"AS IS\" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the licenses for the specific language governing permissions and limitations under those licenses.\n","# 开放式X-具身化\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-deepmind_open_x_embodiment_readme_008f37a56955.png)\n\n开放式X-具身化旨在以统一的格式提供所有开源的机器人数据，以便于下游应用的使用。\n\n首次使用开放式X-具身化数据集的论文是[`Open X-Embodiment: 机器人学习数据集和RT-X模型`](https:\u002F\u002Frobotics-transformer-x.github.io\u002F)。\n\n## 数据集访问\n\n### 数据集结构\n\n每个数据集都表示为一系列的episode，而每个episode则采用[RLDS episode格式](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Frlds#dataset-format)来表示。\n\n### 数据集Colab\n\n我们提供了一个[自包含的Colab](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fcolabs\u002FOpen_X_Embodiment_Datasets.ipynb)，演示如何可视化每个数据集中的几个episode，以及如何创建可用于训练和推理的数据批次。\n\n### 数据集列表\n\n我们提供了作为开源工作一部分的数据集列表及其元数据，详见[数据集电子表格](https:\u002F\u002Fdocs.google.com\u002Fspreadsheets\u002Fd\u002F1rPBD77tk60AEIGZrGSODwyyzs5FgCU9Uz3h-3_t2A9g\u002Fedit#gid=0)。\n\n## RT-1-X模型检查点\n\n### 观测空间说明\n\n该模型的输入包括来自机器人工作区相机的RGB图像，以及描述机器人应执行任务的任务字符串。\n\n模型需要执行的具体任务完全通过任务字符串传达。图像则向模型传递当前的世界状态——假设模型以每秒三帧的速度运行，即每333毫秒，我们会将最新的一帧机器人工作区相机的RGB图像输入模型，以获取下一步的动作指令。\n\n请注意，目前该模型不接受其他类型的相机图像，例如腕部相机、手部相机或深度信息。\n\n### 动作空间说明\n\n我们考虑的动作维度包括夹爪的七个变量：x、y、z坐标，以及滚转、俯仰、偏航角和夹爪的开合度。每个变量可以表示绝对值、相对于当前值的变化量，或者该维度上的速度。\n\n经过训练的RT-1-X TensorFlow检查点的[推理Colab](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fcolabs\u002FMinimal_example_for_running_inference_using_RT_1_X_TF_using_tensorflow_datasets.ipynb)演示了如何加载模型检查点，在离线episode上进行推理，并将预测动作与真实动作叠加显示。\n\n### RT-1-X JAX检查点\n\n一个可用于[rt1_inference_example.py](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fmodels\u002Frt1_inference_example.py)中Flax检查点加载器的JAX检查点，可以通过以下命令下载：\n\n```gsutil -m cp -r gs:\u002F\u002Fgdm-robotics-open-x-embodiment\u002Fopen_x_embodiment_and_rt_x_oss\u002Frt_1_x_jax .```\n\n## 常见问题解答及常见问题\n\n### 数据集未找到\n\n如果您在尝试运行`tfds.load({dataset_name})`时遇到此问题：\n\n```tensorflow_datasets.core.registered.DatasetNotFoundError: 数据集 {dataset_name} 未找到。```\n\n请尝试手动下载数据集，运行以下命令：\n\n```gsutil -m cp -r gs:\u002F\u002Fgdm-robotics-open-x-embodiment\u002F{dataset_name} ~\u002Ftensorflow_datasets\u002F```\n\n成功下载后，您就可以使用常规的`tfds.load({dataset_name})`命令来加载该数据集了！\n\n## 引用\n\n如果您在研究中使用了开放式X-具身化数据集和RT-X，请[引用](https:\u002F\u002Frobotics-transformer-x.github.io\u002Fcitation.txt)。如果您特别使用了为联合项目贡献的数据集，也请一并引用这些数据集。[数据集电子表格](https:\u002F\u002Fdocs.google.com\u002Fspreadsheets\u002Fd\u002F1rPBD77tk60AEIGZrGSODwyyzs5FgCU9Uz3h-3_t2A9g\u002Fedit#gid=0)中包含了每个数据集的引用信息，供您参考。\n\n## 许可与免责声明\n\n本项目并非Google官方产品。\n\n版权所有 © 2023 DeepMind Technologies Limited。\n\n- 所有软件均采用Apache许可证2.0版（Apache 2.0）授权；除非符合Apache 2.0许可条款，否则不得使用本文件。您可以在以下网址获取Apache 2.0许可文本：https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\n\n- 其他所有材料均采用知识共享署名4.0国际许可（CC-BY）授权。您可以在以下网址获取CC-BY许可文本：https:\u002F\u002Fcreativecommons.org\u002Flicenses\u002Fby\u002F4.0\u002Flegalcode\n\n- 除非适用法律另有规定或双方另有书面约定，否则在此依据Apache 2.0或CC-BY许可发布的所有软件和材料均按“现状”提供，不附带任何形式的明示或默示担保或条件。具体的权利和限制请参阅相关许可协议。","# Open X-Embodiment 快速上手指南\n\nOpen X-Embodiment 旨在将所有开源机器人数据统一格式，以便下游任务轻松使用。本项目提供了标准化的数据集访问方式以及预训练的 RT-X 模型检查点。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+) 或 macOS。\n*   **Python**: 3.8 或更高版本。\n*   **核心依赖**:\n    *   `tensorflow` (用于加载数据集和 TF 模型)\n    *   `tensorflow_datasets` (TFDS)\n    *   `jax` \u002F `flax` (用于加载 JAX 版本的 RT-1-X 模型)\n    *   `gsutil` (Google Cloud Storage 工具，用于下载数据和模型)\n*   **硬件建议**: 运行推理或训练建议使用带有 GPU 的环境。\n\n安装基础依赖示例：\n```bash\npip install tensorflow tensorflow_datasets jax flax\n```\n\n> **注意**: 请确保已安装并配置好 `gsutil` 以访问 Google Cloud Storage 资源。\n\n## 安装步骤\n\n本项目主要通过 Python 包和云端资源交互，无需复杂的编译安装。主要步骤为获取数据集和模型检查点。\n\n### 1. 获取数据集\n数据集托管在 Google Cloud Storage 上。您可以选择通过 TFDS API 自动加载，或手动下载到本地。\n\n**方法 A：自动加载（推荐）**\n配置好 TFDS 后，代码中直接调用 `tfds.load()` 即可（需联网）。\n\n**方法 B：手动下载（适用于网络不稳定或需要离线使用）**\n使用 `gsutil` 将特定数据集下载到本地 `tensorflow_datasets` 目录：\n\n```bash\ngsutil -m cp -r gs:\u002F\u002Fgdm-robotics-open-x-embodiment\u002F{dataset_name} ~\u002Ftensorflow_datasets\u002F\n```\n*请将 `{dataset_name}` 替换为您需要的具体数据集名称。*\n\n### 2. 获取 RT-1-X 模型检查点 (JAX 版本)\n下载可用于 Flax 加载器的 JAX 格式模型检查点：\n\n```bash\ngsutil -m cp -r gs:\u002F\u002Fgdm-robotics-open-x-embodiment\u002Fopen_x_embodiment_and_rt_x_oss\u002Frt_1_x_jax .\n```\n\n## 基本使用\n\n### 1. 浏览与加载数据\n官方提供了一个完整的 Colab 示例，展示如何可视化数据片段并构建训练批次。您可以直接在浏览器中运行或参考其代码逻辑：\n\n*   **数据可视化与批处理示例**: [Open_X_Embodiment_Datasets.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fcolabs\u002FOpen_X_Embodiment_Datasets.ipynb)\n\n数据遵循 [RLDS episode format](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Frlds#dataset-format)，每个数据集由一系列 episodes 组成。\n\n### 2. 运行模型推理 (RT-1-X)\nRT-1-X 模型接收两个输入：\n1.  **RGB 图像**: 来自机器人工作空间摄像头的当前状态图像。\n2.  **任务字符串 (Task String)**: 描述机器人需要执行的任务文本。\n\n模型输出为机械臂的 7 维动作（x, y, z, roll, pitch, yaw, gripper opening），可以是绝对值、增量或速度。\n\n**推理示例**:\n参考官方提供的最小化推理脚本，演示如何加载检查点、对离线数据进行推理并对比预测动作与真实动作：\n\n*   **TensorFlow 检查点推理示例**: [Minimal_example_for_running_inference_using_RT_1_X_TF.ipynb](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fcolabs\u002FMinimal_example_for_running_inference_using_RT_1_X_TF_using_tensorflow_datasets.ipynb)\n*   **JAX\u002FFlax 推理代码参考**: [rt1_inference_example.py](https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fblob\u002Fmain\u002Fmodels\u002Frt1_inference_example.py)\n\n**简单代码逻辑示意**:\n```python\n# 伪代码示例，具体实现请参考上述 Colab 或 Python 脚本\nimport tensorflow_datasets as tfds\n\n# 加载数据集\ndataset = tfds.load('{dataset_name}')\n\n# 加载模型 (以 JAX 为例)\n# from models.rt1_inference_example import load_checkpoint, run_inference\n# model_params = load_checkpoint('.\u002Frt_1_x_jax')\n\n# 准备输入：图像 + 任务文本\n# image = ... # RGB image tensor\n# task = \"pick up the block\"\n\n# 执行推理\n# action = run_inference(model_params, image, task)\n```\n\n更多详细的数据集列表及元数据，请参阅 [官方数据集表格](https:\u002F\u002Fdocs.google.com\u002Fspreadsheets\u002Fd\u002F1rPBD77tk60AEIGZrGSODwyyzs5FgCU9Uz3h-3_t2A9g\u002Fedit#gid=0)。","某机器人初创团队正试图训练一个能同时适应家庭服务与工厂流水线任务的通用机械臂模型，但面临多源数据难以融合的困境。\n\n### 没有 open_x_embodiment 时\n- **数据格式混乱**：团队需手动编写十余种解析脚本，将不同实验室采集的 RLDS、HDF5 等异构数据转换为统一格式，耗时数周且极易出错。\n- **泛化能力受限**：由于无法低成本整合大规模跨场景数据，模型仅在单一特定环境（如仅厨房或仅装配台）有效，换个场景就“罢工”。\n- **复现门槛极高**：想要验证业界领先的 RT-X 算法，必须从零清洗数据并重新预训练，缺乏直接可用的标准化检查点，研发周期被大幅拉长。\n- **资源浪费严重**：工程师将 80% 的时间耗费在数据清洗和对齐上，仅有少量精力用于核心算法优化。\n\n### 使用 open_x_embodiment 后\n- **即插即用**：所有开源机器人数据已被预处理为统一的 RLDS 格式，团队可直接通过 `tfds.load` 一键加载来自全球 20+ 个数据集的百万级轨迹。\n- **跨域泛化突破**：利用混合了家庭与工业场景的大规模数据训练，模型成功学会了将“抓取杯子”的技能迁移到“抓取零件”，显著提升了适应性。\n- **快速启动研发**：直接下载官方提供的 RT-1-X JAX\u002FTF 检查点，结合 Colab 示例代码，半天内即可完成推理测试并在自有硬件上微调。\n- **聚焦核心创新**：数据准备时间从数周缩短至数小时，团队得以全力投入策略优化与实时控制精度的提升。\n\nopen_x_embodiment 通过打破数据孤岛，让机器人学习从“手工作坊”迈向了“工业化量产”时代。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoogle-deepmind_open_x_embodiment_008f37a5.png","google-deepmind","Google DeepMind","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgoogle-deepmind_06b1dd17.png","","https:\u002F\u002Fwww.deepmind.com\u002F","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind",[83,87],{"name":84,"color":85,"percentage":86},"Jupyter Notebook","#DA5B0B",99.8,{"name":88,"color":89,"percentage":90},"Python","#3572A5",0.2,1747,112,"2026-04-07T07:26:07","Apache-2.0",4,"未说明","未说明 (项目基于 TensorFlow\u002FFlax\u002FJAX，通常推理和训练需要 GPU 支持，但 README 未指定具体型号或显存要求)",{"notes":99,"python":96,"dependencies":100},"1. 数据格式：所有数据集统一为 RLDS episode 格式。\n2. 模型输入：仅支持单路 RGB 摄像头图像和任务文本字符串，不支持深度图或多视角（如手腕相机）。\n3. 动作空间：包含夹爪运动的 7 个变量（x, y, z, roll, pitch, yaw, 开合度）。\n4. 数据获取：若自动加载失败，需使用 gsutil 手动从 Google Cloud Storage 下载数据集到本地 tensorflow_datasets 目录。\n5. 模型检查点：提供 TensorFlow 和 JAX 两种格式的检查点，分别对应不同的推理示例代码。",[101,102,103,104,105],"tensorflow","tensorflow_datasets (tfds)","jax","flax","gsutil",[16,29],"2026-03-27T02:49:30.150509","2026-04-08T13:00:24.882201",[110,115,120,125,130,135],{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},24388,"使用 JAX checkpoint 进行推理时，结果与 TensorFlow 版本不一致或效果很差，可能是什么原因？","最常见的原因是图像预处理步骤中的归一化操作被重复执行。例如，用户在代码中将图像除以 255 进行归一化，但管道后续步骤中已经包含了此操作，导致图像数值范围错误。请检查您的 `prepare_image` 函数，确保没有重复归一化。此外，建议可视化网络的中间输入结果以快速调试，并确认在初始化策略时传入了正确的 `world_vector` 和 `rotation` 范围。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fissues\u002F57",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},24389,"模型输出的动作字典（如 world_vector, rotation_delta, terminate_episode）具体代表什么物理含义？","`world_vector` 通常代表末端执行器在世界坐标系下的平移量（位置增量），`rotation_delta` 代表绕各轴的旋转增量。`terminate_episode` 是一个分类标签，用于指示当前步骤是否应该结束当前演示片段（episode）。由于不同数据集的动作空间定义可能存在差异，具体的物理量（如是速度还是位置）和单位需参考对应数据集的文档（如 Viola 数据集文档），或者查看项目中提交的动作转换代码（action transformation code）来理解具体的映射关系。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fissues\u002F17",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},24390,"为什么不同的数据集（如 bridge, jaco_play, berkeley_cable_routing）有不同的动作处理方法（rescale, normalize 或无处理）？","这是因为不同数据集中动作数据的量级（magnitude）差异很大。处理的主要目的是防止在连续空间中过多的相邻动作在使用固定词表大小进行分词时被折叠成同一个 token。例如，某些数据集使用 `_rescale_action` 将值映射到特定区间（如 [-2, 2] 或 [-1, 1]），而像 `jaco_play` 这样的数据集则使用均值和标准差进行标准化（_normalize）。不能统一使用同一种方法，必须根据每个数据集原始数据的分布特性来选择适当的缩放或标准化策略。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fissues\u002F26",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},24391,"Open X-Embodiment 中的 Bridge 数据集与官方发布的 Bridge 数据集在摄像头数据上有什么区别？","Open X-Embodiment (OXE) 中的 Bridge 数据集每个演示仅包含单个摄像头流，因为 RT-X 模型仅使用单摄像头输入进行训练。而官方网站发布的完整 Bridge 数据集在某些轨迹上最多包含 3 个额外的摄像头流。如果您需要多视角数据，目前 OXE 版本尚未完全包含这些额外流，未来可能会更新以匹配官方发布版本。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fissues\u002F25",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},24392,"在哪里可以找到将各数据集动作转换为模型动作的代码（除了 Bridge 数据集外）？","大多数数据集（除了 QT-OPT 和 Language Table）的动作转换代码已包含在项目的特定提交中。您可以查看以下链接获取代码：https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fcommit\u002Fb745d7f84129c467daeca887339d2aaeb23985d3。对于未包含的数据集（如 D3Field），建议查阅相关论文或直接联系论文的第一作者以获取动作空间的详细解释。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fissues\u002F14",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},24393,"TACO 数据集的动作值范围到底是 [-0.05, 0.05] 还是 [-1, 1]？为什么代码中定义了 rescale 函数却似乎未使用？","TACO 论文中提到动作值在 [-1, 1] 之间，但在 Open X-Embodiment 的处理逻辑中，为了与其他数据集对齐或适应分词需求，可能会假设不同的范围（如 [-0.05, 0.05]）并进行重缩放。如果您打算将动作量化为 token（例如缩放到 [0, 255]），必须明确原始数据的实际分布。建议直接遍历数据集统计实际的最大最小值，或参考项目中针对 `taco_play` 定义的具体 `rescale_action` 实现逻辑，不要盲目依赖论文中的理论范围，因为实际预处理可能已做了调整。","https:\u002F\u002Fgithub.com\u002Fgoogle-deepmind\u002Fopen_x_embodiment\u002Fissues\u002F28",[]]