[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-mees--calvin":3,"tool-mees--calvin":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":80,"owner_website":83,"owner_url":84,"languages":85,"stars":98,"forks":99,"last_commit_at":100,"license":101,"difficulty_score":10,"env_os":102,"env_gpu":103,"env_ram":104,"env_deps":105,"category_tags":119,"github_topics":120,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":131,"updated_at":132,"faqs":133,"releases":162},491,"mees\u002Fcalvin","calvin","CALVIN - A benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks","CALVIN 是一个开源的机器人操作任务学习基准工具，专注于通过自然语言指令指导机器人完成长时程复杂操作。它提供模拟环境和数据集，帮助研究人员训练机器人根据人类语言描述（如“把红色积木放进盒子”）自主规划多步骤动作序列，解决传统编程方式难以应对的动态复杂任务。\n\n这个工具主要解决了现有机器人系统对精确编程的依赖问题。相比传统方法需要逐行编写操作代码，CALVIN 允许开发者通过语言指令定义任务目标，使机器人具备理解抽象指令并自主决策的能力。其数据集包含超过 40 小时的机械臂操作数据，涵盖物体抓取、堆叠、组装等典型场景，支持 RGB-D 图像、语言描述等多模态输入。\n\nCALVIN 特别适合机器人算法研究者和 AI 开发者使用。研究人员可以基于其基准测试新算法的泛化能力，开发者则能快速验证语言驱动的机器人方案。技术亮点包括：支持长达 50 步的动作序列规划、兼容多种传感器配置（如双目视觉+力反馈）、采用 PyTorch Lightning 框架实现分布式训练加速。项目曾获 2022 年 IEEE 机器人领域最佳论文奖，配套提供调试数据集和完整训练流程示例，用户可快速搭建实验环境并复现基","CALVIN 是一个开源的机器人操作任务学习基准工具，专注于通过自然语言指令指导机器人完成长时程复杂操作。它提供模拟环境和数据集，帮助研究人员训练机器人根据人类语言描述（如“把红色积木放进盒子”）自主规划多步骤动作序列，解决传统编程方式难以应对的动态复杂任务。\n\n这个工具主要解决了现有机器人系统对精确编程的依赖问题。相比传统方法需要逐行编写操作代码，CALVIN 允许开发者通过语言指令定义任务目标，使机器人具备理解抽象指令并自主决策的能力。其数据集包含超过 40 小时的机械臂操作数据，涵盖物体抓取、堆叠、组装等典型场景，支持 RGB-D 图像、语言描述等多模态输入。\n\nCALVIN 特别适合机器人算法研究者和 AI 开发者使用。研究人员可以基于其基准测试新算法的泛化能力，开发者则能快速验证语言驱动的机器人方案。技术亮点包括：支持长达 50 步的动作序列规划、兼容多种传感器配置（如双目视觉+力反馈）、采用 PyTorch Lightning 框架实现分布式训练加速。项目曾获 2022 年 IEEE 机器人领域最佳论文奖，配套提供调试数据集和完整训练流程示例，用户可快速搭建实验环境并复现基线模型。","# CALVIN\n[![Code style: black](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcode%20style-black-000000.svg)](https:\u002F\u002Fgithub.com\u002Fpsf\u002Fblack)\n[![Language grade: Python](https:\u002F\u002Fimg.shields.io\u002Flgtm\u002Fgrade\u002Fpython\u002Fg\u002Fmees\u002Fcalvin.svg?logo=lgtm&logoWidth=18)](https:\u002F\u002Flgtm.com\u002Fprojects\u002Fg\u002Fmees\u002Fcalvin\u002Fcontext:python)\n[![Total alerts](https:\u002F\u002Fimg.shields.io\u002Flgtm\u002Falerts\u002Fg\u002Fmees\u002Fcalvin.svg?logo=lgtm&logoWidth=18)](https:\u002F\u002Flgtm.com\u002Fprojects\u002Fg\u002Fmees\u002Fcalvin\u002Falerts\u002F)\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n\n[\u003Cb>CALVIN - A benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks\u003C\u002Fb>](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2112.03227.pdf)\n\n[Oier Mees](https:\u002F\u002Fwww.oiermees.com\u002F), [Lukas Hermann](https:\u002F\u002Flukashermann.github.io\u002F), [Erick Rosete](https:\u002F\u002Fwww.erickrosete.com\u002F), [Wolfram Burgard](http:\u002F\u002Fwww2.informatik.uni-freiburg.de\u002F~burgard)\n\n#### CALVIN won the 2022 IEEE Robotics and Automation Letters (RA-L) Best Paper Award!\n\n\n We present **CALVIN** (**C**omposing **A**ctions from **L**anguage and **Vi**sio**n**), an open-source simulated benchmark to learn long-horizon language-conditioned tasks.\nOur aim is to make it possible to develop agents that can solve many robotic manipulation tasks over a long horizon, from onboard sensors, and specified only via human language. CALVIN tasks are more complex in terms of sequence length, action space, and language than existing vision-and-language task datasets and supports flexible specification of sensor\nsuites.\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmees_calvin_readme_23db4096a0a7.png)\n\n# :computer:  Quick Start\nTo begin, clone this repository locally\n```bash\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin.git\n$ export CALVIN_ROOT=$(pwd)\u002Fcalvin\n\n```\nInstall requirements:\n```bash\n$ cd $CALVIN_ROOT\n$ conda create -n calvin_venv python=3.8  # or use virtualenv\n$ conda activate calvin_venv\n$ sh install.sh\n```\nIf you encounter problems installing pyhash, you might have to downgrade setuptools to a version below 58.\n\nDownload dataset (choose which split you want to download with the argument `D`, `ABC` or `ABCD`): \\\nIf you want to get started without downloading the whole dataset, use the argument `debug` to download a small debug dataset (1.3 GB).\n```bash\n$ cd $CALVIN_ROOT\u002Fdataset\n$ sh download_data.sh D | ABC | ABCD | debug\n```\n##\t:weight_lifting_man: Train Baseline Agent\nTrain baseline models:\n```bash\n$ cd $CALVIN_ROOT\u002Fcalvin_models\u002Fcalvin_agent\n$ python training.py datamodule.root_data_dir=\u002Fpath\u002Fto\u002Fdataset\u002F datamodule\u002Fdatasets=vision_lang_shm\n```\nThe `vision_lang_shm` option loads the CALVIN dataset into shared memory at the beginning of the training,\nspeeding up the data loading during training.\nThe preparation of the shared memory cache will take some time\n(approx. 20 min at our SLURM cluster). \\\nIf you want to use the original data loader (e.g. for debugging) just override the command with `datamodule\u002Fdatasets=vision_lang`. \\\nFor an additional speed up, you can disable the evaluation callbacks during training by adding `~callbacks\u002Frollout` and `~callbacks\u002Frollout_lh`\n\nYou want to scale your training to a multi-gpu setup? Just specify the [number of GPUs](https:\u002F\u002Fpytorch-lightning.readthedocs.io\u002Fen\u002Flatest\u002Fadvanced\u002Fmulti_gpu.html#select-gpu-devices) and DDP will automatically be used\n for training thanks to [Pytorch Lightning](https:\u002F\u002Fwww.pytorchlightning.ai\u002F).\nTo train on all available GPUs:\n```bash\n$ python training.py trainer.gpus=-1\n```\nIf you have access to a Slurm cluster, follow this [guide](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fslurm_scripts\u002FREADME.md).\n\nYou can use [Hydra's](https:\u002F\u002Fhydra.cc\u002F) flexible overriding system for changing hyperparameters.\nFor example, to train a model with  rgb images from both static camera and the gripper camera with relative actions:\n```bash\n$ python training.py datamodule\u002Fobservation_space=lang_rgb_static_gripper_rel_act model\u002Fperceptual_encoder=gripper_cam\n```\nTo train a model with RGB-D from both cameras:\n```bash\n$ python training.py datamodule\u002Fobservation_space=lang_rgbd_both model\u002Fperceptual_encoder=RGBD_both\n```\nTo train a model with rgb images from the static camera and visual tactile observations with absolute actions:\n```bash\n$ python training.py datamodule\u002Fobservation_space=lang_rgb_static_tactile_abs_act model\u002Fperceptual_encoder=static_RGB_tactile\n```\n\nTo see all available hyperparameters:\n```console\n$ python training.py --help\n```\nTo resume a training, just override the hydra working directory :\n```console\n$ python training.py hydra.run.dir=runs\u002Fmy_dir\n```\n\n## :framed_picture: Sensory Observations\n CALVIN  supports a range of sensors commonly utilized for visuomotor  control:\n1. **Static camera RGB images** - with shape `200x200x3`.\n2. **Static camera Depth maps** - with shape `200x200`.\n3. **Gripper camera RGB images** - with shape `84x84x3`.\n4. **Gripper camera Depth maps** - with shape `84x84`.\n5. **Tactile image** - with shape `120x160x6`.\n6. **Proprioceptive state** - EE position (3), EE orientation in euler angles (3), gripper width (1), joint positions (7), gripper action (1).\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmees_calvin_readme_5ce19a02853f.png\" alt=\"\" width=\"50%\">\n\u003C\u002Fp>\n\n## :joystick: Action Space\nIn CALVIN, the  agent  must perform  closed-loop  continuous  control  to  follow  unconstrained  language  instructions  characterizing  complex  robot manipulation tasks, sending continuous actions to the robot at  30hz.\nIn  order  to  give  researchers  and  practitioners  the freedom to experiment with different action spaces, CALVIN supports  the following actions spaces:\n1. **Absolute cartesian pose**  - EE position (3), EE orientation in euler angles (3),  gripper action (1).\n2. **Relative cartesian displacement**  - EE position (3), EE orientation in euler angles (3),  gripper action (1).\n3. **Joint action** -  Joint positions (7),  gripper action (1).\n\nFor more information, please refer to this more detailed [README](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fdataset\u002FREADME.md).\n\n## :muscle: Evaluation: The Calvin Challenge\n### Long-horizon Multi-task Language Control (LH-MTLC)\nThe  aim  of  the  CALVIN  benchmark  is  to  evaluate  the learning  of  long-horizon  language-conditioned  continuous control  policies.  In  this  setting,  a  single  agent  must  solve complex  manipulation  tasks  by  understanding  a  series  of unconstrained  language  expressions  in  a  row,  e.g.,  “open the  drawer. . . pick  up  the  blue  block. . . now  push  the  block into the drawer. . . now open the sliding door”.\nWe provide  an  evaluation  protocol  with  evaluation  modes  of varying  difficulty  by  choosing  different  combinations  of sensor  suites  and  amounts  of  training  environments.\nTo avoid a biased initial position, the robot is reset to a neutral position before every multi-step sequence.\n\nTo evaluate a trained calvin baseline agent, run the following command:\n\n```\n$ cd $CALVIN_ROOT\u002Fcalvin_models\u002Fcalvin_agent\n$ python evaluation\u002Fevaluate_policy.py --dataset_path \u003CPATH\u002FTO\u002FDATASET> --train_folder \u003CPATH\u002FTO\u002FTRAINING\u002FFOLDER>\n```\nOptional arguments:\n\n- `--checkpoint \u003CPATH\u002FTO\u002FCHECKPOINT>`: by default, the evaluation loads the last checkpoint in the training log directory.\nYou can instead specify the path to another checkpoint by adding this to the evaluation command.\n- `--debug`: print debug information and visualize environment.\n\nIf you want to evaluate your own model architecture on the CALVIN challenge, you can implement the `CustomModel` class in `evaluate_policy.py`\nas an interface to your agent. You need to implement the following methods:\n\n- \\_\\_init__():\n  gets called once at the beginning of the evaluation.\n- reset(): gets called at the beginning of each evaluation sequence.\n- step(obs, goal): gets called every step and returns the predicted action.\n\nThen evaluate the model by running:\n```\n$ python evaluation\u002Fevaluate_policy.py --dataset_path \u003CPATH\u002FTO\u002FDATASET> --custom_model\n```\n\nYou are also free to use your own language model instead of using the precomputed language embeddings provided by CALVIN.\nFor this, implement `CustomLangEmbeddings` in `evaluate_policy.py` and add `--custom_lang_embeddings` to the evaluation command.\n\n### Multi-task Language Control (MTLC)\nAlternatively, you can evaluate the policy on single tasks and without resetting the robot to a neutral position.\nNote that this evaluation is currently only available for our baseline agent.\n```\n$ python evaluation\u002Fevaluate_policy_singlestep.py --dataset_path \u003CPATH\u002FTO\u002FDATASET> --train_folder \u003CPATH\u002FTO\u002FTRAINING\u002FFOLDER> [--checkpoint \u003CPATH\u002FTO\u002FCHECKPOINT>] [--debug]\n```\n\n### Pre-trained Model\nDownload the [MCIL](http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fmodel_weights\u002FD_D_static_rgb_baseline.zip) model checkpoint trained on the static camera rgb images on environment D.\n```\n$ wget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fmodel_weights\u002FD_D_static_rgb_baseline.zip\n$ unzip D_D_static_rgb_baseline.zip\n```\n## :speech_balloon: Relabeling Raw Language Annotations\nYou want to try learning language conditioned policies in CALVIN with a new awesome language model?\n\nWe provide an [example script](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fcalvin_models\u002Fcalvin_agent\u002Futils\u002Frelabel_with_new_lang_model.py) to relabel the annotations with different language model provided in [SBert](https:\u002F\u002Fwww.sbert.net\u002Fdocs\u002Fpretrained_models.html), such as the larger MPNet (paraphrase-mpnet-base-v2) or its corresponding multilingual model (paraphrase-multilingual-mpnet-base-v2).\nThe supported options are \"mini\", \"mpnet\" and \"multi\". If you want to try different SBert models, just change the model name [here](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fcalvin_models\u002Fcalvin_agent\u002Fmodels\u002Fencoders\u002Flanguage_network.py#L18).\n```\ncd $CALVIN_ROOT\u002Fcalvin_models\u002Fcalvin_agent\npython utils\u002Frelabel_with_new_lang_model.py +path=$CALVIN_ROOT\u002Fdataset\u002Ftask_D_D\u002F +name_folder=new_lang_model_folder model.nlp_model=mpnet\n```\nIf you additionally want to sample different language annotations for each sequence (from the same task annotations) in the training split run the same command with the parameter `reannotate=true`.\n\n## :chart_with_upwards_trend: SOTA Models\nOpen-source models that outperform the MCIL baselines from CALVIN:\n\nFor a detailed overview of the evaluation performances, have a look at our **[LEADERBOARD](http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002F)**.\n\n\u003Cbr>\n\u003Cb> Grounding Language with Visual Affordances over Unstructured Data\u003C\u002Fb>\n\u003Cbr>\nOier Mees, Jessica Borja-Diaz, Wolfram Burgard\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.01911.pdf\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmees\u002Fhulc2\"> Code \u003C\u002Fa>\n\n\u003Cb> FLOWER: Democratizing Generalist Robot Policies with Efficient Vision-Language-Action Flow Policies \u003C\u002Fb>\n\u003Cbr>\nMoritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.04996\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fintuitive-robots.github.io\u002Fflower_vla\u002F\"> Code \u003C\u002Fa>\n\n\n\u003Cb> Unified Vision-Language-Action Model \u003C\u002Fb>\n\u003Cbr>\nYuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.19850\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Frobertwyq.github.io\u002Funivla.github.io\u002F\"> Code \u003C\u002Fa>\n\n\u003Cb> Predictive Inverse Dynamics Models are Scalable Learners for Robotic Manipulation \u003C\u002Fb>\n\u003Cbr>\nYang Tian, Sizhe Yang, Jia Zeng, Ping Wang, Dahua Lin, Hao Dong, Jiangmiao Pang\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.15109\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenRobotLab\u002FSeer\u002F\"> Code \u003C\u002Fa>\n\n\u003Cb> Diffusion Transformer Policy: Scaling Diffusion Transformer for Generalist Vision-Language-Action Learning \u003C\u002Fb>\n\u003Cbr>\nZhi Hou, Tianyi Zhang, Yuwen Xiong, Hengjun Pu, Chengyang Zhao, Ronglei Tong, Yu Qiao, Jifeng Dai, Yuntao Chen\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.15959\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fzhihou7\u002Fdit_policy_vla\"> Code \u003C\u002Fa>\n\n\u003Cb> GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal Conditioned Policy \u003C\u002Fb>\n\u003Cbr>\nPeiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.14368\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002FGR-MG\u002F\"> Code \u003C\u002Fa>\n\n\u003Cb> GHIL-Glue: Hierarchical Control with Filtered Subgoal Images \u003C\u002Fb>\n\u003Cbr>\nKyle B Hatch, Ashwin Balakrishna, Oier Mees, Suraj Nair, Seohong Park, Blake Wulfe, Masha Itkina, Benjamin Eysenbach, Sergey Levine, Thomas Kollar, Benjamin Burchfiel\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.20018\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkyle-hatch-tri\u002Fghil-glue\"> Code \u003C\u002Fa>\n\n\u003Cb> Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning \u003C\u002Fb>\n\u003Cbr>\nMoritz Reuss, Jyothish Pari, Pulkit Agrawal, Rudolf Lioutikov\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.12953\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fintuitive-robots\u002FMoDE_Diffusion_Policy\"> Code \u003C\u002Fa>\n\n\u003Cb> Incorporating Task Progress Knowledge for Subgoal Generation in Robotic Manipulation through Image Edits \u003C\u002Fb>\n\u003Cbr>\nXuhui Kang, Yen-Ling Kuo\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.11013\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FShua-Kang\u002FTaKSIE\"> Code \u003C\u002Fa>\n\n\u003Cb> Closed-Loop Visuomotor Control with Generative Expectation for Robotic Manipulation \u003C\u002Fb>\n\u003Cbr>\nQingwen Bu, Jia Zeng, Li Chen, Yanchao Yang, Guyue Zhou, Junchi Yan, Ping Luo, Heming Cui, Yi Ma, Hongyang Li\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.09016\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FCLOVER\"> Code \u003C\u002Fa>\n\n\u003Cb> DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution \u003C\u002Fb>\n\u003Cbr>\nYang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.02359\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyueyang130\u002FDeeR-VLA\"> Code \u003C\u002Fa>\n\n\u003Cb> RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation \u003C\u002Fb>\n\u003Cbr>\nFanfan Liu, Feng Yan, Liming Zheng, Yiyang Huang, Chengjian Feng, Lin Ma\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.18977v2\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fliufanfanlff\u002FRoboUniview\"> Code \u003C\u002Fa>\n\n\u003Cb> Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals \u003C\u002Fb>\n\u003Cbr>\nMoritz Reuss, Ömer Erdinç Yağmurlu, Fabian Wenzel, Rudolf Lioutikov\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.05996\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fintuitive-robots\u002Fmdt_policy\"> Code \u003C\u002Fa>\n\n\u003Cb> 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations\u003C\u002Fb>\n\u003Cbr>\nTsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.10885.pdf\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fnickgkan\u002F3d_diffuser_actor\"> Code \u003C\u002Fa>\n\n\u003Cb> Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation\u003C\u002Fb>\n\u003Cbr>\nHongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.13139.pdf\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002FGR-1\"> Code \u003C\u002Fa>\n\n\u003Cb> Vision-Language Foundation Models as Effective Robot Imitators\u003C\u002Fb>\n\u003Cbr>\nXinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, and Tao Kong\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.01378.pdf\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FRoboFlamingo\u002FRoboFlamingo\"> Code \u003C\u002Fa>\n\n\u003Cb> Zero-Shot Robotic Manipulation With Pretrained Image-Editing Diffusion Models\u003C\u002Fb>\n\u003Cbr>\nKevin Black, Mitsuhiko Nakamoto, Pranav Atreya, Homer Walke, Chelsea Finn, Aviral Kumar, Sergey Levine\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.10639.pdf\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkvablack\u002Fsusie\"> Code \u003C\u002Fa>\n\n\u003Cb> Language Control Diffusion: Efficiently Scaling through Space, Time, and Tasks\u003C\u002Fb>\n\u003Cbr>\nEddie Zhang, Yujie Lu, William Wang, Amy Zhang\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.15629.pdf\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fezhang7423\u002Flanguage-control-diffusion\"> Code \u003C\u002Fa>\n\n\u003Cb> What Matters in Language Conditioned Robotic Imitation Learning over Unstructured Data\u003C\u002Fb>\n\u003Cbr>\nOier Mees, Lukas Hermann, Wolfram Burgard\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.06252.pdf\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flukashermann\u002Fhulc\"> Code \u003C\u002Fa>\n\n\u003Cb> Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data\u003C\u002Fb>\n\u003Cbr>\nHongkuan Zhou, Zhenshan Bing, Xiangtong Yao, Xiaojie Su, Chenguang Yang, Kai Huang, Alios Knoll\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.19075.pdf\"> Paper\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhk-zh\u002Fspil\"> Code\n\nContact [Oier](https:\u002F\u002Fwww.oiermees.com\u002F) to add your model here.\n\n## Reinforcement Learning with CALVIN\nAre you interested in trying  reinforcement learning agents for the different manipulation tasks in the CALVIN environment?\nWe provide a [google colab](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002FRL_with_CALVIN.ipynb) to showcase how to leverage the CALVIN task indicators to learn RL agents with a sparse reward.\n\n## FAQ\n\n#### Why do you use EGL rendering?\nWe use EGL to move the bullet rendering from cpu (which is the default) to gpu, which is much faster.\nThis way, we can also do rollouts during the training of the agent to track its performance.\nBy changing from cpu to gpu, the rendered textures change slightly, so be aware of this if you plan on testing pretrained models.\n#### I am training with multiple GPUs and why am I get OOM errors during rollouts?\nPyBullet only recently added an option to select which GPU to use for rendering when using EGL (fix was commited in 3c4cb80\non Oct 22, 2021, see [here](https:\u002F\u002Fgithub.com\u002Fbulletphysics\u002Fbullet3\u002Fblob\u002Fmaster\u002Fexamples\u002FOpenGLWindow\u002FEGLOpenGLWindow.cpp#L134).\nIf you have an old version of PyBullet, there is no way to choose the GPU, which can lead to problems on cluster nodes with multiple GPUs, because all instances would be placed on the same GPU, slowing down the rendering and potentially leading to OOM erros.\n\nThe fix introduced an environment variable EGL_VISIBLE_DEVICES (similar to CUDA_VISIBLE_DEVICES) which lets you specify the GPU device to render on.\nHowever, there is one catch: On some machines, the device ids of CUDA and EGL do not match (e.g. CUDA device 0 could be EGL device 3).\nWe automatically handle this in our wrapper in calvin_env and find the corresponding egl device id, so you don't have to set EGL_VISIBLE_DEVICES yourself, see [here](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin_env\u002Fblob\u002Fmain\u002Fcalvin_env\u002Fenvs\u002Fplay_lmp_wrapper.py#L31).\n\n#### I am not interested in the manipulation tasks recorded, can I record different demonstration with teleop?\nYes, although it is not documented right now, all the code to record data with a VR headset is present in\ncalvin_env in [https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin_env\u002Fblob\u002Fmain\u002Fcalvin_env\u002Fvrdatacollector.py](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin_env\u002Fblob\u002Fmain\u002Fcalvin_env\u002Fvrdatacollector.py)\n\n\n## Changelog\n### 24 Feb 2023\n- Wrong `scene_info.npy` in D dataset. Note that we have updated the corresponding checksum. Please replace as follows:\n```\ncd task_D_D\nwget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fscene_info_fix\u002Ftask_D_D_scene_info.zip\nunzip task_D_D_scene_info.zip && rm task_D_D_scene_info.zip\n```\n\n### 16 Sep 2022\n- **MAJOR BUG IN ABC and ABCD dataset:** If you downloaded these datasets before this date you have to do these fixes:\n   - Wrong language annotations in ABC and ABCD dataset. You can download the corrected language embeddings [here](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fdataset\u002FREADME.md#language-embeddings).\n   - Bug in `calvin_env` that only affects the generation of language embeddings.\n   - Wrong `scene_info.npy` in ABC and ABCD dataset. Please replace as follows:\n```\ncd task_ABCD_D\nwget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fscene_info_fix\u002Ftask_ABCD_D_scene_info.zip\nunzip task_ABCD_D_scene_info.zip && rm task_ABCD_D_scene_info.zip\n```\n```\ncd task_ABC_D\nwget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fscene_info_fix\u002Ftask_ABC_D_scene_info.zip\nunzip task_ABC_D_scene_info.zip && rm task_ABC_D_scene_info.zip\n```\n- Added additional language embeddings to dataset.\n\n\n### 15 May 2022\n- Added shared memory dataset loader for faster training. Refactored data loading classes.\n\n### 7 Feb 2022\n- Minor changes to the distribution of tasks in the long-horizon multi-step sequences.\n- Changes to the task success criteria of pushing and lifting.\n- Set `use_nullspace: true` for robot in hydra cfg of dataset. If you downloaded one of the datasets prior to this date,\nedit this line in \u003CPATH_TO_DATASET>\u002Ftraining\u002F.hydra\u002Fmerged_config.yaml and \u003CPATH_TO_DATASET>\u002Fvalidation\u002F.hydra\u002Fmerged_config.yaml.\n- Renaming `model.decoder` to `model.action_decoder`.\n\n### 10 Jan 2022\n- Breaking change to evaluation, using different intitial states for environment.\n\n## Citation\n\nIf you find the dataset or code useful, please cite:\n\n```bibtex\n@article{mees2022calvin,\nauthor = {Oier Mees and Lukas Hermann and Erick Rosete-Beas and Wolfram Burgard},\ntitle = {CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks},\njournal={IEEE Robotics and Automation Letters (RA-L)},\nvolume={7},\nnumber={3},\npages={7327-7334},\nyear={2022}\n}\n```\n\n## License\n\nMIT License\n","# CALVIN\n[![Code style: black](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcode%20style-black-000000.svg)](https:\u002F\u002Fgithub.com\u002Fpsf\u002Fblack)\n[![Language grade: Python](https:\u002F\u002Fimg.shields.io\u002Flgtm\u002Fgrade\u002Fpython\u002Fg\u002Fmees\u002Fcalvin.svg?logo=lgtm&logoWidth=18)](https:\u002F\u002Flgtm.com\u002Fprojects\u002Fg\u002Fmees\u002Fcalvin\u002Fcontext:python)\n[![Total alerts](https:\u002F\u002Fimg.shields.io\u002Flgtm\u002Falerts\u002Fg\u002Fmees\u002Fcalvin.svg?logo=lgtm&logoWidth=18)](https:\u002F\u002Flgtm.com\u002Fprojects\u002Fg\u002Fmees\u002Fcalvin\u002Falerts\u002F)\n[![License: MIT](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-MIT-yellow.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FMIT)\n\n[\u003Cb>CALVIN - 用于长时域机器人操作任务的语言条件策略学习基准\u003C\u002Fb>](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2112.03227.pdf)\n\n[Oier Mees](https:\u002F\u002Fwww.oiermees.com\u002F), [Lukas Hermann](https:\u002F\u002Flukashermann.github.io\u002F), [Erick Rosete](https:\u002F\u002Fwww.erickrosete.com\u002F), [Wolfram Burgard](http:\u002F\u002Fwww2.informatik.uni-freiburg.de\u002F~burgard)\n\n#### CALVIN 获得了2022年IEEE机器人与自动化快报（RA-L）最佳论文奖！\n\n我们提出了 **CALVIN** (**C**omposing **A**ctions from **L**anguage and **Vi**sio**n**，从语言和视觉生成动作)，这是一个开源的模拟基准，用于学习长时域语言条件任务。我们的目标是开发能够通过机载传感器并仅通过人类语言指令解决多种机器人操作任务的智能体。与现有视觉-语言任务数据集相比，CALVIN任务在序列长度、动作空间和语言复杂度方面都有显著提升，并支持灵活的传感器套件配置。\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmees_calvin_readme_23db4096a0a7.png)\n\n# :computer: 快速开始\n首先将本仓库克隆到本地：\n```bash\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin.git\n$ export CALVIN_ROOT=$(pwd)\u002Fcalvin\n\n```\n安装依赖：\n```bash\n$ cd $CALVIN_ROOT\n$ conda create -n calvin_venv python=3.8  # 或使用virtualenv\n$ conda activate calvin_venv\n$ sh install.sh\n```\n如果安装pyhash时遇到问题，可能需要将setuptools降级到58以下版本。\n\n下载数据集（通过参数 `D`、`ABC` 或 `ABCD` 选择要下载的分割）：  \n如果不想下载完整数据集，可以使用 `debug` 参数下载小规模调试数据集（1.3 GB）。\n```bash\n$ cd $CALVIN_ROOT\u002Fdataset\n$ sh download_data.sh D | ABC | ABCD | debug\n```\n##\t:weight_lifting_man: 训练基线智能体\n训练基线模型：\n```bash\n$ cd $CALVIN_ROOT\u002Fcalvin_models\u002Fcalvin_agent\n$ python training.py datamodule.root_data_dir=\u002Fpath\u002Fto\u002Fdataset\u002F datamodule\u002Fdatasets=vision_lang_shm\n```\n`vision_lang_shm` 选项会在训练开始时将CALVIN数据集加载到共享内存（shared memory），加快训练过程中的数据加载速度。共享内存缓存的准备需要一些时间（在我们的SLURM集群中约需20分钟）。  \n如果想使用原始数据加载器（例如调试时），只需用 `datamodule\u002Fdatasets=vision_lang` 覆盖命令。  \n为了进一步加速，可以在训练时添加 `~callbacks\u002Frollout` 和 `~callbacks\u002Frollout_lh` 来禁用评估回调。\n\n想要扩展到多GPU训练？只需指定 [GPU数量](https:\u002F\u002Fpytorch-lightning.readthedocs.io\u002Fen\u002Flatest\u002Fadvanced\u002Fmulti_gpu.html#select-gpu-devices)，[PyTorch Lightning](https:\u002F\u002Fwww.pytorchlightning.ai\u002F)（深度学习框架）会自动使用DDP进行训练。  \n在所有可用GPU上训练：\n```bash\n$ python training.py trainer.gpus=-1\n```\n如果使用Slurm集群，请参考此 [指南](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fslurm_scripts\u002FREADME.md)。\n\n你可以使用 [Hydra](https:\u002F\u002Fhydra.cc\u002F)（配置管理框架）的灵活覆盖系统修改超参数。  \n例如，使用静态相机和夹爪相机的RGB图像进行相对动作训练：\n```bash\n$ python training.py datamodule\u002Fobservation_space=lang_rgb_static_gripper_rel_act model\u002Fperceptual_encoder=gripper_cam\n```\n使用两个相机的RGB-D数据训练：\n```bash\n$ python training.py datamodule\u002Fobservation_space=lang_rgbd_both model\u002Fperceptual_encoder=RGBD_both\n```\n使用静态相机RGB图像和触觉观测进行绝对动作训练：\n```bash\n$ python training.py datamodule\u002Fobservation_space=lang_rgb_static_tactile_abs_act model\u002Fperceptual_encoder=static_RGB_tactile\n```\n\n查看所有可用超参数：\n```console\n$ python training.py --help\n```\n恢复训练只需覆盖hydra工作目录：\n```console\n$ python training.py hydra.run.dir=runs\u002Fmy_dir\n```\n\n## :framed_picture: 感知观测\nCALVIN 支持多种常用于视觉运动控制的传感器：\n1. **静态相机RGB图像** - 形状为 `200x200x3`。\n2. **静态相机深度图** - 形状为 `200x200`。\n3. **夹爪相机RGB图像** - 形状为 `84x84x3`。\n4. **夹爪相机深度图** - 形状为 `84x84`。\n5. **触觉图像** - 形状为 `120x160x6`。\n6. **本体感知状态** - 末端执行器位置（3），末端执行器欧拉角方向（3），夹爪宽度（1），关节位置（7），夹爪动作（1）。\n\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmees_calvin_readme_5ce19a02853f.png\" alt=\"\" width=\"50%\">\n\u003C\u002Fp>\n\n## :joystick: 动作空间\n在CALVIN中，智能体必须执行闭环连续控制以跟随描述复杂机器人操作任务的非约束语言指令，以30Hz频率向机器人发送连续动作。  \n为了给研究人员和实践者提供实验不同动作空间的自由，CALVIN支持以下动作空间：\n1. **绝对笛卡尔位姿（absolute cartesian pose）** - 末端执行器位置（3），末端执行器欧拉角方向（3），夹爪动作（1）。\n2. **相对笛卡尔位移（relative cartesian displacement）** - 末端执行器位置（3），末端执行器欧拉角方向（3），夹爪动作（1）。\n3. **关节动作（joint action）** - 关节位置（7），夹爪动作（1）。\n\n更多信息请参考此详细 [README](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fdataset\u002FREADME.md)。\n\n## :muscle: 评估：Calvin挑战赛\n\n### 长周期多任务语言控制（LH-MTLC）\nCALVIN基准测试（CALVIN benchmark）的目标是评估长周期语言条件连续控制策略的学习效果。在此设定中，单个智能体必须通过理解一系列无约束的语言表达来解决复杂的操作任务，例如“打开抽屉...拿起蓝色积木...现在将积木推入抽屉...现在打开滑动门”。\n\n我们通过选择不同的传感器套件（sensor suite）和训练环境数量，提供具有不同难度评估模式的评估协议。为避免初始位置偏倚，机器人会在每次多步骤序列开始前重置到中立位置。\n\n要评估训练好的CALVIN基线智能体，运行以下命令：\n\n```\n$ cd $CALVIN_ROOT\u002Fcalvin_models\u002Fcalvin_agent\n$ python evaluation\u002Fevaluate_policy.py --dataset_path \u003CPATH\u002FTO\u002FDATASET> --train_folder \u003CPATH\u002FTO\u002FTRAINING\u002FFOLDER>\n```\n可选参数：\n\n- `--checkpoint \u003CPATH\u002FTO\u002FCHECKPOINT>`: 默认情况下，评估会加载训练日志目录中的最后一个检查点。您可以通过在评估命令中添加此参数指定其他检查点路径。\n- `--debug`: 打印调试信息并可视化环境。\n\n如果您想在CALVIN挑战中评估自己的模型架构，可以在`evaluate_policy.py`中实现`CustomModel`类作为智能体接口。需要实现以下方法：\n\n- \\_\\_init__():\n  在评估开始时调用一次。\n- reset(): 在每次评估序列开始时调用。\n- step(obs, goal): 每个步骤调用并返回预测动作。\n\n然后通过运行以下命令评估模型：\n```\n$ python evaluation\u002Fevaluate_policy.py --dataset_path \u003CPATH\u002FTO\u002FDATASET> --custom_model\n```\n\n您也可以选择使用自己的语言模型，而非CALVIN提供的预计算语言嵌入（language embeddings）。为此，需要在`evaluate_policy.py`中实现`CustomLangEmbeddings`，并在评估命令中添加`--custom_lang_embeddings`参数。\n\n### 多任务语言控制（MTLC）\n或者，您可以评估不重置机器人中立位置的单任务策略。请注意此评估目前仅适用于我们的基线智能体。\n```\n$ python evaluation\u002Fevaluate_policy_singlestep.py --dataset_path \u003CPATH\u002FTO\u002FDATASET> --train_folder \u003CPATH\u002FTO\u002FTRAINING\u002FFOLDER> [--checkpoint \u003CPATH\u002FTO\u002FCHECKPOINT>] [--debug]\n```\n\n### 预训练模型\n下载在D环境静态摄像头RGB图像上训练的[MCIL](http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fmodel_weights\u002FD_D_static_rgb_baseline.zip)模型检查点：\n```\n$ wget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fmodel_weights\u002FD_D_static_rgb_baseline.zip\n$ unzip D_D_static_rgb_baseline.zip\n```\n## :speech_balloon: 重新标注原始语言注释\n您想尝试在CALVIN中使用新的语言模型学习语言条件策略吗？\n\n我们提供了一个[示例脚本](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fcalvin_models\u002Fcalvin_agent\u002Futils\u002Frelabel_with_new_lang_model.py)，用于使用[SBert](https:\u002F\u002Fwww.sbert.net\u002Fdocs\u002Fpretrained_models.html)提供的不同语言模型（如更大的MPNet (paraphrase-mpnet-base-v2) 或其对应的多语言模型 (paraphrase-multilingual-mpnet-base-v2)）重新标注注释。支持的选项包括\"mini\"、\"mpnet\"和\"multi\"。如果想尝试不同的SBert模型，只需修改[此处](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fcalvin_models\u002Fcalvin_agent\u002Fmodels\u002Fencoders\u002Flanguage_network.py#L18)的模型名称。\n```\ncd $CALVIN_ROOT\u002Fcalvin_models\u002Fcalvin_agent\npython utils\u002Frelabel_with_new_lang_model.py +path=$CALVIN_ROOT\u002Fdataset\u002Ftask_D_D\u002F +name_folder=new_lang_model_folder model.nlp_model=mpnet\n```\n如果还想为训练集中的每个序列（来自相同任务注释）采样不同的语言注释，请在运行相同命令时添加参数`reannotate=true`。\n\n## 📈 SOTA 模型（超越 CALVIN 基线的开源模型）\n\nCALVIN 环境中超越 MCIL 基线的开源模型：\n\n如需查看详细评估表现，请访问我们的 **[排行榜](http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002F)**。\n\n\u003Cbr>\n\u003Cb> 通过非结构化数据上的视觉可操作性进行语言接地 \u003C\u002Fb>\n\u003Cbr>\nOier Mees, Jessica Borja-Diaz, Wolfram Burgard\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.01911.pdf\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fmees\u002Fhulc2\"> 代码 \u003C\u002Fa>\n\n\u003Cb> FLOWER：通过高效的视觉-语言-动作流策略实现通用机器人策略的民主化 \u003C\u002Fb>\n\u003Cbr>\nMoritz Reuss, Hongyi Zhou, Marcel Rühle, Ömer Erdinç Yağmurlu, Fabian Otto, Rudolf Lioutikov\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2509.04996\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fintuitive-robots.github.io\u002Fflower_vla\u002F\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 统一视觉-语言-动作模型（Unified Vision-Language-Action Model） \u003C\u002Fb>\n\u003Cbr>\nYuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2506.19850\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Frobertwyq.github.io\u002Funivla.github.io\u002F\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 预测性逆动力学模型：机器人操作的可扩展学习者 \u003C\u002Fb>\n\u003Cbr>\nYang Tian, Sizhe Yang, Jia Zeng, Ping Wang, Dahua Lin, Hao Dong, Jiangmiao Pang\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.15109\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenRobotLab\u002FSeer\u002F\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 扩散变换器策略：扩展扩散变换器用于通用视觉-语言-动作学习 \u003C\u002Fb>\n\u003Cbr>\nZhi Hou, Tianyi Zhang, Yuwen Xiong, Hengjun Pu, Chengyang Zhao, Ronglei Tong, Yu Qiao, Jifeng Dai, Yuntao Chen\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.15959\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fzhihou7\u002Fdit_policy_vla\"> 代码 \u003C\u002Fa>\n\n\u003Cb> GR-MG：通过多模态目标条件策略利用部分标注数据 \u003C\u002Fb>\n\u003Cbr>\nPeiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2408.14368\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002FGR-MG\u002F\"> 代码 \u003C\u002Fa>\n\n\u003Cb> GHIL-Glue：通过过滤子目标图像实现分层控制 \u003C\u002Fb>\n\u003Cbr>\nKyle B Hatch, Ashwin Balakrishna, Oier Mees, Suraj Nair, Seohong Park, Blake Wulfe, Masha Itkina, Benjamin Eysenbach, Sergey Levine, Thomas Kollar, Benjamin Burchfiel\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.20018\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkyle-hatch-tri\u002Fghil-glue\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 具有专家去噪器混合的高效扩散变换器策略用于多任务学习 \u003C\u002Fb>\n\u003Cbr>\nMoritz Reuss, Jyothish Pari, Pulkit Agrawal, Rudolf Lioutikov\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2412.12953\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fintuitive-robots\u002FMoDE_Diffusion_Policy\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 通过图像编辑将任务进度知识融入机器人操作的子目标生成 \u003C\u002Fb>\n\u003Cbr>\nXuhui Kang, Yen-Ling Kuo\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2410.11013\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FShua-Kang\u002FTaKSIE\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 基于生成期望的闭环视觉运动控制用于机器人操作 \u003C\u002Fb>\n\u003Cbr>\nQingwen Bu, Jia Zeng, Li Chen, Yanchao Yang, Guyue Zhou, Junchi Yan, Ping Luo, Heming Cui, Yi Ma, Hongyang Li\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2409.09016\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FOpenDriveLab\u002FCLOVER\"> 代码 \u003C\u002Fa>\n\n\u003Cb> DeeR-VLA：动态推理多模态大语言模型用于高效机器人执行 \u003C\u002Fb>\n\u003Cbr>\nYang Yue, Yulin Wang, Bingyi Kang, Yizeng Han, Shenzhi Wang, Shiji Song, Jiashi Feng, Gao Huang\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2411.02359\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fyueyang130\u002FDeeR-VLA\"> 代码 \u003C\u002Fa>\n\n\u003Cb> RoboUniView：具有统一视图表示的视觉-语言模型用于机器人操作 \u003C\u002Fb>\n\u003Cbr>\nFanfan Liu, Feng Yan, Liming Zheng, Yiyang Huang, Chengjian Feng, Lin Ma\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2406.18977v2\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fliufanfanlff\u002FRoboUniview\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 多模态扩散变换器：从多模态目标学习通用行为 \u003C\u002Fb>\n\u003Cbr>\nMoritz Reuss, Ömer Erdinç Yağmurlu, Fabian Wenzel, Rudolf Lioutikov\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2407.05996\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fintuitive-robots\u002Fmdt_policy\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 3D 场景表示的扩散策略：3D扩散策略 \u003C\u002Fb>\n\u003Cbr>\nTsung-Wei Ke, Nikolaos Gkanatsios, Katerina Fragkiadaki\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2402.10885.pdf\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fnickgkan\u002F3d_diffuser_actor\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 解锁大规模视频生成预训练用于视觉机器人操作 \u003C\u002Fb>\n\u003Cbr>\nHongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.13139.pdf\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbytedance\u002FGR-1\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 视觉-语言基础模型作为有效的机器人模仿者 \u003C\u002Fb>\n\u003Cbr>\nXinghang Li, Minghuan Liu, Hanbo Zhang, Cunjun Yu, Jie Xu, Hongtao Wu, Chilam Cheang, Ya Jing, Weinan Zhang, Huaping Liu, Hang Li, and Tao Kong\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2311.01378.pdf\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FRoboFlamingo\u002FRoboFlamingo\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 使用预训练图像编辑扩散模型实现零样本机器人操作 \u003C\u002Fb>\n\u003Cbr>\nKevin Black, Mitsuhiko Nakamoto, Pranav Atreya, Homer Walke, Chelsea Finn, Aviral Kumar, Sergey Levine\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.10639.pdf\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fkvablack\u002Fsusie\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 语言控制扩散：通过空间、时间和任务高效扩展 \u003C\u002Fb>\n\u003Cbr>\nEddie Zhang, Yujie Lu, William Wang, Amy Zhang\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2210.15629.pdf\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fezhang7423\u002Flanguage-control-diffusion\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 在非结构化数据上语言条件机器人模仿学习的关键因素 \u003C\u002Fb>\n\u003Cbr>\nOier Mees, Lukas Hermann, Wolfram Burgard\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.06252.pdf\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Flukashermann\u002Fhulc\"> 代码 \u003C\u002Fa>\n\n\u003Cb> 基于基础技能先验的语言条件模仿学习（在非结构化数据下） \u003C\u002Fb>\n\u003Cbr>\nHongkuan Zhou, Zhenshan Bing, Xiangtong Yao, Xiaojie Su, Chenguang Yang, Kai Huang, Alios Knoll\n\u003Cbr>\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F2305.19075.pdf\"> 论文\u003C\u002Fa>, \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhk-zh\u002Fspil\"> 代码 \u003C\u002Fa>\n\n请联系 [Oier](https:\u002F\u002Fwww.oiermees.com\u002F) 添加您的模型。\n\n## 在 CALVIN 中使用强化学习\n您是否想尝试在 CALVIN 环境中针对不同操作任务使用强化学习代理？\n我们提供了一个 [Google Colab](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002FRL_with_CALVIN.ipynb) 来展示如何利用 CALVIN 任务指示器通过稀疏奖励学习 RL 代理。\n\n## 常见问题解答 (FAQ)\n\n#### 为什么使用 EGL 渲染？\n我们使用 EGL (Embedded-System Graphics Library，嵌入式图形库) 将子弹物理引擎的渲染从 CPU（默认方式）转移到 GPU，这样速度更快。  \n通过这种方式，我们可以在智能体训练过程中执行 rollout（轨迹回放）以跟踪其性能表现。  \n从 CPU 切换到 GPU 后，渲染的纹理会略有变化，因此如果你计划测试预训练模型，请注意这一点。\n\n#### 我在使用多块 GPU 训练时，为什么在 rollout 过程中出现 OOM 错误？\nPyBullet 最近才添加了选择使用哪块 GPU 进行 EGL 渲染的选项（修复提交于 2021 年 10 月 22 日的 3c4cb80，详见 [此处](https:\u002F\u002Fgithub.com\u002Fbulletphysics\u002Fbullet3\u002Fblob\u002Fmaster\u002Fexamples\u002FOpenGLWindow\u002FEGLOpenGLWindow.cpp#L134)）。  \n如果你的 PyBullet 版本较旧，则无法选择 GPU，这会导致多 GPU 集群节点上的所有实例都分配到同一块 GPU，从而降低渲染速度并可能导致 OOM 错误。\n\n修复方案引入了一个环境变量 `EGL_VISIBLE_DEVICES`（与 `CUDA_VISIBLE_DEVICES` 类似），允许你指定渲染所用的 GPU 设备。  \n但需要注意：在某些机器上，CUDA 和 EGL 的设备 ID 可能不匹配（例如 CUDA 设备 0 可能是 EGL 设备 3）。  \n我们在 `calvin_env` 的封装器中自动处理了这个问题，会查找对应的 EGL 设备 ID，因此你无需手动设置 `EGL_VISIBLE_DEVICES`，详见 [此处](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin_env\u002Fblob\u002Fmain\u002Fcalvin_env\u002Fenvs\u002Fplay_lmp_wrapper.py#L31)。\n\n#### 我对记录的抓取任务不感兴趣，能否通过遥操作记录不同的演示数据？\n可以，尽管目前尚未文档化，但所有通过 VR 头显记录数据的代码都已包含在 `calvin_env` 中，详见 [https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin_env\u002Fblob\u002Fmain\u002Fcalvin_env\u002Fvrdatacollector.py](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin_env\u002Fblob\u002Fmain\u002Fcalvin_env\u002Fvrdatacollector.py)\n\n## 更新日志 (Changelog)\n### 2023年2月24日\n- D 数据集中的 `scene_info.npy` 文件有误。请注意我们已更新对应的校验和。请按以下方式替换：\n```\ncd task_D_D\nwget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fscene_info_fix\u002Ftask_D_D_scene_info.zip\nunzip task_D_D_scene_info.zip && rm task_D_D_scene_info.zip\n```\n\n### 2022年9月16日\n- **ABC 和 ABCD 数据集的重大错误**：如果你在此日期前下载了这些数据集，需要执行以下修复：\n   - ABC 和 ABCD 数据集中语言标注错误。你可以从 [这里](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fblob\u002Fmain\u002Fdataset\u002FREADME.md#language-embeddings) 下载修正后的语言嵌入向量。\n   - `calvin_env` 中仅影响语言嵌入生成的错误。\n   - ABC 和 ABCD 数据集中错误的 `scene_info.npy` 文件。请按以下方式替换：\n```\ncd task_ABCD_D\nwget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fscene_info_fix\u002Ftask_ABCD_D_scene_info.zip\nunzip task_ABCD_D_scene_info.zip && rm task_ABCD_D_scene_info.zip\n```\n```\ncd task_ABC_D\nwget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fscene_info_fix\u002Ftask_ABC_D_scene_info.zip\nunzip task_ABC_D_scene_info.zip && rm task_ABC_D_scene_info.zip\n```\n- 向数据集中添加了额外的语言嵌入向量。\n\n### 2022年5月15日\n- 添加了共享内存数据集加载器以加速训练。重构了数据加载类。\n\n### 2022年2月7日\n- 对长视野多步骤序列中的任务分布进行了小幅调整。\n- 修改了推物和举升任务的成功判定标准。\n- 在数据集的 hydra 配置中为机器人设置了 `use_nullspace: true`。如果你在此日期前下载了数据集，请编辑以下路径中的文件：  \n  `\u003CPATH_TO_DATASET>\u002Ftraining\u002F.hydra\u002Fmerged_config.yaml` 和 `\u003CPATH_TO_DATASET>\u002Fvalidation\u002F.hydra\u002Fmerged_config.yaml`。\n- 将 `model.decoder` 重命名为 `model.action_decoder`。\n\n### 2022年1月10日\n- 评估方式的重大变更，使用不同的环境初始状态。\n\n## 引用\n\n如果你发现本数据集或代码有用，请引用以下文献：\n\n```bibtex\n@article{mees2022calvin,\nauthor = {Oier Mees and Lukas Hermann and Erick Rosete-Beas and Wolfram Burgard},\ntitle = {CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks},\njournal={IEEE Robotics and Automation Letters (RA-L)},\nvolume={7},\nnumber={3},\npages={7327-7334},\nyear={2022}\n}\n```\n\n## 许可证\n\nMIT License","# CALVIN 快速上手指南\n\n## 环境准备\n- **系统要求**：Linux（推荐 Ubuntu 20.04+）\n- **前置依赖**：\n  - Python 3.8\n  - CUDA 11.x（GPU 训练）\n  - Git\n  - Conda 或 virtualenv（推荐 Conda）\n\n## 安装步骤\n1. 克隆仓库并设置环境变量\n```bash\ngit clone --recurse-submodules https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin.git\nexport CALVIN_ROOT=$(pwd)\u002Fcalvin\n```\n\n2. 创建虚拟环境并安装依赖\n```bash\ncd $CALVIN_ROOT\nconda create -n calvin_venv python=3.8\nconda activate calvin_venv\nsh install.sh\n```\n> ⚠️ 若安装 `pyhash` 报错，可尝试执行 `pip install setuptools==57.5.0` 降级 setuptools\n\n3. 下载数据集（推荐使用 debug 模式快速体验）\n```bash\ncd $CALVIN_ROOT\u002Fdataset\nsh download_data.sh debug  # 下载 1.3GB 调试数据集\n```\n\n## 基本使用\n### 训练基线模型\n```bash\ncd $CALVIN_ROOT\u002Fcalvin_models\u002Fcalvin_agent\npython training.py datamodule.root_data_dir=$CALVIN_ROOT\u002Fdataset\u002FABC datamodule\u002Fdatasets=vision_lang_shm\n```\n\n### 评估模型性能\n```bash\npython evaluation\u002Fevaluate_policy.py --dataset_path $CALVIN_ROOT\u002Fdataset\u002FABC --train_folder runs\u002Fbaseline\n```\n\n### 使用预训练模型\n```bash\nwget http:\u002F\u002Fcalvin.cs.uni-freiburg.de\u002Fmodel_weights\u002FD_D_static_rgb_baseline.zip\nunzip D_D_static_rgb_baseline.zip -d $CALVIN_ROOT\u002Fcalvin_models\u002F\n```\n\n### 国内加速建议\n- 安装依赖时可替换 pip 源：\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n> ✅ 完成以上步骤后，您已成功部署 CALVIN 基准环境，可开始进行机器人长时序语言控制策略的训练与评估。","某工业自动化研发团队正在开发一款用于电子元件精密装配的六轴机械臂。该机械臂需要根据操作员的自然语言指令（如\"先将电容插入PCB板第3焊点，再用镊子夹起电阻器放置到第5焊点\"）完成包含多个子步骤的复杂装配任务。\n\n### 没有 calvin 时\n- **任务分解困难**：工程师需手动将自然语言指令拆解为数十个离散动作序列，耗时且易出错\n- **训练数据匮乏**：现有数据集仅包含简单抓取\u002F放置动作，缺乏长时程多步骤操作的标注数据\n- **模型泛化能力差**：传统方法训练的模型在遇到新指令组合时成功率骤降至30%以下\n- **调试效率低下**：每次策略迭代需要重新录制完整操作视频，单次训练周期长达72小时\n\n### 使用 calvin 后\n- **自动任务编排**：系统可将自然语言指令直接解析为包含15-30步的复合动作序列\n- **数据集覆盖增强**：内置的ABCD四类数据集包含2000+小时长时程装配任务，涵盖200+种语言指令变体\n- **跨任务泛化提升**：通过迁移学习，新指令的首次执行成功率提升至78%\n- **训练效率倍增**：共享内存数据加载使训练速度提升4倍，策略迭代周期缩短至8小时\n\n核心价值：calvin通过提供标准化的长时程语言-视觉-动作联合训练框架，将复杂装配任务的开发周期从数月压缩至数周，同时显著提升机器人对非结构化指令的适应能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmees_calvin_23db4096.png","mees","Oier Mees","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmees_22f1cd41.jpg","Postdoc at BAIR\u002FRAIL Lab. Researcher in Machine Learning and Robotics.",null,"Berkeley, CA","oier.mees@eecs.berkeley.edu","www.oiermees.com","https:\u002F\u002Fgithub.com\u002Fmees",[86,90,94],{"name":87,"color":88,"percentage":89},"Python","#3572A5",95.3,{"name":91,"color":92,"percentage":93},"Jupyter Notebook","#DA5B0B",3.8,{"name":95,"color":96,"percentage":97},"Shell","#89e051",0.9,871,114,"2026-04-05T02:54:31","MIT","Linux, macOS","需要 NVIDIA GPU，显存 8GB+","未说明",{"notes":106,"python":107,"dependencies":108},"建议使用 conda 管理环境，首次运行需下载约 1.3GB 调试数据集（完整数据集更大）。安装 pyhash 时可能需要降级 setuptools 到 58 以下版本。训练时共享内存缓存准备约需 20 分钟。","3.8",[109,110,111,112,113,114,115,116,117,118],"torch","pytorch-lightning","hydra-core","transformers","sbert","opencv-python","numpy","tqdm","pyyaml","omegaconf",[13,14,54,26],[121,122,123,124,125,126,127,128,129,130],"natural-language-processing","robotics","deep-learning","grounding","vision-language","manipulation","computer-vision","pytorch","vision","vision-and-language","2026-03-27T02:49:30.150509","2026-04-06T09:46:58.036551",[134,139,144,149,154,158],{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},1946,"如何解决运行代码时出现的 'lfp.utils.transforms.NormalizeVector' 模块导入错误？","请确保正确指定数据集路径并运行命令：`python training.py datamodule.root_data_dir=\u002Fpath\u002Fto\u002Fdataset\u002F`。如果模块缺失，需检查代码中是否已实现 `NormalizeVector` 类（如问题描述中的代码修改所示）。","https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fissues\u002F6",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},1947,"训练过程中迭代速度极慢或卡住怎么办？","尝试减少数据加载的工作线程数，添加参数 `datamodule.num_workers=1` 或 `datamodule.num_workers=2`。若使用多 GPU 训练导致崩溃，可检查日志排查原因，或改用单 GPU 并降低数据加载压力。","https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fissues\u002F13",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},1948,"如何解决数据集下载速度过慢的问题？","使用代理工具（如 Clash for Linux）加速下载。官方服务器未提供替代下载链接，需自行通过网络工具优化连接速度。","https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fissues\u002F103",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},1949,"CALVIN 数据集中 scene_info.npy 文件的场景名称错误如何处理？","检查数据集路径是否正确，确保下载的文件未损坏。若问题持续，可联系项目维护者确认数据集版本或提交 Issue 报告。","https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin\u002Fissues\u002F40",{"id":155,"question_zh":156,"answer_zh":157,"source_url":153},1950,"如何理解 CALVIN 数据集中 TCP（工具中心点）的定义及其在 URDF 文件中的位置？","TCP 定义在机械臂 URDF 文件的 `panda_longer_finger.urdf` 中，具体位置为指尖中点。可通过查看该文件的坐标定义进一步确认：[URDF 文件链接](https:\u002F\u002Fgithub.com\u002Fmees\u002Fcalvin_env\u002Fblob\u002Fmain\u002Fdata\u002Ffranka_panda\u002Fpanda_longer_finger.urdf#L369)。",{"id":159,"question_zh":160,"answer_zh":161,"source_url":143},1951,"如何优化数据加载以避免 I\u002FO 瓶颈？","减少 `num_workers` 参数值（如设置为 1 或 2），并确保数据存储在高性能设备（如 SSD）中。若数据位于外部硬盘，频繁读取 `.npy` 文件可能导致 I\u002FO 延迟。",[]]