[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-vimalabs--VIMA":3,"tool-vimalabs--VIMA":64},[4,17,27,35,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,43,44,45,15,46,26,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":10,"last_commit_at":54,"category_tags":55,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,46],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74939,"2026-04-05T23:16:38",[26,14,13,46],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":77,"owner_location":77,"owner_email":77,"owner_twitter":77,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":10,"env_os":88,"env_gpu":89,"env_ram":89,"env_deps":90,"category_tags":102,"github_topics":77,"view_count":103,"oss_zip_url":77,"oss_zip_packed_at":77,"status":16,"created_at":104,"updated_at":105,"faqs":106,"releases":136},147,"vimalabs\u002FVIMA","VIMA","Official Algorithm Implementation of ICML'23 Paper \"VIMA: General Robot Manipulation with Multimodal Prompts\"","VIMA 是一个面向通用机器人操作的开源 AI 模型，源自 ICML 2023 的研究论文。它通过“多模态提示”（即结合文字指令与图像示例）来统一表达各种机器人任务，让同一个模型能灵活应对不同操作需求，而无需为每个任务单独训练专用模型。传统机器人系统通常依赖任务特定的模型，VIMA 则借鉴自然语言处理中的提示学习思想，构建了一个基于 Transformer 的编码器-解码器架构：输入由文本和视觉对象组成的序列，输出则是机器人在每一步应执行的动作。其独特之处在于采用以物体为中心的表示方式——利用现成的目标检测器将图像解析为对象序列，而非直接处理原始像素，从而提升泛化能力和数据效率。VIMA 提供了从 2M 到 200M 参数规模的多种预训练模型，适合机器人学习领域的研究人员和开发者使用，尤其适用于探索多任务、少样本或跨任务迁移的机器人控制场景。项目代码简洁易用，支持快速部署与评估。","# VIMA: General Robot Manipulation with Multimodal Prompts\n## ICML 2023\n\u003Cdiv align=\"center\">\n\n[[Website]](https:\u002F\u002Fvimalabs.github.io\u002F)\n[[arXiv]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03094)\n[[PDF]](https:\u002F\u002Fvimalabs.github.io\u002Fassets\u002Fvima_paper.pdf)\n[[Pretrained Models]](#Pretrained-Models)\n[[Baselines Implementation]](#Baselines-Implementation)\n[[VIMA-Bench]](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench)\n[[Training Data]](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVIMA\u002FVIMA-Data)\n[[Model Card]](model-card.md)\n\n[![Python Version](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.9-blue.svg)](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA)\n[\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFramework-PyTorch-red.svg\"\u002F>](https:\u002F\u002Fpytorch.org\u002F)\n[![GitHub license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fvimalabs\u002FVIMA)](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\u002Fblob\u002Fmain\u002FLICENSE)\n______________________________________________________________________\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvimalabs_VIMA_readme_f5fc03053cf3.png)\n\u003C\u002Fdiv>\n\nPrompt-based learning has emerged as a successful paradigm in natural language processing, where a single general-purpose language model can be instructed to perform any task specified by input prompts. However, different robotics tasks are still tackled by specialized models. This work shows that we can express a wide spectrum of robot manipulation tasks with *multimodal prompts*, interleaving textual and visual tokens.\nWe introduce VIMA (**Vi**suo**M**otor **A**ttention agent), a novel scalable multi-task robot learner with a uniform sequence IO interface achieved through multimodal prompts. The architecture follows the encoder-decoder transformer design proven to be effective and scalable in NLP. VIMA encodes an input sequence of interleaving textual and visual prompt tokens with a [pretrained](https:\u002F\u002Fwww.deepmind.com\u002Fpublications\u002Fmultimodal-few-shot-learning-with-frozen-language-models) [language model](https:\u002F\u002Fai.googleblog.com\u002F2020\u002F02\u002Fexploring-transfer-learning-with-t5.html), and decodes robot control actions autoregressively for each environment interaction step. The transformer decoder is conditioned on the prompt via cross-attention layers that alternate with the usual causal self-attention. Instead of operating on raw pixels, VIMA adopts an object-centric approach. We parse all images in the prompt or observation into objects by [off-the-shelf detectors](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.06870), and flatten them into sequences of object tokens. All these design choices combined deliver a conceptually simple architecture with strong model and data scaling properties.\n\nIn this repo, we provide VIMA model code, pre-trained checkpoints covering a spectrum of model sizes, and demo and eval scripts. This codebase is under [MIT License](LICENSE).\n\n# Installation\nVIMA requires Python ≥ 3.9. We have tested on Ubuntu 20.04. Installing VIMA codebase is as simple as:\n\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\n```\n\n# Pretrained Models\nWe host pretrained models covering a spectrum of model capacity on [Hugging Face](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA). Download links are listed below. The mask R-CNN model can be found [here](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002Fmask_rcnn.pth).\n\n| [200M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F200M.ckpt) | [92M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F92M.ckpt) | [43M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F43M.ckpt) | [20M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F20M.ckpt) | [9M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F9M.ckpt) | [4M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F4M.ckpt) | [2M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F2M.ckpt)    |\n|-----------------------------------------------------------------|---------------------------------------------------------------|---------------------------------------------------------------|---------------------------------------------------------------|-------------------------------------------------------------|-------------------------------------------------------------|-----|\n\n# Baselines Implementation\nBecause there is no prior method that works out of the box with our multimodal prompting setup, we make our best effort to select a number of representative transformer-based agent architectures as baselines, and re-interpret them to be compatible with VIMA-Bench. They include ```VIMA-Gato```, ```VIMA-Flamingo```, and ```VIMA-GPT```. Their implementation can be found in the ```policy``` folder.\n\n# Demo\nTo run the live demonstration, first follow the [instruction](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench\u002Ftree\u002Fmain#installation) to install [VIMA-Bench](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench).Then we can run a live demo through\n\n```bash\npython3 scripts\u002Fexample.py --ckpt={ckpt_path} --device={device} --partition={eval_level} --task={task}\n```\n\nHere `eval_level` means one out of four evaluation levels and can be chosen from `placement_generalization`, `combinatorial_generalization`, `novel_object_generalization`, and `novel_task_generalization`. `task` means a specific task template. Please refer to [task suite](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench\u002Ftree\u002Fmain#task-suite) and [benchmark](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench\u002Ftree\u002Fmain#evaluation-benchmark) for more details. For example:\n\n```bash\npython3 scripts\u002Fexample.py --ckpt=200M.ckpt --partition=placement_generalization --task=follow_order\n```\n\nAfter running the above command, we should see a PyBullet GUI pop up, alongside a small window showing the multimodal prompt. Then a robot arm should move to complete the corresponding task. Note that this demo may not work on headless machines since the PyBullet GUI requires a display.\n\n# Paper and Citation\n\nOur paper is posted on [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03094). If you find our work useful, please consider citing us! \n\n```bibtex\n@inproceedings{jiang2023vima,\n  title     = {VIMA: General Robot Manipulation with Multimodal Prompts},\n  author    = {Yunfan Jiang and Agrim Gupta and Zichen Zhang and Guanzhi Wang and Yongqiang Dou and Yanjun Chen and Li Fei-Fei and Anima Anandkumar and Yuke Zhu and Linxi Fan},\n  booktitle = {Fortieth International Conference on Machine Learning},\n  year      = {2023}\n}\n```\n","# VIMA：基于多模态提示的通用机器人操作  \n## ICML 2023  \n\u003Cdiv align=\"center\">\n\n[[项目网站]](https:\u002F\u002Fvimalabs.github.io\u002F)  \n[[arXiv]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03094)  \n[[PDF]](https:\u002F\u002Fvimalabs.github.io\u002Fassets\u002Fvima_paper.pdf)  \n[[预训练模型]](#预训练模型)  \n[[基线方法实现]](#基线方法实现)  \n[[VIMA-Bench]](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench)  \n[[训练数据]](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FVIMA\u002FVIMA-Data)  \n[[模型卡片]](model-card.md)\n\n[![Python Version](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPython-3.9-blue.svg)](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA)  \n[\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FFramework-PyTorch-red.svg\"\u002F>](https:\u002F\u002Fpytorch.org\u002F)  \n[![GitHub license](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fvimalabs\u002FVIMA)](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\u002Fblob\u002Fmain\u002FLICENSE)  \n______________________________________________________________________  \n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvimalabs_VIMA_readme_f5fc03053cf3.png)  \n\u003C\u002Fdiv>\n\n基于提示（prompt-based）的学习已在自然语言处理（NLP）中成为一种成功的范式，其中单一的通用语言模型可通过输入提示来执行任意指定任务。然而，不同的机器人任务目前仍由专用模型分别处理。本工作表明，我们可以使用**多模态提示**（multimodal prompts）——即文本与视觉 token 的交错序列——来表达广泛范围的机器人操作任务。\n\n我们提出了 VIMA（**Vi**suo**M**otor **A**ttention agent），这是一种新颖的、可扩展的多任务机器人学习器，通过多模态提示实现了统一的序列输入输出（IO）接口。其架构遵循在 NLP 中已被证明有效且可扩展的编码器-解码器 Transformer 设计。VIMA 使用一个[预训练](https:\u002F\u002Fwww.deepmind.com\u002Fpublications\u002Fmultimodal-few-shot-learning-with-frozen-language-models)的[语言模型](https:\u002F\u002Fai.googleblog.com\u002F2020\u002F02\u002Fexploring-transfer-learning-with-t5.html)对交错的文本和视觉提示 token 序列进行编码，并在每个环境交互步骤中以自回归方式解码机器人控制动作。Transformer 解码器通过交叉注意力（cross-attention）层接收提示信息，这些层与常规的因果自注意力（causal self-attention）层交替堆叠。不同于直接处理原始像素，VIMA 采用以物体为中心（object-centric）的方法：我们使用[现成的检测器](https:\u002F\u002Farxiv.org\u002Fabs\u002F1703.06870)将提示或观测中的所有图像解析为物体，并将其展平为物体 token 序列。上述设计共同构成了一个概念简洁、兼具强大模型与数据扩展能力的架构。\n\n在本仓库中，我们提供了 VIMA 模型代码、覆盖多种模型规模的预训练检查点，以及演示和评估脚本。本代码库采用 [MIT 许可证](LICENSE)。\n\n# 安装  \nVIMA 要求 Python ≥ 3.9。我们已在 Ubuntu 20.04 上完成测试。安装 VIMA 代码库非常简单：\n\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\n```\n\n# 预训练模型  \n我们在 [Hugging Face](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA) 上托管了覆盖多种模型容量的预训练模型。下载链接如下所示。Mask R-CNN 模型可在此处获取：[链接](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002Fmask_rcnn.pth)。\n\n| [200M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F200M.ckpt) | [92M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F92M.ckpt) | [43M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F43M.ckpt) | [20M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F20M.ckpt) | [9M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F9M.ckpt) | [4M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F4M.ckpt) | [2M](https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F2M.ckpt)    |\n|-----------------------------------------------------------------|---------------------------------------------------------------|---------------------------------------------------------------|---------------------------------------------------------------|-------------------------------------------------------------|-------------------------------------------------------------|-----|\n\n# 基线方法实现  \n由于此前尚无方法能直接适用于我们的多模态提示设置，我们尽力选取了若干具有代表性的基于 Transformer 的智能体架构作为基线，并对其重新解释以兼容 VIMA-Bench。这些基线包括 ```VIMA-Gato```、```VIMA-Flamingo``` 和 ```VIMA-GPT```。其实现代码位于 ```policy``` 文件夹中。\n\n# 演示  \n要运行实时演示，请首先按照 [VIMA-Bench 安装说明](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench\u002Ftree\u002Fmain#installation) 安装 [VIMA-Bench](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench)。随后可通过以下命令运行演示：\n\n```bash\npython3 scripts\u002Fexample.py --ckpt={ckpt_path} --device={device} --partition={eval_level} --task={task}\n```\n\n其中 `eval_level` 表示四种评估级别之一，可选值包括 `placement_generalization`（位置泛化）、`combinatorial_generalization`（组合泛化）、`novel_object_generalization`（新物体泛化）和 `novel_task_generalization`（新任务泛化）。`task` 表示具体的任务模板。更多细节请参考 [任务套件](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench\u002Ftree\u002Fmain#task-suite) 和 [基准评估](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench\u002Ftree\u002Fmain#evaluation-benchmark)。例如：\n\n```bash\npython3 scripts\u002Fexample.py --ckpt=200M.ckpt --partition=placement_generalization --task=follow_order\n```\n\n运行上述命令后，应会弹出一个 PyBullet GUI 窗口，同时显示一个小窗口展示多模态提示。随后机械臂将开始移动以完成对应任务。请注意，由于 PyBullet GUI 需要图形显示，此演示在无头（headless）机器上可能无法运行。\n\n# 论文与引用  \n\n我们的论文已发布于 [arXiv](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.03094)。如果您觉得本工作对您有帮助，请考虑引用我们！\n\n```bibtex\n@inproceedings{jiang2023vima,\n  title     = {VIMA: General Robot Manipulation with Multimodal Prompts},\n  author    = {Yunfan Jiang and Agrim Gupta and Zichen Zhang and Guanzhi Wang and Yongqiang Dou and Yanjun Chen and Li Fei-Fei and Anima Anandkumar and Yuke Zhu and Linxi Fan},\n  booktitle = {Fortieth International Conference on Machine Learning},\n  year      = {2023}\n}\n```","# VIMA 快速上手指南\n\n## 环境准备\n\n- **操作系统**：推荐 Ubuntu 20.04（已在该系统测试）\n- **Python 版本**：≥ 3.9\n- **依赖框架**：PyTorch\n- **其他依赖**：安装过程中会自动处理，无需手动配置\n\n> 💡 提示：若在国内访问 GitHub 或 Hugging Face 较慢，建议配置镜像加速（如使用清华源）或通过代理下载模型。\n\n## 安装步骤\n\n直接通过 pip 安装 VIMA：\n\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\n```\n\n> ⚠️ 注意：如遇网络问题，可尝试替换为国内 Git 加速服务（如 `https:\u002F\u002Fghproxy.com\u002Fhttps:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA`）。\n\n此外，运行演示需先安装 [VIMA-Bench](https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench)：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVimaBench.git\ncd VimaBench\npip install -e .\n```\n\n## 基本使用\n\n1. **下载预训练模型**（以 200M 模型为例）：\n   ```bash\n   wget https:\u002F\u002Fhuggingface.co\u002FVIMA\u002FVIMA\u002Fresolve\u002Fmain\u002F200M.ckpt\n   ```\n\n2. **运行示例任务**：\n   ```bash\n   python3 scripts\u002Fexample.py --ckpt=200M.ckpt --device=cpu --partition=placement_generalization --task=follow_order\n   ```\n\n   参数说明：\n   - `--ckpt`：指定预训练模型路径\n   - `--device`：运行设备（如 `cpu` 或 `cuda`）\n   - `--partition`：评估级别，可选 `placement_generalization`、`combinatorial_generalization`、`novel_object_generalization`、`novel_task_generalization`\n   - `--task`：具体任务名称，如 `follow_order`\n\n> 🖥️ 注意：该演示依赖 PyBullet GUI，需在有图形界面的环境中运行，不支持纯命令行（headless）服务器。","某智能仓储实验室正在开发一套通用机械臂系统，用于执行多样化的分拣、装配和包装任务，但面临任务泛化能力差的问题。\n\n### 没有 VIMA 时\n- 每新增一种操作任务（如“将红色积木放入蓝色盒子”），都需要重新收集数据、训练专用模型，开发周期长达数周。\n- 不同任务依赖不同的输入接口：有的靠自然语言指令，有的需预设视觉模板，系统集成复杂且难以统一维护。\n- 对未见过的物体组合或场景布局，模型泛化能力弱，容易失败，需大量人工干预调试。\n- 团队必须为每类任务单独标注动作轨迹和状态映射，数据标注成本高、复用率低。\n\n### 使用 VIMA 后\n- 仅通过多模态提示（如文字指令+示例图像）即可让同一模型执行新任务，无需重新训练，任务部署时间缩短至几分钟。\n- 所有任务统一通过文本与视觉令牌序列输入，接口标准化，大幅简化系统架构和后续扩展。\n- 借助预训练的跨模态理解能力，VIMA 能在少量示例下泛化到新物体和新布局，成功率显著提升。\n- 利用公开的 VIMA-Bench 和预训练模型，团队直接复用高质量训练数据与策略，节省了90%以上的数据标注工作。\n\nVIMA 将机器人操作从“一任务一模型”的定制模式，转变为“一模型多任务”的提示驱动范式，极大提升了开发效率与系统灵活性。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fvimalabs_VIMA_511e3b6b.png","vimalabs","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fvimalabs_ac089454.png",null,"https:\u002F\u002Fgithub.com\u002Fvimalabs",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,846,99,"2026-04-02T20:41:31","MIT","Linux","未说明",{"notes":91,"python":92,"dependencies":93},"仅在 Ubuntu 20.04 上测试过；运行 demo 需要图形界面（PyBullet GUI），不支持无头服务器；需额外安装 VIMA-Bench；使用前需下载预训练模型和 Mask R-CNN 权重文件。","3.9+",[94,95,96,97,98,99,100,101],"torch","transformers","accelerate","pybullet","opencv-python","numpy","Pillow","huggingface-hub",[15,46],4,"2026-03-27T02:49:30.150509","2026-04-06T11:30:51.992735",[107,112,117,122,127,132],{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},239,"如何复现论文中报告的测试结果？为什么我的成功率远低于论文？","测试时应确保使用与训练一致的数据划分和评估设置。特别注意：在训练过程中，旋转相关的损失仅在 Rotation 和 Twist 任务中启用，因为其他任务中物体朝向无关紧要。若多步任务（如 rearrange_then_restore、follow_order 等）表现显著低于论文（差距达20%-60%+），可能是训练数据未充分覆盖复杂序列或动作历史建模不足。建议检查是否使用 L1 级别生成的训练数据（共60万条轨迹用于训练，5万条用于验证），并确认评估脚本正确处理了多步动作依赖。","https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\u002Fissues\u002F34",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},240,"能否提供训练代码或更多训练细节（如硬件配置、训练时间）？","官方暂未开源训练代码，因其与内部代码库耦合较深。但已透露：训练基于 PyTorch-Lightning 与 DDP 实现，使用配备 8 块 V100 GPU 的集群节点，最大模型训练约需一天。训练数据在 L1 级别生成，共 60 万条轨迹用于训练，5 万条用于验证；L4 评估包含 4 个保留任务。","https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\u002Fissues\u002F8",{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},241,"训练时的动作是如何处理的？是否使用真实动作（GT）还是模型预测的动作作为历史输入？","训练时，每个动作步骤的输入序列包含提示词、观测token和**真实（GT）历史动作token**。例如，预测第二步动作时，输入为（prompt + obs1 + GT_action1 + obs2）。但在推理阶段，模型使用自身预测的历史动作而非GT。动作嵌入层从零开始训练，默认使用正态分布初始化，对初始化方式不敏感。","https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\u002Fissues\u002F9",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},242,"运行示例脚本时出现错误：“Model 't5-base' on the Hub doesn't have a tokenizer”，如何解决？","该问题是由于 Hugging Face Transformers 库更新导致 tokenizer.json 无法自动加载。解决方案是手动下载 t5-base 的 tokenizer.json 文件（来自 https:\u002F\u002Fhuggingface.co\u002Ft5-base\u002Ftree\u002Fmain），然后使用 Tokenizer.from_file('tokenizer.json') 替代原来的 Tokenizer.from_pretrained('t5-base')。此外，项目维护者已在 commit d165e53 中修复了与 HF 新版兼容性问题，建议同步最新代码。","https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\u002Fissues\u002F20",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},243,"训练数据集是如何构建的？是否可以获取数据加载接口？","训练数据通过在 L1 分区（placement_generalization）下为13个任务分别创建环境生成，共60万条轨迹用于训练。虽然完整训练代码未开源，但评估脚本（scripts\u002Fexample.py）展示了环境创建和任务加载方式。数据以 pickle 格式存储，无需包含评估级别信息，因训练仅基于 L1。验证集使用剩余的5万条轨迹。","https:\u002F\u002Fgithub.com\u002Fvimalabs\u002FVIMA\u002Fissues\u002F19",{"id":133,"question_zh":134,"answer_zh":135,"source_url":121},244,"训练时如何处理变长动作序列和不同数量的物体？采用什么填充策略？","在批处理训练中，所有样本会被填充至相同的最大动作步数，且每一步中的物体数量也统一填充至该批次的最大值。填充策略确保输入序列长度一致，以便 Transformer 处理。具体实现细节虽未完全公开，但维护者确认这是标准做法，并已在内部高效向量化实现中应用。",[]]