Metaworld

1.8k 342 简单 1 次阅读 2天前MIT其他

AI 解读由 AI 自动生成，仅供参考

Metaworld 是一个专为机器人连续控制任务设计的开源基准测试平台，旨在推动多任务强化学习与元强化学习算法的发展与评估。它提供了一套标准化的机械臂操作环境集合，帮助研究者解决算法在不同任务间泛化能力不足、难以快速适应新目标或新任务等核心难题。

该平台主要面向人工智能研究人员、算法开发者以及机器人领域的工程师。通过内置的 MT1/10/50（多任务）和 ML1/10/45（元学习）等多种基准场景，用户可以灵活测试模型在同时处理多个任务或少样本快速适应方面的表现。Metaworld 的独特亮点在于其完全兼容 Gymnasium API，使得环境创建与交互代码简洁统一，并支持同步与异步多种运行策略，既能满足资源有限的实验需求，也能适配高性能计算场景。无论是验证新算法的理论效果，还是调试机器人控制策略，Metaworld 都能提供可靠且丰富的实验土壤，助力社区共同提升智能体的通用学习能力。

使用场景

某机器人实验室的研究团队正致力于开发一种能灵活适应不同抓取任务的通用机械臂控制算法，急需验证其多任务强化学习模型的有效性。

没有 Metaworld 时

环境搭建耗时巨大：研究人员需手动为每个任务（如开门、推物体、插拔零件）单独编写物理仿真场景，代码重复且极易出错。
评估标准不统一：缺乏标准化的测试集，不同团队甚至组内成员使用的任务分布和评估指标各异，导致算法性能无法横向对比。
泛化能力验证困难：难以构建包含数十种多样化任务的基准测试，无法有效检验模型在面对全新任务时的少样本适应能力。
资源调度复杂：并行训练多个任务时，需自行解决进程同步与环境向量化的技术难题，严重拖慢实验迭代速度。

使用 Metaworld 后

一键调用标准环境：通过 gym.make 即可直接加载 MT10 或 ML45 等内置基准，瞬间获得 50 种标准化机械臂操作任务，免去重复造轮子。
权威对标成为可能：依托社区公认的评测体系，团队能直接将算法结果与前沿论文数据对比，快速定位模型短板。
系统化验证泛化性：利用 ML10/ML45 基准中预设的训练/测试任务划分，科学量化模型在未见任务上的少样本迁移表现。
高效并行训练：借助原生支持的同步或异步向量化环境接口，轻松在单台服务器上并发运行数十个环境，大幅提升采样效率。

Metaworld 将研究人员从繁琐的环境工程中解放出来，使其能专注于核心算法创新，加速了通用机器人智能的落地进程。

运行环境要求

操作系统

Linux
macOS

GPU

未说明

内存

未说明（MT10/MT50 异步模式建议较高计算资源）

依赖

notes官方不支持 Windows，但接受相关 PR。MT10 和 MT50 基准测试提供同步（sync）和异步（async）两种模式，同步模式适合计算资源有限的用户，异步模式将每个环境隔离在独立进程中，适合计算资源充足的用户。

python3.8, 3.9, 3.10, 3.11

gymnasium

metaworld

快速开始

Meta-World 是一个开源基准，用于开发和评估连续控制机器人操作环境中的多任务和元强化学习算法，并提供多种基准来评估强化学习算法的不同方面。

文档网站位于 metaworld.farama.org，我们还有一个公共 Discord 服务器（我们也用它来协调开发工作），你可以通过以下链接加入：https://discord.gg/bnJ6kubTg6

安装

要安装 Meta-World，请使用 pip install metaworld。

我们支持并测试在 Linux 和 macOS 上的 Python 3.8、3.9、3.10 和 3.11。我们会接受与 Windows 相关的 Pull Request，但并不正式支持 Windows。

API

Meta-World 的 API 遵循 Gymnasium 的 API，用于环境的创建和交互。

要创建一个基准并与之交互：

import gymnasium as gym
import metaworld


env = gym.make("Meta-World/MT1", env_name="reach-v3")

observation, info = env.reset()
for _ in range(500):
    action = env.action_space.sample()
    observation, reward, terminated, truncated, info = env.step(action)

env.close()

可用的基准

多任务基准

MT1、MT10 和 MT50 基准是多任务基准。这些基准用于学习能够同时完成 1、10 或 50 个训练任务的多任务策略。MT1 基准可以使用 Meta-World 中提供的 50 个任务中的任意一个来创建。在 MT10 和 MT50 基准中，基准返回的观测值会在状态后附加独热编码的任务 ID。

元学习基准

ML1、ML10 和 ML45 是 Meta-World 中提供的 3 个元强化学习基准。ML1 基准可以使用 Meta-World 中提供的 50 个任务中的任意一个。 ML1 基准测试的是在单个任务内对目标变化的少量样本适应能力。ML10 和 ML45 则测试对新任务的少量样本适应能力。ML10 包含 10 个训练任务和 5 个测试任务，而 ML45 包含 45 个训练任务和 5 个测试任务。

创建多任务基准

MT1

import gymnasium as gym
import metaworld

seed = 42 # 用于可重复性

env = gym.make('Meta-World/MT1', env_name='reach-v3', seed=seed) # 使用 reach 环境的 MT1

obs, info = env.reset()

a = env.action_space.sample() # 随机采样一个动作
obs, reward, truncate, terminate, info = env.step(a) # 应用随机采样的动作

MT10

MT10 有两种不同的版本，可以通过 gym.make 返回。第一种是同步版本，所有环境都包含在同一进程中。对于计算资源有限的用户来说，同步选项所需的资源最少。

import gymnasium as gym
import metaworld

seed = 42

envs = gym.make_vec('Meta-World/MT10', vector_strategy='sync', seed=seed) # 这将返回一个包含 10 个环境的同步向量化环境

obs, info = envs.reset() # 重置所有 10 个环境

a = env.action_space.sample() # 为每个环境采样一个动作

obs, reward, truncate, terminate, info = envs.step(a) # 执行所有 10 个环境的动作

另外，对于计算资源更充足的用户，我们还提供了 MT10 基准的异步版本，其中每个环境都独立运行在自己的进程中，并通过进程间管道进行通信。

envs = gym.make_vec('Meta-World/MT10', vector_strategy='async', seed=seed) # 这将返回一个包含 10 个环境的异步向量化环境

MT50

MT50 也有两种不同的版本，即同步和异步版本的环境。

import gymnasium as gym
import metaworld

seed = 42

envs = gym.make_vec('Meta-World/MT50', vector_strategy='sync', seed=seed) # 这将返回一个包含 50 个环境的同步向量化环境

obs, info = envs.reset() # 重置所有 50 个环境

a = env.action_space.sample() # 为每个环境采样一个动作

obs, reward, truncate, terminate, info = envs.step(a) # 执行所有 50 个环境的动作

envs = gym.make_vec('Meta-World/MT50', vector_strategy='async', seed=seed) # 这将返回一个包含 50 个环境的异步向量化环境

元学习基准

每个元强化学习基准都包含训练环境和测试环境。这些环境必须分别创建，如下所示。

ML1

import gymnasium as gym
import metaworld

seed = 42


train_envs = gym.make('Meta-World/ML1-train', env_name='reach-V3', seed=seed)
test_envs = gym.make('Meta-World/ML1-test', env_name='reach-V3', seed=seed)

# 训练过程使用 train_envs
# 测试过程使用 test_envs

ML10

与多任务基准类似，ML10 和 ML45 的环境也可以以同步或异步模式运行。

import gymnasium as gym
import metaworld

train_envs = gym.make_vec('Meta-World/ML10-train', vector_strategy='sync', seed=seed) # 或者 vector_strategy='async'
test_envs = gym.make_vec('Meta-World/ML10-test', vector_strategy='sync', seed=seed) # 或者 vector_strategy='async'

ML45

import gymnasium as gym
import metaworld

train_envs = gym.make_vec('Meta-World/ML45-train', vector_strategy='sync', seed=seed) # 或者 vector_strategy='async'
test_envs = gym.make_vec('Meta-World/ML45-test', vector_strategy='sync', seed=seed) # 或者 vector_strategy='async'

自定义基准测试

最后，我们还支持通过组合任意数量的 Meta-World 环境来创建自定义基准测试。

前缀 'mt' 将返回适用于多任务强化学习的目标可观察环境，而前缀 'ml' 则会返回适用于元强化学习的部分可观测环境。与内置的 MT 和 ML 基准测试一样，这些环境也可以在同步或异步模式下运行。为了创建自定义基准测试，用户必须提供一个带有 '-v3' 后缀的环境名称列表。

import gymnasium as gym
import metaworld

envs = gym.make_vec('Meta-World/custom-mt-envs',vector_strategy='sync', envs_list=['env_name_1-v3', 'env_name_2-v3', 'env_name_3-v3'], seed=seed) # 或 vector_strategy='async'
envs = gym.make_vec('Meta-World/custom-ml-envs',vector_strategy='sync', envs_list=['env_name_1-v3', 'env_name_2-v3', 'env_name_3-v3'], seed=seed) # 或 vector_strategy='async'

开发路线图

我们为 Gymnasium 的未来开发工作制定了一份路线图，详情请见：https://github.com/Farama-Foundation/Metaworld/issues/500

基准测试代码

用于生成论文中结果的代码可在以下地址找到：https://github.com/rainx0r/metaworld-algorithms

引用方式

您可以使用我们的相关论文（https://openreview.net/forum?id=1de3azE606）来引用 Meta-World，引用格式如下：

@inproceedings{
mclean2025metaworld,
title={Meta-World+: 一种改进的标准化强化学习基准},
author={Reginald McLean、Evangelos Chatzaroulas、Luc McCutcheon、Frank R{\"o}der、Tianhe Yu、Zhanpeng He、K.R. Zentner、Ryan Julian、J K Terry、Isaac Woungang、Nariman Farsad、Pablo Samuel Castro},
booktitle={第三十九届神经信息处理系统大会——数据集与基准赛道},
year={2025},
url={https://openreview.net/forum?id=1de3azE606}
}

Meta-World 快速上手指南

Meta-World 是一个开源基准测试平台，专为开发和评估连续控制机器人操作环境中的多任务（Multi-Task）和元强化学习（Meta-RL）算法而设计。它基于 Gymnasium API 构建，提供了丰富的任务场景。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：推荐 Linux 或 macOS。
- 注：官方目前不正式支持 Windows，但接受相关的 PR。
Python 版本：3.8, 3.9, 3.10, 或 3.11。
前置依赖：建议预先安装 gymnasium（Meta-World 遵循其 API 标准）。

安装步骤

使用 pip 即可直接安装 Meta-World。国内开发者若遇到下载速度慢的问题，推荐使用国内镜像源加速安装。

标准安装命令：

pip install metaworld

使用国内镜像源加速（推荐）：

pip install metaworld -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

Meta-World 完全兼容 Gymnasium 接口。以下是最简单的单任务（MT1）环境使用示例，展示如何创建环境、重置状态并执行随机动作。

import gymnasium as gym
import metaworld

# 设置随机种子以保证结果可复现
seed = 42 

# 创建 MT1 基准环境，指定具体任务为 "reach-v3"
env = gym.make('Meta-World/MT1', env_name='reach-v3', seed=seed)

# 重置环境
obs, info = env.reset()

# 运行一个简单的交互循环
for _ in range(500):
    # 从动作空间中随机采样一个动作
    a = env.action_space.sample()
    
    # 执行动作并获取反馈
    obs, reward, truncate, terminate, info = env.step(a)
    
    # 如果 episode 结束，可选择在此处重置或跳出循环
    if terminate or truncate:
        break

# 关闭环境
env.close()

说明：

Meta-World/MT1：表示单任务基准，您可以将 env_name 替换为 Meta-World 支持的任意 50 个任务之一（如 pick-place-v3）。
对于多任务（MT10/MT50）或元学习（ML1/ML10/ML45）基准，可使用 gym.make_vec 创建向量化环境，并指定 vector_strategy='sync'（同步，节省资源）或 'async'（异步，性能更强）。

版本历史

3.0.02025/06/14

v2.0.02023/06/16

常见问题

为什么环境产生的观测值超出了定义的观测空间范围？

在使用 RLlib 多 worker 并行训练时遇到内存溢出（Memory Overflow）怎么办？

如何在无头（headless）服务器上使用 Gymnasium 的 AsyncVectorEnv 运行 Metaworld 环境？

在无头模式下渲染图像时，为什么连续调用 sim.render() 会得到不同的图像，如何获取稳定的图像观测？

Metaworld 环境的观测空间中某些维度的边界值（如 -inf 或特定数值）是否正确？

如何在保存少量数据的情况下恢复环境状态以重新获取图像观测？

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.3k|★★☆☆☆|昨天

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|1周前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|1周前

其他图像数据工具

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2周前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 75.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2周前

开发框架其他