Gym
NeMo Gym 是 NVIDIA 推出的一款开源库,专为构建用于大语言模型(LLM)训练的强化学习(RL)环境而设计。它旨在解决开发者在创建复杂 RL 训练场景时面临的基础设施缺失难题,提供了一套标准化的脚手架,支持多步交互、多轮对话及用户建模等高级场景的快速开发。
通过 NeMo Gym,研究人员和工程师无需精通整个强化学习训练循环的细节,即可独立构建、测试并扩展环境数据收集流程。其独特亮点在于实现了环境与训练框架的解耦,允许用户在脱离具体训练算法的情况下对环境和吞吐量进行端到端验证。此外,它具备出色的互操作性,不仅能无缝对接 NeMo RL、OpenRLHF、Unsloth 等主流训练框架,还集成了 Reasoning Gym 等丰富的现成环境库,特别适用于“基于可验证奖励的强化学习”(RLVR)任务。
该工具主要面向 AI 研究人员、大模型算法工程师及系统开发者。虽然目前处于早期开发阶段,API 仍在演进中,但它为希望加速大模型对齐与推理能力优化的技术团队提供了灵活且高效的基础设施支持,只需标准开发机器即可运行,降低了高性能 RL 环境的构建门槛。
使用场景
某金融科技公司正在训练一个专属的金融合规大模型,需要通过强化学习让模型学会准确引用法规条款并拒绝违规建议。
没有 Gym 时
- 环境搭建繁琐:团队需从零编写代码来模拟多轮对话场景,手动处理用户状态记忆和复杂的法规验证逻辑,耗时数周。
- 测试与训练耦合:每次修改对话规则或奖励机制,都必须重启整个庞大的 RL 训练循环进行端到端测试,迭代效率极低。
- 扩展性差:难以快速复用现有的推理数据集(如 Reasoning Gym),且无法轻松将新构建的环境对接到 OpenRLHF 等不同训练框架中。
- 资源浪费:缺乏标准化的滚动数据收集(rollout collection)机制,导致 GPU 在等待环境响应时空转,算力利用率低下。
使用 Gym 后
- 开发加速:利用 Gym 提供的多步、多轮对话脚手架,团队仅需几天即可构建出包含复杂用户建模的金融合规训练环境。
- 独立验证流程:可以在不启动完整 RL 训练的情况下,单独对环境逻辑和数据吞吐量进行端到端测试,快速发现并修复 Bug。
- 生态无缝集成:直接调用内置的 Reasoning Gym 等资源库,并通过标准接口将环境一键接入 NeMo RL 或 Unsloth 等主流训练框架。
- 高效数据收集:借助自动化的大规模滚动数据收集基础设施,显著提升了样本生成速度,确保昂贵的 GPU 资源始终处于满载训练状态。
Gym 通过标准化环境构建与解耦测试流程,将金融合规模型的强化学习迭代周期从数周缩短至数天,大幅降低了研发门槛与算力成本。
运行环境要求
- Linux (Ubuntu 20.04+)
- macOS (11.0+ x86_64
- 12.0+ Apple Silicon)
- Windows (via WSL2)
- 运行 NeMo Gym 库本身不需要 GPU
- 特定资源服务器或模型推理可能需要(详见各服务器文档),未指定具体型号或显存要求
最低 8GB,推荐 16GB+(针对大型环境)

快速开始
NeMo Gym
要求 • 快速入门 • 可用环境 • 文档与资源 • 社区与支持 • 引用
NeMo Gym 是一个用于构建大型语言模型(LLMs)强化学习(RL)训练环境的库。它提供了开发环境、扩展回放缓集收集以及与您首选的训练框架无缝集成的基础架构。
🏆 为什么选择 NeMo Gym?
- 提供脚手架和模式以加速环境开发:多步、多轮对话以及用户建模场景。
- 即使不具备整个强化学习训练循环的专业知识,也能贡献环境。
- 可独立于强化学习训练循环对环境和吞吐量进行端到端测试。
- 与现有环境、系统和强化学习训练框架兼容。
- 不断增长的基于可验证奖励的强化学习(RLVR)训练环境和数据集集合。
[!重要提示] NeMo Gym 目前仍处于早期开发阶段。您可能会遇到 API 的变化、文档不完整以及偶尔的 bug。我们欢迎您的贡献和反馈——如有任何更改,请先提交 issue 以开启讨论!
🔗 生态系统
NeMo Gym 是 NVIDIA NeMo 平台的一部分,NVIDIA NeMo 是一个由 GPU 加速的生成式 AI 模型构建与训练平台。NeMo Gym 已经与越来越多的强化学习训练框架和环境库集成;有关详细信息和教程,请参阅 生态系统 页面。
训练框架: NeMo RL • OpenRLHF • Unsloth • 更多 →
环境库: Reasoning Gym • Aviary • 更多 →
📋 要求
NeMo Gym 设计为可在标准开发机器上运行:
| 硬件要求 | 软件要求 |
|---|---|
| GPU:运行 NeMo Gym 库无需 GPU • 具体资源服务器或模型推理可能需要 GPU(请参阅各服务器文档) |
操作系统: • Linux(Ubuntu 20.04+ 或等效版本) • macOS(x86_64 架构需 11.0+,Apple Silicon 架构需 12.0+) • Windows(通过 WSL2) |
| CPU:任何现代 x86_64 或 ARM64 处理器(例如 Intel、AMD、Apple Silicon) | Python:3.12 或更高版本 |
| 内存:最低 8 GB(建议 16 GB 以上以应对较大环境) | Git:用于克隆仓库 |
| 存储空间:安装及基本使用至少需要 5 GB 可用空间 | 互联网连接:下载依赖项和访问 API 所需 |
附加要求
- API 密钥:具有可用额度的 OpenAI API 密钥(用于快速入门示例)
- 支持其他模型提供商(Azure OpenAI、通过 vLLM 自托管模型)
- Ray:作为依赖项自动安装,无需单独设置。
🚀 快速入门
安装 NeMo Gym,启动服务器,并收集您的第一批用于强化学习训练的已验证回放数据。
设置
# 克隆仓库
git clone git@github.com:NVIDIA-NeMo/Gym.git
cd Gym
# 安装 UV(Python 包管理器)
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.local/bin/env
# 创建虚拟环境
uv venv --python 3.12
source .venv/bin/activate
# 安装 NeMo Gym
uv sync --extra dev --group docs
配置您的 API 密钥
创建一个 env.yaml 文件,其中包含您的 OpenAI API 密钥以及您想要使用的 策略模型。将 your-openai-api-key 替换为您实际的密钥。此文件有助于将您的密钥信息从版本控制中移除,同时仍使其可供 NeMo Gym 使用。
echo "policy_base_url: https://api.openai.com/v1
policy_api_key: your-openai-api-key
policy_model_name: gpt-4.1-2025-04-14" > env.yaml
[!注释] 在本快速入门中,我们使用 GPT-4.1,因为它延迟较低(无需推理步骤),并且开箱即用即可稳定工作。NeMo Gym 并不限于 OpenAI 模型——您也可以通过 vLLM 使用自托管模型,或使用任何兼容 OpenAI 的推理服务器。有关详细信息,请参阅 文档。
启动服务器
终端 1(启动服务器):
# 启动服务器(将持续运行)
config_paths="resources_servers/example_single_tool_call/configs/example_single_tool_call.yaml,\
responses_api_models/openai_model/configs/openai_model.yaml"
ng_run "+config_paths=[${config_paths}]"
终端 2(与智能体交互):
# 在一个新的终端中激活环境
source .venv/bin/activate
# 与您的智能体交互
python responses_api_agents/simple_agent/client.py
收集回放数据
终端 2(保持终端 1 中的服务器运行):
# 创建一个包含单个查询的简单数据集
echo '{"responses_create_params":{"input":[{"role":"developer","content":"You are a helpful assistant."},{"role":"user","content":"What is the weather in Seattle?"}]}}' > weather_query.jsonl
# 收集已验证的回放数据
ng_collect_rollouts \
+agent_name=example_single_tool_call_simple_agent \
+input_jsonl_fpath=weather_query.jsonl \
+output_jsonl_fpath=weather_rollouts.jsonl
# 查看结果
cat weather_rollouts.jsonl | python -m json.tool
这将生成带有验证分数的训练数据!
关闭服务器
在运行服务器的 终端 1 中,按下 Ctrl+C 以停止 ng_run 进程。
下一步
现在您已经可以生成回放数据了,请选择以下路径之一:
- 开始训练 — 使用 NeMo Gym 和您喜欢的强化学习框架来训练模型。请参阅 训练教程。
- 使用现有环境 — 浏览下方的 可用环境,找到符合您目标的环境。
- 构建自定义环境 — 实现或集成现有工具,并定义任务验证逻辑。您可以从 创建训练环境 教程开始。
📦 可用环境
NeMo Gym 包含一系列精心挑选的环境,适用于多个领域的训练与评估:
示例环境模式
用途:展示 NeMo Gym 的模式和概念。
| 名称 | 展示内容 | 配置 | README |
|---|---|---|---|
| 多步 | 多步工具调用 | example_multi_step.yaml | README |
| 会话状态管理 | 会话状态管理(内存中) | example_session_state_mgmt.yaml | README |
| 单次工具调用 | 基本的单步工具调用 | example_single_tool_call.yaml | README |
用于训练与评估的环境
用途:配备精选数据集的可直接用于训练的环境。
每个资源服务器都包含示例数据、配置文件和测试。详情请参阅各服务器的 README 文件。
“数据集”列链接到公开可用的数据集(例如 HuggingFace 上的数据集)。若显示“-”,则表示训练/验证数据尚未公开发布,或由提供的脚本以程序化方式生成。如果目前尚未发布数据,可以生成新数据,或将该环境用作参考。每个服务器在 data/example.jsonl 中包含 5 个示例任务。
| 资源服务器 | 域 | 描述 | 值 | 训练 | 验证 | 许可证 | 配置 | 数据集 |
|---|---|---|---|---|---|---|---|---|
| Aalcr | 其他 | - | - | - | - | - | aalcr.yaml | - |
| Abstention | rlhf | 使用LLM裁判在HotPotQA数据集上采用三层奖励机制,训练模型在不确定时选择弃权 | 通过奖励弃权而非错误答案来提升校准能力 | ✓ | ✓ | 知识共享署名-相同方式共享4.0国际许可 | abstention.yaml | - |
| Arc Agi | 知识 | 解决旨在测试智能的谜题。详情请参见https://arcprize.org/arc-agi。 | 提升解谜能力。 | - | ✓ | - | arc_agi.yaml | - |
| Aviary | 代理 | 在HotPotQA数据集上进行多跳问答,结合维基百科搜索 | 提升知识与代理能力 | ✓ | ✓ | Apache 2.0 | hotpotqa_aviary.yaml | - |
| Aviary | 数学 | 包含计算器工具的GSM8k基准测试 | 测试数学与代理能力 | ✓ | ✓ | Apache 2.0 | gsm8k_aviary.yaml | - |
| Calendar | 代理 | 多轮日历安排数据集。用户以自然语言描述事件和约束条件;模型需安排事件以满足所有约束。 | 提升多轮指令遵循能力 | ✓ | ✓ | Apache 2.0 | calendar.yaml | Nemotron-RL-agent-calendar_scheduling |
| Calendar | 代理 | 多轮日历安排数据集。用户以自然语言描述事件和约束条件;模型需安排事件以满足所有约束。 | 提升多轮指令遵循能力 | ✓ | ✓ | 知识共享署名4.0国际许可 | calendar_v2.yaml | Nemotron-RL-Instruction-Following-Calendar-v2 |
| Circle Click | 其他 | 点击图像中的圆圈 | 提升视觉定位与空间推理能力 | - | - | - | circle_click.yaml | - |
| Circle Count | 其他 | 统计图像中给定颜色的圆圈数量 | 提升视觉计数与颜色识别能力 | - | - | - | circle_count.yaml | - |
| Code Gen | 编程 | 模型必须提交正确的代码来解决问题 | 提升竞赛编程能力 | ✓ | ✓ | Apache 2.0 | code_gen.yaml | nemotron-RL-coding-competitive_coding |
| Competitive Coding Challenges | 编程 | 执行竞技编程竞赛题目 | 提升竞赛式问题上的编程能力 | - | - | - | competitive_coding_challenges.yaml | - |
| Cvdp | 编程 | CVDP基准数据集用于代码生成 | 评估RTL代码生成能力 | - | ✓ | - | cvdp.yaml | - |
| Equivalence Llm Judge | 代理 | 使用LLM作为裁判的简短Bash命令生成任务 | 提升基础Bash及IF相关能力 | ✓ | ✓ | GNU通用公共许可证v3.0 | nl2bash-equivalency.yaml | - |
| Equivalence Llm Judge | 知识 | 使用LLM作为裁判的简答题 | 提升GPQA/HLE等知识类基准测试 | - | - | - | equivalence_llm_judge.yaml | - |
| Ether0 | 知识 | ether0化学基准验证器 | 利用ether0基准评估化学知识与推理能力 | - | ✓ | - | ether0.yaml | - |
| Finance Sec Search | 代理 | SEC EDGAR文件检索用于财务分析问题 | 使LLM能够搜索并分析SEC文件 | - | - | - | finance_sec_search.yaml | - |
| Format Verification | 指令遵循 | 通过字符串匹配验证模型输出中的引用标记 | 提升对引用格式遵循的指令遵循能力 | ✓ | - | Apache 2.0 | citation_format.yaml | - |
| Format Verification | 指令遵循 | 通过正则表达式模式验证自由格式文本(如项目符号、标题、表格等) | 提升对文本格式约束的指令遵循能力 | ✓ | - | Apache 2.0 | freeform_formatting.yaml | - |
| Genrm Compare | rlhf | 用于RLHF训练的GenRM成对比较 | 使用GenRM模型比较多个候选响应 | - | - | - | genrm_compare.yaml | - |
| Google Search | 代理 | 集成搜索工具的多项选择问答问题 | 结合搜索工具提升知识类基准测试 | ✓ | - | Apache 2.0 | google_search.yaml | Nemotron-RL-knowledge-web_search-mcqa |
| Gpqa Diamond | 知识 | GPQA Diamond多项选择问答题 | 通过MCQ验证评估研究生级别的科学推理能力 | ✓ | - | MIT | gpqa_diamond.yaml | - |
| Ifbench | 指令遵循 | 使用AllenAI的IFBench库(57种指令类型)进行指令遵循评估 | 提升IFBench指令遵循能力 | - | - | - | ifbench.yaml | - |
| Indirect Prompt Injection | 安全 | 多领域工具使用代理的间接提示注入抵抗能力 | 通过教授对包含恶意指令的工具输出的鲁棒性来提升代理安全性 | ✓ | ✓ | Apache 2.0 | indirect_prompt_injection.yaml | - |
| Instruction Following | 指令遵循 | 针对IFEval和IFBench风格指令遵循能力的指令遵循数据集 | 提升IFEval和IFBench表现 | ✓ | - | Apache 2.0 | instruction_following.yaml | Nemotron-RL-instruction_following |
| Jailbreak Detection | 安全 | 使用Nemotron裁判与组合奖励进行越狱检测 | 提升越狱鲁棒性和安全行为准则的执行 | - | - | - | jailbreak_detection_nemotron_combined_reward_tp8.yaml | - |
| Labbench2 Vlm | 知识 | labbench2 VLM基准测试:科学图表/QA(figqa2、tableqa2),由LLM担任裁判 | 衡量VLM在图表和表格上的科学推理能力 | - | ✓ | - | labbench2_vlm.yaml | - |
| Math Advanced Calculations | 代理 | 具有反直觉计算工具的指令遵循数学环境 | 提升特定数学环境下的指令遵循能力 | ✓ | - | Apache 2.0 | math_advanced_calculations.yaml | Nemotron-RL-math-advanced_calculations |
| Math Formal Lean | 数学 | Lean4形式化证明验证环境 | 提升形式化定理证明能力 | ✓ | - | Apache 2.0 | nemotron_clean_easy.yaml | - |
| Math Formal Lean | 数学 | Lean4形式化证明验证环境 | 提升形式化定理证明能力 | ✓ | - | Apache 2.0 | nemotron_first_try_hard.yaml | - |
| Math Formal Lean | 数学 | Lean4形式化证明验证环境 | 提升形式化定理证明能力 | ✓ | - | Apache 2.0 | nemotron_medium_500.yaml | - |
| Math Formal Lean | 数学 | Lean4形式化证明验证环境 | 提升形式化定理证明能力 | ✓ | - | Apache 2.0 | nemotron_very_easy.yaml | - |
| Math Formal Lean | 数学 | Lean4形式化证明验证环境 | 提升形式化定理证明能力 | ✓ | - | MIT | math_formal_lean.yaml | - |
| Math Formal Lean | 数学 | Lean4形式化证明验证环境,具备多轮自我修正功能 | 提升形式化定理证明能力 | ✓ | - | MIT | math_formal_lean_multi_turn.yaml | - |
| Math With Code | 数学 | 模型使用简单计算器工具解决竞技数学问题 | 提升数学与简单工具使用能力 | ✓ | - | Apache 2.0 | math_with_code.yaml | - |
| Math With Judge | 数学 | DAPO17k数学数据集,配有数学验证功能 | 提升包括AIME 24/25在内的数学能力 | ✓ | ✓ | Apache 2.0 | dapo17k.yaml | - |
| Math With Judge | 数学 | MathStackOverflow数学数据集,配有数学验证功能 | 提升包括AIME 24/25在内的数学能力 | ✓ | ✓ | 知识共享署名-相同方式共享4.0国际许可 | math_stack_overflow.yaml | Nemotron-RL-math-stack_overflow |
| Math With Judge | 数学 | OpenMathReasoning数学数据集,配有数学验证和LLM作为裁判 | 提升包括AIME 24/25在内的数学能力 | ✓ | ✓ | 知识共享署名4.0国际许可 | math_with_judge.yaml | Nemotron-RL-math-OpenMathReasoning |
| Mcqa | 知识 | 多项选择问答问题 | 提升MMLU/GPQA/HLE等基准测试 | ✓ | ✓ | Apache 2.0 | mcqa.yaml | Nemotron-RL-knowledge-mcqa |
| Multichallenge | 知识 | 针对推理记忆、指令保留、版本编辑和自我连贯性进行测试。 | 提升复杂的多轮对话能力 | ✓ | - | 知识共享署名4.0国际许可 | multichallenge_nrl.yaml | Nemotron-RL-Instruction-Following-MultiTurnChat-v1 |
| Newton Bench | 数学 | 通过代理式实验,在12个物理领域中完成科学定律发现任务 | 提升科学、推理和工具使用能力 | ✓ | - | Apache 2.0 | newton_bench.yaml | - |
| Ns Tools | 代理 | 使用NeMo Skills工具执行,并进行数学验证 | - | - | - | - | ns_tools.yaml | - |
| Nvarc | 知识 | ARC-AGI归纳模式:模型输出带有transform()的Python代码 | 通过诱导可执行的转换程序来提升ARC-AGI解谜能力 | ✓ | ✓ | Apache 2.0 | inductive.yaml | - |
| Nvarc | 知识 | ARC-AGI演绎模式:模型直接输出网格 | 通过直接预测变换后的网格来提升ARC-AGI解谜能力 | ✓ | ✓ | Apache 2.0 | transductive.yaml | - |
| Openenv | 代理 | 通过OpenEnv(MCP)模拟回声环境。根据消息长度给予奖励,将消息原样返回。 | - | - | - | - | openenv_echo.yaml | - |
| Openenv | 编程 | 通过OpenEnv提供的Python代码执行环境。执行代码并返回stdout/stderr。 | - | - | - | - | openenv_coding.yaml | - |
| Openenv | 游戏 | 通过OpenEnv提供的迷宫导航环境。代理人需要在8x8的网格中找到出口。 | - | - | - | - | openenv_maze.yaml | - |
| Over Refusal Detection | - | - | ✓ | - | 待定 | over_refusal_detection.yaml | - | |
| Proof Genselect | 数学 | 通过二元正确性奖励进行成对证明选择 | - | - | - | - | proof_genselect.yaml | - |
| Proof Judge | 数学 | 使用验证者+元验证者裁判(联合环境)进行定理证明 | - | - | - | - | proof_judge.yaml | - |
| Proof Verification | 数学 | 根据真实情况和元验证者的一致性对证明进行评分 | - | - | - | - | proof_verification.yaml | - |
| Rdkit Chemistry | 知识 | 分子化学问答:计算SMILES的性质。包括使用工具(Python + rdkit)和不使用工具的问题。 | 提升分子推理和SMILES解析能力。 | ✓ | - | 待定 | rdkit_chemistry.yaml | - |
| Reasoning Gym | 知识 | LangGraph编排器代理兼容不使用工具的资源服务器;支持多样化的代理训练数据和测试时间缩放,相比简单代理更具扩展性,可进一步集成工具或其他代理架构 | 通过迭代测试时间缩放提升推理任务性能 | ✓ | - | Apache 2.0 | orchestrator_agent.yaml | - |
| Reasoning Gym | 知识 | LangGraph并行思维代理兼容不使用工具的资源服务器;支持多样化的代理训练数据和测试时间缩放,相比简单代理更具扩展性,可进一步集成工具或其他代理架构 | 通过迭代测试时间缩放提升推理任务性能 | ✓ | - | Apache 2.0 | parallel_thinking_agent.yaml | - |
| Reasoning Gym | 知识 | LangGraph反思代理兼容不使用工具的资源服务器;提供迭代反思,支持多样化的代理训练数据和测试时间缩放,可进一步集成工具或其他代理架构 | 通过迭代测试时间缩放提升推理任务性能 | ✓ | - | Apache 2.0 | reflection_agent.yaml | - |
| Reasoning Gym | 知识 | LangGraphReWOO代理兼容不使用工具的资源服务器;支持多样化的代理训练数据和测试时间缩放,相比简单代理更具扩展性,可进一步集成工具或其他代理架构 | 通过迭代测试时间缩放提升推理任务性能 | ✓ | - | Apache 2.0 | rewoo_agent.yaml | - |
| Reasoning Gym | 知识 | 包含代数、算术、计算、认知、几何、图论、逻辑以及许多常见游戏在内的100多个任务。 | 提升鲁棒性、泛化能力、广博的知识与推理能力 | ✓ | - | 知识共享署名4.0国际许可 | reasoning_gym.yaml | Nemotron-RL-ReasoningGym-v1 |
| Ruler | 其他 | - | - | - | - | - | ruler.yaml | - |
| Single Step Tool Use With Argument Comparison | 代理 | 来自专家轨迹的会话式工具使用强化学习;按步骤克隆行为,涵盖认证、查找和维修等领域。 | - | ✓ | ✓ | 知识共享署名4.0国际许可 | single_step_tool_use_with_argument_comparison.yaml | Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1 |
| Single Step Tool Use With Argument Comparison | 代理 | 通用函数调用强化学习数据集,使用专家轨迹;按步骤克隆行为以匹配专家的工具调用。 | - | ✓ | ✓ | 知识共享署名4.0国际许可 | toolcall_schema_single_step_tool_use_with_argument_comparison.yaml | Nemotron-RL-Agentic-Function-Calling-Pivot-v1 |
| Single Step Tool Use With Argument Comparison | 代理 | 面向软件工程代理的GitHub-issue数据集;从SWE-Gym和SWE-Bench-Verified改编而来,适用于NeMo Gym。 | - | ✓ | ✓ | 知识共享署名4.0国际许可 | swe_pivot_single_step_tool_use_with_argument_comparison.yaml | Nemotron-RL-Agentic-SWE-Pivot-v1 |
| Single Step Tool Use With Argument Comparison | 代理 | 模型必须在涉及搜索工具的给定轨迹中输出下一个正确的调用。 | 提升代理式搜索能力。 | ✓ | ✓ | Apache 2.0 | search_pivot_single_step_tool_use_with_argument_comparison.yaml | - |
| Spider2 Lite | 编程 | 基于执行的评估的Text-to-SQL,使用Spider 2.0-Lite(135个SQLite任务)。根据结果集等价性给予二元奖励。 | 提升面向实际企业查询的Text-to-SQL能力,采用基于执行的二元奖励,无需LLM裁判。 | - | ✓ | - | spider2_lite.yaml | - |
| Structeval | 指令遵循 | StructEval不可渲染格式验证(JSON、YAML、CSV、TOML、XML) | 提升结构化输出生成质量 | ✓ | - | Apache 2.0 | structeval_nonrenderable.yaml | - |
| Structured Outputs | 指令遵循 | 检查响应是否遵循提示中的结构化输出要求 | 提升指令遵循能力 | ✓ | ✓ | Apache 2.0 | structured_outputs_json.yaml | Nemotron-RL-instruction_following-structured_outputs |
| Structured Outputs | 指令遵循 | 检查响应是否遵循提示中的结构化输出要求 | 提升指令遵循能力 | ✓ | ✓ | Apache 2.0 | structured_outputs_json_yaml_xml_v1.yaml | - |
| Structured Outputs | 指令遵循 | 检查响应是否符合结构化输出要求(JSON、YAML、XML、TOML、CSV)。创建于2026年04月09日。 | 提升对所有结构化输出格式的模式遵循能力 | ✓ | - | Apache 2.0 | structured_outputs_v3.yaml | - |
| Swerl Gen | 编程 | 运行沙盒评估,用于SWE风格的任务(生成补丁或重现测试生成)。 | 提升SWE能力,有助于SWE-bench等基准测试 | ✓ | ✓ | Apache 2.0 | swerl_gen.yaml | - |
| Swerl Llm Judge | 编程 | SWE风格的多项选择LLM裁判任务,通过 |
提升SWE能力,有助于SWE-bench等基准测试 | ✓ | ✓ | MIT | swerl_llm_judge.yaml | - |
| Tavily Search | 代理 | 模型使用搜索工具来满足用户查询。 | 衡量代理式搜索能力 | ✓ | ✓ | Apache 2.0 | tavily_search_judge_vllm_model.yaml | - |
| Terminal Multi Harness | 代理 | Agent006 Harness是用于下一步pivot RL的结构化动作验证器。 | - | - | - | - | terminal_multi_harness_agent006.yaml | - |
| Terminal Multi Harness | 代理 | Codex Harness是用于下一步pivot RL的结构化动作验证器。 | - | - | - | - | terminal_multi_harness_codex.yaml | - |
| Terminal Multi Harness | 代理 | OpenCode Harness是用于下一步pivot RL的结构化动作验证器。 | - | - | - | - | terminal_multi_harness_opencode.yaml | - |
| Terminus Judge | 代理 | 单步终端任务(rubrics v4裁判提示) | 改进终端式任务 | ✓ | ✓ | Apache 2.0 | terminus_judge.yaml | - |
| Terminus Judge | 代理 | 单步终端任务(简单裁判提示) | 改进终端式任务 | ✓ | ✓ | Apache 2.0 | terminus_judge_simple.yaml | - |
| Terminus Judge | 代理 | 单步终端任务(仅字符串相似度) | 改进终端式任务 | ✓ | ✓ | Apache 2.0 | terminus_judge_string_only.yaml | - |
| Text To Sql | 编程 | Text-to-SQL生成,由LLM作为裁判进行等价性检查 | 提升跨多种方言的Text-to-SQL能力 | - | - | - | text_to_sql.yaml | - |
| Vlm Eval Kit | 其他 | - | 衡量VLM能力 | - | ✓ | - | MMBench_DEV_EN_V11.yaml | - |
| Vlm Eval Kit | 其他 | - | 衡量VLM能力 | - | ✓ | - | OCRBench.yaml | - |
| Vlm Eval Kit | 其他 | 运行所有支持的VLMEvalKit基准测试。 | 衡量VLM能力 | - | ✓ | - | vlm_eval_kit.yaml | - |
| Workplace Assistant | 代理 | 工作场所助手多步工具使用环境 | 提升多步工具使用能力 | ✓ | ✓ | Apache 2.0 | workplace_assistant.yaml | Nemotron-RL-agent-workplace_assistant |
| Xlam Fc | 代理 | Salesforce xlam-function-calling-60k工具调用任务 | 提升工具调用能力 | ✓ | ✓ | Apache 2.0 | xlam_fc.yaml | - |
| Xstest | 安全 | XSTest安全基准——夸张的安全性(过度拒绝)评估 | 评估模型在助益性与无害性之间的安全校准 | - | - | - | xstest.yaml | - |
📖 文档与资源
🤝 社区与支持
我们非常欢迎您的贡献!以下是参与方式:
📚 引用
如果您在研究中使用了 NeMo Gym,请使用以下 BibTeX 条目进行引用:
@misc{nemo-gym,
title = {NeMo Gym:用于扩展 LLM 强化学习环境的开源库},
howpublished = {\url{https://github.com/NVIDIA-NeMo/Gym}},
author={NVIDIA},
year = {2025},
note = {GitHub 仓库},
}
版本历史
v0.2.12026/04/15v0.2.02026/03/11v0.1.12025/12/15v0.1.02025/11/15常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。