Gym

836 120 简单 1 次阅读今天Apache-2.0Agent开发框架

AI 解读由 AI 自动生成，仅供参考

NeMo Gym 是 NVIDIA 推出的一款开源库，专为构建用于大语言模型（LLM）训练的强化学习（RL）环境而设计。它旨在解决开发者在创建复杂 RL 训练场景时面临的基础设施缺失难题，提供了一套标准化的脚手架，支持多步交互、多轮对话及用户建模等高级场景的快速开发。

通过 NeMo Gym，研究人员和工程师无需精通整个强化学习训练循环的细节，即可独立构建、测试并扩展环境数据收集流程。其独特亮点在于实现了环境与训练框架的解耦，允许用户在脱离具体训练算法的情况下对环境和吞吐量进行端到端验证。此外，它具备出色的互操作性，不仅能无缝对接 NeMo RL、OpenRLHF、Unsloth 等主流训练框架，还集成了 Reasoning Gym 等丰富的现成环境库，特别适用于“基于可验证奖励的强化学习”（RLVR）任务。

该工具主要面向 AI 研究人员、大模型算法工程师及系统开发者。虽然目前处于早期开发阶段，API 仍在演进中，但它为希望加速大模型对齐与推理能力优化的技术团队提供了灵活且高效的基础设施支持，只需标准开发机器即可运行，降低了高性能 RL 环境的构建门槛。

使用场景

某金融科技公司正在训练一个专属的金融合规大模型，需要通过强化学习让模型学会准确引用法规条款并拒绝违规建议。

没有 Gym 时

环境搭建繁琐：团队需从零编写代码来模拟多轮对话场景，手动处理用户状态记忆和复杂的法规验证逻辑，耗时数周。
测试与训练耦合：每次修改对话规则或奖励机制，都必须重启整个庞大的 RL 训练循环进行端到端测试，迭代效率极低。
扩展性差：难以快速复用现有的推理数据集（如 Reasoning Gym），且无法轻松将新构建的环境对接到 OpenRLHF 等不同训练框架中。
资源浪费：缺乏标准化的滚动数据收集（rollout collection）机制，导致 GPU 在等待环境响应时空转，算力利用率低下。

使用 Gym 后

开发加速：利用 Gym 提供的多步、多轮对话脚手架，团队仅需几天即可构建出包含复杂用户建模的金融合规训练环境。
独立验证流程：可以在不启动完整 RL 训练的情况下，单独对环境逻辑和数据吞吐量进行端到端测试，快速发现并修复 Bug。
生态无缝集成：直接调用内置的 Reasoning Gym 等资源库，并通过标准接口将环境一键接入 NeMo RL 或 Unsloth 等主流训练框架。
高效数据收集：借助自动化的大规模滚动数据收集基础设施，显著提升了样本生成速度，确保昂贵的 GPU 资源始终处于满载训练状态。

Gym 通过标准化环境构建与解耦测试流程，将金融合规模型的强化学习迭代周期从数周缩短至数天，大幅降低了研发门槛与算力成本。

运行环境要求

操作系统

Linux (Ubuntu 20.04+)
macOS (11.0+ x86_64
12.0+ Apple Silicon)
Windows (via WSL2)

GPU

运行 NeMo Gym 库本身不需要 GPU
特定资源服务器或模型推理可能需要（详见各服务器文档），未指定具体型号或显存要求

内存

最低 8GB，推荐 16GB+（针对大型环境）

依赖

notes需要 Git 克隆仓库和互联网连接以下载依赖及访问 API。快速入门示例需要有效的 OpenAI API Key（也支持 Azure OpenAI 或通过 vLLM 自托管模型）。建议使用 uv 管理 Python 环境和依赖。该项目处于早期开发阶段，API 可能变动。

python3.12+

Ray

快速开始

NeMo Gym

要求 • 快速入门 • 可用环境 • 文档与资源 • 社区与支持 • 引用

NeMo Gym 是一个用于构建大型语言模型（LLMs）强化学习（RL）训练环境的库。它提供了开发环境、扩展回放缓集收集以及与您首选的训练框架无缝集成的基础架构。

🏆 为什么选择 NeMo Gym？

提供脚手架和模式以加速环境开发：多步、多轮对话以及用户建模场景。
即使不具备整个强化学习训练循环的专业知识，也能贡献环境。
可独立于强化学习训练循环对环境和吞吐量进行端到端测试。
与现有环境、系统和强化学习训练框架兼容。
不断增长的基于可验证奖励的强化学习（RLVR）训练环境和数据集集合。

[!重要提示] NeMo Gym 目前仍处于早期开发阶段。您可能会遇到 API 的变化、文档不完整以及偶尔的 bug。我们欢迎您的贡献和反馈——如有任何更改，请先提交 issue 以开启讨论！

🔗 生态系统

NeMo Gym 是 NVIDIA NeMo 平台的一部分，NVIDIA NeMo 是一个由 GPU 加速的生成式 AI 模型构建与训练平台。NeMo Gym 已经与越来越多的强化学习训练框架和环境库集成；有关详细信息和教程，请参阅生态系统页面。

训练框架： NeMo RL • OpenRLHF • Unsloth • 更多 →

环境库： Reasoning Gym • Aviary • 更多 →

📋 要求

NeMo Gym 设计为可在标准开发机器上运行：

硬件要求	软件要求
GPU：运行 NeMo Gym 库无需 GPU • 具体资源服务器或模型推理可能需要 GPU（请参阅各服务器文档）	操作系统： • Linux（Ubuntu 20.04+ 或等效版本） • macOS（x86_64 架构需 11.0+，Apple Silicon 架构需 12.0+） • Windows（通过 WSL2）
CPU：任何现代 x86_64 或 ARM64 处理器（例如 Intel、AMD、Apple Silicon）	Python：3.12 或更高版本
内存：最低 8 GB（建议 16 GB 以上以应对较大环境）	Git：用于克隆仓库
存储空间：安装及基本使用至少需要 5 GB 可用空间	互联网连接：下载依赖项和访问 API 所需

附加要求

API 密钥：具有可用额度的 OpenAI API 密钥（用于快速入门示例）
- 支持其他模型提供商（Azure OpenAI、通过 vLLM 自托管模型）
Ray：作为依赖项自动安装，无需单独设置。

🚀 快速入门

安装 NeMo Gym，启动服务器，并收集您的第一批用于强化学习训练的已验证回放数据。

设置

# 克隆仓库
git clone git@github.com:NVIDIA-NeMo/Gym.git
cd Gym

# 安装 UV（Python 包管理器）
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.local/bin/env

# 创建虚拟环境
uv venv --python 3.12
source .venv/bin/activate

# 安装 NeMo Gym
uv sync --extra dev --group docs

配置您的 API 密钥

创建一个 env.yaml 文件，其中包含您的 OpenAI API 密钥以及您想要使用的策略模型。将 your-openai-api-key 替换为您实际的密钥。此文件有助于将您的密钥信息从版本控制中移除，同时仍使其可供 NeMo Gym 使用。

echo "policy_base_url: https://api.openai.com/v1
policy_api_key: your-openai-api-key
policy_model_name: gpt-4.1-2025-04-14" > env.yaml

[!注释] 在本快速入门中，我们使用 GPT-4.1，因为它延迟较低（无需推理步骤），并且开箱即用即可稳定工作。NeMo Gym 并不限于 OpenAI 模型——您也可以通过 vLLM 使用自托管模型，或使用任何兼容 OpenAI 的推理服务器。有关详细信息，请参阅文档。

启动服务器

终端 1（启动服务器）：

# 启动服务器（将持续运行）
config_paths="resources_servers/example_single_tool_call/configs/example_single_tool_call.yaml,\
responses_api_models/openai_model/configs/openai_model.yaml"
ng_run "+config_paths=[${config_paths}]"

终端 2（与智能体交互）：

# 在一个新的终端中激活环境
source .venv/bin/activate

# 与您的智能体交互
python responses_api_agents/simple_agent/client.py

收集回放数据

终端 2（保持终端 1 中的服务器运行）：

# 创建一个包含单个查询的简单数据集
echo '{"responses_create_params":{"input":[{"role":"developer","content":"You are a helpful assistant."},{"role":"user","content":"What is the weather in Seattle?"}]}}' > weather_query.jsonl

# 收集已验证的回放数据
ng_collect_rollouts \
    +agent_name=example_single_tool_call_simple_agent \
    +input_jsonl_fpath=weather_query.jsonl \
    +output_jsonl_fpath=weather_rollouts.jsonl

# 查看结果
cat weather_rollouts.jsonl | python -m json.tool

这将生成带有验证分数的训练数据！

关闭服务器

在运行服务器的 终端 1 中，按下 Ctrl+C 以停止 ng_run 进程。

下一步

现在您已经可以生成回放数据了，请选择以下路径之一：

开始训练 — 使用 NeMo Gym 和您喜欢的强化学习框架来训练模型。请参阅训练教程。
使用现有环境 — 浏览下方的可用环境，找到符合您目标的环境。
构建自定义环境 — 实现或集成现有工具，并定义任务验证逻辑。您可以从创建训练环境教程开始。

📦 可用环境

NeMo Gym 包含一系列精心挑选的环境，适用于多个领域的训练与评估：

示例环境模式

用途：展示 NeMo Gym 的模式和概念。

名称	展示内容	配置	README
多步	多步工具调用	example_multi_step.yaml	README
会话状态管理	会话状态管理（内存中）	example_session_state_mgmt.yaml	README
单次工具调用	基本的单步工具调用	example_single_tool_call.yaml	README

用于训练与评估的环境

用途：配备精选数据集的可直接用于训练的环境。

每个资源服务器都包含示例数据、配置文件和测试。详情请参阅各服务器的 README 文件。

“数据集”列链接到公开可用的数据集（例如 HuggingFace 上的数据集）。若显示“-”，则表示训练/验证数据尚未公开发布，或由提供的脚本以程序化方式生成。如果目前尚未发布数据，可以生成新数据，或将该环境用作参考。每个服务器在 data/example.jsonl 中包含 5 个示例任务。

资源服务器	域	描述	值	训练	验证	许可证	配置	数据集
Aalcr	其他	-	-	-	-	-	aalcr.yaml	-
Abstention	rlhf	使用LLM裁判在HotPotQA数据集上采用三层奖励机制，训练模型在不确定时选择弃权	通过奖励弃权而非错误答案来提升校准能力	✓	✓	知识共享署名-相同方式共享4.0国际许可	abstention.yaml	-
Arc Agi	知识	解决旨在测试智能的谜题。详情请参见https://arcprize.org/arc-agi。	提升解谜能力。	-	✓	-	arc_agi.yaml	-
Aviary	代理	在HotPotQA数据集上进行多跳问答，结合维基百科搜索	提升知识与代理能力	✓	✓	Apache 2.0	hotpotqa_aviary.yaml	-
Aviary	数学	包含计算器工具的GSM8k基准测试	测试数学与代理能力	✓	✓	Apache 2.0	gsm8k_aviary.yaml	-
Calendar	代理	多轮日历安排数据集。用户以自然语言描述事件和约束条件；模型需安排事件以满足所有约束。	提升多轮指令遵循能力	✓	✓	Apache 2.0	calendar.yaml	Nemotron-RL-agent-calendar_scheduling
Calendar	代理	多轮日历安排数据集。用户以自然语言描述事件和约束条件；模型需安排事件以满足所有约束。	提升多轮指令遵循能力	✓	✓	知识共享署名4.0国际许可	calendar_v2.yaml	Nemotron-RL-Instruction-Following-Calendar-v2
Circle Click	其他	点击图像中的圆圈	提升视觉定位与空间推理能力	-	-	-	circle_click.yaml	-
Circle Count	其他	统计图像中给定颜色的圆圈数量	提升视觉计数与颜色识别能力	-	-	-	circle_count.yaml	-
Code Gen	编程	模型必须提交正确的代码来解决问题	提升竞赛编程能力	✓	✓	Apache 2.0	code_gen.yaml	nemotron-RL-coding-competitive_coding
Competitive Coding Challenges	编程	执行竞技编程竞赛题目	提升竞赛式问题上的编程能力	-	-	-	competitive_coding_challenges.yaml	-
Cvdp	编程	CVDP基准数据集用于代码生成	评估RTL代码生成能力	-	✓	-	cvdp.yaml	-
Equivalence Llm Judge	代理	使用LLM作为裁判的简短Bash命令生成任务	提升基础Bash及IF相关能力	✓	✓	GNU通用公共许可证v3.0	nl2bash-equivalency.yaml	-
Equivalence Llm Judge	知识	使用LLM作为裁判的简答题	提升GPQA/HLE等知识类基准测试	-	-	-	equivalence_llm_judge.yaml	-
Ether0	知识	ether0化学基准验证器	利用ether0基准评估化学知识与推理能力	-	✓	-	ether0.yaml	-
Finance Sec Search	代理	SEC EDGAR文件检索用于财务分析问题	使LLM能够搜索并分析SEC文件	-	-	-	finance_sec_search.yaml	-
Format Verification	指令遵循	通过字符串匹配验证模型输出中的引用标记	提升对引用格式遵循的指令遵循能力	✓	-	Apache 2.0	citation_format.yaml	-
Format Verification	指令遵循	通过正则表达式模式验证自由格式文本（如项目符号、标题、表格等）	提升对文本格式约束的指令遵循能力	✓	-	Apache 2.0	freeform_formatting.yaml	-
Genrm Compare	rlhf	用于RLHF训练的GenRM成对比较	使用GenRM模型比较多个候选响应	-	-	-	genrm_compare.yaml	-
Google Search	代理	集成搜索工具的多项选择问答问题	结合搜索工具提升知识类基准测试	✓	-	Apache 2.0	google_search.yaml	Nemotron-RL-knowledge-web_search-mcqa
Gpqa Diamond	知识	GPQA Diamond多项选择问答题	通过MCQ验证评估研究生级别的科学推理能力	✓	-	MIT	gpqa_diamond.yaml	-
Ifbench	指令遵循	使用AllenAI的IFBench库（57种指令类型）进行指令遵循评估	提升IFBench指令遵循能力	-	-	-	ifbench.yaml	-
Indirect Prompt Injection	安全	多领域工具使用代理的间接提示注入抵抗能力	通过教授对包含恶意指令的工具输出的鲁棒性来提升代理安全性	✓	✓	Apache 2.0	indirect_prompt_injection.yaml	-
Instruction Following	指令遵循	针对IFEval和IFBench风格指令遵循能力的指令遵循数据集	提升IFEval和IFBench表现	✓	-	Apache 2.0	instruction_following.yaml	Nemotron-RL-instruction_following
Jailbreak Detection	安全	使用Nemotron裁判与组合奖励进行越狱检测	提升越狱鲁棒性和安全行为准则的执行	-	-	-	jailbreak_detection_nemotron_combined_reward_tp8.yaml	-
Labbench2 Vlm	知识	labbench2 VLM基准测试：科学图表/QA（figqa2、tableqa2），由LLM担任裁判	衡量VLM在图表和表格上的科学推理能力	-	✓	-	labbench2_vlm.yaml	-
Math Advanced Calculations	代理	具有反直觉计算工具的指令遵循数学环境	提升特定数学环境下的指令遵循能力	✓	-	Apache 2.0	math_advanced_calculations.yaml	Nemotron-RL-math-advanced_calculations
Math Formal Lean	数学	Lean4形式化证明验证环境	提升形式化定理证明能力	✓	-	Apache 2.0	nemotron_clean_easy.yaml	-
Math Formal Lean	数学	Lean4形式化证明验证环境	提升形式化定理证明能力	✓	-	Apache 2.0	nemotron_first_try_hard.yaml	-
Math Formal Lean	数学	Lean4形式化证明验证环境	提升形式化定理证明能力	✓	-	Apache 2.0	nemotron_medium_500.yaml	-
Math Formal Lean	数学	Lean4形式化证明验证环境	提升形式化定理证明能力	✓	-	Apache 2.0	nemotron_very_easy.yaml	-
Math Formal Lean	数学	Lean4形式化证明验证环境	提升形式化定理证明能力	✓	-	MIT	math_formal_lean.yaml	-
Math Formal Lean	数学	Lean4形式化证明验证环境，具备多轮自我修正功能	提升形式化定理证明能力	✓	-	MIT	math_formal_lean_multi_turn.yaml	-
Math With Code	数学	模型使用简单计算器工具解决竞技数学问题	提升数学与简单工具使用能力	✓	-	Apache 2.0	math_with_code.yaml	-
Math With Judge	数学	DAPO17k数学数据集，配有数学验证功能	提升包括AIME 24/25在内的数学能力	✓	✓	Apache 2.0	dapo17k.yaml	-
Math With Judge	数学	MathStackOverflow数学数据集，配有数学验证功能	提升包括AIME 24/25在内的数学能力	✓	✓	知识共享署名-相同方式共享4.0国际许可	math_stack_overflow.yaml	Nemotron-RL-math-stack_overflow
Math With Judge	数学	OpenMathReasoning数学数据集，配有数学验证和LLM作为裁判	提升包括AIME 24/25在内的数学能力	✓	✓	知识共享署名4.0国际许可	math_with_judge.yaml	Nemotron-RL-math-OpenMathReasoning
Mcqa	知识	多项选择问答问题	提升MMLU/GPQA/HLE等基准测试	✓	✓	Apache 2.0	mcqa.yaml	Nemotron-RL-knowledge-mcqa
Multichallenge	知识	针对推理记忆、指令保留、版本编辑和自我连贯性进行测试。	提升复杂的多轮对话能力	✓	-	知识共享署名4.0国际许可	multichallenge_nrl.yaml	Nemotron-RL-Instruction-Following-MultiTurnChat-v1
Newton Bench	数学	通过代理式实验，在12个物理领域中完成科学定律发现任务	提升科学、推理和工具使用能力	✓	-	Apache 2.0	newton_bench.yaml	-
Ns Tools	代理	使用NeMo Skills工具执行，并进行数学验证	-	-	-	-	ns_tools.yaml	-
Nvarc	知识	ARC-AGI归纳模式：模型输出带有transform()的Python代码	通过诱导可执行的转换程序来提升ARC-AGI解谜能力	✓	✓	Apache 2.0	inductive.yaml	-
Nvarc	知识	ARC-AGI演绎模式：模型直接输出网格	通过直接预测变换后的网格来提升ARC-AGI解谜能力	✓	✓	Apache 2.0	transductive.yaml	-
Openenv	代理	通过OpenEnv（MCP）模拟回声环境。根据消息长度给予奖励，将消息原样返回。	-	-	-	-	openenv_echo.yaml	-
Openenv	编程	通过OpenEnv提供的Python代码执行环境。执行代码并返回stdout/stderr。	-	-	-	-	openenv_coding.yaml	-
Openenv	游戏	通过OpenEnv提供的迷宫导航环境。代理人需要在8x8的网格中找到出口。	-	-	-	-	openenv_maze.yaml	-
Over Refusal Detection		-	-	✓	-	待定	over_refusal_detection.yaml	-
Proof Genselect	数学	通过二元正确性奖励进行成对证明选择	-	-	-	-	proof_genselect.yaml	-
Proof Judge	数学	使用验证者+元验证者裁判（联合环境）进行定理证明	-	-	-	-	proof_judge.yaml	-
Proof Verification	数学	根据真实情况和元验证者的一致性对证明进行评分	-	-	-	-	proof_verification.yaml	-
Rdkit Chemistry	知识	分子化学问答：计算SMILES的性质。包括使用工具（Python + rdkit）和不使用工具的问题。	提升分子推理和SMILES解析能力。	✓	-	待定	rdkit_chemistry.yaml	-
Reasoning Gym	知识	LangGraph编排器代理兼容不使用工具的资源服务器；支持多样化的代理训练数据和测试时间缩放，相比简单代理更具扩展性，可进一步集成工具或其他代理架构	通过迭代测试时间缩放提升推理任务性能	✓	-	Apache 2.0	orchestrator_agent.yaml	-
Reasoning Gym	知识	LangGraph并行思维代理兼容不使用工具的资源服务器；支持多样化的代理训练数据和测试时间缩放，相比简单代理更具扩展性，可进一步集成工具或其他代理架构	通过迭代测试时间缩放提升推理任务性能	✓	-	Apache 2.0	parallel_thinking_agent.yaml	-
Reasoning Gym	知识	LangGraph反思代理兼容不使用工具的资源服务器；提供迭代反思，支持多样化的代理训练数据和测试时间缩放，可进一步集成工具或其他代理架构	通过迭代测试时间缩放提升推理任务性能	✓	-	Apache 2.0	reflection_agent.yaml	-
Reasoning Gym	知识	LangGraphReWOO代理兼容不使用工具的资源服务器；支持多样化的代理训练数据和测试时间缩放，相比简单代理更具扩展性，可进一步集成工具或其他代理架构	通过迭代测试时间缩放提升推理任务性能	✓	-	Apache 2.0	rewoo_agent.yaml	-
Reasoning Gym	知识	包含代数、算术、计算、认知、几何、图论、逻辑以及许多常见游戏在内的100多个任务。	提升鲁棒性、泛化能力、广博的知识与推理能力	✓	-	知识共享署名4.0国际许可	reasoning_gym.yaml	Nemotron-RL-ReasoningGym-v1
Ruler	其他	-	-	-	-	-	ruler.yaml	-
Single Step Tool Use With Argument Comparison	代理	来自专家轨迹的会话式工具使用强化学习；按步骤克隆行为，涵盖认证、查找和维修等领域。	-	✓	✓	知识共享署名4.0国际许可	single_step_tool_use_with_argument_comparison.yaml	Nemotron-RL-Agentic-Conversational-Tool-Use-Pivot-v1
Single Step Tool Use With Argument Comparison	代理	通用函数调用强化学习数据集，使用专家轨迹；按步骤克隆行为以匹配专家的工具调用。	-	✓	✓	知识共享署名4.0国际许可	toolcall_schema_single_step_tool_use_with_argument_comparison.yaml	Nemotron-RL-Agentic-Function-Calling-Pivot-v1
Single Step Tool Use With Argument Comparison	代理	面向软件工程代理的GitHub-issue数据集；从SWE-Gym和SWE-Bench-Verified改编而来，适用于NeMo Gym。	-	✓	✓	知识共享署名4.0国际许可	swe_pivot_single_step_tool_use_with_argument_comparison.yaml	Nemotron-RL-Agentic-SWE-Pivot-v1
Single Step Tool Use With Argument Comparison	代理	模型必须在涉及搜索工具的给定轨迹中输出下一个正确的调用。	提升代理式搜索能力。	✓	✓	Apache 2.0	search_pivot_single_step_tool_use_with_argument_comparison.yaml	-
Spider2 Lite	编程	基于执行的评估的Text-to-SQL，使用Spider 2.0-Lite（135个SQLite任务）。根据结果集等价性给予二元奖励。	提升面向实际企业查询的Text-to-SQL能力，采用基于执行的二元奖励，无需LLM裁判。	-	✓	-	spider2_lite.yaml	-
Structeval	指令遵循	StructEval不可渲染格式验证（JSON、YAML、CSV、TOML、XML）	提升结构化输出生成质量	✓	-	Apache 2.0	structeval_nonrenderable.yaml	-
Structured Outputs	指令遵循	检查响应是否遵循提示中的结构化输出要求	提升指令遵循能力	✓	✓	Apache 2.0	structured_outputs_json.yaml	Nemotron-RL-instruction_following-structured_outputs
Structured Outputs	指令遵循	检查响应是否遵循提示中的结构化输出要求	提升指令遵循能力	✓	✓	Apache 2.0	structured_outputs_json_yaml_xml_v1.yaml	-
Structured Outputs	指令遵循	检查响应是否符合结构化输出要求（JSON、YAML、XML、TOML、CSV）。创建于2026年04月09日。	提升对所有结构化输出格式的模式遵循能力	✓	-	Apache 2.0	structured_outputs_v3.yaml	-
Swerl Gen	编程	运行沙盒评估，用于SWE风格的任务（生成补丁或重现测试生成）。	提升SWE能力，有助于SWE-bench等基准测试	✓	✓	Apache 2.0	swerl_gen.yaml	-
Swerl Llm Judge	编程	SWE风格的多项选择LLM裁判任务，通过...选项进行评分。	提升SWE能力，有助于SWE-bench等基准测试	✓	✓	MIT	swerl_llm_judge.yaml	-
Tavily Search	代理	模型使用搜索工具来满足用户查询。	衡量代理式搜索能力	✓	✓	Apache 2.0	tavily_search_judge_vllm_model.yaml	-
Terminal Multi Harness	代理	Agent006 Harness是用于下一步pivot RL的结构化动作验证器。	-	-	-	-	terminal_multi_harness_agent006.yaml	-
Terminal Multi Harness	代理	Codex Harness是用于下一步pivot RL的结构化动作验证器。	-	-	-	-	terminal_multi_harness_codex.yaml	-
Terminal Multi Harness	代理	OpenCode Harness是用于下一步pivot RL的结构化动作验证器。	-	-	-	-	terminal_multi_harness_opencode.yaml	-
Terminus Judge	代理	单步终端任务（rubrics v4裁判提示）	改进终端式任务	✓	✓	Apache 2.0	terminus_judge.yaml	-
Terminus Judge	代理	单步终端任务（简单裁判提示）	改进终端式任务	✓	✓	Apache 2.0	terminus_judge_simple.yaml	-
Terminus Judge	代理	单步终端任务（仅字符串相似度）	改进终端式任务	✓	✓	Apache 2.0	terminus_judge_string_only.yaml	-
Text To Sql	编程	Text-to-SQL生成，由LLM作为裁判进行等价性检查	提升跨多种方言的Text-to-SQL能力	-	-	-	text_to_sql.yaml	-
Vlm Eval Kit	其他	-	衡量VLM能力	-	✓	-	MMBench_DEV_EN_V11.yaml	-
Vlm Eval Kit	其他	-	衡量VLM能力	-	✓	-	OCRBench.yaml	-
Vlm Eval Kit	其他	运行所有支持的VLMEvalKit基准测试。	衡量VLM能力	-	✓	-	vlm_eval_kit.yaml	-
Workplace Assistant	代理	工作场所助手多步工具使用环境	提升多步工具使用能力	✓	✓	Apache 2.0	workplace_assistant.yaml	Nemotron-RL-agent-workplace_assistant
Xlam Fc	代理	Salesforce xlam-function-calling-60k工具调用任务	提升工具调用能力	✓	✓	Apache 2.0	xlam_fc.yaml	-
Xstest	安全	XSTest安全基准——夸张的安全性（过度拒绝）评估	评估模型在助益性与无害性之间的安全校准	-	-	-	xstest.yaml	-

📖 文档与资源

文档 - 技术参考文档
训练教程 - 使用 NeMo Gym 环境进行训练
API 参考 - 完整的类和函数参考

🤝 社区与支持

我们非常欢迎您的贡献！以下是参与方式：

报告问题 - Bug 报告和功能请求
贡献指南 - 如何贡献代码、文档、新环境或训练框架集成

📚 引用

如果您在研究中使用了 NeMo Gym，请使用以下 BibTeX 条目进行引用：

@misc{nemo-gym,
  title = {NeMo Gym：用于扩展 LLM 强化学习环境的开源库},
  howpublished = {\url{https://github.com/NVIDIA-NeMo/Gym}},
  author={NVIDIA},
  year = {2025},
  note = {GitHub 仓库},
}

NeMo Gym 快速上手指南

NeMo Gym 是一个用于构建大语言模型（LLM）强化学习（RL）训练环境的库。它提供了开发环境、扩展数据采集以及与主流训练框架集成的基础设施。

环境准备

在开始之前，请确保您的开发机器满足以下软硬件要求：

硬件要求

GPU: 运行 NeMo Gym 库本身不需要 GPU。但在连接特定的资源服务器或进行模型推理时可能需要（视具体配置而定）。
CPU: 任何现代 x86_64 或 ARM64 处理器（如 Intel, AMD, Apple Silicon）。
内存: 最低 8 GB（大型环境建议 16 GB+）。
存储: 至少 5 GB 可用磁盘空间。

软件要求

操作系统:
- Linux (Ubuntu 20.04+)
- macOS (Intel 芯片需 11.0+, Apple Silicon 需 12.0+)
- Windows (需通过 WSL2)
Python: 3.12 或更高版本。
Git: 用于克隆代码仓库。
网络: 需要互联网连接以下载依赖和访问 API。

前置依赖与密钥

API Key: 本指南示例使用 OpenAI API，请准备一个有效的 OPENAI_API_KEY。
- 注：也支持 Azure OpenAI 或通过 vLLM 部署的自托管模型。
Ray: 安装过程中会自动作为依赖项安装，无需单独配置。

安装步骤

推荐使用 uv 作为 Python 包管理器以获得更快的安装速度。

1. 克隆仓库

git clone git@github.com:NVIDIA-NeMo/Gym.git
cd Gym

2. 安装 UV 并创建虚拟环境

# 安装 UV
curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.local/bin/env

# 创建 Python 3.12 虚拟环境
uv venv --python 3.12
source .venv/bin/activate

# 安装 NeMo Gym (包含开发和文档依赖)
uv sync --extra dev --group docs

3. 配置 API 密钥

创建名为 env.yaml 的配置文件，填入您的 API 密钥和希望使用的策略模型。此文件可避免将敏感信息提交到版本控制中。

echo "policy_base_url: https://api.openai.com/v1
policy_api_key: your-openai-api-key
policy_model_name: gpt-4.1-2025-04-14" > env.yaml

注意: 请将 your-openai-api-key 替换为您真实的密钥。示例中使用 gpt-4.1-2025-04-14 是因为其延迟低且开箱即用，您也可以替换为其他兼容 OpenAI 接口的模型地址。

基本使用

本部分演示如何启动服务、与代理交互并收集用于 RL 训练的验证数据（Rollouts）。您需要打开两个终端窗口。

第一步：启动资源服务器

在 终端 1 中运行以下命令启动服务器（该进程将保持运行）：

config_paths="resources_servers/example_single_tool_call/configs/example_single_tool_call.yaml,\
responses_api_models/openai_model/configs/openai_model.yaml"
ng_run "+config_paths=[${config_paths}]"

第二步：测试代理交互

在 终端 2 中激活虚拟环境并与代理进行简单交互，确认服务正常：

# 激活环境
source .venv/bin/activate

# 运行简易客户端进行测试
python responses_api_agents/simple_agent/client.py

第三步：收集验证数据 (Rollouts)

保持 终端 1 的服务器运行，在 终端 2 中执行以下操作以生成训练数据：

创建查询文件：

echo '{"responses_create_params":{"input":[{"role":"developer","content":"You are a helpful assistant."},{"role":"user","content":"What is the weather in Seattle?"}]}}' > weather_query.jsonl

执行收集命令：

ng_collect_rollouts \
    +agent_name=example_single_tool_call_simple_agent \
    +input_jsonl_fpath=weather_query.jsonl \
    +output_jsonl_fpath=weather_rollouts.jsonl

查看结果：
```
cat weather_rollouts.jsonl | python -m json.tool
```
输出将包含带有验证分数的训练数据。

清理

完成测试后，在 终端 1 中按 Ctrl+C 停止 ng_run 进程。

下一步

现在您已经成功生成了 Rollouts，可以选择以下路径继续：

开始训练: 结合 NeMo RL、OpenRLHF 或 Unsloth 等框架进行模型训练。
使用现有环境: 浏览官方提供的多步工具调用、会话状态管理等预设环境。
构建自定义环境: 参考文档实现自定义工具集成和任务验证逻辑。

版本历史

v0.2.12026/04/15

v0.2.02026/03/11

v0.1.12025/12/15

v0.1.02025/11/15

常见问题

如何在 NeMo Gym 中同时支持开启和关闭推理（thinking on/off）模式的混合训练？

如何配置和使用 vLLM 作为模型服务后端（而非 OpenAI Responses API）？

NeMo Gym 是否支持 Unsloth 集成？目前的支持范围是什么？

在 macOS 上运行 NeMo Gym 时遇到 "ModuleNotFoundError: No module named 'nemo_gym'" 错误怎么办？

如何在 NeMo Gym 中配置 Azure OpenAI 模型服务？

运行 Unsloth 教程笔记本时遇到缺失模块错误或张量尺寸不匹配错误如何解决？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 159.6k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|昨天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|1周前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像