Nemotron

906 192 较难 1 次阅读今天Apache-2.0Agent开发框架图像

AI 解读由 AI 自动生成，仅供参考

Nemotron 是英伟达推出的开源模型家族及开发者资源中心，专为构建高效的"AI 智能体”而设计。它不仅仅是一组预训练模型，更是一个提供从原始数据到最终部署全流程解决方案的一站式平台。

针对开发者在复现大模型训练时面临的流程割裂、数据质量难把控以及部署环境复杂等痛点，Nemotron 提供了完全透明的训练配方（Recipes）、详细的使用指南（Cookbooks）以及端到端的应用示例。无论是希望从零开始训练或微调模型的研究人员，还是需要将模型快速落地到边缘设备、单卡服务器或数据中心的企业开发者，都能在此找到可复现的完整流水线。

其核心技术亮点在于“开放”与“高效”的完美结合：不仅公开了训练数据、技术和权重以促进社区创新，还通过模型剪枝和 TensorRT-LLM 优化显著提升了推理吞吐量。Nemotron 系列包含 Nano、Super 和 Ultra 三个层级，分别适配边缘端、单 GPU 及多 GPU 集群场景，在代码生成、数学推理、工具调用及视觉理解等任务上表现卓越。借助对 NeMo、vLLM 及 NIM 微服务的广泛支持，用户能够灵活地将高性能 AI 能力集成到各类实际应用中。

使用场景

某金融科技团队正试图构建一个能自动分析财报、调用内部数据库并生成投资建议的 AI 智能体，以辅助分析师决策。

没有 Nemotron 时

模型黑盒难调优：团队只能使用闭源模型或缺乏透明训练数据的开源模型，遇到金融术语理解偏差时，无法追溯根源或针对性复现训练过程。
部署效率低下：自行优化的模型在单张 GPU 上推理延迟高，难以满足实时交互需求，且缺乏针对 TensorRT-LLM 的原生优化方案。
智能体开发门槛高：从零搭建工具调用（Tool Calling）和逻辑推理链路耗时数周，缺乏经过验证的端到端参考示例，导致项目反复试错。
资源适配困难：找不到既能跑在边缘设备又能平滑扩展至数据中心的统一模型架构，被迫维护多套代码库。

使用 Nemotron 后

全流程可复现：利用 Nemotron 提供的完整训练配方（Training Recipes），团队基于透明数据微调出精通金融领域的专用模型，精准修正了推理偏差。
极致推理性能：直接采用经 TensorRT-LLM 优化的 Nemotron Super 模型，在单卡环境下实现了高吞吐量低延迟部署，响应速度提升显著。
快速落地应用：参考官方“用例示例”中的智能体工作流代码，几天内便完成了包含检索增强生成（RAG）和复杂工具调用的原型开发。
灵活弹性伸缩：凭借 Nemotron 统一的模型层级（Nano 到 Ultra），同一套逻辑可无缝从分析师笔记本迁移至云端数据中心，大幅降低运维成本。

Nemotron 通过提供透明、高效且专为智能体设计的全栈资源，将企业构建生产级 AI 应用的周期从数月缩短至数天。

运行环境要求

操作系统

未说明

GPU

需要 NVIDIA GPU
具体需求视模型而定：Nano 系列适用于边缘/单卡部署
Super 系列（如 120B 模型）需多 GPU 数据中心环境，支持在单张 B200 GPU 上以 NVFP4 格式运行
训练食谱支持千卡级（1K GPU）异步训练
依赖 TensorRT-LLM、NeMo 等 NVIDIA 加速库

内存

未说明

依赖

notes该工具主要针对 NVIDIA 生态优化。模型分为 Nano（边缘/PC）、Super（单 GPU 高吞吐）和 Ultra（多 GPU 数据中心）三个层级。训练食谱仅使用开源数据子集，结果可能与技术报告有差异。支持多种部署方式，包括边缘设备、单 GPU 服务器及通过 NIM 微服务部署。部分高级功能（如异步 GRPO）需要大规模 GPU 集群支持。

python3.10+

NVIDIA NeMo

Megatron-Bridge

TensorRT-LLM

vLLM

SGLang

NVIDIA NeMo Curator

NVIDIA NeMo Evaluator

NVIDIA NIM microservices

快速开始

NVIDIA Nemotron 开发者仓库

用于代理式 AI 的开放且高效的模型。 Nemotron 系列的训练配方、部署指南和用例示例。

观看：Nemotron 概览

🎉Nemotron 3 Ultra 已于 2026 年 GTC 圣何塞大会上发布。欲了解更多信息，请参阅使用指南！

为什么选择 Nemotron？


开放模型	完全透明的训练数据、技术和权重，助力社区创新
计算效率	通过 TensorRT-LLM 实现更高的吞吐量的模型剪枝与优化
高精度	基于前沿开源模型构建，具备与人类对齐的推理能力，适用于代理式工作流
灵活部署	可在边缘设备、单 GPU 或数据中心以 NIM 微服务形式部署

仓库概览

nemotron/
│
├── src/nemotron/recipes/    训练配方（完整、可复现的流水线）
│
├── usage-cookbook/          使用手册（部署和模型使用指南）
│
└── use-case-examples/       在代理式工作流中利用 Nemotron 的示例

我应该使用哪个部分？

	训练配方	使用手册	用例示例
目的	从原始数据到模型的完整训练流水线复现	部署并使用训练好的模型	构建端到端的应用程序
格式	包含配置、脚本和评估的 Python 包	带有分步指南的 Jupyter 笔记本	Jupyter 笔记本和脚本
何时使用	您想训练、微调或理解模型的构建方式	您已有模型并希望部署或进行推理	您想构建应用程序（RAG、智能体、工具使用）
位置	`src/nemotron/recipes/`	`usage-cookbook/`	`use-case-examples/`

什么是 Nemotron？

NVIDIA Nemotron 是一个专为代理式 AI 打造的开放、高效率多模态模型家族。

模型层级：

Nano — 优化用于边缘和 PC 部署
Super — 单 GPU 部署，具有最高吞吐量
Ultra — 多 GPU 数据中心应用

Nemotron 模型在编码、数学、科学推理、工具调用、指令遵循和视觉推理方面表现出色。可在边缘、单 GPU 或数据中心环境中部署，并支持 NeMo、TensorRT-LLM、vLLM、SGLang 和 NIM 微服务。

训练配方

Nemotron 仓库提供了从原始数据到可部署模型的可复现训练流水线。这些实现反映了大型语言模型的实际训练方式：细致的实验、验证关卡和系统的优化。

为什么需要完整的流水线？

训练生产级模型涉及多个相互关联的组件。孤立的示例无法展现各阶段之间的交互。完整的流水线展示了：

数据质量如何影响下游性能，涵盖预训练、SFT 和 RL 各阶段
哪些训练技术真正协同工作，而不仅仅是理论上的组合
何处设置验证关卡以防止失败，并保持可复现性
如何在不同阶段之间平衡相互冲突的目标

由于这些都是完整的系统，您可以放心地提取特定的技术。每个组件都已在实际情境中得到验证。

每个配方包括

🎨 合成数据生成 - 使用 NVIDIA-NeMo/DataDesigner 生成合成数据集的脚本
🗂️ 数据整理 - 使用 NVIDIA NeMo Curator 准备训练数据的脚本，用于可扩展的数据处理、过滤和质量提升
🔁 训练 - 包含超参数的完整训练循环，使用：
- NVIDIA-NeMo/Megatron-Bridge 用于 Megatron 模型
- NVIDIA-NeMo/Automodel 用于 HuggingFace 模型
- NVIDIA-NeMo/NeMo-RL 在需要 RL 时使用
- 包括 GPU 加速的最后一公里数据处理（分词 + 可选的序列打包），以实现最佳训练效率
📊 评估 - 使用 NVIDIA NeMo Evaluator 在标准基准测试套件上进行评估
📖 文档 - 对每个阶段的详细说明

可用的配方

模型	描述	阶段	指南
Nemotron 3 Super	总参数 1206 亿 / 活性参数 127 亿混合 Mamba 隐层 MoE Transformer，适用于前沿推理、编码和代理任务	预训练 → SFT → RL	训练指南
Nemotron 3 Nano	总参数 316 亿 / 活性参数 36 亿 MoE 混合 Mamba-Transformer，适用于代理式推理	预训练 → SFT → RL	训练指南

Nemotron 3 Super

针对前沿混合 Mamba 隐层专家混合 Transformer 模型的完整训练配方，具备最先进的推理、编码和代理能力。

仅使用开源数据：这些配方完全基于开源的训练数据子集进行训练。结果将与技术报告中的基准测试有所不同，因为后者使用了额外的专有数据。请将这些配方作为参考实现，以便您能够使用自己的数据应用该方法。

模型规格：

总参数 1200 亿 / 活性参数 120 亿
多阶段 RL 流水线：3× RLVR + 2× SWE-RL + RLHF，覆盖 21 种奖励环境
异步 GRPO，训练与推理分离

您可以从中获得的内容：

大规模预训练与数据课程
多领域 SFT 流水线
多环境 RLVR，同时运行 21 种奖励环境
SWE-RL，采用容器隔离的沙箱执行
基于 GenRM 的 RLHF，结合原则导向的奖励机制
1000 GPU 规模下的异步 GRPO

资源：

Nemotron 3 Nano

一个针对代理式推理优化的开源高效专家混合型混合Mamba-Transformer模型的完整训练配方。

仅使用开源数据：这些配方仅使用开源的训练数据子集进行训练。结果将与技术报告中的基准测试有所不同，因为后者使用了额外的专有数据。您可以将这些配方作为参考实现，结合您自己的数据应用该方法论。

模型规格：

总参数量316亿，每次前向传播活跃参数36亿
采用课程学习的25万亿预训练token
上下文长度可达100万
推理吞吐量比同等规模模型高3.3倍

可提取的内容：

基于课程学习的两阶段数据混合预训练
通过CPT方法扩展长上下文
多领域SFT，包含12种以上数据源
InfinityByte跨领域代码合成
工具调用微调及预算控制的推理
多环境RLVR与GRPO
GenRM奖励建模与循环比较
DPO用于减少工具幻觉

资源：

使用手册

Nemotron模型的实用部署与使用指南。

模型	最佳用途	关键特性	资源
Nemotron 3 Super 120B A12B	需要强大推理能力的生产级部署	100万上下文，在NVFP4单卡B200上运行，RAG与工具调用	使用手册
Nemotron 3 Nano 30B A3B	资源受限环境	100万上下文，稀疏MoE混合Mamba-2，可控推理	使用手册
NVIDIA-Nemotron-Nano-12B-v2-VL	文档智能与视频理解	120亿参数的VLM，视频推理，高效视频采样	使用手册
Llama-3.1-Nemotron-Safety-Guard-8B-v3	多语言内容审核	支持9种语言，覆盖23个安全类别	使用手册
Nemotron-Parse	RAG与AI代理的文档解析	表格提取、语义分割	使用手册

使用案例示例

在use-case-examples/目录中提供了端到端示例，展示实际应用场景：

代理式工作流 — 包含规划、上下文管理及外部工具的多步骤AI代理
RAG系统 — 将检索与Nemotron模型结合以生成可靠输出的流水线
工具集成 — 结构化的工具调用、函数执行与数据增强
生产模式 — 可扩展性、监控与部署架构

Nemotron开放数据集

Nemotron不仅提供权重、配方和库，还致力于开放多个领域、训练阶段和使用场景的数据。

Nemotron数据目录

涵盖预训练、后训练、强化学习、多模态、安全及特定领域的NVIDIA Nemotron数据集的综合集合。这些公开可用的数据集为Nemotron系列模型的代理式AI开发提供了支持。

代码

用于训练代码生成、竞赛编程和软件工程能力的数据集，覆盖多种编程语言。

数据集	用途	许可协议	模型	描述
Nemotron-CC-Code-v1	预训练	NVIDIA数据协议	Nemotron 3 Nano	使用Lynx + LLM流水线从Common Crawl代码页面获取的4279亿token
Nemotron-Pretraining-Code-v1	预训练	NVIDIA数据协议	Nemotron Nano 2	来自GitHub的代码语料库，用于Nemotron Nano 2
Nemotron-Pretraining-Code-v2	预训练	NVIDIA数据协议	Nemotron 3 Nano	更新后的GitHub代码 + 含STEM推理的合成QA
Nemotron-Cascade-RL-SWE	RL训练	CC-BY-4.0	Nemotron 3	SWE代码修复，来自SWE-Bench、SWE-Smith、R2E-Gym
Nemotron-Competitive-Programming-v1	SFT	CC-BY-4.0	Nemotron 3	超过200万Python样本和100万C++样本，涵盖3.4万个竞赛编程题目
OpenCodeReasoning	SFT	CC-BY-4.0	OpenCode-Nemotron	73.5万Python样本，涉及2.8万个竞赛编程题目
OpenCodeReasoning-2	SFT	CC-BY-4.0	OpenCode-Nemotron	250万样本（140万Python，110万C++），包含代码补全与点评
Scoring-Verifiers	评估	CC-BY-4.0	—	用于测试用例生成和代码奖励模型的基准

数学

数学推理数据集范围从预训练语料到高级问题解决，涵盖思维链与工具集成推理。其中包括AIMO-2竞赛获奖数据集。

数据集	用途	许可协议	模型	描述
Nemotron-CC-Math-v1	预训练	NVIDIA 数据协议	Nemotron Nano 2, Nemotron 3 Nano	来自 Common Crawl 的 133B token 数学数据集，使用 Lynx + LLM 流水线
Nemotron-Math-Proofs-v1	SFT	CC-BY-4.0	Nemotron 3 Nano	用于 Nemotron 3 后训练的数学证明数据集
Nemotron-Math-v2	SFT	CC-BY-4.0	Nemotron 3	用于更深层次数学推理的 347K 样本和 7M 条推理轨迹
Nemotron-CrossThink	RL 训练	CC-BY-4.0	Nemotron 3	多领域问答，包含选择题和开放性题目格式，用于可验证奖励
OpenMathReasoning	SFT	CC-BY-4.0	OpenMath-Nemotron	5.68M 个样本，306K 道来自 AoPS 的题目，附带 CoT/TIR（AIMO-2 冠军）

科学 / STEM

涵盖化学、物理及通用 STEM 领域的科学推理数据集，用于训练模型进行科学问题解答与推理。

数据集	用途	许可协议	模型	描述
Nemotron-Science-v1	SFT	CC-BY-4.0	Nemotron 3 Nano	合成科学推理（MCQA + 化学 RQA）

通用 / 网络

大规模网络爬取和精选的数据集，用于预训练和后训练，包括多语言数据和通用指令遵循能力。

数据集	用途	许可协议	模型	描述
Nemotron-CC-v2.1	预训练	NVIDIA 数据协议	Nemotron 3 Nano	2.5T tokens 英文网络数据，包含合成改写和翻译
Nemotron-CC-v2	预训练	NVIDIA 数据协议	Nemotron Nano 2	6.6T tokens 经过质量筛选的 Common Crawl 数据，包含多语言问答
Nemotron-Pretraining-Dataset-sample	预训练（样本）	NVIDIA 数据协议	—	Nemotron 预训练语料库的样本子集，用于实验
Llama-Nemotron-Post-Training-Dataset	SFT + RL	CC-BY-4.0	Llama-Nemotron Ultra/Super/Nano	数学、代码、推理数据（2.2M 数学，500K 代码）
Nemotron-Post-Training-Dataset-v1	SFT	CC-BY-4.0	Llama-3.3-Nemotron-Super-49B-v1.5	数学、代码、STEM、工具调用
Nemotron-Post-Training-Dataset-v2	SFT + RL	CC-BY-4.0	Llama-Nemotron	多语言扩展（西班牙语、法语、德语、意大利语、日语）
Nemotron-3-Nano-RL-Training-Blend	RL 训练	CC-BY-4.0	Nemotron-3-Nano-30B-A3B	为 Nemotron 3 Nano 精选的多领域混合数据
Nemotron-RL-knowledge-web_search-mcqa	RL 训练	ODC-BY-1.0	Nemotron 3	用于 NeMo Gym 的网络搜索和多项选择问答任务

聊天 / 指令遵循

用于训练具有强大指令遵循能力、结构化输出生成和多轮对话功能的对话式 AI 的数据集。

数据集	用途	许可协议	模型	描述
Nemotron-Instruction-Following-Chat-v1	SFT	CC-BY-4.0	Nemotron 3 Nano	多轮聊天和结构化输出生成
Nemotron-RL-instruction_following	RL 训练	ODC-BY-1.0	Nemotron 3	来自 WildChat-1M 和 Open-Instruct 的可验证指令遵循情况
Nemotron-RL-instruction_following-structured_outputs	RL 训练	ODC-BY-1.0	Nemotron 3	基于 JSON 模式的约束输出格式测试
Nemotron-Cascade-RL-Instruction-Following	RL 训练	ODC-BY-1.0	Nemotron 3	用于指令遵循 RL 的 108K 个样本

代理 / 工具使用

用于训练具备工具调用、多步工作流和代理式推理能力的 AI 代理的数据集。

数据集	用途	许可协议	模型	描述
Nemotron-Agentic-v1	SFT	CC-BY-4.0	Nemotron 3 Nano	用于对话式工具使用和代理式工作流的多轮轨迹
Nemotron-RL-agent-workplace_assistant	RL 训练	ODC-BY-1.0	Nemotron 3	用于 NeMo Gym 的职场助理代理任务

对齐 / 奖励建模

用于 RLHF、SteerLM 训练和模型对齐的人类偏好与奖励建模数据集。支持 RM-Bench 和 JudgeBench 上表现最佳的奖励模型。

数据集	用途	许可协议	模型	描述
HelpSteer3	奖励建模	CC-BY-4.0	Nemotron 3 Nano, Llama-Nemotron Super 49B	40K+ 个样本；在 RM-Bench/JudgeBench 上名列前茅，基于偏好、反馈和编辑质量
HelpSteer2	奖励建模	CC-BY-4.0	Nemotron-4-340B-Reward, Llama-3.1-Nemotron-70B-Reward	21K 个样本，包含 5 种属性
HelpSteer	SteerLM 训练	CC-BY-4.0	Nemotron-4 SteerLM	37K 个样本（帮助性、正确性、连贯性、复杂性、冗长性）
Daring-Anteater	SFT/RLHF	CC-BY-4.0	Nemotron-4-340B-Instruct	指令调优数据集；包含合成子集以及 FinQA、wikitablequestions 等
sft_datablend_v1	SFT	CC-BY-4.0	—	用于 RLHF 流程的 SFT 数据混合

视觉-语言 / 多模态

用于文档智能、OCR、图像推理、视频问答以及思维链式视觉理解的高质量多模态模型训练数据集。

数据集	用途	许可证	模型	描述
Nemotron-VLM-Dataset-v2	VLM训练	CC-BY-4.0（部分CC-BY-SA-4.0）	Nemotron VLM	800万样本，适用于OCR、图像推理、带思维链的视频问答
Llama-Nemotron-VLM-Dataset-v1	VLM训练	CC-BY-4.0（部分CC-BY-SA-4.0）	Llama-3.1-Nemotron-Nano-VL-8B	300万样本，用于视觉问答和图像字幕生成

物理AI / 机器人

用于具身推理、物理常识和机器人操作的数据集。为物理AI应用提供支持的Cosmos-Reason1所依赖的数据集。

数据集	用途	许可证	模型	描述
Cosmos-Reason1-SFT-Dataset	SFT	CC-BY-4.0	Cosmos-Reason1-7B	机器人技术、第一人称演示及自动驾驶推理用的视频-文本对
Cosmos-Reason1-RL-Dataset	RL训练	CC-BY-4.0	Cosmos-Reason1-7B	用于物理常识和具身推理的强化学习数据
Cosmos-Reason1-Benchmark	评估	CC-BY-4.0	—	具身推理基准测试（机器人、HoloAssist、自动驾驶）
PhysicalAI-Robotics-Manipulation-Augmented	训练	CC-BY-4.0	—	1000个Franka Panda演示，结合Cosmos Transfer1领域增强技术

自动驾驶

多传感器驾驶数据及合成场景，用于训练和验证自动驾驶系统。

数据集	用途	许可证	模型	描述
PhysicalAI-Autonomous-Vehicles	训练	NVIDIA AV数据集许可	—	来自25个国家的1700小时多传感器数据，包含30.6万个片段
PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams	SDG	CC-BY-4.0	Cosmos	8.1万个带有LiDAR和高清地图标注的合成视频
PhysicalAI-Autonomous-Vehicle-Cosmos-Synthetic	SDG	CC-BY-4.0	Cosmos	Cosmos生成的合成驾驶场景
PhysicalAI-Autonomous-Vehicles-NuRec	重建	NVIDIA AV数据集许可	—	基于NuScenes的重建数据

合成人物 / 数据生成

基于真实世界人口统计信息的隐私安全合成人物数据集，用于主权AI开发和合成数据生成流水线。

数据集	用途	许可证	模型	描述
Nemotron-Personas-USA	SDG	CC-BY-4.0	NeMo Data Designer	100万美国人物，基于美国人口普查统计数据
Nemotron-Personas-Japan	SDG	CC-BY-4.0	NeMo Data Designer	100万日本人物，与地区统计数据相符
Nemotron-Personas-India	SDG	CC-BY-4.0	NeMo Data Designer	300万印度人物，用于主权AI开发
Nemotron-Personas	SDG	CC-BY-4.0	NeMo Data Designer	10万美国人物，包含22个字段，与人口普查数据一致

隐私 / PII检测

用于训练命名实体识别模型以检测和遮盖个人身份信息的合成数据集。

数据集	用途	许可证	模型	描述
Nemotron-PII	NER训练	CC-BY-4.0	GLiNER-PII	10万条合成记录，包含55种以上的PII/PHI实体类型

安全 / 内容审核

用于训练护栏模型的内容安全数据集，涵盖全面的风险分类体系。为NemoGuard内容安全模型提供支持。

数据集	用途	许可证	模型	描述
Aegis-AI-Content-Safety-Dataset-1.0	内容审核	CC-BY-4.0	NemoGuard宽松/防御模式	1.1万条标注交互数据，覆盖13类风险
Aegis-AI-Content-Safety-Dataset-2.0	内容审核	CC-BY-4.0	Llama-3.1-NemoGuard-8B-ContentSafety	扩展的安全数据集，包含23类违规内容
Nemotron-Content-Safety-Audio-Dataset	音频安全	CC-BY-4.0	—	来自Aegis 2.0的1900份音频文件，涵盖多种口音

RAG / 对话式问答

用于检索增强生成和对话式问答的训练与评估数据。为ChatQA模型提供支持。

数据集	用途	许可证	模型	描述
ChatRAG-Bench	评估	其他（衍生）	—	覆盖10个数据集的基准测试，用于文档问答及无法回答问题的检测
ChatQA-Training-Data	SFT	其他（衍生）	ChatQA-1.5	来自多个来源的ChatQA模型训练数据
ChatQA2-Long-SFT-data	SFT	其他（衍生）	ChatQA-2	12.8万条长上下文训练数据，用于ChatQA-2

生物学 / 药物研发

用于训练生物基础模型的蛋白质序列数据。

数据集	用途	许可证	模型	描述
esm2_uniref_pretraining_data	预训练	CC-BY-4.0	ESM2-nv	用于ESM2的1.88亿条蛋白质序列

3D / 空间智能

用于3D重建、视频生成和空间理解模型的测试及合成数据。

数据集	用途	许可证	模型	描述
Lyra-Testing-Example	评估	CC-BY-4.0	Lyra	Lyra生成式3D重建的测试示例
PhysicalAI-SpatialIntelligence-Lyra-SDG	SDG	CC-BY-4.0	Lyra	用于空间智能模型的合成数据
GEN3C-Testing-Example	评估	CC-BY-4.0	GEN3C	GEN3C视频生成的测试示例
ChronoEdit-Example-Dataset	评估	CC-BY-4.0	ChronoEdit	用于图像编辑的时间推理示例

💡 功能请求与建议

您有关于改进Nemotron模型的想法吗？请为此创建一个讨论主题！

如果您有功能请求，欢迎随时提交一个问题，并将其标记为enhancement。

您的反馈将帮助塑造Nemotron模型的未来！

文档

Nemotron 3 超级训练指南 – 前沿模型训练配方
Nemotron 3 纳米训练指南 – 高效模型训练配方
NeMo-Run 配置 – 执行配置文件和作业编排
数据准备 – 数据准备模块
贡献指南 – 如何贡献
变更日志 – 版本历史

贡献

我们欢迎各种形式的贡献：示例、配方或其他工具。在提交拉取请求之前，请务必阅读贡献指南。

安全

如发现任何安全漏洞，请联系security@nvidia.com。

许可证

Apache 2.0 许可证 — 详情请参阅LICENSE。

NVIDIA Nemotron — 开放且高效的代理式人工智能模型。

NVIDIA Nemotron 快速上手指南

Nemotron 是 NVIDIA 推出的一系列开源、高效的多模态模型，专为代理式 AI（Agentic AI）设计。本指南将帮助开发者快速完成环境配置、安装及基础使用。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04)
Python 版本: 3.10 或更高版本
GPU 支持:
- Nano 系列: 适用于边缘设备或单张消费级/专业级 GPU。
- Super/Ultra 系列: 推荐多卡数据中心环境（如 H100/B200），需安装 NVIDIA Driver 和 CUDA Toolkit。
前置依赖:
- git
- pip (建议升级至最新版)
- NVIDIA Container Toolkit (若使用 Docker 部署)

注意：为了获得最佳推理性能，建议安装 TensorRT-LLM 或使用 NVIDIA NIM 微服务。

2. 安装步骤

方法一：通过 pip 安装核心库

如果您主要关注模型推理和应用开发，可直接安装相关依赖：

# 创建并激活虚拟环境
python -m venv nemotron-env
source nemotron-env/bin/activate

# 升级 pip
pip install --upgrade pip

# 安装 Nemotron 相关依赖 (根据具体子项目需求)
# 此处以通用的 HuggingFace transformers 加速库为例，配合 Nemotron 权重使用
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install transformers accelerate sentencepiece

方法二：克隆仓库获取训练配方与示例

若您需要复现训练流程、查看数据清洗脚本或使用官方提供的 Jupyter Notebook 示例：

# 克隆官方仓库
git clone https://github.com/NVIDIA-NeMo/Nemotron.git
cd Nemotron

# 安装项目依赖 (如有 requirements.txt)
pip install -r requirements.txt

国内加速建议：
克隆仓库时若速度较慢，可使用 Gitee 镜像（如有）或配置 Git 代理。
下载模型权重时，推荐使用 HuggingFace 国内镜像源：
export HF_ENDPOINT=https://hf-mirror.com

3. 基本使用

Nemotron 模型托管在 Hugging Face 上，您可以直接使用 transformers 库进行加载和推理。以下以 Nemotron-3-Nano 为例展示最简用法。

步骤 1: 设置镜像源（可选但推荐）

export HF_ENDPOINT=https://hf-mirror.com

步骤 2: 编写推理脚本

创建文件 infer.py，填入以下代码：

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 配置模型路径 (以 Nemotron-3-Nano-Instruct 为例)
model_name = "nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16"

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 加载模型 (自动检测数据类型，如需 FP8 需特定后端支持)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)

# 准备输入提示词
prompt = "请解释量子纠缠的基本概念，并用通俗的比喻说明。"
messages = [
    {"role": "user", "content": prompt}
]

# 应用聊天模板
input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

# 生成回复
outputs = model.generate(
    **inputs,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.9,
    do_sample=True
)

# 解码并打印结果
response = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)
print(response)

步骤 3: 运行脚本

python infer.py

进阶：使用 NIM 微服务部署（推荐生产环境）

对于高性能需求，建议使用 NVIDIA NIM 容器化部署：

# 拉取并运行 Nemotron NIM 容器 (需登录 NGC)
docker run --gpus all -it --rm -p 8000:8000 \
  nvcr.io/nim/nvidia/nemotron-3-nano:latest

启动后，可通过标准的 OpenAI 兼容 API 端点 (http://localhost:8000/v1/chat/completions) 调用模型。

下一步建议：

查看 usage-cookbook/ 目录获取针对 RAG、Agent 工作流的详细 Jupyter 笔记。
参考 src/nemotron/recipes/ 了解从数据清洗到 RLHF 的全流程训练方案。

版本历史

v0.1.02026/03/24

常见问题

Nemotron 模型在工具调用（Tool Calling）中返回的布尔值是 Python 字符串格式（"True"/"False"）而非 JSON 格式（true/false），如何解决？

如何获取 Hugging Face 上 Nemotron 模型权重（如 Nemotron-Elastic）的访问权限？

在使用 vLLM 部署 NVIDIA-Nemotron-3-Super-120B 等大型模型时遇到启动错误或运行异常，可能是什么原因？

Nemotron 仓库中的 Recipes（食谱）、Use-case-examples（用例示例）和 Cookbooks（烹饪书）有什么区别？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|3天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|4天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 147.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|3天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|3天前

语言模型图像Agent