[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-NVIDIA-NeMo--Nemotron":3,"tool-NVIDIA-NeMo--Nemotron":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",147882,2,"2026-04-09T11:32:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108111,"2026-04-08T11:23:26",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":100,"forks":101,"last_commit_at":102,"license":103,"difficulty_score":104,"env_os":105,"env_gpu":106,"env_ram":105,"env_deps":107,"category_tags":119,"github_topics":120,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":127,"updated_at":128,"faqs":129,"releases":150},5950,"NVIDIA-NeMo\u002FNemotron","Nemotron","Developer Asset Hub for NVIDIA Nemotron — A one-stop resource for training recipes, usage cookbooks, datasets, and full end-to-end reference examples to build with Nemotron models","Nemotron 是英伟达推出的开源模型家族及开发者资源中心，专为构建高效的\"AI 智能体”而设计。它不仅仅是一组预训练模型，更是一个提供从原始数据到最终部署全流程解决方案的一站式平台。\n\n针对开发者在复现大模型训练时面临的流程割裂、数据质量难把控以及部署环境复杂等痛点，Nemotron 提供了完全透明的训练配方（Recipes）、详细的使用指南（Cookbooks）以及端到端的应用示例。无论是希望从零开始训练或微调模型的研究人员，还是需要将模型快速落地到边缘设备、单卡服务器或数据中心的企业开发者，都能在此找到可复现的完整流水线。\n\n其核心技术亮点在于“开放”与“高效”的完美结合：不仅公开了训练数据、技术和权重以促进社区创新，还通过模型剪枝和 TensorRT-LLM 优化显著提升了推理吞吐量。Nemotron 系列包含 Nano、Super 和 Ultra 三个层级，分别适配边缘端、单 GPU 及多 GPU 集群场景，在代码生成、数学推理、工具调用及视觉理解等任务上表现卓越。借助对 NeMo、vLLM 及 NIM 微服务的广泛支持，用户能够灵活地将高性能 AI 能力集成到各类实际应用","Nemotron 是英伟达推出的开源模型家族及开发者资源中心，专为构建高效的\"AI 智能体”而设计。它不仅仅是一组预训练模型，更是一个提供从原始数据到最终部署全流程解决方案的一站式平台。\n\n针对开发者在复现大模型训练时面临的流程割裂、数据质量难把控以及部署环境复杂等痛点，Nemotron 提供了完全透明的训练配方（Recipes）、详细的使用指南（Cookbooks）以及端到端的应用示例。无论是希望从零开始训练或微调模型的研究人员，还是需要将模型快速落地到边缘设备、单卡服务器或数据中心的企业开发者，都能在此找到可复现的完整流水线。\n\n其核心技术亮点在于“开放”与“高效”的完美结合：不仅公开了训练数据、技术和权重以促进社区创新，还通过模型剪枝和 TensorRT-LLM 优化显著提升了推理吞吐量。Nemotron 系列包含 Nano、Super 和 Ultra 三个层级，分别适配边缘端、单 GPU 及多 GPU 集群场景，在代码生成、数学推理、工具调用及视觉理解等任务上表现卓越。借助对 NeMo、vLLM 及 NIM 微服务的广泛支持，用户能够灵活地将高性能 AI 能力集成到各类实际应用中。","# NVIDIA Nemotron Developer Repository\n\n**Open and efficient models for agentic AI.** Training recipes, deployment guides, and use-case examples for the Nemotron family.\n\n[![Python 3.10+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.10%2B-blue.svg)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002F)\n[![License: Apache 2.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0)\n[![Contributions Welcome](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcontributions-welcome-brightgreen.svg)](CONTRIBUTING.md)\n[![Docs](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-dev-76B900.svg)](https:\u002F\u002Fnvidia-nemo.github.io\u002FNemotron\u002Fdev\u002F)\n\n\u003Cdiv align=\"center\">\n\n[![Watch the Nemotron Overview](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA-NeMo_Nemotron_readme_1a9e8cf4f745.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=_y9SEtn1lU8)\n\n**[Watch: Nemotron Overview](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=_y9SEtn1lU8)**\n\n\u003C\u002Fdiv>\n\n---\n\n> 🎉Nemotron 3 Ultra was announced at GTC San Jose 2026\\. To learn more, [see the usage guide](.\u002Fusage-cookbook\u002FNemotron-3-Ultra-Base\u002FREADME.md)\\!\n\n\n---\n\n\n## Why Nemotron?\n\n| | |\n|---|---|\n| **Open Models** | Fully transparent training data, techniques, and weights for community innovation |\n| **Compute Efficiency** | Model pruning and optimization enabling higher throughput via TensorRT-LLM |\n| **High Accuracy** | Built on frontier open models with human-aligned reasoning for agentic workflows |\n| **Flexible Deployment** | Deploy anywhere: edge, single GPU, or data center with NIM microservices |\n\n---\n\n## Repository Overview\n\n```\nnemotron\u002F\n│\n├── src\u002Fnemotron\u002Frecipes\u002F    Training recipes (complete, reproducible pipelines)\n│\n├── usage-cookbook\u002F          Usage cookbooks (deployment and model usage guides)\n│\n└── use-case-examples\u002F       Examples of leveraging Nemotron in agentic workflows\n```\n\n### Which section should I use?\n\n| | **Training Recipes** | **Usage Cookbooks** | **Use Case Examples** |\n|---|---|---|---|\n| **Purpose** | Reproduce full training pipelines from raw data to model | Deploy and use trained models | Build end-to-end applications |\n| **Format** | Python packages with configs, scripts, and evaluation | Jupyter notebooks with step-by-step guides | Jupyter notebooks and scripts |\n| **When to use** | You want to train, fine-tune, or understand how a model was built | You have a model and want to deploy or run inference | You want to build an application (RAG, agents, tool use) |\n| **Location** | [`src\u002Fnemotron\u002Frecipes\u002F`](.\u002Fsrc\u002Fnemotron\u002Frecipes\u002F) | [`usage-cookbook\u002F`](.\u002Fusage-cookbook\u002F) | [`use-case-examples\u002F`](.\u002Fuse-case-examples\u002F) |\n\n---\n\n## What is Nemotron?\n\n[NVIDIA Nemotron](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fai-data-science\u002Ffoundation-models\u002Fnemotron\u002F) is a family of open, high-efficiency multimodal models purpose-built for agentic AI.\n\n**Model Tiers:**\n\n- **Nano** — Optimized for edge and PC deployments\n- **Super** — Single GPU deployment with highest throughput\n- **Ultra** — Multi-GPU datacenter applications\n\nNemotron models excel at coding, math, scientific reasoning, tool calling, instruction following, and visual reasoning. Deploy across edge, single GPU, or data center environments with support for NeMo, TensorRT-LLM, vLLM, SGLang, and NIM microservices.\n\n---\n\n## Training Recipes\n\nThe Nemotron respository provides reproducible training pipelines from raw data to deployment-ready models. These implementations reflect how large language models are actually trained: careful experimentation, validation gates, and systematic optimization.\n\n### Why Complete Pipelines?\n\nTraining a production model involves interconnected components. Isolated examples miss how stages interact. Complete pipelines show:\n\n- **How data quality affects downstream performance** across pretraining, SFT, and RL\n- **Which training techniques actually work together**, not just in theory\n- **Where validation gates prevent failures** and maintain reproducibility\n- **How to balance competing objectives** across stages\n\nBecause these are complete systems, you can extract specific techniques with confidence. Each component has been proven to work in context.\n\n### Each Recipe Includes\n\n- 🎨 **Synthetic Data Generation** - Scripts to generate synthetic datasets using [NVIDIA-NeMo\u002FDataDesigner](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FDataDesigner)\n- 🗂️ **Data Curation** - Scripts to prepare training data using [NVIDIA NeMo Curator](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo-Curator) for scalable data processing, filtering, and quality enhancement\n- 🔁 **Training** - Complete training loops with hyperparameters using:\n  - [NVIDIA-NeMo\u002FMegatron-Bridge](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FMegatron-Bridge\u002Ftree\u002Fmain) for Megatron models\n  - [NVIDIA-NeMo\u002FAutomodel](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FAutomodel) for HuggingFace models\n  - [NVIDIA-NeMo\u002FNeMo-RL](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FRL\u002Ftree\u002Fmain) when RL is needed\n  - Includes GPU-accelerated last-mile data processing (tokenization + optional sequence packing) for optimal training efficiency\n- 📊 **Evaluation** - Benchmark evaluation on standard suites using [NVIDIA NeMo Evaluator](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FEvaluator)\n- 📖 **Documentation** - Detailed explanations of each stage\n\n### Available Recipes\n\n| Model | Description | Stages | Guide |\n|-------|-------------|--------|-------|\n| **[Nemotron 3 Super](docs\u002Fnemotron\u002Fsuper3\u002FREADME.md)** | 120.6B total \u002F 12.7B active Hybrid Mamba Latent MoE Transformer for frontier reasoning, coding, and agentic tasks | Pretrain → SFT → RL | [Training Guide](docs\u002Fnemotron\u002Fsuper3\u002FREADME.md) |\n| **[Nemotron 3 Nano](docs\u002Fnemotron\u002Fnano3\u002FREADME.md)** | 31.6B total \u002F 3.6B active MoE Hybrid Mamba-Transformer for agentic reasoning | Pretrain → SFT → RL | [Training Guide](docs\u002Fnemotron\u002Fnano3\u002FREADME.md) |\n\n### Nemotron 3 Super\n\nA complete training recipe for the frontier Hybrid Mamba Latent Mixture-of-Experts Transformer model with state-of-the-art reasoning, coding, and agentic capabilities.\n\n> **Open-Source Data Only**: These recipes train exclusively on the open-sourced subset of training data. Results will differ from the tech report benchmarks, which used additional proprietary data. Use these recipes as reference implementations to apply the methodology with your own data.\n\n**Model Specifications**:\n- 120B total \u002F 12B active parameters\n- Multi-stage RL pipeline: 3× RLVR + 2× SWE-RL + RLHF across 21 reward environments\n- Asynchronous GRPO with decoupled training and inference\n\n**What You Can Extract**:\n- Large-scale pretraining with data curriculum\n- Multi-domain SFT pipeline\n- Multi-environment RLVR with 21 simultaneous reward environments\n- SWE-RL with container-isolated sandbox execution\n- GenRM-based RLHF with principle-following rewards\n- Asynchronous GRPO at 1K GPU scale\n\n**Resources**:\n- [Training Guide](docs\u002Fnemotron\u002Fsuper3\u002FREADME.md)\n- [Tech Report](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fnemotron\u002Ffiles\u002FNVIDIA-Nemotron-3-Super-Technical-Report.pdf)\n- [Model Weights (Instruct)](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNemotron-3-Super-49B-v1)\n\n### Nemotron 3 Nano\n\nA complete training recipe for the open, efficient Mixture-of-Experts hybrid Mamba-Transformer model optimized for agentic reasoning.\n\n> **Open-Source Data Only**: These recipes train exclusively on the open-sourced subset of training data. Results will differ from the tech report benchmarks, which used additional proprietary data. Use these recipes as reference implementations to apply the methodology with your own data.\n\n**Model Specifications**:\n- 31.6B total parameters, 3.6B active per forward pass\n- 25 trillion pretraining tokens with curriculum learning\n- Up to 1M context length\n- 3.3x higher inference throughput than similarly sized models\n\n**What You Can Extract**:\n- Curriculum-based pretraining with two-phase data mixture\n- Long-context extension via CPT methodology\n- Multi-domain SFT with 12+ data sources\n- InfinityByte cross-domain code synthesis\n- Tool-calling fine-tuning and budget-controlled reasoning\n- Multi-environment RLVR with GRPO\n- GenRM reward modeling with circular comparison\n- DPO for tool hallucination reduction\n\n**Resources**:\n- [Training Guide](docs\u002Fnemotron\u002Fnano3\u002FREADME.md)\n- [Tech Report](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fnemotron\u002Ffiles\u002FNVIDIA-Nemotron-3-Nano-Technical-Report.pdf)\n- [Model Weights (Base)](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16)\n- [Model Weights (Instruct)](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-BF16)\n- [Model Weights (FP8)](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-FP8)\n\n---\n\n## Usage Cookbooks\n\nPractical deployment and model usage guides for Nemotron models.\n\n| Model | Best For | Key Features | Resources |\n|-------|----------|--------------|-----------|\n| [**Nemotron 3 Super 120B A12B**](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Super-120B-A12B-BF16) | Production deployments needing strong reasoning | 1M context, in NVFP4 single B200, RAG & tool calling | [Cookbooks](.\u002Fusage-cookbook\u002FNemotron-3-Super) |\n| [**Nemotron 3 Nano 30B A3B**](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-BF16) | Resource-constrained environments | 1M context, sparse MoE hybrid Mamba-2, controllable reasoning | [Cookbooks](.\u002Fusage-cookbook\u002FNemotron-3-Nano) |\n| [**NVIDIA-Nemotron-Nano-12B-v2-VL**](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-Nano-12B-v2-VL) | Document intelligence and video understanding | 12B VLM, video reasoning, Efficient Video Sampling | [Cookbooks](.\u002Fusage-cookbook\u002FNemotron-Nano2-VL\u002F) |\n| [**Llama-3.1-Nemotron-Safety-Guard-8B-v3**](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FLlama-3.1-Nemotron-Safety-Guard-8B-v3) | Multilingual content moderation | 9 languages, 23 safety categories | [Cookbooks](.\u002Fusage-cookbook\u002FLlama-3.1-Nemotron-Safety-Guard-V3\u002F) |\n| **Nemotron-Parse** | Document parsing for RAG and AI agents | Table extraction, semantic segmentation | [Cookbooks](.\u002Fusage-cookbook\u002FNemotron-Parse-v1.1\u002F) |\n\n---\n\n## Use Case Examples\n\nEnd-to-end examples demonstrating practical applications in the [`use-case-examples\u002F`](.\u002Fuse-case-examples\u002F) directory:\n\n- **Agentic Workflows** — Multi-step AI agents with planning, context management, and external tools\n- **RAG Systems** — Pipelines combining retrieval with Nemotron models for grounded outputs\n- **Tool Integration** — Structured tool calling, function execution, and data enrichment\n- **Production Patterns** — Scalability, monitoring, and deployment architectures\n\n---\n\n## Nemotron Open Datasets\n\nMore than just weights, recipes, and libraries: Nemotron is committed to opening data across many domains, training phases, and use cases.\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Nemotron Data Catalogue\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*A comprehensive collection of NVIDIA Nemotron datasets spanning pre-training, post-training, reinforcement learning, multimodal, safety, and domain-specific applications. These openly available datasets power the Nemotron family of models for agentic AI development.*\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Code\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Datasets for training code generation, competitive programming, and software engineering capabilities across multiple programming languages.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-CC-Code-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CC-Code-v1) | Pre-training | NVIDIA Data Agreement | Nemotron 3 Nano | 427.9B tokens from Common Crawl code pages using Lynx + LLM pipeline |\n| [Nemotron-Pretraining-Code-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Pretraining-Code-v1) | Pre-training | NVIDIA Data Agreement | Nemotron Nano 2 | GitHub-sourced code corpus for Nemotron Nano 2 |\n| [Nemotron-Pretraining-Code-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Pretraining-Code-v2) | Pre-training | NVIDIA Data Agreement | Nemotron 3 Nano | Updated GitHub code + synthetic QA with STEM reasoning |\n| [Nemotron-Cascade-RL-SWE](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Cascade-RL-SWE) | RL Training | CC-BY-4.0 | Nemotron 3 | SWE code repair from SWE-Bench, SWE-Smith, R2E-Gym |\n| [Nemotron-Competitive-Programming-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Competitive-Programming-v1) | SFT | CC-BY-4.0 | Nemotron 3 | 2M+ Python and 1M+ C++ samples across 34K competitive programming questions |\n| [OpenCodeReasoning](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FOpenCodeReasoning) | SFT | CC-BY-4.0 | OpenCode-Nemotron | 735K Python samples across 28K competitive programming questions |\n| [OpenCodeReasoning-2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FOpenCodeReasoning-2) | SFT | CC-BY-4.0 | OpenCode-Nemotron | 2.5M samples (1.4M Python, 1.1M C++) with code completion and critique |\n| [Scoring-Verifiers](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FScoring-Verifiers) | Evaluation | CC-BY-4.0 | — | Benchmark for test case generation and code reward models |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Math\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Mathematical reasoning datasets ranging from pre-training corpora to advanced problem-solving with chain-of-thought and tool-integrated reasoning. Includes the AIMO-2 competition winning dataset.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-CC-Math-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CC-Math-v1) | Pre-training | NVIDIA Data Agreement | Nemotron Nano 2, Nemotron 3 Nano | 133B-token math dataset from Common Crawl using Lynx + LLM pipeline |\n| [Nemotron-Math-Proofs-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Math-Proofs-v1) | SFT | CC-BY-4.0 | Nemotron 3 Nano | Mathematical proofs dataset for Nemotron 3 post-training |\n| [Nemotron-Math-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Math-v2) | SFT | CC-BY-4.0 | Nemotron 3 | 347K samples and 7M reasoning trajectories for Deeper Math Reasoning |\n| [Nemotron-CrossThink](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CrossThink) | RL Training | CC-BY-4.0 | Nemotron 3 | Multi-domain QA with MCQ and open-ended formats for verifiable rewards |\n| [OpenMathReasoning](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FOpenMathReasoning) | SFT | CC-BY-4.0 | OpenMath-Nemotron | 5.68M samples, 306K problems from AoPS with CoT\u002FTIR (AIMO-2 winner) |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Science \u002F STEM\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Scientific reasoning datasets covering chemistry, physics, and general STEM domains for training models on scientific question answering and reasoning.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-Science-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Science-v1) | SFT | CC-BY-4.0 | Nemotron 3 Nano | Synthetic science reasoning (MCQA + chemistry RQA) |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>General \u002F Web\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Large-scale web-crawled and curated datasets for pre-training and post-training, including multilingual data and general instruction-following capabilities.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-CC-v2.1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CC-v2.1) | Pre-training | NVIDIA Data Agreement | Nemotron 3 Nano | 2.5T tokens English web data with synthetic rephrases and translations |\n| [Nemotron-CC-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CC-v2) | Pre-training | NVIDIA Data Agreement | Nemotron Nano 2 | 6.6T tokens quality-filtered Common Crawl with multilingual Q&A |\n| [Nemotron-Pretraining-Dataset-sample](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Pretraining-Dataset-sample) | Pre-training (Sample) | NVIDIA Data Agreement | — | Sample subset of Nemotron pre-training corpus for experimentation |\n| [Llama-Nemotron-Post-Training-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FLlama-Nemotron-Post-Training-Dataset) | SFT + RL | CC-BY-4.0 | Llama-Nemotron Ultra\u002FSuper\u002FNano | Math, code, reasoning data (2.2M math, 500K code) |\n| [Nemotron-Post-Training-Dataset-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Post-Training-Dataset-v1) | SFT | CC-BY-4.0 | Llama-3.3-Nemotron-Super-49B-v1.5 | Math, code, STEM, tool calling |\n| [Nemotron-Post-Training-Dataset-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Post-Training-Dataset-v2) | SFT + RL | CC-BY-4.0 | Llama-Nemotron | Multilingual extension (Spanish, French, German, Italian, Japanese) |\n| [Nemotron-3-Nano-RL-Training-Blend](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-3-Nano-RL-Training-Blend) | RL Training | CC-BY-4.0 | Nemotron-3-Nano-30B-A3B | Curated multi-domain blend for Nemotron 3 Nano |\n| [Nemotron-RL-knowledge-web_search-mcqa](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-RL-knowledge-web_search-mcqa) | RL Training | ODC-BY-1.0 | Nemotron 3 | Web search and multiple-choice QA tasks for NeMo Gym |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Chat \u002F Instruction Following\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Datasets for training conversational AI with strong instruction-following capabilities, structured output generation, and multi-turn dialogue.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-Instruction-Following-Chat-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Instruction-Following-Chat-v1) | SFT | CC-BY-4.0 | Nemotron 3 Nano | Multi-turn chat and structured output generation |\n| [Nemotron-RL-instruction_following](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-RL-instruction_following) | RL Training | ODC-BY-1.0 | Nemotron 3 | Verifiable instruction adherence from WildChat-1M + Open-Instruct |\n| [Nemotron-RL-instruction_following-structured_outputs](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-RL-instruction_following-structured_outputs) | RL Training | ODC-BY-1.0 | Nemotron 3 | JSON schema-constrained output formatting tests |\n| [Nemotron-Cascade-RL-Instruction-Following](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Cascade-RL-Instruction-Following) | RL Training | ODC-BY-1.0 | Nemotron 3 | 108K samples for instruction-following RL |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Agentic \u002F Tool Use\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Datasets for training AI agents with tool calling, multi-step workflows, and agentic reasoning capabilities.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-Agentic-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Agentic-v1) | SFT | CC-BY-4.0 | Nemotron 3 Nano | Multi-turn trajectories for conversational tool use and agentic workflows |\n| [Nemotron-RL-agent-workplace_assistant](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-RL-agent-workplace_assistant) | RL Training | ODC-BY-1.0 | Nemotron 3 | Workplace assistant agent tasks for NeMo Gym |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Alignment \u002F Reward Modeling\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Human preference and reward modeling datasets for RLHF, SteerLM training, and model alignment. Powers top-performing reward models on RM-Bench and JudgeBench.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [HelpSteer3](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer3) | Reward Modeling | CC-BY-4.0 | Nemotron 3 Nano, Llama-Nemotron Super 49B | 40K+ samples; top on RM-Bench\u002FJudgeBench with preference, feedback, edit-quality |\n| [HelpSteer2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer2) | Reward Modeling | CC-BY-4.0 | Nemotron-4-340B-Reward, Llama-3.1-Nemotron-70B-Reward | 21K samples with 5 attributes |\n| [HelpSteer](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer) | SteerLM Training | CC-BY-4.0 | Nemotron-4 SteerLM | 37K samples (helpfulness, correctness, coherence, complexity, verbosity) |\n| [Daring-Anteater](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FDaring-Anteater) | SFT\u002FRLHF | CC-BY-4.0 | Nemotron-4-340B-Instruct | Instruction tuning dataset; synthetic subsets + FinQA, wikitablequestions |\n| [sft_datablend_v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002Fsft_datablend_v1) | SFT | CC-BY-4.0 | — | SFT data blend for RLHF pipeline |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Vision-Language \u002F Multimodal\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*High-quality VLM training data for document intelligence, OCR, image reasoning, video QA, and chain-of-thought visual understanding.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-VLM-Dataset-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-VLM-Dataset-v2) | VLM Training | CC-BY-4.0 (some CC-BY-SA-4.0) | Nemotron VLM | 8M samples for OCR, image reasoning, video QA with chain-of-thought |\n| [Llama-Nemotron-VLM-Dataset-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FLlama-Nemotron-VLM-Dataset-v1) | VLM Training | CC-BY-4.0 (some CC-BY-SA-4.0) | Llama-3.1-Nemotron-Nano-VL-8B | 3M samples for visual question answering and captioning |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Physical AI \u002F Robotics\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Datasets for embodied reasoning, physical common sense, and robotic manipulation. Powers Cosmos-Reason1 for physical AI applications.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Cosmos-Reason1-SFT-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FCosmos-Reason1-SFT-Dataset) | SFT | CC-BY-4.0 | Cosmos-Reason1-7B | Video-text pairs for robotics, ego-centric demos, AV reasoning |\n| [Cosmos-Reason1-RL-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FCosmos-Reason1-RL-Dataset) | RL Training | CC-BY-4.0 | Cosmos-Reason1-7B | RL data for physical common sense and embodied reasoning |\n| [Cosmos-Reason1-Benchmark](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FCosmos-Reason1-Benchmark) | Evaluation | CC-BY-4.0 | — | Benchmark for embodied reasoning (robotics, HoloAssist, AV) |\n| [PhysicalAI-Robotics-Manipulation-Augmented](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Robotics-Manipulation-Augmented) | Training | CC-BY-4.0 | — | 1K Franka Panda demos with Cosmos Transfer1 domain augmentation |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Autonomous Vehicles\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Multi-sensor driving data and synthetic scenarios for training and validating autonomous vehicle systems.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [PhysicalAI-Autonomous-Vehicles](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Autonomous-Vehicles) | Training | NVIDIA AV Dataset License | — | 1,700 hours multi-sensor data from 25 countries, 306K clips |\n| [PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams) | SDG | CC-BY-4.0 | Cosmos | 81K synthetic videos with LiDAR and HD-map annotations |\n| [PhysicalAI-Autonomous-Vehicle-Cosmos-Synthetic](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Autonomous-Vehicle-Cosmos-Synthetic) | SDG | CC-BY-4.0 | Cosmos | Cosmos-generated synthetic driving scenarios |\n| [PhysicalAI-Autonomous-Vehicles-NuRec](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Autonomous-Vehicles-NuRec) | Reconstruction | NVIDIA AV Dataset License | — | NuScenes-based reconstruction data |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Synthetic Personas \u002F Data Generation\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Privacy-safe synthetic personas grounded in real-world demographics for sovereign AI development and synthetic data generation pipelines.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-Personas-USA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Personas-USA) | SDG | CC-BY-4.0 | NeMo Data Designer | 1M US personas grounded in Census demographics |\n| [Nemotron-Personas-Japan](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Personas-Japan) | SDG | CC-BY-4.0 | NeMo Data Designer | 1M Japanese personas aligned with regional statistics |\n| [Nemotron-Personas-India](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Personas-India) | SDG | CC-BY-4.0 | NeMo Data Designer | 3M Indian personas for sovereign AI development |\n| [Nemotron-Personas](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Personas) | SDG | CC-BY-4.0 | NeMo Data Designer | 100K US personas with 22 fields aligned to Census data |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Privacy \u002F PII Detection\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Synthetic datasets for training named entity recognition models to detect and redact personally identifiable information.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-PII](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-PII) | NER Training | CC-BY-4.0 | GLiNER-PII | 100K synthetic records with 55+ PII\u002FPHI entity types |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Safety \u002F Content Moderation\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Content safety datasets for training guardrail models covering comprehensive risk taxonomies. Powers NemoGuard content safety models.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Aegis-AI-Content-Safety-Dataset-1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FAegis-AI-Content-Safety-Dataset-1.0) | Content Moderation | CC-BY-4.0 | NemoGuard Permissive\u002FDefensive | 11K annotated interactions covering 13 risk categories |\n| [Aegis-AI-Content-Safety-Dataset-2.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FAegis-AI-Content-Safety-Dataset-2.0) | Content Moderation | CC-BY-4.0 | Llama-3.1-NemoGuard-8B-ContentSafety | Extended safety dataset with 23 violation categories |\n| [Nemotron-Content-Safety-Audio-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Content-Safety-Audio-Dataset) | Audio Safety | CC-BY-4.0 | — | 1.9K audio files from Aegis 2.0 with accent diversity |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>RAG \u002F Conversational QA\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Training and evaluation data for retrieval-augmented generation and conversational question answering. Powers ChatQA models.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [ChatRAG-Bench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FChatRAG-Bench) | Evaluation | Other (derived) | — | Benchmark across 10 datasets for document QA and unanswerable detection |\n| [ChatQA-Training-Data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FChatQA-Training-Data) | SFT | Other (derived) | ChatQA-1.5 | Training data for ChatQA models from multiple sources |\n| [ChatQA2-Long-SFT-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FChatQA2-Long-SFT-data) | SFT | Other (derived) | ChatQA-2 | 128K long-context training data for ChatQA-2 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Biology \u002F Drug Discovery\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Protein sequence data for training biological foundation models.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [esm2_uniref_pretraining_data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002Fesm2_uniref_pretraining_data) | Pre-training | CC-BY-4.0 | ESM2-nv | 188M protein sequences for ESM2 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>3D \u002F Spatial Intelligence\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*Testing and synthetic data for 3D reconstruction, video generation, and spatial understanding models.*\n\n| Dataset | Usage | License | Model(s) | Description |\n|---------|-------|---------|----------|-------------|\n| [Lyra-Testing-Example](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FLyra-Testing-Example) | Evaluation | CC-BY-4.0 | Lyra | Testing examples for Lyra generative 3D reconstruction |\n| [PhysicalAI-SpatialIntelligence-Lyra-SDG](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-SpatialIntelligence-Lyra-SDG) | SDG | CC-BY-4.0 | Lyra | Synthetic data for spatial intelligence models |\n| [GEN3C-Testing-Example](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FGEN3C-Testing-Example) | Evaluation | CC-BY-4.0 | GEN3C | Testing examples for GEN3C video generation |\n| [ChronoEdit-Example-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FChronoEdit-Example-Dataset) | Evaluation | CC-BY-4.0 | ChronoEdit | Temporal reasoning examples for image editing |\n\n\u003C\u002Fdetails>\n\n\u003C\u002Fdetails>\n\n---\n\n## 💡 Feature Requests & Ideas\n\nHave an idea for improving Nemotron models? Create a [Discussion](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron\u002Fdiscussions) topic for it!\n\nIf you have a feature request, feel free to open an [Issue](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron\u002Fissues) and tag it as `enhancement`.\n\nYour feedback helps shape the future of Nemotron models!\n\n---\n\n## Documentation\n\n- [Nemotron 3 Super Training Guide](docs\u002Fnemotron\u002Fsuper3\u002FREADME.md) – frontier model training recipe\n- [Nemotron 3 Nano Training Guide](docs\u002Fnemotron\u002Fnano3\u002FREADME.md) – efficient model training recipe\n- [NeMo-Run Configuration](docs\u002Fnemo_runspec\u002Fnemo-run.md) – execution profiles and job orchestration\n- [Data Preparation](docs\u002Fnemotron\u002Fdata-prep.md) – data preparation module\n- [Contributing Guidelines](CONTRIBUTING.md) – how to contribute\n- [Changelog](CHANGELOG.md) – version history\n\n---\n\n## Contributing\n\nWe welcome contributions: examples, recipes, or other tools. Please read the [Contributing Guidelines](CONTRIBUTING.md) before submitting pull requests.\n\n---\n\n## Security\n\nTo report any vulnerabilities, please reach out to [security@nvidia.com](mailto:security@nvidia.com)\n\n---\n\n## License\n\nApache 2.0 License — see [LICENSE](LICENSE) for details.\n\n---\n\n**NVIDIA Nemotron** — Open and efficient models for agentic AI.\n","# NVIDIA Nemotron 开发者仓库\n\n**用于代理式 AI 的开放且高效的模型。** Nemotron 系列的训练配方、部署指南和用例示例。\n\n[![Python 3.10+](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.10%2B-blue.svg)](https:\u002F\u002Fwww.python.org\u002Fdownloads\u002F)\n[![许可证：Apache 2.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Apache%202.0-green.svg)](https:\u002F\u002Fopensource.org\u002Flicenses\u002FApache-2.0)\n[![欢迎贡献](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fcontributions-welcome-brightgreen.svg)](CONTRIBUTING.md)\n[![文档](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-dev-76B900.svg)](https:\u002F\u002Fnvidia-nemo.github.io\u002FNemotron\u002Fdev\u002F)\n\n\u003Cdiv align=\"center\">\n\n[![观看 Nemotron 概览](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA-NeMo_Nemotron_readme_1a9e8cf4f745.jpg)](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=_y9SEtn1lU8)\n\n**[观看：Nemotron 概览](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=_y9SEtn1lU8)**\n\n\u003C\u002Fdiv>\n\n---\n\n> 🎉Nemotron 3 Ultra 已于 2026 年 GTC 圣何塞大会上发布。欲了解更多信息，请参阅使用指南 [](.\u002Fusage-cookbook\u002FNemotron-3-Ultra-Base\u002FREADME.md)！\n\n\n---\n\n\n## 为什么选择 Nemotron？\n\n| | |\n|---|---|\n| **开放模型** | 完全透明的训练数据、技术和权重，助力社区创新 |\n| **计算效率** | 通过 TensorRT-LLM 实现更高的吞吐量的模型剪枝与优化 |\n| **高精度** | 基于前沿开源模型构建，具备与人类对齐的推理能力，适用于代理式工作流 |\n| **灵活部署** | 可在边缘设备、单 GPU 或数据中心以 NIM 微服务形式部署 |\n\n---\n\n## 仓库概览\n\n```\nnemotron\u002F\n│\n├── src\u002Fnemotron\u002Frecipes\u002F    训练配方（完整、可复现的流水线）\n│\n├── usage-cookbook\u002F          使用手册（部署和模型使用指南）\n│\n└── use-case-examples\u002F       在代理式工作流中利用 Nemotron 的示例\n```\n\n### 我应该使用哪个部分？\n\n| | **训练配方** | **使用手册** | **用例示例** |\n|---|---|---|---|\n| **目的** | 从原始数据到模型的完整训练流水线复现 | 部署并使用训练好的模型 | 构建端到端的应用程序 |\n| **格式** | 包含配置、脚本和评估的 Python 包 | 带有分步指南的 Jupyter 笔记本 | Jupyter 笔记本和脚本 |\n| **何时使用** | 您想训练、微调或理解模型的构建方式 | 您已有模型并希望部署或进行推理 | 您想构建应用程序（RAG、智能体、工具使用） |\n| **位置** | [`src\u002Fnemotron\u002Frecipes\u002F`](.\u002Fsrc\u002Fnemotron\u002Frecipes\u002F) | [`usage-cookbook\u002F`](.\u002Fusage-cookbook\u002F) | [`use-case-examples\u002F`](.\u002Fuse-case-examples\u002F) |\n\n---\n\n## 什么是 Nemotron？\n\n[NVIDIA Nemotron](https:\u002F\u002Fwww.nvidia.com\u002Fen-us\u002Fai-data-science\u002Ffoundation-models\u002Fnemotron\u002F) 是一个专为代理式 AI 打造的开放、高效率多模态模型家族。\n\n**模型层级：**\n\n- **Nano** — 优化用于边缘和 PC 部署\n- **Super** — 单 GPU 部署，具有最高吞吐量\n- **Ultra** — 多 GPU 数据中心应用\n\nNemotron 模型在编码、数学、科学推理、工具调用、指令遵循和视觉推理方面表现出色。可在边缘、单 GPU 或数据中心环境中部署，并支持 NeMo、TensorRT-LLM、vLLM、SGLang 和 NIM 微服务。\n\n---\n\n## 训练配方\n\nNemotron 仓库提供了从原始数据到可部署模型的可复现训练流水线。这些实现反映了大型语言模型的实际训练方式：细致的实验、验证关卡和系统的优化。\n\n### 为什么需要完整的流水线？\n\n训练生产级模型涉及多个相互关联的组件。孤立的示例无法展现各阶段之间的交互。完整的流水线展示了：\n\n- **数据质量如何影响下游性能**，涵盖预训练、SFT 和 RL 各阶段\n- **哪些训练技术真正协同工作**，而不仅仅是理论上的组合\n- **何处设置验证关卡以防止失败**，并保持可复现性\n- **如何在不同阶段之间平衡相互冲突的目标**\n\n由于这些都是完整的系统，您可以放心地提取特定的技术。每个组件都已在实际情境中得到验证。\n\n### 每个配方包括\n\n- 🎨 **合成数据生成** - 使用 [NVIDIA-NeMo\u002FDataDesigner](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FDataDesigner) 生成合成数据集的脚本\n- 🗂️ **数据整理** - 使用 [NVIDIA NeMo Curator](https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FNeMo-Curator) 准备训练数据的脚本，用于可扩展的数据处理、过滤和质量提升\n- 🔁 **训练** - 包含超参数的完整训练循环，使用：\n  - [NVIDIA-NeMo\u002FMegatron-Bridge](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FMegatron-Bridge\u002Ftree\u002Fmain) 用于 Megatron 模型\n  - [NVIDIA-NeMo\u002FAutomodel](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FAutomodel) 用于 HuggingFace 模型\n  - [NVIDIA-NeMo\u002FNeMo-RL](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FRL\u002Ftree\u002Fmain) 在需要 RL 时使用\n  - 包括 GPU 加速的最后一公里数据处理（分词 + 可选的序列打包），以实现最佳训练效率\n- 📊 **评估** - 使用 [NVIDIA NeMo Evaluator](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FEvaluator) 在标准基准测试套件上进行评估\n- 📖 **文档** - 对每个阶段的详细说明\n\n### 可用的配方\n\n| 模型 | 描述 | 阶段 | 指南 |\n|-------|-------------|--------|-------|\n| **[Nemotron 3 Super](docs\u002Fnemotron\u002Fsuper3\u002FREADME.md)** | 总参数 1206 亿 \u002F 活性参数 127 亿 混合 Mamba 隐层 MoE Transformer，适用于前沿推理、编码和代理任务 | 预训练 → SFT → RL | [训练指南](docs\u002Fnemotron\u002Fsuper3\u002FREADME.md) |\n| **[Nemotron 3 Nano](docs\u002Fnemotron\u002Fnano3\u002FREADME.md)** | 总参数 316 亿 \u002F 活性参数 36 亿 MoE 混合 Mamba-Transformer，适用于代理式推理 | 预训练 → SFT → RL | [训练指南](docs\u002Fnemotron\u002Fnano3\u002FREADME.md) |\n\n### Nemotron 3 Super\n\n针对前沿混合 Mamba 隐层专家混合 Transformer 模型的完整训练配方，具备最先进的推理、编码和代理能力。\n\n> **仅使用开源数据**：这些配方完全基于开源的训练数据子集进行训练。结果将与技术报告中的基准测试有所不同，因为后者使用了额外的专有数据。请将这些配方作为参考实现，以便您能够使用自己的数据应用该方法。\n\n**模型规格**：\n- 总参数 1200 亿 \u002F 活性参数 120 亿\n- 多阶段 RL 流水线：3× RLVR + 2× SWE-RL + RLHF，覆盖 21 种奖励环境\n- 异步 GRPO，训练与推理分离\n\n**您可以从中获得的内容**：\n- 大规模预训练与数据课程\n- 多领域 SFT 流水线\n- 多环境 RLVR，同时运行 21 种奖励环境\n- SWE-RL，采用容器隔离的沙箱执行\n- 基于 GenRM 的 RLHF，结合原则导向的奖励机制\n- 1000 GPU 规模下的异步 GRPO\n\n**资源**：\n- [训练指南](docs\u002Fnemotron\u002Fsuper3\u002FREADME.md)\n- [技术报告](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fnemotron\u002Ffiles\u002FNVIDIA-Nemotron-3-Super-Technical-Report.pdf)\n- [模型权重（指令版）](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNemotron-3-Super-49B-v1)\n\n### Nemotron 3 Nano\n\n一个针对代理式推理优化的开源高效专家混合型混合Mamba-Transformer模型的完整训练配方。\n\n> **仅使用开源数据**：这些配方仅使用开源的训练数据子集进行训练。结果将与技术报告中的基准测试有所不同，因为后者使用了额外的专有数据。您可以将这些配方作为参考实现，结合您自己的数据应用该方法论。\n\n**模型规格**：\n- 总参数量316亿，每次前向传播活跃参数36亿\n- 采用课程学习的25万亿预训练token\n- 上下文长度可达100万\n- 推理吞吐量比同等规模模型高3.3倍\n\n**可提取的内容**：\n- 基于课程学习的两阶段数据混合预训练\n- 通过CPT方法扩展长上下文\n- 多领域SFT，包含12种以上数据源\n- InfinityByte跨领域代码合成\n- 工具调用微调及预算控制的推理\n- 多环境RLVR与GRPO\n- GenRM奖励建模与循环比较\n- DPO用于减少工具幻觉\n\n**资源**：\n- [训练指南](docs\u002Fnemotron\u002Fnano3\u002FREADME.md)\n- [技术报告](https:\u002F\u002Fresearch.nvidia.com\u002Flabs\u002Fnemotron\u002Ffiles\u002FNVIDIA-Nemotron-3-Nano-Technical-Report.pdf)\n- [模型权重（基础版）](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-Base-BF16)\n- [模型权重（指令版）](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-BF16)\n- [模型权重（FP8版）](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-FP8)\n\n---\n\n## 使用手册\n\nNemotron模型的实用部署与使用指南。\n\n| 模型 | 最佳用途 | 关键特性 | 资源 |\n|-------|----------|--------------|-----------|\n| [**Nemotron 3 Super 120B A12B**](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Super-120B-A12B-BF16) | 需要强大推理能力的生产级部署 | 100万上下文，在NVFP4单卡B200上运行，RAG与工具调用 | [使用手册](.\u002Fusage-cookbook\u002FNemotron-3-Super) |\n| [**Nemotron 3 Nano 30B A3B**](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-BF16) | 资源受限环境 | 100万上下文，稀疏MoE混合Mamba-2，可控推理 | [使用手册](.\u002Fusage-cookbook\u002FNemotron-3-Nano) |\n| [**NVIDIA-Nemotron-Nano-12B-v2-VL**](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-Nano-12B-v2-VL) | 文档智能与视频理解 | 120亿参数的VLM，视频推理，高效视频采样 | [使用手册](.\u002Fusage-cookbook\u002FNemotron-Nano2-VL\u002F) |\n| [**Llama-3.1-Nemotron-Safety-Guard-8B-v3**](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FLlama-3.1-Nemotron-Safety-Guard-8B-v3) | 多语言内容审核 | 支持9种语言，覆盖23个安全类别 | [使用手册](.\u002Fusage-cookbook\u002FLlama-3.1-Nemotron-Safety-Guard-V3\u002F) |\n| **Nemotron-Parse** | RAG与AI代理的文档解析 | 表格提取、语义分割 | [使用手册](.\u002Fusage-cookbook\u002FNemotron-Parse-v1.1\u002F) |\n\n---\n\n## 使用案例示例\n\n在[`use-case-examples\u002F`](.\u002Fuse-case-examples\u002F)目录中提供了端到端示例，展示实际应用场景：\n\n- **代理式工作流** — 包含规划、上下文管理及外部工具的多步骤AI代理\n- **RAG系统** — 将检索与Nemotron模型结合以生成可靠输出的流水线\n- **工具集成** — 结构化的工具调用、函数执行与数据增强\n- **生产模式** — 可扩展性、监控与部署架构\n\n---\n\n## Nemotron开放数据集\n\nNemotron不仅提供权重、配方和库，还致力于开放多个领域、训练阶段和使用场景的数据。\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>Nemotron数据目录\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*涵盖预训练、后训练、强化学习、多模态、安全及特定领域的NVIDIA Nemotron数据集的综合集合。这些公开可用的数据集为Nemotron系列模型的代理式AI开发提供了支持。*\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>代码\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于训练代码生成、竞赛编程和软件工程能力的数据集，覆盖多种编程语言。*\n\n| 数据集 | 用途 | 许可协议 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-CC-Code-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CC-Code-v1) | 预训练 | NVIDIA数据协议 | Nemotron 3 Nano | 使用Lynx + LLM流水线从Common Crawl代码页面获取的4279亿token |\n| [Nemotron-Pretraining-Code-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Pretraining-Code-v1) | 预训练 | NVIDIA数据协议 | Nemotron Nano 2 | 来自GitHub的代码语料库，用于Nemotron Nano 2 |\n| [Nemotron-Pretraining-Code-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Pretraining-Code-v2) | 预训练 | NVIDIA数据协议 | Nemotron 3 Nano | 更新后的GitHub代码 + 含STEM推理的合成QA |\n| [Nemotron-Cascade-RL-SWE](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Cascade-RL-SWE) | RL训练 | CC-BY-4.0 | Nemotron 3 | SWE代码修复，来自SWE-Bench、SWE-Smith、R2E-Gym |\n| [Nemotron-Competitive-Programming-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Competitive-Programming-v1) | SFT | CC-BY-4.0 | Nemotron 3 | 超过200万Python样本和100万C++样本，涵盖3.4万个竞赛编程题目 |\n| [OpenCodeReasoning](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FOpenCodeReasoning) | SFT | CC-BY-4.0 | OpenCode-Nemotron | 73.5万Python样本，涉及2.8万个竞赛编程题目 |\n| [OpenCodeReasoning-2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FOpenCodeReasoning-2) | SFT | CC-BY-4.0 | OpenCode-Nemotron | 250万样本（140万Python，110万C++），包含代码补全与点评 |\n| [Scoring-Verifiers](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FScoring-Verifiers) | 评估 | CC-BY-4.0 | — | 用于测试用例生成和代码奖励模型的基准 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>数学\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*数学推理数据集范围从预训练语料到高级问题解决，涵盖思维链与工具集成推理。其中包括AIMO-2竞赛获奖数据集。*\n\n| 数据集 | 用途 | 许可协议 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-CC-Math-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CC-Math-v1) | 预训练 | NVIDIA 数据协议 | Nemotron Nano 2, Nemotron 3 Nano | 来自 Common Crawl 的 133B token 数学数据集，使用 Lynx + LLM 流水线 |\n| [Nemotron-Math-Proofs-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Math-Proofs-v1) | SFT | CC-BY-4.0 | Nemotron 3 Nano | 用于 Nemotron 3 后训练的数学证明数据集 |\n| [Nemotron-Math-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Math-v2) | SFT | CC-BY-4.0 | Nemotron 3 | 用于更深层次数学推理的 347K 样本和 7M 条推理轨迹 |\n| [Nemotron-CrossThink](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CrossThink) | RL 训练 | CC-BY-4.0 | Nemotron 3 | 多领域问答，包含选择题和开放性题目格式，用于可验证奖励 |\n| [OpenMathReasoning](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FOpenMathReasoning) | SFT | CC-BY-4.0 | OpenMath-Nemotron | 5.68M 个样本，306K 道来自 AoPS 的题目，附带 CoT\u002FTIR（AIMO-2 冠军） |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>科学 \u002F STEM\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*涵盖化学、物理及通用 STEM 领域的科学推理数据集，用于训练模型进行科学问题解答与推理。*\n\n| 数据集 | 用途 | 许可协议 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-Science-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Science-v1) | SFT | CC-BY-4.0 | Nemotron 3 Nano | 合成科学推理（MCQA + 化学 RQA）|\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>通用 \u002F 网络\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*大规模网络爬取和精选的数据集，用于预训练和后训练，包括多语言数据和通用指令遵循能力。*\n\n| 数据集 | 用途 | 许可协议 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-CC-v2.1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CC-v2.1) | 预训练 | NVIDIA 数据协议 | Nemotron 3 Nano | 2.5T tokens 英文网络数据，包含合成改写和翻译 |\n| [Nemotron-CC-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-CC-v2) | 预训练 | NVIDIA 数据协议 | Nemotron Nano 2 | 6.6T tokens 经过质量筛选的 Common Crawl 数据，包含多语言问答 |\n| [Nemotron-Pretraining-Dataset-sample](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Pretraining-Dataset-sample) | 预训练（样本） | NVIDIA 数据协议 | — | Nemotron 预训练语料库的样本子集，用于实验 |\n| [Llama-Nemotron-Post-Training-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FLlama-Nemotron-Post-Training-Dataset) | SFT + RL | CC-BY-4.0 | Llama-Nemotron Ultra\u002FSuper\u002FNano | 数学、代码、推理数据（2.2M 数学，500K 代码）|\n| [Nemotron-Post-Training-Dataset-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Post-Training-Dataset-v1) | SFT | CC-BY-4.0 | Llama-3.3-Nemotron-Super-49B-v1.5 | 数学、代码、STEM、工具调用 |\n| [Nemotron-Post-Training-Dataset-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Post-Training-Dataset-v2) | SFT + RL | CC-BY-4.0 | Llama-Nemotron | 多语言扩展（西班牙语、法语、德语、意大利语、日语）|\n| [Nemotron-3-Nano-RL-Training-Blend](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-3-Nano-RL-Training-Blend) | RL 训练 | CC-BY-4.0 | Nemotron-3-Nano-30B-A3B | 为 Nemotron 3 Nano 精选的多领域混合数据 |\n| [Nemotron-RL-knowledge-web_search-mcqa](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-RL-knowledge-web_search-mcqa) | RL 训练 | ODC-BY-1.0 | Nemotron 3 | 用于 NeMo Gym 的网络搜索和多项选择问答任务 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>聊天 \u002F 指令遵循\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于训练具有强大指令遵循能力、结构化输出生成和多轮对话功能的对话式 AI 的数据集。*\n\n| 数据集 | 用途 | 许可协议 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-Instruction-Following-Chat-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Instruction-Following-Chat-v1) | SFT | CC-BY-4.0 | Nemotron 3 Nano | 多轮聊天和结构化输出生成 |\n| [Nemotron-RL-instruction_following](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-RL-instruction_following) | RL 训练 | ODC-BY-1.0 | Nemotron 3 | 来自 WildChat-1M 和 Open-Instruct 的可验证指令遵循情况 |\n| [Nemotron-RL-instruction_following-structured_outputs](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-RL-instruction_following-structured_outputs) | RL 训练 | ODC-BY-1.0 | Nemotron 3 | 基于 JSON 模式的约束输出格式测试 |\n| [Nemotron-Cascade-RL-Instruction-Following](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Cascade-RL-Instruction-Following) | RL 训练 | ODC-BY-1.0 | Nemotron 3 | 用于指令遵循 RL 的 108K 个样本 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>代理 \u002F 工具使用\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于训练具备工具调用、多步工作流和代理式推理能力的 AI 代理的数据集。*\n\n| 数据集 | 用途 | 许可协议 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-Agentic-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Agentic-v1) | SFT | CC-BY-4.0 | Nemotron 3 Nano | 用于对话式工具使用和代理式工作流的多轮轨迹 |\n| [Nemotron-RL-agent-workplace_assistant](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-RL-agent-workplace_assistant) | RL 训练 | ODC-BY-1.0 | Nemotron 3 | 用于 NeMo Gym 的职场助理代理任务 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>对齐 \u002F 奖励建模\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于 RLHF、SteerLM 训练和模型对齐的人类偏好与奖励建模数据集。支持 RM-Bench 和 JudgeBench 上表现最佳的奖励模型。*\n\n| 数据集 | 用途 | 许可协议 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [HelpSteer3](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer3) | 奖励建模 | CC-BY-4.0 | Nemotron 3 Nano, Llama-Nemotron Super 49B | 40K+ 个样本；在 RM-Bench\u002FJudgeBench 上名列前茅，基于偏好、反馈和编辑质量 |\n| [HelpSteer2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer2) | 奖励建模 | CC-BY-4.0 | Nemotron-4-340B-Reward, Llama-3.1-Nemotron-70B-Reward | 21K 个样本，包含 5 种属性 |\n| [HelpSteer](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FHelpSteer) | SteerLM 训练 | CC-BY-4.0 | Nemotron-4 SteerLM | 37K 个样本（帮助性、正确性、连贯性、复杂性、冗长性）|\n| [Daring-Anteater](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FDaring-Anteater) | SFT\u002FRLHF | CC-BY-4.0 | Nemotron-4-340B-Instruct | 指令调优数据集；包含合成子集以及 FinQA、wikitablequestions 等 |\n| [sft_datablend_v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002Fsft_datablend_v1) | SFT | CC-BY-4.0 | — | 用于 RLHF 流程的 SFT 数据混合 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>视觉-语言 \u002F 多模态\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于文档智能、OCR、图像推理、视频问答以及思维链式视觉理解的高质量多模态模型训练数据集。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-VLM-Dataset-v2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-VLM-Dataset-v2) | VLM训练 | CC-BY-4.0（部分CC-BY-SA-4.0） | Nemotron VLM | 800万样本，适用于OCR、图像推理、带思维链的视频问答 |\n| [Llama-Nemotron-VLM-Dataset-v1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FLlama-Nemotron-VLM-Dataset-v1) | VLM训练 | CC-BY-4.0（部分CC-BY-SA-4.0） | Llama-3.1-Nemotron-Nano-VL-8B | 300万样本，用于视觉问答和图像字幕生成 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>物理AI \u002F 机器人\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于具身推理、物理常识和机器人操作的数据集。为物理AI应用提供支持的Cosmos-Reason1所依赖的数据集。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Cosmos-Reason1-SFT-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FCosmos-Reason1-SFT-Dataset) | SFT | CC-BY-4.0 | Cosmos-Reason1-7B | 机器人技术、第一人称演示及自动驾驶推理用的视频-文本对 |\n| [Cosmos-Reason1-RL-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FCosmos-Reason1-RL-Dataset) | RL训练 | CC-BY-4.0 | Cosmos-Reason1-7B | 用于物理常识和具身推理的强化学习数据 |\n| [Cosmos-Reason1-Benchmark](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FCosmos-Reason1-Benchmark) | 评估 | CC-BY-4.0 | — | 具身推理基准测试（机器人、HoloAssist、自动驾驶） |\n| [PhysicalAI-Robotics-Manipulation-Augmented](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Robotics-Manipulation-Augmented) | 训练 | CC-BY-4.0 | — | 1000个Franka Panda演示，结合Cosmos Transfer1领域增强技术 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>自动驾驶\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*多传感器驾驶数据及合成场景，用于训练和验证自动驾驶系统。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [PhysicalAI-Autonomous-Vehicles](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Autonomous-Vehicles) | 训练 | NVIDIA AV数据集许可 | — | 来自25个国家的1700小时多传感器数据，包含30.6万个片段 |\n| [PhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Autonomous-Vehicle-Cosmos-Drive-Dreams) | SDG | CC-BY-4.0 | Cosmos | 8.1万个带有LiDAR和高清地图标注的合成视频 |\n| [PhysicalAI-Autonomous-Vehicle-Cosmos-Synthetic](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Autonomous-Vehicle-Cosmos-Synthetic) | SDG | CC-BY-4.0 | Cosmos | Cosmos生成的合成驾驶场景 |\n| [PhysicalAI-Autonomous-Vehicles-NuRec](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-Autonomous-Vehicles-NuRec) | 重建 | NVIDIA AV数据集许可 | — | 基于NuScenes的重建数据 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>合成人物 \u002F 数据生成\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*基于真实世界人口统计信息的隐私安全合成人物数据集，用于主权AI开发和合成数据生成流水线。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-Personas-USA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Personas-USA) | SDG | CC-BY-4.0 | NeMo Data Designer | 100万美国人物，基于美国人口普查统计数据 |\n| [Nemotron-Personas-Japan](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Personas-Japan) | SDG | CC-BY-4.0 | NeMo Data Designer | 100万日本人物，与地区统计数据相符 |\n| [Nemotron-Personas-India](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Personas-India) | SDG | CC-BY-4.0 | NeMo Data Designer | 300万印度人物，用于主权AI开发 |\n| [Nemotron-Personas](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Personas) | SDG | CC-BY-4.0 | NeMo Data Designer | 10万美国人物，包含22个字段，与人口普查数据一致 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>隐私 \u002F PII检测\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于训练命名实体识别模型以检测和遮盖个人身份信息的合成数据集。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Nemotron-PII](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-PII) | NER训练 | CC-BY-4.0 | GLiNER-PII | 10万条合成记录，包含55种以上的PII\u002FPHI实体类型 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>安全 \u002F 内容审核\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于训练护栏模型的内容安全数据集，涵盖全面的风险分类体系。为NemoGuard内容安全模型提供支持。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Aegis-AI-Content-Safety-Dataset-1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FAegis-AI-Content-Safety-Dataset-1.0) | 内容审核 | CC-BY-4.0 | NemoGuard宽松\u002F防御模式 | 1.1万条标注交互数据，覆盖13类风险 |\n| [Aegis-AI-Content-Safety-Dataset-2.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FAegis-AI-Content-Safety-Dataset-2.0) | 内容审核 | CC-BY-4.0 | Llama-3.1-NemoGuard-8B-ContentSafety | 扩展的安全数据集，包含23类违规内容 |\n| [Nemotron-Content-Safety-Audio-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FNemotron-Content-Safety-Audio-Dataset) | 音频安全 | CC-BY-4.0 | — | 来自Aegis 2.0的1900份音频文件，涵盖多种口音 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>RAG \u002F 对话式问答\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于检索增强生成和对话式问答的训练与评估数据。为ChatQA模型提供支持。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [ChatRAG-Bench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FChatRAG-Bench) | 评估 | 其他（衍生） | — | 覆盖10个数据集的基准测试，用于文档问答及无法回答问题的检测 |\n| [ChatQA-Training-Data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FChatQA-Training-Data) | SFT | 其他（衍生） | ChatQA-1.5 | 来自多个来源的ChatQA模型训练数据 |\n| [ChatQA2-Long-SFT-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FChatQA2-Long-SFT-data) | SFT | 其他（衍生） | ChatQA-2 | 12.8万条长上下文训练数据，用于ChatQA-2 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>生物学 \u002F 药物研发\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于训练生物基础模型的蛋白质序列数据。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [esm2_uniref_pretraining_data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002Fesm2_uniref_pretraining_data) | 预训练 | CC-BY-4.0 | ESM2-nv | 用于ESM2的1.88亿条蛋白质序列 |\n\n\u003C\u002Fdetails>\n\n---\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>3D \u002F 空间智能\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n*用于3D重建、视频生成和空间理解模型的测试及合成数据。*\n\n| 数据集 | 用途 | 许可证 | 模型 | 描述 |\n|---------|-------|---------|----------|-------------|\n| [Lyra-Testing-Example](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FLyra-Testing-Example) | 评估 | CC-BY-4.0 | Lyra | Lyra生成式3D重建的测试示例 |\n| [PhysicalAI-SpatialIntelligence-Lyra-SDG](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FPhysicalAI-SpatialIntelligence-Lyra-SDG) | SDG | CC-BY-4.0 | Lyra | 用于空间智能模型的合成数据 |\n| [GEN3C-Testing-Example](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FGEN3C-Testing-Example) | 评估 | CC-BY-4.0 | GEN3C | GEN3C视频生成的测试示例 |\n| [ChronoEdit-Example-Dataset](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnvidia\u002FChronoEdit-Example-Dataset) | 评估 | CC-BY-4.0 | ChronoEdit | 用于图像编辑的时间推理示例 |\n\n\u003C\u002Fdetails>\n\n\u003C\u002Fdetails>\n\n---\n\n\n\n## 💡 功能请求与建议\n\n您有关于改进Nemotron模型的想法吗？请为此创建一个[讨论](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron\u002Fdiscussions)主题！\n\n如果您有功能请求，欢迎随时提交一个[问题](https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron\u002Fissues)，并将其标记为`enhancement`。\n\n您的反馈将帮助塑造Nemotron模型的未来！\n\n---\n\n## 文档\n\n- [Nemotron 3 超级训练指南](docs\u002Fnemotron\u002Fsuper3\u002FREADME.md) – 前沿模型训练配方\n- [Nemotron 3 纳米训练指南](docs\u002Fnemotron\u002Fnano3\u002FREADME.md) – 高效模型训练配方\n- [NeMo-Run 配置](docs\u002Fnemo_runspec\u002Fnemo-run.md) – 执行配置文件和作业编排\n- [数据准备](docs\u002Fnemotron\u002Fdata-prep.md) – 数据准备模块\n- [贡献指南](CONTRIBUTING.md) – 如何贡献\n- [变更日志](CHANGELOG.md) – 版本历史\n\n---\n\n## 贡献\n\n我们欢迎各种形式的贡献：示例、配方或其他工具。在提交拉取请求之前，请务必阅读[贡献指南](CONTRIBUTING.md)。\n\n---\n\n## 安全\n\n如发现任何安全漏洞，请联系[security@nvidia.com](mailto:security@nvidia.com)。\n\n---\n\n## 许可证\n\nApache 2.0 许可证 — 详情请参阅[LICENSE](LICENSE)。\n\n---\n\n**NVIDIA Nemotron** — 开放且高效的代理式人工智能模型。","# NVIDIA Nemotron 快速上手指南\n\nNemotron 是 NVIDIA 推出的一系列开源、高效的多模态模型，专为代理式 AI（Agentic AI）设计。本指南将帮助开发者快速完成环境配置、安装及基础使用。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04\u002F22.04)\n*   **Python 版本**: 3.10 或更高版本\n*   **GPU 支持**: \n    *   **Nano 系列**: 适用于边缘设备或单张消费级\u002F专业级 GPU。\n    *   **Super\u002FUltra 系列**: 推荐多卡数据中心环境（如 H100\u002FB200），需安装 NVIDIA Driver 和 CUDA Toolkit。\n*   **前置依赖**:\n    *   `git`\n    *   `pip` (建议升级至最新版)\n    *   NVIDIA Container Toolkit (若使用 Docker 部署)\n\n> **注意**：为了获得最佳推理性能，建议安装 `TensorRT-LLM` 或使用 NVIDIA NIM 微服务。\n\n## 2. 安装步骤\n\n### 方法一：通过 pip 安装核心库\n\n如果您主要关注模型推理和应用开发，可直接安装相关依赖：\n\n```bash\n# 创建并激活虚拟环境\npython -m venv nemotron-env\nsource nemotron-env\u002Fbin\u002Factivate\n\n# 升级 pip\npip install --upgrade pip\n\n# 安装 Nemotron 相关依赖 (根据具体子项目需求)\n# 此处以通用的 HuggingFace transformers 加速库为例，配合 Nemotron 权重使用\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121\npip install transformers accelerate sentencepiece\n```\n\n### 方法二：克隆仓库获取训练配方与示例\n\n若您需要复现训练流程、查看数据清洗脚本或使用官方提供的 Jupyter Notebook 示例：\n\n```bash\n# 克隆官方仓库\ngit clone https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron.git\ncd Nemotron\n\n# 安装项目依赖 (如有 requirements.txt)\npip install -r requirements.txt\n```\n\n> **国内加速建议**：\n> 1. 克隆仓库时若速度较慢，可使用 Gitee 镜像（如有）或配置 Git 代理。\n> 2. 下载模型权重时，推荐使用 HuggingFace 国内镜像源：\n>    ```bash\n>    export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n>    ```\n\n## 3. 基本使用\n\nNemotron 模型托管在 Hugging Face 上，您可以直接使用 `transformers` 库进行加载和推理。以下以 **Nemotron-3-Nano** 为例展示最简用法。\n\n### 步骤 1: 设置镜像源（可选但推荐）\n\n```bash\nexport HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n```\n\n### 步骤 2: 编写推理脚本\n\n创建文件 `infer.py`，填入以下代码：\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\nimport torch\n\n# 配置模型路径 (以 Nemotron-3-Nano-Instruct 为例)\nmodel_name = \"nvidia\u002FNVIDIA-Nemotron-3-Nano-30B-A3B-BF16\"\n\n# 加载分词器\ntokenizer = AutoTokenizer.from_pretrained(model_name)\n\n# 加载模型 (自动检测数据类型，如需 FP8 需特定后端支持)\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_name,\n    torch_dtype=torch.bfloat16,\n    device_map=\"auto\",\n    trust_remote_code=True\n)\n\n# 准备输入提示词\nprompt = \"请解释量子纠缠的基本概念，并用通俗的比喻说明。\"\nmessages = [\n    {\"role\": \"user\", \"content\": prompt}\n]\n\n# 应用聊天模板\ninput_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)\ninputs = tokenizer(input_text, return_tensors=\"pt\").to(model.device)\n\n# 生成回复\noutputs = model.generate(\n    **inputs,\n    max_new_tokens=512,\n    temperature=0.7,\n    top_p=0.9,\n    do_sample=True\n)\n\n# 解码并打印结果\nresponse = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)\nprint(response)\n```\n\n### 步骤 3: 运行脚本\n\n```bash\npython infer.py\n```\n\n### 进阶：使用 NIM 微服务部署（推荐生产环境）\n\n对于高性能需求，建议使用 NVIDIA NIM 容器化部署：\n\n```bash\n# 拉取并运行 Nemotron NIM 容器 (需登录 NGC)\ndocker run --gpus all -it --rm -p 8000:8000 \\\n  nvcr.io\u002Fnim\u002Fnvidia\u002Fnemotron-3-nano:latest\n```\n\n启动后，可通过标准的 OpenAI 兼容 API 端点 (`http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fchat\u002Fcompletions`) 调用模型。\n\n---\n\n**下一步建议**：\n*   查看 `usage-cookbook\u002F` 目录获取针对 RAG、Agent 工作流的详细 Jupyter 笔记。\n*   参考 `src\u002Fnemotron\u002Frecipes\u002F` 了解从数据清洗到 RLHF 的全流程训练方案。","某金融科技团队正试图构建一个能自动分析财报、调用内部数据库并生成投资建议的 AI 智能体，以辅助分析师决策。\n\n### 没有 Nemotron 时\n- **模型黑盒难调优**：团队只能使用闭源模型或缺乏透明训练数据的开源模型，遇到金融术语理解偏差时，无法追溯根源或针对性复现训练过程。\n- **部署效率低下**：自行优化的模型在单张 GPU 上推理延迟高，难以满足实时交互需求，且缺乏针对 TensorRT-LLM 的原生优化方案。\n- **智能体开发门槛高**：从零搭建工具调用（Tool Calling）和逻辑推理链路耗时数周，缺乏经过验证的端到端参考示例，导致项目反复试错。\n- **资源适配困难**：找不到既能跑在边缘设备又能平滑扩展至数据中心的统一模型架构，被迫维护多套代码库。\n\n### 使用 Nemotron 后\n- **全流程可复现**：利用 Nemotron 提供的完整训练配方（Training Recipes），团队基于透明数据微调出精通金融领域的专用模型，精准修正了推理偏差。\n- **极致推理性能**：直接采用经 TensorRT-LLM 优化的 Nemotron Super 模型，在单卡环境下实现了高吞吐量低延迟部署，响应速度提升显著。\n- **快速落地应用**：参考官方“用例示例”中的智能体工作流代码，几天内便完成了包含检索增强生成（RAG）和复杂工具调用的原型开发。\n- **灵活弹性伸缩**：凭借 Nemotron 统一的模型层级（Nano 到 Ultra），同一套逻辑可无缝从分析师笔记本迁移至云端数据中心，大幅降低运维成本。\n\nNemotron 通过提供透明、高效且专为智能体设计的全栈资源，将企业构建生产级 AI 应用的周期从数月缩短至数天。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FNVIDIA-NeMo_Nemotron_6ce57a46.png","NVIDIA-NeMo","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FNVIDIA-NeMo_ef2128b9.png","",null,"https:\u002F\u002Fnvidia.com\u002F","https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo",[80,84,88,92,96],{"name":81,"color":82,"percentage":83},"Jupyter Notebook","#DA5B0B",73.9,{"name":85,"color":86,"percentage":87},"Python","#3572A5",25.7,{"name":89,"color":90,"percentage":91},"Shell","#89e051",0.2,{"name":93,"color":94,"percentage":95},"Jinja","#a52a22",0.1,{"name":97,"color":98,"percentage":99},"Just","#384d54",0,906,192,"2026-04-09T10:38:06","Apache-2.0",4,"未说明","需要 NVIDIA GPU。具体需求视模型而定：Nano 系列适用于边缘\u002F单卡部署；Super 系列（如 120B 模型）需多 GPU 数据中心环境，支持在单张 B200 GPU 上以 NVFP4 格式运行；训练食谱支持千卡级（1K GPU）异步训练。依赖 TensorRT-LLM、NeMo 等 NVIDIA 加速库。",{"notes":108,"python":109,"dependencies":110},"该工具主要针对 NVIDIA 生态优化。模型分为 Nano（边缘\u002FPC）、Super（单 GPU 高吞吐）和 Ultra（多 GPU 数据中心）三个层级。训练食谱仅使用开源数据子集，结果可能与技术报告有差异。支持多种部署方式，包括边缘设备、单 GPU 服务器及通过 NIM 微服务部署。部分高级功能（如异步 GRPO）需要大规模 GPU 集群支持。","3.10+",[111,112,113,114,115,116,117,118],"NVIDIA NeMo","Megatron-Bridge","TensorRT-LLM","vLLM","SGLang","NVIDIA NeMo Curator","NVIDIA NeMo Evaluator","NVIDIA NIM microservices",[13,14,15],[121,122,123,124,125,126],"ai","fine-tuning","model-training","nemotron","nvidia","reinforcement-learning","2026-03-27T02:49:30.150509","2026-04-10T02:43:02.556420",[130,135,140,145],{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},26996,"Nemotron 模型在工具调用（Tool Calling）中返回的布尔值是 Python 字符串格式（\"True\"\u002F\"False\"）而非 JSON 格式（true\u002Ffalse），如何解决？","该问题通常出现在特定的部署环境（如 DeepInfra SaaS 或本地 GGUF 量化模型）中，而非模型本身的核心缺陷。\n解决方案：\n1. 推荐使用官方构建的 API (build.nvidia.com) 或 vLLM 进行部署，测试表明这些环境不受此问题影响。\n2. 如果使用本地 GGUF 模型，建议尝试使用 Unsloth 提供的量化版本（例如：https:\u002F\u002Fhuggingface.co\u002Funsloth\u002FNemotron-3-Nano-30B-A3B-GGUF）。\n3. 确认是否仅在特定第三方服务商处出现该问题，若是，需等待该服务商修复。","https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron\u002Fissues\u002F52",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},26997,"如何获取 Hugging Face 上 Nemotron 模型权重（如 Nemotron-Elastic）的访问权限？","如果您提交了访问申请但未收到回复，通常是因为审批流程需要人工处理。\n解决方法：\n1. 确保已在 Hugging Face 模型页面（如 nvidia\u002FNemotron-Elastic-12B）填写了访问申请表单。\n2. 如果等待超过一周未获批准，可以在项目的 GitHub Issues 中留言说明情况，维护者会手动联系团队为您开通权限。\n3. 一旦权限开通，您将能正常下载权重文件。","https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron\u002Fissues\u002F37",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},26998,"在使用 vLLM 部署 NVIDIA-Nemotron-3-Super-120B 等大型模型时遇到启动错误或运行异常，可能是什么原因？","如果在运行 vLLM serve 命令时遇到报错，常见原因是模型文件下载不完整导致目录结构缺失。\n解决步骤：\n1. 检查模型下载目录，确认所有权重文件和配置文件已完整下载。\n2. 如果怀疑下载中断，请重新执行下载命令以确保模型目录完整。\n3. 确认环境变量和容器绑定路径（--bind）设置正确，指向完整的模型数据路径。\n许多用户在补全模型目录后问题即得到解决。","https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron\u002Fissues\u002F127",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},26999,"Nemotron 仓库中的 Recipes（食谱）、Use-case-examples（用例示例）和 Cookbooks（烹饪书）有什么区别？","为了帮助新用户区分这三类资源，项目文档已更新包含对比表格。\n一般区分原则：\n1. Recipes：通常指针对特定任务优化的完整训练或微调流程配置。\n2. Use-case-examples：展示模型在特定应用场景下如何使用的代码示例。\n3. Cookbooks：提供逐步教程，指导用户如何组合使用各种工具和技术来完成复杂任务。\n建议查看仓库概述（Repository Overview）部分的具体对比表，以根据您的需求选择合适的资源类型。","https:\u002F\u002Fgithub.com\u002FNVIDIA-NeMo\u002FNemotron\u002Fissues\u002F75",[151],{"id":152,"version":153,"summary_zh":76,"released_at":154},180123,"v0.1.0","2026-03-24T04:09:50"]