[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-huggingface--nanotron":3,"tool-huggingface--nanotron":64},[4,17,27,35,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,43],"视频",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":23,"last_commit_at":50,"category_tags":51,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":23,"last_commit_at":58,"category_tags":59,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,60,43,61,15,62,26,13,63],"数据工具","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":75,"owner_website":80,"owner_url":81,"languages":82,"stars":95,"forks":96,"last_commit_at":97,"license":98,"difficulty_score":99,"env_os":100,"env_gpu":101,"env_ram":102,"env_deps":103,"category_tags":116,"github_topics":79,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":117,"updated_at":118,"faqs":119,"releases":145},4183,"huggingface\u002Fnanotron","nanotron","Minimalistic large language model 3D-parallelism training","Nanotron 是由 Hugging Face 推出的一个轻量级开源库，专为大规模语言模型（LLM）的预训练而设计。它核心解决了在自定义数据集上高效训练 Transformer 模型时的复杂性与性能瓶颈问题，让原本繁琐的大模型训练流程变得简单、快速且易于扩展。\n\n这款工具特别适合 AI 研究人员和深度学习开发者使用，尤其是那些希望从零开始预训练模型或深入理解分布式训练机制的技术团队。Nanotron 的最大亮点在于其极简的设计理念与强大的 3D 并行技术（结合数据并行、张量并行和流水线并行），能够充分利用多 GPU 甚至多节点集群的算力，显著提升训练速度。同时，它提供了灵活易用的 API，支持用户轻松配置训练任务，从单节点快速测试到超大规模集群部署均可胜任。此外，项目还配套了详细的“超大规模训练指南”，帮助用户掌握扩展技巧。无论是想快速验证想法的研究者，还是追求极致效率的工程团队，Nanotron 都是一个兼顾简洁性与高性能的理想选择。","\u003Ch1 align=\"center\">⚡️ Nanotron\u003C\u002Fh1>\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Freleases\">\n        \u003Cimg alt=\"GitHub release\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frelease\u002Fhuggingface\u002Fnanotron.svg\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fblob\u002Fmaster\u002FLICENSE\">\n        \u003Cimg alt=\"License\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fhuggingface\u002Fnanotron.svg?color=green\">\n    \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Ch4 align=\"center\">\n    \u003Cp>\n        \u003Ca href=\"#installation\">Installation\u003C\u002Fa> •\n        \u003Ca href=\"#quick-start\">Quick Start\u003C\u002Fa> •\n        \u003Ca href=\"#features\">Features\u003C\u002Fa> •\n        \u003Ca href=\"#benchmarks\">Benchmarks\u003C\u002Fa> •\n        \u003Ca href=\"CONTRIBUTING.md\">Contributing\u003C\u002Fa>\n    \u003Cp>\n\u003C\u002Fh4>\n\n\u003Ch3 align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnanotron\">\u003Cimg style=\"float: middle; padding: 10px 10px 10px 10px;\" width=\"60\" height=\"55\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhuggingface_nanotron_readme_cfa649417b1d.png\" \u002F>\u003C\u002Fa>\n\u003C\u002Fh3>\n\u003Ch3 align=\"center\">\n\u003Cp>Pretraining models made easy\n\u003C\u002Fh3>\n\nNanotron is a library for pretraining transformer models. It provides a simple and flexible API to pretrain models on custom datasets. Nanotron is designed to be easy to use, fast, and scalable. It is built with the following principles in mind:\n\n- **Simplicity**: Nanotron is designed to be easy to use. It provides a simple and flexible API to pretrain models on custom datasets.\n- **Performance**: Optimized for speed and scalability, Nanotron uses the latest techniques to train models faster and more efficiently.\n\n📚 **Check out our [Ultrascale Playbook](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fnanotron\u002Fultrascale-playbook)** - A comprehensive guide to efficiently scale LLM training with Nanotron!\n\n📝 **AI generated docs thanks to [DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fhuggingface\u002Fnanotron)**\n\n## Installation\n\nTo run the code in this project, first create a Python virtual environment using e.g. `uv`:\n\n\n```shell\nuv venv nanotron --python 3.11 && source nanotron\u002Fbin\u002Factivate && uv pip install --upgrade pip\n```\n\n> [!TIP]\n> For Hugging Face cluster users, add `export UV_LINK_MODE=copy` to your `.bashrc` to suppress cache warnings from `uv`\n\nNext, install Pytorch:\n\n```shell\nuv pip install torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124\n```\n\nThen install the core dependencies with:\n\n```shell\nuv pip install -e .\n```\n\nTo run the example scripts, install the remaining dependencies as follows:\n\n```shell\nuv pip install datasets transformers datatrove[io] numba wandb\n# Fused kernels\nuv pip install ninja triton \"flash-attn>=2.5.0\" --no-build-isolation\n```\n\nNext, log into your Hugging Face and Weights and Biases accounts as follows:\n\n```shell\nhuggingface-cli login\nwandb login\n```\n\nFinally, check whether your system has Git LFS installed so that you can load and push models\u002Fdatasets to the Hugging Face Hub:\n\n```shell\ngit-lfs --version\n```\n\nIf it isn't installed, run:\n\n```shell\nsudo apt-get install git-lfs\n```\n\n\n## Quick Start\n\n### Training a tiny Llama model\n\nThe following command will train a tiny Llama model on a single node of 8 x H100s in about 10 minutes:\n\n```shell\nCUDA_DEVICE_MAX_CONNECTIONS=1 torchrun --nproc_per_node=8 run_train.py --config-file examples\u002Fconfig_tiny_llama.yaml\n```\n\nThe model will be saved in the `checkpoints` directory as specified in the config file.\n\n> [!NOTE]\n> You can use `examples\u002Fconfig_tiny_llama.py` to generate your own training config\n\nFor detailed instructions on training your first model, check out our [Your First Training guide](docs\u002Fyour-first-training.md). For multi-node training with Slurm, see our [Multi-Node Training guide](docs\u002Fmulti-node-training.md).\n\n### Run generation from your checkpoint\n\n```shell\ntorchrun --nproc_per_node=1 run_generate.py --ckpt-path checkpoints\u002F{checkpoint_number}\u002F --tp 1 --pp 1\n```\n\nIncrease the value of `--tp` (tensor parallel) to accelerate generation with multiple GPUs and use a larger value of `--pp` (pipeline parallel) for very large models.\n\n### Debugging with VSCode\nTo debug with VSCode, add the following configuration to your `launch.json` file:\n\n```json\n{\n    \"name\": \"run_train.py\",\n    \"type\": \"python\",\n    \"request\": \"launch\",\n    \"program\": \"torchrun\", \u002F\u002F or full path to torchrun by running `which torchrun`\n    \"console\": \"integratedTerminal\",\n    \"justMyCode\": false,\n    \"args\": [\n        \"--nproc_per_node=2\",\n        \"run_train.py\",\n        \"--config-file=examples\u002Fconfig_tiny_llama.yaml\", \u002F\u002F or use examples\u002Fconfig_tiny_llama.py to generate your own config\n    ],\n    \"env\": {\n        \u002F\u002F \"NANOTRON_BENCHMARK\": \"1\", \u002F\u002F enable to benchmark your training for a couple of steps\n        \"CUDA_DEVICE_MAX_CONNECTIONS\": \"1\",\n        \"WANDB_MODE\": \"disabled\",\n    }\n},\n```\n> [!NOTE]\n> For more info check [Debugging Nanotron example (on multiple GPUs)](\u002Fexamples\u002Fcontributor-guide\u002FREADME.md#debugging-nanotron-example-on-multiple-gpus)\n\n### Custom examples\nYou can find more examples in the [`\u002Fexamples`](\u002Fexamples) directory:\n\u003C!-- Make a table of the examples we support -->\n| Example | Description |\n| --- | --- |\n| `custom-dataloader` | Plug a custom dataloader to nanotron |\n| `datatrove` | Use the datatrove library to load data |\n| `doremi` | Use DoReMi to speed up training |\n| `mamba` | Train an example Mamba model |\n| `moe` | Train an example Mixture-of-Experts (MoE) model |\n| `mup` | Use spectral µTransfer to scale up your model |\n| `examples\u002Fconfig_tiny_llama_with_s3_upload.yaml` | For automatically uploading checkpoints to S3 |\n\nWe're working on adding more examples soon! Feel free to add a PR to add your own example. 🚀\n\n## Benchmarks\n\nWe've conducted extensive benchmarking of Nanotron across various model sizes and configurations. The complete benchmark data, configurations, and logs are available in our [ultrascale-playbook-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnanotron\u002Fultrascale-playbook-data\u002Ftree\u002Fmain) repository.\n\n![Model Efficiency Benchmarks](docs\u002Fbenchmark_summary.svg)\n\nThe diagram above showcases the best configurations we discovered for each model size and node count in nanotron v0.5, highlighting optimal MFU (Model FLOPS Utilization) and memory usage. These represent the most efficient training setups identified through our comprehensive benchmarking process. Stay tuned for even more optimizations coming soon! 🚀\n\nFor detailed analysis and best practices derived from these benchmarks, see our [Ultrascale Playbook](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fnanotron\u002Fultrascale-playbook).\n\n## Features\nWe currently support the following features:\n- [x] 3D parallelism (DP+TP+PP)\n- [x] Expert parallelism for MoEs\n- [x] AFAB and 1F1B schedules for PP\n- [x] Explicit APIs for TP and PP which enables easy debugging\n- [x] ZeRO-1 optimizer\n- [x] FP32 gradient accumulation\n- [x] Parameter tying\u002Fsharding\n- [x] Custom module checkpointing for large models\n- [x] Spectral µTransfer parametrization for scaling up neural networks\n- [x] Mamba example\n- [x] CUDA event-based timing for accurate GPU performance measurement\n\nAnd we have on our roadmap:\n- [ ] FP8 training\n- [ ] ZeRO-3 optimizer (a.k.a FSDP)\n- [ ] `torch.compile` support\n- [ ] Ring attention\n- [ ] Interleaved 1f1b schedule\n\n## Credits\nWe would like to thank everyone working on LLMs, especially those sharing their work openly from which we took great inspiration: Nvidia for `Megatron-LM\u002Fapex`, Microsoft for `DeepSpeed`, HazyResearch for `flash-attn`..\n","\u003Ch1 align=\"center\">⚡️ Nanotron\u003C\u002Fh1>\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Freleases\">\n        \u003Cimg alt=\"GitHub release\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Frelease\u002Fhuggingface\u002Fnanotron.svg\">\n    \u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fblob\u002Fmaster\u002FLICENSE\">\n        \u003Cimg alt=\"License\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fhuggingface\u002Fnanotron.svg?color=green\">\n    \u003C\u002Fa>\n\u003C\u002Fp>\n\n\u003Ch4 align=\"center\">\n    \u003Cp>\n        \u003Ca href=\"#installation\">安装\u003C\u002Fa> •\n        \u003Ca href=\"#quick-start\">快速入门\u003C\u002Fa> •\n        \u003Ca href=\"#features\">功能\u003C\u002Fa> •\n        \u003Ca href=\"#benchmarks\">基准测试\u003C\u002Fa> •\n        \u003Ca href=\"CONTRIBUTING.md\">贡献\u003C\u002Fa>\n    \u003Cp>\n\u003C\u002Fh4>\n\n\u003Ch3 align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fnanotron\">\u003Cimg style=\"float: middle; padding: 10px 10px 10px 10px;\" width=\"60\" height=\"55\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhuggingface_nanotron_readme_cfa649417b1d.png\" \u002F>\u003C\u002Fa>\n\u003C\u002Fh3>\n\u003Ch3 align=\"center\">\n\u003Cp>预训练模型，轻松搞定\u003C\u002Fp>\n\u003C\u002Fh3>\n\nNanotron 是一个用于预训练 Transformer 模型的库。它提供了一个简单而灵活的 API，用于在自定义数据集上预训练模型。Nanotron 的设计宗旨是易用、快速且可扩展。其构建遵循以下原则：\n\n- **简单性**：Nanotron 设计简洁易用，提供了一个简单灵活的 API，方便用户在自定义数据集上进行模型预训练。\n- **性能**：Nanotron 在速度和可扩展性方面进行了优化，采用最新技术，使模型训练更快、更高效。\n\n📚 **查看我们的 [超大规模实践手册](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fnanotron\u002Fultrascale-playbook)** —— 一份使用 Nanotron 高效扩展 LLM 训练的全面指南！\n\n📝 **AI 生成的文档，感谢 [DeepWiki](https:\u002F\u002Fdeepwiki.com\u002Fhuggingface\u002Fnanotron)**\n\n## 安装\n\n要运行该项目中的代码，首先使用例如 `uv` 创建一个 Python 虚拟环境：\n\n\n```shell\nuv venv nanotron --python 3.11 && source nanotron\u002Fbin\u002Factivate && uv pip install --upgrade pip\n```\n\n> [!提示]\n> 对于 Hugging Face 集群用户，请将 `export UV_LINK_MODE=copy` 添加到您的 `.bashrc` 文件中，以抑制 `uv` 的缓存警告。\n\n接下来，安装 PyTorch：\n\n```shell\nuv pip install torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124\n```\n\n然后安装核心依赖项：\n\n```shell\nuv pip install -e .\n```\n\n要运行示例脚本，还需安装以下依赖项：\n\n```shell\nuv pip install datasets transformers datatrove[io] numba wandb\n# 融合内核\nuv pip install ninja triton \"flash-attn>=2.5.0\" --no-build-isolation\n```\n\n接下来，按照如下方式登录您的 Hugging Face 和 Weights & Biases 账户：\n\n```shell\nhuggingface-cli login\nwandb login\n```\n\n最后，检查您的系统是否已安装 Git LFS，以便能够加载和推送模型\u002F数据集到 Hugging Face Hub：\n\n```shell\ngit-lfs --version\n```\n\n如果未安装，请运行：\n\n```shell\nsudo apt-get install git-lfs\n```\n\n\n## 快速入门\n\n### 训练一个小型 Llama 模型\n\n以下命令将在单节点的 8 张 H100 显卡上大约 10 分钟内训练一个小型 Llama 模型：\n\n```shell\nCUDA_DEVICE_MAX_CONNECTIONS=1 torchrun --nproc_per_node=8 run_train.py --config-file examples\u002Fconfig_tiny_llama.yaml\n```\n\n模型将保存在配置文件中指定的 `checkpoints` 目录下。\n\n> [!注意]\n> 您可以使用 `examples\u002Fconfig_tiny_llama.py` 生成您自己的训练配置\n\n有关如何训练您的第一个模型的详细说明，请参阅我们的 [您的第一个训练指南](docs\u002Fyour-first-training.md)。如需使用 Slurm 进行多节点训练，请参阅我们的 [多节点训练指南](docs\u002Fmulti-node-training.md)。\n\n### 从您的检查点运行生成\n\n```shell\ntorchrun --nproc_per_node=1 run_generate.py --ckpt-path checkpoints\u002F{checkpoint_number}\u002F --tp 1 --pp 1\n```\n\n增加 `--tp`（张量并行）的值以利用多 GPU 加速生成，并为非常大的模型使用更大的 `--pp`（流水线并行）值。\n\n### 使用 VSCode 调试\n要使用 VSCode 调试，请将以下配置添加到您的 `launch.json` 文件中：\n\n```json\n{\n    \"name\": \"run_train.py\",\n    \"type\": \"python\",\n    \"request\": \"launch\",\n    \"program\": \"torchrun\", \u002F\u002F 或者通过运行 `which torchrun` 获取 torchrun 的完整路径\n    \"console\": \"integratedTerminal\",\n    \"justMyCode\": false,\n    \"args\": [\n        \"--nproc_per_node=2\",\n        \"run_train.py\",\n        \"--config-file=examples\u002Fconfig_tiny_llama.yaml\", \u002F\u002F 或者使用 examples\u002Fconfig_tiny_llama.py 生成您自己的配置\n    ],\n    \"env\": {\n        \u002F\u002F \"NANOTRON_BENCHMARK\": \"1\", \u002F\u002F 启用此选项可在几个步骤内对您的训练进行基准测试\n        \"CUDA_DEVICE_MAX_CONNECTIONS\": \"1\",\n        \"WANDB_MODE\": \"disabled\",\n    }\n},\n```\n> [!注意]\n> 更多信息请参阅 [在多 GPU 上调试 Nanotron 示例](\u002Fexamples\u002Fcontributor-guide\u002FREADME.md#debugging-nanotron-example-on-multiple-gpus)\n\n### 自定义示例\n您可以在 `\u002Fexamples` 目录中找到更多示例：\n\u003C!-- 列出我们支持的示例 -->\n| 示例 | 描述 |\n| --- | --- |\n| `custom-dataloader` | 将自定义数据加载器接入 Nanotron |\n| `datatrove` | 使用 datatrove 库加载数据 |\n| `doremi` | 使用 DoReMi 加速训练 |\n| `mamba` | 训练一个 Mamba 示例模型 |\n| `moe` | 训练一个专家混合（MoE）示例模型 |\n| `mup` | 使用谱 µTransfer 扩展模型规模 |\n| `examples\u002Fconfig_tiny_llama_with_s3_upload.yaml` | 用于自动将检查点上传至 S3 |\n\n我们正在努力添加更多示例！欢迎提交 PR 添加您自己的示例。🚀\n\n## 基准测试\n\n我们对 Nanotron 在不同模型大小和配置下的性能进行了广泛的基准测试。完整的基准测试数据、配置和日志都可在我们的 [ultrascale-playbook-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnanotron\u002Fultrascale-playbook-data\u002Ftree\u002Fmain) 仓库中找到。\n\n![模型效率基准测试](docs\u002Fbenchmark_summary.svg)\n\n上图展示了我们在 Nanotron v0.5 中针对不同模型大小和节点数量所发现的最佳配置，突出了最优的 MFU（模型 FLOPS 利用率）和内存使用情况。这些是我们通过全面基准测试过程确定的最高效训练设置。敬请期待更多优化方案的推出！🚀\n\n有关这些基准测试的详细分析及最佳实践，请参阅我们的 [超大规模实践手册](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fnanotron\u002Fultrascale-playbook)。\n\n## 功能\n我们目前支持以下功能：\n- [x] 3D 并行（数据并行 + 模型并行 + 流水线并行）\n- [x] 面向 MoE 的专家并行\n- [x] 流水线并行的 AFAB 和 1F1B 调度策略\n- [x] 提供显式的数据并行和流水线并行 API，便于调试\n- [x] ZeRO-1 优化器\n- [x] FP32 梯度累积\n- [x] 参数共享\u002F分片\n- [x] 针对大模型的自定义模块检查点保存\n- [x] 用于扩展神经网络的谱 µTransfer 参数化方法\n- [x] Mamba 示例\n- [x] 基于 CUDA 事件的计时功能，可精确测量 GPU 性能\n\n我们的路线图还包括：\n- [ ] FP8 训练\n- [ ] ZeRO-3 优化器（即 FSDP）\n- [ ] `torch.compile` 支持\n- [ ] Ring Attention\n- [ ] 交错式 1f1b 调度策略\n\n## 致谢\n我们衷心感谢所有从事大语言模型研究的同仁，尤其是那些公开分享研究成果、为我们提供巨大启发的团队：NVIDIA 的 `Megatron-LM\u002Fapex`、微软的 `DeepSpeed`、HazyResearch 的 `flash-attn` 等。","# Nanotron 快速上手指南\n\nNanotron 是由 Hugging Face 推出的一个用于预训练 Transformer 模型的开源库。它旨在提供简单灵活的 API，同时针对速度和可扩展性进行了深度优化，支持在自定义数据集上高效训练大语言模型（LLM）。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux (推荐)\n*   **Python 版本**: 3.11\n*   **GPU**: 支持 CUDA 的 NVIDIA GPU (示例基于 H100，其他型号需调整配置)\n*   **必要工具**:\n    *   `git` 和 `git-lfs` (用于加载和推送模型\u002F数据集)\n    *   `uv` (推荐的 Python 虚拟环境和包管理工具)\n\n**检查并安装 Git LFS：**\n```bash\ngit-lfs --version\n# 如果未安装，运行：\nsudo apt-get install git-lfs\n```\n\n## 安装步骤\n\n推荐使用 `uv` 进行环境管理和依赖安装，以获得更快的速度和更好的兼容性。\n\n### 1. 创建虚拟环境\n```bash\nuv venv nanotron --python 3.11 && source nanotron\u002Fbin\u002Factivate && uv pip install --upgrade pip\n```\n> **提示**: 如果您在 Hugging Face 集群环境中使用，建议在 `.bashrc` 中添加 `export UV_LINK_MODE=copy` 以抑制缓存警告。\n\n### 2. 安装 PyTorch\n根据官方推荐安装 CUDA 12.4 版本的 PyTorch：\n```bash\nuv pip install torch --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu124\n```\n> **国内加速建议**: 如果下载速度慢，可尝试使用清华或阿里镜像源替换 index-url，例如：`--index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple` (需确保 PyTorch 版本兼容性，若官方源不可用再考虑镜像)。\n\n### 3. 安装核心依赖\n```bash\nuv pip install -e .\n```\n\n### 4. 安装示例运行所需依赖\n如果您打算运行示例脚本或进行完整开发，请安装以下额外依赖：\n```bash\nuv pip install datasets transformers datatrove[io] numba wandb\n# 安装融合内核 (Fused kernels)\nuv pip install ninja triton \"flash-attn>=2.5.0\" --no-build-isolation\n```\n\n### 5. 登录账户\n为了使用 Hugging Face Hub 和记录实验数据，请登录相关账户：\n```bash\nhuggingface-cli login\nwandb login\n```\n\n## 基本使用\n\n### 训练一个微型 Llama 模型\n\n以下命令将在单个节点（8 张 H100 GPU）上训练一个微型 Llama 模型，预计耗时约 10 分钟。\n\n```bash\nCUDA_DEVICE_MAX_CONNECTIONS=1 torchrun --nproc_per_node=8 run_train.py --config-file examples\u002Fconfig_tiny_llama.yaml\n```\n\n*   **说明**:\n    *   `--nproc_per_node=8`: 指定使用的 GPU 数量，请根据您的实际硬件调整。\n    *   `--config-file`: 指定配置文件。您可以参考 `examples\u002Fconfig_tiny_llama.py` 生成自定义的训练配置。\n    *   训练完成的模型将保存在配置文件中指定的 `checkpoints` 目录下。\n\n### 从检查点生成文本\n\n训练完成后，可以使用以下命令加载检查点进行推理生成：\n\n```bash\ntorchrun --nproc_per_node=1 run_generate.py --ckpt-path checkpoints\u002F{checkpoint_number}\u002F --tp 1 --pp 1\n```\n\n*   **参数调整**:\n    *   `--tp` (Tensor Parallelism): 增加此值可利用多张 GPU 加速生成过程。\n    *   `--pp` (Pipeline Parallelism): 对于超大模型，可增加此值以启用流水线并行。\n\n### 更多示例\n\n项目 `\u002Fexamples` 目录下提供了丰富的进阶示例，包括：\n*   `custom-dataloader`: 接入自定义数据加载器\n*   `moe`: 训练混合专家模型 (MoE)\n*   `mamba`: 训练 Mamba 架构模型\n*   `doremi`: 使用 DoReMi 加速训练\n\n详细的多节点训练（Slurm）和调试指南请参阅项目文档中的 `docs\u002Fyour-first-training.md` 和 `docs\u002Fmulti-node-training.md`。","某初创 AI 实验室的研究团队计划在单节点 8 卡 H100 集群上，从零预训练一个定制化的垂直领域大语言模型。\n\n### 没有 nanotron 时\n- **并行策略配置繁琐**：手动编写数据并行、张量并行和流水线并行的混合代码极易出错，调试分布式通信逻辑耗费数周时间。\n- **环境依赖地狱**：需要单独适配 Flash Attention、Triton 等高性能算子版本，不同库之间的兼容性冲突常导致训练无法启动。\n- **资源利用率低下**：缺乏针对超大规模训练的底层优化，显存碎片化严重，导致无法在有限硬件上跑通更大参数量的模型。\n- **实验迭代缓慢**：缺少开箱即用的检查点管理与断点续训机制，一旦训练中断，恢复进度复杂且容易丢失状态。\n\n### 使用 nanotron 后\n- **一键式并行部署**：通过简单的 YAML 配置文件即可灵活定义 3D 并行策略，将原本复杂的分布式架构搭建过程缩短至几分钟。\n- **标准化性能组件**：内置集成最新的高性能内核（如 Flash Attention），自动处理底层依赖，确保环境“安装即用”，消除兼容性焦虑。\n- **极致训练效率**：依托专为速度设计的架构，显著降低显存占用并提升吞吐量，使团队能在同等硬件条件下训练更深层的模型。\n- **流畅的实验闭环**：原生支持 Hugging Face Hub 与 WandB 集成，提供稳健的检查点保存与恢复功能，让研究人员能专注于算法调优而非工程运维。\n\nnanotron 通过将复杂的分布式训练工程细节封装为极简 API，让研究团队能从繁琐的基础设施搭建中解放出来，真正实现“预训练模型变得简单”。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fhuggingface_nanotron_4a467378.png","huggingface","Hugging Face","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fhuggingface_90da21a4.png","The AI community building the future.",null,"https:\u002F\u002Fhuggingface.co\u002F","https:\u002F\u002Fgithub.com\u002Fhuggingface",[83,87,91],{"name":84,"color":85,"percentage":86},"Python","#3572A5",98.1,{"name":88,"color":89,"percentage":90},"C++","#f34b7d",1.8,{"name":92,"color":93,"percentage":94},"Makefile","#427819",0.1,2636,292,"2026-04-05T12:41:57","Apache-2.0",4,"Linux","必需 NVIDIA GPU。示例要求 8x H100；支持 Flash Attention 2.5+（通常需 Ampere 架构或更新，如 A100\u002FH100）；安装指令指定 CUDA 12.4 (cu124)。","未说明",{"notes":104,"python":105,"dependencies":106},"建议使用 uv 管理虚拟环境和依赖；Hugging Face 集群用户需设置 UV_LINK_MODE=copy；运行前需登录 Hugging Face 和 Weights & Biases 账号；系统需安装 Git LFS 以处理模型和数据集；支持多节点训练（Slurm）及多种并行策略（DP\u002FTP\u002FPP\u002FMoE）。","3.11",[107,108,109,110,111,112,113,114,115],"torch (cu124)","flash-attn>=2.5.0","transformers","datasets","datatrove[io]","numba","wandb","ninja","triton",[26,13],"2026-03-27T02:49:30.150509","2026-04-06T14:03:48.524138",[120,125,130,135,140],{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},19063,"如何在多节点（Multinode）集群上运行 Nanotron 训练？","Nanotron 已在多节点环境经过测试（例如 BigCode 7B 模型）。如果您使用 SLURM 作业调度系统，可以参考社区提供的指南和启动脚本。关键步骤包括：\n1. 参考多节点启动指南（如 Scandinavian LM Leonardo 项目中的脚本）。\n2. 使用合适的 SLURM 启动模板。\n3. **重要**：如果增加节点数量，务必在配置文件中调整数据并行度（data parallelism, `dp`）设置，以匹配新的节点规模。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fissues\u002F115",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},19064,"当管道并行度（PP）大于 1 时，从检查点恢复训练报错怎么办？","该问题是由于最近代码变更导致每个参数组（param_group）只有一个参数，而 `LambdaLR` 学习率调度器为每个参数组创建了独立的 lambda 函数，导致不同进程间的数量不匹配。\n解决方案：\n1. **推荐**：应用修复该问题的特定提交（commit），该修复通过加载单个参数组的 `lr_lambdas` 并进行深拷贝（deepcopy）来解决问题。\n2. **临时方案**：如果您已经训练了很久不想重头开始，可以硬编码当前的学习率调度器逻辑，或者使用修复后的代码训练一个迭代生成新检查点，然后将旧检查点的权重值手动复制到新格式的文件中（注意不能直接复制文件，因为不同 PP rank 的文件大小\u002F形状可能不同）。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fissues\u002F221",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},19065,"如何配置以训练超过 1 个 epoch（轮次）？","默认情况下，如果数据集太小无法满足设定的训练步数（train_steps），会抛出 AssertionError。要训练多个 epoch，您不需要创建包含重复数据的更大数据集。您可以直接在 YAML 配置文件中调整 `train_steps` 参数，使其大于单个 epoch 所需的步数。确保计算出的总步数不超过数据集容量与期望 epoch 数的乘积，或者根据需求适当增加 `train_steps` 的值以实现多轮训练。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fissues\u002F158",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},19066,"示例文件夹中缺少 'datatrove' 依赖或相关代码怎么办？","项目已将分词机制从原有的 Nanoset 工具迁移至 `datatrove`。要解决此问题并启用新功能，请执行以下操作：\n1. 从项目文件夹运行命令安装带 nanosets 特性的版本：`pip install -e '.[nanosets]'`（这会从源码安装 datatrove）。\n2. 更新配置文件：将 `dataset_path` 参数更名为 `dataset_folder`。\n3. 现在可以使用 `DatatroveFolderDataset` 和 `DocumentTokenizer` 来处理标记化的文档。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fissues\u002F175",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},19067,"运行 LightEval 评估时遇到循环导入（Circular import）错误如何解决？","如果遇到此类导入错误且重新安装包无效，建议尝试以下方法：\n1. 确保您的模型已推送到 Hugging Face Hub。\n2. 修改运行脚本，直接使用 Hub 上的模型路径作为 `pretrained` 参数，而不是本地路径。\n3. 示例命令结构：\n`accelerate launch --multi_gpu --num_processes=\u003CGPU 数量> -m lighteval accelerate --model_args \"pretrained=您的 Hub 模型路径\" --tasks \"任务列表\" --output_dir \".\u002Fevals\"`\n4. 如果问题依旧，可能需要等待维护者发布新版本（如 v0.5）到 PyPI 以修复潜在的兼容性断裂。","https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fissues\u002F213",[146,151,156,161],{"id":147,"version":148,"summary_zh":149,"released_at":150},117124,"v0.4","## 使用方法\n\n![cmd](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fassets\u002F47445085\u002F726d6cd8-9373-4874-a2ae-a1fb7b7b7ccb)\n\n## 变更内容\n* [修复] 由 @xrsrke 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F81 中修复了 FA2 的 Layer Norm 核心函数中错误的容差设置。\n* [DoReMi] 由 @xrsrke 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F95 中进行的小规模重构。\n* 添加 Mamba PR，由 @3outeille 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F83 中完成。\n* 升级到 v0.4 版本，并由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F96 中进行了快速重构。\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fcompare\u002Fv0.3...v0.4","2024-03-04T17:21:17",{"id":152,"version":153,"summary_zh":154,"released_at":155},117125,"v0.3","你可能会认为，加速预训练性能的关键方法无非是寻找更多高质量数据、增加浮点运算量，或是调整模型架构。然而，事实并非如此。DoReMi 证明，在使用相同训练数据源的情况下，采用最优数据混合策略的模型，能够在至少 70% 的领域或所有领域以及下游评估中，超越采用随机采样的同类模型——而且这一切都不需要事先了解下游任务的具体内容。\n> DoReMi 博客：https:\u002F\u002Fcrfm.stanford.edu\u002F2023\u002F09\u002F14\u002Fdoremi\n\n### 在 Nanotron 中使用 DoReMi：\n（感谢 @xrsrke）\n- 步骤 0：数据预处理\n\n- 步骤 1：使用来自各个领域的均匀采样来训练一个小型参考模型（对于给定的全局批次大小，你在所有领域中平均抽取 `x` 个样本；但在某些情况下，某个领域的样本数量可能少于其他领域，这会导致该领域提前耗尽样本。此时，你可以根据 token 数量自动为各领域分配权重）。\n\n```bash\nCUDA_DEVICE_MAX_CONNECTIONS=1 torchrun --nproc_per_node=4 examples\u002Fdoremi\u002Ftrain_reference.py --config-file examples\u002Fdoremi\u002Fconfigs\u002Fconfig_280m_llama.yaml\n```\n\n- 步骤 2：利用步骤 1 中训练好的参考模型，再训练一个完全相同的模型，并在训练过程中根据其表现动态调整各领域的权重。\n\n```bash\nCUDA_DEVICE_MAX_CONNECTIONS=1 torchrun --nproc_per_node=4 examples\u002Fdoremi\u002Ftrain_doremi.py --config-file examples\u002Fdoremi\u002Fconfigs\u002Fconfig_280m_llama_proxy.yaml\n```\n\n- 步骤 3：Nanotron 会将各领域的权重保存在模型检查点中。现在，我们可以通过对步骤 1 中所有训练步的领域权重取平均值，计算出最优的领域权重：$\\bar{\\alpha}=\\frac{1}{T} \\sum_{i=1}^T \\alpha_t$。\n\n```python\nimport torch\n\ndomain_weights = torch.load(\"checkpoints\u002Fdoremi\u002Fproxy-280m-llama\u002Fdoremi_domain_weights_100000.pt\")\n\ntotal_weights = sum(d[\"domain_weights\"] for d in domain_weights)\navg_weights = total_weights \u002F len(domain_weights)\n```\n\n随后，将这些 `avg_weights` 设置到更大规模运行的配置文件中，位于 `doremi` 部分。\n\n- 步骤 4：使用步骤 3 中优化后的领域权重，训练一个规模更大的模型（可能是原模型的 10 倍至 30 倍）。\n\n```bash\nCUDA_DEVICE_MAX_CONNECTIONS=1 torchrun --nproc_per_node=8 examples\u002Fdoremi\u002Ftrain_reference.py --config-file examples\u002Fdoremi\u002Fconfigs\u002Fconfig_2.8b_llama_with_tuned_weights.yaml\n```\n\n- 步骤 5：大赚一笔 🤑","2024-02-22T15:31:49",{"id":157,"version":158,"summary_zh":159,"released_at":160},117126,"v0.2","## 如何使用 nanotron 的 MoE\n要使用 nanotron 的 MoE 3D 并行实现，只需将 `dMoE` 添加到你的模型中，如下所示：\n```python\n        self.block_sparse_moe = dMoE(\n            config,\n            expert_parallel_group=parallel_context.expert_pg,\n            tp_pg=parallel_context.tp_pg,\n            parallel_config=parallel_config,\n        )\n```\n示例请参见 [examples\u002Fmoe\u002Fllamoe.py](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fblob\u002Fmain\u002Fexamples\u002Fmoe\u002Fllamoe.py#L551-L556)。\n\n你可以通过设置 `parallelism.expert_parallel_size` 来控制 **专家并行度**，而 **权重并行度** 则与张量并行度相同。\n\n## 变更内容\n* 使测试通过，由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F52 中完成。\n* 重构绑定机制并进行小幅修复，由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F62 中完成。\n* [`Docs`] 修复错别字，由 @standardAI 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F63 中完成。\n* 快速修复训练步数断言，由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F66 中完成。\n* 修复配置文件，由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F67 中完成。\n* [FP8 训练] 对线性层执行一次 FP8 前向和反向传播，由 @xrsrke 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F56 中完成。\n* 更新基准测试脚本，由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F64 中完成。\n* 为单元测试添加 CI\u002FCD，由 @xrsrke 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F41 中完成。\n* 重构 `ParallelContext` 和部分进程组的创建，由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F69 中完成。\n* 支持专家并行，由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F72 中完成。\n* 添加 MoE 支持，由 @NouamaneTazi 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F73 中完成。\n* 实现流水线并行规模无关的优化器状态加载，由 @nopperl 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F71 中完成。\n\n## 新贡献者\n* @standardAI 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F63 中完成了首次贡献。\n* @nopperl 在 https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fpull\u002F71 中完成了首次贡献。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fnanotron\u002Fcompare\u002Fv0.1...v0.2","2024-02-16T18:33:09",{"id":162,"version":163,"summary_zh":164,"released_at":165},117127,"v0.1","nanotron库的初始发布","2024-02-08T09:54:39"]