[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-MoonshotAI--Moonlight":3,"tool-MoonshotAI--Moonlight":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",159636,2,"2026-04-17T23:33:34",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":76,"stars":79,"forks":80,"last_commit_at":81,"license":82,"difficulty_score":83,"env_os":84,"env_gpu":85,"env_ram":84,"env_deps":86,"category_tags":92,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":93,"updated_at":94,"faqs":95,"releases":126},8769,"MoonshotAI\u002FMoonlight","Moonlight","Muon is Scalable for LLM Training","Moonlight 是一款基于创新优化器 Muon 训练的大语言模型系列，包含 3B 和 16B 参数的混合专家（MoE）架构。它主要解决了传统优化器（如 AdamW）在大规模模型训练中计算效率低、资源消耗大的痛点。通过引入权重衰减和精细调整参数更新尺度等关键技术，Moonlight 成功将原本仅适用于小模型的 Muon 优化器扩展至大规模训练场景，无需复杂的超参数调优即可稳定运行。\n\n实验数据显示，Moonlight 在达到同等性能时，所需的训练计算量（FLOPs）仅为传统方法的约 52%，显著提升了样本效率和算力利用率，刷新了性能与成本的最佳平衡点。该项目不仅开源了预训练及指令微调后的模型权重，还发布了内存最优、通信高效的分布式 Muon 实现代码，完美兼容 Megatron-LM 框架。\n\nMoonlight 非常适合 AI 研究人员、大模型开发者以及关注算力成本的技术团队使用。对于希望以更低资源门槛探索高效训练策略的研究者，或是需要在有限算力下部署高性能模型的开发人员，Moonlight 提供了极具价值的技术参考和现成解决方案，助力推动大模型训练的降本增效。","\u003Cdiv align=\"center\">\n  \u003Ca href=\"Moonlight.pdf\">\u003Cimg width=\"80%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_readme_85278b465a0e.png\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003C!-- # Muon is Scalable For LLM Training -->\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"Moonlight.pdf\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_readme_3371a2bbd8de.png\" height=\"16\" width=\"16\" style=\"vertical-align:middle\">\u003Cb> Tech Report\u003C\u002Fb>\u003C\u002Fa>  |  \n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FMoonlight-16B-A3B\">\u003Cimg src=\"https:\u002F\u002Fhuggingface.co\u002Ffront\u002Fassets\u002Fhuggingface_logo-noborder.svg\" height=\"16\" width=\"16\" style=\"vertical-align:middle\">\u003Cb> HuggingFace\u003C\u002Fb>\u003C\u002Fa>  | \n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMegatron-LM\u002Fpull\u002F1428\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_readme_4a1bcfffdd1b.png\" height=\"16\" width=\"16\" style=\"vertical-align:middle\">\u003Cb>Megatron-LM\u003C\u002Fb>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\n## Abstract\nRecently, the [Muon optimizer](https:\u002F\u002Fgithub.com\u002FKellerJordan\u002FMuon) based on matrix orthogonalization has demonstrated strong results in training small-scale language models, but the scalability to larger models has not been proven. We identify two crucial techniques for scaling up Muon: (1) adding weight decay and (2) carefully adjusting the per-parameter update scale. These techniques allow Muon to work out-of-the-box on large-scale training without the need of hyper-parameter tuning. Scaling law experiments indicate that Muon achieves ∼ 2× computational efficiency compared to AdamW with compute optimal training.\n\nBased on these improvements, we introduce **Moonlight**, a 3B\u002F16B-parameter Mixture-of-Expert (MoE) model trained with 5.7T tokens using Muon. Our model improves the current Pareto frontier, achieving better performance with much fewer training FLOPs compared to prior models.\n\nWe open-source our distributed Muon implementation that is memory optimal and communication efficient. We also release the pretrained, instruction-tuned, and intermediate checkpoints to support future research.\n\nOur code is available at [MoonshotAI\u002FMoonlight](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FMoonlight).\n\n## Key Ingredients\n\nOur work builds upon Muon while systematically identifying and resolving its limitations in large-scale training scenarios. Our technical contributions include:\n\n- **Analysis for Effective Scaling of Muon**: Through extensive analysis, we identify that weight decay plays a crucial roles in Muon's scalability. Besides, we proposed to keep a consistent update root mean square (RMS) across different matrix and non-matrix parameters through parameter-wise update scale adjustments. Such adjustments significantly enhanced training stability.\n\n- **Efficient Distributed Implementation**: We develop a distributed version of Muon with ZeRO-1 style optimization, achieving optimal memory efficiency and reduced communication overhead while preserving the mathematical properties of the algorithm.\n\n- **Scaling Law Validation**: We performed scaling law research that compares Muon with strong AdamW baselines, and showed the superior performance of Muon (see Figure 1). Based on the scaling law results, Muon achieves comparable performance to AdamW trained counterparts while requiring only approximately 52% of the training FLOPs.\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"90%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_readme_709c68dad21b.png\">\n  \u003Cp>\u003Cem>Scaling up with Muon. \u003Cb>(a)\u003C\u002Fb> Scaling law experiments comparing Muon and Adam. Muon is 2 times more sample efficient than Adam. \u003Cb>(b)\u003C\u002Fb> The MMLU performance of our Moonlight model optimized with Muon and other comparable models. Moonlight advances the Pareto frontier of performance vs training FLOPs.\u003C\u002Fem>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n## Performance\n\nWe named our lightweight model trained with Muon \"Moonlight\". We compared Moonlight with SOTA public models at similar scale:\n\n- **LLAMA3-3B** is a 3B-parameter dense model trained with 9T tokens\n- **Qwen2.5-3B** is a 3B-parameter dense model trained with 18T tokens  \n- **Deepseek-v2-Lite** is a 2.4B\u002F16B-parameter MOE model trained with 5.7T tokens\n\n| | **Benchmark (Metric)** | **Llama3.2-3B** | **Qwen2.5-3B** | **DSV2-Lite** | **Moonlight** |\n|---|---|---|---|---|---|\n| | Activated Param† | 2.81B | 2.77B | 2.24B | 2.24B |\n| | Total Params† | 2.81B | 2.77B | 15.29B | 15.29B |\n| | Training Tokens | 9T | 18T | 5.7T | 5.7T |\n| | Optimizer | AdamW | * | AdamW | Muon |\n| **English** | MMLU | 54.75 | 65.6 | 58.3 | **70.0** |\n| | MMLU-pro | 25.0 | 34.6 | 25.5 | **42.4** |\n| | BBH | 46.8 | 56.3 | 44.1 | **65.2** |\n| | TriviaQA‡ | 59.6 | 51.1 | 65.1 | **66.3** |\n| **Code** | HumanEval | 28.0 | 42.1 | 29.9 | **48.1** |\n| | MBPP | 48.7 | 57.1 | 43.2 | **63.8** |\n| **Math** | GSM8K | 34.0 | **79.1** | 41.1 | 77.4 |\n| | MATH | 8.5 | 42.6 | 17.1 | **45.3** |\n| | CMath | - | 80.0 | 58.4 | **81.1** |\n| **Chinese** | C-Eval | - | 75.0 | 60.3 | **77.2** |\n| | CMMLU | - | 75.0 | 64.3 | **78.2** |\n\n*Qwen 2 & 2.5 reports didn't disclose their optimizer information. †The reported parameter counts exclude the embedding parameters. ‡We test all listed models with the full set of TriviaQA.*\n\n\n## Example usage\n### Model Download\n\n\u003Cdiv align=\"center\">\n\n| **Model** | **#Total Params** | **#Activated Params** | **Context Length** | **Download Link** |\n| :------------: | :------------: | :------------: | :------------: | :------------: |\n| Moonlight | 16B | 3B | 8K   | [🤗 Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FMoonlight-16B-A3B)   |\n| Moonlight-Instruct  | 16B | 3B |  8K   | [🤗 Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FMoonlight-16B-A3B-Instruct)   |\n\n\u003C\u002Fdiv>\n\n### Inference with Hugging Face Transformers \n\nWe introduce how to use our model at inference stage using transformers library. It is recommended to use python=3.10, torch>=2.1.0, and transformers=4.48.2 as the development environment. \n\nFor our pretrained model (Moonlight):\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\nmodel_path = \"moonshotai\u002FMoonlight-16B-A3B\"\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path,\n    torch_dtype=\"auto\",\n    device_map=\"auto\",\n    trust_remote_code=True,\n)\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\n\nprompt = \"1+1=2, 1+2=\"\ninputs = tokenizer(prompt, return_tensors=\"pt\", padding=True, truncation=True).to(model.device)\ngenerated_ids = model.generate(**inputs, max_new_tokens=100)\nresponse = tokenizer.batch_decode(generated_ids)[0]\nprint(response)\n```\n\nFor our instruct model (Moonlight-Instruct):\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\nmodel_path = \"moonshotai\u002FMoonlight-16B-A3B-Instruct\"\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path,\n    torch_dtype=\"auto\",\n    device_map=\"auto\",\n    trust_remote_code=True\n)\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\n\nmessages = [\n    {\"role\": \"system\", \"content\": \"You are a helpful assistant provided by Moonshot-AI.\"},\n    {\"role\": \"user\", \"content\": \"Is 123 a prime?\"}\n]\ninput_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(inputs=input_ids, max_new_tokens=500)\nresponse = tokenizer.batch_decode(generated_ids)[0]\nprint(response)\n```\n\nMoonlight has the same architecture as DeepSeek-V3, which is supported by many popular inference engines, such as VLLM and SGLang. As a result, our model can also be easily deployed using these tools.  \n\n### Training\n```\n# train qwen-like dense model with muon\npython3 examples\u002Ftoy_train.py --model qwen --optimizer muon --dataset openwebtext-100k --hidden_size 896 --lr 1e-3\n\n# train qwen-like dense model with adamw\npython3 examples\u002Ftoy_train.py --model qwen --optimizer adamw --dataset openwebtext-100k --hidden_size 896 --lr 1e-3\n```\n\n## Intermediate Checkpoints\nTo support ongoing research efforts, we will soon release our intermediate checkpoints. Coming soon...\n\n## Citation\nIf you find Moonlight is useful or want to use in your projects, please kindly cite our paper:\n```\n@misc{liu2025muonscalablellmtraining,\n      title={Muon is Scalable for LLM Training}, \n      author={Jingyuan Liu and Jianlin Su and Xingcheng Yao and Zhejun Jiang and Guokun Lai and Yulun Du and Yidao Qin and Weixin Xu and Enzhe Lu and Junjie Yan and Yanru Chen and Huabin Zheng and Yibo Liu and Shaowei Liu and Bohong Yin and Weiran He and Han Zhu and Yuzhi Wang and Jianzhou Wang and Mengnan Dong and Zheng Zhang and Yongsheng Kang and Hao Zhang and Xinran Xu and Yutao Zhang and Yuxin Wu and Xinyu Zhou and Zhilin Yang},\n      year={2025},\n      eprint={2502.16982},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.16982}, \n}\n```\n","\u003Cdiv align=\"center\">\n  \u003Ca href=\"Moonlight.pdf\">\u003Cimg width=\"80%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_readme_85278b465a0e.png\">\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003C!-- # Muon 是可扩展的，适用于 LLM 训练 -->\n\n\u003Cdiv align=\"center\">\n  \u003Ca href=\"Moonlight.pdf\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_readme_3371a2bbd8de.png\" height=\"16\" width=\"16\" style=\"vertical-align:middle\">\u003Cb> 技术报告\u003C\u002Fb>\u003C\u002Fa>  |  \n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FMoonlight-16B-A3B\">\u003Cimg src=\"https:\u002F\u002Fhuggingface.co\u002Ffront\u002Fassets\u002Fhuggingface_logo-noborder.svg\" height=\"16\" width=\"16\" style=\"vertical-align:middle\">\u003Cb> HuggingFace\u003C\u002Fb>\u003C\u002Fa>  | \n  \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FNVIDIA\u002FMegatron-LM\u002Fpull\u002F1428\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_readme_4a1bcfffdd1b.png\" height=\"16\" width=\"16\" style=\"vertical-align:middle\">\u003Cb>Megatron-LM\u003C\u002Fb>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\n## 摘要\n最近，基于矩阵正交化的 [Muon 优化器](https:\u002F\u002Fgithub.com\u002FKellerJordan\u002FMuon) 在小规模语言模型训练中表现出色，但其在更大规模模型上的可扩展性尚未得到验证。我们确定了两个关键的扩展技术：(1) 添加权重衰减，以及 (2) 精心调整每个参数的更新尺度。这些技术使 Muon 能够在无需超参数调优的情况下，直接应用于大规模训练。缩放定律实验表明，与采用计算最优训练的 AdamW 相比，Muon 的计算效率提高了约 2 倍。\n\n基于这些改进，我们推出了 **Moonlight**，这是一款使用 Muon 训练、参数量为 3B\u002F16B 的专家混合（MoE）模型，训练数据量达 5.7T 标记。我们的模型突破了当前的帕累托前沿，以更少的训练浮点运算次数实现了优于先前模型的性能。\n\n我们开源了内存最优且通信高效的分布式 Muon 实现，并发布了预训练、指令微调及中间检查点，以支持未来的研究。\n\n我们的代码可在 [MoonshotAI\u002FMoonlight](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FMoonlight) 获取。\n\n## 关键要素\n\n我们的工作以 Muon 为基础，同时系统地识别并解决了其在大规模训练场景中的局限性。我们的技术贡献包括：\n\n- **对 Muon 有效扩展的分析**：通过深入分析，我们发现权重衰减在 Muon 的可扩展性中起着至关重要的作用。此外，我们提出通过参数级别的更新尺度调整，保持不同矩阵和非矩阵参数之间一致的更新均方根（RMS），从而显著提升了训练稳定性。\n\n- **高效的分布式实现**：我们开发了一种基于 ZeRO-1 风格优化的 Muon 分布式版本，在保留算法数学性质的同时，实现了最优的内存效率和更低的通信开销。\n\n- **缩放定律验证**：我们进行了缩放定律研究，将 Muon 与强大的 AdamW 基线进行了对比，并展示了 Muon 的优越性能（见图 1）。根据缩放定律的结果，Muon 在仅需约 52% 训练浮点运算次数的情况下，便能达到与采用 AdamW 训练的模型相当的性能。\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"90%\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_readme_709c68dad21b.png\">\n  \u003Cp>\u003Cem> 使用 Muon 进行扩展。\u003Cb>(a)\u003C\u002Fb> 缩放定律实验比较 Muon 和 Adam。Muon 的样本效率是 Adam 的两倍。\u003Cb>(b)\u003C\u002Fb> 我们的 Moonlight 模型在 Muon 优化下的 MMLU 性能与其他可比模型的对比。Moonlight 推进了性能与训练浮点运算次数之间的帕累托前沿。\u003C\u002Fem>\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n\n## 性能\n\n我们把用 Muon 训练的轻量级模型命名为“Moonlight”。我们将 Moonlight 与类似规模的 SOTA 公开模型进行了比较：\n\n- **LLAMA3-3B** 是一个参数量为 3B 的密集模型，使用 9T 标记进行训练。\n- **Qwen2.5-3B** 是一个参数量为 3B 的密集模型，使用 18T 标记进行训练。\n- **Deepseek-v2-Lite** 是一个参数量为 2.4B\u002F16B 的 MOE 模型，使用 5.7T 标记进行训练。\n\n| | **基准测试（指标）** | **Llama3.2-3B** | **Qwen2.5-3B** | **DSV2-Lite** | **Moonlight** |\n|---|---|---|---|---|---|\n| | 激活参数† | 2.81B | 2.77B | 2.24B | 2.24B |\n| | 总参数† | 2.81B | 2.77B | 15.29B | 15.29B |\n| | 训练标记数 | 9T | 18T | 5.7T | 5.7T |\n| | 优化器 | AdamW | * | AdamW | Muon |\n| **英语** | MMLU | 54.75 | 65.6 | 58.3 | **70.0** |\n| | MMLU-pro | 25.0 | 34.6 | 25.5 | **42.4** |\n| | BBH | 46.8 | 56.3 | 44.1 | **65.2** |\n| | TriviaQA‡ | 59.6 | 51.1 | 65.1 | **66.3** |\n| **代码** | HumanEval | 28.0 | 42.1 | 29.9 | **48.1** |\n| | MBPP | 48.7 | 57.1 | 43.2 | **63.8** |\n| **数学** | GSM8K | 34.0 | **79.1** | 41.1 | 77.4 |\n| | MATH | 8.5 | 42.6 | 17.1 | **45.3** |\n| | CMath | - | 80.0 | 58.4 | **81.1** |\n| **中文** | C-Eval | - | 75.0 | 60.3 | **77.2** |\n| | CMMLU | - | 75.0 | 64.3 | **78.2** |\n\n*Qwen 2 和 2.5 的报告未披露其优化器信息。†报告的参数数量不包括嵌入参数。‡我们使用完整的 TriviaQA 数据集对所有列出的模型进行了测试。*\n\n\n## 示例用法\n### 模型下载\n\n\u003Cdiv align=\"center\">\n\n| **模型** | **总参数数** | **激活参数数** | **上下文长度** | **下载链接** |\n| :------------: | :------------: | :------------: | :------------: | :------------: |\n| Moonlight | 16B | 3B | 8K   | [🤗 Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FMoonlight-16B-A3B)   |\n| Moonlight-Instruct  | 16B | 3B |  8K   | [🤗 Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FMoonlight-16B-A3B-Instruct)   |\n\n\u003C\u002Fdiv>\n\n### 使用 Hugging Face Transformers 进行推理\n\n我们介绍如何使用 transformers 库在推理阶段使用我们的模型。建议使用 Python 3.10、PyTorch ≥2.1.0 和 transformers=4.48.2 作为开发环境。\n\n对于我们的预训练模型（Moonlight）：\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\nmodel_path = \"moonshotai\u002FMoonlight-16B-A3B\"\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path,\n    torch_dtype=\"auto\",\n    device_map=\"auto\",\n    trust_remote_code=True,\n)\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\n\nprompt = \"1+1=2, 1+2=\"\ninputs = tokenizer(prompt, return_tensors=\"pt\", padding=True, truncation=True).to(model.device)\ngenerated_ids = model.generate(**inputs, max_new_tokens=100)\nresponse = tokenizer.batch_decode(generated_ids)[0]\nprint(response)\n```\n\n对于我们的指令微调模型（Moonlight-Instruct）：\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\nmodel_path = \"moonshotai\u002FMoonlight-16B-A3B-Instruct\"\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path,\n    torch_dtype=\"auto\",\n    device_map=\"auto\",\n    trust_remote_code=True\n)\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\n\nmessages = [\n    {\"role\": \"system\", \"content\": \"你是由 Moonshot-AI 提供的助手，乐于助人。\"},\n    {\"role\": \"user\", \"content\": \"123 是质数吗？\"}\n]\ninput_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(inputs=input_ids, max_new_tokens=500)\nresponse = tokenizer.batch_decode(generated_ids)[0]\nprint(response)\n```\n\nMoonlight 的架构与 DeepSeek-V3 相同，因此得到了许多流行的推理引擎（如 VLLM 和 SGLang）的支持。这意味着我们的模型也可以轻松地通过这些工具进行部署。\n\n### 训练\n```\n# 使用 muon 训练类 Qwen 的密集模型\npython3 examples\u002Ftoy_train.py --model qwen --optimizer muon --dataset openwebtext-100k --hidden_size 896 --lr 1e-3\n\n# 使用 adamw 训练类 Qwen 的密集模型\npython3 examples\u002Ftoy_train.py --model qwen --optimizer adamw --dataset openwebtext-100k --hidden_size 896 --lr 1e-3\n```\n\n## 中间检查点\n为了支持持续的研究工作，我们即将发布中间检查点。敬请期待……\n\n## 引用\n如果您认为 Moonlight 对您有所帮助，或希望在您的项目中使用它，请引用我们的论文：\n```\n@misc{liu2025muonscalablellmtraining,\n      title={Muon 适用于大规模 LLM 训练}, \n      author={刘京元、苏建林、姚兴成、蒋哲军、赖国坤、杜宇伦、秦义道、徐伟欣、陆恩哲、闫俊杰、陈燕茹、郑华斌、刘一博、刘绍伟、尹博宏、何维然、朱汉、王宇志、王建洲、董梦楠、张正、康永生、张浩、许新然、张宇涛、吴宇鑫、周信宇、杨志林},\n      year={2025},\n      eprint={2502.16982},\n      archivePrefix={arXiv},\n      primaryClass={cs.LG},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2502.16982}, \n}\n```","# Moonlight 快速上手指南\n\nMoonlight 是由月之暗面（Moonshot AI）开源的混合专家模型（MoE），基于创新的 **Muon 优化器**训练而成。该模型在仅使用 5.7T token 训练的情况下，实现了优于同规模 AdamW 基线模型的性能，显著提升了训练计算效率。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+)\n*   **Python 版本**: 3.10\n*   **PyTorch 版本**: >= 2.1.0\n*   **Transformers 版本**: 4.48.2\n*   **硬件要求**: 支持 CUDA 的 NVIDIA GPU（推理显存需求视量化情况而定，全精度运行 16B MoE 模型建议显存充足或使用多卡\u002F卸载技术）\n\n### 依赖安装\n\n建议使用虚拟环境（如 `conda` 或 `venv`）进行隔离。\n\n```bash\n# 创建并激活 conda 环境\nconda create -n moonlight python=3.10\nconda activate moonlight\n\n# 安装 PyTorch (请根据实际 CUDA 版本调整，此处以 cu121 为例)\npip install torch>=2.1.0 --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu121\n\n# 安装 Transformers 及其他必要依赖\npip install transformers==4.48.2 accelerate sentencepiece protobuf\n```\n\n> **国内加速提示**：如果下载速度较慢，可使用国内镜像源安装 Python 包：\n> `pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple \u003Cpackage_name>`\n\n## 模型下载\n\nMoonlight 提供预训练底座（Base）和指令微调（Instruct）两个版本，均托管在 Hugging Face。\n\n| 模型名称 | 总参数量 | 激活参数量 | 上下文长度 | 下载地址 |\n| :--- | :---: | :---: | :---: | :--- |\n| **Moonlight-16B-A3B** (Base) | 16B | 3B | 8K | [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FMoonlight-16B-A3B) |\n| **Moonlight-16B-A3B-Instruct** | 16B | 3B | 8K | [Hugging Face](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FMoonlight-16B-A3B-Instruct) |\n\n您可以使用 `huggingface-cli` 下载模型到本地：\n\n```bash\n# 安装 huggingface hub 工具\npip install huggingface_hub\n\n# 下载 Instruct 版本模型到本地目录 .\u002Fmoonlight-instruct\nhuggingface-cli download moonshotai\u002FMoonlight-16B-A3B-Instruct --local-dir .\u002Fmoonlight-instruct\n```\n\n## 基本使用\n\nMoonlight 架构与 DeepSeek-V3 兼容，可直接通过 `transformers` 库进行推理。以下是最简单的代码示例。\n\n### 1. 推理预训练模型 (Base Model)\n\n适用于续写、补全等任务。\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\nmodel_path = \"moonshotai\u002FMoonlight-16B-A3B\"\n# 若已下载到本地，可将 model_path 替换为本地路径，如 \".\u002Fmoonlight-base\"\n\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path,\n    torch_dtype=\"auto\",\n    device_map=\"auto\",\n    trust_remote_code=True,\n)\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\n\nprompt = \"1+1=2, 1+2=\"\ninputs = tokenizer(prompt, return_tensors=\"pt\", padding=True, truncation=True).to(model.device)\ngenerated_ids = model.generate(**inputs, max_new_tokens=100)\nresponse = tokenizer.batch_decode(generated_ids)[0]\nprint(response)\n```\n\n### 2. 推理指令模型 (Instruct Model)\n\n适用于对话、问答等任务。\n\n```python\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\nmodel_path = \"moonshotai\u002FMoonlight-16B-A3B-Instruct\"\n\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path,\n    torch_dtype=\"auto\",\n    device_map=\"auto\",\n    trust_remote_code=True\n)\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\n\nmessages = [\n    {\"role\": \"system\", \"content\": \"You are a helpful assistant provided by Moonshot-AI.\"},\n    {\"role\": \"user\", \"content\": \"Is 123 a prime?\"}\n]\n\ninput_ids = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors=\"pt\").to(model.device)\ngenerated_ids = model.generate(inputs=input_ids, max_new_tokens=500)\nresponse = tokenizer.batch_decode(generated_ids)[0]\nprint(response)\n```\n\n### 3. 高性能部署 (可选)\n\n由于 Moonlight 采用与 DeepSeek-V3 相同的架构，您也可以使用 **vLLM** 或 **SGLang** 等高性能推理引擎进行部署，以获得更高的吞吐量。\n\n```bash\n# 示例：使用 vLLM 启动服务 (需先安装 vllm)\npython -m vllm.entrypoints.openai.api_server --model moonshotai\u002FMoonlight-16B-A3B-Instruct --trust-remote-code\n```\n\n### 4. 训练示例 (复现 Muon 优化器效果)\n\n如果您希望研究 Muon 优化器的训练效果，项目提供了简单的训练脚本示例：\n\n```bash\n# 使用 Muon 优化器训练类 Qwen 稠密模型\npython3 examples\u002Ftoy_train.py --model qwen --optimizer muon --dataset openwebtext-100k --hidden_size 896 --lr 1e-3\n\n# 使用 AdamW 优化器作为对比\npython3 examples\u002Ftoy_train.py --model qwen --optimizer adamw --dataset openwebtext-100k --hidden_size 896 --lr 1e-3\n```","某初创 AI 团队正计划从零训练一个面向垂直领域的 16B 参数混合专家（MoE）大模型，但面临昂贵的算力成本与漫长的调试周期挑战。\n\n### 没有 Moonlight 时\n- **训练成本高昂**：若采用传统的 AdamW 优化器，达到预期性能需消耗约两倍的计算资源（FLOPs），导致云GPU账单激增，严重压缩项目预算。\n- **超参调优困难**：在大规模扩展时，Muon 优化器原本缺乏稳定性，工程师需花费数周时间手动微调学习率和权重衰减，反复试错才能避免模型发散。\n- **显存与通信瓶颈**：现有的分布式实现显存占用高且通信开销大，限制了单次迭代能承载的模型规模，迫使团队降低批次大小或缩减模型层数。\n- **数据效率低下**：模型需要“喂”入更多训练 Token 才能收敛，导致数据处理流水线长期高负荷运转，延长了整体上市时间。\n\n### 使用 Moonlight 后\n- **算力成本减半**：借助 Moonlight 优化的 Muon 算法，团队仅用以往 52% 的训练计算量就达到了同等甚至更优的性能，直接节省了近一半的 GPU 租赁费用。\n- **开箱即用稳定**：Moonlight 内置了针对大规模训练的权重衰减策略和参数更新尺度调整，无需繁琐的超参搜索，模型启动后即可稳定收敛。\n- **高效分布式训练**：其采用的类 ZeRO-1 分布式实现极大优化了显存占用并降低了通信延迟，让 16B MoE 模型能在现有集群上全速跑满。\n- **样本效率翻倍**：得益于更优的缩放定律表现，模型在处理相同数量 Token 时学习效果是 AdamW 的两倍，大幅缩短了训练周期。\n\nMoonlight 通过突破性的优化器扩展技术，让中小团队也能以极低的算力门槛高效训练出媲美巨头的高性能大模型。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Moonlight_709c68da.png","MoonshotAI","Moonshot AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMoonshotAI_691dfd9a.jpg","",null,"https:\u002F\u002Fmoonshot.ai","https:\u002F\u002Fgithub.com\u002FMoonshotAI",1459,85,"2026-04-17T17:34:53","MIT",5,"未说明","需要 NVIDIA GPU（基于 Megatron-LM 和 Muon 分布式实现），具体显存需求取决于模型规模（16B 总参数\u002F3B 激活参数）及是否使用 ZeRO-1 优化，未明确具体型号和最低显存大小",{"notes":87,"python":88,"dependencies":89},"该工具主要包含 Moonlight 模型的推理代码及 Muon 优化器的分布式训练实现。推理支持 Hugging Face Transformers、VLLM 和 SGLang 等引擎。训练部分依赖 Megatron-LM（需集成特定 PR #1428）。模型上下文长度为 8K。","3.10",[90,91],"torch>=2.1.0","transformers==4.48.2",[35,14],"2026-03-27T02:49:30.150509","2026-04-18T09:20:45.758254",[96,101,106,111,116,121],{"id":97,"question_zh":98,"answer_zh":99,"source_url":100},39334,"NS 迭代（Newton-Schulz）的计算开销很大，是否必须使用极大的 Batch Size 才能抵消成本？","对于单卡或小全局 Batch Size 的情况，延迟和开销确实可能不可忽略。为了解决这个问题，项目提供了分布式 Muon（Distributed Muon）的概念验证，它在扩展到更多 GPU 时具有更好的可扩展性。此外，仓库中的 toy_train.py 脚本支持在单张 GPU 上运行，但在训练分类器等任务时速度可能会变慢，这是正常现象。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FMoonlight\u002Fissues\u002F2",{"id":102,"question_zh":103,"answer_zh":104,"source_url":105},39335,"算法中最终参数更新矩阵的奇异值（Singular Values）不是 1，而是远大于 1（例如均值在 12-22 之间），这是否符合预期？","是的，这是符合预期的。根据相关博客（Keller's blog）的设计，奇异值通常分布在 0.7 到 1.3 之间（注：此处指归一化后的相对范围或特定上下文，实际观测到的绝对值增加可能是由于梯度尺度等原因，但维护者确认代码逻辑无误）。维护者提供的代码检查显示，经过 Newton-Schulz 迭代后，代码逻辑是正确的：首先通过 `X = X \u002F (X.norm() + 1e-7)` 确保谱范数至多为 1，然后执行迭代。如果您观察到奇异值分布异常，建议检查输入梯度的尺度或复现官方提供的 sanity check 代码。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FMoonlight\u002Fissues\u002F22",{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},39336,"Moonlight 模型中 Auxfree bias 的更新比例具体是多少？sign(e).mean() 是指所有层还是同一层内专家的平均值？","对于 Moonlight 模型，每一层共有 64 个选择性专家（selective experts）。关于 `sign(e).mean()` 的计算范围，它是指同一层内所有专家（experts in the same layer）的符号平均值，而不是跨所有层的平均值。该机制用于在同一层内的专家间进行负载均衡或偏差修正。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FMoonlight\u002Fissues\u002F21",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},39337,"在分布式 Muon 中，DP Gather 操作的通信成本为何低于经典的 AllGather？在 ZeRO-1 设置下如何工作？","这是一个常见的误解。在标准的 ZeRO-1 设置中，优化器状态确实是分片的，但 Distributed Muon 利用了 Megatron-LM 特定的 ZeRO-1 设计，使其非常适合该算法。关键在于并非在所有并行设置下每个优化器状态都在所有数据并行（DP）设备间完全分片导致必须全量收集。Megatron-LM 的实现方式允许在计算 Newton-Schulz 更新时，以比传统 AllGather 更高效的方式收集所需的梯度分片。简单来说，您的理解在某些并行设置下是正确的，但本项目采用的特定架构优化了这一过程。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FMoonlight\u002Fissues\u002F16",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},39338,"在使用 torch FSDP 时，zeropower_via_newtonschulz5 函数出现 -inf 值错误，如何解决？","目前官方技术栈路线图中尚未正式支持 FSDP，因此未内置相关修复。不过社区用户已提出解决方案并制作了可运行的示例。建议参考社区贡献的代码，创建独立的训练文件（如 fsdp_train.py）来适配 FSDP。如果您遇到此问题，可以尝试查找社区提交的 PR 或参考相关讨论，将针对 FSDP 的数值稳定性修复（通常涉及梯度缩放或范数计算调整）应用到您的代码中。维护者鼓励社区提交包含完整训练曲线和端到端可运行文件的 PR 以合并此功能。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FMoonlight\u002Fissues\u002F27",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},39339,"MGLM 中的 MLA（Multi-Latent Attention）模块在没有 FAV3 融合算子时性能较差，是否有优化建议？","确实，如果没有 FAV3 融合内核，MLA 的性能会非常糟糕。MGLM 目前使用 TE (Transformer Engine) 的点积注意力，但不支持 qk=192, v=128 这样的头维度配置。长期来看，需要编写自定义的融合内核（fused kernel）来进行极致优化。目前的临时解决方案是升级到支持 FAV3 的版本，这能解决大部分效率问题。如果需要进一步分析，可以向维护者分享性能剖析（profile）结果以获取具体建议。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FMoonlight\u002Fissues\u002F1",[]]