[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-Leeroo-AI--mergoo":3,"tool-Leeroo-AI--mergoo":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":81,"owner_website":82,"owner_url":83,"languages":84,"stars":93,"forks":94,"last_commit_at":95,"license":96,"difficulty_score":23,"env_os":97,"env_gpu":98,"env_ram":97,"env_deps":99,"category_tags":107,"github_topics":108,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":121,"updated_at":122,"faqs":123,"releases":154},2320,"Leeroo-AI\u002Fmergoo","mergoo","A library for easily merging multiple LLM experts, and efficiently train the merged LLM.","mergoo 是一个专为大型语言模型（LLM）设计的开源库，旨在帮助开发者轻松融合多个具备不同专长的模型专家，并高效训练合并后的新模型。在人工智能应用中，单一模型往往难以兼顾所有领域知识，而 mergoo 通过技术手段将通用模型与特定领域（如数学、编程或客服）的专家模型整合，解决了知识孤岛问题，让最终模型能同时掌握多种技能。\n\n这款工具特别适合 AI 研究人员和工程开发者使用。它支持多种前沿的融合策略，包括“混合专家”（Mixture-of-Experts）、“混合适配器”（Mixture-of-Adapters）以及灵活的逐层融合方案。用户不仅可以基于 Llama、Mistral、Phi3 等主流架构进行操作，还能选择仅训练路由层或对整个合并模型进行全量微调。无论是处理完全微调过的模型，还是基于 LoRA 的轻量级适配器，mergoo 都能提供简洁的配置接口，大幅降低了构建高性能复合模型的门槛，是探索模型能力边界的得力助手。","\u003Ch1>Mergoo\n\n\u003Cimg alt='Leeroo logo' src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeeroo-AI_mergoo_readme_f57bade4a9f9.png' width='148' align='right' \u002F>\n\n\u003C\u002Fh1>\n\n[![made-with-python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMade%20with-Python-green.svg)](#python)\n[![License: LPGLv3.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-LGPLv3.0-yellow.svg)](https:\u002F\u002Fwww.gnu.org\u002Flicenses\u002Flgpl-3.0.en.html) \n[![Version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fmergoo?color=blue)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fmergoo\u002F)\n\n\n\n`mergoo` is a library for easily merging multiple LLM experts, and efficiently train the merged LLM. With `mergoo`, you can efficiently integrate the knowledge of different generic or domain-based LLM experts.\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeeroo-AI_mergoo_readme_2fdb50fc180f.png' \u002F>\n\n## 🚀 Features\n\n- Supports several merging methods: **Mixture-of-Experts**, **Mixture-of-Adapters**, and **Layer-wise merging** \n- Flexible merging for each layer\n- Base Models supported : [Llama](https:\u002F\u002Fllama.meta.com\u002F)(including LLaMa3), [Mistral](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Fmistral), [Phi3](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fphi3), and [BERT](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Fbert)\n- Trainers supported : 🤗 [Trainer](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmain_classes\u002Ftrainer), [SFTrainer](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftrl\u002Fen\u002Fsft_trainer), [PEFT](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fpeft\u002Fen\u002Findex)\n- Device Supported: CPU, MPS, GPU\n- Training choices: Only Router of MoE layers, or Fully fine-tuning of Merged LLM\n\nIf you like the project, consider leaving a ⭐️\n\n## Installation\nInstall by pip:\n```\npip install mergoo\n```\nInstall latest unstable version on Github:\n```\npip install git+https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\n```\nInstall it from the source:\n```\ngit clone https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\ncd mergoo\npip install -e .\n``` \n\n## Quick Start\n### Configuration Setup\nSpecify the config for merging:  \n- ```model_type```: type of base model. choices: ```mistral```, ```llama```, or ```bert```.\n- ```num_experts_per_token```: Number of experts for each token of MoE.\n- ```experts```: config for experts to merge. includes ```expert_name``` and Hugging Face 🤗```model_id```.\n- ```router_layers```: layers chosen for applying Mixture-of-Experts.\n\n#### Fully Fine-tuned Experts\nThis is a sample config when merging **fully** fine-tuned LLM experts. \n```python\nconfig = {\n    \"model_type\": \"mistral\",\n    \"num_experts_per_tok\": 2,\n    \"experts\": [\n        {\"expert_name\": \"base_expert\", \"model_id\": \"mistralai\u002FMistral-7B-v0.1\"},\n        {\"expert_name\": \"expert_1\", \"model_id\": \"meta-math\u002FMetaMath-Mistral-7B\"},\n        {\"expert_name\": \"expert_2\", \"model_id\": \"ajibawa-2023\u002FCode-Mistral-7B\"}\n    ],\n    \"router_layers\": [\"gate_proj\", \"up_proj\", \"down_proj\"]\n}\n```\nFor the above example, we merged math and code mistral-based experts. Please refer to [this notebook](https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002Fllama_compose_trainer.ipynb) for further details!\n\n#### Mixture of Adapters (MoE on LoRA)\nThis is a sample config when merging **LoRA** fine-tuned LLM experts. ```mergoo``` builds a routing layer on top of LoRAs, resulting in a **mixture of adapters**.\n```python\nconfig = {\n    \"model_type\": \"mistral\",\n    \"num_experts_per_tok\": 2,\n    \"base_model\": \"mistralai\u002FMistral-7B-v0.1\",\n    \"experts\": [\n        {\"expert_name\": \"adapter_1\", \"model_id\": \"predibase\u002Fcustomer_support\"},\n        {\"expert_name\": \"adapter_2\", \"model_id\": \"predibase\u002Fcustomer_support_accounts\"},\n        {\"expert_name\": \"adapter_3\", \"model_id\": \"predibase\u002Fcustomer_support_orders\"},\n        {\"expert_name\": \"adapter_4\", \"model_id\": \"predibase\u002Fcustomer_support_payments\"}\n    ],\n}\n```\nThe ```expert_name``` starts with ```adapter``` instead of ```expert```. Please refer to [this notebook](https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002FMistral_lora_compose_trainer.ipynb) for further details!\n\n### Merge Experts \nFollowing the config setup, ```mergoo``` creates the merged LLM as:\n```python\nimport torch\nfrom mergoo.compose_experts import ComposeExperts\n\n# create checkpoint\nmodel_id = \"data\u002Fmistral_lora_moe\"\nexpertmerger = ComposeExperts(config, torch_dtype=torch.float16)\nexpertmerger.compose()\nexpertmerger.save_checkpoint(model_id)\n```\n\n### Load \u002F Finetune Merged Expert\nNow, you can easily train the merged LLM with Hugging Face Trainer:\n```python\nfrom transformers import Trainer\nfrom mergoo.models.modeling_mistral import MistralForCausalLM\n\nmodel = MistralForCausalLM.from_pretrained(\"data\u002Fmistral_lora_moe\") \n# NOTE: 'gate' \u002F router layers are untrained hence weight loading warning would appeare for them\n\ntrainer = Trainer( ... )\ntrainer.train()\n```\n## 📚 Learn More:\n\nAfter finishing the Quick Start guide, you can explore the tutorials below to further familiarize yourself with `mergoo`.\n\n\u003Ctable>\n\u003Cthead>\n  \u003Ctr>\n      \u003Cth>\u003Cb>Notebook\u003C\u002Fb>\u003C\u002Fth>\n      \u003Cth>\u003Cb>Details\u003C\u002Fb>\u003C\u002Fth>\n  \u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n    \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002Fllama_compose_trainer.ipynb\"> MoE with fully fine-tuned LLM experts \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>Build a unifined Mixture-of-Experts model with fully fine-tuned experts. Inspired by \u003Ca href=https:\u002F\u002Farxiv.org\u002Fhtml\u002F2403.07816v1> BTX Research\u003C\u002Fa> (Meta AI).\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002FMistral_lora_compose_trainer.ipynb\"> MoE with LoRA fine-tuned experts  \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> Build a Mixture of Adaptes expert. Inspired by \u003Ca href=https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.07148>xlora\u003C\u002Fa> | \u003Ca href=https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03432>Mixture-of-LoRAs\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fopenreview.net\u002Fforum?id=uWvKBCYh4S\">MoLE\u003C\u002Fa> | \u003Ca href=https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2402.05859>PHATGOOSE\u003C\u002Fa> | \u003Ca href=https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12851>MoELoRA\u003C\u002Fa>\u003C\u002Ftd> \n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fblog\u002Falirezamsh\u002Fmergoo\"> Hugging Face Blog \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> Deep dive into research details behind the merging methods of mergoo library\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002Fintegrate_llama3_experts.ipynb\"> LLaMa3-based Experts \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> Build your own MoE-style LLM experts by integrating LLaMa3-based domain experts\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002Fintegrate_phi3_experts.ipynb\"> Phi3-based Experts \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> Create MoE-style LLM architecture by merging Phi3-based fine-tuned models\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\n## Mergoo Roadmap and Contributing\n\nAs an open-source library in a fast evolving domain, we welcome contributions, whether it is introducing new features, enhancing infrastructure, or improving documentation.\n\nHere is `mergoo` roadmap:\n\n- [X] Support MoE for Transformer Block\n- [X] Compatibility with Huggingface 🤗\n- [X] Support [Trainer](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmain_classes\u002Ftrainer), [SFTrainer](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftrl\u002Fen\u002Fsft_trainer)\n- [X] Loading Unified Checkpoint in BTX\n- [X] Feature: Convertible QKV linear layers \n- [X] Feature: Convertible FF linear layers \n- [X] Feature: Routers only for a list of decoder layers indexes\n- [X] Sharded [Safetensor](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fsafetensors) Saving\n- [X] Support experts based on [LLaMa](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Fllama) and [Mistral](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Fmistral)\n- [X] Support experts based on [Phi3](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fphi3)\n- [X] Support Mixture of LORA Experts (Mixture of Adapters)\n- [ ] Router Load balancing loss\n- [ ] Lazy loading of tensors for low memory usage in Merging\n- [ ] Support other Layer-wise merging methods, including [Mergekit](https:\u002F\u002Fgithub.com\u002Farcee-ai\u002Fmergekit)\n- [ ] Support experts based on [Gemma](https:\u002F\u002Fblog.google\u002Ftechnology\u002Fdevelopers\u002Fgemma-open-models) and [Mamba](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.00752)\n- [ ] Support flash-attention\n- [ ] Support Mixture of Depths Transformer\n\nFeel free to suggest new features and\u002For contribute to `mergoo` roadmap!\n\nJoin our community!\n-------------\n🚀 We love to here your feedback, please join Leeroo community:\n\n- [Twitter](https:\u002F\u002Ftwitter.com\u002FLeerooAI)\n- [LinkedIn](https:\u002F\u002Fwww.linkedin.com\u002Fcompany\u002Fleeroo)\n- [Website](https:\u002F\u002Fwww.leeroo.com)\n- [Discord](https:\u002F\u002Fdiscord.gg\u002FhqVbPNNEZM)\n\nHave a question not listed here? Open a GitHub Issue or send us an [email](support@leeroo.com)!\n","\u003Ch1>Mergoo\n\n\u003Cimg alt='Leeroo logo' src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeeroo-AI_mergoo_readme_f57bade4a9f9.png' width='148' align='right' \u002F>\n\n\u003C\u002Fh1>\n\n[![made-with-python](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FMade%20with-Python-green.svg)](#python)\n[![License: LPGLv3.0](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-LGPLv3.0-yellow.svg)](https:\u002F\u002Fwww.gnu.org\u002Flicenses\u002Flgpl-3.0.en.html) \n[![Version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fmergoo?color=blue)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fmergoo\u002F)\n\n\n\n`mergoo` 是一个用于轻松合并多个大语言模型专家，并高效训练合并后模型的库。借助 `mergoo`，您可以高效地整合不同通用或领域专用的大语言模型专家的知识。\n\n\u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeeroo-AI_mergoo_readme_2fdb50fc180f.png' \u002F>\n\n## 🚀 特性\n\n- 支持多种合并方法：**专家混合模型**、**适配器混合模型** 和 **逐层合并**\n- 每一层均可灵活合并\n- 支持的基础模型：[Llama](https:\u002F\u002Fllama.meta.com\u002F)（包括 LLaMa3）、[Mistral](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Fmistral)、[Phi3](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fphi3) 和 [BERT](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Fbert)\n- 支持的训练器：🤗 [Trainer](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmain_classes\u002Ftrainer)、[SFTrainer](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftrl\u002Fen\u002Fsft_trainer)、[PEFT](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Fpeft\u002Fen\u002Findex)\n- 支持的设备：CPU、MPS、GPU\n- 训练选项：仅微调 MoE 层的路由网络，或对合并后的模型进行全量微调\n\n如果您喜欢这个项目，请考虑给它点个 ⭐️\n\n## 安装\n通过 pip 安装：\n```\npip install mergoo\n```\n从 GitHub 安装最新的不稳定版本：\n```\npip install git+https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\n```\n从源代码安装：\n```\ngit clone https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\ncd mergoo\npip install -e .\n``` \n\n## 快速入门\n### 配置设置\n指定合并配置：\n- ```model_type```：基础模型类型。可选值：```mistral```、```llama``` 或 ```bert```。\n- ```num_experts_per_token```：每个 token 对应的专家数量。\n- ```experts```：待合并专家的配置，包括 ```expert_name``` 和 Hugging Face 🤗 的 ```model_id```。\n- ```router_layers```：应用专家混合模型的层。\n\n#### 全量微调的专家\n以下是在合并 **全量** 微调的大语言模型专家时的示例配置。\n```python\nconfig = {\n    \"model_type\": \"mistral\",\n    \"num_experts_per_tok\": 2,\n    \"experts\": [\n        {\"expert_name\": \"base_expert\", \"model_id\": \"mistralai\u002FMistral-7B-v0.1\"},\n        {\"expert_name\": \"expert_1\", \"model_id\": \"meta-math\u002FMetaMath-Mistral-7B\"},\n        {\"expert_name\": \"expert_2\", \"model_id\": \"ajibawa-2023\u002FCode-Mistral-7B\"}\n    ],\n    \"router_layers\": [\"gate_proj\", \"up_proj\", \"down_proj\"]\n}\n```\n在上述示例中，我们合并了基于 Mistral 的数学和代码专家。更多详细信息请参阅 [此笔记本](https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002Fllama_compose_trainer.ipynb)！\n\n#### LoRA 上的专家混合模型 (MoE on LoRA)\n以下是在合并 **LoRA** 微调的大语言模型专家时的示例配置。`mergoo` 在 LoRA 的基础上构建了一个路由层，从而形成 **适配器混合模型**。\n```python\nconfig = {\n    \"model_type\": \"mistral\",\n    \"num_experts_per_tok\": 2,\n    \"base_model\": \"mistralai\u002FMistral-7B-v0.1\",\n    \"experts\": [\n        {\"expert_name\": \"adapter_1\", \"model_id\": \"predibase\u002Fcustomer_support\"},\n        {\"expert_name\": \"adapter_2\", \"model_id\": \"predibase\u002Fcustomer_support_accounts\"},\n        {\"expert_name\": \"adapter_3\", \"model_id\": \"predibase\u002Fcustomer_support_orders\"},\n        {\"expert_name\": \"adapter_4\", \"model_id\": \"predibase\u002Fcustomer_support_payments\"}\n    ],\n}\n```\n这里的 ```expert_name``` 以 ```adapter``` 开头，而不是 ```expert```。更多详细信息请参阅 [此笔记本](https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002FMistral_lora_compose_trainer.ipynb)！\n\n### 合并专家\n按照配置设置，`mergoo` 将创建合并后的模型如下：\n```python\nimport torch\nfrom mergoo.compose_experts import ComposeExperts\n\n# 创建检查点\nmodel_id = \"data\u002Fmistral_lora_moe\"\nexpertmerger = ComposeExperts(config, torch_dtype=torch.float16)\nexpertmerger.compose()\nexpertmerger.save_checkpoint(model_id)\n```\n\n### 加载 \u002F 微调合并后的专家\n现在，您可以使用 Hugging Face Trainer 轻松训练合并后的模型：\n```python\nfrom transformers import Trainer\nfrom mergoo.models.modeling_mistral import MistralForCausalLM\n\nmodel = MistralForCausalLM.from_pretrained(\"data\u002Fmistral_lora_moe\") \n# 注意：'gate' \u002F 路由层尚未训练，因此加载权重时会出现警告\n\ntrainer = Trainer( ... )\ntrainer.train()\n```\n## 📚 了解更多：\n\n完成快速入门指南后，您可以探索以下教程，进一步熟悉 `mergoo`。\n\n\u003Ctable>\n\u003Cthead>\n  \u003Ctr>\n      \u003Cth>\u003Cb>笔记本\u003C\u002Fb>\u003C\u002Fth>\n      \u003Cth>\u003Cb>详情\u003C\u002Fb>\u003C\u002Fth>\n  \u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n    \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002Fllama_compose_trainer.ipynb\"> 全量微调专家的 MoE \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> 构建由全量微调专家组成的统一专家混合模型。灵感来自 \u003Ca href=https:\u002F\u002Farxiv.org\u002Fhtml\u002F2403.07816v1> BTX Research\u003C\u002Fa>（Meta AI）。\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002FMistral_lora_compose_trainer.ipynb\"> LoRA 微调专家的 MoE \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> 构建适配器混合专家模型。灵感来自 \u003Ca href=https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.07148>xlora\u003C\u002Fa> | \u003Ca href=https:\u002F\u002Farxiv.org\u002Fabs\u002F2403.03432>LoRA 混合\u003C\u002Fa> | \u003Ca href=\"https:\u002F\u002Fopenreview.net\u002Fforum?id=uWvKBCYh4S\">MoLE\u003C\u002Fa> | \u003Ca href=https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2402.05859>PHATGOOSE\u003C\u002Fa> | \u003Ca href=https:\u002F\u002Farxiv.org\u002Fabs\u002F2402.12851>MoELoRA\u003C\u002Fa>\u003C\u002Ftd> \n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fblog\u002Falirezamsh\u002Fmergoo\"> Hugging Face 博客 \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> 深入探讨 mergoo 库中合并方法背后的研究细节\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002Fintegrate_llama3_experts.ipynb\"> 基于 LLaMa3 的专家 \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> 通过整合基于 LLaMa3 的领域专家，构建您自己的 MoE 风格大语言模型专家\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003C\u002Ftr>\n    \u003Ctr>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fblob\u002Fmain\u002Fnotebooks\u002Fintegrate_phi3_experts.ipynb\"> 基于 Phi3 的专家 \u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd> 通过合并基于 Phi3 的微调模型，创建 MoE 风格的大语言模型架构\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n## Mergoo 路线图与贡献\n\n作为一款处于快速发展的开源库，我们热烈欢迎各种形式的贡献，无论是引入新功能、优化基础设施，还是改进文档。\n\n以下是 `mergoo` 的路线图：\n\n- [X] 支持 Transformer 块中的 MoE\n- [X] 与 Hugging Face 🤗 兼容\n- [X] 支持 [Trainer](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmain_classes\u002Ftrainer) 和 [SFTrainer](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftrl\u002Fen\u002Fsft_trainer)\n- [X] 在 BTX 中加载统一检查点\n- [X] 功能：可转换的 QKV 线性层\n- [X] 功能：可转换的 FF 线性层\n- [X] 功能：仅针对解码器层索引列表的路由器\n- [X] 分片式 [Safetensor](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Fsafetensors) 保存\n- [X] 支持基于 [LLaMa](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Fllama) 和 [Mistral](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fen\u002Fmodel_doc\u002Fmistral) 的专家模型\n- [X] 支持基于 [Phi3](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Fmain\u002Fen\u002Fmodel_doc\u002Fphi3) 的专家模型\n- [X] 支持 LORA 专家混合（适配器混合）\n- [ ] 路由器负载均衡损失\n- [ ] 合并过程中为降低内存使用而实现张量的懒加载\n- [ ] 支持其他按层合并的方法，包括 [Mergekit](https:\u002F\u002Fgithub.com\u002Farcee-ai\u002Fmergekit)\n- [ ] 支持基于 [Gemma](https:\u002F\u002Fblog.google\u002Ftechnology\u002Fdevelopers\u002Fgemma-open-models) 和 [Mamba](https:\u002F\u002Farxiv.org\u002Fabs\u002F2312.00752) 的专家模型\n- [ ] 支持 Flash Attention\n- [ ] 支持深度混合 Transformer\n\n欢迎您提出新功能建议和\u002F或参与 `mergoo` 路线图的建设！\n\n加入我们的社区吧！\n-------------\n🚀 我们非常期待您的反馈，请加入 Leeroo 社区：\n\n- [Twitter](https:\u002F\u002Ftwitter.com\u002FLeerooAI)\n- [LinkedIn](https:\u002F\u002Fwww.linkedin.com\u002Fcompany\u002Fleeroo)\n- [官网](https:\u002F\u002Fwww.leeroo.com)\n- [Discord](https:\u002F\u002Fdiscord.gg\u002FhqVbPNNEZM)\n\n如果您有未在此列出的问题，欢迎在 GitHub 上提交 Issue，或发送邮件至 [support@leeroo.com]！","# Mergoo 快速上手指南\n\nMergoo 是一个用于轻松合并多个大语言模型（LLM）专家并高效训练合并后模型的 Python 库。它支持混合专家（MoE）、混合适配器（MoA）等多种合并策略，兼容 Llama、Mistral、Phi3 等主流基座模型。\n\n## 环境准备\n\n- **操作系统**：Linux, macOS, Windows\n- **Python 版本**：建议 Python 3.8+\n- **硬件支持**：CPU, MPS (Mac), GPU (CUDA)\n- **前置依赖**：\n  - PyTorch\n  - Hugging Face Transformers\n  - Hugging Face PEFT (如需使用 LoRA 合并)\n  - Hugging Face TRL (可选，用于 SFT 训练)\n\n> **国内加速建议**：\n> 安装依赖时推荐使用清华或阿里镜像源，以提升下载速度：\n> ```bash\n> pip install torch transformers peft trl -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n> ```\n\n## 安装步骤\n\n### 方式一：通过 PyPI 安装（推荐）\n```bash\npip install mergoo\n```\n*国内加速版：*\n```bash\npip install mergoo -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 方式二：安装 GitHub 最新开发版\n```bash\npip install git+https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\n```\n\n### 方式三：源码安装\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\ncd mergoo\npip install -e .\n```\n\n## 基本使用\n\n以下示例展示如何配置并合并多个基于 Mistral 的专家模型（包含数学和代码能力的专家），生成一个混合专家模型。\n\n### 1. 配置合并参数\n\n定义需要合并的专家模型列表及路由层设置：\n\n```python\nconfig = {\n    \"model_type\": \"mistral\",\n    \"num_experts_per_tok\": 2,\n    \"experts\": [\n        {\"expert_name\": \"base_expert\", \"model_id\": \"mistralai\u002FMistral-7B-v0.1\"},\n        {\"expert_name\": \"expert_1\", \"model_id\": \"meta-math\u002FMetaMath-Mistral-7B\"},\n        {\"expert_name\": \"expert_2\", \"model_id\": \"ajibawa-2023\u002FCode-Mistral-7B\"}\n    ],\n    \"router_layers\": [\"gate_proj\", \"up_proj\", \"down_proj\"]\n}\n```\n\n### 2. 执行合并并保存\n\n使用 `ComposeExperts` 类加载配置，执行合并并保存检查点：\n\n```python\nimport torch\nfrom mergoo.compose_experts import ComposeExperts\n\n# 设置保存路径\nmodel_id = \"data\u002Fmistral_moe_merged\"\n\n# 初始化合并器并执行\nexpertmerger = ComposeExperts(config, torch_dtype=torch.float16)\nexpertmerger.compose()\nexpertmerger.save_checkpoint(model_id)\n```\n\n### 3. 加载与微调\n\n合并完成后，可直接使用 Hugging Face Trainer 加载模型进行后续微调：\n\n```python\nfrom transformers import Trainer\nfrom mergoo.models.modeling_mistral import MistralForCausalLM\n\n# 加载合并后的模型\n# 注意：初次加载时，未训练的路由层（gate\u002Frouter）可能会产生权重加载警告，属正常现象\nmodel = MistralForCausalLM.from_pretrained(\"data\u002Fmistral_moe_merged\") \n\n# 配置并启动训练\ntrainer = Trainer(\n    model=model,\n    # ... 其他训练参数 (args, data_collator, train_dataset 等)\n)\ntrainer.train()\n```\n\n> **提示**：若需合并 LoRA 适配器（Mixture of Adapters），只需在配置中将 `expert_name` 前缀改为 `adapter` 并指定 `base_model` 即可，具体可参考官方 Notebook 教程。","某金融科技公司希望构建一个能同时处理复杂数学风控计算、生成合规代码并解答客户咨询的智能助手，但单一模型难以兼顾所有专业领域。\n\n### 没有 mergoo 时\n- **模型切换繁琐**：开发人员需维护数学、代码、客服三个独立模型，推理时编写复杂的路由逻辑手动切换，延迟高且易出错。\n- **知识融合困难**：试图通过微调将多领域数据混合训练，导致“灾难性遗忘”，模型在学会新技能后丢失了原有的数学或代码能力。\n- **资源消耗巨大**：为保留各专家能力，不得不并行部署多个大模型实例，显存占用翻倍，推理成本难以承受。\n- **适配门槛高**：若要结合 LoRA 适配器实现轻量化专家组合，需手动修改底层架构代码，工程实现难度极大。\n\n### 使用 mergoo 后\n- **一键专家合并**：利用 Mixture-of-Experts 功能，将数学、代码和客服领域的 Mistral 专家模型合并为单一模型，自动根据问题类型动态调用对应能力。\n- **能力完美保留**：通过层级合并技术，在不重新全量训练的情况下整合各领域知识，彻底解决多任务学习中的遗忘问题。\n- **推理高效省钱**：仅需部署一个合并后的模型，显存占用接近单模型水平，却拥有多专家的综合智能，大幅降低运营成本。\n- **灵活支持适配器**：直接加载基于 LoRA 微调的多个客服适配器（如账户、订单、支付），快速构建“适配器混合”系统，无需改动底层代码。\n\nmergoo 让开发者像搭积木一样低成本融合多个专用大模型，轻松打造出全能型行业专家助手。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FLeeroo-AI_mergoo_f57bade4.png","Leeroo-AI","Leeroo ","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FLeeroo-AI_39c17cfc.png","Official Github Page of Leeroo ",null,"founders@leeroo.com","LeerooAI","https:\u002F\u002Fwww.leeroo.com","https:\u002F\u002Fgithub.com\u002FLeeroo-AI",[85,89],{"name":86,"color":87,"percentage":88},"Python","#3572A5",82.3,{"name":90,"color":91,"percentage":92},"Jupyter Notebook","#DA5B0B",17.7,509,33,"2026-04-01T00:19:49","LGPL-3.0","未说明","非必需。支持 CPU、MPS (Apple Silicon) 和 GPU。若使用 GPU，具体型号、显存大小及 CUDA 版本未在文档中明确说明，需根据所选基座模型（如 Mistral-7B, LLaMa3 等）的大小自行推断。",{"notes":100,"python":97,"dependencies":101},"该工具支持多种合并方法（专家混合 MoE、适配器混合 MoA、层间合并）。支持的基座模型包括 Llama (含 LLaMa3)、Mistral、Phi3 和 BERT。训练时可选择仅微调路由层或对合并后的模型进行全量微调。安装可通过 pip 或源码进行。由于涉及大语言模型合并与训练，实际内存和显存需求高度依赖于所加载的具体专家模型大小及合并配置。",[102,103,104,105,106],"torch","transformers","peft","trl","safetensors",[13,26],[109,110,111,112,113,114,115,116,117,118,103,119,120],"generative-ai","llm","merge","mixture-of-experts","nlp","fine-tuning","large-language-models","lora","mixture-of-adapters","artificial-intelligence","multi-model","open-source","2026-03-27T02:49:30.150509","2026-04-06T05:37:56.676211",[124,129,134,139,144,149],{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},10638,"Mergoo 是否支持合并不同架构的模型（例如 Llama 3 和 Phi-3）？","不支持。对于 Mergoo 内部的集成，微调后的专家模型必须具有相同的架构。如果您需要集成不同架构的模型（模型级集成），请使用 Leeroo 的路由库 (leeroo_orchestrator)。","https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fissues\u002F16",{"id":130,"question_zh":131,"answer_zh":132,"source_url":133},10639,"如何为 BERT 等编码器模型配置 'router_layers'？","MoE 替换适用于 BERT 中的特定层（如 query, key, value, dense）。如果您想扩展到其他线性层，可以直接使用 convert_linear_to_moe 函数。例如，将原始层 self.q_proj = nn.Linear(...) 替换为：self.q_proj = convert_linear_to_moe(\"q_proj\", config, layer_idx, self.hidden_size, self.num_heads * self.head_dim, bias=False)。","https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fissues\u002F4",{"id":135,"question_zh":136,"answer_zh":137,"source_url":138},10640,"Mergoo 支持哪些模型架构？如何添加新模型？","Mergoo 支持 Hugging Face Transformers 库中的大部分模型架构。您可以参考 Hugging Face 支持的模型列表 (https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Ftree\u002Fmain\u002Fsrc\u002Ftransformers\u002Fmodels) 进行尝试。项目欢迎社区贡献，您可以提交 Pull Request 来添加对新模型的支持。","https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fissues\u002F2",{"id":140,"question_zh":141,"answer_zh":142,"source_url":143},10641,"合并后的模型文件大小没有增加（与单个模型大小相同），这是正常的吗？","这通常意味着您尝试合并的模型权重实际上是相同的，或者合并逻辑未正确应用不同的权重。在混合专家模型 (MoE) 设置中，虽然总参数量可能因共享底层而看似不变，但如果是合并不同微调版本的模型，应确保输入模型的权重确实不同。可以通过加载模型并断言检查不同模型的对应层权重是否一致来进行调试。","https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fissues\u002F10",{"id":145,"question_zh":146,"answer_zh":147,"source_url":148},10642,"运行合并时遇到 'NotImplementedError: Cannot copy out of meta tensor' 错误怎么办？","该错误表明模型权重被加载到了 'meta' 设备上（即只有元数据没有实际数据），导致无法进行复制操作。请确保在加载模型时指定了有效的设备映射（如 device_map=\"auto\" 或具体 GPU\u002FCPU），并且不要仅加载模型结构而不加载权重。检查您的模型加载代码，确保权重已正确实例化到内存中。","https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fissues\u002F7",{"id":150,"question_zh":151,"answer_zh":152,"source_url":153},10643,"Mergoo 是否支持基于 Llama 3 构建 MoE 模型？","是的，Mergoo 支持基于 Llama 3 构建 MoE 模型。只要模型架构受支持且权重可加载，即可进行合并和微调实验。具体的硬件需求（如需要多少张 H100\u002FA100）取决于您设置的 MoE 规模（专家数量、激活专家数等）。","https:\u002F\u002Fgithub.com\u002FLeeroo-AI\u002Fmergoo\u002Fissues\u002F6",[]]