mergoo

509 33 简单 1 次阅读 5天前LGPL-3.0开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

mergoo 是一个专为大型语言模型（LLM）设计的开源库，旨在帮助开发者轻松融合多个具备不同专长的模型专家，并高效训练合并后的新模型。在人工智能应用中，单一模型往往难以兼顾所有领域知识，而 mergoo 通过技术手段将通用模型与特定领域（如数学、编程或客服）的专家模型整合，解决了知识孤岛问题，让最终模型能同时掌握多种技能。

这款工具特别适合 AI 研究人员和工程开发者使用。它支持多种前沿的融合策略，包括“混合专家”（Mixture-of-Experts）、“混合适配器”（Mixture-of-Adapters）以及灵活的逐层融合方案。用户不仅可以基于 Llama、Mistral、Phi3 等主流架构进行操作，还能选择仅训练路由层或对整个合并模型进行全量微调。无论是处理完全微调过的模型，还是基于 LoRA 的轻量级适配器，mergoo 都能提供简洁的配置接口，大幅降低了构建高性能复合模型的门槛，是探索模型能力边界的得力助手。

使用场景

某金融科技公司希望构建一个能同时处理复杂数学风控计算、生成合规代码并解答客户咨询的智能助手，但单一模型难以兼顾所有专业领域。

没有 mergoo 时

模型切换繁琐：开发人员需维护数学、代码、客服三个独立模型，推理时编写复杂的路由逻辑手动切换，延迟高且易出错。
知识融合困难：试图通过微调将多领域数据混合训练，导致“灾难性遗忘”，模型在学会新技能后丢失了原有的数学或代码能力。
资源消耗巨大：为保留各专家能力，不得不并行部署多个大模型实例，显存占用翻倍，推理成本难以承受。
适配门槛高：若要结合 LoRA 适配器实现轻量化专家组合，需手动修改底层架构代码，工程实现难度极大。

使用 mergoo 后

一键专家合并：利用 Mixture-of-Experts 功能，将数学、代码和客服领域的 Mistral 专家模型合并为单一模型，自动根据问题类型动态调用对应能力。
能力完美保留：通过层级合并技术，在不重新全量训练的情况下整合各领域知识，彻底解决多任务学习中的遗忘问题。
推理高效省钱：仅需部署一个合并后的模型，显存占用接近单模型水平，却拥有多专家的综合智能，大幅降低运营成本。
灵活支持适配器：直接加载基于 LoRA 微调的多个客服适配器（如账户、订单、支付），快速构建“适配器混合”系统，无需改动底层代码。

mergoo 让开发者像搭积木一样低成本融合多个专用大模型，轻松打造出全能型行业专家助手。

运行环境要求

操作系统

未说明

GPU

非必需
支持 CPU、MPS (Apple Silicon) 和 GPU
若使用 GPU，具体型号、显存大小及 CUDA 版本未在文档中明确说明，需根据所选基座模型（如 Mistral-7B, LLaMa3 等）的大小自行推断

内存

未说明

依赖

notes该工具支持多种合并方法（专家混合 MoE、适配器混合 MoA、层间合并）。支持的基座模型包括 Llama (含 LLaMa3)、Mistral、Phi3 和 BERT。训练时可选择仅微调路由层或对合并后的模型进行全量微调。安装可通过 pip 或源码进行。由于涉及大语言模型合并与训练，实际内存和显存需求高度依赖于所加载的具体专家模型大小及合并配置。

python未说明

torch

transformers

peft

trl

safetensors

快速开始

Mergoo

mergoo 是一个用于轻松合并多个大语言模型专家，并高效训练合并后模型的库。借助 mergoo，您可以高效地整合不同通用或领域专用的大语言模型专家的知识。

🚀 特性

支持多种合并方法：专家混合模型、适配器混合模型 和 逐层合并
每一层均可灵活合并
支持的基础模型：Llama（包括 LLaMa3）、Mistral、Phi3 和 BERT
支持的训练器：🤗 Trainer、SFTrainer、PEFT
支持的设备：CPU、MPS、GPU
训练选项：仅微调 MoE 层的路由网络，或对合并后的模型进行全量微调

如果您喜欢这个项目，请考虑给它点个 ⭐️

安装

通过 pip 安装：

pip install mergoo

从 GitHub 安装最新的不稳定版本：

pip install git+https://github.com/Leeroo-AI/mergoo

从源代码安装：

git clone https://github.com/Leeroo-AI/mergoo
cd mergoo
pip install -e .

快速入门

配置设置

指定合并配置：

model_type：基础模型类型。可选值：mistral、llama 或 bert。
num_experts_per_token：每个 token 对应的专家数量。
experts：待合并专家的配置，包括 expert_name 和 Hugging Face 🤗 的 model_id。
router_layers：应用专家混合模型的层。

全量微调的专家

以下是在合并全量微调的大语言模型专家时的示例配置。

config = {
    "model_type": "mistral",
    "num_experts_per_tok": 2,
    "experts": [
        {"expert_name": "base_expert", "model_id": "mistralai/Mistral-7B-v0.1"},
        {"expert_name": "expert_1", "model_id": "meta-math/MetaMath-Mistral-7B"},
        {"expert_name": "expert_2", "model_id": "ajibawa-2023/Code-Mistral-7B"}
    ],
    "router_layers": ["gate_proj", "up_proj", "down_proj"]
}

在上述示例中，我们合并了基于 Mistral 的数学和代码专家。更多详细信息请参阅此笔记本！

LoRA 上的专家混合模型 (MoE on LoRA)

以下是在合并 LoRA 微调的大语言模型专家时的示例配置。mergoo 在 LoRA 的基础上构建了一个路由层，从而形成 适配器混合模型。

config = {
    "model_type": "mistral",
    "num_experts_per_tok": 2,
    "base_model": "mistralai/Mistral-7B-v0.1",
    "experts": [
        {"expert_name": "adapter_1", "model_id": "predibase/customer_support"},
        {"expert_name": "adapter_2", "model_id": "predibase/customer_support_accounts"},
        {"expert_name": "adapter_3", "model_id": "predibase/customer_support_orders"},
        {"expert_name": "adapter_4", "model_id": "predibase/customer_support_payments"}
    ],
}

这里的 expert_name 以 adapter 开头，而不是 expert。更多详细信息请参阅此笔记本！

合并专家

按照配置设置，mergoo 将创建合并后的模型如下：

import torch
from mergoo.compose_experts import ComposeExperts

# 创建检查点
model_id = "data/mistral_lora_moe"
expertmerger = ComposeExperts(config, torch_dtype=torch.float16)
expertmerger.compose()
expertmerger.save_checkpoint(model_id)

加载 / 微调合并后的专家

现在，您可以使用 Hugging Face Trainer 轻松训练合并后的模型：

from transformers import Trainer
from mergoo.models.modeling_mistral import MistralForCausalLM

model = MistralForCausalLM.from_pretrained("data/mistral_lora_moe") 
# 注意：'gate' / 路由层尚未训练，因此加载权重时会出现警告

trainer = Trainer( ... )
trainer.train()

📚 了解更多：

完成快速入门指南后，您可以探索以下教程，进一步熟悉 mergoo。

笔记本	详情
全量微调专家的 MoE	构建由全量微调专家组成的统一专家混合模型。灵感来自 BTX Research（Meta AI）。
LoRA 微调专家的 MoE	构建适配器混合专家模型。灵感来自 xlora \| LoRA 混合 \| MoLE \| PHATGOOSE \| MoELoRA
Hugging Face 博客	深入探讨 mergoo 库中合并方法背后的研究细节
基于 LLaMa3 的专家	通过整合基于 LLaMa3 的领域专家，构建您自己的 MoE 风格大语言模型专家
基于 Phi3 的专家	通过合并基于 Phi3 的微调模型，创建 MoE 风格的大语言模型架构

Mergoo 路线图与贡献

作为一款处于快速发展的开源库，我们热烈欢迎各种形式的贡献，无论是引入新功能、优化基础设施，还是改进文档。

以下是 mergoo 的路线图：

支持 Transformer 块中的 MoE
与 Hugging Face 🤗 兼容
支持 Trainer 和 SFTrainer
在 BTX 中加载统一检查点
功能：可转换的 QKV 线性层
功能：可转换的 FF 线性层
功能：仅针对解码器层索引列表的路由器
分片式 Safetensor 保存
支持基于 LLaMa 和 Mistral 的专家模型
支持基于 Phi3 的专家模型
支持 LORA 专家混合（适配器混合）
路由器负载均衡损失
合并过程中为降低内存使用而实现张量的懒加载
支持其他按层合并的方法，包括 Mergekit
支持基于 Gemma 和 Mamba 的专家模型
支持 Flash Attention
支持深度混合 Transformer

欢迎您提出新功能建议和/或参与 mergoo 路线图的建设！

加入我们的社区吧！

🚀 我们非常期待您的反馈，请加入 Leeroo 社区：

如果您有未在此列出的问题，欢迎在 GitHub 上提交 Issue，或发送邮件至 [support@leeroo.com]！

Mergoo 快速上手指南

Mergoo 是一个用于轻松合并多个大语言模型（LLM）专家并高效训练合并后模型的 Python 库。它支持混合专家（MoE）、混合适配器（MoA）等多种合并策略，兼容 Llama、Mistral、Phi3 等主流基座模型。

环境准备

操作系统：Linux, macOS, Windows
Python 版本：建议 Python 3.8+
硬件支持：CPU, MPS (Mac), GPU (CUDA)
前置依赖：
- PyTorch
- Hugging Face Transformers
- Hugging Face PEFT (如需使用 LoRA 合并)
- Hugging Face TRL (可选，用于 SFT 训练)

国内加速建议：安装依赖时推荐使用清华或阿里镜像源，以提升下载速度：
pip install torch transformers peft trl -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

方式一：通过 PyPI 安装（推荐）

pip install mergoo

国内加速版：

pip install mergoo -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：安装 GitHub 最新开发版

pip install git+https://github.com/Leeroo-AI/mergoo

方式三：源码安装

git clone https://github.com/Leeroo-AI/mergoo
cd mergoo
pip install -e .

基本使用

以下示例展示如何配置并合并多个基于 Mistral 的专家模型（包含数学和代码能力的专家），生成一个混合专家模型。

1. 配置合并参数

定义需要合并的专家模型列表及路由层设置：

config = {
    "model_type": "mistral",
    "num_experts_per_tok": 2,
    "experts": [
        {"expert_name": "base_expert", "model_id": "mistralai/Mistral-7B-v0.1"},
        {"expert_name": "expert_1", "model_id": "meta-math/MetaMath-Mistral-7B"},
        {"expert_name": "expert_2", "model_id": "ajibawa-2023/Code-Mistral-7B"}
    ],
    "router_layers": ["gate_proj", "up_proj", "down_proj"]
}

2. 执行合并并保存

使用 ComposeExperts 类加载配置，执行合并并保存检查点：

import torch
from mergoo.compose_experts import ComposeExperts

# 设置保存路径
model_id = "data/mistral_moe_merged"

# 初始化合并器并执行
expertmerger = ComposeExperts(config, torch_dtype=torch.float16)
expertmerger.compose()
expertmerger.save_checkpoint(model_id)

3. 加载与微调

合并完成后，可直接使用 Hugging Face Trainer 加载模型进行后续微调：

from transformers import Trainer
from mergoo.models.modeling_mistral import MistralForCausalLM

# 加载合并后的模型
# 注意：初次加载时，未训练的路由层（gate/router）可能会产生权重加载警告，属正常现象
model = MistralForCausalLM.from_pretrained("data/mistral_moe_merged") 

# 配置并启动训练
trainer = Trainer(
    model=model,
    # ... 其他训练参数 (args, data_collator, train_dataset 等)
)
trainer.train()

提示：若需合并 LoRA 适配器（Mixture of Adapters），只需在配置中将 expert_name 前缀改为 adapter 并指定 base_model 即可，具体可参考官方 Notebook 教程。

常见问题

Mergoo 是否支持合并不同架构的模型（例如 Llama 3 和 Phi-3）？

如何为 BERT 等编码器模型配置 'router_layers'？

Mergoo 支持哪些模型架构？如何添加新模型？

合并后的模型文件大小没有增加（与单个模型大小相同），这是正常的吗？

运行合并时遇到 'NotImplementedError: Cannot copy out of meta tensor' 错误怎么办？

Mergoo 是否支持基于 Llama 3 构建 MoE 模型？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架