Awesome-Model-Merging-Methods-Theories-Applications

GitHub
713 42 非常简单 1 次阅读 2天前图像语言模型
AI 解读 由 AI 自动生成,仅供参考

Awesome-Model-Merging-Methods-Theories-Applications 是一个专注于大语言模型(LLM)、多模态大模型及更广泛机器学习领域的“模型合并”技术资源库。它系统性地整理了相关的前沿论文、理论方法与应用案例,旨在填补该领域缺乏全面综述的空白。

在人工智能开发中,训练或微调大型模型往往需要昂贵的计算资源和原始数据。模型合并技术提供了一种高效的替代方案:无需重新训练或访问原始数据,仅通过整合多个现有模型的参数,即可创造出性能更强或功能更多样的新模型。本资源库正是为了帮助从业者深入理解并应用这一技术而生。

这里特别适合 AI 研究人员、算法工程师以及对模型优化感兴趣的开发者使用。其独特亮点在于构建了一套全新的分类体系,将合并方法细致划分为“合并前优化”(如权重对齐、子空间微调)、“合并中策略”(如动态路由、基于权重的合并)以及“理论基础分析”等多个维度。此外,资源库还特别标注了那些在 70 亿参数及以上规模模型中进行过实验验证的研究,为用户筛选高价值方案提供了直观参考。无论是希望降低算力成本,还是探索多任务学习、持续学习等应用场景,都能在这里找到系统的理论支持与实战指引。

使用场景

某 AI 初创团队急需构建一个既能精通医疗问诊又能处理法律条款的多功能大模型,但受限于算力预算无法从头训练。

没有 Awesome-Model-Merging-Methods-Theories-Applications 时

  • 文献检索如大海捞针:团队需在 arXiv 上手动筛选数百篇论文,难以区分哪些方法适用于 7B 以上的大参数模型,极易遗漏关键前沿技术。
  • 理论盲区导致试错成本高:缺乏对“权重对齐”或“子空间合并”等理论的系統梳理,工程师盲目尝试简单平均法,导致模型出现灾难性遗忘,能力相互抵消。
  • 应用场景匹配困难:不清楚如何将合并技术具体落地到持续学习或多任务学习场景中,只能凭经验硬凑,开发周期被无限拉长。
  • 复现基准缺失:找不到权威的评估基准和已验证的实验配置,每次调整超参数都像在“开盲盒”,资源浪费严重。

使用 Awesome-Model-Merging-Methods-Theories-Applications 后

  • 精准锁定高价值方案:直接利用库中标记的"≥7B 模型”实验论文,快速定位到适合大模型的线性化微调或动态路由合并等高级方法。
  • 理论指导规避陷阱:参考综述中关于锐度感知微调(Sharpness-aware Fine-tuning)的理论分析,预先优化单模型权重,成功避免了合并后的性能崩塌。
  • 场景化落地路径清晰:依据库中整理的“多任务学习”与“少样本学习”应用案例,迅速设计出医疗与法律知识无损融合的技术路线。
  • 复用成熟评估体系:直接采用推荐的 Benchmark 和评估指标,将原本数周的调优过程压缩至几天,显著提升了迭代效率。

Awesome-Model-Merging-Methods-Theories-Applications 通过提供系统化的方法论地图与实战指引,让团队在零数据重训的前提下,高效实现了多领域专家模型的低成本融合。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个关于模型合并(Model Merging)的论文综述列表和资源索引,并非一个可直接运行的软件工具或代码库。因此,README 中未包含具体的操作系统、GPU、内存、Python 版本或依赖库等运行环境需求。用户若需复现列表中提及的论文实验,需参考各篇具体论文的官方代码仓库及其对应的环境配置要求。
python未说明
Awesome-Model-Merging-Methods-Theories-Applications hero image

快速开始

关于 “LLMs、MLLMs 及其扩展领域的模型合并:方法、理论、应用与机遇。ACM 计算综述,2026 年。” 的全面论文列表。


[!IMPORTANT] 欢迎贡献:

请通过 联系我们 或提交拉取请求,添加未列出的相关论文、内容澄清或分类调整;待您的论文被接收后,请及时更新相关信息。感谢!


💥 新闻 💥

  • 🔥🔥🔥 我们的 综述 已被 ACM 计算综述期刊接收,请在有帮助时 引用 该文或本资源库。
  • 🔥🔥🔥 我们已标记出实验中使用了规模 $\geq$ 7B(或小型主流 LLM)模型的论文。

摘要

模型合并是机器学习领域中一种高效的赋能技术,它无需收集原始训练数据,也无需高昂的计算成本。随着模型合并在各个领域的日益普及,全面理解现有的模型合并技术至关重要。然而,目前文献中缺乏对这些技术进行系统性、深入梳理的综述。为此,本综述全面概述了模型合并的方法与理论、其在不同领域和场景中的应用,以及未来的研究方向。具体而言,我们首先提出了一种新的分类方法,详尽地讨论了现有模型合并技术;其次,探讨了模型合并技术在大型语言模型、多模态大型语言模型以及持续学习、多任务学习、少样本学习等十余个机器学习子领域的应用;最后,我们指出了模型合并仍面临的挑战,并展望了未来的研究方向。

模型合并

引用

如果您认为我们的论文或本资源有所帮助,请考虑引用以下内容:

@article{yang2026ModelMergingSurvey,
  author = {Yang, Enneng and Shen, Li and Guo, Guibing and Wang, Xingwei and Cao, Xiaochun and Zhang, Jie and Tao, Dacheng},
  title = {LLMs、MLLMs 及其扩展领域的模型合并:方法、理论、应用与机遇},
  year = {2026},
  issue_date = {2026年6月},
  publisher = {计算机协会},
  address = {美国纽约州纽约市},
  volume = {58},
  number = {8},
  issn = {0360-0300},
  url = {https://doi.org/10.1145/3787849},
  doi = {10.1145/3787849},
  journal = {ACM 计算综述},
  month = feb,
  articleno = {216},
  numpages = {41}
}

谢谢!


框架


调查研究

论文标题 年份 会议/期刊
大语言模型时代的模型合并:方法、应用与未来方向 2026 Arxiv
通过模型合并扩展智能:综合综述 2025 Arxiv
通过模型融合 democratize AI:全面回顾与未来方向 2025 Arxiv
从任务特定模型到统一系统:模型合并方法综述 2025 Arxiv
SoK:利用深度模型合并技术在损失景观中寻找共同点 2024 Arxiv
LLMs、MLLMs 及其以外的模型合并:方法、理论、应用与机遇 2024 Arxiv
模型 MoErging 综述:为协作学习在专业专家之间进行回收与路由 2024 Arxiv
合并、集成与合作!大语言模型时代协作策略综述 2024 Arxiv
超越微调的学习:综述 2023 Arxiv
深度模型融合:综述 2023 Arxiv

基准测试/评估

论文标题 年份 会议/期刊 备注
crdt-merge 2026 Github 基于 CRDT 的分布式模型合并,具有形式化的收敛保证。包含 25 种策略(SLERP、TIES、DARE、Fisher、进化等)。采用两层 OR-Set 架构,实现无冲突的多节点合并。
用于缓解社会偏见的模型合并算法实证调查 2025 Arxiv LLAMA-2-7B、LLAMA-3-8B、LLAMA-3.1-8B、QWEN2-7B
大型语言模型中模型合并技术的系统性研究 2025 Arxiv Llama-3.2-3B-Instruct、Llama-3.1-8B-Instruct、Qwen3-4B、Qwen3-8B
FusionBench:深度模型融合的全面基准测试 2025 JMLR Mistral-7B-v0.1、MetaMath-Mistral-7B、dolphin-2.1-mistral-7b、speechless-code-mistral-7b-v1.0
迈向多层次模型协作中的性能一致性 2025 ICCV
大型语言模型中的模型合并缩放规律 2025 Arxiv Qwen2.5 0.5、1.5、3、7、14、32、72B
FBMS:用于灵活贝叶斯模型选择和模型平均的 R 包 2025 Arxiv
通过模型合并统一多模态大语言模型的能力与模态 2025 Arxiv Qwen2-VL-7B-Base、Vicuna-7B-v1.5
MergeBench:领域专用 LLM 合并的基准测试 2025 Arxiv Llama-3.2-3B、Llama3.1-8B、Gemma-2-2B 和 Gemma-2-9B
Mergenetic:一个简单的进化式模型合并库 2025 系统演示 Mistral-7B
RobustMerge:面向 MLLMs 的参数高效模型合并,具备方向鲁棒性 2025 NeurIPS LLaVA-v1.5-7B
混合数据还是合并模型?通过模型合并平衡大型语言模型的有用性、诚实性和无害性 2025 Arxiv Llama-3-8B-Instruct、Mistral-7B-Instruct-v0.2
如何随时间合并您的多模态模型? 2024 Arxiv
混合数据还是合并模型?优化多样化的多任务学习 2024 Arxiv Aya 23 8B
对大规模预训练模型中 Delta 参数编辑的统一视角 2024 Arxiv LLaMA3-8B-Instruct、Qwen2-7B-Instruct、Mistral-7B-Instruct-v0.3,
Model-GLUE:为野外大型模型动物园提供民主化的 LLM 扩展 2024 NeurIPS 数据集与基准测试赛道 Synthia-7B-v1.2、Llama-2-7b-evolcodealpaca、OpenHermes-7B、pygmalion-2-7b、Llama-2-7b-chat-hf、BeingWell_llama2_7b、MetaMath-7B-V1.0、vicuna-7b-v1.5、Platypus2-7B、GOAT-7B-Community、Llama-2-7b-WikiChat-fused、dolphin-llama2-7b、MetaMath-Llemma-7B、CodeLlama-7b-Instruct-hf、Magicoder-S-CL-7B、CrystalChat
大规模模型合并的关键是什么? 2024 Arxiv PaLM-2(1B、8B、24B、64B)、PaLM-2-IT(1B、8B、24B、64B)
针对组合泛化能力的模型合并现实评估 2024 Arxiv
为领域适应而微调大型语言模型:探索训练策略、缩放、模型合并及协同能力 2024 Arxiv Llama-3.1-8B、Mistral-7B-v0.3
Arcee's MergeKit:大型语言模型合并工具包 2024 Arxiv Llama2-7B-Chat、Meditron-7B

高级方法

模型合并

合并前方法

模型合并

更好的微调

线性化微调
论文标题 年份 会议/期刊 备注
通过克罗内克分解近似曲率实现任务算术中的无数据权重解耦 2026 ICLR
仅微调注意力模块:提升任务算术中的权重解耦 2025 ICLR
切空间变换器用于组合、隐私和移除 2024 ICLR
通过部分线性化实现参数高效的多任务模型融合 2024 ICLR
切空间中的任务算术:改进预训练模型的编辑 2023 NeurIPS
子空间微调
论文标题 年份 会议/期刊 备注
解析LoRA干扰:用于稳健模型合并的正交子空间 2025 Arxiv Llama3-8B
基于任务局部化稀疏微调的高效模型编辑 2025 ICLR
锐度感知微调
论文标题 年份 会议/期刊 备注
通过锐度感知微调缓解模型合并中的参数干扰 2025 ICLR
其他
论文标题 年份 会议/期刊 备注
MergOPT:一种面向稳健模型合并的合并感知优化器 2026 ICLR Llama3.1-8B-Instruct

架构转换

论文标题 年份 会议/期刊 备注
异构层权重融合的模型组装学习 2025 ICLR研讨会
无需训练的异构模型合并 2025 Arxiv
大型语言模型的知识融合 2024 ICLR Llama-2 7B、OpenLLaMA 7B、MPT 7B
聊天型LLM的知识融合:初步技术报告 2024 Arxiv NH2-Mixtral-8x7B、NH2-Solar-10.7B以及OpenChat-3.5-7B
关于异构神经网络模型融合的跨层对齐 2023 ICASSP
GAN鸡尾酒:无需数据集即可混合GAN 2022 ECCV

权重对齐

论文标题 年份 会议/期刊 备注
运输与合并:面向大型语言模型的跨架构合并 2026 Arxiv LLaMA-3 8B
对称感知图元网络自编码器:通过参数规范化实现模型合并 2025 TAG-DS
通过参数空间对称性理解模式连通性 2025 ICML
将你的Transformer更新到最新版本:任务向量的再盆地化 2025 ICML
基于异构层权重合并的模型组装学习 2025 ICLR Workshop
超越Transformer的置换对称性:旋转在模型融合中的作用 2025 Arxiv
非局部模型合并问题:置换对称性与方差坍缩 2024 Arxiv
等变深度权重空间对齐 2024 ICML
多样性中的和谐:利用典型相关分析合并神经网络 2024 ICML
基于最优传输的Transformer融合 2024 ICLR
逐层线性模式连通性 2024 ICLR
ZipIt! 在无需训练的情况下合并不同任务的模型 2024 ICLR
通过最优传输证明神经网络的线性模式连通性 2024 AISTATS
无需训练的预训练模型合并 2024 CVPR
像玩乐高一样合并LoRA:通过秩级聚类将LoRA的模块化推向极致 2024 Arxiv Llama2-7b, Llama2-13b
C2M3:循环一致的多模型合并 2024 NeurIPS
PLeaS--利用置换和最小二乘法合并模型 2024 Arxiv
重新思考模型再盆地化与线性模式连通性 2024 Arxiv
Git再盆地化:在置换对称性模下合并模型 2023 ICLR
通过隐式Sinkhorn微分进行再盆地化 2023 CVPR
单调线性插值中的平台期——对深度网络损失景观的“偏颇”视角 2023 ICLR
基于置换不变性和归一化的深度神经网络线性模式连通性 2023 ICLR
REPAIR:为修复插值而对置换激活进行重新归一化 2023 ICLR
超越线性模式连通性:逐层线性特征连通性 2023 NeurIPS
置换不变性在神经网络线性模式连通性中的作用 2022 ICLR
神经网络损失景观的线性插值能告诉我们什么? 2022 ICML
用于模式连接体积和快速集成的损失曲面单形体 2021 ICML
分析神经网络损失景观中的单调线性插值 2021 ICML
过参数化神经网络中损失景观的几何结构:对称性与不变性 2021 ICML
线性模式连通性与彩票假说 2020 ICML
通过神经元对齐优化模式连通性 2020 NeurIPS
基于最优传输的模型融合 2020 NeurIPS
均匀收敛可能无法解释深度学习中的泛化 2019 NeurIPS
解释多层网络低成本解的景观连通性 2019 NeurIPS
神经网络能量景观中几乎不存在障碍 2018 ICML
DNN的损失曲面、模式连通性和快速集成 2018 NeurIPS

合并方法概述

模型合并

基本合并方法

论文标题 年份 会议/期刊 备注
利用算术运算组合参数高效的模块 2023 NeurIPS
使用任务算术编辑模型 2023 ICLR
基于最优传输的模型融合 2020 NeurIPS
神经网络的权重平均及局部重采样方案 1996 AAAI Workshop
通过平均加速随机逼近 1992 IAM Journal on Control and Optimization
用四元数曲线实现旋转动画(球面线性插值(SLERP)模型合并) 1985 SIGGRAPH Computer Graphics

基于加权的合并方法

论文标题 年份 会议/期刊 备注
无标签跨任务LoRA合并与零空间压缩 2026 Arxiv LLAMA-3 8B, LLAVA-1.5-7B
均值是幻象:医学影像中异质领域迁移下的熵自适应模型合并 2026 Arxiv
LARV:用于模型合并的无数据逐层自适应缩放贴面 2026 Arxiv
Souper-Model:简单算术如何解锁最先进的LLM性能 2025 Arxiv xLAM-2-70b、CoALM-70B、watt-tool-70B、functionary-medium-70B、xLAM-2-8b、ToolACE-2-8B、watt-tool-8B、BitAgent-8B、CoALM-8B
叠加任务特定特征进行模型合并 2025 EMNLP Llama-2-7B
T3:在VLM中进行测试时模型合并,用于零样本医学影像分析 2025 Arxiv
权重编织:用于无数据模型合并的参数池化 2025 Arxiv
专家合并:基于无监督专家对齐和重要性引导分层切块的模型合并 2025 Arxiv Mistral-7B、InternVL、Qwen2-VL
变分任务向量组合 2025 NeurIPS
RegMean++:提升回归均值在模型合并中的有效性和泛化能力 2025 Arxiv
StatsMerging:通过任务特定教师蒸馏实现统计指导的模型合并 2025 Arxiv
SeMe:通过语义对齐实现无训练语言模型合并 2025 Arxiv
NAN:一种无需训练的模型合并系数估计解决方案 2025 Arxiv LLaMA2-13B、WizardLM-13B、WizardMath-13B、LLaVA-v1.5-13B、LLaVA-1.6-13B、Math-LLaVA
利用子模块线性提高LLM中任务算术性能 2025 ICLR Llama-2-7B和Llama-2-13B
层感知的任务算术:解耦任务特定与指令遵循知识 2025 Arxiv Gemma-2-9B、Llama-3-8B
Sens-Merging:基于敏感性引导的参数平衡用于大型语言模型合并 2025 Arxiv LLaMA-2 7B系列、Mistral 7B系列、LLaMA-2 13B系列
RankMean:用于微调后大型语言模型合并的模块级重要性评分 2024 ACL
非均匀逐参数模型合并 2024 Arxiv
如何为多任务微调赋权?通过贝叶斯模型合并快速预览 2024 Arxiv
LiNeS:训练后层缩放防止遗忘并增强模型合并 2024 Arxiv
瓶中合并:可微分适应性合并(DAM)以及从平均到自动化的路径 2024 Arxiv shisa-gamma-7b、WizardMath-7B-V1.1、Abel-7B-002、Llama-3-SauerkrautLM-8b-Instruct、Llama-3-Open-Ko-8B、llama-3-sqlcoder-8b、Meta-Llama-3-8B
使用具有学习到各向异性缩放的任务向量进行知识组合 2024 Arxiv
MetaGPT:利用模型专属任务算术合并大型语言模型 2024 EMNLP LLaMA-2-7B、Mistral-7B、LLaMA-2-13B
通过贝叶斯优化在LLM预训练中进行检查点合并 2024 Arxiv Baichuan2-220B、Baichuan2-440B、Baichuan2-660B、Baichuan2-1540B、Baichuan2-1760B、Baichuan2-1980B、Baichuan2-2200B、Baichuan2-2420B、DeepSeek-1400B、DeepSeek-1600B、DeepSeek-1800B、DeepSeek-2000B
Arcee’s MergeKit:大型语言模型合并工具包 2024 Arxiv Llama2-7B-Chat、Meditron-7B
模型合并配方的进化优化 2024 Arxiv shisa-gamma-7b-v1、WizardMath-7B-V1.1、Arithmo2-Mistral-7B、Abel-7B-002、Mistral-7B-v0.1、LLaVA-1.6-Mistral-7B
XFT:通过简单合并升级版混合专家模型释放代码指令微调的力量 2024 ACL
AdaMerging:面向多任务学习的适应性模型合并 2024 ICLR
基于不确定性梯度匹配的模型合并 2024 ICLR
通过在任务子空间中匹配模型进行合并 2024 TMLR
用于语言模型合并的费舍尔掩码节点 2024 LREC-COLING
通过费舍尔平均进行纠删码神经网络推理 2024 ISIT
通过合并语言模型权重实现无数据知识融合 2023 ICLR
用费舍尔加权平均合并模型 2022 NeurIPS

基于子空间的合并方法(稀疏或低秩子空间)

论文标题 年份 会议/期刊 备注
Diet Your LLM: 通过合并任务特定重要性得分对大语言模型进行维度级全局剪枝 2026 Arxiv Gemma-2 9B, Qwen2.5-7B, Phi-4-mini
DC-Merge: 基于方向一致性的模型合并改进方法 2026 CVPR LLaVA
CoMoL: 基于动态核心空间合并的高效LoRA专家混合方法 2026 Arxiv Qwen3-8B 和 Llama3.1-8B
本质子空间中的模型合并 2026 Arxiv
超越参数算术:面向分布感知的稀疏互补融合用于模型合并 2026 Arxiv Mistral-7B、Qwen2.5-14B 和 Qwen2.5-32B
正交模型合并 2026 Arxiv Llama-3.1-8B、Qwen2.5-VL-7B-Instruct、Llama-3.2-3B
当共享知识成为负担:模型合并中的谱过累积问题 2026 Arxiv
超越合并:基于激活引导旋转的流式大语言模型更新 2026 Arxiv Qwen2.5-7B、Qwen2.5-14B
AdaRank: 用于增强模型合并的自适应秩剪枝方法 2026 ICLR
分解任务向量以实现精细化的模型编辑 2025 Arxiv
保持独特,保持高效:在多任务合并中保留模型个性 2025 Arxiv Qwen-14B
面向低秩权重的可逆模型合并 2025 Arxiv
在知识感知子空间中净化任务向量以用于模型合并 2025 Arxiv LLaMA-2-7B
RobustMerge: 具有方向鲁棒性的参数高效多模态大语言模型合并方法 2025 NeurIPS LLaVA
核心空间中精确高效的低秩模型合并 2025 NeurIPS
通过模型合并实现高效的多源知识迁移 2025 Arxiv
一刀切并不适用:面向分布的稀疏化技术以实现更精准的模型合并 2025 Arxiv
NegMerge: 基于符号共识的权重合并以支持机器去学习 2025 ICML
子空间增强型模型合并 2025 Arxiv
无需训练的大语言模型多任务学习合并 2025 Arxiv
更智能地合并,更好地泛化:提升OOD数据上的模型合并性能 2025 Arxiv
定位后合并:神经元级别的参数融合以缓解多模态大语言模型中的灾难性遗忘 2025 Arxiv Mistral-7B、Llama3-8B
CALM: 面向多任务学习的一致性感知局部合并方法 2025 ICML
面向多目标领域适应的合并友好型后训练量化 2025 ICML
结合参数剪枝的自适应LoRA合并以支持低资源生成 2025 ACL Llama-3-8B-Instruct
分解-归一化-合并:在正确空间上进行模型合并可提升多任务处理能力 2025 Arxiv LLaMA3.1-8B
CAT合并:一种无需训练的解决模型合并冲突的方法 2025 Arxiv
LoRI: 减少多任务低秩适配中的跨任务干扰 2025 Arxiv Llama-3-8B 和 Mistral-7B
任务向量量化以实现内存高效的模型合并 2025 Arxiv
解耦神经元内的任务干扰:与神经机制对齐的模型合并 2025 Arxiv Llama-2-7b
探索稀疏适配器以实现参数高效专家的可扩展合并 2025 ICLR 2025 Workshop
LEWIS(逐层稀疏)——一种无需训练的指导性模型合并方法 2025 ICLR 2025 Workshop Gemma-9b、LLaMA 3.1 8b
CABS: 冲突感知且平衡的稀疏化技术以提升模型合并效果 2025 Arxiv Mistral-7b-v0.1、WildMarcoroni-Variant1-7B 和 WestSeverus-7B-DPO-v2
面向多语种语音识别与翻译的低秩稀疏模型合并 2025 Arxiv
LED-合并:通过位置选举分离来缓解模型合并中的安全与效用冲突 2025 Arxiv Llama-3-8B、Mistral-7B 和 Llama2-13B
面向多模态大型语言模型的参数高效合并及互补参数适配 2025 Arxiv
最优脑迭代合并:缓解大语言模型合并中的干扰 2025 Arxiv Llama-2-13b、WizardMath-13B-V1.0、WizardLM13B-V1.2、llama-2-13b-codealpaca
叠加奇异特征以进行模型合并 2025 Arxiv Llama-2-7B
STAR: 谱截断与重缩放用于模型合并 2025 NAACL Mistral-7B-Instruct
不让任何任务掉队:结合通用与任务特定子空间的各向同性模型合并 2025 Arxiv
无需再训练即可实时合并模型:一种用于可扩展持续模型合并的顺序方法 2025 NeurIPS
将多任务模型合并建模为自适应投影梯度下降 2025 Arxiv
重新审视用于模型合并的权重平均法 2024 Arxiv
任务奇异向量:减少模型合并中的任务干扰 2025 CVPR
少即是多:采用二值任务切换实现高效模型合并 2024 Arxiv
FREE-合并:利用傅里叶变换实现轻量级专家参与的模型合并 2024 Arxiv Qwen-14B (LoRA)、 LLaMa2-13B、WizardLM-13B、WizardMath-13B、WizardCoderPython-13B
超越任务向量:基于重要性指标的选择性任务算术 2024 Arxiv
用于模型合并的参数竞争平衡 2024 NeurIPS Llama-2-7b
语言模型就像超级马里奥:从同源模型中免费吸收能力 2024 ICML WizardLM-13B、WizardMath-13B、llama-2-13b-codealpaca、Mistral-7B
定位任务信息以改善模型合并与压缩 2024 ICML
稀疏模型汤:通过模型平均实现更好剪枝的配方 2024 ICLR
利用SVD进行模型合并以理清复杂关系 2024 Arxiv Llama3-8B
NegMerge: 基于共识的权重否定以实现强大的机器去学习 2024 Arxiv
定位并拼接:通过稀疏任务算术实现高效模型合并 2024 Arxiv
通过因果干预定位激活参数以进行模型合并 2024 Arxiv Llama-2-chat-7B
PAFT: 一种用于有效微调大语言模型的并行训练范式 2024 Arxiv Mistral-7B-v0.1、Llama-3-8B、Neurotic-7B、MoMo-70B
DELLA-合并:通过基于幅度的采样减少模型合并中的干扰 2024 Arxiv Llama-2-13b-code-alpaca、WizardLM、Wizard-Math、WizardCoder-Python
EMR-合并:无需调优的高性能模型合并 2024 NeurIPS
DPPA: 用于大语言模型到模型合并的剪枝方法 2024 Arxiv LLaMa 2
模型 breadcrumbs: 利用稀疏掩码实现多任务模型合并的规模化 2023 Arxiv
基于具体子空间学习的干扰消除以实现多任务模型融合 2023 Arxiv
ComPEFT: 通过稀疏化和量化实现参数高效更新通信的压缩方法 2023 Arxiv LLaMA 7B、13B、33B 和 65B
有效且参数高效的复用微调模型 2023 Openreview
解决模型合并时的干扰问题 2023 NeurIPS
微调语言模型中的任务特定技能定位 2023 ICML

基于路由的合并方法(动态合并)

论文标题 年份 会议/期刊 备注
TECS-L (Golden MoE): 密集到MoE专家拆分框架 2026 GitHub Mistral-7B
通过模块化专家重组进行细粒度模型合并 2026 Arxiv
MIN-Merging: 为模型合并而合并重要神经元 2025 Arxiv
SE-Merging: 一种用于动态模型合并的自我增强方法 2025 Arxiv
大型语言模型的自适应任务向量 2025 Arxiv LLaMA3-8B和Mistral-7B
基于贝叶斯优化的动态Fisher加权模型合并 2025 Arxiv
面向多任务模型融合的数据自适应权重集成 2025 IJCV
MASS: 通过自适应子空间选择进行MoErging 2025 Arxiv
带有权重混合的动态模型合并 2025 TCSVT
CAMEx: 曲率感知的专家合并 2025 ICLR
1bit-Merging: 大型语言模型的动态量化合并 2025 Arxiv LLaMA-2 7B、Mistral 7B和LLaMA-2 13B
MergeME: 面向同质与异质MoE的模型合并技术 2025 Arxiv
Mediator: 基于路由的低参数冲突和不确定性内存高效LLM合并 2025 Arxiv Qwen-2.5-7B、LLaMA-3.2-8B
通过无训练动态权重插值调整基础模型 2024 NeurIPS 2024研讨会
面向多任务模型合并的高效且有效的专家混合权重集成 2024 Arxiv
DaWin: 用于稳健适应的无训练动态权重插值 2024 NeurIPS 2024研讨会
通过专家混合权重集成合并多任务模型 2024 ICML
学习在专业专家之间路由以实现零样本泛化 2024 ICML
先合并再压缩:从其路由策略中揭示高效SMoE的秘密 2024 ICLR
具有自适应路由的专家软合并 2024 TMLR
SMILE: 从预训练基础模型构建零样本稀疏低秩专家混合 2024 Arxiv Mistral-7B-v0.1、MetaMath-Mistral-7B、dolphin-2.1-mistral-7b、speechless-code-mistral-7b-v1.0
Twin-Merging: 模型合并中的模块化专业知识动态整合 2024 NeurIPS Qwen-14B
Self-MoE: 朝着具有自我专业化专家的组合式大型语言模型发展 2024 Arxiv Gemma-7B、LLaMA-2 7B & 13B、Mistral 7B、LLaMA-3 8B
通过基于专家混合的模型融合实现高效的帕累托集近似 2024 Arxiv
稀疏升级:从密集检查点训练专家混合 2023 ICLR

校准后方法

论文标题 年份 会议/期刊 备注
MAGIC: 通过幅度校准实现卓越的模型合并 2025 Arxiv OLMo-3-7B
迈向最小化模型合并中的特征漂移:用于自适应知识整合的逐层任务向量融合 2025 NeurIPS
通过适应性合并进行多任务模型融合 2025 ICASSP
在模型合并中使用概率建模进行表征手术 2025 ICML
用于增强模型合并的参数高效干预 2024 Arxiv
按任务为您的模型调色以改善多任务模型合并 2024 Arxiv
SurgeryV2: 通过深度表征手术弥合模型合并与多任务学习之间的差距 2024 Arxiv
用于多任务模型合并的表征手术 2024 ICML

其他合并方法

论文标题 年份 会议/期刊 备注
任务对齐:计算机视觉中简单有效的模型合并代理 2026 Arxiv
基于无数据协方差估计的模型合并 2026 Arxiv
解决干扰(RI):解耦模型以改进模型合并 2026 Arxiv
BD-Merging:基于证据引导的对比学习的偏见感知动态模型合并 2026 Arxiv
ACE-Merging:自适应协方差估计的无数据模型合并 2026 Arxiv
面向图神经网络的无训练跨架构合并 2026 Arxiv
用于跨预训练模型传输任务向量的梯度符号掩码 2026 ICLR Flan-T5
在不同架构之间无训练地传输任务向量 2026 Arxiv
MergePipe:面向可扩展LLM合并的预算感知参数管理系统 2026 Arxiv Llama3.1-8B、Llama-3.2-3B、Qwen3-0.6B、Qwen3-1.7B和Qwen3-8B
DisTaC:通过蒸馏调节任务向量以实现稳健模型合并 2026 ICLR
面向模型合并的稀疏性感知进化 2026 Arxiv
AutoMerge:基于搜索的有效模型复用框架 2026 Arxiv Llama2-7B-Chat、Llama2-7B-Code
通过多教师知识蒸馏进行模型合并 2025 Arxiv
通过动量感知优化连接训练与合并 2025 Arxiv
从系数到方向:通过方向对齐重新思考模型合并 2025 Arxiv
摆脱优化停滞:通过差异向量迈出超越任务算术的步伐 2025 Arxiv
具有功能双重锚点的模型合并 2025 Arxiv
面向拥有海量模型库的语言模型即服务的黑盒模型合并 2025 Arxiv
通过合并链重新思考逐层模型合并 2025 Arxiv Llama 3-8B
竞争与吸引促进模型融合 2025 Arxiv WizardMath 7B v1.0、AgentEvol 7B
PSO-Merging:基于粒子群优化的模型合并 2025 Arxiv Llama-3-8B、Llama-2-13B和Mistral-7B-v0.3
DisTaC:通过蒸馏调节任务向量以实现稳健模型合并 2025 Arxiv
通过灵活模型合并应对准确率与规模之间的权衡 2025 Arxiv
高效多任务推理:基于Gromov-Wasserstein特征对齐的模型合并 2025 Arxiv
强化模型合并 2025 Arxiv
FW-Merging:利用Frank-Wolfe优化扩展模型合并 2025 Arxiv LLaMA2-7B
谁引发了干扰就该结束它:通过任务向量指导无数据模型合并 2025 Arxiv WizardLM-13B (语言模型)、WizardMath-13B (数学)和 llama-2-13b-codealpaca (代码)
GNNMERGE:无需访问训练数据即可合并GNN模型 2025 Arxiv
MERGE3:在消费级GPU上进行高效的进化式合并 2025 ICML Mistral-7B
大型语言模型的激活信息驱动合并 2025 Arxiv Llama-2-13B、WizardLM-13B、WizardMath-13B、llama-2-13b-code-alpaca
通过渐进式逐层蒸馏实现可扩展模型合并 2025 Arxiv WizardLM-13B、WizardMath-13B和llama-2-13b-code-alpaca
好吧,我自己来合并:自动模型合并的多精度框架 2025 Arxiv Llama-2-13B、WizardLM13B、WizardMath-13B、llama-2-13b-code-alpaca
信任区域内的任务算术:一种无训练的模型合并方法,用于应对知识冲突 2025 ICLR
微调对齐分类器以合并输出:迈向更优的模型合并评估协议 2024 Arxiv
通过自适应权重解耦进行多任务模型合并 2024 Arxiv
重新思考加权平均模型合并 2024 Arxiv
ATM:通过交替调整与合并改进模型合并 2024 Arxiv
HM3:面向预训练模型的层次化多目标模型合并 2024 Arxiv Llama-2-7B-Chat、WizardMath-7B、CodeLlama-7B
权重范围对齐:一种令人沮丧的简单模型合并方法 2024 Arxiv
变形时刻:通过多目标优化释放多个LLM的潜力 2024 Arxiv Qwen1.5-7B-Chat、解放后的Qwen1.5-7B、firefly-qwen1.5-en-7B
朝着在不同数据集之间实现数据高效且不降低性能的模型合并 2024 JMLR
SOLAR 10.7B:通过简单而有效的深度扩展规模化大型语言模型 2023 Arxiv SOLAR 10.7B、SOLAR 10.7B-Instruct

模型合并的理论或分析

论文标题 年份 会议/期刊 备注
任务级模型合并崩溃的实证研究与理论解释 2026 Arxiv Qwen2.5-3B、7B 和 14B,Llama3.1-8B
参数高效专家之间的集成、合并与路由中的权衡 2026 Arxiv
适可而止:强化学习如何缓解大模型中的任务冲突的全面分析 2026 ICLR Llama-3.2-3B、Llama-3.1-8B 和 Mistral-Small-3-24B
M-Loss:利用有限无标签数据量化模型合并兼容性 2026 Arxiv
WSM:通过检查点合并实现的大模型预训练无衰减学习率调度 2026 ICLR Ling-mini-16B
揭秘可合并性:用于预测模型合并成功与否的可解释特性 2026 Arxiv
理解模型合并:异构专家的统一泛化框架 2026 Arxiv
能合并吗?关于模型可合并性的成因 2026 Arxiv Llama-3.2-3B、Qwen-2.5-3B、Mistral-7B-Instruct-v0.2
优化器如何隐式地偏置模型合并损失景观? 2025 Arxiv
关于任务向量和梯度 2025 Arxiv
为什么更多的专家会失败?模型合并的理论分析 2025 Arxiv
任务向量在什么情况下对模型编辑具有可证明的有效性?非线性Transformer的泛化分析 2025 ICLR
模型合并中的多层级协作 2025 Arxiv
神经网络中的低秩偏置、权重衰减与模型合并 2025 Arxiv
理解带有指数移动平均的SGD:以线性回归为例 2025 Arxiv
SeWA:基于概率掩码的选择性权重平均 2025 Arxiv
利用任务向量基进行高效的模型编辑:理论框架与可扩展方法 2025 Arxiv
单次联邦学习视角下的任务算术 2024 Arxiv WizardLM-13B、WizardMath-13B、Llama-2-13B-Code-Alpaca、Llama2-13B
有限权重平均的统一分析 2024 Arxiv
WASH:使用通信高效的权重洗牌训练集成模型,然后取平均 2024 Arxiv
预训练-微调范式中跨任务线性的涌现 2024 ICML
一般采样下的随机权重平均的泛化分析 2024 ICML
针对分布外泛化的多样化权重平均 2022 NeurIPS
平均值集成:改进模型选择并提升领域泛化性能 2022 NeurIPS
对抗训练的稳定性分析与泛化界 2022 NeurIPS
置换不变性在神经网络线性模式连通性中的作用 2022 ICLR
Swad:通过寻找平坦极小值实现领域泛化 2021 NeurIPS
线性模式连通性和彩票假说 2020 ICML
并行随机权重平均:能够泛化的大型批量训练 2020 ICLR
通过神经元对齐优化模式连通性 2020 NeurIPS
均匀收敛可能无法解释深度学习中的泛化现象 2019 NeurIPS
为最小二乘回归并行化随机梯度下降:小批量处理、平均化与模型误设定 2018 JMLR
迭代平均作为随机梯度下降的正则化 2018 Arxiv
神经网络能量景观中几乎没有障碍 2018 ICML
权重平均会导致更宽泛的最优解并改善泛化能力 2018 UAI
更快训练,更好泛化:随机梯度下降的稳定性 2016 ICML

基础模型中模型合并的应用

模型合并

大语言模型中的模型合并

模型合并

针对大语言模型的人类偏好对齐

论文标题 年份 会议/期刊 备注
导航对齐-校准权衡:通过模型合并实现帕累托最优边界 2025 Arxiv Gemma-3-12B、Gemma-3-27B、Qwen2.5-7B
BILLY:通过合并人格向量引导大型语言模型进行创意生成 2025 Arxiv Qwen-2.5-7B-Instruct、Llama-3.1-8B-Instruct
人格向量:通过模型合并调节大型语言模型的人格特质 2025 EMNLP Llama-3.1-8B-Instruct、Qwen2.5-7B-Instruct
SafeMERGE:通过选择性逐层模型合并保持微调后LLM的安全对齐 2025 Arxiv Llama-2-7B-Chat、Qwen-2-7B-Instruct
骨头汤:一种用于可控多目标生成的搜索与混合模型合并方法 2025 Arxiv LLaMA-2 7B
更好的RLHF的模型汤:通过权重空间平均提升LLM的对齐效果 2024 NeurIPS 2024 Workshop Llama2-7B、Mistral-7B、Gemma-2B
通过预训练和后训练模型合并保护微调后的LLM 2024 Arxiv Llama-3-8B-Instruct
SafetyDPO:文本到图像生成的可扩展安全对齐方法 2024 Arxiv
H3Fusion:对齐LLM的有益、无害、诚实融合 2024 Arxiv LLaMA-2 7B
百川对齐技术报告 2024 Arxiv Qwen2-Nova-72B、Llama3-PBM-Nova-70B
条件化语言策略:一种可引导的多目标微调通用框架 2024 Arxiv
DogeRM:通过模型合并为奖励模型注入领域知识 2024 Arxiv MetaMath-7B、MAmmoTH-7B、LLaMA2-7B
PAFT:一种用于高效LLM微调的并行训练范式 2024 Arxiv Mistral-7B-v0.1、Llama-3-8B
模型合并与安全对齐:一坏毁全局 2024 Arxiv Mistral-0.2-7B-Instruct、LLaMA-3-8B-Instruct、OpenBioLLM-8B、MAmmoTH2-7B、WizardMath-1.1-7B
通过安全补丁实现大型语言模型全面的后期安全对齐 2024 Arxiv LLaMA-2-7B-Chat、LLaMA-3-8B-Instruct、Mistral7B-Instruct-v0.1和Gemma1.1-7B-it
分散后再合并:通过降低对齐税来突破指令微调的极限 2024 Arxiv Llama-2-7b
在线合并优化器:通过奖励提升和对齐中的税收缓解 2024 Arxiv Qwen1.5-7B、LLaMa3-8B
基于子空间导向的模型融合的大语言模型安全再对齐框架 2024 Arxiv WizardLM-7B
弱到强的外推加速对齐 2024 Arxiv zephyr-7b、starling-7b、snorkel-7b、llama3-8b、internlm2-7b、internlm2-20b、tulu-2-dpo-7b、tulu-2-dpo-13b、tulu-2-dpo-70b
语言模型就是荷马·辛普森!通过任务算术对微调后的语言模型进行安全再对齐 2024 Arxiv Llama-2-7BChat
奖励汤:通过插值在不同奖励上微调的权重实现帕累托最优对齐 2023 NeurIPS LLaMA-7b
个性化汤:通过事后参数合并实现个性化大型语言模型对齐 2023 Arxiv Tulu-7B LM

LLM的去毒化

论文标题 年份 会议/期刊 备注
手术式、廉价且灵活:通过单向量消融缓解语言模型的虚假拒绝 2025 ICLR GEMMA-7B-IT、LLAMA2-7B/13B/70B-CHAT、LLAMA3-8B-INST
3DM:蒸馏、动态剔除与合并,用于去偏见的多模态大型语言模型 2025 ACL LLaVA-1.5-7b、InternVL-2.5-8b、LLaVA-1.5-7b和ChatGLM4-9b
扩展后再推理:通过提前层间插值得以增强大型语言模型的事实性 2025 Arxiv LLAMA3-8B-Instruct、Mistral-7B-Instruct-v0.2
偏见向量:用任务算术方法缓解语言模型中的偏见 2024 Arxiv
去芜存菁:通过参数高效的模块操作实现模型缺陷的遗忘 2024 AAAI LLaMA-7B
通过遗忘机制缓解语言模型的社会偏见 2024 Arxiv LLaMA-2 7B
基于实例级前缀的细粒度去毒化大型语言模型 2024 Arxiv Llama-2-7B、Llama-2-chat-7B、Vicuna-7B、Llama-2-13B
用算术运算组合参数高效的模块 2023 NeurIPS
用任务算术编辑模型 2023 ICLR
弹性权重移除用于忠实而抽象的对话生成 2023 Arxiv

LLM的知识编辑/遗忘

论文标题 年份 会议/期刊 备注
用于大型语言模型去训练的逐参数任务算术 2026 Arxiv Llama3.2 1B Instruct
用于知识编辑的模型合并 2025 ACL Qwen2.5-7B-Instruct
通过大规模模型合并实现微调数据的精确去训练 2025 Arxiv
ZJUKLAB在SemEval-2025任务4中的表现:通过模型合并进行去训练 2025 Arxiv OLMo-7B-0724-Instruct
通过大规模模型合并实现微调数据的精确去训练 2025 ICLR 2025 Workshop MCDC
NegMerge:用于强大机器去训练的一致性权重否定 2024 Arxiv
拆分、去训练、合并:利用数据属性提升LLM中去训练的有效性 2024 Arxiv ZEPHYR-7B-BETA, LLAMA2-7B
通过机器去训练迈向更安全的大型语言模型 2024 ACL LLAMA2-7B, LLAMA2-13B
使用任务算术编辑模型 2023 ICLR
先遗忘后学习:利用参数算术更新大型语言模型中的知识 2023 Arxiv LLAMA2-7B, LLAMA-7B, BLOOM-7B
融合以遗忘:通过模型融合减少偏见并实现选择性记忆 2023 Arxiv

加快LLM的训练速度

论文标题 年份 会议/期刊 备注
混搭学习:通过重混过往检查点加速微调 2026 Arxiv
GTR-Turbo:合并后的检查点实际上是代理式VLM训练的免费教师 2025 Arxiv Qwen2.5-VL-7B
专家之汤:通过参数平均预训练专家模型 2025 ICML
局部混合专家:通过模型合并实现几乎免费的测试时训练 2025 Arxiv
合并以混合:通过模型合并混合数据集 2025 Arxiv Llama-3-8B-Instruct
大型语言模型预训练中的模型合并 2025 Arxiv Seed-MoE-1.3B/13B, SeedMoE-10B/100B, Seed-MoE-15B/150B
基于指标加权平均的参数高效检查点合并 2025 Arxiv
DEM:用于混合数据分布训练的分布编辑模型 2024 Arxiv OpenLLaMA 7B和13B
LLM预训练中基于贝叶斯优化的检查点合并 2024 Arxiv Baichuan2-220B, Baichuan2-440B, Baichuan2-660B, Baichuan2-1540B, Baichuan2-1760B, Baichuan2-1980B, Baichuan2-2200B, Baichuan2-2420B, DeepSeek-1400B, DeepSeek-1600B, DeepSeek-1800B, DeepSeek-2000B
ColD融合:分布式多任务微调的协作下降 2023 ACL
早期权重平均结合高学习率用于LLM预训练 2023 NeurIPS Workshop
别再浪费我的时间了!用最新的权重平均节省Imagenet和BERT训练的数天时间 2022 NeurIPS Workshop
融合微调过的模型以改善预训练 2022 Arxiv

提高LLM的推理速度

论文标题 年份 会议/期刊 备注
多目标进化合并实现高效推理模型 2026 Arxiv DeepSeek-R1-Distill-Qwen 1.5B、7B和14B
基于费舍尔信息的无数据层适应性合并,适用于长短期推理的LLM 2026 Arxiv Qwen2.5-Math-7B,DeepSeek-R1-Distill-Qwen-7B
RAIN-合并:一种无需梯度的方法,可在保持思维格式的同时增强大型推理模型的指令遵循能力 2026 ICLR Qwen2.5-1.5B/14B/32B, 和 Llama-3.1-8B
推理模式对齐合并以实现自适应推理 2026 Arxiv (i) Qwen3-4B-Thinking (Long-CoT) 和 Qwen3-4B-Instruct (Short-CoT); (ii) DeepSeekR1-Distill-Qwen-1.5B (Long-CoT) 和 Qwen2.5- Math-1.5B (Short-CoT)
重新审视模型插值以实现高效推理 2025 Arxiv Qwen3-4B
通过模型合并解锁高效长短期LLM推理 2025 Arxiv Qwen2.5-32B, DeepSeek-R1-32B
Kimi k1.5:利用LLM扩展强化学习 2025 Arxiv Kimi k1.5

提升基于MoE的LLM的计算效率

论文标题 年份 会议/期刊 备注
REAM: 融合提升大模型专家剪枝效果 2026 Arxiv Qwen3-30B-A3B-Instruct-2507, Qwen3-Coder-Next, GLM-4.5-Air
用于缓解奖励欺骗的再利用与融合MoE奖励模型 2025 Arxiv
PuzzleMoE: 基于稀疏专家融合与位打包推理的大规模混合专家模型高效压缩 2025 Arxiv Mixtral-8x7B, Deepseek-MoE
图基础模型中混合专家结构的增强型专家融合 2025 Arxiv LLaMA-3.1-8B
基于纳什讨价还价的稀疏混合专家中的专家融合 2025 Arxiv Qwen1.5-MoE-14B, DeepSeek-MoE-16B
MergeMoE: 通过专家输出融合实现MoE模型高效压缩 2025 Arxiv DeepSeekMoE, Qwen1.5-MoE-A2.7B, 和 Qwen3-30B-A3B
更快、更小、更智能:面向在线MoE推理的任务感知专家融合 2025 Arxiv
Sub-MoE: 基于子空间专家融合的高效混合专家LLM压缩 2025 Arxiv Mixtral 8x7B, Qwen3- 235B-A22B, Qwen1.5-MoE-A2.7B, 和 DeepSeekMoE-16B-Base
关于混合专家架构的线性模式连通性 2025 NeurIPS
先融合,再压缩:从路由策略中揭示高效SMoe的秘密 2024 ICLR fairseq-moe15b SMoE
将专家合并为一:提升混合专家的计算效率 2023 EMNLP

通过模型融合混合数据集

论文标题 年份 会议/期刊 备注
OPTIMER: 对于持续预训练而言,最优分布向量融合优于数据混合 2026 Arxiv Gemma 3 27B
线性模型融合解锁简单且可扩展的多模态数据混合优化 2026 Arxiv Qwen2-VL-2B 和 Intern3.5-VL-2B
将搜索与训练解耦:通过模型融合规模化大型语言模型预训练的数据混合 2026 Arxiv Qwen3-1.7B
多任务代码LLM:数据混合还是模型融合? 2026 Arxiv Qwen Coder 2.5 7B, DeepSeek 7B
MergeMix: 基于可学习模型融合优化训练中期数据混合 2026 Arxiv 8B 和 16B MoE
合并以混合:通过模型融合混合数据集 2025 Arxiv Llama-3-8B-Instruct

LLM代理融合

论文标题 年份 会议/期刊 备注
强化学习驱动的代理模型中的行为知识融合 2026 Arxiv RL训练的代理模型
ARM: 基于角色条件的神经元移植,实现无需训练的一般化LLM代理融合 2026 Arxiv Simia-Tau-SFT-Qwen3-8B, SimiaOfficeBench-SFT-Qwen3-8B, 和 Simia-AgentBench-SFT-Qwen3-8B
划分、优化、融合:面向LLM代理的可扩展细粒度生成式优化 2025 EMNLP o3-mini
AgentMerge: 提升微调后LLM代理的泛化能力) 2024 NeurIPS Llama3.1-8B
通过CycleQD实现大型语言模型的代理技能获取 2024 Arxiv Llama3-8B-Instruct

结合专家LLM的能力

论文标题 年份 会议/期刊 备注
合并与征服:通过添加目标语言权重指导多语言模型 2026 Arxiv Llama 3.1 8B、Qwen3 8B、Qwen3 14B
偏好对齐的LoRA合并:保持子空间覆盖并解决方向各向异性 2026 Arxiv LLaMA-3-8B
无标签跨任务LoRA合并与零空间压缩 2026 Arxiv LLAMA-3 8B、LLAVA-1.5-7B
AdaLTM:自适应逐层任务向量合并,用于结合ASR知识的分类语音情感识别 2026 Arxiv
基于Fisher–Rao流形的功能导向LLM合并 2026 Arxiv Qwen2.5-14B、Qwen2.5-14B-Instruct-1M、Qwen2.5-Coder-14B-Instruct、DeepSeek-R1-Distill-Qwen-14B、OpenReasoning-Nemotron-14B
自适应合并下LoRA复用的吸引力与现实 2026 Arxiv Llama3.1 8B-Instruct
LS-Merge:在隐空间中合并语言模型 2026 ICLR Gemma-3-1B-it、Gemma-3-4B-it、Llama-3-1B-instruct、Llama-2-7b
基于Bagging的模型合并用于鲁棒的通用文本嵌入 2026 Arxiv Qwen3-4B
面向设备端大型语言模型的适配器数据驱动聚类与合并 2026 Arxiv Llama 3.2 3B、Qwen 2.5 1.5B和StableLM 2 1.6B
通过特定语言模型合并提高训练效率、降低维护成本 2026 Arxiv Llama-3.1-8b-Instruct
SimMerge:从相似性信号中学习选择合并算子 2026 Arxiv 7B至111B
多阶段进化式模型合并与元数据驱动课程学习,用于情感专用大型语言建模 2026 Arxiv
ReasonAny:通过简单有效的模型合并将推理能力融入任何模型 2026 Arxiv QwQ-32B-Preview、Meditron3-Qwen2.5-7B和MMed-Llama3-8B、WiroAIFinance-Qwen-7B和WiroAI-Finance-Llama8B
通过模型合并可靠地保存多语言LLM中的文化知识 2025 Arxiv Qwen-2.5-3B
AlignMerge——基于Fisher引导的几何约束实现对齐保留的大语言模型合并 2025 Arxiv LLaMA-3 8B、Mistral 7B、Qwen 2、Phi-3.5、Gemma 2
成长与合并:高效语言适配的扩展策略 2025 Arxiv
仅使用目标未标注语言数据调整聊天语言模型 2025 TMLR Qwen2.5 7B、Llama 3.1 8B、Qwen3 14B
RCP-Merging:以推理能力为先验,将长链式思维模型与领域特定模型合并 2026 AAAI Qwen2.5-7B、Llama3.1-8B
Souper-Model:简单算术如何解锁最先进的LLM性能 2025 Arxiv xLAM-2-70b、CoALM-70B、watt-tool-70B、functionary-medium-70B、xLAM-2-8b、ToolACE-2-8B、watt-tool-8B、BitAgent-8B、CoALM-8B
SPEAR-MM:通过模型合并进行参数选择性评估与恢复,以实现高效的金融LLM适配 2025 Arxiv
为领域专用LLM合并持续预训练模型:以金融为例 2025 Arxiv Llama-3-8B、Llama-2-7B
提取并组合能力,构建多语言增强型大型语言模型 2025 EMNLP LLaMA-3 8B
通过模型合并弥合阿拉伯语医学LLM中的方言差距 2025 arabicnlp
通过模型合并使多语言模型适应代码混合任务 2025 Arxiv
协调多样模型:用于一致性生成的逐层合并策略 2025 Arxiv Llama-3.1-8B-Instruct和Gemma-3-12B-Instruct
ABC:通过模型合并迈向通用代码样式器 2025 ACM关于编程语言的会议 Qwen2.5-Coder、Deepseek-Coder
家庭事务:语言迁移与合并,以使小型LLM适应法罗语 2025 Arxiv
专家合并:无监督专家对齐与重要性引导的分层切块进行模型合并 2025 Arxiv Mistral-7B、InternVL、Qwen2-VL
思考光谱:通过模型合并对LLM可调推理能力的实证研究 2025 Arxiv Qwen3-30B-A3B-Thinking-2507、Qwen3-30B-A3B-Instruct-2507
MLM:多语言LoRA合并 2025 NeurIPS WorkShop LLaMA-3.2 (1B和3B)
大型语言模型中的模型合并缩放规律 2025 Arxiv Qwen2.5 0.5、1.5、3、7、14、32、72B
利用优化动力学进行曲率感知的模型合并 2025 Arxiv Llama-3.1-8B
Kwai Keye-VL 1.5技术报告 2025 Arxiv Keye-VL-8B
推理向量:通过任务算术转移链式思维能力 2025 Arxiv QWEN2.5-7B
用于模型合并优化的替代基准 2025 Arxiv EvoLLM-JP-v1-7B、shisa-gamma-7b-v1
张量化聚类LoRA合并用于多任务干扰 2025 Arxiv Mistral-7B
设备端大型语言模型的高效组合式多任务处理 2025 Arxiv Llama 3.1 70B
HydraOpt:导航适配器合并的效率与性能权衡 2025 Arxiv
探索稀疏适配器以实现参数高效专家的可扩展合并 2025 Arxiv
为增强代码生成而合并大型语言模型:跨编程语言的模型合并技术比较研究 2025 DiVA开放获取 CodeQwen1.5-7B、DeepSeek-Coder-6.7b-Base、CodeLlama-34B
关于任务算术公平性的探讨:任务向量的作用 2025 Arxiv LLaMA2-7B
模型合并对于LLM跨语言迁移的不可思议有效性 2025 Arxiv FALCON 3 7B、QWEN2.5 7B Instruct、LLAMA 3.1 8B Instruct、AYA Expanse 8B
模型合并竟然是可认证的:低样本学习的非空泛化界 2025 Arxiv MetaMath-Mistral-7B、Dolphin-2.1-Mistral-7B和Speechless-Code-Mistral-7Bv1.0
无需训练的LLM合并用于多任务学习 2025 ACL Echelon-AI/Med-Qwen2-7B、shtdbb/qwen2-7b-med、Qwen2-Instruct
ParamΔ用于直接权重混合:零成本的训后大型语言模型 2025 Arxiv Llama3-inst-70B、Llama3-base-70B、Llama3.1-base-70B
超越“啊哈!”:迈向大型推理模型中系统性的元能力对齐 2025 Arxiv Qwen2.5-7B、Qwen2.5-32B
统一的多任务学习与模型融合,用于高效的语言模型护栏 2025 Arxiv
通过模型合并,一天内将特定语言LLM适配为推理模型——一份公开配方 2025 Arxiv Typhoon2 R1 70B、Deepseek R1 70B
通过微调迁移实现高效模型开发 2025 Arxiv Llama 3.1 8B
Command A:一款企业级大型语言模型 2025 Arxiv Command R7B
外推合并:借助外推与合并不断改进 2025 Arxiv Qwen2-7B、Meta-Llama-3-8B、Mistral-Nemo-Base-2407-12B、Qwen1.5-14B
Light-R1:从头开始及更进一步的长期COT课程SFT、DPO和RL 2025 Arxiv Light-R1-32B
FuseChat-3.0:偏好优化遇上异构模型融合 2025 Arxiv Gemma-2-27B-it、Mistral-Large-Instruct-2407、Qwen-2.5-72B-Instruct以及Llama-3.1-70B-Instruct
表面自我提升的推理者受益于模型合并 2025 Arxiv Llama2-7B
受自然启发的大语言模型群体进化 2025 Arxiv
层次感知的任务算术:解耦任务特异性和指令遵循知识 2025 Arxiv Gemma-2-9B、Llama-3-8B
Mixup模型合并:通过随机线性插值提升模型合并性能 2025 Arxiv WizardLM-13B、WizardMath-13B、llama-2-13b-code-alpaca
LoRE-Merging:探索低秩估计用于大型语言模型合并 2025 Arxiv NuminaMath-7B、DeepSeek-Math-7B-Base、LLaMA系列模型、WizardMath-13B
语言与领域特定模型的合并:对技术词汇习得的影响 2025 Arxiv ContactDoctor-8B
通过模型合并将文本偏好转移到视觉-语言理解 2025 Arxiv Llama-3.2-11B-Vision -Instruct、Llama-3.1-Tulu-2-8B-uf-mean-rm、Llama-3.1-Tulu-3-8B-RM
最佳脑迭代合并:缓解LLM合并中的干扰 2025 Arxiv Llama-2-13b、WizardMath-13B-V1.0、WizardLM13B-V1.2、llama-2-13b-codealpaca
一份公开配方:通过模型合并一天内将特定语言LLM适配为推理模型 2025 Arxiv Typhoon2 70B Instruct、DeepSeek R1 70B Distill、Llama 3.1 70B、Llama 3.3 70B
好吧,我自己来合并:一个用于自动化模型合并的多保真度框架 2025 Arxiv WizardLM-13B、WizardMath-13B以及llama-2-13b-code-alpaca
参数空间中的技能扩展与组合 2025 Arxiv
InfiFusion:通过LLM融合实现增强跨模型推理的统一框架 2025 Arxiv Qwen2.5-Coder-14B-Instruct、Qwen2.5-14B-Instruct以及Mistral-Small-24B-Instruct-2501
通道合并:为合并后的专家保留专长 2025 AAAI Dolphin-2.2.1-Mistral-7B、Speechless-Code-Mistral-7B、MetaMathMistral-7B、Chinese-Mistral-7BInstruct-v0.1
加权奖励偏好优化用于隐式模型融合 2025 ICLR LLaMA3-8B-Instruct
通过免训练融合提升多模态LLM的感知能力 2024 Arxiv MiniGemini-8B和SLIME-8B
AgentMerge:提升微调LLM代理的泛化能力 2024 Arxiv Llama3.1-8B
JRadiEvo:一种通过模型合并进化优化增强的日本放射科报告生成模型 2024 Arxiv Bunny-v1_1-Llama-3-8B-V、MMed-Llama-3-8B-EnIns、OpenBioLLM-Llama3-8B、Llama-3-Swallow-8B-Instruct-v0.1
如果不能使用它们,就回收利用:规模化合并优化可缓解性能权衡 2024 Arxiv Command R+ 104B
通过CycleQD为大型语言模型获取代理技能 2024 Arxiv Llama3-8B-Instruct
协作式向LLM添加新知识 2024 Arxiv Meta-Llama-3-8B
不受约束的模型合并用于增强LLM的推理能力 2024 Arxiv CodeLlama-7B-Ins、CodeLlama-70B-Ins、Deepseek-Coder-Ins-v1.5、Qwen2.5-Math-7B-Ins、WizardMath-7B-V1.1、OpenMath-Mistral 7B、MetaMath-7B、MetaMath-70B
LoRA浓汤:为实际技能组合任务合并LoRA 2024 Arxiv Llama-7b、Llama2-7b-chat
合并以学习:通过模型合并高效地为语言模型添加技能 2024 Arxiv Llama 2 7B
探索模型亲缘关系以合并大型语言模型 2024 Arxiv Mistral-7B、Mistral-7b-instruct-v0.2、MetaMath-mistral-7b、Open-chat-3.5-1210
瓶中合并:可微分自适应合并(DAM)以及从平均到自动化的路径 2024 Arxiv shisa-gamma-7b、WizardMath-7B-V1.1、Abel-7B-002、Llama-3-SauerkrautLM-8b-Instruct、Llama-3-Open-Ko-8B、llama-3-sqlcoder-8b、Meta-Llama-3-8B
层交换用于大型语言模型的零样本跨语言迁移 2024 Arxiv LLAMA 3.1 8B
规模化模型合并的关键是什么? 2024 Arxiv PaLM-2(1B、8B、24B、64B)、PaLM-2-IT(1B、8B、24B、64B)
HM3:针对预训练模型的层次化多目标模型合并 2024 Arxiv Llama-2-7B-Chat、WizardMath-7B、CodeLlama-7B
FUSECHAT:聊天模型的知识融合 2024 Arxiv OpenChat-3.5-7B、Starling-LM-7B-alpha、NH2-SOLAR-10.7B、InternLM2-Chat-20B、Mixtral-8x7B-Instruct以及Qwen-1.5-Chat-72B
SQL-GEN:通过合成数据和模型合并弥合文本转SQL的方言鸿沟 2024 Arxiv CodeLlama 7B
变形时刻:通过多目标优化释放多个LLM的潜力 2024 Arxiv Qwen1.5-7B-Chat、解放的Qwen1.5-7B、firefly-qwen1.5-en-7B
通过演化语言模型权重进行知识融合 2024 ACL
LLM合并:通过合并高效构建LLM 2024 NeurIPS 2024竞赛赛道 LLaMA-7B、Mistral-7B、Gemma-7B
通过权重解耦将模型合并从微调扩展到预训练大型语言模型 2024 Arxiv Qwen1.5-7B、Qwen1.5-Chat-7B、Sailor-7B、Qwen1.5-14B、Qwen1.5-Chat-14B、Sailor-14B、WizardLM-13B、WizardMath-13B、llama-2-13b-code-alpaca
变形时刻:通过多目标优化释放多个LLM的潜力 2024 Arxiv Qwen1.5-7B-Chat、解放的Qwen1.5-7B、firefly-qwen1.5-en-7B
MetaGPT:利用模型专属任务算术合并大型语言模型 2024 Arxiv LLaMA-2-7B、Mistral-7B、LLaMA-2-13B
PROMETHEUS 2:一款开源语言模型,专门用于评估其他语言模型 2024 Arxiv Mistral-Instruct-7B、Mixtral-Instruct-8x7B
大型语言模型的知识融合 2024 ICLR Llama-2 7B、OpenLLaMA 7B、MPT 7B
语言模型就像超级马里奥:如同免费午餐般吸收同源模型的能力 2024 ICML WizardLM-13B、WizardMath-13B以及llama-2-13b-code-alpaca、Mistral-7B
通过语言模型算术控制文本生成 2024 ICML MPT-7B、Pythia-12B、Llama-2-Chat-13B
MeteoRA:嵌入式多任务LoRA用于大型语言模型 2024 Arxiv LlaMA2-13B和LlaMA3-8B(LoRA)
模型合并配方的进化优化 2024 Arxiv shisa-gamma-7b-v1、WizardMath-7B-V1.1、Arithmo2-Mistral-7B、Abel-7B-002、Mistral-7B-v0.1、LLaVA-1.6-Mistral-7B
Branch-Train-MiX:将专家LLM混合进混合专家LLM 2024 Arxiv Llama-2-7B
聊天LLM的知识融合:初步技术报告 2024 Arxiv NH2-Mixtral-8x7B、NH2-Solar-10.7B、OpenChat-3.5-7B

注:以下论文均来自:NeurIPS 2024 LLM 融合竞赛

论文标题 年份 会议/期刊 模型
LLM 融合:通过融合高效构建 LLM 2024 NeurIPS LLM 融合竞赛 -
结合知识图谱与提示工程的大语言模型融合方法探索 2024 NeurIPS LLM 融合竞赛 meta-llama/Llama-2-7b;microsoft_phi1/2/3
基于任务向量几何中位数的模型融合 2024 NeurIPS LLM 融合竞赛 flan_t5_xl
用于 NeurIPS 2024 LLM 融合竞赛的插值式逐层融合 2024 NeurIPS LLM 融合竞赛 suzume-llama-3-8B-multilingual-orpo-borda-top75、Barcenas-Llama3-8bORPO、Llama-3-8B-Ultra-Instruct-SaltSprinkle、MAmmoTH2-8B-Plus、Daredevil-8B
一种模型融合方法 2024 NeurIPS LLM 融合竞赛 -
适用于 NeurIPS 2024 LLM 融合竞赛的可微分 DARE-TIES 方法 2024 NeurIPS LLM 融合竞赛 suzume-llama-3-8B-multilingualorpo-borda-top75、MAmmoTH2-8B-Plus 和 Llama-3-Refueled
LLM 融合竞赛技术报告:通过策略性模型选择、融合及超参数优化实现高效模型融合 2024 NeurIPS LLM 融合竞赛 MaziyarPanahi/Llama3-8B-Instruct-v0.8、MaziyarPanahi/Llama-3-8B-Instruct-v0.9、shenzhiwang/Llama3-8B-Chinese-Chat、lightblue/suzume-llama-3-8B-multilingual
简单的 Llama 融合:我们需要什么样的 LLM? 2024 NeurIPS LLM 融合竞赛 Hermes-2-Pro-Llama-3-8B 和 Daredevil-8B
NeurIPS 2024 LLM 融合竞赛技术报告:通过融合高效构建大语言模型 2024 NeurIPS LLM 融合竞赛 Mistral-7B-Instruct94 v2、Llama3-8B-Instruct、Flan-T5-large、Gemma-7B-Instruct 和 WizardLM-2-7B
MoD:一种基于分布的大语言模型融合方法 2024 NeurIPS LLM 融合竞赛 Qwen2.5-1.5B 和 Qwen2.5-7B

多模态大语言模型中的模型融合

Model Merging

用于多模态融合的模型融合

论文标题 年份 会议/期刊 备注
联合训练大型自回归多模态模型 2024 ICLR
多模态大语言模型的模型组合 2024 ACL Vicuna-7B-v1.5
π-Tuning:通过最优多任务插值迁移多模态基础模型 2023 ICML
多模态模型融合的实证研究 2023 EMNLP
UnIVAL:面向图像、视频、音频和语言任务的统一模型 2023 TMLR

用于跨模态知识迁移的模型融合

论文标题 年份 会议/期刊 备注
改进语音识别和音频事件分类的多模态注意力融合 2024 ICASSP Workshop

结合专家级多模态大语言模型的能力

论文标题 年份 会议/期刊 备注
推理存在于层中:通过层选择性融合恢复视频-语言模型中的时间推理能力 2026 Arxiv LongVA-7B, InternVL3-8B, Qwen3-VL-4B
一个模型就能搞定所有?通往魔多山的多语言模型融合之旅 2026 Arxiv Qwen-2.5-3B-Instruct
不再拔河:通过稳定性感知的任务向量融合,协调视觉-语言模型的准确性和鲁棒性 2026 ICLR LLaVA-1.5-7B, OpenFlamingo-9B
SSAM:用于多模态大语言模型融合的奇异子空间对齐 2026 Arxiv
ES-Merging:基于嵌入空间信号的生物启发式多模态大语言模型融合 2026 Arxiv
VisCodex:通过融合视觉与编码模型实现统一的多模态代码生成 2026 ICLR VisCodex-8B, VisCodex-33B
FRISM:通过子空间级别的模型融合向视觉-语言模型注入细粒度推理能力 2026 Arxiv Qwen2.5-VL-7B-Instruct, DeepSeekR1-Distill-Qwen-7B, Qwen2.5-VL-32B-Instruct, QwQ-32B
PlaM:无需训练的高原引导型模型融合,提升多模态大语言模型的视觉接地能力 2026 Arxiv LLaVA-v1.5-7B, Qwen2.5-VL-7B-Instruct, Qwen3-VL-8B-Instruct
哪里重要、什么重要:面向多模态少样本上下文学习的敏感性感知任务向量 2026 AAAI Qwen-VL-7B, Idefics2-8B
MergeVLA:迈向通用视觉-语言-行动智能体的跨技能模型融合 2025 Arxiv Qwen2.5-0.5B
Tiny-R1V:通过模型融合构建轻量级多模态统一推理模型 2025 Arxiv
在发展上合理的多模态模型中,通过模型融合保持纯语言性能 2025 Arxiv
专家融合:基于无监督专家对齐和重要性指导的层块划分进行模型融合 2025 Arxiv Mistral-7B, InternVL, Qwen2-VL
UQ-Merge:不确定性引导的多模态大语言模型融合 2025 ACL LLaVA-v1.5-7B
Graft:通过高效的参数协同为多模态大语言模型整合领域知识 2025 Arxiv Qwen2-VL-2B
通过模型融合统一多模态大语言模型的能力和模态 2025 Arxiv Qwen2-VL-7B-Base, Vicuna-7B-v1.5
让推理走进视觉:通过模型融合理解感知与推理 2025 ICML LLaVA-NeXT-8B, Idefics2-8B, InternVL2-76B
REMEDY:大型视觉-语言模型中的配方融合动态 2025 ICLR LLaVA-1.5(Vicuna-7B)
RobustMerge:具有方向鲁棒性的参数高效多模态大语言模型融合 2025 NeurIPS LLaVA-v1.5-7B
针对多模态大语言模型的参数高效融合,结合互补的参数适配 2025 Arxiv LLaVA
AdaMMS:面向异构多模态大语言模型的模型融合,采用无监督系数优化 2025 Arxiv LLaVA-OneVision-7B, Qwen2-VL-7B, LLaVA-v1.5-7B, CogVLM-chat-7B
通过模型融合将文本偏好迁移到视觉-语言理解中 2025 Arxiv Llama-3.2-11B-Vision-Instruct, Llama-3.1-Tulu-2-8B-uf-meanrm, Llama-3.1-Tulu-3-8B-RM, Llama-3.1-8B

图像生成模型中的模型合并

Model Merging

生成模型中的风格混合

论文标题 年份 会议/期刊 备注
DiffGraph: 一种自动化代理驱动的模型合并框架,用于野外文本到图像生成 2026 Arxiv Stable Diffusion v1.5, FLUX.1 Dev
GimmBO: 基于贝叶斯优化的交互式生成图像模型合并 2026 Arxiv
重新思考适配器合并中的LoRA正交性:来自正交蒙特卡洛丢弃的见解 2025 Arxiv
BlockLoRA: 基于分块参数化低秩适应的扩散模型模块化定制 2025 Arxiv
LoRA.rar: 通过超网络学习合并LoRA以实现主题-风格条件下的图像生成 2024 Arxiv LLaVA-Critic 7b
IterIS: 用于LoRA合并的迭代推理求解对齐方法 2024 Arxiv
扩散汤:文本到图像扩散模型的模型合并 2024 ECCV
MaxFusion: 文本到图像扩散模型中的即插即用多模态生成 2024 Arxiv
MoLE: LoRA专家混合体 2024 ICLR
LoRA作曲家:利用低秩适应在无需训练的扩散模型中实现多概念定制 2024 Arxiv
用于图像生成的多LoRA组合 2024 Arxiv
秀之混合:用于扩散模型多概念定制的去中心化低秩适应 2023 NeurIPS
合并LoRA 2023 (github)
ZipLoRA: 通过有效合并LoRA实现任意主题、任意风格的生成 2023 Arxiv
GAN鸡尾酒:无需数据集即可混合GAN 2022 ECCV

降低生成模型的训练成本

论文标题 年份 会议/期刊 备注
保存检查点的线性组合使一致性与扩散模型更好 2024 Arxiv
加速STABLE-DIFFUSION的统一模块:LCM-LORA 2024 Arxiv

提升扩散模型的忠实度(或生成质量)

论文标题 年份 会议/期刊 备注
解耦后再合并:迈向更好的扩散模型训练 2024 Arxiv
SELMA: 利用自动生成的数据学习并合并技能特定的文本到图像专家 2024 Arxiv

深度伪造检测

论文标题 年份 会议/期刊 备注
面向深度伪造检测的实时感知残差模型合并 2025 Arxiv

视频生成模型中的模型合并

提升运动建模能力

论文标题 年份 会议/期刊 备注
外推并解耦图像到视频生成模型:运动建模比你想象的更容易 2025 CVPR Dynamicrafter,SVD

模型合并 在不同机器学习子领域的应用

Model Merging

持续学习中的模型合并

通过模型合并缓解灾难性遗忘

论文标题 年份 会议/期刊 备注
MAny: 多模态持续指令微调中的“合并任何内容” 2026 Arxiv LLaVA-1.5-7B 和 InternVL-Chat7B
BidirLM: 通过适配和组合因果语言模型构建从文本到全模态的双向编码器 2026 Arxiv Qwen3-1.7B 和 Qwen3-0.6B
通过权重空间模型合并对抗大语言模型的灾难性遗忘以提升指令遵循能力 2026 Arxiv Llama-3.1-8B-Base
大规模语言模型中训练后遗忘现象的映射研究 2026 ICLR
LCA: 面向持续学习的局部分类器对齐方法 2026 ICLR
MERGETUNE: 视觉-语言模型的持续微调 2026 Arxiv
先合并再遗忘:基于持续合并的单LoRA持续学习 2025 Arxiv Llama-2-7B-chat、Llama-2-13B-chat、Qwen2.5-7B
通过参数合并实现视觉-语言-动作机器人策略的稳健微调 2025 Arxiv
无遗忘的合并:基于最优传输的任务特定模型持续融合 2025 Arxiv
MergeSlide: 针对全幻灯片图像终身学习的持续模型合并与任务到类别提示对齐推理 2025 Arxiv
RECALL: 基于层次化模型合并的表征对齐型灾难性遗忘缓解方法 2025 Arxiv Qwen2-7B-Instruct、Llama-2-7B-chat
DitHub: 用于增量式开放词汇目标检测的模块化框架 2025 NeurIPS
K-Merge: 面向设备端大语言模型的适配器在线持续合并 2025 Arxiv
迈向模型持续合并的整体性方法 2025 Arxiv
无数据持续模型合并中的零空间滤波:保持稳定性,促进可塑性 2026 ICLR
AIMMerging: 基于训练轨迹的自适应迭代模型合并用于语言模型持续学习 2025 EMNLP LLaMA2-7B、LLaMA2-13B
HAM: 用于可扩展持续学习的层次化适配器合并 2025 Arxiv
在多模态大语言模型微调中借鉴下游并保持自我 2025 ICML LLaVA-1.5-7B
DuET: 基于示例无关任务算术的双重增量目标检测 2025 Arxiv
将任务特定与通用适配器集成用于预训练模型的类增量学习 2025 ICCV
基于模型合并的持续学习中任务特定知识的遗忘问题 2025 Arxiv
具有正交约束的模块化Delta合并:一种可扩展的持续且可逆模型组合框架 2025 Arxiv
RegCL: 基于模型合并的Segment Anything Model持续适应 2025 Arxiv
通过对齐的模型合并实现视觉-语言模型的持续学习 2025 Arxiv
扰动训练,合并后推理:一种两阶段持续学习框架 2025 Arxiv
MINGLE: 测试时持续模型合并用的零空间门控低秩专家混合体 2025 NeurIPS
分布式数据环境下基础模型持续更新的模型合并方法分析 2025 Arxiv 应用科学
BECAME: 基于自适应模型合并的贝叶斯持续学习 2025 Arxiv
先合并再对齐:面向多模态LLM的简单有效的模态增量持续学习 2025 Arxiv Llama-3-8B-Instruct
在拥有充足示例记忆的情况下进行成本效益高的持续学习 2025 Arxiv
无需数据的持续模型合并:双投影平衡稳定性和可塑性 2025 NeurIPS
无需重训即可实时合并模型:一种可扩展的持续模型合并顺序方法 2025 NeurIPS
汤剂疗法:通过模型平均缓解持续学习过程中的遗忘 2025 Arxiv Llama 2 (7B)
基于质心原型映射的适配器合并用于可扩展的类增量学习 2024 Arxiv
防止遗忘只需参数平均 2024 SLT Workshop
DESIRE: 用于无排练持续学习的动态知识整合 2024 Arxiv
用于高效领域增量学习的自适应LoRA合并 2024 NeurIPS Workshop
LiNeS: 训练后层缩放可防止遗忘并增强模型合并效果 2024 Arxiv
Model Tailor: 缓解多模态大语言模型中的灾难性遗忘 2024 ICML InstructBLIP (Vicuna-7B)、LLaVA-1.5 (Vicuna7B)
面向增量新类发现的自适应发现与合并 2024 AAAI
MagMax: 利用模型合并实现无缝持续学习 2024 ECCV
Lm-cocktail: 通过模型合并实现语言模型的弹性调优 2024 ACL Findings Llama-2-chat-7b
通过权重插值实现数据更新期间的向后兼容性 2024 EACL
面向语言模型持续学习的动态适配器组合路由学习 2024 EMNLP Findings
通过模型合并缓解语言迁移中的灾难性遗忘 2024 Arxiv MISTRAL-7B、LLAMA-3-8B
通过持续预训练和模型合并对Llama3-70B-Instruct进行领域适应:一项综合评估 2024 Arxiv Llama3-70B
彩票券适应:缓解LLM中的破坏性干扰 2024 Arxiv Mistral-7B、Llama-3-8B
WARP: 关于加权平均奖励策略的好处 2024 Arxiv Gemma-7B
关于组合性和增量学习的二阶视角 2024 Arxiv
DynaMMo: 用于医学影像高效类增量学习的动态模型合并 2024 Arxiv
DAM: 用于持续视频问答学习的动态适配器合并 2024 Arxiv
微调后的语言模型中任务特定技能的定位 2023 ICML
切线模型组合用于集成与持续微调 2023 ICCV
具有通用参数高效调优的统一持续学习框架 2023 ICCV
利用LoRA进行任务算术以实现持续学习 2023 NeurIPS Workshop
缓解RLHF的对齐税 2023 Arxiv Mistral-7B
PAINT: 通过权重插值修补开放词汇模型 2022 NeurIPS
零样本模型的稳健微调 2022 CVPR

多任务/多目标/多领域/辅助学习中的模型合并

多任务学习中用于知识迁移的模型合并

论文标题 年份 会议/期刊 备注
G-Merging: 基于图模型的参数高效多任务知识整合 2026 ICLR
多任务代码大模型:数据混合还是模型合并? 2026 Arxiv Qwen Coder 2.5 7B, DeepSeek 7B
DivMerge: 一种基于差异性的多任务模型合并方法 2025 Arxiv
单输入多输出模型合并:利用基础模型进行密集型多任务学习 2025 Arxiv
改进通用文本嵌入模型:通过模型合并解决任务冲突与数据不平衡问题 2024 Arxiv
LiNeS: 训练后层缩放防止遗忘并增强模型合并效果 2024 Arxiv
混合数据还是合并模型?面向多样化多任务学习的优化策略 2024 Arxiv Aya 23 8B
可折叠超网:不同初始化和任务的Transformer模型的可扩展合并 2024 Arxiv
任务提示向量:通过多任务软提示迁移实现有效初始化 2024 Arxiv
模型合并方案的进化优化 2024 Arxiv shisa-gamma-7b-v1, WizardMath-7B-V1.1, Arithmo2-Mistral-7B, Abel-7B-002, Mistral-7B-v0.1, LLaVA-1.6-Mistral-7B
语言模型就是超级马里奥:免费吸收同源模型的能力 2024 ICML WizardLM-13B、WizardMath-13B以及llama-2-13b-codealpaca、Mistral-7B
多任务模型合并中的表征手术 2024 ICML
通过加权集成专家混合进行多任务模型合并 2024 ICML
ZipIt! 在无需训练的情况下合并来自不同任务的模型 2024 ICLR
AdaMerging: 面向多任务学习的自适应模型合并 2024 ICLR
决策Transformer的合并:通过权重平均形成多任务策略 2023 Arxiv
解决模型合并时的干扰问题 2023 NeurIPS
使用任务算术编辑模型 2023 ICLR

多目标优化中用于知识迁移的模型合并

论文标题 年份 会议/期刊 备注
从参数到表征:可控模型合并的闭式解法 2026 AAAI
合并与引导:统一模型合并与引导解码以实现可控的多目标生成 2025 Arxiv LLaMA-2-7B
帕累托合并:面向偏好感知的多目标优化模型合并 2025 ICML
骨汤:一种寻找与融合的模型合并方法,用于可控的多目标生成 2025 Arxiv LLaMA-2 7B
只合并一次:学习偏好感知模型合并的帕累托前沿 2024 Arxiv
通过基于专家混合的模型融合实现高效的帕累托集近似 2024 Arxiv
MAP:基于二次近似的摊销帕累托前沿低计算量模型合并 2024 Arxiv Llama3-8B

多领域学习中用于知识迁移的模型合并

论文标题 年份 会议/期刊 备注
跨不连通模态的领域自适应模型合并 2026 Arxiv
通过子空间感知的模型合并弥合领域差距 2026 Arxiv
探索模型合并在ASR多领域适应中的潜力与局限性 2026 Arxiv
混合还是合并:迈向大型语言模型的多领域强化学习 2026 Arxiv Qwen3-4B-Base
MMGRid:通过模型合并实现时间感知与跨领域的生成式推荐 2026 Arxiv Qwen3-0.6B
MergeRec:面向数据隔离的跨领域序列推荐的模型合并 2026 KDD
DEM:用于混合数据分布训练的分布编辑模型 2024 Arxiv OpenLLaMA-7B、OpenLLaMA-13B
来自不同任务和领域的视觉Transformer的合并 2023 Arxiv

辅助学习中用于知识迁移的模型合并

论文标题 年份 会议/期刊 备注
ForkMerge:缓解辅助任务学习中的负迁移 2023 NeurIPS

分布外/领域泛化中的模型融合

用于更好分布外泛化的模型融合

论文标题 年份 会议/期刊 备注
探索模型融合在自动语音识别多领域适应中的潜力与局限 2026 Arxiv
模型汤只需要一种成分 2026 Arxiv
CCL25-评估任务10系统报告:基于提示的大语言模型融合用于细粒度中文仇恨言论检测 2025 Arxiv Qwen2.5-7B-Instruct
更智能地融合,更好地泛化:提升OOD数据上的模型融合效果 2025 Arxiv
分布外图模型融合 2025 Arxiv
SeWA:通过概率掩码进行选择性权重平均 2025 Arxiv
何时、何地以及为何要对权重进行平均? 2025 Arxiv
DaWin:无需训练的动态权重插值以实现稳健适应 2024 NeurIPS 2024 Workshop
通过选择性参数融合缓解LLM微调中的训练不平衡 2024 Arxiv Llama-2-7b
ReVLA:逆转机器人基础模型的视觉域限制 2024 Arxiv
稀疏模型汤:通过模型平均改进剪枝的方法 2024 ICLR
Warm:关于权重平均奖励模型的好处 2024 ICML
单GPU上的可扩展学习型模型汤:一种高效的子空间训练策略 2024 ECCV
自适应随机权重平均 2024 JMLR
群体参数平均(papa) 2024 TMLR
WARP:关于权重平均奖励策略的好处 2024 Arxiv Mistral 7B, Mixtral 8x7B
WASH:用通信高效的权重洗牌训练你的集成模型,然后取平均 2024 Arxiv
模型储备:我们只需要几个微调过的模型 2024 Arxiv
环顾优化器:走k步,平均1步 2023 NeurIPS
模型拉塔图伊:回收利用多种模型以实现分布外泛化 2023 ICML
可训练的权重平均:通过优化历史解来高效训练 2023 ICLR
环顾优化器:走k步,平均1步 2023 NeurIPS
AdapterSoup:通过权重平均提高预训练语言模型的泛化能力 2023 EACL
Dart:多样化聚合-重复训练可提高神经网络的泛化能力 2023 CVPR
平坦极小值优化器何时有效? 2022 NeurIPS
模型汤:对多个微调模型的权重进行平均可在不增加推理时间的情况下提高准确率 2022 ICML
用于分布外泛化的多样化权重平均 2022 NeurIPS
零样本模型的稳健微调 2022 CVPR
具有后期阶段权重的神经网络 2021 ICLR
并行随机权重平均:泛化良好的大批次训练 2020 ICLR
SWALP:低精度训练中的随机权重平均 2019 ICML
权重平均会导致更宽的最优解和更好的泛化 2018 UAI
平均教师是更好的榜样:权重平均的一致性目标可改善半监督深度学习结果 2017 NeurIPS

用于更好领域泛化或领域适应的模型融合

论文标题 年份 会议/期刊 备注
选择与融合:迈向使用大语言模型的可适应且可扩展的命名实体识别 2025 Arxiv Qwen2.5-7B, Llama3.1-8B
为基于CLIP的领域泛化协调并合并源模型 2025 Arxiv
模型融合在组合泛化方面的现实评估 2024 Arxiv
用于分割任务中无监督领域适应的逐层模型融合 2024 Arxiv
用于多目标领域适应的无训练模型融合 2024 Arxiv
通过持续预训练和模型融合实现Llama3-70B-Instruct的领域适应:一项综合评估 2024 Arxiv Llama3-70B
平均集成:改进模型选择并提升领域泛化性能 2022 NeurIPS
Swad:通过寻找平坦极小值实现领域泛化 2021 NeurIPS

联邦学习中的模型合并

用于本地知识聚合的模型合并

论文标题 年份 会议/期刊 备注
FedMerge:用于个性化的联邦模型合并 2026 AAAI
通过联邦-本地模型合并实现通信高效的个性化适配 2026 Arxiv LLaMA-3.2-3B-Instruct
论去中心化学习中单一全局合并的惊人有效性 2026 ICLR
面向联邦基础模型的双层个性化:一种任务向量聚合方法 2025 Arxiv LLaMA-7B
用于联邦学习聚合的内在训练信号 2025 ICIAP
打破联邦推荐中的聚合瓶颈:一种个性化模型合并方法 2025 Arxiv
一次合并就足够了:在去中心化学习中恢复基于服务器的学习性能 2025 Arxiv
面向联邦持续学习的参数高效模块的闭式合并 2025 ICLR
永不从零开始:通过可解释的模型选择加速设备端LLM个性化 2025 Arxiv
FedMerge:通过模型合并实现联邦个性化 2025 Arxiv
通过隐私保护的进化式模型合并构建个性化语言模型 2025 Arxiv Llama-2-7b, Mistral-7B-Instruct v0.2
FedAWA:利用客户端向量对联邦学习中的聚合权重进行适应性优化 2025 Arxiv
通过统一任务向量进行多任务联邦微调 2025 Arxiv
PrivFusion:基于去中心化联邦图匹配的隐私保护模型融合 2024 TKDE
模型之旅:跨多联邦的模型融合中提升隐私与公平性,助力可信全球医疗 2024 ICDE
DapperFL:面向边缘设备的带模型融合剪枝的领域自适应联邦学习 2024 NeurIPS
FuseFL:以因果视角看一次性联邦学习与渐进式模型融合 2024 Arxiv
本地优势汤:跨silos联邦学习中模型合并的催化剂 2024 Arxiv
DIMAT:深度学习模型的去中心化迭代合并与训练 2024 CVPR
FedFisher:利用费舍尔信息实现一次性联邦学习 2024 AISTATS
lo-fi:无需通信的分布式微调 2023 TMLR
重新审视神经网络在联邦学习中的加权聚合 2023 ICML
通过图匹配进行深度神经网络融合及其在模型集成和联邦学习中的应用 2022 ICML
采用匹配平均法的联邦学习 2020 ICLR
解决异构联邦优化中的目标不一致性问题 2020 NeurIPS
通过最优传输进行模型融合 2020 NeurIPS
神经网络的贝叶斯非参数联邦学习 2019 ICML
利用注意力聚合学习私有神经语言建模 2019 IJCNN
从去中心化数据中高效通信地学习深度网络 2017 AISTATS

零样本/少样本学习中的模型合并

零样本学习中用于跨任务泛化的模型合并

论文标题 年份 会议/期刊 备注
TTS中的任务向量:迈向情感丰富的方言语音合成 2026 Arxiv
模型合并提升生物声学基础模型的零样本泛化能力 2025 NeurIPS Workshop LLAMA-3.1-8B-INSTRUCT
探索用于零样本信息检索的任务算术 2025 SIGIR LLama-2-7b
通过层次聚类实现稀疏混合专家模型的无重新训练合并 2024 Arxiv Qwen 60x2.7B, Qwen 45x2.7B, Qwen 30x2.7B, Mixtral 8x7B, Mixtral 6x7B, Mixtral 4x7B
大型语言模型中用于零样本跨语言迁移的层交换 2024 Arxiv LLAMA 3.1 8B
学习在专业专家之间路由以实现零样本泛化 2024 ICML
通过构建和复用LoRA库迈向模块化LLM 2024 ICML Mistral-7B
聊天向量:一种为LLM赋予新语言聊天能力的简单方法 2024 ACL LLaMA-2 13B, Chinese-LLaMA-13B, Chinese-Alpaca-13B, Mistral-7B, llama-2-ko-7b
释放模型合并对低资源语言的潜力 2024 Arxiv Llama-2-7B
扩散汤:用于文生图扩散模型的模型合并 2024 Arxiv
无需训练却有收获:用于无训练语言适配器增强的语言算术 2024 Arxiv
MaxFusion:文生图扩散模型中的即插即用多模态生成 2024 Arxiv
AdaMergeX:通过自适应适配器合并实现大型语言模型的跨语言迁移 2024 Arxiv Llama2-7b
用于多模态大型语言模型的模型组合 2024 Arxiv Vicuna-7B-v1.5
探索相比指令微调训练专家语言模型的优势 2023 ICML
针对下游任务泛化的LoRA适配器的令牌级适应 2023 Arxiv Llama-2-7b
利用参数高效的层进行语言和任务算术,实现零样本摘要生成 2023 Arxiv PaLM 2-S

少样本学习中用于跨任务泛化的模型合并

论文标题 年份 会议/期刊 备注
支持语言下的任务算术用于低资源ASR 2026 Arxiv
通过复用预微调的LoRA解锁视觉基础模型的免微调少样本适应性 2025 CVPR
LoRA-Flow:用于生成任务中大型语言模型的动态LoRA融合 2024 ACL Llama-2- 7B
LoraHub:通过动态LoRA组合实现高效的跨任务泛化 2024 COLM Llama-2-7B, Llama-2-13B
LoraRetriever:面向野外混合任务的输入感知LoRA检索与组合 2024 ACL
结合参数高效模块是否能提升少样本迁移准确率? 2024 Arxiv
MerA:用于少样本学习的预训练适配器合并 2023 Arxiv
用于跨任务泛化的多头适配器路由 2023 NeurIPS

对抗学习中的模型融合

模型融合作为一种攻击手段

论文标题 年份 会议/期刊 备注
当安全模型融合为危险:利用大语言模型融合中的潜在漏洞 2026 Arxiv Tulu-2-7b, Llama-3.1-Tulu-3-8B-DPO, OpenChat-3.5-0106
后门向量:从任务算术视角看后门攻击与防御 2025 Arxiv
现在合并,日后后悔:模型融合的隐性代价是对抗可迁移性 2025 Arxiv
谨慎合并陌生的大语言模型:一种可窃取隐私的网络钓鱼模型 2025 ACL Llama-3.2-3b-it, Gemma-2-2b-it, Qwen-2.5-3b-it, 和 Phi-3.5-mini-it
合并劫持:针对大型语言模型模型融合的后门攻击 2025 Arxiv LLaMA3.1-8B
从纯净到危险:从“无害”的良性组件中植入后门到融合模型 2025 Arxiv LLaMA2-7B-chat, Mistral-7B-v0.1
合并即窃取:通过模型融合从对齐的大语言模型中窃取目标PII 2025 Arxiv
谨慎合并陌生的大语言模型:一种可窃取隐私的网络钓鱼模型 2025 Arxiv
LoBAM:基于LoRA的模型融合后门攻击 2024 Arxiv
BadMerging:针对模型融合的后门攻击 2024 CCS
LoRA即攻击!在共享与协作场景下刺穿大语言模型的安全性 2024 ACL Llama-2-7B

模型融合作为一种防御或知识产权保护手段

论文标题 年份 会议/期刊 备注
通过模块切换防御后门攻击 2026 ICLR
通过尺度敏感的损失景观使模型不可融合 2026 Arxiv
融合触发器,破解后门:面向指令微调语言模型的防御性投毒 2026 Arxiv Llama2-7B 和 Qwen3-8B
不要合并我的模型!保护开源大语言模型免受未经授权的模型融合侵害 2026 AAAI LLaMA-2-13B, WizardLM-13B, WizardMath-13B, LLaMA-2-13B-Code Alpaca
通过双阶段权重保护防御未经授权的模型融合 2025 Arxiv
模型反融合:让你的模型无法被融合以实现安全的模型共享 2025 Arxiv
海报:研究模型融合中对抗样本的可迁移性 2025 ASIA CCS
RouteMark:基于路由的模型融合中用于知识产权归属的指纹 2025 Arxiv
MergeGuard:高效阻止机器学习模型中的木马攻击 2025 Arxiv
BadJudge:作为裁判的大语言模型的后门漏洞 2025 Arxiv Mistral-7B-Instruct-v0.2, Meta-Llama3-8B
扰乱模型融合:一种不牺牲准确性的参数级防御 2025 ICCV
大型语言模型融合以增强对图神经网络的链接窃取攻击 2024 Arxiv Vicuna-7B, Vicuna-13B
通过自适应模型融合为语言模型提供强有力的版权保护 2024 ICML LLaMa2 7B, StarCoder 7B
针对预训练大型视觉模型的对抗鲁棒性提升的超对抗调优 2024 Arxiv
REEF:大型语言模型的表征编码指纹 2024 Arxiv Evollm-jp-7b, Shisa-gamma-7b-v1, Wizardmath-7b-1.1, Abel-7b-002, Llama-2-7b, Openllama-2-7b, Mpt-7b, Internlm2-chat-20b, Mixtral-8x7b-instruct, Qwen-1.5-chat-72b
通过安全感知子空间缓解多任务模型融合的后门效应 2024 Arxiv
MergePrint:针对大型语言模型融合的稳健指纹识别 2024 Arxiv LLaMA-2-7B, WizardMath-7B-V1.0, LLaMA-2-7B-CHAT
通过机器遗忘避免版权侵权 2024 Arxiv Llama3-8B
融合提升自我批判能力以抵御越狱攻击 2024 Arxiv Mistral-7B, Mixtral-8x7B
你是否合并了我的模型?关于大型语言模型知识产权保护方法对抗模型融合的鲁棒性 2024 Arxiv LLaMA-2-7B, LLaMA-2-7B-CHAT, WizardMath-7B-V1.0
免费午餐来了:用模型融合净化被植入后门的模型 2024 ACL
重新审视适配器与对抗训练 2023 ICLR
为模型汤调味以增强其对抗性和自然分布偏移下的鲁棒性 2023 CVPR

其他应用

论文标题 年份 会议/期刊 备注
守住底线,抬高上限:基于合并的多模态搜索代理范式 2026 Arxiv
ACE-Brain-0:空间智能作为通用具身系统的共享支架 2026 Arxiv
基于稀疏任务向量混合与超网络的高效知识迁移方法在全切片图像预后中的应用 2026 Arxiv
减少微调,提升检索效果:通过合成数据和模型合并重新思考生物医学检索器的LLM适配 2026 Arxiv 通义千问3-0.6B、Gemma-2B、Phi4-3.8B
当领域预训练干扰指令对齐时:医学LLM中适配器合并的实证研究 2026 Arxiv 140亿参数LLM
MergeRec:面向数据隔离的跨领域序列推荐的模型合并方法 2026 KDD
无需微调的任务向量驱动语音模型实现罕见词识别与翻译 2025 Arxiv
CCL25-Eval任务10系统报告:基于提示的大语言模型合并用于细粒度中文仇恨言论检测 2025 Arxiv 通义千问2.5-7B-Instruct
面向儿童自动语音识别的群体感知部分模型合并方法 2025 Arxiv
消除污染:利用任务算术实现无训练数据的纠正性机器遗忘 2025 Arxiv
RecCocktail:一种可泛化且高效的基于LLM的推荐框架 2025 AAAI Llama-3.1-8B
医学LLM中高效模型合并的新型层次化集成方法 2025 Arxiv Mistral-7B
WeaveRec:基于LLM的跨领域序列推荐框架,结合模型合并 2025 Arxiv 通义千问2-7B
模型合并在领域特定即席检索中的效果 2025 Arxiv
换个角度看问题:通过任务算术利用负样本设计“正向”分子 2025 Arxiv
通过任务算术转移自解释模型的视觉可解释性 2025 Arxiv
利用任务算术蒸馏语音和音乐编码器 2025 Arxiv
MedSAMix:用于医学图像分割的免训练模型合并方法 2025 Arxiv
针对视觉Transformer的振荡抑制MXFP4训练 2025 ICML
通过任务算术转移自解释模型的视觉可解释性 2025 Arxiv
基于时间指定符模型合并的时间信息检索 2025 Arxiv
用于推荐的基础模型生成式表征学习 2025 Arxiv
迈向面向表格型电信数据的模型合并 2025 Arxiv
CultureMERT:面向跨文化音乐表征学习的持续预训练 2025 Arxiv
U-Net移植:预训练在3D医学分割模型合并中的作用 2025 国际医学影像计算与计算机辅助干预会议
CodeMerge:代码本引导的模型合并用于自动驾驶中的鲁棒测试时适应 2025 Arxiv
使用张量积的潜在专家混合模型 2024 TMLR
用于增强医学影像分类模型鲁棒性的模型内合并方法 2025 Arxiv
自监督正常性学习与发散向量引导的模型合并用于胎儿超声视频中的零样本先天性心脏病检测 2025 Arxiv
用于LLM深度剪枝的滑动层合并方法 2025 Arxiv LLaMA-2-7B
自监督正常性学习与发散向量引导的模型合并用于胎儿超声视频中的零样本先天性心脏病检测 2025 Arxiv
MedForge:像开源软件开发一样构建医学基础模型 2025 Arxiv
文化调色板:通过多智能体调色板实现文化对齐的多元化 2024 Arxiv
通过选择性参数合并缓解LLM微调中的训练不平衡 2024 EMNLP Llama-2-7b
多目标跟踪是专业化的问题吗? 2024 NeurIPS
通过微调和模型合并追踪通用特征 2024 Arxiv
HM3:异构多类别模型合并 2024 Arxiv
情感算术:基于权重空间插值的情感语音合成 2024 Interspeech
基于Fisher平均的纠删码神经网络推理 2024 Arxiv
MergeRepair:探索在代码LLM中合并特定任务适配器以实现程序自动修复的研究 2024 Arxiv
模型告诉你该在哪里合并:面向长上下文任务的LLM自适应KV缓存合并 2024 Arxiv Llama2-7B、Llama2-13B-chat、Mistral-7B-instruct
通过任务向量定制扩大个性化图像美学评估规模 2024 Arxiv
通过模型合并实现语音合成中的属性插值方法 2024 Arxiv
任务算术可以缓解自动语音识别中合成数据与真实数据之间的差距 2024 Arxiv
MedMerge:为医学影像任务进行有效迁移学习的模型合并方法 2024 Arxiv
专家权重平均:一种新的视觉Transformer通用训练方案 2023 Arxiv
一个学生知道所有专家都知道:从稀疏到稠密 2022 Arxiv
模型平均中的元学习PAC-Bayes先验 2019 AAAI

星星历史

星星历史图表


联系方式

我们欢迎所有研究人员为本仓库(“基础模型或机器学习中的模型合并”)贡献力量。

如果您有一篇尚未添加到库中的相关论文,请与我们联系。

邮箱:ennengyang@qq.com / ennengyang@gmail.com

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2周前
Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。

184.7k|★★☆☆☆|今天
数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。

183.6k|★★★☆☆|今天
Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

161.1k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|2天前
开发框架图像Agent