ml-systems-papers
ml-systems-papers 是一个精心整理的机器学习系统领域学术论文合集,旨在为从业者和研究者提供一站式的前沿技术文献导航。随着大模型和分布式训练的快速发展,如何高效处理数据、优化 GPU 资源调度、加速推理以及降低通信开销成为行业痛点,而相关研究往往分散在各处难以追踪。这份清单系统地解决了信息碎片化问题,将海量论文按数据处理、训练系统、推理优化、显存管理、编译器技术及联邦学习等二十多个关键主题进行分类梳理,甚至特别标注了综述文章,帮助用户快速把握领域全貌。
该资源特别适合 AI 系统工程师、算法研究人员以及对底层架构感兴趣的高校师生使用。无论是需要寻找特定场景(如 LLM 长上下文优化、MoE 架构或 RAG 系统)的解决方案,还是希望深入了解数据流水线瓶颈与容错机制,都能在此找到高质量的参考依据。其独特亮点在于更新及时且分类细致,不仅涵盖了传统的分布式训练与资源调度,还紧跟趋势收录了智能体系统、混合大模型及 RL 后训练等新兴方向的最新成果,是构建高效、稳定机器学习基础设施不可或缺的案头指南。
使用场景
某大型电商公司的算法团队正在构建下一代超大规模推荐系统,面临海量数据预处理导致的 GPU 训练频繁空闲瓶颈。
没有 ml-systems-papers 时
- 团队在解决数据加载延迟时盲目尝试,缺乏对“数据流水线优化”领域前沿方案(如 Plumber 或 tf.data 机制)的系统性认知。
- 难以区分哪些是学术界已验证的成熟架构,哪些是实验性想法,导致在错误的技术路线上浪费数周研发资源。
- 对于多源异构数据下的缓存策略和分布式存储方案,只能依赖零散的博客文章,无法找到针对大规模深度推荐模型的专业论文支撑。
- 错过了如"Streaming Batch Model"等能显著提升容错性和执行效率的最新成果,系统稳定性长期得不到根本改善。
使用 ml-systems-papers 后
- 工程师通过"Data Processing"分类快速定位到 SIGMOD 和 VLDB 上的关键论文,直接复用了经过验证的数据流水线诊断与去除瓶颈方法。
- 借助清晰的目录结构和 [Survey 🔍] 标记,团队迅速掌握了该领域的技术全景,将选型调研时间从数周缩短至两天。
- 参考列表中关于"Caching and distributed storage"的最新研究,设计了适配多租户场景的智能缓存层,彻底消除了 GPU 等待数据的“饥饿”现象。
- 及时引入了 arxiv'25 最新发表的 OVERLORD 等前沿方案,实现了多源大模型训练数据加载的终极扩展,显著提升了集群吞吐量。
ml-systems-papers 将分散的学术智慧转化为可落地的工程指南,帮助团队用最短路径解决了制约算力效率的核心痛点。
运行环境要求
未说明
未说明

快速开始
机器学习系统论文列表
涵盖机器学习系统广泛主题的论文列表
注:综述类论文以 [Survey 🔍] 前缀标注。
目录
数据处理
数据流水线优化
概述
- [arxiv'25] 可扩展且高性能的数据加载
- [arxiv'25] OVERLORD:多源大型基础模型训练中DataLoader的终极扩展
- [arxiv'25] 用于高效、容错的异构执行的流式批处理模型
- [arxiv'25] 多租户智能网卡上的推荐系统网络内预处理
- [VLDB'25] cedar:可组合且优化的机器学习输入数据流水线
- [HotInfra'24] Lotus:刻画机器学习流水线中的架构级CPU预处理
- [arxiv'24] TensorSocket:深度学习训练中的共享数据加载
- [arxiv'24] ML流水线中高效的表格型数据预处理
- [MLSys'22] Plumber:诊断并消除机器学习数据流水线中的性能瓶颈
- [ISCA'22] 大规模深度推荐模型训练中的数据存储与摄取理解
- [SIGMOD'22] 我的训练瓶颈在哪里?深度学习预处理流水线中的隐藏权衡
- [VLDB'21] 分析并缓解DNN训练中的数据停滞
- [VLDB'21] tf.data:一个机器学习数据处理框架
预处理停滞
- [arxiv'24] PREBA:基于多实例GPU的AI推理服务器的软硬件协同设计
- [ATC'24] Pecan:通过自动变换排序与混合放置实现成本效益高的ML数据预处理
- [HotStorage'24] 一种减少DL训练中数据流量的选择性预处理卸载框架
- [VLDB'24] FusionFlow:利用CPU-GPU协作加速机器学习数据预处理
- [arxiv'23] Rinas:使用数据集打乱进行训练可以既通用又快速
- [CVPR'23] FFCV:通过消除数据瓶颈加速训练
- [RecSys'23] InTune:基于强化学习的深度推荐模型数据流水线优化
- [SIGMOD'23] GoldMiner:深度学习训练数据预处理流水线的弹性扩展
- [VLDB'23] FastFlow:通过输入数据流水线的智能卸载加速深度学习模型训练
- [SoCC'23] tf.data service:拆分ML输入数据处理的一个案例
- [ATC'22] Cachew:将机器学习输入数据处理作为一项服务
- [OSDI'22] 在多租户集群上调度DNN时超越GPU的视角
- [ICPP'19] DLBooster:通过卸载数据预处理流水线来提升端到端深度学习工作流
获取停滞(I/O)
- [TACO'23] Fastensor:优化从SSD到GPU的张量I/O路径以用于深度学习训练
- [ICPP'22] Lobster:面向分布式DNN训练的负载均衡感知I/O
- [SC'21] 面向分布式机器学习I/O的洞察力预取
特定工作负载(GNN、DLRM)
- [VLDB'25] 通过两级特征压缩消除大规模图上GNN训练中的数据处理瓶颈
- [ISCA'24] PreSto:用于训练推荐模型的存储内数据预处理系统
- [arxiv'23] 迈向以数据为中心的图机器学习:综述与展望
- [arxiv'23] FlexShard:面向工业规模序列推荐模型的灵活分片
- [MLSys'23] RecD:用于端到端深度学习推荐模型训练基础设施的去重
- [ASPLOS'22] RecShard:基于统计特征的内存优化,用于工业规模的神经推荐
- [RecSys'23] InTune:基于强化学习的深度推荐模型数据流水线优化
- [arxiv'23] MTrainS:利用异构内存提高DLRM训练效率
- [SOSP'23] Bagpipe:加速深度推荐模型训练
- [SOSP'23] gSampler:面向图学习的通用且高效的基于GPU的图采样
- [NSDI'23] BGL:通过优化图数据I/O和预处理实现GPU高效的GNN训练
- [DAC'22] 一种联合管理中间件,用于提升使用SSD的深度推荐系统的训练性能
- [VLDB'22] 利用流行选择加速推荐系统训练
机器学习训练中的缓存与分布式存储
- [ATC'25] HyCache:用于加速 DNN 输入预处理流水线的混合缓存
- [ICDE'25] MLKV:基于磁盘的键值存储,高效扩展大规模嵌入模型训练
- [TPDS'23] 面向云原生平台数据密集型 AI 应用的高级数据抽象与弹性数据缓存
- [SOSP'23] UGACHE:面向基于嵌入的深度学习的统一 GPU 缓存
- [ATC'23] Tectonic-Shift:用于大规模 ML 训练的复合存储架构
- [EuroSys'23] SiloD:面向深度学习集群的缓存与调度协同设计 [也见于 2.1]
- [FAST'23] SHADE:为分布式深度学习训练实现基础性可缓存性
- [HPCA'23] iCACHE:一种基于重要性采样的缓存,用于加速 I/O 瓶颈型 DNN 模型训练
- [NeurIPS'22] 具有共享数据准备功能的深度学习数据加载器
- [CLUSTER'22] Hvac:消除大规模深度学习应用的 I/O 瓶颈
- [ICDE'22] Fluid:面向云原生深度学习训练作业的数据集抽象与弹性加速
- [ATC'21] 焕新您的训练数据:复用部分增强样本以加快深度神经网络训练
- [FAST'20] Quiver:面向深度学习的智能存储缓存
- [ICPP'20] DIESEL:用于大规模深度学习训练的数据集驱动分布式存储与缓存系统
- [arXiv'19] 通过数据回声加速神经网络训练
- [HotCloud'19] 在机器学习集群中统一数据加载的理由
LLM 数据平面
- [SIGMOD'26] Hydraulis:通过并行策略与数据分配的协同设计来平衡大型 Transformer 模型训练
- [arxiv'25] DataFlow:数据驱动型 AI 时代下用于统一数据准备与工作流自动化的框架
- [EMNLP'25] 揭秘 LLM 预训练中的合成数据:规模法则、优势与陷阱的系统性研究
- [ICDE'25] 优化预训练数据管理的训练数据分布估计
- [arxiv'25] Mixtera:用于基础模型训练的数据平面
其他
数据格式
- [ECCV'22] L3:面向高分辨率、高吞吐量 DNN 训练的加速器友好型无损图像格式
- [VLDB'21] 渐进式压缩记录:从深度学习数据中节省一个字节
数据管道的公平性与正确性
- [CIDR'21] 原生机器学习管道中数据预处理的轻量级检查
数据标注自动化
- [VLDB'18] Snorkel:利用弱监督快速生成训练数据
训练系统
GPU 集群上的 ML 作业分析
- [ICSE'24] 关于深度学习作业低 GPU 利用率的实证研究
- [NSDI'24] 数据中心内大型语言模型开发的特征分析
- [NSDI'22] 实际环境中的 MLaaS:大规模异构 GPU 集群中的工作负载分析与调度 (
PAI) - [ATC'19] 大规模多租户 GPU 集群中 DNN 训练工作负载的分析 (
Philly)
资源调度
[arxiv'26] SkyNomad:利用多区域竞价实例最小化 AI 批处理作业成本
[OSDI'25] 解耦与分解:基于 DeDe 的资源分配扩展
[SoCC'25] Cuckoo:面向异构 GPU 的截止时间感知作业打包,用于深度学习模型训练
[arxiv'25] 面向大型语言模型的语义感知 GPU 集群调度
[arxiv'25] 基于细粒度多 XPU 抽象的自动驾驶应用整体异构调度
[arxiv'25] Tesserae:适用于深度学习工作负载的可扩展放置策略
[arxiv'25] LeMix:面向多 GPU 系统的 LLM 训练与推理统一调度
[EuroSys'25] Eva:基于云的成本高效集群调度
[arxiv'25] TAPAS:面向云平台中 LLM 推理的热管理和功耗感知调度
[arxiv'24] Zeal:以“解耦与分解”重新思考大规模资源分配
[TACO'24] 驯服深度学习训练集群中的灵活作业打包
[SoCC'24] Kale:面向在线 DL 模型训练的弹性 GPU 调度
[arxiv'24] Rubick:利用作业可重构性进行深度学习集群调度
[SC'24] PAL:面向 GPU 集群中 ML 工作负载调度的变异性感知策略
[OSDI'24] MAST:超大规模下跨地理分布数据中心的全局 ML 训练调度
[ASPLOS'24] Heet:加速异构深度学习集群中的弹性训练
[Middleware'24] 异构 GPU 集群中的公平性与最优资源效率
[IPDPS'24] Hadar:面向深度学习集群的异构感知优化型在线调度
[EuroSys'24] Blox:深度学习调度器的模块化工具包
[NSDI'24] Swing:通过捷径环路实现更高带宽的 Allreduce
[NSDI'24] 面向分布式 DNN 训练的领域特定网络传输
[NSDI'24] Vulcan:面向实时 ML 分析的自动查询计划
[NSDI'24] CASSINI:机器学习集群中的网络感知作业调度
[综述 :mag:] [ACM CSUR'23] GPU 数据中心中的深度学习工作负载调度:综述
[arxiv'23] 面向深度学习的节能型 GPU 集群调度
[SC'23] EasyScale:深度学习的精度一致弹性训练
[ICPP'23] CoTrain:在 GPU 和 CPU 上并行进行大模型训练的高效调度
[ICPP'23] 在 ML 训练中拥抱不确定性以实现资源分配的公平性
[SOSP'23] Sia:面向异构环境、优化吞吐量的 ML 集群调度
[NSDI'23] Shockwave:主动、公平且高效的集群调度,用于机器学习的动态适应
[EuroSys'23] SiloD:深度学习集群中缓存与调度的协同设计 [也见于 1.2]
[EuroSys'23] Lyra:深度学习集群的弹性调度
[EuroSys'23] ElasticFlow:面向分布式深度学习的弹性无服务器训练平台
[ASPLOS'23] Lucid:一款非侵入式、可扩展且可解释的深度学习训练作业调度器
[arxiv'22] Singularity:AI 工作负载的行星尺度抢占式弹性调度
[综述 :mag:] [arxiv, 2022] GPU 数据中心中的深度学习工作负载调度:分类、挑战与展望
[SoCC'22] ESCHER:使用临时资源的表达式调度
[NSDI'22] MLaaS 在实际场景中:大规模异构 GPU 集群中的工作负载分析与调度 (
PAI)[OSDI'22] 超越 GPU:面向多租户集群的 DNN 调度 (
Synergy)[SIGCOMM'22] 面向深度学习训练的多资源交错调度 (
Muri)[MLSys'21] Wavelet:采用 Tick-Tock 调度实现高效的 DNN 训练
[SoCC'21] Chronus:一种新颖的截止时间感知深度学习训练作业调度器
[SC'21] 大规模 GPU 数据中心中深度学习工作负载的特征描述与预测 (
Helios)[OSDI'21] 隐私预算调度 (
DPF)[NSDI'21] 分布式深度学习的弹性资源共享 (
AFS)[OSDI'21] Pollux:为优化吞吐量而协同适应的集群调度
[EuroSys'20] 在异构 GPU 集群中平衡效率与公平性,用于深度学习 (
GandivaFair)[NSDI'20] Themis:公平且高效的 GPU 集群调度
[OSDI'20] HiveD:在保证权益的前提下共享 GPU 集群进行深度学习
[OSDI'20] 面向深度学习工作负载的异构感知集群调度策略 (
Gavel)[EuroSys'20] AlloX:混合集群中的计算资源分配
[MLSys'20] 分布式深度学习中的资源弹性
[NSDI'19] Tiresias:面向分布式深度学习的 GPU 集群管理器
[ATC'19] 大规模多租户 GPU 集群中 DNN 训练工作负载的分析 (
Philly)[EuroSys'18] Optimus:高效的动态资源调度器,专用于深度学习集群
[OSDI'18] Gandiva:面向深度学习的内省式集群调度
分布式训练
[HPCA'26] WATOS:晶圆级芯片上高效的 LLM 训练策略与架构协同探索
[ASPLOS'26] SuperOffload:释放超级芯片上大规模 LLM 训练的强大能力
[arxiv'25] 深入探索异构抢占式GPU上的3D并行:设计与启示
[arxiv'25] SIGMA:基于早期硬件的AI赋能训练栈
[arxiv'25] BOOST:面向低秩大语言模型的瓶颈优化可扩展训练框架
[NeurIPS'25] 协同张量并行与流水线并行
[arxiv'25] AsyncHZP:用于可扩展LLM训练的异步调度分层ZeRO并行
[arxiv'25] PRISM:大规模分布式训练的概率化运行时洞察与可扩展性能建模
[NeurIPS'25] 先注意力后处理:更高效地利用先注意力以提升Transformer训练效率
[arxiv'25] 一种灵活的可编程流水线并行框架,用于高效DNN训练
[arxiv'25] SlimPack:细粒度非对称打包技术,实现均衡高效的变长LLM训练
[arxiv'25] AdaPtis:通过自适应流水线并行减少异构模型中的流水线空泡
[arxiv'25] HAPT:面向异构集群的异质性感知自动化并行训练
[arxiv'25] 去中心化深度学习中数据并行性的规模化扩展
[arxiv'25] Zorse:优化异构GPU集群上的LLM训练效率
[arxiv'25] TrainVerify:基于等价性的分布式LLM训练验证
[arxiv'25] 通过GPUDirect Storage实现生命周期感知的张量卸载,以低成本高效训练LLM
[arxiv'25] ZenFlow:通过异步更新实现无阻塞卸载训练
[arxiv'25] 重新思考动态网络与异构计算:自动并行化方法
[arxiv'25] H2:迈向在超异构集群上高效进行大规模LLM训练,集群规模超过1000个芯片
[arxiv'25] 动态LLM的均衡且弹性的端到端训练
[arxiv'25] ZenFlow:通过异步更新实现无阻塞卸载训练
[arxiv'25] SpanTrain:在CEE环境中,基于异构GPU和网络的跨领域模型分布式高效训练系统
[arxiv'25] 语言模型的并行缩放定律
[arxiv'25] Hetu v2:一种通用且可扩展的深度学习系统,支持分层及异构的单程序多数据标注
[arxiv'25] Sailor:自动化跨动态、异构及地理分布的集群进行分布式训练
[arxiv'25] PipeWeaver:通过动态交错流水线应对大型多模态模型训练中的数据动态性
[arxiv'25] 并非所有注意力都必要:基础模型的分布式动态微调
[arxiv'25] WLB-LLM:面向大型语言模型训练的工作负载均衡4D并行
[arxiv'25] 非均匀张量并行:缓解GPU故障对规模化LLM训练的影响
[arxiv'25] CFP:基于低开销性能分析,在保留无通信结构的前提下生成算子内并行
[arxiv'25] OrchMLLM:通过批次后平衡编排多模态数据,加速多模态大型语言模型训练
[arxiv'25] Cornstarch:分布式多模态训练必须具备多模态意识
[arxiv'25] PipeOffload:通过内存优化提升流水线并行的可扩展性
[arxiv'25] AutoHete:面向LLM的自动高效异构训练系统
[arxiv'25] Astra:在异构GPU上高效且经济地自动搜索并行策略
[arxiv'25] 推理效率型语言模型的规模化扩展
[arxiv'25] MiniMax-01:借助闪电注意力扩展基础模型
[SC'25] Hypertron:通过探索高维并行化空间实现大模型的高效扩展
[CLUSTER'25] BMPipe:面向超大规模深度神经网络训练的气泡内存协同优化策略规划器
[OSDI'25] WLB-LLM:用于大型语言模型训练的工作负载均衡四维并行机制
[ISCA'25] FRED:用于三维并行深度神经网络训练的晶圆级互连结构
[ISCA'25] MeshSlice:面向分布式深度神经网络训练的高效二维张量并行技术
[ISCA'25] 利用高效并行策略扩展Llama 3训练规模
[ICML'25] HALoS:面向地理分布式大型语言模型训练的慢速网络下分层异步局部SGD算法
[MLSys'25] Radius:基于范围的梯度稀疏性技术,用于大型基础模型预训练
[INFOCOM'25] Espresso:利用云端GPU异构性实现低成本的大模型训练
[TPDS'25] HpT:在异构众核架构上对时空注意力模型训练进行混合加速
[ASPLOS'25] GraphPipe:通过图流水线并行提升深度神经网络训练的性能与可扩展性
[ASPLOS'25] FlexSP:通过灵活的序列并行技术加速大型语言模型训练
[ASPLOS'25] Spindle:利用波前调度实现多任务大型模型的高效分布式训练
[EuroSys'25] JABAS:面向异构GPU上深度神经网络训练的联合自适应批处理与自动伸缩技术
[arxiv'24] 为大型语言模型自动规划最优并行策略
[arxiv'24] 面向数据并行与模型并行的分布式语言模型训练自适应批量大小调度
[arxiv'24] Frenzy:一种针对异构GPU集群的内存感知无服务器LLM训练系统
[arxiv'24] Echo:大规模分布式训练仿真
[arxiv'24] 利用MPMD流水线并行扩展深度学习训练
[arxiv'24] 揭秘变长序列下大型Transformer模型训练中的负载不均衡问题
[arxiv'24] HETHUB:面向大规模模型的异构集群分布式训练系统
[arxiv'24] 以数据为中心且适应异构性的序列并行:高效LLM训练方法
[arxiv'24] 借助4D并行与内存消耗估算器加速大型语言模型训练
[arxiv'24] BitPipe:双向交错流水线并行加速大模型训练
[arxiv'24] Cephalo:利用异构GPU集群训练Transformer模型
[arxiv'24] SimpleFSDP:结合torch.compile的更简单全分片数据并行
[arxiv'24] FusionLLM:基于地理分布GPU的去中心化LLM训练系统,支持自适应压缩
[arxiv'24] PipeFill:在流水线并行LLM训练的空闲期利用GPU
[arxiv'24] Poplar:在异构GPU集群上高效扩展分布式DNN训练
[arxiv'24] DistTrain:通过解耦式训练应对多模态大型语言模型中的模型与数据异构性
[arxiv'24] 基于数据异构性感知的模型管理实现高效多任务大型模型训练
[arxiv'24] FlashFlex:适应异构环境的大型语言模型训练方案
[arxiv'24] PARALLELGPUOS:基于验证推测的并发OS级GPU检查点与恢复系统
[arxiv'24] Unicron:规模化自愈型LLM训练的经济性优化
[arxiv'24] TBA:利用基于SSD的激活卸载加速大型语言模型训练
[arxiv'24] Optimus:通过挖掘空隙加速大规模多模态LLM训练
[综述 :mag:] [arxiv'24] 分布式基础设施上大型语言模型的高效训练:综述
[arxiv'24] LoongTrain:采用头部上下文并行高效训练长序列LLM
[arxiv'24] PAFT:用于高效LLM微调的并行训练范式
[arxiv'24] BurstAttention:面向超长序列的高效分布式注意力框架
[arxiv'24] Branch-Train-MiX:将专家LLM混合进混合专家LLM中
[arxiv'24] 通过灵活的工作负载控制加速异构张量并行
[arxiv'24] GRAWA:基于梯度的加权平均法用于深度学习模型的分布式训练
[arxiv'24] BitDelta:你的微调可能只值一个比特
[arxiv'24] NutePrune:为大型语言模型提供高效渐进式剪枝,配备多位教师
[arxiv'24] 加速扩散模型的并行采样
[arxiv'24] 在异构集群上以最佳性能训练DNN模型
[arxiv'24] 打破MLPerf训练纪录:以BERT优化为例
[arxiv'24] LocMoE:用于大型语言模型训练的低开销MoE
[arxiv'24] 重新评估内存平衡流水线并行:BPipe
[arxiv'24] InternEvo:通过混合并行与冗余分片实现高效长序列大型语言模型训练
[TPDS'24] [UMPIPE:基于不等微批次的深度神经网络训练流水线并行](https://www.computer.org/csdl/journal/td/5555/01/10792656/22AQNnaMR6U)
[综述 :mag:] [ACM CSUR'24] [基础模型的资源高效算法与系统:综述](https://dl.acm.org/doi/10.1145/3706418)
[SOSP'24] [利用FractalTensor揭示DNN计算中的嵌套数据并行与数据重用](https://dl.acm.org/doi/abs/10.1145/3694715.3695961)
[SOSP'24] [实现大规模语言模型高效训练的并行性热切换](https://dl.acm.org/doi/10.1145/3694715.3695969)
[TACO'24] [ATP:通过智能GPU内存管理实现DNN训练的吞吐量峰值](https://dl.acm.org/doi/abs/10.1145/3701996)
[NeurIPS'24] [重新思考内存与通信开销,以实现大规模语言模型的数据并行训练效率提升](https://openreview.net/forum?id=4Un2TD9bNe)
[NeurIPS'24] [SpeedLoader:一种面向异构分布式LLM运行的高效I/O方案](https://openreview.net/forum?id=Y2I0Fy4sm7)
[SC'24] [通过优化TT分解与微批次加速分布式DLRM训练](https://www.computer.org/csdl/proceedings-article/sc/2024/529100a776/21HUVYHhG1O)
[SC'24] [ democratizing AI:基于GPU的超级计算机上开源可扩展的LLM训练](https://www.computer.org/csdl/proceedings-article/sc/2024/529100a036/21HUV5yQsyQ)
[SoCC'24] [在AWS Trainium上进行大规模语言模型的分布式训练](https://www.amazon.science/publications/distributed-training-of-large-language-models-on-aws-trainium)
[TPDS'24] [AutoDDL:近似最优带宽代价的自动分布式深度学习](https://arxiv.org/abs/2301.06813)
[SOSP'24] 实现大规模语言模型高效训练的并行性热切换
[SOSP'24] [TENPLEX:使用可并行张量集合动态调整深度学习作业资源](https://arxiv.org/abs/2312.05181)
[ICPP'24] [AutoPipe:共享GPU集群中流水线并行性的自动配置](https://dl.acm.org/doi/abs/10.1145/3673038.3673047)
[COLM'24] [LightSeq:面向长上下文Transformer分布式训练的序列级并行](https://arxiv.org/abs/2310.03294)
[OSDI'24] [nnScaler:面向深度学习训练的约束引导并行化计划生成](https://www.usenix.org/conference/osdi24/presentation/lin-zhiqi)
- [arxiv'23] [SuperScaler:通过统一抽象支持灵活的DNN并行化](https://arxiv.org/abs/2301.08984)
[ATC'24] [利用高效的激活重计算与最优混合并行化加速大规模语言模型训练](https://www.usenix.org/conference/atc24/presentation/yuan)
[ATC'24] [Metis:在异构GPU上实现快速自动分布式训练](https://www.usenix.org/conference/atc24/presentation/um)
[ATC'24] [FwdLLM:通过扰动推理实现大规模语言模型的高效联邦微调](https://www.usenix.org/conference/atc24/presentation/xu-mengwei)
[ATC'24] [OPER:面向大规模推荐模型的最优性指导嵌入表并行化](https://www.usenix.org/conference/atc24/presentation/wang)
[HPDC'24] [DataStates-LLM:面向大规模语言模型的惰性异步检查点](https://arxiv.org/abs/2406.10707v1)
[ICML'24] [突破GPU显存限制,实现大型专家混合模型训练](https://openreview.net/forum?id=uLpyWQPyF9)
[ICML'24] [集成硬件架构与设备放置搜索](https://openreview.net/pdf?id=ucl3B05EsX)
[MLSys'24] [DiffusionPipe:利用高效流水线训练大型扩散模型](https://proceedings.mlsys.org/paper_files/paper/2024/file/45c1f6a8cbf2da59ebf2c802b4f742cd-Paper-Conference.pdf)
[MLSys'24] [Lancet:通过全图计算-通信重叠加速专家混合模型训练](https://proceedings.mlsys.org/paper_files/paper/2024/file/339caf45a6fa281cae8adc6465343464-Paper-Conference.pdf)
[MobiCom'24] [Asteroid:面向异构边缘设备协作DNN训练的资源高效混合流水线并行](https://dl.acm.org/doi/abs/10.1145/3636534.3649363)
[EuroSys'24] [DynaPipe:通过动态流水线优化多任务训练](https://dl.acm.org/doi/10.1145/3627703.3629585)
[EuroSys'24] [ScheMoE:具有任务调度功能的可扩展专家混合分布式训练系统](https://dl.acm.org/doi/abs/10.1145/3627703.3650083)
[EuroMLSys@EuroSys'24] [云GPU短缺下的ML训练:跨区域是解决方案吗?](https://dl.acm.org/doi/pdf/10.1145/3642970.3655843)
[ASPLOS'24] [AdaPipe:通过自适应重计算与划分优化流水线并行](https://dl.acm.org/doi/abs/10.1145/3620666.3651359)
[ASPLOS'24] [PrimePar:面向大型Transformer模型训练的高效时空张量划分](https://dl.acm.org/doi/abs/10.1145/3620666.3651357)
[EuroSys'24] [Aceso:通过迭代缓解瓶颈实现高效并行DNN训练](https://dl.acm.org/doi/abs/10.1145/3627703.3629554)
[NSDI'24] [MegaScale:将大规模语言模型训练扩展至超过1万台GPU](https://www.usenix.org/conference/nsdi24/presentation/jiang-ziheng)
[NSDI'24] [DISTMM:加速多模态模型的分布式训练](https://www.usenix.org/conference/nsdi24/presentation/huang)
[NSDI'24] 利用嵌入调度加速神经推荐训练
[NSDI'24] 大规模弹性:管理Google的TPUv4机器学习超级计算机
[NSDI'24] QuickUpdate:面向大规模推荐模型的实时个性化系统
[NSDI'24] [将大规模语言模型训练扩展至超过1万台GPU](https://arxiv.org/abs/2402.15627)
[TKDE'24] [通过平衡内存负载优化提升自动并行训练效果](https://ieeexplore.ieee.org/abstract/document/10449463)
- Galvatron(VLDB'23)的扩展版本
- arxiv版本(2023年):链接
[ICLR'24] [零气泡(几乎)流水线并行](https://openreview.net/forum?id=tuzTN0eIO5)
[ICLR'24] [CO2:实现完全通信-计算重叠的高效分布式训练](https://openreview.net/forum?id=ZO5cn4IfaN)
[AAMAS'24] [Holonic Learning:一种灵活的基于代理的分布式机器学习框架](https://arxiv.org/abs/2401.10839)
[VLDB'24] [Saturn:面向多大型模型深度学习工作负载的优化数据系统](https://arxiv.org/abs/2309.01226)
[HPCA'24] [Tessel:通过灵活的调度搜索提升大型DNN模型的分布式执行效率](https://arxiv.org/abs/2311.15269)
[NSDI'24] Parcae:在抢占式实例上进行主动、面向吞吐量优化的DNN训练
[EuroSys'24] [HAP:在异构GPU集群上进行SPMD DNN训练,并采用自动化程序合成](https://i.cs.hku.hk/~cwu/papers/swzhang-eurosys24.pdf)
[arxiv'23] vTrain:用于评估经济高效且计算最优的大规模语言模型训练的仿真框架
[arxiv'23] ASPEN:使用单个GPU进行大规模语言模型的高吞吐量LoRA微调
[arxiv'23] FlexModel:面向分布式大语言模型可解释性的框架
[arxiv'23] Holmes:面向异构网卡环境下的跨集群分布式训练
[arxiv'23] RTP:通过内存去重重新思考张量并行
[arxiv'23] FP8-LM:FP8大语言模型的训练
[arxiv'23] Redco:一种轻量级工具,可在任何GPU/TPU上自动化LLM的分布式训练
[arxiv'23] 分布式数据并行PyTorch实现的分布式Shampoo优化器,用于大规模神经网络训练
[arxiv'23] FLM-101B:一个开源LLM及其如何以10万美元预算进行训练
[arxiv'23] UniAP:通过混合整数二次规划统一层间与层内自动并行化
[arxiv'23] 使用大型语言模型对并行程序建模
[arxiv'23] Proteus:模拟分布式DNN训练的性能
[arxiv'23] 用于高效基础模型训练的带重叠通信的自动张量模型并行
[arxiv'23] 用于深度学习训练的解耦模型调度
[arxiv'23] RAF:面向深度学习模型训练的整体编译
[arxiv'23] Ada-Grouper:通过针对微批次的适应性分组调度加速抢占式网络中的流水线并行
[arxiv'23] 压缩激活值是否有助于模型并行训练?
[arxiv'23] Colossal-Auto:面向大规模模型的并行化与激活检查点的统一自动化
[arxiv'23] 将视觉Transformer扩展至220亿参数
[arxiv'23] 使用Rhino自动并行化大型模型:生产级AI平台上的系统化方法
[arxiv'23] TAP:通过张量自动并行化加速大规模DNN训练
[arxiv'23] SuperScaler:通过统一抽象支持灵活的DNN并行化
[arxiv'23] ATP:面向基础模型的适应性张量并行
[ICPP'23] Mercury:面向大型深度学习模型的快速且最优的设备放置
[IPDPS'23] MPipeMoE:具有适应性流水线并行的预训练模型内存高效MoE
[CLUSTER'23] Prophet:面向大规模MoE模型并行训练的细粒度负载均衡
[NeurIPS'23] ASPEN:打破算子障碍,实现深度神经网络的高效并行化
[NeurIPS'23] DeepPCR:神经网络中顺序操作的并行化
[DAC'23] MixPipe:用于训练大规模模型的高效双向流水线并行
[SC'23] Hanayo:利用波浪式流水线并行提升大型模型训练效率
[SOSP'23] PIT:通过置换不变变换优化动态稀疏深度学习模型
[SOSP'23] Oobleck:使用流水线模板实现大型模型的弹性分布式训练
[TPDS'23] Fold3D:重新思考并并行化大型DNN模型训练中的计算与通信任务
[MICRO'23] Grape:面向GPU上的动态深度神经网络的实用高效图执行
[HPCA'23] Phloem:通过细粒度流水线并行自动加速不规则应用
[ACL'23] 序列并行:从系统视角看长序列训练
[CCGrid'23] 一种深度学习流水线并行优化方法
[OSDI'23] MGG:在多GPU平台上通过细粒度的核内通信-计算流水线加速图神经网络
[ATC'23] Lina:加速分布式MoE训练与推理
[ATC'23] SmartMoE:通过结合离线与在线并行化高效训练稀疏激活模型
[ATC'23] MSRL:基于数据流片段的分布式强化学习
[综述:mag:] [TPDS'23] 大规模深度学习训练的自动并行化综述
[ICML'23] SWARM并行:大型模型的训练竟可如此高效地减少通信量
[ICML'23] BPipe:用于训练大型语言模型的内存平衡型流水线并行
[ICS'23] 一种混合张量-专家-数据并行方法,用于优化混合专家训练
[NSDI'23] TopoOpt:为分布式训练作业协同优化网络拓扑与并行化策略
[NSDI'23] Bamboo:使抢占式实例更具弹性,从而以低成本训练大型DNN
[NSDI'23] ARK:面向分布式深度学习的GPU驱动代码执行
[SIGMOD'23] FlexMoE:通过动态设备放置扩展大规模稀疏预训练模型的训练规模
[MLSys'23] 关于优化模型并行通信的讨论
[MLSys'23] MegaBlocks:利用混合专家实现高效的稀疏训练
[MLSys'23] Tutel:规模化下的自适应混合专家
[TPDS'23] Merak:一个高效的分布式DNN训练框架,为巨型基础模型提供自动3D并行
[PPoPP'23] 弹性平均用于高效的流水线DNN训练
[PPoPP'23] 在光互连系统中为分布式DNN训练实现高效的All-Reduce
[VLDB'23] MiCS:在公有云上以近线性速度扩展巨型模型的训练规模
[VLDB'23] Galvatron:利用自动并行化在多GPU上高效训练Transformer
[ASPLOS'23] Mobius:在通用GPU服务器上微调大规模模型
[ASPLOS'23] Optimus-CC:通过3D并行感知通信压缩实现高效的大型NLP模型训练
[arxiv'22] Colossal-AI:面向大规模并行训练的统一深度学习系统
[arxiv'22] 使用DeepSpeed和Megatron训练Megatron-Turing NLG 530B,一个大规模生成式语言模型
[ICPP'22] Tesseract:高效并行化张量并行
[MLSys'22] 在分层系统上为深度学习合成最优并行化布局与规约策略
[NeurIPS'22] 利用有保证的激活量化在低速网络上微调语言模型
[SoCC'22] 使用SPMD并行化加速大规模分布式神经网络训练
[MLSys'22] Pathways:面向ML的异步分布式数据流
[MLSys'22] SRIFTY:云端快速且经济高效的分布式神经网络训练
[MLSys'22] 通过突发并行训练实现高效的强缩放
[EuroSys'22] Varuna:可扩展、低成本的大规模深度学习模型训练
[ATC'22] Whale:在异构GPU上高效训练巨型模型
[NeurIPS'22] AMP:自动发现考虑异构性的模型并行策略
[PPoPP'22] FasterMoE:建模与优化大规模动态预训练模型的训练
[ICML'22] DeepSpeed-MoE:推进专家混合模型的推理与训练,以支持下一代AI规模
[ICML'22] GLaM:利用专家混合模型高效扩展语言模型
[HPDC'22] Hare:在异构GPU上挖掘分布式机器学习的任务间与任务内并行性
[OSDI'22] Alpa:自动化分布式深度学习中的算子间与算子内并行
[NSDI'22] 加速跨深度学习框架的数据并行训练中的集体通信
[arxiv'21] Amazon SageMaker模型并行:一种通用且灵活的大模型训练框架
[arxiv'21] GSPMD:面向ML计算图的通用且可扩展并行化方法
[JMLR'21] Switch Transformers:通过简单高效的稀疏性扩展至万亿参数模型
[TPDS'21] TensorOpt:探索自动并行化在分布式DNN训练中的权衡
[ATC'21] 在通用硬件上使用自动流水线模型并行微调巨型神经网络
[SIGMOD'21] 基于部分规约的异构感知分布式机器学习训练 [也见2.10]
[MLSys'21] PipeMare:异步流水线并行DNN训练
[ICLR'21] GShard:利用条件计算与自动分片扩展巨型模型
[NeurIPS'21] Piper:用于DNN并行化的多维规划器
[ICML'21] 内存高效的流水线并行DNN训练
[ICML'21] TeraPipe:用于训练大规模语言模型的令牌级流水线并行
[ICML'21] PipeTransformer:用于大规模模型分布式训练的自动化弹性流水线
[SC'21] Chimera:利用双向流水线高效训练大规模神经网络
[SC'21] 使用Megatron-LM(
PTD-P或Megatron-LM v2)在GPU集群上高效训练大规模语言模型[FAST'21] Behemoth:面向超大规模DNN的闪存中心型训练加速器
[PPoPP'21] DAPPLE:一种用于训练大型模型的流水线式数据并行方法
[VLDB'21] 数据系统上的分布式深度学习:方法比较分析
[HPCA'20] AccPar:面向异构深度学习加速器的张量划分
[NeurIPS'20] DNN图中算子设备放置的有效算法
[arxiv'20] Megatron-LM:利用模型并行训练数十亿参数的语言模型
[KDD'20教程] DeepSpeed:系统优化使超过1000亿参数的深度学习模型得以训练
[VLDB'20] PyTorch Distributed:加速数据并行训练的经验
[OSDI'20] 一种用于加速异构GPU/CPU集群中分布式DNN训练的统一架构(
BytePS)[SOSP'19] PipeDream:DNN训练的广义流水线并行
[NeurIPS'20] 语言模型是少样本学习者 [来自OpenAI]
[arxiv'20] 神经语言模型的扩展规律 [来自OpenAI]
[HPCA'19] HyPar:迈向深度学习加速器阵列的混合并行化
[IEEE MICRO'19] 优化深度学习训练中的多GPU并行化策略
[MLSys'19] 超越数据与模型并行化的深度神经网络(
FlexFlow)[MLSys'19] TicTac:通过通信调度加速分布式深度学习
[EuroSys'19] Parallax:面向稀疏性的深度神经网络数据并行训练
[EuroSys'19] 利用自动数据流图分区支持超大规模模型(
Tofu)[SOSP'19] 一种用于加速分布式DNN训练的通用通信调度器
[NeurIPS'19] Mesh-TensorFlow:面向超级计算机的深度学习
[NeurIPS'19] GPipe:利用流水线并行高效训练巨型神经网络
[ICML'18] 探索卷积神经网络并行化的隐藏维度
[综述 :mag:] [IJCAI'22] 大型神经网络高效训练综述
[综述 :mag:] [ACM CSUR'19] 解密并行与分布式深度学习
[综述 :mag:] [ACM CSUR'19] 分布式基础设施上的可扩展深度学习:挑战、技术和工具
自动机器学习
- [OSDI'23] Hydro:数据中心中的基于代理的超参数调优服务
- [NSDI'23] ModelKeeper:通过自动化训练预热加速DNN训练
- [OSDI'20] Retiarii:一个深度学习探索性训练框架
GNN 训练系统
有关 GNN 系统论文的完整列表,请参阅 https://github.com/chwan1016/awesome-gnn-systems。
- [PPoPP'26] TAC:基于缓存的系统,用于加速多 GPU 平台上的百亿规模 GNN 训练
- [PPoPP'26] ElasGNN:面向分布式 GNN 训练的弹性训练框架
- [SC'25] Plexus:利用三维并行全图 GNN 训练驯服百亿边图
- [SIGMOD'25] NeutronHeter:针对异构集群优化分布式图神经网络训练
- [ICDE'25] CaliEX:一种基于磁盘的大规模 GNN 训练系统,融合了缓存与执行的设计
- [arxiv'25] Plexus:利用三维并行 GNN 训练驯服百亿边图
- [HPCA'25] Mithril:面向深度 GNN 训练的可扩展系统
- [arxiv'25] Armada:大规模图神经网络的内存高效分布式训练
- [VLDB'25] NeutronTP:具有张量并行性的负载均衡分布式全图 GNN 训练
- [arxiv'24] FastGL:一种 GPU 高效框架,用于加速大规模基于采样的 GNN 训练
- [ICPP'24] GNNDrive:降低基于磁盘的 GNN 训练中的内存竞争与 I/O 拥堵
- [VLDB'24] NeutronStream:面向图流的滑动窗口动态 GNN 训练框架
- [arxiv'23] ReFresh:通过利用稳定的历史嵌入来减少图神经网络训练中的内存访问
- [arxiv'23] Helios:在 TB 级图上实现内存内性能的高效外存 GNN 训练系统
- [arxiv'23] GNNPipe:利用流水线式模型并行加速分布式全图 GNN 训练
- [MLSys'23] 分布式全图 GNN 训练中的自适应消息量化与并行化
- [SIGMOD'23] DUCATI:一种双缓存训练系统,适用于使用 GPU 的巨型图上的图神经网络
- [OSDI'23] MGG:在多 GPU 平台上通过细粒度的核内通信—计算流水线加速图神经网络
- [EuroSys'23] MariusGNN:资源高效的图神经网络外存训练
- [KDD'22] 面向十亿规模异构图的图神经网络分布式混合 CPU 和 GPU 训练
- [VLDB'22] TGL:一个用于十亿规模图上时序 GNN 训练的通用框架
- [OSDI'21] P3:大规模分布式深度图学习
推理系统
[MLSys'26] 满足 SLO 要求,大幅缩短时间:使用 OptiKIT 自动优化企业级 LLM
[arxiv'26] Laser:解锁层级调度,实现高效的多 SLO LLM 服务
[arxiv'26] 推测解码:性能还是幻觉?
[arixv'26] 计划、验证与填充:扩散语言模型的结构化并行解码方法
[arxiv'26] PLA-Serve:一种预填充长度感知的 LLM 服务系统
[PPoPP'26] 加速 GPU 上的稀疏 Transformer 推理
[IEEE Computer'26] 大型语言模型推理硬件面临的挑战与研究方向
[arxiv'26] AIConfigurator:面向多框架 LLM 服务的闪电般快速配置优化工具
[arxiv'26] FlashInfer-Bench:构建 AI 驱动的 LLM 系统良性循环
[NSDI'26] FastServe:面向大型语言模型推理的迭代级抢占式调度
[NSDI'26] HydraServe:最大限度地减少公有云中无服务器 LLM 服务的冷启动延迟
[ASPLOS'26] XY-Serve:面向动态 LLM 工作负载的端到端多功能生产级服务
[AAAI'26] Lethe:面向推理密集型 LLM 服务的层和时间自适应 KV 缓存修剪
[EuroSys'26] FlexPipe:通过在碎片化的无服务器集群中进行飞行中的流水线重构,灵活调整动态 LLM 服务
[EuroSys'26] KunServe:以参数为中心的内存管理,用于高效处理 LLM 服务中的内存过载
[EuroSys'26] TokenFlow:通过抢占式调度,在请求突发情况下实现响应迅速的 LLM 文本流媒体服务
[SoCC'25] Multiplexed Heterogeneous LLM Serving via Stage-Aligned Parallelism
[arxiv'25] TraCT: Disaggregated LLM Serving with CXL Shared Memory KV Cache at Rack-Scale
[arxiv'25] L4: Low-Latency and Load-Balanced LLM Serving via Length-Aware Scheduling
[arxiv'25] Efficient Multi-Adapter LLM Serving via Cross-Model KV-Cache Reuse with Activated LoRA
[arxiv'25] EVICPRESS: Joint KV-Cache Compression and Eviction for Efficient LLM Serving
[arxiv'25] MultiPath Transfer Engine: Breaking GPU and Host-Memory Bandwidth Bottlenecks in LLM Services
[arxiv'25] PROSERVE: Unified Multi-Priority Request Scheduling for LLM Serving
[arxiv'25] xGR: Efficient Generative Recommendation Serving at Scale
[arxiv'25] ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding
[arxiv'25] TokenScale: Timely and Accurate Autoscaling for Disaggregated LLM Serving with Token Velocity
[arxiv'25] AugServe: Adaptive Request Scheduling for Augmented Large Language Model Inference Serving
[arxiv'25] Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding
[arxiv'25] OmniInfer: System-Wide Acceleration Techniques for Optimizing LLM Serving Throughput and Latency
[arxiv'25] OOCO: Latency-disaggregated Architecture for Online-Offline Co-locate LLM Serving
[arxiv'25] Serving Heterogeneous LoRA Adapters in Distributed LLM Inference Systems
[arxiv'25] CLO: Efficient LLM Inference System with CPU-Light KVCache Offloading via Algorithm-System Co-Design
[arxiv'25] FengHuang: Next-Generation Memory Orchestration for AI Inferencing
[arxiv'25] Synera: Synergistic LLM Serving across Device and Cloud at Scale
[arxiv'25] DuetServe: Harmonizing Prefill and Decode for LLM Serving via Adaptive GPU Multiplexing
[Middleware'25] Argus: Quality-Aware High-Throughput Text-to-Image Inference Serving System
[arxiv'25] From Models to Operators: Rethinking Autoscaling Granularity for Large Generative Models
[arxiv'25] TapOut: A Bandit-Based Approach to Dynamic Speculative Decoding
[NeurIPS'25] SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications
[arxiv'25] FREESH: Fair, Resource- and Energy-Efficient Scheduling for LLM Serving on Heterogeneous GPUs
[EMNLP'25] Distributed LLM Serving on Consumer-Grade GPUs by Reconciling Computation and Communication
[arxiv'25] Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
[MICRO'25] MX+: Pushing the Limits of Microscaling Formats for Efficient Large Language Model Serving
[MICRO'25] Kelle: Co-design KV Caching and eDRAM for Efficient LLM Serving in Edge Computing
[arxiv'25] SPAD: Specialized Prefill and Decode Hardware for Disaggregated LLM Inference
[arxiv'25] From Tokens to Layers: Redefining Stall-Free Scheduling for LLM Serving with Layered Prefill
[CLUSTER'25] Scalable and Fast Inference Serving via Hybrid Communication Scheduling on Heterogeneous Networks
[arxiv'25] TridentServe: A Stage-level Serving System for Diffusion Pipelines
[arxiv'25] MACE: A Hybrid LLM Serving System with Colocated SLO-aware Continuous Retraining Alignment
[Survey :mag:] [ACM CSUR'25] Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems
[SOSP'25] Aegaeon: Effective GPU Pooling for Concurrent LLM Serving on the Market
[SOSP'25] IC-Cache: Efficient Large Language Model Serving via In-context Caching
[SOSP'25] DiffKV: Differentiated Memory Management for Large Language Models with Parallel KV Compaction
[arxiv'25] TetriServe: Efficient DiT Serving for Heterogeneous Image Generation
[arxiv'25] Parallax: Efficient LLM Inference Service over Decentralized Environment
[arxiv'25] RServe: Overlapping Encoding and Prefill for Efficient LMM Inference
[arxiv'25] Cronus: Efficient LLM inference on Heterogeneous GPU Clusters via Partially Disaggregated Prefill
[arxiv'25] Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads
[COLM'25] OverFill: Two-Stage Models for Efficient Language Model Decoding
[ACM MM'25] TinyServe: Query-Aware Cache Selection for Efficient LLM Serving
[SC'25] Hetis: Serving LLMs in Heterogeneous GPU Clusters with Fine-grained and Dynamic Parallelism
[arxiv'25] FineServe: Precision-Aware KV Slab and Two-Level Scheduling for Heterogeneous Precision LLM Serving
[arxiv'25] AdaptCache: KV Cache Native Storage Hierarchy for Low-Delay and High-Quality Language Model Serving
[arxiv'25] Predictable LLM Serving on GPU Clusters
[SIGCOMM'25] SCX: Stateless KV-Cache Encoding for Cloud-Scale Confidential Transformer Serving
[arxiv'25] Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
[arxiv'25] Rethinking Caching for LLM Serving Systems: Beyond Traditional Heuristics
[OSDI'25] BlitzScale: Fast and Live Large Model Autoscaling with O(1) Host Caching
[OSDI'25] WaferLLM: Large Language Model Inference at Wafer Scale
[OSDI'25] NanoFlow: Towards Optimal Large Language Model Serving Throughput
[arxiv'25] HyperFlexis: Joint Design of Algorithms and Systems for Multi-SLO Serving and Fast Scaling
[arxiv'25] Equinox: Holistic Fair Scheduling in Serving Large Language Models
[arxiv'25] Efficient Mixed-Precision Large Language Model Inference with TurboMind
[ICML'25] Packrat: Automatic Reconfiguration for Latency Minimization in CPU-based DNN Serving
[arxiv'25] Kairos: Low-latency Multi-Agent Serving with Shared LLMs and Excessive Loads in the Public Cloud
[arxiv'25] Block: Balancing Load in LLM Serving with Context, Knowledge and Predictive Scheduling
[arxiv'25] Prefill-Decode Aggregation or Disaggregation? Unifying Both for Goodput-Optimized LLM Serving
[arxiv'25] Unlock the Potential of Fine-grained LLM Serving via Dynamic Module Scaling
[ACL'25] SPECTRA: Faster Large Language Model Inference with Optimized Internal and External Speculation
[arxiv'25] Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding
[arxiv'25] Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving
[arxiv'25] MIRAGE: KV Cache Optimization through Parameter Remapping for Multi-tenant LLM Serving
[CODEML @ ICML'25] TorchAO: PyTorch-Native Training-to-Serving Model Optimization
[arxiv'25] On Evaluating Performance of LLM Inference Serving Systems
[arxiv'25] PrefillOnly: An Inference Engine for Prefill-only Workloads in Large Language Model Applications
[ICML'25] EPIC: Efficient Position-Independent Caching for Serving Large Language Models
[arxiv'25] SiPipe: Bridging the CPU-GPU Utilization Gap for Efficient Pipeline-Parallel LLM Inference
[arxiv'25] Utility-Driven Speculative Decoding for Mixture-of-Experts
[ATC'25] DEEPSERVE: Serverless Large Language Model Serving at Scale
[ISCA'25] WindServe: Efficient Phase-Disaggregated LLM Serving with Stream-based Dynamic Scheduling
[ISCA'25] Hybe: GPU-NPU Hybrid System for Efficient LLM Inference with Million-Token Context Window
[ICLR'25] TidalDecode: Fast and Accurate LLM Decoding with Position Persistent Sparse Attention
[arxiv'25] Cascadia: A Cascade Serving System for Large Language Models
[arxiv'25] Efficient and Workload-Aware LLM Serving via Runtime Layer Swapping and KV Cache Resizing
[arxiv'25] SkyLB: A Locality-Aware Cross-Region Load Balancer for LLM Inference
[arxiv'25] EmbAdvisor: Adaptive Cache Management for Sustainable LLM Serving
[arxiv'25] SCORPIO: Serving the Right Requests at the Right Time for Heterogeneous SLOs in LLM Inference
[arxiv'25] HybridServe: Efficient Serving of Large AI Models with Confidence-Based Cascade Routing
[arxiv'25] ServerlessLoRA: Minimizing Latency and Cost in Serverless Inference for LoRA-Based LLMs
[arxiv'25] TokenWeave: Efficient Compute-Communication Overlap for Distributed LLM Inference
[arxiv'25] Tilus: A Virtual Machine for Arbitrary Low-Precision GPGPU Computation in LLM Serving
[OSDI'25] Clover: Exploiting Intra-device Parallelism for High Throughput Large Language Model Serving
[arxiv'25] ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production
[arxiv'25] ELIS: Efficient LLM Iterative Scheduling System with Response Length Predictor
[arxiv'25] Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving
[arxiv'25] Tempo: Application-aware LLM Serving with Mixed SLO Requirements
[arxiv'25] Ascendra: Dynamic Request Prioritization for Efficient LLM Serving
[arxiv'25] Streaming, Fast and Slow: Cognitive Load-Aware Streaming for Efficient LLM Serving
[arxiv'25] Bullet: Boosting GPU Utilization for LLM Serving via Dynamic Spatial-Temporal Orchestration
[Survey :mag:] [arxiv'25] Taming the Titans: A Survey of Efficient LLM Inference Serving
[MLSys'25] SOLA: Optimizing SLO Attainment for Large Language Model Serving with State-Aware Scheduling
[MLSys'25] Marconi: Prefix Caching for the Era of Hybrid LLMs
[arxiv'25] PARD: Accelerating LLM Inference with Low-Cost PARallel Draft Model Adaptation
[arxiv'25] Circinus: Efficient Query Planner for Compound ML Serving
[arxiv'25] HPU: High-Bandwidth Processing Unit for Scalable, Cost-effective LLM Inference via GPU Co-processing
[Mobicom'25] D2MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving
[arxiv'25] SeaLLM: Service-Aware and Latency-Optimized Resource Sharing for Large Language Model Inference
[arxiv'25] gLLM: Global Balanced Pipeline Parallelism System for Distributed LLM Serving with Token Throttling
[arxiv'25] Optimizing SLO-oriented LLM Serving with PD-Multiplexing
[arxiv'25] SLO-Aware Scheduling for Large Language Model Inferences
[arxiv'25] Cost-Efficient LLM Serving in the Cloud: VM Selection with KV Cache Offloading
[ISPASS'25] Characterizing and Optimizing LLM Inference Workloads on CPU-GPU Coupled Architectures
[arxiv'25] HELIOS: Adaptive Model And Early-Exit Selection for Efficient LLM Inference Serving
[arxiv'25] DynaServe: Unified and Elastic Tandem-Style Execution for Dynamic Disaggregated LLM Serving
[arxiv'25] Efficient LLM Serving on Hybrid Real-time and Best-effort Requests
[arxiv'25] Understanding and Optimizing Multi-Stage AI Inference Pipelines
[arxiv'24] Fast and Live Model Auto Scaling with O(1) Host Caching
[SIGMOD'25] Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving
[EuroMLSys'25] Performance Aware LLM Load Balancer for Mixed Workloads
[MLSys'25] Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving
[arxiv'25] WaferLLM: A Wafer-Scale LLM Inference System
[HPCA'25] PAISE: PIM-Accelerated Inference Scheduling Engine for Transformer-based LLM
[HPCA'25] throttLL'eM: Predictive GPU Throttling for Energy Efficient LLM Inference Serving
[arxiv'25] Niyama : Breaking the Silos of LLM Inference Serving
[ASPLOS'25] Aqua: Network-Accelerated Memory Offloading for LLMs in Scale-Up GPU Domains
[ASPLOS'25] Past-Future Scheduler for LLM Serving under SLA Guarantees
[ASPLOS'25] Accelerating LLM Serving for Multi-turn Dialogues with Efficient Resource Management
[EuroSys'25] SpInfer: Leveraging Low-Level Sparsity for Efficient Large Language Model Inference on GPUs
[EuroSys'25] Multiplexing Dynamic Deep Learning Workloads with SLO-awareness in GPU Clusters
[EuroSys'25] NeuStream: Bridging Deep Learning Serving and Stream Processing
[SoCC'25] ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving
[arxiv'25] PipeBoost: Resilient Pipelined Architecture for Fast Serverless LLM Scaling
[ISCA'25] Oaken: Fast and Efficient LLM Serving with Online-Offline Hybrid KV Cache Quantization
[arxiv'25] Jenga: Effective Memory Management for Serving LLM with Heterogeneity
[arxiv'25] Collaborative Speculative Inference for Efficient LLM Inference Serving
[NSDI'25] SuperServe: Fine-Grained Inference Serving for Unpredictable Workloads
[arxiv'25] Seesaw: High-throughput LLM Inference via Model Re-sharding
[arxiv'25] SpecServe: Efficient and SLO-Aware Large Language Model Serving with Adaptive Speculative Decoding
[arxiv'25] ADOR: A Design Exploration Framework for LLM Serving with Enhanced Latency and Throughput
[arxiv'25] Long-Context Inference with Retrieval-Augmented Speculative Decoding
[arxiv'25] Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM
[arxiv'25] KVLink: Accelerating Large Language Models via Efficient KV Cache Reuse
[arxiv'25] Serving Models, Fast and Slow:Optimizing Heterogeneous LLM Inferencing Workloads at Scale
[arxiv'25] LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention
[arxiv'25] HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading
[arxiv'25] Autellix: An Efficient Serving Engine for LLM Agents as General Programs
[MLSys'25] ThunderServe: High-performance and Cost-efficient LLM Serving in Cloud Environments
[ICLR'25] HexGen-2: Disaggregated Generative Inference of LLMs in Heterogeneous Environment
[arxiv'25] Memory Offloading for Large Language Model Inference with Latency SLO Guarantees
[EuroSys'25] SkyServe: Serving AI Models across Regions and Clouds with Spot Instances
[ASPLOS'25] Helix: Serving Large Language Models over Heterogeneous GPUs and Network via Max-Flow
[ASPLOS'25] Dilu: Enabling GPU Resourcing-on-Demand for Serverless DL Serving via Introspective Elasticity
[arxiv'25] MPIC: Position-Independent Multimodal Context Caching System for Efficient MLLM Serving
[arxiv'25] Demystifying Cost-Efficiency in LLM Serving over Heterogeneous GPUs
[arxiv'25] HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location
[arxiv'25] DeltaZip: Efficient Serving of Multiple Full-Model-Tuned LLMs
[arxiv'25] DeepFlow: Serverless Large Language Model Serving at Scale
[arxiv'25] AdaServe: SLO-Customized LLM Serving with Fine-Grained Speculative Decoding
[arxiv'25] EchoLM: Accelerating LLM Serving with Real-time Knowledge Distillation
[arxiv'25] OMEGA: A Low-Latency GNN Serving System for Large Graphs
[arxiv'25] PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving
[arxiv'25] Hierarchical Autoscaling for Large Language Model Serving with Chiron
[arxiv'25] Mell: Memory-Efficient Large Language Model Serving via Multi-GPU KV Cache Management
[arxiv'25] Accelerated Diffusion Models via Speculative Sampling
[MLSys'25] FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving
[EuroSys'25] A House United Within Itself: SLO-Awareness for On-Premises Containerized ML Inference Clusters via Faro
[arxiv'24] LLM Inference Unveiled: Survey and Roofline Model Insights
[arxiv'24] Efficiently Serving LLM Reasoning Programs with Certaindex
[arxiv'24] LoL-PIM: Long-Context LLM Decoding with Scalable DRAM-PIM System
[arxiv'24] TimelyLLM: Segmented LLM Serving System for Time-sensitive Robotic Applications
[arxiv'24] Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference
[arxiv'24] SYMPHONY: Improving Memory Management for LLM Inference Workloads
[arxiv'24] A System for Microserving of LLMs
[arxiv'24] HashAttention: Semantic Sparsity for Faster Inference
[arxiv'24] SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices
[arxiv'24] Unifying KV Cache Compression for Large Language Models with LeanKV
[arxiv'24] PREBA: A Hardware/Software Co-Design for Multi-Instance GPU based AI Inference Servers
[Survey :mag:] [ACM CSUR'24] Resource-efficient Algorithms and Systems of Foundation Models: A Survey
[ICML'25] SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization [Code]
[ICLR'25] SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [Code]
[ICML'25] SpargeAttention: Accurate and Training-free Sparse Attention Accelerating Any Model Inference [Code]
[arxiv'24] Optimizing Speculative Decoding for Serving Large Language Models Using Goodput
[ACL'24] LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding
[ACL'24] SwapMoE: Serving Off-the-shelf MoE-based Large Language Models with Tunable Memory Budget
[arxiv'24] EcoServe: Maximizing Multi-Resource Utilization with SLO Guarantees in LLM Serving
[IPDPS'24] Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference
[arxiv'24] EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference
[NeurIPS'24] Kangaroo: Lossless Self-Speculative Decoding for Accelerating LLMs via Double Early Exiting
[NeurIPS'24] Toward Efficient Inference for Mixture of Experts
[NeurIPS'24] Sequoia: Scalable and Robust Speculative Decoding
[arxiv'24] Lynx: Enabling Efficient MoE Inference through Dynamic Batch-Aware Expert Selection
[SC'24] PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation
[SC'24] SMIless: Serving DAG-based Inference with Dynamic Invocations under Serverless Computing
[arxiv'24] SuffixDecoding: A Model-Free Approach to Speeding Up Large Language Model Inference
[arxiv'24] V-LoRA: An Efficient and Flexible System Boosts Vision Applications with LoRA LMM
[SenSys'24] LiteMoE: Customizing On-device LLM Serving via Proxy Submodel Tuning
[arxiv'24] HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference
[arxiv'24] NEO: Saving GPU Memory Crisis with CPU Offloading for Online LLM Inference
[MICRO'24] Pushing the Performance Envelope of DNN-based Recommendation Systems Inference on GPUs
[arxiv'24] ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference
[arxiv'24] Is the GPU Half-Empty or Half-Full? Practical Scheduling Techniques for LLMs
[arxiv'24] POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference
[PML4LRS @ ICLR2024] Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models
[arxiv'24] MagicPIG: LSH Sampling for Efficient LLM Generation
[arxiv'24] Revisiting SLO and Goodput Metrics in LLM Serving
[arxiv'24] EPIC: Efficient Position-Independent Context Caching for Serving Large Language Models
[arxiv'24] ParallelSpec: Parallel Drafter for Efficient Speculative Decoding
[EuroSys'25] Fast State Restoration in LLM Serving with HCache
[arxiv'24] SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation
[arxiv'24] vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention
[arxiv'24] DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency
[HPCA'24] KRISP: Enabling Kernel-wise RIght-sizing for Spatial Partitioned GPU Inference Servers
[arxiv'24] Missile: Fine-Grained, Hardware-Level GPU Resource Isolation for Multi-Tenant DNN Inference
[NeurIPS'24] Efficient LLM Scheduling by Learning to Rank
[arxiv'24] P/D-Serve: Serving Disaggregated Large Language Model at Scale
[arxiv'24] MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models
[SOSP'24] PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU
[SOSP'24] LoongServe: Efficiently Serving Long-Context Large Language Models with Elastic Sequence Parallelism
[SOSP'24] Improving DNN Inference Throughput Using Practical, Per-Input Compute Adaptation
[SOSP'24] Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in ML Serving
[arxiv'24] LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale
[ICPP'24] GMM: An Efficient GPU Memory Management-based Model Serving System for Multiple DNN Inference Models
[SIGCOMM'24] CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving
[ES-FoMO @ ICML'24] CO2: Precise Attention Score Observation for improving KV Cache Replacement in Large Language Models
[OSDI'24] dLoRA: Dynamically Orchestrating Requests and Adapters for LoRA LLM Serving
[OSDI'24] Parrot: Efficient Serving of LLM-based Applications with Semantic Variable
[OSDI'24] USHER: Holistic Interference Avoidance for Resource Optimized ML Inference
[OSDI'24] Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve
[OSDI'24] ServerlessLLM: Low-Latency Serverless Inference for Large Language Models
[OSDI'24] InfiniGen: Efficient Generative Inference of Large Language Models with Dynamic KV Cache Management
[OSDI'24] Llumnix: Dynamic Scheduling for Large Language Model Serving
[OSDI'24] DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving
[ATC'24] Power-aware Deep Learning Model Serving with μ-Serve
[ATC'24] Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention
[ATC'24] PUZZLE: Efficiently Aligning Large Language Models through Light-Weight Context Switch
[TPDS'24] ElasticBatch: A Learning-Augmented Elastic Scheduling System for Batch Inference on MIG
[Survey :mag:] [arxiv'24] LLM Inference Serving: Survey of Recent Advances and Opportunities
[arxiv'24] Metron: Holistic Performance Evaluation Framework for LLM Inference Systems
[arxiv'24] Compress then Serve: Serving Thousands of LoRA Adapters with Little Overhead
[arxiv'24] One Queue Is All You Need: Resolving Head-of-Line Blocking in Large Language Model Serving
[OSDI'24] Parrot: Efficient Serving of LLM-based Applications with Semantic Variable
[arxiv'24] MemServe: Context Caching for Disaggregated LLM Serving with Elastic Memory Pool
[ISCA'24] Splitwise: Efficient generative LLM inference using phase splitting
[ICML'24] Break the Sequential Dependency of LLM Inference Using Lookahead Decoding
[ICML'24] Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads
[ICML'24] HexGen: Generative Inference of Large Language Model over Heterogeneous Environment
[ICML'24] EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty
[ICML'24] MuxServe: Flexible Spatial-Temporal Multiplexing for Multiple LLM Serving
[MobiSys'24] ARISE: High-Capacity AR Offloading Inference Serving via Proactive Scheduling
[MobiSys'24] Pantheon: Preemptible Multi-DNN Inference on Mobile Edge GPUs
[arxiv'24] Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference
[MLSys'24] HeteGen: Heterogeneous Parallel Inference for Large Language Models on Resource-Constrained Devices
[MLSys'24] S-LoRA: Serving Thousands of Concurrent LoRA Adapters
[MLSys'24] Vidur: A Large-Scale Simulation Framework For LLM Inference
[arxiv'24] The CAP Principle for LLM Serving
[WWW'24] λGrapher: A Resource-Efficient Serverless System for GNN Serving through Graph Sharing
[ICML'24] CLLMs: Consistency Large Language Models
[arxiv'24] BlockLLM: Multi-tenant Finer-grained Serving for Large Language Models
[EuroSys'24] Model Selection for Latency-Critical Inference Serving
[arxiv'24] Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity
[arxiv'24] Learn To be Efficient: Build Structured Sparsity in Large Language Models
[arxiv'24] Sponge: Inference Serving with Dynamic SLOs Using In-Place Vertical Scaling
[ISCA'24] Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference
[arxiv'24] ALTO: An Efficient Network Orchestrator for Compound AI Systems
[ASPLOS'24] ExeGPT: Constraint-Aware Resource Scheduling for LLM Inference
[ASPLOS'24] NeuPIMs: NPU-PIM Heterogeneous Acceleration for Batched LLM Inferencing
[arxiv'24] ATP: Enabling Fast LLM Serving via Attention on Top Principal Keys
[arxiv'24] Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve
[ICML'24] DéjàVu: KV-cache Streaming for Fast, Fault-tolerant Generative LLM Serving
[ICLR'24] Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs
[arxiv'24] FlexLLM: A System for Co-Serving Large Language Model Inference and Parameter-Efficient Finetuning
[arxiv'24] Wisdom of Committee: Distilling from Foundation Model to SpecializedApplication Model
[arxiv'24] RelayAttention for Efficient Large Language Model Serving with Long System Prompts
[arxiv'24] LLM-PQ: Serving LLM on Heterogeneous Clusters with Phase-Aware Partition and Adaptive Quantization
[NSDI'24] Approximate Caching for Efficiently Serving Diffusion Models
[arxiv'24] APIServe: Efficient API Support for Large-Language Model Inferencing
[arxiv'24] ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language Models
[arxiv'24] MoE-Infinity: Activation-Aware Expert Offloading for Efficient MoE Serving
[arxiv'24] FP6-LLM: Efficiently Serving Large Language Models Through FP6-Centric Algorithm-System Co-Design
[arxiv'24] Accelerating Retrieval-Augmented Language Model Serving with Speculation
[arxiv'24] CaraServe: CPU-Assisted and Rank-Aware LoRA Serving for Generative LLM Inference
[arxiv'24] Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads
[arxiv'24] DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference
[Survey :mag:] [arxiv'24] Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding
[arxiv'24] Learned Best-Effort LLM Serving
[arxiv'24] Infinite-LLM: Efficient LLM Service for Long Context with DistAttention and Distributed KVCache
[ASPLOS'24] SpotServe: Serving Generative Large Language Models on Preemptible Instances
[arxiv'23] DeltaZip: Multi-Tenant Language Model Serving via Delta Compression
[arxiv'23] Draft & Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding
[arxiv'23] Fairness in Serving Large Language Models
[arxiv'23] Moirai: Towards Optimal Placement for Distributed Inference on Heterogeneous Devices
[arxiv'23] Punica: Multi-Tenant LoRA Serving
[arxiv'23] Pipeline Parallelism for DNN Inference with Practical Performance Guarantees
[arxiv'23] SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills
[arxiv'23] High-throughput Generative Inference of Large Language Models with a Single GPU
[NeurIPS'23] SpecTr: Fast Speculative Decoding via Optimal Transport
[HPDC'23] Kairos: Building Cost-Efficient Machine Learning Inference Systems with Heterogeneous Cloud Resources
[SOSP'23] Paella: Low-latency Model Serving with Virtualized GPU Scheduling
[SOSP'23] Efficient Memory Management for Large Language Model Serving with PagedAttention
[MLSys'23] Efficiently Scaling Transformer Inference
[EuroSys'23] Fast and Efficient Model Serving Using Multi-GPUs with Direct-Host-Access
[EuroSys'23] Tabi: An Efficient Multi-Level Inference System for Large Language Models
[EuroSys'23] Pocket: ML Serving from the Edge
[OSDI'23] AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving
[NSDI'23] SHEPHERD: Serving DNNs in the Wild
[VLDB'23] Serving and Optimizing Machine Learning Workflows on Heterogeneous Infrastructures
[ICML'23] Fast Inference from Transformers via Speculative Decoding
[SIGMOD'22] Serverless Data Science - Are We There Yet? A Case Study of Model Serving
[OSDI'22] Orca: A Distributed Serving System for Transformer-Based Generative Models
[OSDI'22] Microsecond-scale Preemption for Concurrent GPU-accelerated DNN Inferences
[ATC'22] SOTER: Guarding Black-box Inference for General Neural Networks at the Edge
[ATC'22] Serving Heterogeneous Machine Learning Models on Multi-GPU Servers with Spatio-Temporal Sharing
[ATC'22] Tetris: Memory-efficient Serverless Inference through Tensor Sharing
[ATC'22] PetS: A Unified Framework for Parameter-Efficient Transformers Serving
[ATC'21] INFaaS: Automated Model-less Inference Serving
[SoCC'21] Morphling: Fast, Near-Optimal Auto-Configuration for Cloud-Native Model Serving
[arxiv'21] Supporting Massive DLRM Inference through Software Defined Memory
[MobiCom'20] SPINN: Synergistic Progressive Inference of Neural Networks over Device and Cloud
注意力优化
- [PPOPP'26] MetaAttention:跨硬件后端的统一高效注意力框架
- [PPoPP'26] FlashAttention-T:利用张量-向量并行性实现完全张量化的注意力
- [arxiv'25] BLASST:通过 Softmax 阈值化实现动态块状注意力稀疏化
- [SC'25] UltraAttn:通过层次化上下文分块高效并行化注意力
- [SC'25] RingX:面向 HPC 的长上下文学习的可扩展并行注意力
- [NeurIPS'25] Twilight:基于层次化 Top-p 剪枝的自适应注意力稀疏化
- [NeurIPS'25 Spotlight] SageAttention3:用于推理的 FP4 微尺度注意力,以及 8 位训练的探索 [代码]
- [arxiv'25] SLA:通过可微调的稀疏线性注意力超越扩散 Transformer 中的稀疏性 [代码]
- [MLSys'25] FastTree:针对树形 LLM 推理优化注意力核与运行时
- [MLSys'25] FlashInfer:面向 LLM 推理服务的高效且可定制的注意力引擎
- [NeurIPS'24] FlashAttention-3:异步与低精度下的快速准确注意力
- [ICLR'24] FlashAttention-2:更高效的并行与工作划分下的更快注意力
- [NeurIPS'22] FlashAttention:IO 友好、快速且内存高效的精确注意力
混合专家模型 (MoE)
[arxiv'26] PROBE:通过实时预测式预取实现 MoE 推理中计算与通信的协同均衡
[arxiv'26] 动态专家共享:在混合专家扩散 LLM 中解耦内存与并行性
[arxiv'26] LatentMoE:迈向混合专家模型中每 FLOP 和参数的最佳精度
[arxiv'26] 负载最轻专家并行:平衡不均衡的混合专家模型
[arxiv'26] MixServe:基于融合通信算法的混合并行分布式 MoE 模型自动服务系统
[arxiv'26] MoE-DisCo:低成本经济型混合专家模型训练
[arxiv'26] MoEBlaze:突破现代 GPU 上高效 MoE 训练的内存墙
[arxiv'26] 借助 Tarragon 提升基于 MoE 的 LLM 推理的鲁棒性
[EuroSys'26] 通过细粒度专家卸载缓解基于 MoE 的 LLM 服务中的延迟-内存权衡
[EuroSys'26] MegaScale-MoE:生产环境中大规模、通信高效的混合专家模型训练
[arxiv'25] FUSCO: High-Performance Distributed Data Shuffling via Transformation-Communication Fusion
[arxiv'25] Efficient MoE Inference with Fine-Grained Scheduling of Disaggregated Expert Parallelism
[arxiv'25] Remoe: Towards Efficient and Low-Cost MoE Inference in Serverless Computing
[arxiv'25] SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations
[arxiv'25] Janus: Disaggregating Attention and Experts for Scalable MoE Inference
[arxiv'25] Efficient MoE Serving in the Memory-Bound Regime: Balance Activated Experts, Not Tokens
[arxiv'25] Context-Aware Mixture-of-Experts Inference on CXL-Enabled GPU-NDP Systems
[arxiv'25] MicroMoE: Fine-Grained Load Balancing for Mixture-of-Experts with Token Scheduling
[arxiv'25] MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping
[arxiv'25] Pre-Attention Expert Prediction and Prefetching for Mixture-of-Experts Large Language Models
[arxiv'25] FarSkip-Collective: Unhobbling Blocking Communication in Mixture of Experts Models
[arxiv'25] DualSparse-MoE: Coordinating Tensor/Neuron-Level Sparsity with Expert Partition and Reconstruction
[arxiv'25] BuddyMoE: Exploiting Expert Redundancy to Accelerate Memory-Constrained Mixture-of-Experts Inference
[SC'25] Diff-MoE: Efficient Batched MoE Inference with Priority-Driven Differential Expert Caching
[SC workshop'25] Compression Error Sensitivity Analysis for Different Experts in MoE Model Inference
[SC workshop'25] Batch Tiling on Attention: Efficient Mixture of Experts Training on Wafer-Scale Processors
[arxiv'25] Opportunistic Expert Activation: Batch-Aware Expert Routing for Faster Decode Without Retraining
[arxiv'25] MoE-Prism: Disentangling Monolithic Experts for Elastic MoE Services via Model-System Co-Designs
[arxiv'25] ReXMoE: Reusing Experts with Minimal Overhead in Mixture-of-Experts
[arxiv'25] MergeMoE: Efficient Compression of MoE Models via Expert Output Merging
[MICRO'25] Optimizing All-to-All Collective Communication with Fault Tolerance on Torus Networks
[arxiv'25] GatePro: Parameter-Free Expert Selection Optimization for Mixture-of-Experts Models
[arxiv'25] Orders in Chaos: Enhancing Large-Scale MoE LLM Serving with Data Movement Forecasting
[arxiv'25] ElasticMoE: An Efficient Auto Scaling Method for Mixture-of-Experts Models
[SOSP'25] KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models
[arxiv'25] MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
[arxiv'25] DiEP: Adaptive Mixture-of-Experts Compression through Differentiable Expert Pruning
[arxiv'25] Symphony-MoE: Harmonizing Disparate Pre-trained Models into a Coherent Mixture-of-Experts
[NeurIPS'25] BrainMoE: Cognition Joint Embedding via Mixture-of-Expert Towards Robust Brain Foundation Model
[NeurIPS'25] S’MoRE: Structural Mixture of Residual Experts for Parameter-Efficient LLM Fine-tuning
[NeurIPS'25] The Omni-Expert: A Computationally Efficient Approach to Achieve a Mixture of Experts in a Single Expert Model
[NeurIPS'25] MoESD: Unveil Speculative Decoding's Potential for Accelerating Sparse MoE
[NeurIPS'25] FlyLoRA: Boosting Task Decoupling and Parameter Efficiency via Implicit Rank-Wise Mixture-of-Experts
[NeurIPS'25] FlowMoE: A Scalable Pipeline Scheduling Framework for Distributed Mixture-of-Experts Training
[NeurIPS'25] FlashMoE: Fast Distributed MoE in a Single Kernel [Code]
[arxiv'25] Steering MoE LLMs via Expert (De)Activation
[arxiv'25] HD-MoE: Hybrid and Dynamic Parallelism for Mixture-of-Expert LLMs with 3D Near-Memory Processing
[arxiv'25] LExI: Layer-Adaptive Active Experts for Efficient MoE Model Inference
[SC'25] MoE-Compression: How the Compression Error of Experts Affects the Inference Accuracy of MoE Model?
[arxiv'25] LExI: Layer-Adaptive Active Experts for Efficient MoE Model Inference
[arxiv'25] LongCat-Flash Technical Report
[arxiv'25] Accelerating Mixture-of-Experts Inference by Hiding Offloading Latency with Speculative Decoding
[arxiv'25] HAP: Hybrid Adaptive Parallelism for Efficient Mixture-of-Experts Inference
[arxiv'25] MoE-Inference-Bench: Performance Evaluation of Mixture of Expert Large Language and Vision Models
[SIGCOMM'25] MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism
[ICLR'25] Ada-K Routing: Boosting the Efficiency of MoE-based LLMs
[arxiv'25] Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models
[ICML'25] I2MoE: Interpretable Multimodal Interaction-aware Mixture-of-Experts
[arxiv'25] Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models
[SC'25] X-MoE: Enabling Scalable Training for Emerging Mixture-of-Experts Architectures on HPC Platforms
[SIGCOMM'25] MixNet: A Runtime Reconfigurable Optical-Electrical Fabric for Distributed Mixture-of-Experts Training
[arxiv'25] HierMoE: Accelerating MoE Training with Hierarchical Token Deduplication and Expert Swap
[arxiv'25] PiKV: KV Cache Management System for Mixture of Experts
[arxiv'25] BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs
[arxiv'25] Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models
[ACL'25] EAC-MoE: Expert-Selection Aware Compressor for Mixture-of-Experts Large Language Models
[ACL'25] FOLDMOE: Efficient Long Sequence MoE Training via Attention-MoE Pipelining
[arxiv'25] The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts
[arxiv'25] Muon is Scalable for LLM Training
[arxiv'25] Long-Tailed Distribution-Aware Router For Mixture-of-Experts in Large Vision-Language Model
[arxiv'25] Sub-MoE: Efficient Mixture-of-Expert LLMs Compression via Subspace Expert Merging
[arxiv'25] HarMoEny: Efficient Multi-GPU Inference of MoE Models
[arxiv'25] Load Balancing Mixture of Experts with Similarity Preserving Routers
[arxiv'25] MoE-GPS: Guidlines for Prediction Strategy for Dynamic Expert Duplication in MoE Load Balancing
[arxiv'25] EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models
[arxiv'25] CoMoE: Contrastive Representation for Mixture-of-Experts in Parameter-Efficient Fine-tuning
[arxiv'25] PreMoe: Lightening MoEs on Constrained Memory by Expert Pruning and Retrieval
[arxiv'25] Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models
[arxiv'25] Toward Cost-Efficient Serving of Mixture-of-Experts with Asynchrony
[ICML'25] FloE: On-the-Fly MoE Inference on Memory-constrained GPU
[arxiv'25] PT-MoE: An Efficient Finetuning Framework for Integrating Mixture-of-Experts into Prompt Tuning
[arxiv'25] Faster MoE LLM Inference for Extremely Large Models
[arxiv'25] Accelerating Mixture-of-Experts Training with Adaptive Expert Replication
[NAACL'25] Marrying LLMs with Dynamic Forecasting: A Graph Mixture-of-expert Perspective
[NAACL'25] Sparser Mixture-of-Adapters with Cross-Layer Generalization
[NAACL'25] SimSMoE: Toward Efficient Training Mixture of Experts via Solving Representational Collapse
[Mobicom'25] D2MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving
[arxiv'25] MoE-Gen: High-Throughput MoE Inference on a Single GPU with Module-Based Batching
[arxiv'25] Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
[arxiv'25] Unveiling Hidden Collaboration within Mixture-of-Experts in Large Language Models
[arxiv'25] Dense Backpropagation Improves Training for Sparse Mixture-of-Experts
[arxiv'25] MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints
[arxiv'25] C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing
[arxiv'25] Cluster-Driven Expert Pruning for Mixture-of-Experts Large Language Models
[arxiv'25] S'MoRE: Structural Mixture of Residual Experts for LLM Fine-tuning
[DAC'25] HybriMoE: Hybrid CPU-GPU Scheduling and Cache Management for Efficient MoE Inference
[arxiv'25] Finding Fantastic Experts in MoEs: A Unified Study for Expert Dropping Strategies and Observations
[arxiv'25] HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs
[TKDE'25] A Survey on Mixture of Experts
[ICLR'25] NetMoE: Accelerating MoE Training through Dynamic Sample Placement
[arxiv'25] ProMoE: Fast MoE-based LLM Serving using Proactive Caching
[arxiv'25] Mixture of Lookup Experts
[EuroSys'25] Samoyeds: Accelerating MoE Models with Structured Sparsity Leveraging Sparse Tensor Cores
[EuroMLSys'25] Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference
[EuroMLSys'25] Accelerating MoE Model Inference with Expert Sharding
[arxiv'25] eMoE: Task-aware Memory Efficient Mixture-of-Experts-Based (MoE) Model Inference
[KDD'25] ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration
[arxiv'25] Continual Pre-training of MoEs: How robust is your router?
[arxiv'25] Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs
[arxiv'25] Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts
[MLSys'25] Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts
[arxiv'25] CoSMoEs: Compact Sparse Mixture of Experts
[CVPR'25] DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models
[ASPLOS'25] CoServe: Efficient Collaboration-of-Experts (CoE) Model Inference with Limited Memory
[arxiv'25] Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts
[arxiv'25] BigMac: A Communication-Efficient Mixture-of-Experts Model Structure for Fast Training and Inference
[arxiv'25] DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs
[arxiv'25] MoETuner: Optimized Mixture of Expert Serving with Balanced Expert Placement and Token Routing
[arxiv'25] Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient
[arxiv'25] Fair-MoE: Fairness-Oriented Mixture of Experts in Vision-Language Models
[arxiv'25] fMoE: Fine-Grained Expert Offloading for Large Mixture-of-Experts Serving
[TPDS'25] EfficientMoE: Optimizing Mixture-of-Experts Model Training with Adaptive Load Balance
[arxiv'25] Hecate: Unlocking Efficient Sparse Model Training via Fully Sharded Sparse Data Parallelism
[NAACL'25] MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs
[arxiv'25] BTS: Harmonizing Specialized Experts into a Generalist LLM
[ASPLOS'25] FSMoE: A Flexible and Scalable Training System for Sparse Mixture-of-Experts Models
[arxiv'25] Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
[arxiv'25] Optimizing Distributed Deployment of Mixture-of-Experts Model Inference in Serverless Computing
[MICRO'24] SambaNova SN40L: Scaling the AI Memory Wall with Dataflow and Composition of Experts
[TPDS'24] MPMoE: Memory Efficient MoE for Pre-Trained Models With Adaptive Pipeline Parallelism
- Journal version of [IPDPS'23] MPipeMoE: Memory Efficient MoE for Pre-trained Models with Adaptive Pipeline Parallelism
[arxiv'24] DeepSeek-V3 Technical Report
[arxiv'24] HEXA-MoE: Efficient and Heterogeneous-aware MoE Acceleration with ZERO Computation Redundancy
[arxiv'24] Nexus: Specialization meets Adaptability for Efficiently Training Mixture of Experts
[arxiv'24] ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing
[Survey :mag:] [arxiv'24] A Survey on Inference Optimization Techniques for Mixture of Experts Models
[arxiv'24] DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding
[arxiv'24] Llama 3 Meets MoE: Efficient Upcycling
[arxiv'24] Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
[arxiv'24] Mixture of A Million Experts
[arxiv'24] MoE-CAP: Cost-Accuracy-Performance Benchmarking for Mixture-of-Experts Systems
[arxiv'24] Toward Inference-optimal Mixture-of-Expert Large Language Models
[arxiv'24] Expert-Token Resonance: Redefining MoE Routing through Affinity-Driven Active Selection
[MLArchSys'24 @ ISCA'24] MoE-ERAS: Expert Residency Aware Selection
[arxiv'24] MoE Jetpack: From Dense Checkpoints to Adaptive Mixture of Experts for Vision Tasks
[arxiv'24] Prediction Is All MoE Needs: Expert Load Distribution Goes from Fluctuating to Stabilizing
[arxiv'24] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
[COLM'24] Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training
[ME-FoMo @ ICLR'24] Scaling Laws for Fine-Grained Mixture of Experts
[arxiv'24] UOE: Unlearning One Expert Is Enough For Mixture-of-experts LLMS
[ML for Sys workshop @ NeurIPS'24] IFMoE: An Inference Framework Design for Fine-grained MoE
[ML for Sys workshop @ NeurIPS'24] TurboMoE: Enhancing MoE Model Training with Smart Kernel-Fusion and Data Transformation
[arxiv'24] Dense Backpropagation Improves Routing for Sparsely-Gated Mixture-of-Experts
[arxiv'24] MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs
[EMNLP'24] MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning
[EMNLP'24] Mixture of Diverse Size Experts
[EMNLP'24] AdaMOE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models
[ACL'24] SwapMoE: Serving Off-the-shelf MoE-based Large Language Models with Tunable Memory Budget
[SoCC'24] MoEsaic: Shared Mixture of Experts
[KDD'24] Efficient Mixture of Experts based on Large Language Models for Low-Resource Data Preprocessing
[arxiv'24] Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism
[IPDPS'24] Exploiting Inter-Layer Expert Affinity for Accelerating Mixture-of-Experts Model Inference
[arxiv'24] EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference
[arxiv'24] Shortcut-connected Expert Parallelism for Accelerating Mixture of Experts
[NeurIPS'24] Toward Efficient Inference for Mixture of Experts
[arxiv'24] Lynx: Enabling Efficient MoE Inference through Dynamic Batch-Aware Expert Selection
[SC'24] APTMoE: Affinity-Aware Pipeline Tuning for MoE Models on Bandwidth-Constrained GPU Nodes
[NeurIPS'24] GraphMETRO: Mitigating Complex Graph Distribution Shifts via Mixture of Aligned Experts
[arxiv'24] HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference
[arxiv'24] Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent
[NeurIPS'24] LSH-MoE: Communication-efficient MoE Training via Locality-Sensitive Hashing
[arxiv'24] Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent
[arxiv'24] Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts
[NeurIPS'24] Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design
[arxiv'24] Demystifying the Compression of Mixture-of-Experts Through a Unified Framework
[PML4LRS @ ICLR'24] Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models
[arxiv'24] Optimizing Mixture-of-Experts Inference Time Combining Model Deployment and Communication Scheduling
[arxiv'24] MoE-Pruner: Pruning Mixture-of-Experts Large Language Model using the Hints from Its Router
[arxiv'24] Duo-LLM: A Framework for Studying Adaptive Computation in Large Language Models
[arxiv'24] MoH: Multi-Head Attention as Mixture-of-Head Attention
[arxiv'24] AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach
[NeurIPS'24 (Splotlight)] Flex-MoE: Modeling Arbitrary Modality Combination via the Flexible Mixture-of-Experts
[arxiv'24] Aria: An Open Multimodal Native Mixture-of-Experts Model
[arxiv'24] MC-MoE: Mixture Compressor for Mixture-of-Experts LLMs Gains More
[arxiv'24] MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts
[arxiv'24] Upcycling Large Language Models into Mixture of Experts
[arxiv'24] No Need to Talk: Asynchronous Mixture of Language Models
[arxiv'24] Lazarus: Resilient and Elastic Training of Mixture-of-Experts Models with Adaptive Expert Placement
[arxiv'24] HMoE: Heterogeneous Mixture of Experts for Language Modeling
[arxiv'24] FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts
[arxiv'24] AquilaMoE: Efficient Training for MoE Models with Scale-Up and Scale-Out Strategies
[arxiv'24] Layerwise Recurrent Router for Mixture-of-Experts
[arxiv'24] Partial Experts Checkpoint: Efficient Fault Tolerance for Sparse Mixture-of-Experts Model Training
[SRW @ ACL'24] MoExtend: Tuning New Experts for Modality and Task Extension
[arxiv'24] MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts
[arxiv'24] Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts
[arxiv'24] Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models
[ICML'24] Scaling Beyond the GPU Memory Limit for Large Mixture-of-Experts Model Training
[MLSys'24] QMoE: Sub-1-Bit Compression of Trillion-Parameter Models
[arxiv'24] CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts
[arxiv'24] AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts
[SIGIR'24] M3oE: Multi-Domain Multi-Task Mixture-of Experts Recommendation Framework
[EuroSys'24] ScheMoE: An Extensible Mixture-of-Experts Distributed Training System with Tasks Scheduling
[arxiv'24] MixLoRA: Enhancing Large Language Models Fine-Tuning with LoRA based Mixture of Experts
[ICLR'24] Mixture of LoRA Experts
[arxiv'24] Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM
[arxiv'24] MoE-Infinity: Activation-Aware Expert Offloading for Efficient MoE Serving
[IJCAI'24] LocMoE: A Low-overhead MoE for Large Language Model Training
[ISCA'24] Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference
[IPDPS'23] MPipeMoE: Memory Efficient MoE for Pre-trained Models with Adaptive Pipeline Parallelism
[EMNLP'23] Adaptive Gating in Mixture-of-Experts based Language Models
[ICLR'23] Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints
[arxiv'23] Towards MoE Deployment: Mitigating Inefficiencies in Mixture-of-Expert (MoE) Inference
[arxiv'23] Fast Inference of Mixture-of-Experts Language Models with Offloading
[ATC'23] Accelerating Distributed MoE Training and Inference with Lina
[OSDI'23] Optimizing Dynamic Neural Networks with Brainstorm
[SIGMOD'23] FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via Dynamic Device Placement
[ICS'23] A Hybrid Tensor-Expert-Data Parallelism Approach to Optimize Mixture-of-Experts Training
[MLSys'23] MegaBlocks: Efficient Sparse Training with Mixture-of-Experts
[MLSys'23] Tutel: Adaptive Mixture-of-Experts at Scale
[arxiv'22] ST-MoE: Designing Stable and Transferable Sparse Expert Models
[PPoPP'22] FasterMoE: modeling and optimizing training of large-scale dynamic pre-trained models
[SustaiNLP @ EMNLP'22] Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production
[NeurIPS'22] Mixture-of-Experts with Expert Choice Routing
[ICML'22] DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale
[ICML'22] GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
[JMLR'22] Switch transformers: scaling to trillion parameter models with simple and efficient sparsity
[EMNLP'21] Beyond Distillation: Task-level Mixture-of-Experts for Efficient Inference
[ICLR'17] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer
分布式机器学习的通信优化与网络基础设施
- [arxiv'26] HetCCL:利用异构GPU加速LLM训练
- [PPoPP'26] COCCL:支持自定义压缩轻松集成与配置的集体通信库,用于可扩展的LLM训练
- [arxiv'26] AutoOverlap:基于分块调度实现计算与通信的细粒度重叠
- [arxiv'26] 异构低带宽下的LLM预训练
- [EuroSys'26] 通过信号传递与重新排序实现高效且自适应的计算与通信重叠
- [arxiv'25] LLM训练中通信可预测性的分析
- [arxiv'25] UCCL-EP:可移植的专家并行通信
- [arxiv'25] 基于DMA的更细粒度计算通信重叠设计空间探索
- [arxiv'25] 在全栈AMD平台上训练基础模型:计算、网络与系统设计
- [arxiv'25] FarSkip-Collective:解除混合专家模型中阻塞式通信的束缚
- [arxiv'25] NCCL中的GPU发起式网络通信
- [SC workshop'25] 重新设计GROMACS晕交换:借助GPU发起的NVSHMEM提升强缩放性能
- [SC'25] 理解多节点LLM推理中的通信瓶颈
- [SC'25] 大型GPU集群上共轭梯度法的CPU和GPU发起式通信策略
- [SC'25] SDR-RDMA:面向行星级RDMA通信的软件定义可靠性架构
- [HotNets'25] ML数据中心中的光子轨道
- [arxiv'25] 用于高效ML通信卸载的DMA集体通信
- [arxiv'25] 面向10万+ GPU的集体通信
- [arxiv'25] Uno:跨数据中心及内部数据中心拥塞控制与可靠连接的一站式解决方案
- [SOSP'25] Mycroft:追踪集体通信中的依赖关系,以实现可靠的LLM训练
- [MICRO'25] SuperMesh:面向加速器的节能集体通信
- [MICRO'25] SkipReduce:(互连)网络稀疏化加速分布式机器学习
- [MICRO'25] 在环形网络上优化容错的全对全集体通信
- [arxiv'25] MSCCL++:为前沿AI应用重新思考GPU通信抽象
- [arxiv'25] 迈向机器学习作业形态与集群拓扑的协同适配
- [APNET'25] 以自动并行化重新思考动态网络与异构计算
- [arxiv'25] 带有拖尾任务的高效AllReduce
- [arxiv'25] TASP:拓扑感知的序列并行性
- [NAIC @ SIGCOMM'25] Chronos:为LLM训练预先安排的电路交换
- [arxiv'25] 二叉树:通过优化通信局部性增强集体操作
- [SIGCOMM'25] Falcon:一种可靠、低延迟的硬件传输协议
- [SIGCOMM'25] ByteScale:在16384个GPU上以2048K上下文长度实现LLM训练的通信效率规模化
- [SIGCOMM'25] 从ATOP到ZCube:自动化拓扑优化流水线及适用于大模型训练的高性价比网络拓扑
- [SIGCOMM'25] Astral:面向大规模语言模型训练的数据中心基础设施
- [SIGCOMM'25] ResCCL:面向集体通信的资源高效调度
- [OSDI'25] ZEN:以稀疏驱动的数据同步赋能分布式训练
- [OSDI'25] 通过FuseLink实现多网卡上的高效GPU通信
- [arxiv'25] RoCE BALBOA:为SmartNICs提供的服务增强型数据中心RDMA
- [arxiv'25] RailX:面向超大规模LLM训练系统的灵活、可扩展且低成本的网络架构
- [arxiv'25] 揭秘NCCL:深入分析GPU通信协议与算法
- [APNET'25] 基于消息级别的信令实现AI工作负载的拥塞控制
- [ASPLOS'25] Concerto:面向大规模深度学习的自动通信优化与调度
- [ISCA'25] Chimera:大型语言模型中混合并行性的通信融合
- [arxiv'25] NoLoCo:无需AllReduce的大模型低通信训练方法
- [arxiv'25] TokenWeave:分布式LLM推理中的高效计算-通信重叠
- [arxiv'25] FLASH:GPU集群中的快速全对全通信
- [arxiv'25] MCMComm:面向多芯片模块端到端通信的软硬件协同优化
- [arxiv'25] GenTorrent:利用叠加网络扩展大型语言模型服务
- [arxiv'25] Triton-distributed:使用Triton编译器在分布式AI系统上编程重叠内核
- [arxiv'25] FlashOverlap:高效重叠通信与计算的轻量级设计
- [arxiv'25] 面向GPU网络的可扩展软件传输层 (
UCCL) [代码] - [HPCA'25] 提升大规模AI训练效率:C4解决方案用于实时异常检测与通信优化
- [arxiv'25] HeteroPod:面向通用云原生应用的XPU加速基础设施卸载
- [综述 :mag:] [arxiv'25] 面向HPC和ML应用的以GPU为中心的通信方案
- [EuroMLSys'25] TAGC:优化分布式Transformer训练中的梯度通信
- [arxiv'25] UB-Mesh:分层本地化的nD全网格数据中心网络架构
- [MLSys'25] TileLink:利用以瓦片为中心的原语生成高效的计算-通信重叠内核
- [arxiv'25] 通信高效的语言模型训练规模可靠且稳健:DiLoCo的缩放定律
- [NSDI'25] AutoCCL:自动化集体通信调优,加速分布式和并行DNN训练
- [NSDI'25] 面向集体通信的高效直连拓扑
- [arxiv'25] InfinitePOD:利用光路交换收发器构建LLM用的数据中心级高带宽域
- [IEEE MICRO'25] 理解并表征分布式Transformer模型的通信特性
- [arxiv'25] 在多租户SmartNIC上进行推荐系统的网络内预处理
- [arxiv'25] 通过低带宽分区扩展前沿的大语言模型训练
- [arxiv'25] 负零的力量:量化大语言模型的数据类型定制
- [arxiv'25] mFabric:面向混合专家训练的高效且可扩展的结构
- [NSDI'25] OptiReduce:云端分布式深度学习中弹性且尾部最优的AllReduce
- [APNET'24] 理解分布式训练的通信特征
- [arxiv'24] TokenRing:通过双向通信实现无限上下文LLM的高效并行框架
- [arxiv'24] 以GPU为中心的通信图景
- [arxiv'24] 重温AllReduce的时间成本模型
- [arxiv'24] LuWu:面向分布式GPU上100B规模模型网络内数据并行训练的端到端网络内核外优化器
- [HotInfra'24] 分布式AI任务的即时通信
- [NeurIPS'24] SDP4Bit:迈向LLM训练中分片数据并行的4位通信量化
- [SC'24] 通过融合计算与集体操作优化分布式ML通信
- [SC'24] [面向分布式AI的网络卸载带宽最优广播与Allgather]
- [NeurIPS'24] LSH-MoE:通过局部敏感哈希实现通信高效的MoE训练
- [arxiv'24] LumosCore:具有光学互连的高可扩展LLM集群
- [TPDS'24] AutoDDL:接近最优带宽成本的自动分布式深度学习
- [HOTI'24] 统一集体通信(UCC):面向CPU、GPU和DPU集体的统一库
- [HOTI'24] 仅轨道:面向万亿参数LLM训练的低成本高性能网络
- [SC'24] 无交换机的蜻蜓架构于晶圆之上:基于晶圆级集成的可扩展互连架构
- [HPDC'24] 接近最优的晶圆级归约
- [HPDC'24] 面向直连拓扑的高效全对全集体通信调度
- [arxiv'24] HiCCL:分层集体通信库
- [ICS'24] gZCCL:面向GPU集群的压缩加速集体通信框架
- [ICS'24] Snoopie:多GPU通信剖析与可视化工具
- [arxiv'24] CSPS:基于通信高效的序列并行性,面向具有长提示的Transformer模型的服务系统
- [arxiv'24] Domino:通过通用张量切片与重叠消除LLM训练中的通信
- [arxiv'24] 探索GPU到GPU通信:洞察超级计算机互连
- [arxiv'24] 揭秘分布式Transformer模型的通信特征
- [ICPP'24] 采用AlltoAll的稀疏梯度通信加速分布式深度学习
- [NAIC @ SIGCOMM'24] 分布式DNN训练模拟的灵活高保真方法的概念验证
- [NAIC @ SIGCOMM'24] Eloquent:更鲁棒的LLM令牌流传输方案
- [NAIC @ SIGCOMM'24] OmNICCL:零成本稀疏AllReduce,直接访问缓存与SmartNICs
- [HotNets'24] 我有99个问题,但FLOPS不是其中之一
- [HotNets'24] MLTCP:一种分布式技术,用于近似集中式流量调度以用于机器学习
- [HotNets'22] 机器学习集群中的拥塞控制
- [SIGCOMM'24] 将机器学习集体通信重新思考为多商品流问题
- [SIGCOMM'24] 面向元宇宙规模分布式训练的以太网RDMA
- [SIGCOMM'24] 使用消费级GPU加速多集群环境中的模型训练
- [SIGCOMM'24] MCCS:面向多租户云的基于服务的集体通信方法
- [SIGCOMM'24] Crux:面向深度学习训练的GPU高效通信调度
- [arxiv'24] MLTCP:DNN训练中的拥塞控制
- [HotNets'24] MLTCP:一种分布式技术,用于近似集中式流量调度以用于机器学习
- [arxiv'24] ForestColl:在异构网络结构上实现高效集体通信
- [APNet'24] 理解分布式训练的通信特征
- [ICLR'24] ZeRO++:极其高效的大型模型训练集体通信
- [ICLR'24] CO2:完全计算-通信重叠的高效分布式训练
- [arxiv] [openreview]
- [MLSys'24] L-GreCo:逐层自适应的梯度压缩,用于高效准确的深度学习
- [MLSys'24] Lancet:通过全图计算-通信重叠加速混合专家训练
- [ASPLOS'24] T3:透明跟踪与触发,实现计算与集体的细粒度重叠
- [ASPLOS'24] TCCL:发现PCIe GPU集群中更好的通信路径
- [ASPLOS'24] Centauri:通过通信分区实现大型模型训练中计算-通信重叠的有效调度
- [ASPLOS'24] Two-Face:结合集体与单边通信,实现高效分布式SpMM
- [NSDI'24] THC:利用张量同态压缩加速分布式深度学习
- [综述 :mag:] [arxiv'23] 通信高效的分布式深度学习:全面综述
- [arxiv'23] 面向数十亿参数大型语言模型训练的优化网络架构
- [arxiv'23] FlexShard:面向产业级序列推荐模型的灵活分片
- [arxiv'23] 重新思考内存与通信成本,以实现高效的大型语言模型训练
- [arxiv'23] Zen:面向分布式DNN训练的接近最优的稀疏张量同步
- [arxiv'23] 面向数十亿参数大型语言模型训练的优化网络架构
- [arxiv'23] TACOS:面向分布式训练的拓扑感知集体算法合成器
- [INFOCOM'23] Libra:面向高速网络中数据并行训练的争用感知GPU线程分配
- [ICDCS'23] bbTopk:带宽感知的稀疏Allreduce,通过分块稀疏化实现高效分布式训练
- [ICML'23] CocktailSGD:在超过500Mbps的网络上微调基础模型
- 与DT-FM(NeurIPS'22)相关
- [IPDPS'23] MCR-DL:面向深度学习的混合搭配通信运行时
- [ASPLOS'23] MSCCLang:微软集体通信语言
- [ASPLOS'23] 在大型深度学习模型中通过分解实现依赖计算的通信重叠
- [EuroSys'23] A2TP:面向多租户学习的聚合器感知网络内聚合
- [MLSys'23] Cupcake:面向可扩展通信高效分布式训练的压缩优化器
- [MLSys'23] 关于优化模型并行通信的讨论
- [NSDI'23] TopoOpt:联合优化网络拓扑与并行化策略,以应对分布式训练任务
- [NSDI'23] Better Together:利用SYNDICATE联合优化ML集体调度与执行计划
- [NSDI'23] TACCL:使用通信草图指导集体算法合成
- [NSDI'23] ARK:面向分布式深度学习的GPU驱动代码执行
- [EuroSys'22] 乱序反向传播:一种有效的深度学习调度技术
- [ISCA'22] Themis:面向DL模型分布式训练的网络带宽感知集体调度政策
- [ISCA'22] 面向快速且可扩展的深度学习推荐模型训练的软硬件协同设计
- [SC'22] HammingMesh:面向大规模深度学习的网络拓扑
- [PPoPP'22] 接近最优的稀疏allreduce,用于分布式深度学习
- [MLSys'22] 在分层系统上合成最佳并行放置与归约策略,用于深度学习 (
P^2) - [ASPLOS'22] 打破分布式机器学习工作loads中的计算与通信抽象壁垒 (
CoCoNET) - [EuroSys'21] DGCL:面向分布式GNN训练的高效通信库
- [ICLR'21] 面向异构分层网络的多层级本地SGD
- [SIGMOD'21] 面向异质性的分布式机器学习训练,通过部分归约[也见2.5]
- [SC'21] Flare:灵活的网络内allreduce
- [NSDI'21] 通过网络内聚合扩展分布式机器学习
- [ISCA'21] 在分布式深度学习训练平台上实现计算-通信重叠
- [PPoPP'21] 合成最佳集体算法 (
SCCL) - [SIGCOMM'21] SiP-ML:面向机器学习训练的高带宽光网络互连
- [ISCA'20] 面向共享内存多处理器集体加速的网络内架构
- [NeurIPS'20] Nimble:轻量级且并行的GPU任务调度,用于深度学习
- [PPoPP'20] 通过部分集体操作驯服深度学习中不平衡的训练工作loads
- [MLSys'20] Blink:快速且通用的集体,用于分布式ML
- [MLSys'20] PLink:发现并利用数据中心网络局部性,以实现高效的云端分布式训练
- [OSDI'20] 面向异构GPU/CPU集群的分布式DNN训练加速统一架构 (
BytePS) - [MLSys'19] 基于优先级的参数传播,用于分布式DNN训练 (
P3) - [MLSys'19] TicTac:通过通信调度加速分布式深度学习
- [SOSP'19] 一种通用的通信调度器,用于加速分布式DNN训练(
ByteScheduler) - [ATC'17] Poseidon:面向GPU集群上分布式深度学习的高效通信架构
容错与拖尾任务缓解
- [arxiv'26] 基于KevlarFlow的大语言模型服务中的弹性研究
- [arxiv'26] 在10万张GPU上使用容错HSDP训练大语言模型
- [PPoPP'26] CCL-D:大规模模型训练中慢速与挂起异常的高精度诊断系统
- [PPoPP'26] Elastor:用于容错分布式训练的弹性高效模型划分与检查点技术
- [arxiv'26] 利用Tarragon提升基于MoE的大语言模型推理的弹性
- [NSDI'26] 气泡攻击:面向大型模型训练的抗拖尾流水线并行技术
- [arxiv'25] TTrace:分布式训练的轻量级错误检测与诊断工具
- [arxiv'25] 用于大语言模型训练与推理的可靠且弹性的集合通信库
- [arxiv'25] SHIFT:面向分布式训练的RDMA故障弹性层
- [arxiv'25] FFTrainer:在大语言模型训练中实现近乎无成本状态管理的快速故障转移
- [arxiv'25] FailSafe:高性能弹性推理服务
- [arxiv'25] GoCkpt:基于梯度辅助的多步重叠检查点技术,用于高效的大语言模型训练
- [MICRO'25] 在环形网络上优化带有容错的全对全集合通信
- [APSys'25] 不可或缺的以CPU为中心的GPU检查点技术
- [CLUSTER'25] Capricorn:具有动态感知能力的高效内存内检查点技术,适用于MoE模型训练
- [arxiv'25] MoE-PHDS:一个MoE检查点支持灵活的运行时稀疏性
- [arxiv'25] ElasWave:面向可扩展混合并行训练的原生弹性系统
- [arxiv'25] 带拖尾任务的高效AllReduce算法
- [SOSP'25] Mycroft:通过追踪集合通信中的依赖关系实现可靠的大语言模型训练
- [SOSP'25] 字节跳动的稳健大语言模型训练基础设施
- [SC'25] LowDiff:通过低成本差分实现高效频繁检查点,适用于高性能分布式训练系统
- [OSDI'25] 利用假设分析理解大型模型训练中的拖尾任务
- [SIGMOD'25] Malleus:通过可塑的数据与模型并行化实现抗拖尾的混合并行训练,用于大规模模型
- [arxiv'25] Checkmate:通过网络梯度复制实现零开销模型检查点
- [ATC'25] SAVE:针对GPU内存位翻转的软件实现容错,用于模型推理
- [ATC'25] 通用检查点:一种灵活高效的分布式检查点系统,适用于具有可重构并行性的大规模DNN训练
- [arxiv'25] Adaptra:通过流水线自适应实现抗拖尾的混合并行训练
- [arxiv'25] 非均匀张量并行:减轻GPU故障对规模化大语言模型训练的影响
- [arxiv'25] GPU弹性及其对AI/HPC系统影响的特征化研究
- [NSDI'25] BCP:用于大型基础模型开发的统一检查点系统
- [NSDI'25] Minder:用于大规模分布式模型训练的故障机器检测系统
- [EuroSys'25] SkyServe:利用竞价实例跨区域和云端部署AI模型的服务
- [ASPLOS'25] PCcheck:面向ML的持久并发检查点技术
- [arxiv'24] FALCON:精准定位并缓解大规模混合并行训练中的拖尾任务
- [arxiv'24] MoEtion:面向大规模专家混合模型的高效可靠检查点技术
- [arxiv'24] MoC-System:面向稀疏专家混合模型训练的高效容错方案
- [arxiv'24] TrainMover:无需内存开销的高效ML训练实时迁移技术
- [arxiv'24] 云图:利用语言模型和因果洞察实现云系统的高效故障定位
- [arxiv'24] ByteCheckpoint:用于大型基础模型开发的统一检查点系统
- [arxiv'24] 通用检查点:面向大规模分布式训练的高效灵活检查点技术
- [arxiv'24] Lazarus:通过自适应专家分配实现专家混合模型的弹性训练
- [arxiv'24] PARALLELGPUOS:基于验证推测的并发GPU级别检查点与恢复系统
- [SOSP'24] ReCycle:利用流水线自适应实现大型DNN的弹性训练
- [HPDC'24] DataStates-LLM:面向大语言模型的懒惰异步检查点技术
- [EuroSys'24] 即时检查点:从深度学习训练失败中低成本恢复的方法
- [NSDI'24] Parcae:在抢占式实例上进行主动、优化活体输出的DNN训练
- [arxiv'23] Unicron:规模化自我修复大语言模型训练的成本节约策略
- [VLDB'23] 通过纠删码实现推荐模型训练的高效容错
- [SOSP'23] GEMINI:利用内存内检查点实现分布式训练中的快速故障恢复
- [SOSP'23] Oobleck:利用流水线模板实现大型模型的弹性分布式训练
- [NSDI'23] [Bamboo:使抢占式实例更具弹性,从而实现大型DNN的经济高效训练]
- [EuroSys'22] [Varuna:可扩展、低成本的大规模深度学习模型训练]
- [ATC'22] [Sibylla:关于深度学习作业失败是否应重试的探讨]
- [MLSys'21] 理解并改进深度学习推荐系统的部分恢复型容错训练
- [FAST'21] [CheckFreq:高频、细粒度的DNN检查点技术]
- [ICSE'20] [深度学习作业程序失败的实证研究]
GPU 内存管理与优化
- [SC'25] HELM:统一内存访问特性分析,以提升内存超分配下的 GPU 性能
- [SC'25] MLP-Offload:用于 LLM 预训练的多级、多路径卸载,突破 GPU 内存墙
- [arxiv'25] CARMA:具备 GPU 内存估算器的共置感知资源管理器
- [arxiv'25] 通过时空规划减少 GPU 内存碎片化,实现高效的大规模模型训练
- [ISCA'25] Forest:访问感知的 GPU UVM 管理
- [EuroSys'25] MEPipe:利用经济高效加速器上的内存高效切片级流水线调度, democratize LLM 训练
- [EuroSys'25] Mist:通过内存并行性协同优化实现大型语言模型的高效分布式训练
- [FAST'25 WiP] Baton:在异构集群上为 LLM 训练编排 GPU 内存
- [CGO'25] IntelliGen:面向张量程序的指令级自动调优,结合单调性内存优化
- [arxiv'25] DeepSeek 模型训练过程中的内存分析
- [IJCAI'24] LLMem:预训练 LLM 微调时的 GPU 内存用量估算
- [MICRO'24] SambaNova SN40L:借助数据流与专家组合突破 AI 内存墙
- [arxiv'24] 利用 4D 并行性和内存消耗估算器加速大型语言模型训练
- [TACO'24] ATP:通过智能 GPU 内存管理实现 DNN 训练的吞吐量峰值
- [ICML'24] GaLore:通过梯度低秩投影实现内存高效的 LLM 训练
- [ASPLOS'24] GMLake:利用虚拟内存拼接技术,为大规模 DNN 训练提供高效透明的 GPU 内存去碎片化
- [arxiv'23] 重新思考内存与通信开销,以实现高效的大规模语言模型训练
- [arxiv'23] 具有收敛保证的大模型量化分布式训练(
QSDP) - [arxiv'23] 压缩激活值是否有助于模型并行训练?
- [SoCC'23] 向规模化分布式训练的 GPU 内存效率迈进
- [VLDB'23] PyTorch FSDP:全分片数据并行扩展经验
- [SOSP'23] 使用 PagedAttention 实现大型语言模型推理的高效内存管理
- [HPCA'23] MPress:通过节省内存的算子间并行化,在多 GPU 服务器上 democratize 十亿参数级模型训练
- [HPCA'23] 多 GPU 训练系统中的张量移动编排
- [IJCAI'23] OSDP:分布式深度学习的最佳分片数据并行方案
- [ICLR'22] LoRA:大型语言模型的低秩适应
- 一种算法层面的内存效率方法
- [VLDB'22] Harmony:克服 GPU 内存容量限制,在通用服务器上训练超大规模 DNN 模型
- [ATC'21] ZeRO-Offload:democratize 十亿参数级模型训练
- [ICLR'21] ActNN:通过 2 位激活压缩训练降低训练内存占用
- [ICLR'21] 动态张量再材料化
- [SC'21] ZeRO-infinity:突破极端规模深度学习的 GPU 内存墙
- [HPCA'21] Sentinel:针对深度学习的异构内存系统中的高效张量迁移与分配
- [MLSys'20] Checkmate:通过最优张量再材料化打破内存墙
- [ASPLOS'20] Capuchin:基于张量的深度学习 GPU 内存管理
- [ASPLOS'20] SwapAdvisor:通过智能交换将深度学习推向超出 GPU 内存限制的境界
- [ESEC/FSE'20] 估算深度学习模型的 GPU 内存消耗
- [SC'20] ZeRO:面向万亿参数模型训练的内存优化
- [ISCA'18] Gist:深度神经网络训练的高效数据编码
- [PPoPP'18] Superneurons:用于深度神经网络训练的动态 GPU 内存管理
- [MICRO'16] vDNN:虚拟化深度神经网络,实现可扩展、内存高效的神经网络设计
- [arxiv'16] 以次线性内存成本训练深度网络
GPU 共享
- [arxiv'25] MSched:通过主动内存调度实现 GPU 多任务处理
- [SC workshop'25] WAGES:面向节能无服务器大模型推理的负载感知 GPU 共享系统
- [SOSP'25] LithOS:用于 GPU 上高效机器学习的操作系统
- [arxiv'25] 迈向 LLM 时代下高效实用的 GPU 多任务处理
- [arxiv'25] Prism:释放 GPU 共享潜力,实现低成本多大模型推理服务
- [OSDI'25] XSched:面向多样化 XPU 的抢占式调度
- [EuroSys'25] 通过自适应无气泡时空共享提升 GPU 共享性能
- [PPOPP'25] SGDRC:面向 NVIDIA GPU 上并发 DNN 推理的软件定义动态资源控制
- [arxiv'24] PREBA:面向多实例 GPU 的 AI 推理服务器的软硬件协同设计
- [SC'24] ParvaGPU:面向云环境大规模 DNN 推理的高效空间 GPU 共享
- [arxiv'24] Tally:面向并发深度学习工作负载的非侵入式性能隔离
- [ICPP'24] MIGER:将多实例 GPU 与多进程服务集成用于深度学习集群
- [ASPLOS'24] RAP:面向多 GPU 推荐模型训练及输入预处理的资源感知自动化 GPU 共享
- [EuroSys'24] Orion:面向 ML 应用的干扰感知、细粒度 GPU 共享
- [ATC'23] 警惕碎片化:基于碎片化梯度下降调度 GPU 共享工作负载
- [NSDI'23] 面向深度学习工作负载的容器云中透明 GPU 共享
- [ICPP'23] FaST-GShare:在无服务器计算中为深度学习推理启用高效的时空 GPU 共享
- [arxiv'23] GACER:面向多租户深度学习的粒度感知并发调控
- [arxiv'23] MuxFlow:在大规模生产级深度学习集群中实现高效安全的 GPU 共享
- [SoCC'22] MISO:在多租户 GPU 集群上利用多实例 GPU 能力
- [PACT'22] GPUPool:一种面向云端细粒度 GPU 共享的整体方法
- [ATC'21] Zico:面向并发 DNN 训练的高效 GPU 内存共享
- [MLSys'20] Salus:面向深度学习应用的细粒度 GPU 共享原语
- [OSDI'20] AntMan:面向深度学习的 GPU 集群动态扩缩容
- [OSDI'20] PipeSwitch:面向深度学习应用的快速流水线上下文切换
- [RTAS'19] 分数 GPU:面向 GPU 的基于软件的计算与内存带宽预留
编译器
- [arxiv'26] Axe: 一种用于机器学习编译器的简单统一布局抽象
- [arxiv'25] Tawa: 面向具有异步引用的现代 GPU 的自动 Warp 特化
- [arxiv'25] Dato: 面向数据流加速器的任务型编程模型
- [arxiv'25] Flashlight: 用于加速注意力变体的 PyTorch 编译器扩展
- [NeurIPS'25] REASONING COMPILER: LLM 引导的优化技术,用于高效模型推理
- [SOSP'25] Mercury: 通过远程内存调度解锁面向 LLM 的多 GPU 算子优化
- [MICRO'25] StreamTensor: 让张量在面向 LLM 的数据流加速器中流水运行
- [OSDI'25] PipeThreader: 面向高效 DNN 执行的软件定义流水线技术
- [OSDI'25] QiMeng-Xpiler: 基于神经符号方法为深度学习系统转译张量程序
- [OSDI'25] Mirage: 面向张量程序的多级超优化器
- [OSDI'25] KPerfIR: 面向现代 AI 工作负载的 GPU 内核性能工具,构建开放且以编译器为中心的生态体系
- [arxiv'25] TileLang: 一种适用于 AI 系统的可组合分块编程模型
- [arxiv'25] Hexcute: 一种基于分块的编程语言,具备自动布局与任务映射合成能力
- [arxiv'25] DeepCompile: 一种由编译器驱动的分布式深度学习训练优化方法
- [ASPLOS'25] Mosaic: 利用 iTex 网格划分在深度学习加速器上挖掘指令级并行性
- [ASPLOS'25] Concerto: 大规模深度学习的自动通信优化与调度
- [arxiv'25] Hercules: 一款用于高效编写异构系统程序的编译器
- [CC'25] LLM 编译器: 以基础语言模型为基础的编译优化技术
- [CGO'25] IntelliGen: 面向张量程序的指令级自动调优,结合单调性内存优化
- [SOSP'24] 利用 T10 在核间互联智能处理器上扩展深度学习计算
- [OSDI'23] Cocktailer: 分析与优化深度学习中的动态控制流
- [OSDI'23] Welder: 通过分块图调度深度学习内存访问
- [OSDI'23] 有效调度深度神经网络的计算图,以适配其领域专用加速器
- [OSDI'23] EINNET: 基于推导式变换优化张量程序
- [OSDI'23] 利用 Brainstorm 优化动态神经网络
- [OSDI'22] ROLLER: 面向深度学习的快速高效张量编译
- [OSDI'20] Rammer: 通过 rTasks 实现全面的深度学习编译器优化
- [OSDI'20] Ansor: 生成高性能深度学习张量程序
- [ASPLOS'20] FlexTensor: 一套针对异构系统上张量计算的自动调度探索与优化框架
- [OSDI'18] TVM: 一款面向深度学习的自动化端到端优化编译器
GPU内核优化
- [ASPLOS'26] Tilus:面向低精度计算的分块级通用GPU编程语言
- [EuroSys'26] 通过信号传递与重排序实现高效且自适应的计算与通信重叠
- [arxiv'25] Mirage持久化内核:用于张量程序巨内核化的编译器与运行时
- [arxiv'25] KernelEvolve:在Meta公司为异构AI加速器规模化推进代理式内核编程
- [arxiv'25] 在资源受限的GPU上内存高效的块低秩基础模型加速
- [arxiv'25] FlashFuser:通过核心间连接扩展计算密集型算子的内核融合规模
- [arxiv'25] Flash多头前馈网络
- [arxiv'25] Iris:Triton中的第一类多GPU编程体验
- [arxiv'25] AccelOpt:用于AI加速器内核优化的自我改进型LLM代理系统
- [arxiv'25] ParallelKittens:多GPU AI内核的系统性与实用性简化
- [SC'25] HyTiS:增强波次利用与缓存局部性的GPU GEMM混合分块调度
- [SC'25] UltraAttn:通过层次化上下文分块高效并行化注意力机制
- [arxiv'25] HipKittens:快速而强劲的AMD内核
- [TACO'25] HuntKTm:现代GPU上高效内核执行的混合调度与自动管理
- [NeurIPS'25] FlashMoE:单个内核中的快速分布式MoE
- [MLSys'25] FlashInfer:面向LLM推理服务的高效且可定制注意力引擎
- [arxiv'25] LiquidGEMM:面向高性能LLM服务的硬件高效W4A8 GEMM内核
- [arxiv'25] TileLang:面向AI系统的可组合分块编程模型
- [PLDI'25] 现代GPU上的基于任务的张量计算
- [TACO'25] Kitsune:在GPU上启用数据流执行
- [ICLR'25] ThunderKittens:简单、快速且可爱的内核
- [PLDI'25] 现代GPU上的基于任务的张量计算
- [ASPLOS'25] 通过任务与内核融合编排分布式计算
- [MLSys'25] FastTree:面向树形结构LLM推理的注意力内核与运行时优化
- [arxiv'24] ACS:在不规则、输入依赖的计算图上并发内核执行
- [arxiv'24] Flex Attention:用于生成优化注意力内核的编程模型
- [NeurIPS'24] FlashAttention-3:具有异步性和低精度的快速准确注意力
- [ICLR'24] FlashAttention-2:更优并行性与工作划分下的更快注意力
- [CGO'24] 用于依赖型GPU内核细粒度同步的框架
- [RTAS'24] 揭秘NVIDIA GPU内部机制以实现可靠的GPU管理
- 幻灯片:链接
- [arxiv'23] Stream-K:以工作为中心的并行分解,用于GPU上的稠密矩阵乘法
- [OSDI'23] Welder:通过分块图调度深度学习内存访问
- [arxiv'21] 在深度学习工作负载下对NVIDIA GPU并发机制的特性分析
- [SIGMETRICS'21] 揭示NVIDIA GPU线程块调度器针对并发内核的放置策略
- [NeurIPS'20] Nimble:轻量级且并行的深度学习GPU任务调度
- [NeurIPS'22] FlashAttention:IO感知的快速且内存高效的精确注意力
- [RTSS'17] NVIDIA TX2上的GPU调度:隐藏细节大揭秘
大模型长上下文
- [SC'25] UltraAttn:通过层次化上下文分块实现高效的并行注意力机制
- [SC'25] RingX:面向高性能计算的长上下文学习可扩展并行注意力机制
- [arxiv'25] 通过细粒度序列并行优化长上下文大模型推理服务
- [NeurIPS'25] StarTrail:同心环状序列并行策略,用于高效训练近乎无限上下文的Transformer模型
- [arxiv'25] 长上下文注意力基准测试:从核效率到分布式上下文并行
- [arxiv'25] 通过核心注意力解耦实现高效的长上下文语言模型训练
- [SOSP'25] DCP:利用动态上下文并行应对长上下文训练中的输入动态性
- [arxiv'25] 以数据为中心的弹性流水线并行,用于高效训练长上下文大模型
- [arxiv'25] Strata:面向长上下文语言模型推理的服务端层次化上下文缓存
- [arxiv'25] TokenLake:统一的段级前缀缓存池,用于细粒度弹性长上下文大模型推理
- [ACL'25] MiniKV:通过压缩与系统协同设计,将2比特KV缓存极限推向极致,实现高效长上下文推理
- [arxiv'25] HelixPipe:采用注意力并行与流水线并行相结合的方式,高效分布式训练长序列Transformer模型
- [arxiv'25] SALE:低比特估计技术,用于长上下文大模型预填充阶段的高效稀疏注意力计算
- [arxiv'25] 通过分块优化高效训练长上下文大模型
- [arxiv'25] SlimPipe:面向长上下文大模型训练的内存友好型高效流水线并行策略
- [ASPLOS'25] FlexSP:通过灵活的序列并行加速大型语言模型训练
- [arxiv'25] XAttention:带有反对角线打分的块稀疏注意力机制
- [arxiv'25] SPPO:通过自适应序列流水线并行卸载,高效训练长序列大模型
- [arxiv'25] ByteScale:在超过12,000张GPU上,以2048K上下文长度高效扩展大模型训练规模
- [arxiv'25] 结合检索的推测解码实现长上下文推理
- [PODC'25] 支持极端长序列Transformer模型训练的系统优化
- [arxiv'25] ParallelComp:用于长度外推的并行长上下文压缩器
- [arxiv'25] LServe:采用统一稀疏注意力机制的高效长序列大模型推理服务
- [arxiv'25] MoBA:面向长上下文大模型的混合块注意力机制
- [arxiv'25] Tactic:面向长上下文大模型的自适应稀疏注意力机制,结合聚类与分布拟合
- [arxiv'25] APB:通过跨GPU传递压缩上下文块加速分布式长上下文推理
- [SIGMOD'25] MEMO:面向超长上下文大模型训练的细粒度张量管理
- [arxiv'25] Twilight:结合层次化Top-p剪枝的自适应注意力稀疏策略
- [arxiv'25] 伴随切片技术,用于状态空间模型的超长上下文训练
- [arxiv'24] LoL-PIM:基于可扩展DRAM-PIM系统的长上下文大模型解码
- [arxiv'24] 以数据为中心、适应异构性的序列并行,用于高效大模型训练
- [ICLR'24] 具有注意力汇流的高效流式语言模型 [代码]
- [SOSP'24] LoongServe:利用弹性序列并行高效服务长上下文大型语言模型
- [arxiv'24] USP:面向长上下文生成式AI的统一序列并行方法
- [arxiv'24] 采用全流水线分布式Transformer架构训练超长上下文语言模型
- [NeurIPS'24研讨会] 大型语言模型的长上下文RAG性能
- [arxiv'24] ShadowKV:为高吞吐量长上下文大模型推理服务的影子KV缓存
- [arxiv'24] Mnemosyne:无需近似即可高效处理数百万上下文长度的大模型推理请求的并行化策略
- [arxiv'24] CSPS:一种通信高效的序列并行服务系统,适用于具有长提示的Transformer模型
- [COLM'24] TriForce:通过层次化推测解码无损加速长序列生成
- [arxiv'24] FocusLLM:通过并行解码扩展大模型上下文
- [综述 :mag:] [IJCAI'24] X-former Elucidator:重振面向长上下文语言建模的高效注意力机制
模型压缩
有关量化论文的完整列表,请参阅 https://github.com/Efficient-ML/Awesome-Model-Quantization。
- [PPoPP'26] JanusQuant:面向长上下文推理的高精度高效2位KV缓存量化
- [PPoPP'26] RoMeo:通过旋转混合精度量化缓解双维度异常值
- [PPoPP'26] 高吞吐量非均匀量化3位LLM推理
- [arxiv'26] 面向NVFP4推理精度恢复的量化感知蒸馏
- [arxiv'25] 弥合微尺度FP4量化从理论承诺到实际性能之间的差距
- [EMNLP'25] 缩小规模,快速服务:为推荐系统压缩并部署高效LLM
- [NeurIPS'25] 体积减70%,精度不减:通过动态长度浮点(DFloat11)实现高效GPU推理的无损LLM压缩
- [arxiv'25] MergeMoE:通过专家输出合并实现MoE模型的高效压缩
- [CLUSTER'25] SplitQuant:基于相位感知模型划分与自适应量化,在异构GPU上实现资源高效的LLM离线推理
- [JMLR'25] BitNet:面向大型语言模型的1位预训练
- [OSDI'25] DecDEC:推进低比特LLM量化的一种系统级方法
- [arxiv'25] TAH-QUANT:在慢速网络上的流水线并行中进行有效的激活量化
- [arxiv'25] DECA:一种支持乱序调用的近核LLM解压缩加速器
- [arxiv'25] ITERA-LLM:通过迭代张量分解提升8位以下大型语言模型的推理性能
- [ISCA'25] Transitive Array:一种具有结果重用功能的高效GEMM加速器
- [arxiv'24] 利用无损同态压缩加速分布式深度学习
- [ICML'24] Any-Precision LLM:低成本部署多种不同规模的LLM
- [ACL'23] 逐层蒸馏!以更少的训练数据和更小的模型规模超越更大的语言模型
- [ICLR'23] GPTQ:面向生成式预训练Transformer的高精度后训练量化
- [OSDI'23] AdaEmbed:面向大规模推荐模型的自适应嵌入
- [EuroSys'23] 高速DNN训练与Espresso:借助近最优使用策略释放梯度压缩的全部潜力
- [ICML'22] TSPipe:借助流水线更快地向教师学习
联邦学习
- [VLDB'25] PS-MI:垂直联邦学习中的准确、高效且私密的数据估值
- [arxiv'24] FedMoE:通过异构专家混合模型实现个性化联邦学习
- [MLSys'24] LIFL:一种轻量级、事件驱动的无服务器联邦学习平台
- [arxiv'24] FedEx:通过重叠计算与参与者选择加速异构移动设备上的联邦学习
- [KDD'24] FedBiOT:在不使用完整模型的情况下进行联邦学习中的本地大语言模型微调
- [CCGrid'24] Apodotiko:在异构环境中实现高效的无服务器联邦学习
- [EuroSys'24] Dordis:具有丢弃鲁棒性的差分隐私的高效联邦学习
- [arxiv'24] 解耦的垂直联邦学习:用于垂直划分数据的实际训练
- [SAC'24] 在无服务器联邦学习中利用知识蒸馏训练异构客户端模型
- [arxiv'23] CAFE:地理分布的数据中心中的碳感知联邦学习
- [arxiv'23] 采用参数高效的提示调优和自适应优化的大语言模型联邦学习
- [IMWUT'23] AttFL:用于时间序列移动及嵌入式传感器数据处理的个性化联邦学习框架
- [综述 :mag:] [FGCS'23] 联邦学习中的模型聚合技术:全面综述
- [SoCC'23] Auxo:通过可扩展的客户端聚类缓解异构性以实现联邦学习
- [MLSys'23] GlueFL:协调客户端采样与模型掩码以实现带宽高效的联邦学习
- [WWW'23] 存储还是不存储?有限存储空间下的联邦学习在线数据选择
- [EuroSys'23] REFL:资源高效的联邦学习
- [VLDB'23] FederatedScope:面向异构性的灵活联邦学习平台
- [RecSys'22] 迈向公平的联邦推荐学习:系统与数据异构性的相互依赖性分析
- [TMLR'22] 联邦学习中的最优客户端采样
- [ICML'22] FedScale:大规模联邦学习的模型与系统性能基准测试
- [MobiSys'22] FedBalancer:为异构客户端上的高效联邦学习提供数据与节奏控制
- [MobiCom'22] PyramidFL:用于高效联邦学习的细粒度客户端选择框架
- [MLSys'22] PAPAYA:实用、私密且可扩展的联邦学习
- [AISTATS'22] 带缓冲的异步聚合联邦学习
- [NeurIPS'21] 联邦重建:部分本地化的联邦学习
- [NeurIPS'21] FjORD:在异构目标下,通过有序丢弃实现公平且准确的联邦学习
- [OSDI'21] Oort:通过引导式参与者选择实现高效联邦学习
- [MICRO'21] AutoFL:支持异构性的节能联邦学习
- [MLSys'19] 向规模化联邦学习迈进:系统设计
- [综述 :mag:] [ACM CSUR'22] 智慧医疗中的联邦学习:综述
隐私保护机器学习
- [arxiv'26] 扩展隐私保护机器学习:Llama-2-7B的CKKS实现
- [CCS'25] MoEcho:利用侧信道攻击破坏专家混合模型中的用户隐私
- [USENIX Security'25] Phantom:在异构TEE和GPU系统中进行隐私保护的深度神经网络模型混淆
- [ASPLOS'24] LazyDP:为可扩展的差分隐私推荐模型训练协同设计算法与软件
- [NeurIPS'24] Nimbus:面向Transformer的安全高效两方推理
- [ACL'24] SecFormer:通过SMPC实现快速且准确的Transformer模型隐私保护推理
- [S&P'24] BOLT:面向Transformer的隐私保护、准确且高效的推理
- [DAC'23] 在异构神经网络加速器上使用预取元键进行隐私保护的DNN训练
- [ICLR'23] MPCFormer:使用MPC实现快速、高性能且私密的Transformer推理
- [NeurIPS'22] Iron:面向Transformer的私密推理
ML API与应用端优化
- [ASPLOS'25] 借助Ayo实现基于LLM的应用端到端优化
- [arxiv'24] APIServe:为大型语言模型推理提供高效的API支持
- [OSDI'24] ChameleonAPI:自动且高效地为ML应用定制神经网络
- [ICML'22] 面向多标签分类任务的高效在线ML API选择(
FrugalMCT) - [NeurIPS'20] FrugalML:如何更准确、更经济地使用ML预测API
系统领域的机器学习
- [arxiv'25] AccelOpt:用于AI加速器内核优化的自进化LLM代理系统
- [arxiv'25] ASAP:大规模LLM训练性能自动优化的代理解决方案
- [NeurIPS'25] 推理编译器:LLM引导的高效模型推理优化
- [arxiv'25] 城门之外的蛮族:AI如何颠覆系统研究 [代码]
- [arxiv'25] SuperCoder:基于大语言模型的汇编程序超优化
- [HotOS'25] 我如何学会不再担心,转而喜爱学习型操作系统策略
- [VLDB'25] E2ETune:通过微调生成式语言模型进行端到端参数调优
- [SenSys'25] CheckMate:LLM驱动的近似间歇性计算
- [ICSE'25] 大语言模型作为配置验证器
- [NeurIPS'24] IaC-Eval:基础设施即代码程序的代码生成基准测试
- [arxiv'24] 云图:利用语言模型和因果洞察实现云系统的高效故障定位
- [arxiv'24] LLMTune:用大语言模型加速数据库参数调优
- [SIGCOMM'24] NetLLM:面向网络的大语言模型适配
- [arxiv'24] LLM增强的数据管理
- [arxiv'24] MPIrigen:通过领域专用语言模型生成MPI代码
- [arxiv'24] 大语言模型能编写并行代码吗?
- [arxiv'23] LLM辅助代码清理:用于训练准确代码生成器
- [arxiv'23] 大语言模型在编译器优化中的应用
- [VLDB'23] 大语言模型将如何颠覆数据管理
能源效率
- [arxiv'26] 能量去哪儿了?诊断推理能耗
- [arxiv'26] Kareus:大型模型训练中动态与静态能耗的联合降低
- [arxiv'26] GreenServ:面向多模型LLM推理的节能上下文感知动态路由
- [NeurIPS'25] CATransformers:通过模型与硬件联合优化实现碳意识Transformer
- [MICRO'25] SuperMesh:面向加速器的节能集体通信
- [MICRO'25] 分布式训练效率的特性分析:从功耗、性能和热管理的角度
- [arxiv'25] VoltanaLLM:反馈驱动的频率控制与状态空间路由,用于节能LLM推理服务
- [arxiv'25] GreenLLM:面向SLA的动态频率调节,用于节能LLM推理服务
- [arxiv'25] AI训练数据中心的电源稳定化
- [arxiv'25] ML.ENERGY基准测试:迈向自动化推理能耗测量与优化
- [arxiv'25] EcoServe:通过主动的实例内及实例间编排,实现经济高效的LLM推理服务
- [NSDI'25] GREEN:面向机器学习集群的碳高效资源调度
- [HPCA'25] throttLL'eM:预测性GPU节流技术,用于节能LLM推理服务
- [arxiv'25] EcoServe:设计碳意识AI推理系统
- [arxiv'25] AI硬件全生命周期排放:从摇篮到坟墓的方法及世代趋势
- [arxiv'24] GreenLLM:在异构GPU上解耦大型语言模型推理,以降低碳排放
- [arxiv'24] EaCO:资源共享动态及其对DNN训练能源效率的影响
- [arxiv'24] DynamoLLM:为性能与能源效率设计LLM推理集群
- [SOSP'24] Perseus:消除大型模型训练中的能源膨胀
- [arxiv'23] CAFE:在地理分布的数据中心中开展碳意识联邦学习
- [ATC'23] EnvPipe:保存性能的DNN训练框架,以节约能源
- [NSDI'23] Zeus:理解并优化DNN训练的GPU能耗
检索增强生成(RAG)
- [ICDE'25] SAGE:RAG的精准检索框架
- [SOSP'25] HedraRAG:针对异构RAG工作流的生成与检索协同优化
- [ISCA'25] HeterRAG:面向检索增强生成的异构存内处理加速
- [arxiv'25] Patchwork:RAG推理的统一框架
- [arxiv'25] 通过推测加速检索增强语言模型推理
- [arxiv'25] RAGO:检索增强生成推理的系统性性能优化
- [arxiv'25] 使用检索增强的推测解码进行长上下文推理
- [VLDB'25] Chameleon:面向检索增强语言模型的异构解耦加速系统
- [arxiv'24] 迈向理解检索增强生成模型推理中的系统权衡
- [arxiv'24] RAGServe:具有配置自适应功能的快速高质量RAG系统
- [arxiv'24] 通过去幻觉化实现检索增强生成的并行上下文扩展
- [arxiv'24] 通过推测加速检索增强语言模型推理
- [NeurIPS'24研讨会] 大语言模型的长上下文RAG性能
仿真
- [arxiv'26] SynPerf:用于 GPU 性能预测的混合解析-机器学习框架
- [arxiv'26] Revati:面向 LLM 服务的透明无 GPU 时间卷绕仿真
- [arxiv'25] 通过符号张量图可扩展地合成分布式 LLM 工作负载
- [MICRO'25] PyTorchSim:一个全面、快速且精确的 NPU 仿真框架
- [MICRO'25] 具有细粒度误差建模和层次聚类的快速可靠的大规模 GPU 仿真
- [arxiv'25] Frontier:模拟下一代 LLM 推理系统
- [NAIC @ SIGCOMM'25] MLSynth:迈向合成 ML 跟踪数据
- [NAIC @ SIGCOMM'25] 针对异构计算与网络基础设施的 LLM 训练工作负载仿真
- [arxiv'25] Frontier:模拟下一代 LLM 推理系统
- [arxiv'25] Maya:利用模拟虚拟加速器优化深度学习训练工作负载
- [NSDI'25] 借助多实验并行仿真加速 LLM 训练系统的设计空间探索
- [ASPLOS'25] 面向深度学习训练与推理的 GPU 性能预测
- [MLSys'24] Vidur:一个用于 LLM 推理的大规模仿真框架
面向代理型AI的系统
- [arxiv'26] LRAgent:面向多LoRA LLM代理的高效KV缓存共享
- [arxiv'26] VisGym:面向多模态代理的多样化、可定制、可扩展环境
- [arxiv'26] ToolCaching:迈向LLM工具调用的高效缓存
- [arxiv'26] 迈向高效代理:记忆、工具学习与规划
- [arxiv'26] Sutradhara:基于工具的代理推理的智能编排引擎协同设计
- [arxiv'26] 超越最大令牌数:通过LLM代理中的工具调用链实现隐蔽的资源放大
- [arxiv'26] XGrammar 2:面向代理型LLM的动态且高效的结构化生成引擎
- [arxiv'26] Nalar:一个代理服务框架
- [arxiv'26] 软件定义的代理服务
- [NSDI'26] Agentix:作为通用程序的LLM代理的高效服务引擎
- [arxiv'25] ToolOrchestra:通过高效的模型与工具编排提升智能
- [arxiv'25] Nemotron 3 Nano:开放、高效的混合专家架构Mamba-Transformer模型,用于代理推理
- [arxiv'25] 迈向高效代理:推理架构与系统的协同设计
- [arxiv'25] 超越训练:借助MOBIMEM实现代理的自我进化
- [arxiv'25] 通过推测性工具调用优化代理语言模型推理
- [arxiv'25] Astraea:面向LLM驱动代理的状态感知调度引擎
- [arxiv'25] 生产环境中代理的度量
- [arxiv'25] Matrix:点对点多智能体合成数据生成框架
- [arxiv'25] Aragog:面向代理工作流规模化服务的即时模型路由
- [arxiv'25] AccelOpt:用于AI加速器内核优化的自改进LLM代理系统
- [ML for Systems @ NeurIPS'25] Agentic Bridge框架:弥合代理能力与性能基准之间的差距
- [arxiv'25] Continuum:基于KV缓存生存时间的高效稳健多轮LLM代理调度
- [arxiv'25] Sherlock:可靠高效的代理工作流执行
- [arxiv'25] 以CPU为中心的代理AI视角
- [SAA'25] 有用的代理AI:系统视角
- [SAA'25] 为代理探索奠定系统基础
- [SAA'25] 支持我们的AI霸主:重新设计数据系统,使其以代理为先
- [SAA'25] Cortex:面向代理服务的工作流感知资源池化与调度
- [SAA'25] Tetris:面向代理和推理负载的高效预测性KV缓存卸载
- [SAA'25] 多模态模型训练的GPU内存预测
- [SAA'25] DMAS-Forge:将AI应用透明部署为分布式系统的框架
- [SAA'25] 基于MCP的代理自动化注释推理
- [SAA'25] EARL:面向大型语言模型的高效代理强化学习系统
- [SAA'25] 统一的代理接口足以实现AI代理的可观测性
- [arxiv'25] Flash-Searcher:基于DAG并行执行的快速有效网络代理
- [arxiv'25] MobiAgent:面向可定制移动代理的系统化框架
- [ICML'25] 伯克利函数调用排行榜(BFCL):从工具使用到大型语言模型的代理评估
- [SIGCOMM'25] 基于多智能体LLM的意图驱动网络管理:孔子框架
- [arxiv'25] rStar2-Agent:代理推理技术报告
- [COLM'25] R2E-Gym:面向开放式权重SWE代理规模化的程序化环境与混合验证器
- [arxiv'25] 利用异构系统实现高效可扩展的代理AI
- [arxiv'25] Agent.xpu:在异构SoC上高效调度代理LLM工作负载
- [arxiv'25] GSO:具有挑战性的软件优化任务,用于评估SWE-代理
- [ASPLOS'25] ReCA:面向实时高效协作式具身自主代理的集成加速
- [arxiv'25] 过度思考的危害:审视代理任务中的推理-行动困境
- [arxiv'24] AI大都市:利用乱序执行扩展基于大型语言模型的多智能体仿真
- [ICML'24] AnyTool:面向大规模API调用的自我反思、分层代理
强化学习后训练
- [ICLR'26] 重新审视大模型后训练中的参数服务器
- [arxiv'26] Jet-RL:通过统一的训练与采样精度流实现策略内FP8强化学习
- [arxiv'26] 通过滞后期约束的采样协调释放高效异步强化学习后训练潜能
- [arxiv'26] OrchestrRL:面向解耦架构的强化学习动态计算与网络编排
- [arxiv'25] HetRL:异构环境下大模型的高效强化学习
- [arxiv'25] ThreadWeaver:用于语言模型高效并行推理的自适应线程技术
- [arxiv'25] RLHFSpec:通过自适应草稿机制打破RLHF训练中的效率瓶颈
- [arxiv'25] 通过解耦与Best-of-N推测实现快速大模型后训练
- [arxiv'25] 驯服长尾问题:基于自适应草稿器的高效推理型强化学习训练
- [arxiv'25] 击败长尾:面向分布感知的强化学习训练推测解码
- [arxiv'25] WeChat-YATT:一个可扩展、简单、高效且生产就绪的训练库
- [arxiv'25] 未走过的路:RLVR可证明地从原则中学习
- [arxiv'25] AReaL-Hex:支持在异构GPU上进行异步强化学习训练
- [NeurIPS'25] 贪婪采样在RLHF中被证明是高效的
- [arxiv'25] 当奖励模型不确定时,请咨询强大的大模型裁判
- [arxiv'25] RLBoost:利用抢占式资源实现大模型上的低成本强化学习
- [arxiv'25] Laminar:一个可扩展的异步强化学习后训练框架
- [arxiv'25] 大模型强化学习计算规模化的艺术
- [arxiv'25] xRouter:基于强化学习的训练成本感知大模型编排系统
- [arxiv'25] 混合强化学习:当奖励稀疏时,密集奖励更优
- [arxiv'25] 从失败中学习:通过故障感知逆向强化学习理解大模型对齐
- [arxiv'25] 虚假奖励:重新思考RLVR中的训练信号
- [arxiv'25] SFT-RL后训练中的困境:高SFT分数为何会误导,以及应改用什么
- [arxiv'25] 野外的强化学习:刻画大模型部署中的RLVR训练
- [arxiv'25] APRIL:强化学习中的主动部分采样以驯服长尾生成
- [NeurIPS'25] AReaL:面向高效且可扩展语言推理的异步强化学习
- [arxiv'25] ToRL:规模化工具集成强化学习
- [arxiv'25] VerlTool:迈向全面的具身强化学习与工具使用
- [arxiv'25] Parallel-R1:迈向基于强化学习的并行思维
- [综述 :mag:] [arxiv'25] 大型推理模型强化学习综述
- [arxiv'25] RewardDance:视觉生成中的奖励缩放
- [arxiv'25] floq:通过流匹配训练批评者以扩展基于价值的强化学习计算能力
- [arxiv'25] ParaThinker:原生并行思维作为扩展大模型推理时计算的新范式
- [arxiv'25] 历史重演:借助RhymeRL加速大模型强化学习
- [COLM'25] 通过主动探索实现大模型中高效的偏好对齐
- [COLM'25] 合成数据生成与多步强化学习用于推理和工具使用
- [arxiv'25] SeamlessFlow:一种训练代理隔离的强化学习框架,通过标签调度实现无阻塞流水线
- [arxiv'25] SPECS:通过推测草稿实现更快的推理时扩展
- [arxiv'25] 平衡的智能体初始化:稳定蒸馏型推理模型的RLHF训练
- [COLM'25] 针对人类反馈强化学习的离策略修正奖励建模
- [arxiv'25] ReTool:面向大模型战略工具使用的强化学习
- [IPDPS'25] FlexRLHF:一个灵活的布局与并行性框架,用于高效RLHF训练
- [arxiv'25] GEPA:反思式提示进化可超越强化学习
- [ACL'25] RLKGF:无需人工标注的知识图谱反馈强化学习
- [arxiv'25] 多模块GRPO:将策略梯度与提示优化相结合用于语言模型程序
- [arxiv'25] 将强化学习扩展到长视频
- [arxiv'25] 正确执行推理时训练
- [arxiv'25] LlamaRL:一个分布式异步强化学习框架,用于高效的大规模大模型训练
- [arxiv'25] 具有最优奖励基线的策略内强化学习
- [arxiv'25] StreamRL:面向大模型的可扩展、异构且弹性强化学习,支持解耦流生成
- [arxiv'25] DAPO:一个大规模开源大模型强化学习系统
- [MLSys'25] ReaL:通过参数重分配实现大型语言模型高效RLHF训练
- [arxiv'25] 奖励推理模型
- [arxiv'24] 通过阶段融合优化大型语言模型的RLHF训练
多模态
https://github.com/friedrichor/Awesome-Multimodal-Papers
- [arxiv'26] vLLM-Omni: 用于任意模态到任意模态多模态模型的完全解耦推理服务
- [arxiv'26] VisGym: 针对多模态智能体的多样化、可定制且可扩展环境
- [arxiv'26] EPD-Serve: 基于昇腾平台的灵活多模态 EPD 解耦推理服务系统
- [ASPLOS'26] 大规模视频 DiT 训练中的动态稀疏性
- [arxiv'25] Cornserve: 高效服务于任意模态到任意模态的多模态模型
- [arxiv'25] FoundationMotion: 视频中空间运动的自动标注与推理
- [arxiv'25] MoDES: 通过动态专家跳过加速混合专家多模态大语言模型
- [SoCC'25] ModServe: 面向可扩展多模态模型推理的模态与阶段感知资源解耦架构
- [arxiv'25] FlowMM: 基于跨模态信息流指导的 KV 缓存合并,用于高效多模态上下文推理
- [arxiv'25] OmniVinci: 针对全模态理解大语言模型的架构与数据增强
- [arxiv'25] Fast-dLLM v2: 高效的块扩散大语言模型
- [arxiv'25] Fast-dLLM: 通过启用 KV 缓存和并行解码实现无训练加速的扩散大语言模型
- [arxiv'25] Mordal: 面向视觉语言模型的自动化预训练模型选择
- [arxiv'25] Dimple: 具有并行解码能力的离散扩散多模态大语言模型
- [arxiv'24] LlamaFusion: 将预训练语言模型适配用于多模态生成
- [综述 :mag:] [arxiv'24] 资源高效的大语言模型与多模态基础模型综述
混合型大语言模型
- [MICRO'25] HLX: 面向混合 Transformer-Mamba 语言模型优化性能的统一流水线架构
- [MLSys'25] Marconi: 混合型大语言模型时代的前缀缓存技术
其他
- [arxiv'26] 长期监控内核与硬件事件以理解延迟波动
- [ASPLOS'26] cuJSON:面向GPU的高度并行JSON解析器
- [arxiv'25] Cyclotron:将递归计算编译为分布式与脉动阵列架构
- [arxiv'25] 流式张量程序:用于动态并行性的流式抽象
- [arxiv'25] OckBench:衡量LLM推理效率
- [SC workshop'25] 紧密耦合CPU-GPU超级芯片的Roofline分析:以MI300A和GH200为例的研究
- [NeurIPS'25] Spark Transformer:在FFN与注意力机制中重新激活稀疏性
- [MICRO'25] ORCHES:基于协同GPU-PIM异构系统的测试时计算编排型LLM推理
- [arxiv'25] vAttention:经过验证的稀疏注意力机制
- [USENIX ;login:] 晶圆级AI计算:系统软件视角
- [arxiv'25] 训练大型语言模型,使其通过全局分叉标记并行推理
- [arxiv'25] 如何训练你的导师:用指导模型引导黑盒LLM
- [arxiv'25] Slm-mux:编排小型语言模型进行推理
- [arxiv'25] 语言模型的混合架构:系统性分析与设计启示
- [arxiv'25] 少即是多:利用微型网络进行递归推理
- [arxiv'25] ThinKV:面向高效推理模型的思维自适应KV缓存压缩
- [arxiv'25] 重新思考思维标记:将LLM视为改进算子
- [arxiv'25] 具有相互依赖世代的广义并行扩展
- [arxiv'25] Composer:混合神经架构设计的搜索框架
- [arxiv'25] dParallel:面向dLLM的可学习并行解码
- [NeurIPS'25] 深思熟虑且精准:通过替代性推测解码实现卸载LLM的无损、无需训练加速
- [arxiv'25] AI工厂:是时候重新思考云与HPC的界限了
- [arxiv'25] 面向高吞吐量多LLM服务的高效无训练在线路由
- [arxiv'25] SharedRep-RLHF:一种基于共享表示的、支持多样化偏好的RLHF方法
- [arxiv'25] 学会精炼:LLM中的并行推理自我精炼
- [arxiv'25] LLaVA-Critic-R1:你的批评者模型其实是一个强大的策略模型
- [arxiv'25] DeepScholar-Bench:生成式研究综述的实时基准测试与自动化评估
- [VLDB'25] 强大的GPU还是高速互连?现代GPU上关系型工作负载的分析
- [arxiv'25] 少即是多:利用全局局部性实现高效推理的无训练稀疏注意力机制
- [arxiv'25] 基于难度的偏好数据选择:由DPO隐式奖励差距驱动
- [arxiv'25] LobRA:面向异质数据的多租户微调
- [arxiv'25] Copilot Arena:野外代码LLM评估平台
- [arxiv'25] ElasticMM:采用弹性多模态并行性的高效多模态LLM服务
- [MICRO'25] Pimba:面向后Transformer时代大型语言模型服务的内存内计算加速
- [CFAgentic @ ICML'25] LLMSELECTOR:在复合AI系统中学习选择模型
- [arxiv'25] Libra:协同CUDA与Tensor Core实现高性能稀疏矩阵乘法
- [arxiv'25] Prompt-to-Leaderboard:提示自适应LLM评估 [代码]
- [ISCA'25] Meta第二代AI芯片:模型-芯片协同设计与生产化经验
- [ISCA'25] 破除CUDA神话,迈向基于GPU的AI系统
- [ISCA'25] UGPU:动态构建非平衡GPU以提升资源效率
- [arxiv'25] SeerAttention-R:面向长时推理的稀疏注意力适配
- [arxiv'25] 强化预训练
- [arxiv'25] MemOS:大型语言模型中面向记忆增强生成(MAG)的操作系统
- [NSDI'25] 通过阶段融合优化大型语言模型的RLHF训练
- [arxiv'25] 短而正确地思考,而非冗长:高效准确地服务LLM推理
- [arxiv'25] 借助可训练的稀疏注意力加速视频扩散
- [arxiv'25] SSR:测试时的推测性并行扩展推理
- [arxiv'25] Hunyuan-TurboS:通过Mamba-Transformer协同与自适应思维链推进大型语言模型
- [arxiv'25] 仅在需要时才思考:大型混合推理模型
- [MLSys'25] 优化关系型数据分析工作负载中的LLM查询
- [arxiv'25] 让RL重拾价值:通过统一LLM推理者与验证者实现更好的测试时扩展
- [arxiv'25] 借助NonGEMM工作负载理解最新ML工作负载的性能边界
- [arxiv'25] 处理会思考的奖励模型
- [arxiv'25] Seed-Thinking-v1.5:利用强化学习推进卓越推理模型
- [arxiv'25] 休眠期计算:超越测试时的推理扩展
- [arxiv'25] SpecReason:通过推测性推理实现快速准确的推理时计算
- [arxiv'25] 原生多模态模型的缩放法则
- [arxiv'25] OLMoTrace:追踪语言模型输出至数万亿训练标记
- [arxiv'25] NotebookOS:面向交互式训练的笔记本操作系统,配备按需GPU
- [arxiv'25] Alchemist:迈向高效在线持续学习系统的设计
- [arxiv'25] 线性注意力:用于高效双向序列建模
- [arxiv'25] S*:代码生成的测试时扩展
- [arxiv'25] 优化复合AI系统中的模型选择
- [arxiv'25] Copilot Arena:野外代码LLM评估平台
- [arxiv'25] Efficient-vDiT:带有注意力瓦片的高效视频扩散Transformer
- [arxiv'25] BARE:结合基础与指令调优语言模型,以更好地生成合成数据
- [arxiv'25] Sparse VideoGen:利用时空稀疏性加速视频扩散Transformer
- [arxiv'25] 基于VectorQ的自适应语义提示缓存
- [EuroSys'25] HybridFlow:灵活高效的RLHF框架
- [arxiv'25] 更深层次地测量GPU利用率
- [ASPLOS'25] PipeLLM:通过推测性流水线加密提供快速且私密的大语言模型服务
- [arxiv'24] 更小、更弱,却更好:通过计算最优采样训练LLM推理者
- [arxiv'24] 破除CUDA神话,迈向基于GPU的AI系统
- [arxiv'24] XGrammar:面向大型语言模型的灵活高效结构化生成引擎
- [CPAL'24 (PMLR)] Jaxpruner:简洁的稀疏性研究库
- [arxiv'24] Scorch:稀疏深度学习库
- [arxiv'24] 淹没在文档中:重排序器推理规模化的后果
- [arxiv'24] 通过向LLM提问来构建语言神经科学的可解释嵌入
- [arxiv'24] 小规模大型语言模型训练的计算瓶颈
- [Survey :mag:] [arxiv'24] 大型语言模型时代的小型语言模型综合调查:技术、增强、应用、与LLM的合作以及可信度
- [NeurIPS'24] 是否只需增加LLM调用次数即可?迈向复合推理系统的缩放法则
- [arxiv'24] 随机猴子在作祟:廉价的随机增强破坏了LLM的安全对齐
- [arxiv'24] DroidSpeak:增强跨LLM通信
- [arxiv'24] 利用FlexEMR解聚嵌入推荐系统
- [arxiv'24] JudgeBench:评估基于LLM的法官的基准测试
- [arxiv'24] 只需一步:通过Scale Distillation实现Stable Diffusion的快速超分辨率
- [arxiv'24] 大型生成式模型时代的计算:从云原生到AI原生
- [ATC'24] Centimani:通过新型性能预测器实现DNN训练中快速AI加速器的选择
- [arxiv'23] 使用SGLang高效编程大型语言模型
- [MICRO'23] 超越模拟器的路径:针对DNN工作负载的快速准确GPU执行时间预测
- [arxiv'23] 直接偏好优化:你的语言模型其实是一个奖励模型
- [arxiv'22] 通过人类反馈训练语言模型遵循指令
参考资料
本仓库的灵感来源于:
- https://github.com/HuaizhengZhang/Awesome-System-for-Machine-Learning
- https://github.com/S-Lab-System-Group/Awesome-DL-Scheduling-Papers
- https://github.com/ganler/ResearchReading
- https://jeongseob.github.io/readings_mlsys.html
- https://github.com/chwan1016/awesome-gnn-systems
- https://github.com/ConnollyLeon/awesome-Auto-Parallelism
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器