LLMSys-PaperList
LLMSys-PaperList 是一个专注于大语言模型(LLM)系统领域的学术资源聚合库。它精心整理并持续更新了大量关于 LLM 训练、推理服务、多模态系统及工业界技术报告的高质量论文、教程、幻灯片和项目链接。
在大模型技术飞速迭代的背景下,研究人员和开发者往往难以从海量文献中快速定位到与“系统架构”相关的核心成果。LLMSys-PaperList 有效解决了这一信息过载与检索困难的问题,通过清晰的分类体系(如预训练优化、容错机制、边缘端部署、智能体系统等),帮助用户高效追踪该前沿领域的最新进展。
这份清单特别适合 AI 系统研究人员、底层框架开发者以及对大模型工程化落地感兴趣的技术人员使用。其独特亮点在于不仅涵盖了经典的训练并行策略(如 Megatron-LM),还深入收录了针对异构集群调度、混合专家模型(MoE)训练效率以及碳足迹优化等前沿议题的顶会论文(如 SOSP、NSDI、EuroSys 等)。无论是希望复现先进算法的工程师,还是寻求选题灵感的学者,都能从中获得极具价值的参考指引,是探索 LLM 系统全栈技术不可或缺的导航图。
使用场景
某初创公司的大模型系统工程师正致力于优化千卡集群上的训练效率,急需寻找解决长序列训练负载不均和异构集群调度问题的最新学术方案。
没有 LLMSys-PaperList 时
- 信息检索如大海捞针:在 arXiv 和各大会议网站手动筛选"LLM Systems"相关论文,耗时数天仍难以区分哪些是纯理论推导,哪些是已落地的系统工程实践。
- 关键技术点遗漏:容易错过像
DynaPipe(动态流水线优化多任务训练)或HAP(异构集群自动程序合成)这类针对特定痛点的最新 SOSP/EuroSys 顶会成果,导致重复造轮子。 - 缺乏系统化分类:面对预训练、后训练、推理服务、多模态等混杂的技术栈,难以快速定位到“故障容错”或“边缘端服务”等细分领域的权威资料。
- 工业界与学术界脱节:很难同时获取字节跳动
MegaScale万卡训练经验与学术界前沿算法的对比视角,导致技术方案选型缺乏实战数据支撑。
使用 LLMSys-PaperList 后
- 精准直达核心文献:通过清晰的目录结构,工程师在几分钟内直接定位到"Fault Tolerance"和"Heterogeneous Clusters"板块,迅速锁定
ScheMoE和Alibaba HPN等关键论文。 - 全覆盖技术演进链:借助从预训练到边缘推理的完整分类,团队快速构建了包含
Megatron-LM基础架构至最新C4通信优化方案的技术图谱,确保无盲区。 - 理论与实战双向验证:并列查看学术界的
Perseus能耗优化研究与工业界的 Llama 3 技术报告,为集群降本能效比提供了兼具创新性与可行性的双重依据。 - 紧跟前沿会议动态:直接追踪 NeurIPS 2025 及 MLSys 课程资源,让团队能提前布局下一代混合专家模型(MoE)的分布式训练策略。
LLMSys-PaperList 将原本数周的技术调研工作压缩至数小时,成为大模型系统研发者把握领域脉搏、规避技术弯路的高效导航仪。
运行环境要求
未说明
未说明

快速开始
令人惊叹的大语言模型系统论文
一份精选的大语言模型系统相关学术论文、文章、教程、幻灯片和项目的列表。请给本仓库标星,以便及时了解这一蓬勃发展的研究领域的最新进展。
目录
- LLM 系统
- 用于系统的 LLM
- 工业级 LLM 技术报告
- 机器学习会议
- LLM 框架
- 机器学习系统
- 综述论文
- LLM 基准测试/排行榜/追踪数据
- 相关机器学习阅读材料
- MLSys 课程
- 其他阅读材料
LLM 系统
训练
预训练
- Megatron-LM:使用模型并行训练数十亿参数的语言模型
- 使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型
- 减少大型 Transformer 模型中的激活重计算
- 面向数十亿参数大型语言模型训练的优化网络架构 | MIT
- 碳排放与大型神经网络训练 | Google、UCB
- Perseus:消除大型模型训练中的能耗膨胀 | SOSP' 24
- MegaScale:将大型语言模型训练扩展到超过 10,000 张 GPU 上 | 字节跳动
- DISTMM:加速分布式多模态模型训练 | NSDI' 24
- 异构集群中大型模型训练的调度与并行化协同设计
- 可控内存的流水线并行 | Sea AI Lab
- 通过 C4 提升大规模并行训练效率:一种通信驱动的方法
- 突破 GPU 显存限制以训练大型专家混合模型 | ICML' 24
- 阿里巴巴 HPN: 用于大型语言模型训练的数据中心网络
- Llama 3 模型群(第 3 节)
- 实现并行性热切换以高效训练大型语言模型 | SOSP' 24
- 重新审视大规模机器学习研究集群中的可靠性问题
- ScheMoE:一个可扩展的专家混合分布式训练系统,支持任务调度 | EuroSys '24
- DynaPipe:通过动态流水线优化多任务训练 | EuroSys '24
- HAP:在异构 GPU 集群上进行 SPMD DNN 训练,并结合自动化程序合成 | EuroSys'24
- 揭秘变长序列下大型 Transformer 模型训练中的工作负载不均衡问题 | 北京大学
- 提升地理分布式语言模型训练的训练时间和 GPU 利用率
- DeepSeek-V3 技术报告
- Comet:面向专家混合模型的细粒度计算-通信重叠 | 字节跳动
- ByteScale:在超过 12,000 张 GPU 上高效扩展 LLM 训练,上下文长度达 2048K | 字节跳动
- Megalodon:实现无限上下文长度的高效 LLM 预训练和推理
- SPPO:通过自适应序列流水线并行卸载实现高效的长序列 LLM 训练
- TileLink:利用以 Tile 为中心的原语生成高效的计算-通信重叠核函数 | MLSys' 25
- 每一个 FLOP 都至关重要:在不使用高端 GPU 的情况下扩展 3000 亿参数的专家混合 LING LLM | 蚂蚁集团
- FlexSP:通过灵活的序列并行化加速大型语言模型训练 | ASPLOS '25
- WeiPipe:面向通信高效的长上下文大型模型训练的权重流水线并行 | PPoPP ’25
- WLB-LLM:面向大型语言模型训练的工作负载平衡 4D 并行 | OSDI' 25
- Mixtera:用于基础模型训练的数据平面 | ETH
- Flex Attention:一种用于生成优化注意力核函数的编程模型 | MLSys' 25
- 平衡流水线并行与词汇表并行 | MLSys' 25
- SlimPipe:面向长上下文 LLM 训练的省显存高效流水线并行 | 快手
- 利用高效并行策略扩展 Llama 3 训练 | ISCA' 25
- Lumos:面向大规模 LLM 训练的高效性能建模与估算 | MLSys' 25
- BurstEngine:一个高效的分布式框架,用于训练超长序列(超过 100 万 tokens)的 Transformer 模型
- Zeppelin:在数据并行的大模型训练中平衡变长工作负载
- 字节跳动稳健的 LLM 训练基础设施 | SOSP' 25
- Sailor:自动化在动态、异构且地理分布式的集群上进行分布式训练 | SOSP' 25
- Tempo:基于符号依赖图的编译型动态深度学习 | SOSP' 25
- Mycroft:追踪集体通信中的依赖关系,以实现可靠的 LLM 训练 | SOSP' 25
- DCP:通过动态上下文并行解决长上下文训练中的输入动态性问题 | SOSP' 25
- TrainVerify:面向分布式 LLM 训练的等价性验证 | SOSP' 25
- 面向 10 万+ 张 GPU 的集体通信:针对大规模 GPU 集群的大型集体通信优化
- 面向 LLM 系统的 RDMA 点对点通信:为分布式 LLM 系统优化基于 RDMA 的点对点通信
- MoEBlaze:突破现代 GPU 上高效 MoE 训练的内存墙
- Kareus:同时降低大型模型训练中的动态与静态能耗
- AXLearn:在异构基础设施上进行模块化的大型模型训练 | MLSys' 26
- MoSE:面向高效且自适应语言模型的可裁剪专家混合
微调/RLHF 系统
- Ymir: 数据中心中基础模型微调工作负载的调度器 | ICS' 24
- RLHFuse: 基于阶段间与阶段内融合的大语言模型高效 RLHF 训练 | NSDI'25
- HybridFlow: 一种灵活高效的 RLHF 框架
- ReaLHF: 通过参数重分配优化大语言模型的 RLHF 训练
- NeMo-Aligner: 面向高效模型对齐的可扩展工具包 | Nvidia
- 用于加速 RLHF 训练的自适应放置与并行化框架 | Ant
- 利用强化学习进行 LLM 微调的系统机遇
- AReaL: 用于语言推理的大规模异步强化学习系统 | 代码 | Ant
- StreamRL: 具有解耦流式生成的、可扩展、异构且弹性的 LLM 强化学习
- RL-Factory: 通过我们简单高效的框架训练您的 Agent 模型
- PLoRA: 大模型的高效 LoRA 超参数调优
- History Rhymes: 利用 RhymeRL 加速 LLM 强化学习
- APRIL: 在强化学习中采用主动部分回放以抑制长尾生成
- Laminar: 一种可扩展的异步 RL 后训练框架
- Seer: 用于快速同步 LLM 强化学习的在线上下文学习
- SkyRL-Agent: 面向多轮 LLM Agent 的高效 RL 训练
容错性 / 拖后腿节点缓解
- Oobleck: 基于流水线模板的大模型弹性分布式训练 | SOSP' 23
- FALCON: 针对大规模混合并行训练中的拖后腿节点进行精准定位与缓解
- Malleus: 通过可塑的数据与模型并行化实现抗拖后腿的大规模模型混合并行训练
- Fire-Flyer AI-HPC:面向深度学习的成本效益软硬件协同设计 | DeepSeek SC' 24
- Lazarus:基于自适应专家放置的混合专家模型弹性训练
- GEMINI: 基于内存内检查点的分布式训练快速故障恢复
- ByteCheckpoint: 一种面向 LLM 开发的统一检查点系统
- ReCycle: 利用流水线自适应实现大型 DNN 的弹性训练 | SOSP' 24
- Minder: 大规模分布式模型训练中的故障机器检测 | THU
- 面向高效且容错的异构执行的流式批处理模型
- TrainMover: 无内存开销的高效 ML 训练实时迁移 | Alibaba
- GPU 韧性和对 AI/HPC 系统的影响分析 | UIUC
- 利用假设分析理解大模型训练中的拖后腿现象 | OSDI' 25
- GoCkpt: 基于梯度辅助的多步重叠式检查点技术,用于高效 LLM 训练 | PPoPP' 26
- BitSnap: LLM 训练中的检查点稀疏化与量化
服务
大语言模型服务
- Orca:基于Transformer的生成式模型分布式服务系统 | OSDI'22
- 响应长度感知与序列调度:一种由大语言模型驱动的大语言模型推理流水线 | 新加坡国立大学
- 高效扩展Transformer推理 | MLSys' 23
- Flover:用于高效自回归模型并行推理的时间融合框架
- FlashAttention:具有IO感知的快速且内存高效的精确注意力机制
- FlashAttention-3: 具有异步和低精度的快速准确注意力机制
- SageAttention:适用于即插即用推理加速的精准8位注意力机制 | ICLR 2025
- SageAttention2:通过彻底的异常值平滑处理和线程级INT4量化实现的高效注意力机制 | ICML 2025
- SageAttention3:SageAttention3:面向推理的微尺度FP4注意力机制及8位训练探索 | NeurIPS 2025亮点论文
- SageAttention2++:SageAttention2++:SageAttention2的更高效实现 | ICML ES-FoMo研讨会2025
- DeepSpeed Inference:在空前规模下实现Transformer模型的高效推理
- TurboTransformers:面向Transformer模型的高效GPU推理系统
- FlexGen:仅用单个GPU即可实现高吞吐量的大语言模型生成式推理 | ICML' 23
- MPCFormer:利用多方计算实现快速、高性能且私密的Transformer推理 | ICLR'23
- POLCA:大语言模型云服务商中的电力超分配 | 微软
- SARATHI:通过分块预填充搭便车解码实现高效的大语言模型推理 | 微软
- AttMemo:在大型内存系统上利用记忆化技术加速自注意力计算
- vLLM:采用分页注意力机制的简单、快速且廉价的大语言模型服务 | SOSP' 23
- Tabi:面向大语言模型的高效多级推理系统 | EuroSys' 23
- Flash-LLM:利用非结构化稀疏性实现经济高效且高度优化的大规模生成式模型推理 | VLDB' 24
- AutoGen:通过多智能体对话实现下一代大语言模型应用 | 微软
- FlashDecoding++:在GPU上加速大语言模型推理 | 清华大学
- DeepSpeed-MII:用于推理的模型实现(MII)| 微软
- Punica:多租户LoRA服务 | MLSys' 24
- S-LoRA:服务于数千个并发LoRA适配器 | MLSys' 24
- SpotServe:在抢占式实例上服务生成式大语言模型 | 卡内基梅隆大学
- SuperServe:针对不可预测工作负载的细粒度推理服务
- 大语言模型服务中的公平性 | OSDI' 24
- Infinite-LLM:结合DistAttention和分布式KV缓存,为长上下文提供高效的大语言模型服务
- CaraServe:面向生成式大语言模型推理的CPU辅助且排名感知的LoRA服务
- DistServe:将预填充与解码分离,以优化大语言模型服务的吞吐量 | OSDI' 24
- 无干扰推理:将大语言模型推理解耦,以支持混合下游工作负载
- APIServe:为大语言模型推理提供高效的API支持
- FlexLLM:一个用于同时进行大语言模型推理和参数高效微调的系统
- DéjàVu:用于快速、容错的生成式大语言模型服务的KV缓存流式传输
- 优化关系型工作负载中的大语言模型查询 | 加州大学伯克利分校
- AttentionStore:在大语言模型服务中跨多轮对话实现低成本注意力复用 | 新加坡国立大学
- MuxServe:灵活的多路复用技术,用于高效的服务多个大语言模型
- LoongServe:利用弹性序列并行性高效地服务长上下文大语言模型 | SOSP' 24
- RAGCache:用于检索增强生成的高效知识缓存 | 北京大学
- Andes:定义并提升基于大语言模型的文本流媒体服务质量 | 密歇根大学
- BlockLLM:面向大语言模型的多租户细粒度服务
- vAttention:无需分页注意力机制即可实现大语言模型服务的动态内存管理
- Helix:通过异构GPU上的最大流算法实现大语言模型的分布式服务 | 卡内基梅隆大学
- Eloquent:一种更为鲁棒的大语言模型令牌流传输方案 | NAIC' 24
- 优化基于良好吞吐量的大语言模型服务中的推测解码 | 加州大学伯克利分校
- 利用MultiWorld实现弹性模型服务 | 思科研究院
- Prepacking:一种用于快速预填充并提高大语言模型吞吐量的简单方法
- NanoFlow:迈向最优的大语言模型服务吞吐量
- 使用AQUA在多租户环境中实现响应迅速的机器学习推理
- 只需一个队列就够了:解决大语言模型服务中的队头阻塞问题
- MemServe:带有弹性内存池的解聚式大语言模型服务中的上下文缓存
- dLoRA:动态编排请求和适配器以服务LoRA大语言模型 | OSDI' 24
- Llumnix:面向大语言模型服务的动态调度 | OSDI' 24
- 利用Sarathi-Serve驯服大语言模型推理中的吞吐量-延迟权衡 | OSDI' 24
- InfiniGen:通过动态KV缓存管理实现大语言模型的高效生成式推理
- ServerlessLLM:面向大语言模型的低延迟无服务器推理 | OSDI' 24
- CacheGen:用于快速大语言模型服务的KV缓存压缩与流式传输 | SIGCOMM' 24
- Preble:高效的大语言模型服务分布式提示调度
- Mnemosyne:用于高效服务不含近似值的数百万上下文长度大语言模型推理请求的并行化策略
- ConServe:挖掘GPU潜力以实现低延迟、高吞吐量的大语言模型服务
- BlockLLM:面向大语言模型的多租户细粒度服务
- 面向可扩展百万标记推理的上下文并行性
- Pie:为大语言模型推理汇集CPU内存
- NEO:通过在线大语言模型推理中的CPU卸载来缓解GPU内存危机
- FastSwitch:在注重公平性的大语言模型服务中优化上下文切换效率
- Flash Communication:减少张量并行化瓶颈,以实现快速的大语言模型推理
- FlashInfer:面向大语言模型推理服务的高效且可定制的注意力引擎
- 面向增强型大语言模型的快速推理
- 一个用于大语言模型微型服务的系统 | 卡内基梅隆大学
- iServe:一个基于意图的大语言模型服务系统 | 德克萨斯大学奥斯汀分校
- 大语言模型服务中的局部性感知公平调度 | 加州大学伯克利分校
- 迈向高效的大规模多模态模型服务 | 微软
- DeltaZip:高效服务多个全模型调优的大语言模型
- PIM就是你所需要的:一个支持CXL的无GPU大语言模型推理系统 | ASPLOS' 25
- λScale:实现无服务器大语言模型推理的快速扩展
- AIBrix:迈向可扩展且经济高效的大语言模型推理基础设施 | vLLM
- 快速与慢速模型服务:优化大规模异构大语言模型推理工作负载
- 让每个人都能负担得起大语言模型推理:通过NDP-DIMM扩充GPU内存
- Jenga:有效管理异构环境下的大语言模型服务内存
- AQUA:在网络加速下对大规模GPU集群中的大语言模型进行内存卸载 | ASPLOS 2025
- MegaScale-Infer:通过解聚专家并行化以规模化方式服务混合专家模型 | 字节跳动
- 借助Ayo实现基于大语言模型的应用端到端优化 | ASPLOS '25
- CacheBlend:通过缓存知识融合实现快速的RAG大语言模型服务 | EuroSys' 25(最佳论文)
- ThunderServe:在云环境中提供高性能且经济高效的大语言模型服务 | MLSys' 25
- SLOs-Serve:优化多SLO大语言模型的服务
- Tempo:具有混合SLO要求的应用感知大语言模型服务
- Hogwild! Inference:通过并发注意力实现并行大语言模型生成
- Prism:释放GPU共享潜力,以实现经济高效的多大语言模型服务 | UCLA
- RetroInfer:一种面向可扩展长上下文大语言模型推理的向量存储方法
- 基于概率需求建模的高效大语言模型服务
- eLLM:用于高效大语言模型服务的弹性内存管理框架
- DiSCo:设备-服务器协作的大语言模型文本流媒体服务
- DynaServe:为动态解聚式大语言模型服务提供统一且弹性化的执行
- HyGen:通过在线-离线请求的弹性共处实现高效的大语言模型服务
- WaferLLM:一种晶圆级大语言模型推理系统 | OSDI 25
- BlitzScale:以O(1)主机缓存实现快速实时的大模型自动缩放 | OSDI 25
- TokenWeave:用于分布式大语言模型推理的高效计算-通信重叠 | 代码 | ArXiv'25
- Nexus:通过高效GPU共享驯服大语言模型服务中的吞吐量-延迟权衡
- 驯服混乱:协调异构且解聚式的大语言模型推理的自动缩放 | Seed
- TokenLake:一个统一的细分级别前缀缓存池,用于细粒度的弹性长上下文大语言模型服务
- 专家即服务:迈向高效、可扩展且稳健的大规模MoE服务
- Shift Parallelism:面向动态工作负载的低延迟、高吞吐量大语言模型推理
- 击败大语言模型推理中的非确定性
- 消除训练-推理不匹配的跨张量并行规模的确定性推理:确保在不同张量并行配置下的一致性推理
- 动态推理的成本:从AI基础设施视角解读AI代理与测试时缩放
- 城门外的蛮族:AI如何颠覆系统研究
- Mercury:通过远程内存调度解锁面向大语言模型的多GPU算子优化 | SOSP' 25
- DiffKV:面向大语言模型的差异化内存管理,支持并行KV压缩 | SOSP' 25
- Pie:一个面向新兴大语言模型应用的可编程服务系统 | SOSP' 25
- Aegaeon:在市场上实现并发大语言模型服务的有效GPU池 | SOSP' 25
- Jenga:有效管理异构环境下大语言模型服务的内存 | SOSP' 25
- IC-Cache:通过上下文内缓存实现高效的大语言模型服务 | SOSP' 25
- PrefillOnly:一个用于大语言模型应用中仅预填充工作负载的推理引擎 | SOSP' 25
- KTransformers:释放CPU/GPU混合推理在MoE模型中的全部潜力 | SOSP' 25
- ML.ENERGY基准测试:迈向自动化的大语言模型推理能量测量与优化 | NeurIPS' 25
- 服务程序,而非提示:用于结构化程序执行的高效大语言模型服务系统
- Continuum:高效且稳健的多轮大语言模型代理调度,结合KV缓存的存活时间
- AIConfigurator:面向多框架大语言模型服务的闪电般快速配置优化
- SuperInfer:面向超级芯片的大语言模型推理,具备SLO感知的轮换调度和内存管理 | MLSys' 26
- 扩大高效小型语言模型服务规模:面向语义求职的大语言模型服务与部署 | MLSys' 26
- BestServe:在共置与解聚架构中实现最佳良好吞吐量的服务策略
- OptiKIT:满足SLO要求、大幅缩短时间——企业级大语言模型自动化优化 | MLSys' 26
- BlendServe:通过资源感知批处理优化自回归大型模型的离线推理 | ASPLOS' 26
- SwiftSpec:通过解聚式管道和融合核,在扩展异步推测解码的同时实现超低延迟的大语言模型解码 | ASPLOS' 26
- MuxWise:迈向高良好吞吐量的大语言模型服务,采用预填充-解码多路复用 | ASPLOS' 26
- MoEless:通过无服务器计算实现高效MoE大语言模型服务
- 基于KV缓存约束的大语言模型推理在线调度:针对KV缓存限制的推理的最佳批处理与调度
- BiScale:通过相位感知放置和DVFS实现节能的解聚式大语言模型服务
- Harvest:面向大语言模型推理的机会性点对点GPU缓存
- TokenFlow:通过抢占式调度应对请求突发,实现响应迅速的大语言模型文本流媒体服务 | 抄袭
代理系统
- 支持我们的AI霸主:重新设计数据系统,以代理为先 | UCB
- ALTO:用于复合AI系统的高效网络编排器 | 斯坦福大学 & UCB
- Parrot:基于语义变量的LLM应用高效服务 | OSDI' 24
- 使用Certaindex高效服务LLM推理程序 | UCSD
- Autellix:作为通用程序的LLM代理的高效服务引擎 | UCB
- RAGO:检索增强生成服务的系统性性能优化 | ISCA'25
- Circinus:用于复合ML服务的高效查询计划器 | UIUC
- Patchwork:RAG服务的统一框架
- DS SERVE:用于高效可扩展神经检索的框架 | UCB
- KVFlow:用于加速基于LLM的多代理工作流的高效前缀缓存
- DroidSpeak:跨LLM通信与多LLM服务中的KV缓存共享
- Murakkab:云平台中资源高效的代理式工作流编排
- HedraRAG:针对异构RAG工作流的生成与检索协同优化 | SOSP' 25
- METIS:具有配置自适应功能的快速质量感知RAG系统 | SOSP' 25
- Aragog:面向代理式工作流的可扩展服务的即时模型路由
- DualPath:突破代理式LLM推理中的存储带宽瓶颈 | DeepSeek
边缘计算服务
- 闪存中的LLM:有限内存下的高效大型语言模型推理 | 苹果公司
- STI:通过弹性流水线加速边缘端NLP推理 | ASPLOS 23
- PowerInfer:使用消费级GPU实现快速大型语言模型服务 | SOSP' 24
- MoE-Lightning:在内存受限的GPU上进行高吞吐量的MoE推理
- InfiniteHiP:在单个GPU上将语言模型上下文扩展至300万 tokens
- prima.cpp:PRIMA.CPP:在低资源的家用集群上加速70B规模LLM推理
- 面向加速异构LLM推理的移动SoC特性研究 | SOSP' 25
系统效率优化——模型协同设计
- 稀疏线性注意力:SLA:通过可微调的稀疏线性注意力超越扩散Transformer中的稀疏性 | 清华大学
- 大型语言模型的快速分布式推理服务 | 北京大学
- FrugalGPT:如何在降低成本并提升性能的同时使用大型语言模型 | 斯坦福大学
- H2O:大型语言模型高效生成式推理的重采样Oracle | ICML ES-FoMo Workshop 2023
- 参考推理:无损加速大型语言模型
- SkipDecode:利用批处理和缓存实现自回归跳过解码,以高效进行LLM推理
- Scissorhands:利用重要性假设的持久性,在测试时压缩LLM KV缓存
- 无需再训练的预训练语言模型知识保留型剪枝 | 首尔国立大学
- 分阶段推测解码加速LLM推理 | ICML' 23
- SpecInfer:通过推测推理和标记树验证加速生成式LLM服务 | CMU
- Deja Vu:推理时的上下文稀疏性以提高LLM效率 | ICML' 23
- S3:在生成式推理过程中提高GPU利用率以获得更高吞吐量 | 哈佛大学
- LLMCad:快速且可扩展的设备端大型语言模型推理
- 思维骨架:大型语言模型可以进行并行解码 | 清华大学
- LoRAShear:高效的大规模语言模型结构化剪枝与知识恢复|微软
- 环形注意力:采用分块Transformer实现近乎无限的上下文 | UCB
- 学习型尽力而为LLM服务 | UCB
- 星形注意力:长序列上的高效LLM推理| NVIDIA
- FFN融合:重新思考大型语言模型中的顺序计算
- SpargeAttention:SpargeAttention:准确且无需训练的稀疏注意力,可加速任何模型的推理 | ICML' 25
- 使用4位整数训练Transformer | NeurIPS' 23
- Jetfire:采用INT8数据流和逐块量化实现高效准确的Transformer预训练 | ICML' 24
- COAT:压缩优化器状态和激活以实现内存高效的FP8训练 | ICLR'25
- 使用TurboMind实现高效混合精度大型语言模型推理 | 上海人工智能实验室
- 通过时空分配规划减少GPU内存碎片 | EuroSys' 26
多模态训练系统
- DISTMM:加速分布式多模态模型训练 | NSDI' 24
- Optimus::通过气泡效应加速大规模多模态LLM训练
- 解决多模态大型语言模型训练中的模型与数据异质性问题 | 北京大学
- Cornstarch:分布式多模态训练必须具备多模态意识 | 密歇根大学
- PipeWeaver:采用动态交错流水线应对大型多模态模型训练中的数据动态性 | 上海交通大学
多模态推理服务系统
- xDiT:具有大规模并行性的扩散Transformer(DiT)推理引擎
- MOSEL:基于动态模态选择的推理服务
- 用于高效服务扩散模型的近似缓存 | Adobe Research
- 超越大语言模型的生成式AI:多模态生成的系统影响 | Meta
- 多模态生成模型推理的特性分析与高效加速 | Meta
- DistriFusion: 高分辨率扩散模型的分布式并行推理 | MIT
- LongVILA:面向长视频的长上下文视觉语言模型扩展 | NVIDIA
- FlexCache:用于视频扩散的灵活近似缓存系统 | 滑铁卢大学
- DDiT:扩散Transformer模型服务的动态资源分配
- PATCHEDSERVE:面向SLO优化的混合分辨率扩散服务的补丁管理框架
- ElasticMM:采用弹性多模态并行性的高效多模态大语言模型服务
- TetriServe:面向异构图像生成的高效DiT服务
- dInfer:扩散语言模型的高效推理框架
- Fast-dLLM v2:高效的块扩散大语言模型
- Argus:质量感知的高吞吐量文本到图像推理服务系统
- Cornserve:高效服务任意模态之间的多模态模型
- HydraInfer:用于多模态大型语言模型服务的混合解聚调度
- 通过GPU内部调度与资源共享实现解聚式多阶段MLLM推理
- VoxServe:以流媒体为中心的语音语言模型服务系统
- dLLM-Serve:缓解内存占用危机,实现高效扩散语言模型服务
- HADIS:用于高效文本到图像生成的混合适应性扩散模型服务
用于系统研究的大语言模型
- 用于编译器优化的大语言模型
- 程序员分析指南:一场与大语言模型同行的旅程
- LLM辅助代码清理以训练准确的代码生成器 | UCB
- 通过数据异质性感知的模型管理实现高效多任务大型模型训练
- 如果初次失败,再试、再试、再试……? | SOSP' 24
- Aceso:通过迭代缓解瓶颈实现高效并行DNN训练 | EuroSys '24
- GMorph:通过模型融合加速多DNN推理 | EuroSys '24
- 利用大语言模型对云事件进行自动根因分析 | EuroSys '24
- KNighter:用LLM合成的检查器重塑静态分析 | SOSP' 25
- 城门外的蛮族:AI如何颠覆系统研究
- 让蛮族进来:AI如何加速系统性能研究
- AI研究工程技能库:AI研究工程技能与最佳实践合集
- K-Search:通过协同进化的内在世界模型生成LLM内核
工业级大语言模型技术报告
- Qwen2.5技术报告 - (2024年12月)
- Qwen 3技术报告 – (2025年5月)
- LLaMA:开放且高效的基座语言模型 - (2023年2月)
- Llama 2:开放的基座模型与微调后的聊天模型 - (2023年7月)
- Llama 3模型家族 - (2024年8月)
- Gemini:高度能力的多模态模型家族 - (2023年12月)
- Gemini 1.5:解锁跨越数百万标记的多模态理解 - (2024年2月)
- Gemini 2.5:以先进推理、多模态、长上下文及下一代代理能力推动前沿 - (2025年6月)
- Phi‑4‑reasoning技术报告 – (2025年4月)
- Phi‑4技术报告 – (2024年12月)
- Kimi‑VL技术报告 – (2025年4月)
- Kimi k1.5:利用LLM扩展强化学习 – (2025年1月)
- DeepSeek-LLM技术报告 - (2024年1月)
- DeepSeek-V2:强大、经济且高效的专家混合语言模型 - (2024年5月)
- DeepSeek-V3技术报告 - (2024年12月)
- DeepSeek-R1:通过强化学习激励LLM的推理能力 - (2025年1月)
- Kimi-VL:具备视觉、语言和长上下文的多模态LLM – (2025年4月)
- Kimi k1.5:利用多模态LLM进行强化学习 – (2025年1月)
- Kimi-K2:开放的代理智能 – (2025年7月)
- GPT-oss-120b & GPT-oss-20b – (2025年8月)
机器学习会议
NeurIPS 2025
一个精选的 NeurIPS 2025 论文集,专注于生成式 AI 模型的高效系统。该集合包括以下主题的论文:
- 架构与高效机制 - 高效注意力机制、KV 缓存系统、推测解码
- 模型压缩与量化 - 量化、剪枝、KV 缓存压缩
- 推理与服务 - LLM 服务、调度、分布式推理
- 多模态与扩散模型 - VLM 效率、扩散模型优化
- 强化学习 - RL 训练基础设施、策略优化
- 训练系统 - 分布式训练、内存效率
请参阅 完整的 NeurIPS 2025 论文集,以获取详细的分类和论文摘要。
LLM 框架
训练
DeepSpeed:一个深度学习优化库,使分布式训练和推理变得简单、高效且有效 | 微软
Accelerate | Hugging Face
Megatron | Nvidia
NeMo | Nvidia
torchtitan | PyTorch
veScale | 字节跳动
VeOmni:扩展任意模态模型的训练
Cornstarch:分布式多模态训练必须具备多模态感知能力 | UMich
后训练
服务
- TensorRT-LLM | Nvidia
- Ray-LLM | Ray
- TGI | Hugging Face
- vLLM | UCB
- SGLang | UCB
- KV Transformers
- Dynamo:一个数据中心规模的分布式推理服务框架 | NVIDA
- LMCache:用最快的 KV 缓存层加速你的 LLM
ML 系统
综述论文
LLM 基准测试 / 排行榜?追踪数据
- LLM 能源排行榜 | Umich
- LLM-Perf 排行榜 | HuggingFace
- Aviary Explorer | Anyscale
- 开放 LLM 排行榜 | HuggingFace
- HELM | 斯坦福
- LMSYS | UCB
- 迈向高效可靠的 LLM 服务:一项真实工作负载研究
相关 ML 阅读材料
- 大型 Transformer 模型推理优化
- Transformer 推理中的算术运算
- Transformer 家族 2.0 版本
- Transformer 推理的全栈优化:一份综述 | UCB
- 小型训练手册:构建世界级 LLM 的秘诀 | Hugging Face
- 超大规模训练手册:在 GPU 集群上训练 LLM | Hugging Face
MLSys 课程
- 机器学习系统 | (斯坦福)[https://cs229s.stanford.edu/fall2023/]
- 生成式 AI 系统 | (Umich)[https://github.com/mosharaf/eecs598/tree/w24-genai]
- AI 系统 - LLMs | (GT)[https://cs8803-sp24.anand-iyer.com/]
其他阅读材料
- 大型语言模型精选列表
- AI 系统论文列表
- 神经网络训练中自动并行化的基准仓库
- 每个 LLM 开发者都应该知道的数字
- 10 万个 H100 集群: 功率、网络拓扑、以太网 vs InfiniBand、可靠性、故障、检查点
- OpenAI 关于构建可扩展 AI 基础设施的主旨演讲
- Awesome ML SYS 教程
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备