Awesome-LLM-Inference

GitHub
5.1k 358 简单 1 次阅读 昨天GPL-3.0开发框架语言模型
AI 解读 由 AI 自动生成,仅供参考

Awesome-LLM-Inference 是一个专为大语言模型(LLM)和视觉语言模型(VLM)推理优化打造的精选资源库。它系统性地整理了大量带有代码实现的前沿学术论文,涵盖了从 FlashAttention、PagedAttention 到 WINT8/4 量化、多卡并行等核心技术领域。

在大模型日益复杂的今天,如何让模型跑得更快、更省显存是行业痛点。Awesome-LLM-Inference 通过分类汇总最新的研究成果,帮助开发者快速定位解决推理延迟高、显存占用大、长上下文处理难等问题的方案。无论是想要深入理解底层原理,还是寻找可直接落地的工程优化策略,这里都能提供清晰的路径。

该资源库特别适合 AI 工程师、算法研究人员以及对模型部署性能有极致追求的技术团队使用。其独特亮点在于不仅罗列论文,还强调“论文 + 代码”的实战结合,并持续更新如 DeepSeek/MLA 架构、预填充与解码分离(Disaggregated Prefill & Decoding)、混合并行策略等前沿热点。此外,项目还提供了适合初学者的 500 页综述指南,降低了高性能推理技术的学习门槛,是连接学术创新与工业落地的高效桥梁。

使用场景

某初创团队正在开发一款基于大模型的实时法律问答助手,需要在有限的单卡 GPU 服务器上实现高并发、低延迟的推理服务。

没有 Awesome-LLM-Inference 时

  • 技术选型迷茫:面对 FlashAttention、PagedAttention、WINT8 等数十种优化论文,团队花费数周手动筛选,难以判断哪些代码已开源且适合当前硬件。
  • 性能瓶颈难破:自行实现的注意力机制显存占用过高,导致批量处理(Batching)能力极弱,用户稍多即出现显存溢出(OOM)。
  • 量化落地困难:尝试引入 INT4 量化时,因缺乏成熟的 WINT4/SmoothQuant 参考实现,模型精度严重下降,无法满足法律场景的准确性要求。
  • 并行策略缺失:面对长上下文请求,不懂如何应用 Ring Attention 或 USP 混合并行策略,导致首字延迟高达数秒,用户体验极差。

使用 Awesome-LLM-Inference 后

  • 精准快速落地:直接查阅分类清单,迅速定位到带有完整代码的 PagedAttention 和 Continuous Batching 方案,将技术验证周期从数周缩短至两天。
  • 显存效率倍增:集成清单推荐的 KV Cache 优化算法,显存利用率提升 3 倍,成功支持更大 Batch Size,并发吞吐量显著增加。
  • 无损量化部署:复用 AWQ 和 WINT8/4 的成熟实现,在模型体积压缩 75% 的同时,保持了法律条文引用的准确度,顺利在单卡运行。
  • 长文本流畅响应:应用 Long Context 优化策略,结合早期退出(Early-Exit)技术,将长文档分析的首字延迟降低至毫秒级,响应丝滑流畅。

Awesome-LLM-Inference 充当了大模型推理优化的“导航图”,让团队免于重复造轮子,直接站在前沿算法的肩膀上构建高性能应用。

运行环境要求

操作系统
  • 未说明
GPU

未说明 (项目为论文与代码合集,具体需求取决于列表中各子项目的实现,通常涉及 NVIDIA GPU 及 CUDA)

内存

未说明

依赖
notes该项目是一个精选列表(Awesome List),汇集了 LLM 推理相关的论文和对应代码仓库,本身不是一个可直接运行的单一推理框架。运行具体工具需参考列表中各子项目(如 DeepSpeed, vLLM, FlashAttention 等)的独立文档。文中提到的下载脚本由 Doubao AI 生成。
python3.x (文中下载脚本示例使用 python3)
未说明
Awesome-LLM-Inference hero image

快速开始

📒简介

Awesome-LLM-Inference:精选的📙包含代码的优秀大模型推理论文列表。如需了解优秀的扩散模型推理相关资源,请查看📖Awesome-DiT-Inference。若想学习CUDA相关知识,可查阅📖LeetCUDA

📖 新闻 🔥🔥

  • [2026年3月] Cache-DiT 🎉v1.3.0 版本已发布,主要更新包括:支持Ring注意力机制及批处理P2PUSP(环形与Ulysses混合架构),混合2D和3D并行计算(💥USP + TP),以及降低VAE-P通信开销。

arch

©️引用

@misc{Awesome-LLM-Inference@2024,
  title={Awesome-LLM-Inference:包含代码的优秀大模型推理论文精选},
  url={https://github.com/xlite-dev/Awesome-LLM-Inference},
  note={开源软件可在https://github.com/xlite-dev/Awesome-LLM-Inference获取},
  author={xlite-dev, liyucheng09等},
  year={2024}
}

🎉 包含代码的大模型推理优秀论文

Awesome LLM Inference for Beginners.pdf:共500页,涵盖FastServe、FlashAttention 1/2、FlexGen、FP8、LLM.int8()、PagedAttention、RoPE、SmoothQuant、WINT8/4、连续批处理、ZeroQuant 1/2/FP、AWQ等内容。

🎉 下载所有PDF

python3 download_pdfs.py # 该代码由通义千问AI生成
image

📖 目录

📖热门LLM/VLM主题(©️返回👆🏻

日期 标题 论文 代码 推荐
2024.04 🔥🔥🔥[Open-Sora] Open-Sora:为所有人 democratize 高效视频制作(@hpcaitech) [文档] [Open-Sora] ⭐️⭐️
2024.04 🔥🔥🔥[Open-Sora计划] Open-Sora计划:本项目旨在复现Sora(Open AI的T2V模型)(@PKU) [报告] [Open-Sora-Plan] ⭐️⭐️
2024.05 🔥🔥🔥[DeepSeek-V2] DeepSeek-V2:一款强大、经济且高效的专家混合语言模型(@DeepSeek-AI) [pdf] [DeepSeek-V2] ⭐️⭐️
2024.05 🔥🔥[YOCO] 你只需缓存一次:用于语言模型的解码器-解码器架构(@Microsoft) [pdf] [unilm-YOCO] ⭐️⭐️
2024.06 🔥[Mooncake] Mooncake:一种以KV缓存为中心的分布式架构,用于LLM推理(@Moonshot AI) [pdf] [Mooncake] ⭐️⭐️
2024.07 🔥🔥[FlashAttention-3] FlashAttention-3:通过异步和低精度实现快速而准确的注意力机制(@TriDao等) [pdf] [flash-attention] ⭐️⭐️
2024.07 🔥🔥[MInference 1.0] MInference 1.0:通过动态稀疏注意力加速长上下文LLM的预填充(@Microsoft) [pdf] [MInference 1.0] ⭐️⭐️
2024.11 🔥🔥🔥[Star-Attention:11倍加速] Star Attention:高效处理长序列的LLM推理(@NVIDIA) [pdf] [Star-Attention] ⭐️⭐️
2024.12 🔥🔥🔥[DeepSeek-V3] DeepSeek-V3技术报告(@deepseek-ai) [pdf] [DeepSeek-V3] ⭐️⭐️
2025.01 🔥🔥🔥 [MiniMax-Text-01] MiniMax-01:利用闪电注意力扩展基础模型 [报告] [MiniMax-01] ⭐️⭐️
2025.01 🔥🔥🔥[DeepSeek-R1] DeepSeek-R1技术报告(@deepseek-ai) [pdf] [DeepSeek-R1] ⭐️⭐️

📖DeepSeek/多头潜在注意力(MLA)(©️返回👆🏻

日期 标题 论文 代码 推荐
2024.05 🔥🔥🔥[DeepSeek-V2] DeepSeek-V2:一款强大、经济且高效的专家混合语言模型(@DeepSeek-AI) [pdf] [DeepSeek-V2] ⭐️⭐️
2024.12 🔥🔥🔥[DeepSeek-V3] DeepSeek-V3技术报告(@deepseek-ai) [pdf] [DeepSeek-V3] ⭐️⭐️
2025.01 🔥🔥🔥[DeepSeek-R1] DeepSeek-R1技术报告(@deepseek-ai) [pdf] [DeepSeek-R1] ⭐️⭐️
2025.02 🔥🔥🔥[DeepSeek-NSA] 原生稀疏注意力:与硬件对齐且可原生训练的稀疏注意力(@deepseek-ai) [pdf] ⚠️ ⭐️⭐️
2025.02 🔥🔥🔥[FlashMLA] DeepSeek FlashMLA(@deepseek-ai) ⚠️ [FlashMLA] ⭐️⭐️
2025.02 🔥🔥🔥[DualPipe] DeepSeek DualPipe(@deepseek-ai) ⚠️ [DualPipe] ⭐️⭐️
2025.02 🔥🔥🔥[DeepEP] DeepSeek DeepEP(@deepseek-ai) ⚠️ [DeepEP] ⭐️⭐️
2025.02 🔥🔥🔥[DeepGEMM] DeepSeek DeepGEMM(@deepseek-ai) ⚠️ [DeepGEMM] ⭐️⭐️
2025.02 🔥🔥🔥[EPLB] DeepSeek EPLB(@deepseek-ai) ⚠️ [EPLB] ⭐️⭐️
2025.02 🔥🔥🔥[3FS] DeepSeek 3FS(@deepseek-ai) ⚠️ [3FS] ⭐️⭐️
2025.03 🔥🔥🔥[推理系统] DeepSeek-V3 / R1 推理系统概览 (@deepseek-ai) [博客] ⚠️ ⭐️⭐️
2025.02 🔥🔥[MHA2MLA] 通往经济型推理之路:在任何基于Transformer的LLM中启用DeepSeek的多头潜在注意力(@fudan.edu.cn) [pdf] [MHA2MLA] ⭐️⭐️
2025.02 🔥🔥[TransMLA] TransMLA:多头潜在注意力就是你需要的一切(@PKU) [pdf] [TransMLA] ⭐️⭐️
2025.03 🔥🔥[X-EcoMLA] X-EcoMLA:将预训练的注意力升级为MLA,实现高效且极致的KV压缩(@AMD) [pdf] ⚠️ ⭐️⭐️

📖多GPU/多节点并行(©️返回👆🏻

日期 标题 论文 代码 推荐
2019.10 🔥🔥[MP: ZeRO] DeepSpeed-ZeRO:面向万亿参数模型训练的内存优化(@microsoft.com) [pdf] [deepspeed] ⭐️⭐️
2020.05 🔥🔥[TP: Megatron-LM] Megatron-LM:使用模型并行训练数十亿参数语言模型(@NVIDIA) [pdf] [Megatron-LM] ⭐️⭐️
2022.05 🔥🔥[SP: Megatron-LM] Megatron-LM:降低大型Transformer模型中的激活重计算(@NVIDIA) [pdf] [Megatron-LM] ⭐️⭐️
2023.05 🔥🔥[SP: BPT] 面向大上下文模型的分块并行Transformer(@UC Berkeley) [pdf] [RingAttention] ⭐️⭐️
2023.10 🔥🔥[SP: Ring Attention] 基于分块Transformer的环形注意力机制,实现近无限上下文处理(@UC Berkeley) [pdf] [RingAttention] ⭐️⭐️
2023.11 🔥🔥[SP: STRIPED ATTENTION] STRIPED ATTENTION:用于因果Transformer的更快环形注意力机制(@MIT等) [pdf] [striped_attention] ⭐️⭐️
2023.10 🔥🔥[SP: DEEPSPEED ULYSSES] DEEPSPEED ULYSSES:支持极端长序列Transformer模型训练的系统优化(@microsoft.com) [pdf] [deepspeed] ⭐️⭐️
2024.03 🔥🔥[CP: Megatron-LM] Megatron-LM:上下文并行概述(@NVIDIA) [docs] [Megatron-LM] ⭐️⭐️
2024.05 🔥🔥[SP: Unified Sequence Parallel (USP)] YunChang:一种用于长上下文LLM模型训练和推理的统一序列并行注意力机制(@Tencent) [pdf] [long-context-attention] ⭐️⭐️
2024.11 🔥🔥[CP: Meta] 上下文并行技术用于可扩展的百万标记推理(@Meta Platforms, Inc) [pdf] ⚠️ ⭐️⭐️
2024.11 🔥🔥[TP: Comm Compression] 用于张量并行LLM推理的通信压缩技术(@recogni.com) [pdf] ⚠️ ⭐️⭐️
2024.11 🔥🔥🔥[SP: Star-Attention, 11x~ speedup] Star Attention:高效处理长序列的LLM推理(@NVIDIA) [pdf] [Star-Attention] ⭐️⭐️
2024.12 🔥🔥[SP: TokenRing] TokenRing:通过双向通信实现无限上下文LLM的高效并行框架(@SJTU) [pdf] [token-ring] ⭐️⭐️
2025.05 🔥🔥[FSDP 1/2] PyTorch FSDP:开始使用全分片数据并行(FSDP)(@pytorch) [docs] ⚠️ ⭐️⭐️

📖解耦预填充与解码(©️返回👆🏻

日期 标题 论文 代码 推荐
2024.01 🔥🔥[DistServe] DistServe:为优化吞吐量而解耦预填充与解码的大语言模型服务架构(@PKU) [pdf] [DistServe] ⭐️⭐️
2024.06 🔥🔥[Mooncake] Mooncake:以KV缓存为中心的解耦架构,用于LLM服务(@Moonshot AI) [pdf] [Mooncake] ⭐️⭐️
2024.12 🔥🔥[KVDirect] KVDirect:字节跳动推出的分布式解耦LLM推理系统 [pdf] ⚠️ ⭐️
2025.01 🔥🔥[DeServe] DESERVE:通过去中心化实现经济实惠的离线LLM推理(@Berkeley) [pdf] ⚠️ ⭐️
2025.04 🔥🔥[MegaScale-Infer] MegaScale-Infer:利用解耦专家并行技术大规模提供混合专家模型服务(@ByteDance Seed) [pdf] ⚠️ ⭐️

📖大语言模型算法与评估综述(©️返回👆🏻

日期 标题 论文 代码 推荐
2023.10 [评估] 评估大型语言模型:综合综述(@tju.edu.cn) [pdf] [Awesome-LLMs-Evaluation] ⭐️
2023.11 🔥[运行时性能] 解析大型语言模型训练、微调和推理的运行时性能(@hkust-gz.edu.cn) [pdf] ⚠️ ⭐️⭐️
2023.11 [ChatGPT周年纪念] ChatGPT一周年:开源大型语言模型是否正在迎头赶上?(@e.ntu.edu.sg) [pdf] ⚠️ ⭐️
2023.12 [算法综述] 大型语言模型的效率谱:算法综述(@Microsoft) [pdf] ⚠️ ⭐️
2023.12 [安全与隐私] 大型语言模型(LLM)安全与隐私综述:好的、坏的与丑陋的(@Drexel University) [pdf] ⚠️ ⭐️
2023.12 🔥[LLMCompass] 面向大型语言模型推理的硬件评估框架(@princeton.edu) [pdf] ⚠️ ⭐️⭐️
2023.12 🔥[高效LLM] 高效大型语言模型:综述(@Ohio State University等) [pdf] [Efficient-LLMs-Survey] ⭐️⭐️
2023.12 [服务综述] 向高效的生成式大型语言模型服务迈进:从算法到系统的综述(@Carnegie Mellon University) [pdf] ⚠️ ⭐️⭐️
2024.01 [理解LLM] 理解LLM:从训练到推理的全面概述(@Shaanxi Normal University等) [pdf] ⚠️ ⭐️⭐️
2024.02 [LLM-Viewer] LLM推理揭秘:综述与Roofline模型见解(@Zhihang Yuan等) [pdf] [LLM-Viewer] ⭐️⭐️
2024.07 [内部一致性与自我反馈] 大型语言模型中的内部一致性与自我反馈:综述 [pdf] [ICSF-Survey] ⭐️⭐️
2024.09 [低比特] 低比特大型语言模型综述:基础、系统与算法(@Beihang等) [pdf] ⚠️ ⭐️⭐️
2024.10 [LLM推理] 大型语言模型推理加速:全面的硬件视角(@SJTU等) [pdf] ⚠️ ⭐️⭐️

📖大语言模型训练/推理框架/设计(©️返回👆🏻

日期 标题 论文 代码 推荐
2020.05 🔥[Megatron-LM] 使用模型并行训练数十亿参数的语言模型(@NVIDIA) [pdf] [Megatron-LM] ⭐️⭐️
2023.03 [FlexGen] 单GPU实现大语言模型高吞吐生成式推理(@斯坦福大学等) [pdf] [FlexGen] ⭐️
2023.05 [SpecInfer] 通过推测性推理和标记树验证加速生成式大语言模型服务(@北京大学等) [pdf] [FlexFlow] ⭐️
2023.05 [FastServe] 面向大语言模型的快速分布式推理服务(@北京大学等) [pdf] ⚠️ ⭐️
2023.09 🔥[vLLM] 基于分页注意力的大语言模型服务高效内存管理(@UC伯克利等) [pdf] [vllm] ⭐️⭐️
2023.09 [StreamingLLM] 带注意力汇流的高效流式语言模型(@Meta AI等) [pdf] [streaming-llm] ⭐️
2023.09 [Medusa] Medusa:利用多解码头加速LLM生成的简单框架(@Tianle Cai等) [blog] [Medusa] ⭐️
2023.10 🔥[TensorRT-LLM] NVIDIA TensorRT LLM(@NVIDIA) [docs] [TensorRT-LLM] ⭐️⭐️
2023.11 🔥[DeepSpeed-FastGen 2x vLLM?] DeepSpeed-FastGen:通过MII和DeepSpeed-Inference实现LLM高吞吐文本生成(@微软) [pdf] [deepspeed-fastgen] ⭐️⭐️
2023.12 🔥🔥[SGLang] 使用SGLang高效编程大语言模型(@斯坦福大学等) [pdf] [sglang] ⭐️⭐️
2023.12 🔥[PETALS] 通过互联网进行大语言模型的分布式推理与微调(@HSE大学等) [pdf] [petals] ⭐️⭐️
2023.10 [LightSeq] LightSeq:面向长上下文Transformer分布式训练的序列级并行(@UC伯克利等) [pdf] [LightSeq] ⭐️
2023.12 [PowerInfer] PowerInfer:使用消费级GPU实现快速大语言模型服务(@上海交大) [pdf] [PowerInfer] ⭐️
2024.01 [inferflow] INFERFLOW:面向大语言模型的高效且高度可配置的推理引擎(@腾讯AI实验室) [pdf] [inferflow] ⭐️
2024.06 🔥[Mooncake] Mooncake:以KV缓存为中心的解耦架构,用于LLM服务(@Moonshot AI) [pdf] [Mooncake] ⭐️⭐️
2023.06 🔥[LMDeploy] LMDeploy:一个用于压缩、部署和部署LLM的工具包(@InternLM) [docs] [lmdeploy] ⭐️⭐️
2023.05 🔥[MLC-LLM] 具有ML编译功能的通用LLM部署引擎(@mlc-ai) [docs] [mlc-llm] ⭐️⭐️
2023.08 🔥[LightLLM] LightLLM是一个基于Python的LLM(大语言模型)推理和服务框架(@ModelTC) [docs] [lightllm] ⭐️⭐️
2023.03 🔥[llama.cpp] llama.cpp:用纯C/C++实现Meta的LLaMA模型(及其他模型)的推理(@ggerganov) [docs] [llama.cpp] ⭐️⭐️
2024.02 🔥[flashinfer] FlashInfer:LLM服务的内核库(@flashinfer-ai) [docs] [flashinfer] ⭐️⭐️
2024.06 🔥[Mooncake] Mooncake:以KV缓存为中心的解耦架构,用于LLM服务(@Moonshot AI) [pdf] [Mooncake] ⭐️⭐️
2024.07 🔥[DynamoLLM] DynamoLLM:为性能与能效设计LLM推理集群(@微软Azure研究) [pdf] ⚠️ ⭐️
2024.08 🔥[NanoFlow] NanoFlow:通过优化实现大语言模型服务的最佳吞吐量(@华盛顿大学) [pdf] [Nanoflow] ⭐️⭐️
2024.08 🔥[去中心化LLM] 基于边缘网络和能量收集的去中心化LLM推理(@帕多瓦) [pdf] ⚠️ ⭐️
2024.11 🔥[SparseInfer] SparseInfer:无需训练即可预测激活稀疏性,从而实现快速LLM推理(@首尔大学等) [pdf] ⚠️ ⭐️
2025.04 🔥[prima.cpp] PRIMA.CPP:在低资源日常家庭集群上加速70B规模LLM推理(@MBZUAI等) [pdf] [prima.cpp] ⭐️
2025.07 🔥[siiRL] DistFlow:一个完全分布式的强化学习框架,用于可扩展且高效的LLM后训练(@上海创新研究院) [pdf] [siiRL]
⭐️⭐️

📖连续/运行时批处理 (©️返回👆🏻)

日期 标题 论文 代码 推荐
2022.07 🔥[连续批处理] Orca:基于Transformer的生成模型分布式推理系统(首尔国立大学等) [pdf] ⚠️ ⭐️⭐️
2023.10 🔥[运行时批处理] NVIDIA TensorRT LLM 批处理管理器(NVIDIA) [docs] [TensorRT-LLM] ⭐️⭐️
2023.11 🔥[DeepSpeed-FastGen 2倍于vLLM?] DeepSpeed-FastGen:通过MII和DeepSpeed-Inference实现高吞吐量的LLM文本生成(微软) [blog] [deepspeed-fastgen] ⭐️⭐️
2023.11 [Splitwise] Splitwise:利用阶段拆分实现高效的生成式LLM推理(微软等) [pdf] ⚠️ ⭐️
2023.12 [SpotServe] SpotServe:在抢占式实例上服务生成式大型语言模型(cmu.edu等) [pdf] [SpotServe] ⭐️
2023.10 [LightSeq] LightSeq:用于长上下文Transformer分布式训练的序列级并行计算(UC Berkeley等) [pdf] [LightSeq] ⭐️
2024.05 🔥[vAttention] vAttention:无需PagedAttention即可实现LLM服务的动态内存管理(微软印度研究院) [pdf] [vAttention] ⭐️⭐️
2024.07 🔥🔥[vTensor] vTensor:用于高效LLM服务的灵活虚拟张量管理(上海交通大学等) [pdf] [vTensor] ⭐️⭐️
2024.08 🔥[自动推理引擎调优] 通过自动推理引擎调优实现SLO优化的LLM服务(南京大学等) [pdf] ⚠️ ⭐️⭐️
2024.08 🔥[SJF调度] 通过学习排序实现高效的LLM调度(UCSD等) [pdf] ⚠️ ⭐️⭐️
2024.12 🔥[BatchLLM] BatchLLM:通过全局前缀共享和面向吞吐量的标记批处理优化大规模批量LLM推理(微软) [pdf] ⚠️ ⭐️⭐️

📖权重/激活量化/压缩 (©️返回👆🏻)

日期 标题 论文 代码 推荐
2022.06 🔥[ZeroQuant] 面向大规模Transformer的高效且经济的后训练量化(@微软) [pdf] [DeepSpeed] ⭐️⭐️
2022.08 [FP8-Quantization] FP8量化:指数的力量(@高通AI研究) [pdf] [FP8-quantization] ⭐️
2022.08 [LLM.int8()] 面向大规模Transformer的8位矩阵乘法(@Facebook AI Research等) [pdf] [bitsandbytes] ⭐️
2022.10 🔥[GPTQ] GPTQ:生成式预训练Transformer的精确后训练量化(@IST奥地利等) [pdf] [gptq] ⭐️⭐️
2022.11 🔥[WINT8/4] 谁说大象不能跑:将大规模MoE模型带入云端规模生产(@NVIDIA&微软) [pdf] [FasterTransformer] ⭐️⭐️
2022.11 🔥[SmoothQuant] 大型语言模型的精准高效后训练量化(@MIT等) [pdf] [smoothquant] ⭐️⭐️
2023.03 [ZeroQuant-V2] 从全面研究到低秩补偿,探索LLM中的后训练量化(@微软) [pdf] [DeepSpeed] ⭐️
2023.06 🔥[AWQ] AWQ:面向LLM压缩与加速的激活感知权重量化(@MIT等) [pdf] [llm-awq] ⭐️⭐️
2023.06 [SpQR] SpQR:用于近无损LLM权重压缩的稀疏量化表示(@华盛顿大学等) [pdf] [SpQR] ⭐️
2023.06 [SqueezeLLM] SQUEEZELLM:稠密与稀疏量化(@berkeley.edu) [pdf] [SqueezeLLM] ⭐️
2023.07 [ZeroQuant-FP] 使用浮点格式实现LLM后训练W4A8量化的飞跃(@微软) [pdf] [DeepSpeed] ⭐️
2023.09 [KV缓存FP8 + WINT4] 关于LLM推理性能优化的探索(@HPC4AI) [博客] ⚠️ ⭐️
2023.10 [FP8-LM] FP8-LM:训练FP8大型语言模型(@微软等) [pdf] [MS-AMP] ⭐️
2023.10 [LLM-Shearing] SHEARED LLAMA:通过结构化剪枝加速语言模型预训练(@cs.princeton.edu等) [pdf] [LLM-Shearing] ⭐️
2023.10 [LLM-FP4] LLM-FP4:4位浮点量化Transformer(@ust.hk&meta等) [pdf] [LLM-FP4] ⭐️
2023.11 [2-bit LLM] 在GPU上实现快速2位LLM:内存对齐、稀疏异常值与异步反量化(@上海交通大学等) [pdf] ⚠️ ⭐️
2023.12 [SmoothQuant+] SmoothQuant+:面向LLM的精准高效4位后训练权重量化(@中兴通讯) [pdf] [smoothquantplus] ⭐️
2023.11 [OdysseyLLM W4A8] 部署级LLM量化的速度之旅(@meituan.com) [pdf] ⚠️ ⭐️
2023.12 🔥[SparQ] SPARQ注意力:带宽高效的LLM推理(@graphcore.ai) [pdf] ⚠️ ⭐️⭐️
2023.12 [Agile-Quant] Agile-Quant:面向边缘端LLM更快速推理的激活引导量化(@东北大学&Oracle) [pdf] ⚠️ ⭐️
2023.12 [CBQ] CBQ:面向大型语言模型的跨块量化(@ustc.edu.cn) [pdf] ⚠️ ⭐️
2023.10 [QLLM] QLLM:面向大型语言模型的精准高效低比特量化(@ZIP Lab&SenseTime Research等) [pdf] ⚠️ ⭐️
2024.01 [FP6-LLM] FP6-LLM:以FP6为中心的算法-系统协同设计,高效服务大型语言模型(@微软等) [pdf] ⚠️ ⭐️
2024.05 🔥🔥[W4A8KV4] QServe:面向高效LLM服务的W4A8KV4量化与系统协同设计(@MIT&NVIDIA) [pdf] [qserve] ⭐️⭐️
2024.05 🔥[SpinQuant] SpinQuant:带有学习旋转的LLM量化(@Meta) [pdf] ⚠️ ⭐️
2024.05 🔥[I-LLM] I-LLM:面向全量化低比特大型语言模型的高效纯整数推理(@Houmo AI) [pdf] ⚠️ ⭐️
2024.06 🔥[OutlierTune] OutlierTune:面向大型语言模型的高效逐通道量化(@北京大学) [pdf] ⚠️ ⭐️
2024.06 🔥[GPTQT] GPTQT:为提升效率对大型语言模型进行两次量化(@zju) [pdf] ⚠️ ⭐️
2024.08 🔥[ABQ-LLM] ABQ-LLM:面向大型语言模型的任意比特量化推理加速(@字节跳动) [pdf] [ABQ-LLM] ⭐️
2024.08 🔥[1-bit LLMs] 在1位LLM时代,要么做矩阵乘法,要么不做(@南卡罗来纳大学) [pdf] ⚠️ ⭐️
2024.08 🔥[ACTIVATION SPARSITY] 大型语言模型中的免训练激活稀疏化(@MIT等) [pdf] [TEAL] ⭐️
2024.09 🔥[VPTQ] VPTQ:面向大型语言模型的极低比特向量后训练量化(@微软) [pdf] [VPTQ] ⭐️
2024.11 🔥[BitNet] BitNet a4.8:面向1位LLM的4位激活(@微软) [pdf] [bitnet] ⭐️
2025.04 🔥[BitNet v2] BitNet v2:面向1位LLM的原生4位激活与哈达玛变换(@微软) [pdf] [bitnet] ⭐️
2025.05 🔥[GuidedQuant] GuidedQuant:利用末端损失指导的大语言模型量化(@SNU&SamsungAILab&Google) [pdf] [GuidedQuant] ⭐️⭐️

📖输入/浮点运算次数感知的稀疏注意力(©️返回👆🏻

日期 标题 论文 代码 推荐
2018.05 [在线Softmax] 用于Softmax的在线归一化计算(@NVIDIA) [pdf] ⚠️ ⭐️
2019.11 🔥[MQA] 快速Transformer解码:一个写头就够了(@Google) [pdf] ⚠️ ⭐️⭐️
2020.10 [哈希注意力] REFORMER:高效的Transformer(@Google) [pdf] [reformer] ⭐️⭐️
2022.05 🔥[FlashAttention] 具有IO感知的快速且内存高效的精确注意力(@斯坦福大学等) [pdf] [flash-attention] ⭐️⭐️
2022.10 [在线Softmax] 自注意力并不需要O(n^2)的内存(@Google) [pdf] ⚠️ ⭐️
2023.05 [FlashAttention] 从在线Softmax到FlashAttention(@cs.washington.edu) [pdf] ⚠️ ⭐️⭐️
2023.05 [FLOP, I/O] 解析GPT推理中的批处理效应(@Lequn Chen) [blog] ⚠️ ⭐️
2023.05 🔥🔥[GQA] GQA:从多头检查点训练广义多查询Transformer模型(@Google) [pdf] [flaxformer] ⭐️⭐️
2023.06 [稀疏FlashAttention] 通过稀疏FlashAttention加速大序列上的因果注意力(@EPFL等) [pdf] [dynamic-sparse-flash-attention] ⭐️
2023.07 🔥[FlashAttention-2] 更好的并行性和工作划分带来的更快注意力(@斯坦福大学等) [pdf] [flash-attention] ⭐️⭐️
2023.10 🔥[Flash-Decoding] 用于长上下文推理的Flash-Decoding(@斯坦福大学等) [blog] [flash-attention] ⭐️⭐️
2023.11 [Flash-Decoding++] FLASHDECODING++:在GPU上更快速的大语言模型推理(@清华大学&Infinigence-AI) [pdf] ⚠️ ⭐️
2023.01 [SparseGPT] SparseGPT:大规模语言模型可以一次性被准确剪枝(@ISTA等) [pdf] [sparsegpt] ⭐️
2023.12 🔥[GLA] 具有硬件高效训练的门控线性注意力Transformer(@MIT-IBM Watson AI) [pdf] gated_linear_attention ⭐️⭐️
2023.12 [SCCA] SCCA:用于长上下文语义扩展的移位跨块注意力(@北京航空航天大学) [pdf] ⚠️ ⭐️
2023.12 🔥[FlashLLM] 闪存中的LLM:有限内存下的高效大语言模型推理(@Apple) [pdf] ⚠️ ⭐️⭐️
2024.03 🔥🔥[CHAI] CHAI:用于高效LLM推理的聚类头部注意力(@cs.wisc.edu等) [pdf] ⚠️ ⭐️⭐️
2024.04 🔥🔥[DeFT] DeFT:使用Flash树注意力进行高效树结构LLM推理(@西湖大学等) [pdf] ⚠️ ⭐️⭐️
2024.04 [MoA] MoA:用于自动大语言模型压缩的稀疏注意力混合(@thu等.) [pdf] [MoA] ⭐️
2024.07 🔥🔥[FlashAttention-3] FlashAttention-3:具有异步和低精度的快速且准确的注意力(@TriDao等) [pdf] [flash-attention] ⭐️⭐️
2024.07 🔥🔥[MInference 1.0] MInference 1.0:通过动态稀疏注意力加速长上下文LLM的预填充(@微软) [pdf] [MInference 1.0] ⭐️⭐️
2024.07 🔥🔥[共享注意力] 超越KV缓存:用于高效LLM的共享注意力(@九州大学等) [pdf] [shareAtt] ⭐️
2024.09 🔥🔥[CHESS] CHESS:通过通道级阈值和选择性稀疏化优化LLM推理(@武汉大学) [pdf] ⚠️ ⭐️⭐️
2024.09 🔥🔥[INT-FLASHATTENTION] INT-FLASHATTENTION:为INT8量化启用Flash注意力(@PKU等) [pdf] [INT-FlashAttention] ⭐️
2024.10 🔥🔥[SageAttention] SAGEATTENTION:用于即插即用推理加速的精确8位注意力(@thu-ml) [pdf] [SageAttention] ⭐️⭐️
2024.11 🔥🔥[SageAttention-2] SageAttention2:通过彻底的异常值平滑和线程级INT4量化实现高效注意力(@thu-ml) [pdf] [SageAttention] ⭐️⭐️
2024.11 🔥🔥[Squeezed Attention] 压缩注意力:加速长上下文LLM推理(@UC Berkeley) [pdf] [SqueezedAttention] ⭐️⭐️
2024.12 🔥🔥[TurboAttention] TURBOATTENTION:适用于高吞吐量LLM的高效注意力近似(@微软) [pdf] ⚠️ ⭐️⭐️
2025.01 🔥🔥[FFPA] FFPA:另一种更快的Flash预填充注意力,对于head dim > 256,SRAM复杂度为O(1),比SDPA EA快约1.5倍(@xlite-dev) [docs] [ffpa-attn] ⭐️⭐️
2025.03 🔥🔥[SpargeAttention] SpargeAttn:准确的稀疏注意力,可加速任何模型的推理(@thu-ml) [pdf] [SpargeAttn] ⭐️⭐️
2025.04 🔥🔥[MMInference] MMInference:通过模态感知的置换稀疏注意力加速长上下文视觉语言模型的预填充(@微软) [pdf] [MInference] ⭐️⭐️
2025.04 🔥🔥[Sparse Frontier] 稀疏前沿:Transformer LLM中的稀疏注意力权衡(@Cohere) [pdf] [SparseFrontier] ⭐️⭐️
2024.12 🔥🔥[Flex Attention] FLEX ATTENTION:用于生成优化注意力核的编程模型(@pytorch) [pdf] [attention-gym] ⭐️⭐️
2025.02 🔥🔥🔥[SeerAttention] SeerAttention:在您的LLM中学习内在的稀疏注意力(@微软) [pdf] [SeerAttention] ⭐️⭐️⭐️
2025.03 [Slim attention] Slim attention:在不损失精度的情况下将上下文内存减半,MHA只需要K-cache即可(@OpenMachine.ai) [pdf] [OpenMchine] ⭐️⭐️⭐️
2025.05 🔥🔥[SageAttention-3] SageAttention3:用于推理的微型FP4注意力以及8位训练的探索(@thu-ml) [pdf] [SageAttention] ⭐️⭐️
2025.04 🔥🔥[Parallel Encoding] APE:通过自适应并行编码实现更快、更长的上下文增强生成(@cmu.edu&NVIDIA) [pdf] [APE] ⭐️⭐️
2025.04 🔥🔥[Parallel Encoding] 块注意力用于高效预填充(@腾讯等) [pdf] [Block-attention] ⭐️⭐️

📖KV缓存调度/量化/丢弃(©️返回👆🏻

日期 标题 论文 代码 推荐
2019.11 🔥[MQA] 快速Transformer解码:一个写头就够了(@Google) [pdf] ⚠️ ⭐️⭐️
2022.06 [LTP] 针对Transformer的可学习令牌剪枝(@UC Berkeley等) [pdf] [LTP] ⭐️
2023.05 🔥🔥[GQA] GQA:从多头检查点训练广义多查询Transformer模型(@Google) [pdf] [flaxformer] ⭐️⭐️
2023.05 [KV缓存压缩] Scissorhands:利用重要性持久性假设在推理时压缩LLM的KV缓存(@) [pdf] ⚠️ ⭐️⭐️
2023.06 [H2O] H2O:用于大型语言模型高效生成式推理的重击者Oracle(@Rice University等) [pdf] [H2O] ⭐️
2023.06 [QK稀疏/丢弃注意力] 通过稀疏Flash注意力加速大序列上的因果注意力(@EPFL等) [pdf] [dynamic-sparse-flash-attention] ⭐️
2023.08 🔥🔥[分块预填充] SARATHI:通过分块预填充捎带解码实现高效的LLM推理(@Microsoft等) [pdf] ⚠️ ⭐️⭐️
2023.09 🔥🔥[PagedAttention] 使用PagedAttention实现大型语言模型服务中的高效内存管理(@UC Berkeley等) [pdf] [vllm] ⭐️⭐️
2023.09 [KV缓存FP8 + WINT4] 关于LLM推理性能优化的探索(@HPC4AI) [博客] ⚠️ ⭐️
2023.10 🔥[TensorRT-LLM KV缓存FP8] NVIDIA TensorRT LLM(@NVIDIA) [文档] [TensorRT-LLM] ⭐️⭐️
2023.10 🔥[自适应KV缓存压缩] 模型告诉你该丢弃什么:针对LLMs的自适应KV缓存压缩(@illinois.edu&microsoft) [pdf] ⚠️ ⭐️⭐️
2023.10 [CacheGen] CacheGen:面向语言模型应用的快速上下文加载(@Chicago University&Microsoft) [pdf] [LMCache] ⭐️
2023.12 [KV缓存优化] 利用推测采样与KV缓存优化协同提升使用OpenVINO的生成式AI性能(@Haim Barad等) [pdf] ⚠️ ⭐️
2023.12 [LoRA辅助的KV缓存压缩] 面向在线语言模型交互的压缩上下文记忆(@SNU & NAVER AI) [pdf] [Compressed-Context-Memory] ⭐️⭐️
2023.12 🔥🔥[RadixAttention] 使用SGLang高效编程大型语言模型(@Stanford University等) [pdf] [sglang] ⭐️⭐️
2024.01 🔥🔥[DistKV-LLM] Infinite-LLM:借助DistAttention和分布式KV缓存实现长上下文的高效LLM服务(@Alibaba等) [pdf] ⚠️ ⭐️⭐️
2024.02 🔥🔥[提示缓存] 通过嵌入相似度实现高效的提示缓存(@UC Berkeley) [pdf] ⚠️ ⭐️⭐️
2024.02 🔥🔥[Less] 以LESS获得更多:通过KV缓存压缩合成递归以实现高效的LLM推理(@CMU等) [pdf] ⚠️ ⭐️
2024.02 🔥🔥[MiKV] 不遗漏任何一个令牌:基于重要性感知的混合精度量化实现可靠的KV缓存压缩(@KAIST) [pdf] ⚠️ ⭐️
2024.02 🔥🔥[共享前缀] Hydragen:利用共享前缀实现高吞吐量的LLM推理 [pdf] ⚠️ ⭐️⭐️
2024.02 🔥🔥[ChunkAttention] ChunkAttention:带有前缀感知KV缓存和两阶段分区的高效自注意力(@microsoft.com) [pdf] [chunk-attention] ⭐️⭐️
2024.03 🔥[QAQ] QAQ:适用于LLM KV缓存的质量适应性量化(@smail.nju.edu.cn) [pdf] [QAQ-KVCacheQuantization] ⭐️⭐️
2024.03 🔥🔥[DMC] 动态内存压缩:为LLMs加装加速推理的“外挂”(@NVIDIA等) [pdf] ⚠️ ⭐️⭐️
2024.03 🔥🔥[Keyformer] Keyformer:通过关键令牌选择减少KV缓存,实现高效生成式推理(@ece.ubc.ca等) [pdf] [Keyformer] ⭐️⭐️
2024.03 [FASTDECODE] FASTDECODE:利用异构资源实现高吞吐量且GPU高效的LLM服务(@Tsinghua University) [pdf] ⚠️ ⭐️⭐️
2024.03 [稀疏感知KV缓存] ALISA:通过稀疏感知KV缓存加速大型语言模型推理(@ucf.edu) [pdf] ⚠️ ⭐️⭐️
2024.03 🔥[GEAR] GEAR:近乎无损生成式推理的高效KV缓存压缩方案(@gatech.edu) [pdf] [GEAR] ⭐️
2024.04 [SqueezeAttention] SQUEEZEATTENTION:通过逐层最优预算实现LLM推理中KV缓存的二维管理(@lzu.edu.cn等) [pdf] [SqueezeAttention] ⭐️⭐️
2024.04 [SnapKV] SnapKV:LLM在生成之前就知道你在寻找什么(@UIUC) [pdf] [SnapKV] ⭐️
2024.05 🔥[vAttention] vAttention:无需分页注意力即可为LLM服务提供动态内存管理(@Microsoft Research India) [pdf] [vAttention] ⭐️⭐️
2024.05 🔥[KVCache-1Bit] KV缓存每通道仅1比特:通过联合量化实现高效的大型语言模型推理(@Rice University) [pdf] ⚠️ ⭐️⭐️
2024.05 🔥[KV-Runahead] KV-Runahead:通过并行生成键值缓存实现可扩展的因果LLM推理(@Apple等) [pdf] ⚠️ ⭐️⭐️
2024.05 🔥[ZipCache] ZipCache:结合显著令牌识别实现精准高效的KV缓存量化(@Zhejiang University等) [pdf] ⚠️ ⭐️⭐️
2024.05 🔥[MiniCache] MiniCache:面向大型语言模型的深度维度KV缓存压缩(@ZIP Lab) [pdf] ⚠️ ⭐️⭐️
2024.05 🔥[CacheBlend] CacheBlend:通过融合缓存知识实现快速大型语言模型服务(@University of Chicago) [pdf] [LMCache] ⭐️⭐️
2024.06 🔥[CompressKV] 有效压缩LLM的KV头(@alibaba等) [pdf] ⚠️ ⭐️⭐️
2024.06 🔥[MemServe] MemServe:采用弹性内存池实现去中心化LLM服务的上下文缓存(@Huawei Cloud等) [pdf] ⚠️ ⭐️⭐️
2024.07 🔥[MLKV] MLKV:用于内存高效Transformer解码的多层键值头(@Institut Teknologi Bandung) [pdf] [pythia-mlkv] ⭐️
2024.07 🔥[ThinK] ThinK:通过查询驱动的剪枝使键缓存更薄(@Salesforce AI Research等) [pdf] ⚠️ ⭐️⭐️
2024.07 🔥[Palu] Palu:利用低秩投影压缩KV缓存(@nycu.edu.tw) [pdf] [Palu] ⭐️⭐️
2024.08 🔥[零延迟QKV压缩] 在LLM推理中缓解KV缓存和网络瓶颈的零延迟QKV压缩(@University of Virginia) [pdf] ⚠️ ⭐️⭐️
2024.09 🔥[AlignedKV] AlignedKV:通过精度对齐量化降低KV缓存的内存访问(@Tsinghua University) [pdf] [AlignedKV] ⭐️
2024.10 🔥[LayerKV] 通过逐层KV缓存管理优化大型语言模型服务(@Ant Group) [pdf] ⚠️ ⭐️⭐️
2024.10 🔥[AdaKV] Ada-KV:通过自适应预算分配优化KV缓存淘汰,实现高效LLM推理(@USTC) [pdf] [AdaKV] ⭐️⭐️
2024.11 🔥[KV缓存重计算] 通过I/O感知的部分KV缓存重计算实现高效LLM推理(@University of Southern California) [pdf] ⚠️ ⭐️⭐️
2024.12 🔥[ClusterKV] ClusterKV:在语义空间中操作LLM的KV缓存以实现可召回的压缩(@sjtu) [pdf] ⚠️ ⭐️⭐️
2024.12 🔥[DynamicKV] DynamicKV:面向长上下文LLMs的任务感知自适应KV缓存压缩(@xiabinzhou0625等) [pdf] ⚠️ ⭐️⭐️
2025.02 🔥[DynamicLLaVA] [ICLR2025] Dynamic-LLaVA:通过动态视觉-语言上下文稀疏化实现高效多模态大型语言模型(@ECNU, Xiaohongshu) [pdf] [DynamicLLaVA] ⭐️⭐️
2025.02 🔥[CacheCraft] Cache-Craft:管理分块缓存以实现高效的检索增强生成(@Adobe Research) [pdf] ⚠️ ⭐️⭐️
2025.04 🔥[KV缓存预取] 通过异步KV缓存预取提升LLM推理吞吐量(@Alibaba) [pdf] ⚠️ ⭐️⭐️
2025.05 🔥[KVzip] KVzip:具有上下文重建能力的查询无关KV缓存压缩(@SNU) [pdf] [KVzip] ⭐️⭐️
2025.06 🔥🔥[推理时超规模扩展] 结合KV缓存压缩实现推理时的超规模扩展(@NVIDIA) [pdf] ⚠️ ⭐️⭐️
2026.03 [AVP] 代理向量协议:通过词汇媒介投影实现跨模型KV缓存传输(@VectorArc) [规范] [avp-python] ⭐️⭐️

📖提示/上下文/KV压缩(©️返回👆🏻

日期 标题 论文 代码 推荐
2023.04 🔥[选择性上下文] 压缩上下文以提升大语言模型的推理效率(萨里大学) [pdf] Selective-Context ⭐️⭐️
2023.05 [AutoCompressor] 适配语言模型以压缩上下文(普林斯顿大学) [pdf] AutoCompressor ⭐️
2023.10 🔥[LLMLingua] LLMLingua:通过压缩提示加速大语言模型的推理(微软) [pdf] LLMLingua ⭐️⭐️
2023.10 🔥🔥[LongLLMLingua] LongLLMLingua:通过提示压缩在长上下文场景下加速并增强大语言模型性能(微软) [pdf] LLMLingua ⭐️⭐️
2024.03 🔥[LLMLingua-2] LLMLingua-2:用于高效且忠实的任务无关提示压缩的数据蒸馏(微软) [pdf] LLMLingua系列 ⭐️
2024.08 🔥🔥[500xCompressor] 500xCompressor:面向大语言模型的通用提示压缩(剑桥大学) [pdf] ⚠️ ⭐️⭐️
2024.08 🔥🔥[特征注意力] 特征注意力:基于低秩空间的注意力机制用于KV缓存压缩(普渡大学) [pdf] ⚠️ ⭐️⭐️
2024.09 🔥🔥[提示压缩] 基于上下文感知句子编码的提示压缩,用于快速且改进的大语言模型推理(Alterra AI) [pdf] ⚠️ ⭐️⭐️
2024.09 🔥🔥[上下文蒸馏] 高效的大语言模型上下文蒸馏(佐治亚理工学院) [pdf] ⚠️ ⭐️⭐️
2024.09 🔥🔥[CRITIPREFILL] CRITIPREFILL:一种基于片段关键性的预填充加速方法,适用于大语言模型(OPPO) [pdf] CritiPrefill ⭐️
2024.10 🔥🔥[KV-COMPRESS] 基于分页的KV缓存压缩,按注意力头设置可变压缩率(Cloudflare公司) [pdf] vllm-kvcompress ⭐️⭐️
2024.10 🔥🔥[LORC] 基于渐进式压缩策略的大语言模型KV缓存低秩压缩(佐治亚理工学院) [pdf] ⚠️ ⭐️⭐️
2025.11 🔥🔥[KVTC] KV缓存变换编码,用于大语言模型推理中的紧凑存储(NVIDIA) [pdf] ⚠️ ⭐️⭐️

📖长上下文注意力/KV缓存优化(©️返回👆🏻

日期 标题 论文 代码 推荐
2023.05 🔥🔥[分块注意力] 用于大上下文模型的分块并行Transformer(@UC Berkeley) [pdf] ⚠️ ⭐️⭐️
2023.05 🔥[地标注意力] Transformer的随机访问无限上下文长度(@epfl.ch) [pdf] landmark-attention ⭐️⭐️
2023.07 🔥[LightningAttention-1] TRANSNORMERLLM:一种更快更好的大型语言模型,采用改进的TRANSNORMER(@OpenNLPLab) [pdf] TransnormerLLM ⭐️⭐️
2023.07 🔥[LightningAttention-2] Lightning Attention-2:处理大型语言模型中无限序列长度的免费午餐(@OpenNLPLab) [pdf] lightning-attention ⭐️⭐️
2023.10 🔥🔥[环形注意力] 基于分块Transformer的环形注意力,实现近乎无限的上下文(@UC Berkeley) [pdf] [RingAttention] ⭐️⭐️
2023.11 🔥[超注意力] 超注意力:近线性时间内的长上下文注意力(@yale&Google) [pdf] hyper-attn ⭐️⭐️
2023.11 [流式注意力] 一次遍历的流式算法,用于在亚线性空间中近似超长标记的注意力(@Adobe Research等) [pdf] ⚠️ ⭐️
2023.11 🔥[提示缓存] 提示缓存:用于低延迟推理的模块化注意力复用(@耶鲁大学等) [pdf] ⚠️ ⭐️⭐️
2023.11 🔥🔥[条纹注意力] 条纹注意力:因果Transformer的更快环形注意力(@MIT等) [pdf] [striped_attention] ⭐️⭐️
2024.01 🔥🔥[KV量化] KVQuant:通过KV缓存量化实现千万级上下文长度的LLM推理(@UC Berkeley) [pdf] [KVQuant] ⭐️⭐️
2024.02 🔥[中继注意力] 中继注意力:用于高效服务具有长系统提示的大语言模型(@sensetime.com等) [pdf] ⚠️ ⭐️⭐️
2024.04 🔥🔥[Infini-attention] 不留任何上下文:使用Infini-attention的高效无限上下文Transformer(@Google) [pdf] ⚠️ ⭐️⭐️
2024.04 🔥🔥[RAGCache] RAGCache:用于检索增强生成的高效知识缓存(@北京大学&字节跳动公司) [pdf] ⚠️ ⭐️⭐️
2024.04 🔥🔥[KCache] 使用KCache实现高效LLM推理(@Qiaozhi He, Zhihua Wu) [pdf] ⚠️ ⭐️⭐️
2024.04 🔥[HOMER] 层次化上下文融合:提升预训练LLM的长上下文理解能力(@KAIST) [pdf] [HOMER] ⭐️⭐️
2024.05 🔥🔥[YOCO] 你只需缓存一次:用于语言模型的解码器-解码器架构(@微软) [pdf] [unilm-YOCO] ⭐️⭐️
2024.05 🔥🔥[SKVQ] SKVQ:用于大型语言模型的滑动窗口键值缓存量化(@上海人工智能实验室) [pdf] ⚠️ ⭐️⭐️
2024.05 🔥🔥[CLA] 通过跨层注意力减少Transformer的键值缓存大小(@MIT-IBM) [pdf] ⚠️ ⭐️⭐️
2024.06 🔥[LOOK-M] LOOK-M:KV缓存中的“看一次”优化,用于高效多模态长上下文推理(@osu.edu等) [pdf] [LOOK-M] ⭐️⭐️
2024.06 🔥🔥[MInference] MInference 1.0:通过动态稀疏注意力加速长上下文LLM的预填充(@微软等) [pdf] [MInference] ⭐️⭐️
2024.06 🔥🔥[InfiniGen] InfiniGen:通过动态KV缓存管理实现大型语言模型的高效生成式推理(@snu) [pdf] ⚠️ ⭐️⭐️
2024.06 🔥🔥[Quest] Quest:面向高效长上下文LLM推理的查询感知稀疏性(@mit-han-lab等) [pdf] [Quest] ⭐️⭐️
2024.07 🔥[PQCache] PQCache:基于产品量化技术的KV缓存,用于长上下文LLM推理(@PKU等) [pdf] ⚠️ ⭐️⭐️
2024.08 🔥[SentenceVAE] SentenceVAE:通过下一句子预测实现更快、更长、更准确的大型语言模型推理(@TeleAI) [pdf] ⚠️ ⭐️⭐️
2024.09 🔥[InstInfer] InstInfer:为低成本长上下文LLM推理而设计的存储内注意力卸载(@PKU等) [pdf] ⚠️ ⭐️⭐️
2024.09 🔥[检索注意力] 检索注意力:通过向量检索加速长上下文LLM推理(@microsoft.com) [pdf] ⚠️ ⭐️⭐️
2024.10 🔥[ShadowKV] ShadowKV:用于高吞吐量长上下文LLM推理的阴影KV缓存(@CMU & 字节跳动) [pdf] [ShadowKV] ⭐️⭐️
2025.01 🔥🔥🔥 [闪电注意力] MiniMax-01:利用闪电注意力扩展基础模型 [报告] [MiniMax-01] ⭐️⭐️
2025.06 🔥[REFORM] 压缩、聚合与重新计算:改革Transformer中的长上下文处理(@KAIST & Amazon等) [pdf] ⚠️ ⭐️⭐️

📖早退出/中间层解码(©️返回👆🏻

日期 标题 论文 代码 推荐
2020.04 [DeeBERT] DeeBERT:用于加速BERT推理的动态早退出(@uwaterloo.ca) [pdf] ⚠️ ⭐️
2020.04 [FastBERT] FastBERT:一种自蒸馏且具有自适应推理时间的BERT(@PKU) [pdf] [FastBERT] ⭐️
2021.06 [BERxiT] BERxiT:具有更好微调并可扩展至回归任务的BERT早退出(@uwaterloo.ca) [pdf] [berxit] ⭐️
2023.06 🔥[SkipDecode] SkipDecode:基于批处理与缓存的自回归跳过解码,用于高效LLM推理(@Microsoft) [pdf] ⚠️ ⭐️
2023.10 🔥[LITE] 通过LITE指令微调实现中间层解码,加速LLaMA推理(@Arizona State University) [pdf] ⚠️ ⭐️⭐️
2023.12 🔥🔥[EE-LLM] EE-LLM:采用3D并行技术的大规模早退出语言模型训练与推理(@alibaba-inc.com) [pdf] [EE-LLM] ⭐️⭐️
2023.10 🔥[FREE] 具有同步并行解码功能的快速稳健自回归语言模型早退出框架(@KAIST AI&AWS AI) [pdf] [fast_robust_early_exit] ⭐️⭐️
2024.02 🔥[EE-Tuning] EE-Tuning:一种经济高效且可扩展的早退出大型语言模型微调方案(@alibaba-inc.com) [pdf] [EE-Tuning] ⭐️⭐️
2024.07 [跳过注意力] 注意力就是一切,但在大型语言模型推理时你并不需要全部注意力(@University College London) [pdf] ⚠️ ⭐️⭐️
2024.08 [KOALA] KOALA:通过多层草稿头结合对抗学习增强LLM的推测解码(@Dalian University) [pdf] ⚠️ ⭐️⭐️

📖并行解码/采样 (©️返回👆🏻)

日期 标题 论文 代码 推荐
2018.11 🔥[并行解码] 针对深度自回归模型的分块并行解码(@伯克利&谷歌) [pdf] ⚠️ ⭐️⭐️
2023.02 🔥[推测采样] 利用推测采样加速大语言模型解码(@DeepMind) [pdf] ⚠️ ⭐️⭐️
2023.05 🔥[推测采样] 通过推测解码实现Transformer的快速推理(@Google Research等) [pdf] [LLMSpeculativeSampling] ⭐️⭐️
2023.09 🔥[Medusa] Medusa:利用多解码头加速LLM生成的简单框架(@Tianle Cai等) [pdf] [Medusa] ⭐️⭐️
2023.10 [OSD] 在线推测解码(@UC Berkeley等) [pdf] ⚠️ ⭐️⭐️
2023.12 [级联推测] 用于更快速LLM推理的级联推测草稿(@illinois.edu) [pdf] ⚠️ ⭐️
2024.02 🔥[LookaheadDecoding] 使用LOOKAHEAD DECODING打破LLM推理的顺序依赖(@UCSD&Google&UC Berkeley) [pdf] [LookaheadDecoding] ⭐️⭐️
2024.02 🔥🔥[推测解码] 解码推测解码(@cs.wisc.edu) [pdf] Decoding Speculative Decoding ⭐️
2024.04 🔥🔥[TriForce] TriForce:利用层次化推测解码实现长序列生成的无损加速(@cmu.edu&Meta AI) [pdf] [TriForce] ⭐️⭐️
2024.04 🔥🔥[隐式迁移] 通过隐式迁移实现无损大语言模型加速的并行解码(@pku.edu.cn等) [pdf] ⚠️ ⭐️
2024.05 🔥[指令式解码] 指令微调的大语言模型能够从噪声指令中自我精炼(@KAIST AI) [pdf] [Instructive-Decoding] ⭐️
2024.05 🔥[S3D] S3D:一种简单且经济高效的低显存GPU自推测解码方案(@lge.com) [pdf] ⚠️ ⭐️
2024.06 🔥[并行解码] 探索与改进分块并行解码中的草稿(@KAIST&Google Research) [pdf] ⚠️ ⭐️⭐️
2024.07 🔥[多Token推测解码] 多Token联合推测解码以加速大语言模型推理(@加州大学等) [pdf] ⚠️ ⭐️⭐️
2024.08 🔥[Token回收] 化腐朽为神奇:通过Token回收加速大语言模型推理(@ir.hit.edu.cn等) [pdf] ⚠️ ⭐️⭐️
2024.08 🔥[推测解码] 具有自适应草稿长度的并行推测解码(@USTC等) [pdf] [PEARL] ⭐️⭐️
2024.08 🔥[FocusLLM] FocusLLM:通过并行解码扩展LLM上下文(@清华大学等) [pdf] [FocusLLM] ⭐️
2024.08 🔥[MagicDec] MagicDec:利用推测解码突破长上下文生成的延迟-吞吐量权衡(@CMU等) [pdf] [MagicDec] ⭐️
2024.08 🔥[推测解码] 通过特征采样和部分对齐蒸馏提升无损推测解码性能(@BIT) [pdf] ⚠️ ⭐️⭐️
2024.09 🔥[混合推理] LLM的高效混合推理:基于奖励的Token建模与选择性云端辅助 [pdf] ⚠️ ⭐️⭐️
2024.10 🔥[PARALLELSPEC] PARALLELSPEC:用于高效推测解码的并行草稿生成器(@腾讯AI实验室等) [pdf] ⚠️ ⭐️⭐️
2024.10 🔥[Fast Best-of-N] 通过推测拒绝实现快速Best-of-N解码(@CMU等) [pdf] ⚠️ ⭐️⭐️
2025.06 🔥[Mamba Drafters] Mamba Drafters用于推测解码(@KAIST & Amazon等) [pdf] ⚠️ ⭐️⭐️
2025.06 🔥[STAND] 无需模型的推测采样加速测试时缩放(@KAIST & Amazon等) [pdf] ⚠️ ⭐️⭐️

📖结构化剪枝/KD/权重稀疏化 (©️返回👆🏻)

日期 标题 论文 代码 推荐
2023.12 [FLAP] 基于波动的大型语言模型自适应结构化剪枝(@中国科学院等) [pdf] [FLAP] ⭐️⭐️
2023.12 🔥[LASER] 真相就在其中:通过层选择性秩降低提升语言模型推理能力(@mit.edu) [pdf] [laser] ⭐️⭐️
2023.12 [PowerInfer] PowerInfer:使用消费级GPU实现快速的大规模语言模型服务(@SJTU) [pdf] [PowerInfer] ⭐️
2024.01 [Admm Pruning] 针对剪枝后大型语言模型的快速且最优权重更新(@fmph.uniba.sk) [pdf] [admm-pruning] ⭐️
2024.01 [FFSplit] FFSplit:为优化语言模型推理中的准确率-效率权衡而拆分前馈网络(@1莱斯大学等) [pdf] ⚠️ ⭐️
2025.03 🔥[Simba] 稀疏化的状态空间模型是高效的高速公路网络(@KAIST) [pdf] [Simba] ⭐️
2025.06 [SDMPrune] SDMPrune:用于高效大型语言模型的自蒸馏MLP剪枝(@CSU) [pdf] [SDMPrune] ⭐️⭐️
2026.03 [HFPrune] 高保真度的大型语言模型剪枝(@CSU) [pdf] [HFPrune] ⭐️⭐️

📖专家混合(MoE) LLM 推理 (©️返回👆🏻)

日期 标题 论文 代码 推荐
2022.11 🔥[WINT8/4] 谁说大象不能跑?将大规模MoE模型引入云端生产环境(@NVIDIA&Microsoft) [pdf] [FasterTransformer] ⭐️⭐️
2023.12 🔥 [Mixtral Offloading] 借助卸载技术实现专家混合语言模型的快速推理(@莫斯科物理技术研究所等) [pdf] [mixtral-offloading] ⭐️⭐️
2024.01 [MoE-Mamba] MoE-Mamba:结合专家混合的高效选择性状态空间模型(@uw.edu.pl) [pdf] ⚠️ ⭐️
2024.04 [MoE Inference] 向推理最优的专家混合大型语言模型迈进(@UC San Diego等) [pdf] ⚠️ ⭐️
2024.05 🔥🔥🔥[DeepSeek-V2] DeepSeek-V2:一款强大、经济且高效的专家混合语言模型(@DeepSeek-AI) [pdf] [DeepSeek-V2] ⭐️⭐️
2024.06 [MoE] 关于专家混合的综述(@HKU) [pdf] ⚠️ ⭐️

📖CPU/单GPU/FPGA/NPU/移动端推理 (©️返回👆🏻)

日期 标题 论文 代码 推荐
2023.03 [FlexGen] 单GPU高效生成式大模型推理(@斯坦福大学等) [pdf] [FlexGen] ⭐️
2023.11 [LLM CPU推理] 在CPU上高效运行LLM(@英特尔) [pdf] [intel-extension-for-transformers] ⭐️
2023.12 [LinguaLinked] LinguaLinked:面向移动设备的分布式大模型推理系统(@加州大学欧文分校) [pdf] ⚠️ ⭐️
2023.12 [OpenVINO] 利用OpenVINO结合推测采样与KV缓存优化进行生成式AI推理(@Haim Barad等) [pdf] ⚠️ ⭐️
2024.03 [FlightLLM] FlightLLM:基于FPGA完整映射流程的高效大模型推理(@Infinigence-AI) [pdf] ⚠️ ⭐️
2024.03 [Transformer-Lite] Transformer-Lite:在手机GPU上高效部署大模型(@OPPO) [pdf] ⚠️ ⭐️
2024.07 🔥🔥[xFasterTransformer] 在CPU上优化大模型推理性能(@英特尔) [pdf] [xFasterTransformer] ⭐️
2024.07 [综述] 基础模型在AI加速器上的推理优化(@AWS AI) [pdf] ⚠️ ⭐️
2024.10 移动平台上的大模型性能基准测试:全面评估(@中山大学) [pdf] ⚠️ ⭐️
2024.10 🔥🔥[FastAttention] FastAttention:将FlashAttention2扩展至NPU和低资源GPU以实现高效推理(@华为等) [pdf] ⚠️ ⭐️
2024.12 🔥🔥[NITRO] NITRO:在英特尔®笔记本NPU上进行LLM推理(@康奈尔大学) [pdf] [nitro] ⭐️
2025.01 📱[Off Grid] 面向iOS和Android的端侧LLM+视觉+图像生成(@alichherawalla) [github] [off-grid-mobile] ⭐️
2025.12 🔥[Grail-V/PSE] 通过POWER8 vec_perm实现非双射注意力压缩——CPU推理速度提升8.8倍(@Elyan Labs) [zenodo] [ram-coffers] ⭐️
2025.12 🔥[llama-cpp-power8] llama.cpp的POWER8优化:vec_perm非双射压缩、IBM MASS集成、dcbt驻留预取。相比原生版本提速8.8倍(@Scottcjn) [github] [llama-cpp-power8] ⭐️
2025.12 🔥[RAM Coffers] 面向LLM推理的NUMA感知权重银行。将大脑半球认知功能映射到NUMA拓扑,实现智能路由与选择性预取(@Scottcjn) [github] [ram-coffers] ⭐️

📖非Transformer架构 (©️返回👆🏻)

日期 标题 论文 代码 推荐
2023.05 🔥🔥[RWKV] RWKV:为Transformer时代重新发明RNN(@Bo Peng等) [pdf] [RWKV-LM] ⭐️⭐️
2023.12 🔥🔥[Mamba] Mamba:具有选择性状态空间的线性时间序列建模(@卡内基梅隆大学等) [pdf] [mamba] ⭐️⭐️
2024.06 🔥🔥[RWKV-CLIP] RWKV-CLIP:鲁棒的视觉-语言表征学习者(@DeepGlint等) [pdf] [RWKV-CLIP] ⭐️⭐️
2024.08 🔥🔥[Kraken] Kraken:固有并行的Transformer,用于高效的多设备推理(@普林斯顿大学) [pdf] ⚠️ ⭐️
2024.08 🔥🔥[FLA] FLA:基于Triton的线性注意力机制硬件高效实现库(@sustcsonglin) [docs] [flash-linear-attention] ⭐️⭐️

📖GEMM/张量核心/MMA/并行(©️返回👆🏻

日期 标题 论文 代码 推荐
2018.03 🔥🔥[张量核心] NVIDIA 张量核心的可编程性、性能与精度(@KTH皇家理工学院等) [pdf] ⚠️ ⭐️
2021.05 🔥[SM内并行] 通过持久化与弹性块挖掘 GPU 中 SM 内并行性(@上海交通大学) [pdf] ⚠️ ⭐️
2022.06 [微基准测试] 利用微基准测试剖析张量核心:延迟、吞吐量与数值行为(@荷兰特文特大学等) [pdf] [DissectingTensorCores] ⭐️
2022.09 🔥🔥[FP8] 用于深度学习的 FP8 格式(@NVIDIA) [pdf] ⚠️ ⭐️
2023.08 🔥[张量核心] 减少共享内存占用以充分利用张量核心的高吞吐量,及其灵活的 API 扩展库(@东京工业大学等) [pdf] [wmma_extension] ⭐️
2023.03 🔥🔥[cutlass/cute] Graphene:面向 GPU 上优化张量计算的中间表示语言(@NVIDIA) [pdf] [cutlass] ⭐️
2024.02 [QUICK] QUICK:面向高效 LLM 推理的量化感知交错与无冲突核函数(@SqueezeBits 公司) [pdf] [QUICK] ⭐️⭐️
2024.02 [张量并行] TP-AWARE DEQUANTIZATION(@IBM T.J. 沃森研究中心) [pdf] ⚠️ ⭐️
2024.07 🔥🔥[flute] 面向查表量化 LLM 的快速矩阵乘法(@麻省理工学院等) [pdf] [flute] ⭐️⭐️
2024.08 🔥🔥[LUT TENSOR CORE] LUT 张量核心:查找表实现高效低比特 LLM 推理加速(@上海交通大学&北京大学等) [pdf] ⚠️ ⭐️
2024.08 🔥🔥[MARLIN] MARLIN:大型语言模型上的混合精度自回归并行推理(@ISTA) [pdf] [marlin] ⭐️⭐️
2024.08 🔥🔥[SpMM] 使用张量核心进行高性能非结构化稀疏矩阵-矩阵乘法计算(@苏黎世联邦理工学院) [pdf] ⚠️ ⭐️
2024.09 🔥🔥[TEE] 基于 nVIDIA H100 GPU 的机密计算:性能基准研究(@phala.network) [pdf] ⚠️ ⭐️
2024.09 🔥🔥[HiFloat8] 华为 Ascend HiFloat8 格式用于深度学习(@华为) [pdf] ⚠️ ⭐️
2024.09 🔥🔥[张量核心] 面向 GPU 张量核心的大型语言模型任意精度高效加速(@南京大学) [pdf] ⚠️ ⭐️
2024.07 🔥🔥[张量积] 利用张量核心加速张量积运算(@海德堡大学) [pdf] ⚠️ ⭐️
2024.12 🔥🔥[HADACORE] HADACORE:张量核心加速的哈达玛变换核函数(@Meta) [pdf] [hadamard_transform] ⭐️
2024.10 🔥🔥[FLASH-ATTENTION RNG] 通过将随机数生成器隐藏在 GEMM 中来降低 Flash-Attention 中 Dropout 的开销(@普林斯顿大学) [pdf] ⚠️ ⭐️
2025.02 🔥🔥[TRITONBENCH] TRITONBENCH:用于生成 Triton 运算符的大语言模型能力基准测试(@thunlp) [pdf] [TritonBench] ⭐️⭐️
2025.04 🔥🔥[Triton-distributed] TileLink:利用以瓦片为中心的原语生成高效的计算-通信重叠核函数(@字节跳动-Seed) [pdf] [Triton-distributed] ⭐️⭐️

📖VLM/位置嵌入/其他(©️返回👆🏻

日期 标题 论文 代码 推荐
2021.04 🔥[RoPE] ROFORMER:带有旋转位置嵌入的增强型 Transformer(@追一科技有限公司) [pdf] [transformers] ⭐️
2022.10 [ByteTransformer] 针对变长输入优化的高性能 Transformer(@字节跳动&NVIDIA) [pdf] [ByteTransformer] ⭐️
2024.09 🔥[Inf-MLLM] Inf-MLLM:单 GPU 上多模态大语言模型的高效流式推理(@sjtu) [pdf] ⚠️ ⭐️
2024.11 🔥[VL-CACHE] VL-CACHE:面向视觉-语言模型推理加速的稀疏性和模态感知 KV 缓存压缩(@加州大学洛杉矶分校等) [pdf] ⚠️ ⭐️
2025.02 🔥[DynamicLLaVA] [ICLR2025] Dynamic-LLaVA:通过动态视觉-语言上下文稀疏化实现高效多模态大语言模型(@华东师范大学、小红书) [pdf] [DynamicLLaVA] ⭐️⭐️

©️许可证

GNU 通用公共许可证 v3.0

🎉贡献

欢迎给这个仓库点个赞并提交 Pull Request!


Elyan Labs生态系统的一部分

  • BoTTube — AI视频平台,拥有119+个智能体共同创作内容
  • RustChain — 基于硬件证明的古老性证明区块链
  • GitHub

版本历史

v2.6.202025/06/17
v2.6.192025/05/27
v2.6.182025/05/15
v2.6.172025/05/06
v2.6.162025/04/27
v2.6.152025/04/17
v2.6.142025/03/31
v2.6.132025/02/19
v2.6.122025/02/13
v2.6.112025/01/31
v2.6.102025/01/06
v2.6.92024/12/22
v2.6.82024/12/09
v2.6.72024/12/02
v2.6.62024/11/25
v2.6.52024/11/18
v2.6.42024/11/13
v2.6.32024/11/01
v2.6.22024/10/28
v2.6.12024/10/14

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架