Awesome-Knowledge-Distillation

2.7k 333 困难 1 次阅读 2天前开发框架

AI 解读由 AI 自动生成，仅供参考

Awesome-Knowledge-Distillation 是一个专注于“知识蒸馏”技术的开源论文合集，旨在系统性地整理和分类该领域从 2014 年至 2021 年的核心研究成果。在深度学习中，大型模型往往性能卓越但计算成本高昂，难以部署在资源受限的设备上。知识蒸馏技术通过将大模型（教师）的知识迁移给小模型（学生），有效解决了模型压缩与加速的难题，让轻量级模型也能具备接近大模型的性能。

这份资源库特别适合人工智能研究人员、算法工程师以及对模型优化感兴趣的开发者使用。它不仅仅是一份简单的文献列表，更独特地将数百篇论文按技术路径进行了细致分类，涵盖了从基于输出逻辑（Logits）、中间层特征、图结构知识，到结合生成对抗网络（GAN）、元学习、无数据蒸馏等前沿方向。此外，它还收录了知识蒸馏在自然语言处理、推荐系统及模型量化剪枝等具体场景的应用案例。无论是希望快速了解领域全貌的新手，还是寻找特定技术突破点的资深专家，都能从中高效获取有价值的学术参考，助力构建更高效、更紧凑的深度学习模型。

使用场景

某自动驾驶初创公司的算法团队正致力于将高精度的感知模型部署到算力受限的车载边缘芯片上，急需在保持准确率的同时大幅压缩模型体积。

没有 Awesome-Knowledge-Distillation 时

文献调研如大海捞针：团队成员需手动在 arXiv 和各大会议中搜索“知识蒸馏”相关论文，耗时数周仍难以覆盖 2014-2021 年间的关键成果，极易遗漏如"Teacher Assistant"或"Self-KD"等进阶方案。
技术选型盲目试错：面对 Logits 蒸馏、中间层特征对齐、图结构蒸馏等多种技术路线，缺乏系统分类指引，导致团队错误选择了不适配当前检测任务的蒸馏策略，浪费大量算力资源。
跨领域应用受阻：当尝试将蒸馏技术迁移至雷达点云处理或小样本场景时，因找不到"Cross-modal"或"Data-free KD"等细分领域的专项论文，项目陷入停滞。
复现成本高昂：由于缺乏对各类变体（如结合 GAN、元学习或自动化搜索）的整理，开发人员需从零阅读大量冗长原文才能理解核心差异，严重拖慢迭代进度。

使用 Awesome-Knowledge-Distillation 后

一站式全景索引：团队直接利用其整理的 658+ 篇论文清单，按"Logits"、“中间层”、“自蒸馏”等维度快速定位到最适合车载场景的"Relational Knowledge Distillation"方案，调研时间缩短 80%。
精准匹配技术路径：借助清晰的分类结构，迅速排除了不适用的纯日志蒸馏，锁定了能更好保留空间结构信息的图基于（Graph-based）蒸馏方法，显著提升了小模型对行人检测的精度。
激发创新组合思路：通过浏览"KD + AutoML"和"Multi-teacher"板块，团队受启发设计了多教师集成蒸馏架构，成功解决了单一教师模型在极端天气下泛化能力不足的问题。
高效落地验证：参考列表中提供的代码链接和经典复现路径，团队在一周内完成了基线搭建与对比实验，加速了模型从实验室到实车部署的闭环。

Awesome-Knowledge-Distillation 通过将碎片化的学术成果系统化，让工程师能从繁重的文献挖掘中解放出来，专注于解决实际的模型压缩与性能平衡难题。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个知识蒸馏（Knowledge Distillation）领域的论文和资源列表（Awesome List），并非一个可直接运行的单一软件工具或框架。README 中列出了数百篇相关学术论文及其分类，部分条目附带了独立的外部代码链接。因此，具体的运行环境、依赖库及硬件需求取决于用户选择复现哪一篇特定论文或使用哪个子项目，本仓库本身无统一的环境要求。

python未说明

Awesome-Knowledge-Distillation hero image

快速开始

令人惊叹的知识蒸馏

令人惊叹的知识蒸馏

知识的不同形式

从 logits 中提取的知识

神经网络中的知识蒸馏。Hinton 等人，arXiv:1503.02531
基于蒸馏的噪声标签学习。Li, Yuncheng 等人，ICCV 2017
分代训练深度神经网络：更宽容的教师培养出更好的学生。arXiv:1805.05551
从教师处学习度量：用于图像嵌入的紧凑网络。Yu, Lu 等人，CVPR 2019
关系知识蒸馏。Park, Wonpyo 等人，CVPR 2019
针对响应预测从复杂网络中进行知识蒸馏的研究。Arora, Siddhartha 等人，NAACL 2019
关于知识蒸馏的有效性。Cho, Jang Hyun 和 Hariharan, Bharath，arXiv:1910.01348。ICCV 2019
重访知识蒸馏：无教师框架（通过标签平滑正则化重审知识蒸馏）。Yuan, Li 等人，CVPR 2020 [代码]
通过教师助手改进知识蒸馏：弥合学生与教师之间的差距。Mirzadeh 等人，arXiv:1902.03393
集成分布蒸馏。ICLR 2020
知识蒸馏中的噪声协作。ICLR 2020
关于使用知识蒸馏压缩 U-net 的研究。arXiv:1812.00249
带有噪声学生的自训练提升了 ImageNet 分类性能。Xie, Qizhe 等人（Google），CVPR 2020
变分学生：在知识蒸馏框架中学习紧凑且稀疏的网络。AAAI 2020
准备课程：通过更好的监督提升知识蒸馏效果。arXiv:1911.07471
标签的自适应正则化。arXiv:1908.05474
云端上的正负样本压缩。Xu, Yixing 等人（华为），NeurIPS 2019
快照蒸馏：单代内的师生优化。Yang, Chenglin 等人，CVPR 2019
QUEST：用于知识迁移的量化嵌入空间。Jain, Himalaya 等人，arXiv:2020
条件师生学习。Z. Meng 等人，ICASSP 2019
子类蒸馏。Müller, Rafael 等人，arXiv:2002.03936
边距蒸馏：基于边距的 softmax 蒸馏。Svitov, David 和 Alyamkin, Sergey，arXiv:2003.02586
一种极其简单的知识蒸馏方法。Gao, Mengya 等人，MLR 2018
序列级知识蒸馏。Kim, Yoon 和 Rush, Alexander M.，arXiv:1606.07947
通过知识迁移增强自监督学习。Noroozi, Mehdi 等人，CVPR 2018
元伪标签。Pham, Hieu 等人，ICML 2020 [代码]
神经网络比人类评分者更高效的教师：针对黑盒模型的数据高效知识蒸馏的主动混合。CVPR 2020 [代码]
用于单声道语音分离的蒸馏二值神经网络。Chen Xiuyi 等人，IJCNN 2018
教师-班级网络：一种神经网络压缩机制。Malik 等人，arXiv:2004.03281
深度监督下的知识协同。Sun, Dawei 等人，CVPR 2019
它认为重要的就是重要的：鲁棒性通过输入梯度传递。Chan, Alvin 等人，CVPR 2020
三元损失用于知识蒸馏。Oki, Hideki 等人，IJCNN 2020
面向知识蒸馏的角色导向数据增强。ICLR 2020 [代码]
蒸馏尖峰：脉冲神经网络中的知识蒸馏。arXiv:2005.00288
改进的噪声学生训练用于自动语音识别。Park 等人，arXiv:2005.09629
从轻量级教师处学习以实现高效知识蒸馏。Yuang Liu 等人，arXiv:2005.09163
ResKD：残差引导的知识蒸馏。Li, Xuewei 等人，arXiv:2006.04719
从严重的标签噪声中提炼有效监督。Zhang, Zizhao 等人，CVPR 2020 [代码]
知识蒸馏与自监督学习的结合。Xu, Guodong 等人，ECCV 2020 [代码]
针对少样本学习的自监督知识蒸馏。arXiv:2006.09785 [代码]
带有噪声类别标签的学习用于实例分割。ECCV 2020
通过对比式知识蒸馏改善弱监督视觉定位。Wang, Liwei 等人，arXiv:2007.01951
深度流式标签学习。Wang, Zhen 等人，ICML 2020 [代码]
在对学习者行为信息有限的情况下进行教学。Zhang, Yonggang 等人，ICML 2020
在群体表征学习中进行可区分性蒸馏。Zhang, Manyuan 等人，ECCV 2020
知识蒸馏中的局部相关性一致性。ECCV 2020
基于素数的自适应蒸馏。Zhang, Youcai 等人，ECCV 2020
一刀切并不适用：自适应标签平滑。Krothapalli 等人，arXiv:2009.06432
从带有噪声标签的数据中学习如何学习。Li, Junnan 等人，CVPR 2019
通过一致来对抗噪声标签：一种具有共同正则化的联合训练方法。Wei, Hongxin 等人，CVPR 2020
通过多分支多样性增强进行在线知识蒸馏。Li, Zheng 等人，ACCV 2020
Pea-KD：参数高效且准确的知识蒸馏。arXiv:2009.14822
通过自我知识蒸馏扩展标签平滑正则化。Wang, Jiyue 等人，arXiv:2009.05226
球面知识蒸馏。Guo, Jia 等人，arXiv:2010.07485
软标签数据集蒸馏和文本数据集蒸馏。arXiv:1910.02551
Wasserstein 对比表征蒸馏。Chen, Liqun 等人，CVPR 2021
基于不确定性感知混合的计算高效知识蒸馏。Xu, Guodong 等人，CVPR 2021 [代码]
知识精炼：从解耦标签中学习。Ding, Qianggang 等人，AAAI 2021
火箭发射：一个通用且高效的框架，用于训练表现良好的轻量级网络。Zhou, Guorui 等人，AAAI 2018
为长尾识别蒸馏虚拟样本。He, Yin-Yin 等人，CVPR 2021
长尾学习的平衡知识蒸馏。Zhang, Shaoyu 等人，arXiv:2014.10510
比较 Kullback-Leibler 散度和均方误差损失在知识蒸馏中的应用。Kim, Taehyeon 等人，IJCAI 2021 [代码]
并非所有知识都同等重要。Li, Ziyun 等人，arXiv:2106.01489
知识蒸馏：好老师要有耐心和一致性。Beyer 等人，arXiv:2106.05237v1
层次化自监督增强型知识蒸馏。Yang 等人，IJCAI 2021 [代码]

中间层知识

Fitnets：轻量级深度网络的提示。Romero, Adriana 等人。arXiv:1412.6550
更加关注注意力：通过注意力迁移提升卷积神经网络性能。Zagoruyko 等人。ICLR 2017
知识投影：用于高效设计更轻量、更快速的深度神经网络。Zhang, Zhi 等人。arXiv:1710.09505
知识蒸馏的馈赠：快速优化、网络压缩与迁移学习。Yim, Junho 等人。CVPR 2017
喜欢你所喜欢的：基于神经元选择性迁移的知识蒸馏。Huang, Zehao & Wang, Naiyan。2017
复杂网络的释义：通过因子迁移进行网络压缩。Kim, Jangho 等人。NeurIPS 2018
基于雅可比匹配的知识迁移。ICML 2018
使用奇异值分解的自监督知识蒸馏。Lee, Seung Hyun 等人。ECCV 2018
基于概率知识迁移的深度表示学习。Passalis 等人。ECCV 2018
用于知识迁移的变分信息蒸馏。Ahn, Sungsoo 等人。CVPR 2019
基于实例关系图的知识蒸馏。Liu, Yufan 等人。CVPR 2019
基于路径约束优化的知识蒸馏。Jin, Xiao 等人。ICCV 2019
保持相似性的知识蒸馏。Tung, Frederick 和 Mori Greg。ICCV 2019
MEAL：基于对抗学习的多模型集成。Shen, Zhiqiang、He, Zhankui 和 Xue Xiangyang。AAAI 2019
特征蒸馏的全面革新。Heo, Byeongho 等人。ICCV 2019 [代码]
特征图级别的在线对抗知识蒸馏。ICML 2020
基于细粒度特征模仿的目标检测器蒸馏。ICLR 2020
知识挤压式对抗网络压缩。Changyong, Shu 等人。AAAI 2020
分阶段知识蒸馏。Kulkarni, Akshay 等人。arXiv:1911.06786
来自内部表征的知识蒸馏。AAAI 2020
知识流：超越你的老师。ICLR 2019
LIT：用于模型压缩的中间表征学习训练。ICML 2019
通过噪声特征蒸馏提升迁移学习的对抗鲁棒性。Chin, Ting-wu 等人。arXiv:2002.02998
带有内部蒸馏的背包剪枝。Aflalo, Yonathan 等人。arXiv:2002.08258
残差知识蒸馏。Gao, Mengya 等人。arXiv:2002.09168
基于适应性实例归一化知识蒸馏。Yang, Jing 等人。arXiv:2003.04289
赫拉克勒斯之Bert：通过渐进式模块替换压缩Bert。Xu, Canwen 等人。arXiv:2002.02925 [代码]
锋火知识蒸馏：脉冲神经网络中的知识蒸馏。arXiv:2005.00727
面向深度神经网络的广义贝叶斯后验期望蒸馏。Meet 等人。arXiv:2005.08110
特征图级别的在线对抗知识蒸馏。Chung, Inseop 等人。ICML 2020
通道蒸馏：面向知识蒸馏的通道级注意力。Zhou, Zaida 等人。arXiv:2006.01683 [代码]
匹配引导的蒸馏。ECCV 2020 [代码]
可微分特征聚合搜索用于知识蒸馏。ECCV 2020
交互式知识蒸馏。Fu, Shipeng 等人。arXiv:2007.01476
面向图像分类的特征归一化知识蒸馏。ECCV 2020 [代码]
面向深度神经网络的层级知识蒸馏。Li, Hao Ting 等人。《应用科学》杂志，2019年
基于特征图的知识蒸馏用于图像分类。Chen, Weichun 等人。ACCV 2018
知识蒸馏中高效的卷积核迁移。Qian, Qi 等人。arXiv:2009.14416
视频动作识别中参数域与频谱域的协同蒸馏。arXiv:2009.06902
基于卷积核的渐进式蒸馏用于加法神经网络。Xu, Yixing 等人。NeurIPS 2020
基于引导式对抗对比学习的特征蒸馏。Bai, Tao 等人。arXiv:2009.09922
关注特征，更快地迁移CNN。Wang, Kafeng 等人。ICLR 2019
多层级知识蒸馏。Ding, Fei 等人。arXiv:2012.00573
带语义校准的跨层蒸馏。Chen, Defang 等人。AAAI 2021 [代码]
面向多出口架构的协调一致密集知识蒸馏训练。Wang, Xinglu 和 Li, Yingming。AAAI 2021
基于师生模型混合前向的稳健知识迁移。Song, Liangchen 等人。AAAI 2021
展示、注意并蒸馏：基于注意力的特征匹配知识蒸馏。Ji, Mingi 等人。AAAI 2021 [代码]
MINILMv2：用于压缩预训练Transformer的多头自注意力关系蒸馏。Wang, Wenhui 等人。arXiv:2012.15828
ALP-KD：基于注意力的层级投影用于知识蒸馏。Peyman 等人。AAAI 2021
基于层级聚类寻找信息丰富的提示点以进行知识蒸馏。Reyhan 等人。arXiv:2103.00053
解决蒸馏过程中师生知识差异。Han, Jiangfan 等人。arXiv:2103.16844
基于进化知识蒸馏的学生网络学习。Zhang, Kangkai 等人。arXiv:2103.13811
通过知识回顾进行知识蒸馏。Chen, Pengguang 等人。CVPR 2021
基于稀疏表示匹配的知识蒸馏。Tran 等人。arXiv:2103.17012
面向任务的特征蒸馏。Zhang 等人。NeurIPS 2020 [代码]
来自未标注数据的对抗性知识迁移。Gupta 等人。ACM-MM 2020 代码
知识蒸馏作为高效预训练：更快收敛、更高数据效率和更好迁移能力。He 等人。CVPR 2020
PDF-Distil：在基于特征的知识蒸馏中纳入预测分歧以用于目标检测。Zhang 等人。BMVC 2021 代码

基于图的方法

基于图的知识蒸馏：多头注意力网络。Lee, Seunghyun 和 Song, Byung Cheol，arXiv:1907.02226
通过多任务知识蒸馏的图表示学习。arXiv:1911.05700
利用图进行深度几何知识蒸馏。arXiv:1911.03080
更好更快：通过图蒸馏从多个自监督学习任务中迁移知识用于视频分类。IJCAI 2018
从图卷积网络中蒸馏知识。Yang, Yiding 等人，CVPR 2020 [代码]
利用外部知识进行显著性预测。Zhang, Yifeng 等人，arXiv:2007.13839
通过学习从外部知识迁移实现多标签零样本分类。Huang, He 等人，arXiv:2007.15610
图卷积网络上的可靠数据蒸馏。Zhang, Wentao 等人，ACM SIGMOD 2020
图卷积网络的互学教学。Zhan, Kun 等人，Future Generation Computer Systems，2021
DistilE：为更快速、更经济的推理而蒸馏知识图嵌入。Zhu, Yushan 等人，arXiv:2009.05912
Distill2Vec：利用知识蒸馏的动态图表示学习。Antaris, Stefanos 和 Rafailidis, Dimitrios，arXiv:2011.05664
自蒸馏图神经网络。Chen, Yuzhao 等人，arXiv:2011.02255
迭代式图自蒸馏。iclr 2021
提取图神经网络的知识并超越它：一种有效的知识蒸馏框架。Yang, Cheng 等人，WWW 2021 [代码]
带有特权信息的RGB-D视频中基于图蒸馏的动作检测。Luo, Zelun 等人，ECCV 2018
基于图一致性的均值教学用于无监督域适应的人体重识别。Liu, Xiaobin 和 Zhang, Shiliang，IJCAI 2021

互信息与在线学习

用于知识蒸馏的关联一致性。Peng, Baoyun 等人，ICCV 2019
保持相似性的知识蒸馏。Tung, Frederick 和 Mori Greg，ICCV 2019
用于知识迁移的变分信息蒸馏。Ahn, Sungsoo 等人，CVPR 2019
对比表示蒸馏。Tian, Yonglong 等人，ICLR 2020 [RepDistill]
通过协作学习进行在线知识蒸馏。Guo, Qiushan 等人，CVPR 2020
同辈协作学习用于在线知识蒸馏。Wu, Guile 和 Gong, Shaogang，AAAI 2021
通过密集跨层互蒸馏进行知识迁移。ECCV 2020
MutualNet：通过来自网络宽度和分辨率的互学自适应卷积网络。Yang, Taojiannan 等人，ECCV 2020 [代码]
AMLN：基于对抗的互学网络用于在线知识蒸馏。ECCV 2020
通过在线互知实现跨模态医学图像分割。Li, Kang 等人，AAAI 2021
联邦知识蒸馏。Seo, Hyowoon 等人，arXiv:2011.02367
利用互均值教学进行无监督图像分割。Wu, Zhichao 等人，arXiv:2012.08922
用于自监督和半监督学习的指数移动平均归一化。Cai, Zhaowei 等人，arXiv:2101.08482
用于半监督语义分割的鲁棒互学。Zhang, Pan 等人，arXiv:2106.00609
用于视觉表示学习的互对比学习。Yang 等人，AAAI 2022 [代码]
信息论视角下的表示蒸馏。Miles 等人，BMVC 2022 [代码]

自蒸馏

Moonshine：使用廉价卷积进行蒸馏。Crowley, Elliot J. 等人，NeurIPS 2018
成为自己老师：通过自蒸馏提升卷积神经网络性能。Zhang, Linfeng 等人，ICCV 2019
通过自注意力蒸馏学习轻量级车道检测CNN。Hou, Yuenan 等人，ICCV 2019
BAM！重生的多任务网络用于自然语言理解。Clark, Kevin 等人，ACL 2019，短文
自然语言处理中的自知识蒸馏。Hahn, Sangchul 和 Choi, Heeyoul，arXiv:1908.01851
重新思考数据增强：自监督与自蒸馏。Lee, Hankook 等人，ICLR 2020
MSD：通过深度神经网络内的多分类器进行多自蒸馏学习。arXiv:1911.09418
自蒸馏在希尔伯特空间中增强正则化。Mobahi, Hossein 等人，NeurIPS 2020
MINILM：用于预训练Transformer任务无关压缩的深度自注意力蒸馏。Wang, Wenhui 等人，arXiv:2002.10957
通过自知识蒸馏正则化类别预测。CVPR 2020 [代码]
自蒸馏作为实例特定的标签平滑。Zhang, Zhilu 和 Sabuncu, Mert R.，NeurIPS 2020
Self-PU：自我增强且校准的正类-未标记训练。Chen, Xuxi 等人，ICML 2020 [代码]
S2SD：用于深度度量学习的同时性相似性自蒸馏。Karsten 等人，ICML 2021
用于弱监督目标检测的全面注意力自蒸馏。Huang, Zeyi 等人，NeurIPS 2020
基于蒸馏的多出口架构训练。Phuong, Mary 和 Lampert, Christoph H.，ICCV 2019
用于半监督域适应的成对自蒸馏。iclr 2021
SEED：自监督蒸馏。ICLR 2021
自特征正则化：无需教师模型的自特征蒸馏。Fan, Wenxuan 和 Hou, Zhenyan，arXiv:2103.07350
通过自我教导完善自我：利用自知识蒸馏进行特征精炼。Ji, Mingi 等人，CVPR 2021 [代码]
SE-SSD：从点云中自集成单阶段目标检测器。Zheng, Wu 等人，CVPR 2021 [代码]
结合批次知识集成的自蒸馏可提升ImageNet分类性能。Ge, Yixiao 等人，CVPR 2021
通过对比自蒸馏实现紧凑的单张图像超分辨率。IJCAI 2021
DearKD：面向视觉Transformer的数据高效早期知识蒸馏论文
使用复用教师分类器进行知识蒸馏论文
基于上一个迷你批次的自蒸馏用于一致性正则化论文
解耦合知识蒸馏论文

结构知识

复杂网络的释义：通过因子迁移进行网络压缩。金章浩等。NeurIPS 2018
关系知识蒸馏。朴元杓等。CVPR 2019
基于实例关系图的知识蒸馏。刘宇凡等。CVPR 2019
对比表示蒸馏。田永龙等。ICLR 2020
通过结构化暗知识教授教学。ICLR 2020
道路标记分割中的区域间亲和力蒸馏。侯元楠等。CVPR 2020 [代码]
基于信息流建模的异构知识蒸馏。帕萨利斯等。CVPR 2020 [代码]
用于知识迁移的非对称度量学习。布德尼克、马特乌什与阿夫里西斯，扬尼斯。arXiv:2006.16331
知识蒸馏中的局部相关性一致性。ECCV 2020
少样本类别增量学习。陶晓宇等。CVPR 2020
用于图像到图像转换的语义关系保持知识蒸馏。ECCV 2020
可解释的前景目标搜索作为知识蒸馏。ECCV 2020
通过类别结构改进知识蒸馏。ECCV 2020
基于关系知识蒸馏的少样本类别增量学习。董松林等。AAAI 2021
补充关系对比蒸馏。朱金国等。CVPR 2021
信息论表示蒸馏。迈尔斯等。BMVC 2022 [代码]

特权信息

利用特权信息学习：相似性控制与知识转移。瓦普尼克，弗拉基米尔与劳夫，伊兹麦洛夫。MLR 2015
统一蒸馏与特权信息。洛佩兹-帕斯，大卫等。ICLR 2016
通过蒸馏与量化进行模型压缩。波利诺，安东尼奥等。ICLR 2018
KDGAN：基于生成对抗网络的知识蒸馏。王小杰。NeurIPS 2018
使用更少帧实现高效视频分类。巴尔德瓦杰，什韦塔等。CVPR 2019
在多任务学习中保留特权信息。唐峰毅等。KDD 2019
一种基于特权信息的回归与分类通用元损失函数。阿西夫，阿米娜等。arXiv:1811.06885
通过生成对抗网络的模型蒸馏进行私有知识转移。高迪与卓成。AAAI 2020
面向在线动作检测的特权知识蒸馏。赵培森等。cvpr 2021
带有特权条款的学习的对抗性蒸馏。王小杰等。TPAMI 2019

KD + GAN

通过条件对抗网络的知识蒸馏加速浅层稀疏网络训练。徐征等。arXiv:1709.00513
KTAN：知识迁移对抗网络。刘沛业等。arXiv:1810.08126
KDGAN：基于生成对抗网络的知识蒸馏。王小杰。NeurIPS 2018
可移植学生网络的对抗式学习。王云鹤等。AAAI 2018
对抗式网络压缩。贝拉吉安尼斯等。ECCV 2018
跨模态蒸馏：以条件生成对抗网络为例。ICASSP 2018
基于外部知识的高效推荐的对抗式蒸馏。TOIS 2018
使用条件对抗网络加速学生网络训练。徐征等。BMVC 2018
DAFL：无数据的学生网络学习。陈涵婷等。ICCV 2019
MEAL：基于对抗学习的多模型集成。沈志强等。AAAI 2019
支持决策边界的对抗样本知识蒸馏。许炳浩等。AAAI 2019
利用真实标签：基于对抗模仿的知识蒸馏方法用于事件检测。刘健等。AAAI 2019
对抗鲁棒蒸馏。戈德布鲁姆，米卡等。AAAI 2020
GAN-知识蒸馏用于单阶段目标检测。洪伟等。arXiv:1906.08467
终身GAN：面向条件图像生成的持续学习。昆杜等。arXiv:1908.03884
使用知识蒸馏压缩GAN。阿圭纳尔多，安吉琳等。arXiv:1902.00159
特征图级在线对抗知识蒸馏。ICML 2020
MineGAN：从GAN向目标域有效转移知识，即使只有少量图片。王亚星等。CVPR 2020
为图像转换蒸馏便携式生成对抗网络。陈涵婷等。AAAI 2020
GAN压缩：用于交互式条件GAN的高效架构。朱俊彦等。CVPR 2020 [代码]
对抗式网络压缩。贝拉吉安尼斯等。ECCV 2018
P-KDGAN：基于GAN的渐进式知识蒸馏，用于单类新颖性检测。张志伟等。IJCAI 2020
StyleGAN2蒸馏用于前馈式图像处理。维亚佐韦茨基等。ECCV 2020 [代码]
HardGAN：一款雾霾感知型表示蒸馏GAN，用于单张图像去雾。ECCV 2020
TinyGAN：为条件图像生成蒸馏BigGAN。ACCV 2020 [代码]
通过可微掩码与协同注意力蒸馏学习高效GAN。李绍杰等。arXiv:2011.08382 [代码]
自监督GAN压缩。余冲与池杰夫。arXiv:2007.01491
教师的作用远不止教学：压缩图像到图像模型。CVPR 2021 [代码]
通过cGAN生成的样本进行知识蒸馏与迁移，用于图像分类与回归。丁欣等。arXiv:2104.03164
内容感知GAN压缩。刘宇晨等。CVPR 2021

KD + 元学习

少样本知识蒸馏用于高效网络压缩。李天宏等。CVPR 2020
学习什么以及在哪里进行迁移。张允勋等，ICML 2019
跨学习过程的知识迁移。莫雷诺，巴勃罗·G等。ICLR 2019
语义感知的知识保存用于零样本基于草图的图像检索。刘青等。ICCV 2019
多样性与合作：用于少样本分类的集成方法。德沃尔尼克，尼基塔等。ICCV 2019
知识表征：用于知识蒸馏的高效、稀疏先验知识表示。arXiv:1911.05329v1
用于生成式建模的渐进式知识蒸馏。ICLR 2020
通过交叉蒸馏进行少样本网络压缩。AAAI 2020
MetaDistiller：基于元学习的自顶向下蒸馏实现网络自我增强。刘本林等。ECCV 2020
带有类内知识迁移的少样本学习。arXiv:2008.09892
基于知识迁移的少样本目标检测。金健旭等。arXiv:2008.12496
蒸馏后的单次联邦学习。arXiv:2009.07999
Meta-KD：跨领域语言模型压缩的元知识蒸馏框架。潘浩杰等。arXiv:2012.01266
用于少样本知识蒸馏的渐进式网络嫁接。沈承超等。AAAI 2021

无数据知识蒸馏

面向深度神经网络的无数据知识蒸馏。NeurIPS 2017
深度网络中的零样本知识蒸馏。ICML 2019
DAFL：学生网络的无数据学习。ICCV 2019
基于对抗信念匹配的零样本知识迁移。Micaelli、Paul 和 Storkey, Amos。NeurIPS 2019
梦境蒸馏：一种与数据无关的模型压缩框架。Kartikeya 等人。ICML 2019
梦境蒸馏：通过 DeepInversion 实现的无数据知识迁移。Yin, Hongxu 等人。CVPR 2020 [代码]
无数据对抗蒸馏。Fang, Gongfan 等人。CVPR 2020
内在的知识：无数据模型压缩方法。Haroush, Matan 等人。CVPR 2020
在没有任何可观察数据的情况下进行知识提取。Yoo, Jaemin 等人。NeurIPS 2019 [代码]
通过 Group-Stack 双 GAN 进行无数据知识融合。CVPR 2020
DeGAN：用于从训练好的分类器中检索代表性样本的数据增强 GAN。Addepalli, Sravanti 等人。arXiv:1912.11960
基于生成的低比特位无数据量化。Xu, Shoukai 等人。ECCV 2020 [代码]
这个数据集并不存在：从生成图像中训练模型。arXiv:1911.02888
MAZE：使用零阶梯度估计的无数据模型窃取攻击。Sanjay 等人。arXiv:2005.03161
生成式教学网络：通过学习生成合成训练数据加速神经架构搜索。Such 等人。ECCV 2020
十亿规模的半监督图像分类学习。FAIR。arXiv:1905.00546 [代码]
基于对抗知识蒸馏的无数据网络量化。Choi, Yoojin 等人。CVPRW 2020
面向文本分类的对抗自监督无数据蒸馏。EMNLP 2020
通过无数据知识迁移实现精确量化和剪枝。arXiv:2010.07334
利用数据增强 GAN 进行分割任务的无数据知识蒸馏。Bhogale 等人。arXiv:2011.00809
分层无数据 CNN 压缩。Horton, Maxwell 等人（Apple Inc.）。cvpr 2021
任意迁移集合在无数据知识蒸馏中的有效性。Nayak 等人。WACV 2021
学校式学习：多教师知识反演用于无数据量化。Li, Yuhang 等人。cvpr 2021
大规模生成式无数据蒸馏。Luo, Liangchen 等人。cvpr 2021
域印象：一种无需源数据的域适应方法。Kurmi 等人。WACV 2021
在野外学习学生网络。（HUAWEI-Noah）。CVPR 2021
无数据知识蒸馏用于图像超分辨率。（HUAWEI-Noah）。CVPR 2021
零样本对抗量化。Liu, Yuang 等人。CVPR 2021 [代码]
面向语义分割的无源域适应。Liu, Yuang 等人。CVPR 2021
无数据模型提取。Jean-Baptiste 等人。CVPR 2021 [代码]
深入数据：以有效替代训练的方式进行黑盒攻击。CVPR 2021
使用无标签对抗扰动结合泰勒近似进行零样本知识蒸馏。Li, Kang 等人。IEEE Access，2021。
半真半假蒸馏用于类增量语义分割。Huang, Zilong 等人。arXiv:2104.00875
双判别器对抗蒸馏用于无数据模型压缩。Zhao, Haoran 等人。TCSVT 2021
穿透梯度：通过 GradInversion 恢复图像批次。Yin, Hongxu 等人。CVPR 2021
对比式模型反演用于无数据知识蒸馏。Fang, Gongfan 等人。IJCAI 2021 [代码]
面向图神经网络的无图知识蒸馏。Deng, Xiang 和 Zhang, Zhongfei。arXiv:2105.07519
基于决策的黑盒模式下的零样本知识蒸馏。Wang Zi。ICML 2021
面向异构联邦学习的无数据知识蒸馏。Zhu, Zhuangdi 等人。ICML 2021

其他无数据模型压缩：

面向深度神经网络的无数据参数剪枝。Srinivas, Suraj 等人。arXiv:1507.06149
通过权重均衡和偏置校正实现的无数据量化。Nagel, Markus 等人。ICCV 2019
DAC：卷积网络的无数据自动加速。Li, Xin 等人。WACV 2019
一种保护隐私的 DNN 剪枝与移动加速框架。Zhan, Zheng 等人。arXiv:2003.06513
ZeroQ：一种新颖的零样本量化框架。Cai 等人。CVPR 2020 [代码]
为无数据量化多样化样本生成。Zhang, Xiangguo 等人。CVPR 2021

知识蒸馏 + 自动机器学习

通过集成学习改进神经架构搜索图像分类器。Macko, Vladimir 等人。arXiv:1903.06236
基于知识蒸馏的分块监督神经架构搜索。Li, Changlin 等人。CVPR 2020
通过神经架构搜索实现接近最优的知识蒸馏。Kang, Minsoo 等人。AAAI 2020
寻找更好的学生来学习蒸馏知识。Gu, Jindong 和 Tresp, Volker arXiv:2001.11612
通过知识蒸馏规避 AutoAugment 的异常值。Wei, Longhui 等人。arXiv:2003.11342
通过可变换架构搜索进行网络剪枝。Dong, Xuanyi 和 Yang, Yi。NeurIPS 2019
搜索以蒸馏：珍珠无处不在，只是肉眼看不见而已。Liu Yu 等人。CVPR 2020
AutoGAN-Distiller：搜索以压缩生成对抗网络。Fu, Yonggan 等人。ICML 2020 [代码]
Joint-DetNAS：用 NAS、剪枝和动态蒸馏升级你的检测器。CVPR 2021

知识蒸馏 + 强化学习

N2N 学习：通过策略梯度强化学习实现网络到网络的压缩。Ashok, Anubhav 等人。ICLR 2018
知识流动：超越你的老师。Liu, Iou-jen 等人。ICLR 2019
跨学习过程的知识转移。Moreno, Pablo G 等人。ICLR 2019
通过随机网络蒸馏进行探索。Burda, Yuri 等人。ICLR 2019
针对强化学习的周期性群体内知识蒸馏。Hong, Zhang-Wei 等人。arXiv:2002.00149
在同伴之间传递异质知识：一种模型蒸馏方法。Xue, Zeyue 等人。arXiv:2002.02202
代理经验回放：面向分布式强化学习的联邦蒸馏。Cha, han 等人。arXiv:2005.06105
双重策略蒸馏。Lai, Kwei-Herng 等人。IJCAI 2020
通过强化学习实现师生课程学习：预测医院住院患者的入院地点。El-Bouri, Rasheed 等人。ICML 2020
面向知识蒸馏的强化多教师选择。Yuan, Fei 等人。AAAI 2021
通过 Oracle 策略蒸馏实现订单执行的通用交易。Fang, Yuchen 等人。AAAI 2021
基于强化知识蒸馏的弱监督深度回归跟踪器域适应。Dunnhofer 等人。IEEE RAL

KD + 自监督

逆转循环：通过增强的单目蒸馏实现自监督深度立体视觉。ECCV 2020
基于输入变换的自监督标签增强。Lee, Hankook 等人。ICML 2020 [代码]
通过选择性自监督自训练改进目标检测。Li, Yandong 等人。ECCV 2020
从自监督学习中蒸馏视觉先验。Zhao, Bingchen 和 Wen, Xin。ECCVW 2020
自举自己的潜在表示：一种新的自监督学习方法。Grill 等人。arXiv:2006.07733 [代码]
无配对的深度图像去噪学习。Wu, Xiaohe 等人。arXiv:2008.13711 [代码]
SSKD：用于跨域自适应行人重识别的自监督知识蒸馏。Yin, Junhui 等人。arXiv:2009.05972
通过从在线自我解释中蒸馏知识进行内省式学习。Gu, Jindong 等人。ACCV 2020
通过对抗对比学习实现稳健的预训练。Jiang, Ziyu 等人。NeurIPS 2020 [代码]
CompRess：通过压缩表征进行自监督学习。Koohpayegani 等人。NeurIPS 2020 [代码]
大型自监督模型是强大的半监督学习者。Che, Ting 等人。NeurIPS 2020 [代码]
重新思考预训练与自训练。Zoph, Barret 等人。NeurIPS 2020 [代码]
ISD：通过迭代相似性蒸馏进行自监督学习。Tejankar 等人。cvpr 2021 [代码]
动量²教师：带有动量统计的动量教师，用于自监督学习。Li, Zeming 等人。arXiv:2101.07525
超越自监督：一种简单而有效的网络蒸馏替代方案，用于改进骨干网络。Cui, Cheng 等人。arXiv:2103.05959
通过组合式对比学习蒸馏视听知识。Chen, Yanbei 等人。CVPR 2021
DisCo：利用蒸馏对比学习修复轻量级模型上的自监督学习。Gao, Yuting 等人。arXiv:2104.09124
用于半监督医学图像分割的自集成对比学习。Xiang, Jinxi 等人。arXiv:2105.12924
基于交叉伪监督的半监督语义分割。Chen, Xiaokang 等人。CPVR 2021
来自未标记数据的对抗性知识迁移。Gupta 等人。ACM-MM 2020 代码

多教师与集成KD

从多个教师网络中学习。You, Shan 等人。KDD 2017
单教师多学生学习。You, Shan 等人。AAAI 2018
通过即时原生集成进行知识蒸馏。Lan, Xu 等人。NeurIPS 2018
面向深度学习的私有训练数据的半监督知识迁移。ICLR 2017
知识适应：教授适应能力。Arxiv:1702.02052
深度模型压缩：从噪声教师那里蒸馏知识。Sau, Bharat Bhusan 等人。arXiv:1610.09650
平均教师是更好的榜样：加权平均一致性目标可改善半监督深度学习效果。Tarvainen, Antti 和 Valpola, Harri。NeurIPS 2017
再生神经网络。Furlanello, Tommaso 等人。ICML 2018
深度互学。Zhang, Ying 等人。CVPR 2018
深度神经网络的协作学习。Song, Guocong 和 Chai, Wei。NeurIPS 2018
数据蒸馏：迈向全监督学习。Radosavovic, Ilija 等人。CVPR 2018
基于知识蒸馏的多语言神经机器翻译。ICLR 2019
用蒸馏统一异构分类器。Vongkulbhisal 等人。CVPR 2019
蒸馏后的行人重识别：迈向更可扩展的系统。Wu, Ancong 等人。CVPR 2019
多样性与合作：面向少样本分类的集成方法。Dvornik, Nikita 等人。ICCV 2019
用于网络问答系统的两阶段多教师知识蒸馏模型压缩。Yang, Ze 等人。WSDM 2020
FEED：用于知识蒸馏的特征级集成。Park, SeongUk 和 Kwak, Nojun。AAAI 2020
随机性和跳跃连接改善知识迁移。Lee, Kwangjin 等人。ICLR 2020
与多样化同伴进行在线知识蒸馏。Chen, Defang 等人。AAAI 2020
海德拉：为模型蒸馏保持集成多样性。Tran, Linh 等人。arXiv:2001.04694
具有自适应推理成本的蒸馏分层神经网络集成。Ruiz, Adria 等人。arXiv:2003.01474
从声学模型集成中蒸馏知识，用于联合CTC-注意力端到端语音识别。Gao, Yan 等人。arXiv:2005.09310
通过多模态知识发现进行大规模少样本学习。ECCV 2020
协作学习加速StyleGAN嵌入。Guan, Shanyan 等人。arXiv:2007.01758
用于半监督目标检测的时序自集成教师。Chen, Cong 等人。IEEE 2020 [代码]
双教师：整合域内与域外教师，用于标注高效的心脏分割。MICCAI 2020
联合渐进式知识蒸馏与无监督域适应。Nguyen-Meidine 等人。WACV 2020
基于师生网络的半监督学习，用于广义属性预测。Shin, Minchul 等人。ECCV 2020
用于多任务学习的知识蒸馏。Li, WeiHong 和 Bilen, Hakan。arXiv:2007.06889 [项目]
自适应多教师多层次知识蒸馏。Liu, Yuang 等人。Neurocomputing 2020 [代码]
利用知识蒸馏进行在线集成模型压缩。ECCV 2020
从多位专家那里学习：面向长尾分类的自定进度知识蒸馏。ECCV 2020
团体知识转移：在边缘设备上协同训练大型CNN。He, Chaoyang 等人。arXiv:2007.14513
使用多名助教进行密集引导的知识蒸馏。Son, Wonchul 等人。arXiv:2009.08825
ProxylessKD：直接知识蒸馏，继承分类器用于人脸识别。Shi, Weidong 等人。arXiv:2011.00265
同意分歧：梯度空间中的自适应集成知识蒸馏。Du, Shangchen 等人。NeurIPS 2020 [代码]
为知识蒸馏强化多教师选择。Yuan, Fei 等人。AAAI 2021
基于多教师网络的类增量实例分割。Gu, Yanan 等人。AAAI 2021
通过多次知识转移进行师生协作学习。Sun, Liyuan 等人。arXiv:2101.08471
利用跨类知识传播高效传递条件GAN。Shahbaziet al. CVPR 2021 [代码]
神经网络中的知识进化。Taha, Ahmed 等人。CVPR 2021 [代码]
通过在线知识蒸馏蒸馏出强大的学生模型。Li, Shaojie 等人。arXiv:2103.14473

知识融合（KA）- zju-VIPA

VIPA - KA

面向综合分类的知识融合。沈成超等。AAAI 2019
融合过滤后的知识：从多任务教师中学习任务定制的学生模型。叶静文等。IJCAI 2019
基于共同特征学习的异构网络知识融合。罗思慧等。IJCAI 2019
学生变大师：用于联合场景解析、深度估计等任务的知识融合。叶静文等。CVPR 2019
通过自适应知识融合从异构教师中定制学生网络。ICCV 2019
基于组堆叠双GAN的数据无依赖知识融合。CVPR 2020

跨模态 / 知识蒸馏 / 增量学习

SoundNet：从无标签视频中学习声音表示——SoundNet架构。Aytar, Yusuf 等人。NeurIPS 2016
用于监督迁移的跨模态蒸馏。Gupta, Saurabh 等人。CVPR 2016
在自然场景下利用跨模态迁移进行语音情感识别。Albanie, Samuel 等人。ACM MM 2018
利用无线电信号进行穿墙人体姿态估计。Zhao, Mingmin 等人。CVPR 2018
用于视觉问答任务的紧凑型三线性交互。Do, Tuong 等人。ICCV 2019
用于动作识别的跨模态知识蒸馏。Thoker, Fida Mohammad 和 Gall, Juerge。ICIP 2019
学习映射几乎任何事物。Salem, Tawfiq 等人。arXiv:1909.06928
面向零样本草图检索的语义感知知识保持。Liu, Qing 等人。ICCV 2019
UM-Adapt：使用对抗性跨任务蒸馏的无监督多任务适应。Kundu 等人。ICCV 2019
CrDoCo：基于跨域一致性的像素级域迁移。Chen, Yun-Chun 等人。CVPR 2019
XD：面向多语言句子嵌入的跨语言知识蒸馏。ICLR 2020
通过软微调实现有效的领域知识迁移。Zhao, Zhichen 等人。arXiv:1909.02236
只需 ASR：用于唇读的跨模态蒸馏。Afouras 等人。arXiv:1911.12747v1
用于半监督领域适应的知识蒸馏。arXiv:1908.07355
通过师生学习进行端到端语音识别的领域适应。Meng, Zhong 等人。arXiv:2001.01798
使用教师进行聚类对齐的无监督领域适应。ICCV 2019
用于知识迁移的注意力桥接网络。Li, Kunpeng 等人。ICCV 2019
基于知识蒸馏的无配对多模态分割。Dou, Qi 等人。arXiv:2001.03111
多源蒸馏式领域适应。Zhao, Sicheng 等人。arXiv:1911.11554
从无到有：跨模态哈希的无监督知识蒸馏。Hu, Hengtong 等人。CVPR 2020
通过自训练改进语义分割。Zhu, Yi 等人。arXiv:2004.14960
语音到文本适应：迈向高效的跨模态蒸馏。arXiv:2005.08213
联合渐进式知识蒸馏与无监督领域适应。arXiv:2005.07839
将知识作为先验：针对缺乏优质知识数据集的跨模态知识泛化。Zhao, Long 等人。CVPR 2020
基于师生学习的大规模领域适应。Li, Jinyu 等人。arXiv:1708.05466
利用弱标签数据进行大规模视听声音学习。Fayek, Haytham M. 和 Kumar, Anurag。IJCAI 2020
通过关系匹配蒸馏跨任务知识。Ye, Han-Jia 等人。CVPR 2020 [代码]
基于多流网络的动作识别模态蒸馏。Garcia, Nuno C. 等人。ECCV 2018
通过任务蒸馏进行领域适应。Zhou, Brady 等人。ECCV 2020 [代码]
用于语义分割的双重超分辨率学习。Wang, Li 等人。CVPR 2020 [代码]
针对部分领域适应的自适应累积知识迁移。Jing, Taotao 等人。ACM MM 2020
Domain2Vec：用于无监督领域适应的领域嵌入。Peng, Xingchao 等人。ECCV 2020 [代码]
用于语义分割的无监督领域适应性知识蒸馏。Kothandaraman 等人。arXiv:2011.08007
面向元学习环境下的对话领域适应的学生—教师架构。Qian, Kun 等人。AAAI 2021
基于师生网络的多模态融合，用于室内动作识别。Bruce 等人。AAAI 2021
双教师++：利用可靠的知识迁移，在心脏分割中挖掘域内与域间知识。Li, Kang 等人。TMI 2021
用于高效多领域无监督适应的知识蒸馏方法。Nguyen 等人。IVC 2021
特征引导的动作模态迁移。Thoker, Fida Mohammad 和 Snoek, Cees。ICPR 2020
表象之外还有更多：通过蒸馏多模态知识实现自监督的多目标检测与跟踪。Francisco 等人。CVPR 2021
用于半监督迁移学习的自适应一致性正则化 Abulikemu。Abulikemu 等人。CVPR 2021 [代码]
面向少量样本类别增量学习的语义感知知识蒸馏。Cheraghian 等人。CVPR 2021
在类别增量学习中蒸馏数据的因果效应。Hu, Xinting 等人。CVPR 2021 [代码]
基于双层域混合的半监督领域适应，用于语义分割。Chen, Shuaijun 等人。CVPR 2021
PLOP：为持续语义分割而学，永不遗忘。Arthur 等人。CVPR 2021
通过稀疏且解耦的潜在表征之间的排斥—吸引机制实现持续语义分割。Umberto 和 Pietro。CVPR 2021
通过跨任务知识迁移指导场景结构，实现单深度超分辨率。Sun, Baoli 等人。CVPR 2021 [代码]
CReST：面向不平衡半监督学习的类重平衡自训练框架。Wei, Chen 等人。CVPR 2021
领域适应的自适应增强：迈向场景分割中的稳健预测。Zheng, Zhedong 和 Yang, Yi。CVPR 2021
利用量子图像传感器在黑暗中进行图像分类。Gnanasambandam, Abhiram 和 Chan, Stanley H。ECCV 2020
利用量子图像传感器进行动态低光成像。Chi, Yiheng 等人。ECCV 2020
在领域迁移中可视化适应后的知识。Hou, Yunzhong 和 Zheng, Liang。CVPR 2021
基于中性交叉熵损失的无监督领域适应，用于语义分割。Xu, Hanqing 等人。IEEE TIP 2021
基于视觉和语言知识蒸馏的零样本检测。Gu, Xiuye 等人。arXiv:2104.13921
重新思考用于语义分割的无监督领域适应的集成—蒸馏方法。Chao, Chen-Hao 等人。CVPRW 2021
精神蒸馏：一种结合多领域知识迁移的模型压缩方法。Wu, Zhiyuan 等人。arXiv:2104.14696
基于傅里叶变换的领域泛化框架。Xu, Qinwei 等人。CVPR 2021
KD3A：通过知识蒸馏实现的无监督多源去中心化领域适应。Feng, Haozhe 等人。ICML 2021

知识蒸馏的应用

通过从神经元中蒸馏知识来压缩人脸模型。罗平等，AAAI 2016
利用知识蒸馏学习高效的物体检测模型。陈国斌等，NeurIPS 2017
学徒：使用知识蒸馏技术提升低精度网络的准确性。米什拉等，NeurIPS 2018
蒸馏行人重识别：迈向更可扩展的系统。吴安聪等，CVPR 2019
使用更少帧实现高效的视频分类。巴德瓦杰等，CVPR 2019
快速人体姿态估计。张峰等，CVPR 2019
从深度姿态回归网络中蒸馏知识。萨普特拉等，arXiv:1908.00858 (2019)
通过自注意力蒸馏学习轻量级车道检测CNN。侯元楠等，ICCV 2019
面向语义分割的结构化知识蒸馏。刘一凡等，CVPR 2019
用于视频目标检测的关系蒸馏网络。邓嘉俊等，ICCV 2019
教师指导学生如何从部分标注图像中学习以进行人脸关键点检测。董宣毅和杨毅，ICCV 2019
用于早期动作预测的渐进式师生学习。王雄辉等，CVPR 2019
基于信息多蒸馏网络的轻量级图像超分辨率。惠正等，ICCVW 2019
AWSD：用于视频表示的自适应加权时空蒸馏。塔瓦科利安等，ICCV 2019
动态核蒸馏用于视频中的高效姿态估计。聂学成等，ICCV 2019
教师引导的架构搜索。巴希万和滕森，ICCV 2019
用于高效视频推理的在线模型蒸馏。穆拉普迪等，ICCV 2019
通过细粒度特征模仿蒸馏目标检测器。王涛等，CVPR 2019
用于视频目标检测的关系蒸馏网络。邓嘉俊等，ICCV 2019
用于语义分割增量学习的知识蒸馏。arXiv:1911.03462
MOD：一种具有在线知识蒸馏的深度混合模型，用于大规模视频时序概念定位。arXiv:1910.12295
用于暹罗跟踪器的师生知识蒸馏。arXiv:1907.10586
LaTeS：用于师生驾驶策略学习的潜在空间蒸馏。赵阿尔伯特等，CVPR 2020（预）
用于脑肿瘤分割的知识蒸馏。arXiv:2002.03688
ROAD：面向现实的城市场景语义分割适应方法。陈宇华等，CVPR 2018
用于音频分类的多表示知识蒸馏。高亮等，arXiv:2002.09607
用于超分辨率通用风格迁移的协同蒸馏。王欢等，CVPR 2020 [代码]
ShadowTutor：用于移动端视频DNN推理的分布式部分蒸馏。郑在源等，ICPP 2020 [代码]
带有教师推荐学习的目标关系图用于视频字幕生成。张子琪等，CVPR 2020
带有知识蒸馏的时空图用于视频字幕生成。CVPR 2020 [代码]
利用知识蒸馏实现压缩版深度6DoF目标检测。费利克斯等，arXiv:2003.13586
通过蒸馏语义实现从视频中全面理解场景。托西等，arXiv:2003.14030
并行WaveNet：快速高保真语音合成。范等，ICML 2018
从NRSfM中蒸馏知识以进行弱监督3D姿态学习。王朝阳等，ICCV 2019
KD-MRI：一种用于MRI工作流中图像重建与修复的知识蒸馏框架。穆鲁格桑等，MIDL 2020
面向室内语义分割的几何感知蒸馏。焦建波等，CVPR 2019
教师指导学生如何从部分标注图像中学习以进行人脸关键点检测。ICCV 2019
通过异构任务模仿蒸馏图像去雾。洪明等，CVPR 2020
通过标签平滑进行动作预判的知识蒸馏。坎波雷塞等，arXiv:2004.07711
通过蒸馏图像-文本匹配模型实现更贴近实际的图像字幕生成。周远恩等，CVPR 2020
在多个实例检测网络中通过精炼过程蒸馏知识。泽尼和荣克，arXiv:2004.10943
实现边缘端目标检测的增量知识迁移。arXiv:2004.05746
无先验知识的学生：基于判别式潜在嵌入的师生异常检测。贝格曼等，CVPR 2020
TA-学生VQA：通过自我提问进行多智能体训练。熊培熙和吴颖，CVPR 2020
Mentornet：在标签损坏的情况下为超深神经网络学习数据驱动的课程。蒋璐等，ICML 2018
用于半监督阴影检测的多任务平均教师。陈志浩等，CVPR 2020 [代码]
通过知识蒸馏学习轻量级人脸检测器。张世峰等，IEEE 2019
通过层次化知识蒸馏学习轻量级行人检测器。ICIP 2019
通过任务自适应正则化蒸馏目标检测器。孙若雨等，arXiv:2006.13108
面向语义分割的类内紧凑性蒸馏。ECCV 2020
DOPE：针对野外全身3D姿态估计的局部专家蒸馏。ECCV 2020
自相似学生用于部分标注病理切片图像的分割。ECCV 2020
多视角知识蒸馏实现稳健的重识别。波雷洛等，ECCV 2020 [代码]
LabelEnc：一种用于目标检测的新中间监督方法。郝苗等，arXiv:2007.03282
光流蒸馏：迈向高效稳定的视频风格迁移。陈兴浩等，ECCV 2020
用于半监督3D动作识别的对抗性自监督学习。施晨阳等，ECCV 2020
双路径蒸馏：一种统一框架，用于改进黑盒攻击。张永刚等，ICML 2020
基于师生GAN模式的RGB-IR跨模态人员重识别。张子悦等，arXiv:2007.07452
通过深度蒸馏进行散焦模糊检测。存晓东和潘志文，ECCV 2020 [代码]
通过渐进式知识迁移提升弱监督目标检测。钟元义等，ECCV 2020 [代码]
权重衰减调度与知识蒸馏用于主动学习。ECCV 2020
通过知识蒸馏规避AutoAugment的异常值。ECCV 2020
通过分布蒸馏损失改善对困难样本的人脸识别。ECCV 2020
排他性-一致性正则化的知识蒸馏用于人脸识别。ECCV 2020
自相似学生用于部分标注病理切片图像的分割。程贤祖等，ECCV 2020
面向重叠宫颈细胞实例分割的深度半监督知识蒸馏。周燕宁等，arXiv:2007.10787 [代码]
基于两级残差蒸馏的三重网络用于增量目标检测。杨东宝等，arXiv:2007.13428
通过回归-检测双知识迁移迈向无监督人群计数。刘玉婷等，ACM MM 2020
面向图像字幕生成的教师关键训练策略。黄一清和陈建生，arXiv:2009.14405
带有教师推荐学习的目标关系图用于视频字幕生成。张子琪等，CVPR 2020
从多帧到单帧：面向3D目标检测的知识蒸馏。王岳等，ECCV 2020
用于轻量级图像超分辨率的残差特征蒸馏网络。刘洁等，ECCV 2020
保留句间相似性的知识蒸馏用于音频标签。Interspeech 2020
带有无噪声差分隐私的联邦模型蒸馏。arXiv:2009.05537
通过路由多样化的分布感知专家实现长尾识别。王旭东等，arXiv:2010.01809
通过时空知识蒸馏实现快速视频显著目标检测。易唐和袁力，arXiv:2010.10027
用于异常检测的多分辨率知识蒸馏。萨莱希等，CVPR 2021
面向语义分割的通道级蒸馏。舒昌勇等，arXiv:2011.13256
教我用混合监督进行分割：自信的学生终成大师。多尔兹等，arXiv:2012.08051
不变教师与等变学生用于无监督3D人体姿态估计。许晨欣等，AAAI 2021 [代码]
训练数据高效的图像变换器及通过注意力进行蒸馏。图弗龙等，arXiv:2012.12877 [代码]
SID：通过选择性和相互关联的蒸馏实现无锚框目标检测的增量学习。彭灿等，arXiv:2012.15439
PSSM-Distil：利用对比学习进行知识蒸馏，在低质量PSSM上预测蛋白质二级结构。王秦等，AAAI 2021
用于端到端人员搜索的多样化知识蒸馏。张鑫宇等，AAAI 2021
通过多模态到单模态的师生互学提升音频标签。尹怡芳等，AAAI 2021
神经注意力蒸馏：清除深度神经网络中的后门触发器。李一戈等，ICLR 2021 [代码]
用于半监督目标检测的无偏教师。刘延成等，ICLR 2021 [代码]
面向目标检测的定位蒸馏。郑兆辉等，CVPR 2021 [代码]
通过中间分类头蒸馏知识。阿里安和阿米拉利，arXiv:2103.00497
通过解耦特征蒸馏目标检测器。（华为-诺亚）。CVPR 2021
面向目标检测的一般实例蒸馏。戴星等，CVPR 2021
用于异常检测的多分辨率知识蒸馏。穆罕默德雷扎等，CVPR 2021
师生特征金字塔匹配用于无监督异常检测。王国栋等，arXiv:2103.04257
教师-探索者-学生学习：一种用于开放集识别的新学习方法。张在渊和金昌旭。IEEE 2021
密集关系蒸馏结合上下文感知聚合，用于少样本目标检测。胡汉哲等，CVPR 2021 [代码]
通过知识蒸馏压缩视觉-语言模型。方志远等，arXiv:2104.02096
再见互信息：用于跨模态人员重识别的变分蒸馏。田旭东等，CVPR 2021
通过对比知识蒸馏提升弱监督视觉接地能力。王立伟等，CVPR 2021
有序的双教师知识蒸馏用于轻量级人体姿态估计。赵仲秋等，arXiv:2104.10414
通过知识蒸馏提升轻量级深度估计。胡俊杰等，arXiv:2105.06143
弱监督密集视频字幕生成，联合运用知识蒸馏和跨模态匹配。吴博锋等，arXiv:2105.08252
重新审视目标检测中的知识蒸馏。巴尼塔莱比-德霍尔迪，arXiv:2105.10633
通过对比自蒸馏迈向紧凑的单幅图像超分辨率。王彦博等，IJCAI 2021
多少观测足够？用于轨迹预测的知识蒸馏。蒙蒂等，CVPR 2022

用于自然语言处理与数据挖掘

针对BERT模型压缩的患者知识蒸馏。孙思琪等。arXiv:1908.09355
TinyBERT：用于自然语言理解的BERT知识蒸馏模型。焦晓琪等。arXiv:1909.10351
基于知识蒸馏的视觉问答任务专精学习。NeurIPS 2018
用于双语词典构建的知识蒸馏。EMNLP 2017
一种面向可维护对话管理器的师生框架。EMNLP 2018
非自回归机器翻译中的知识蒸馏机制研究。arxiv 2019
DistilBERT：BERT的精简版，更小、更快、更便宜、更轻量。Sanh, Victor等。arXiv:1910.01108
见多识广的学生学得更好：关于预训练紧凑模型的重要性。Turc, Iulia等。arXiv:1908.08962
复杂网络到响应预测的知识蒸馏研究。Arora, Siddhartha等。NAACL 2019
用于文本生成的BERT知识蒸馏模型。arXiv:1911.03829v1
非自回归机器翻译中的知识蒸馏机制理解。arXiv:1911.02727
MobileBERT：适用于资源受限设备的紧凑型任务无关BERT模型。孙志清等。ACL 2020
从预训练模型中获取知识应用于神经机器翻译。Weng, Rongxiang等。AAAI 2020
TwinBERT：通过知识蒸馏构建孪生结构BERT模型以实现高效检索。Lu, Wenhao等。KDD 2020
通过自集成和自蒸馏改进BERT微调。Xu, Yige等。arXiv:2002.10345
FastBERT：具有自蒸馏功能且推理时间可适应的BERT模型。Liu, Weijie等。ACL 2020
LadaBERT：通过混合模型压缩实现BERT的轻量化适配。Mao, Yihuan等。arXiv:2004.04124
DynaBERT：宽度和深度可动态调整的BERT模型。Hou, Lu等。NeurIPS 2020
面向多语言序列标注的结构级知识蒸馏。Wang, Xinyu等。ACL 2020
蒸馏嵌入：利用知识蒸馏进行非线性嵌入分解。Lioutas, Vasileios等。arXiv:1910.06720
TinyMBERT：用于大规模多语言命名实体识别的多阶段知识蒸馏框架。Mukherjee & Awadallah。ACL 2020
用于多语言无监督神经机器翻译的知识蒸馏。Sun, Haipeng等。arXiv:2004.10171
利用知识蒸馏将单语句子嵌入扩展为多语种。Reimers, Nils & Gurevych, Iryna。arXiv:2004.09813
为快速检索类聊天机器人蒸馏知识。Tahami等。arXiv:2004.11045
基于目标语言未标注数据的师生学习实现单/多源跨语言命名实体识别。ACL 2020
使用均值教师进行半监督学习的局部聚类。arXiv:2004.09665
基于判别式教师的时间扭曲技术增强神经网络时序数据。arXiv:2004.08780
双向编码器的句法结构蒸馏预训练。arXiv:2005.13482
蒸馏、适配、再蒸馏：针对神经机器翻译的小规模领域内模型训练。arXiv:2003.02877
为更快速、更绿色的依存句法分析蒸馏神经网络。arXiv:2006.00844
基于信息丰富的软标签蒸馏知识用于神经关系抽取。AAAI 2020 [代码]
通过蒸馏图像-文本匹配模型实现更贴近实际的图像字幕生成。Zhou, Yuanen等。CVPR 2020
利用知识蒸馏在模态不完整的情况下进行多模态学习。Wang, Qi等。KDD 2020
将BERT知识蒸馏应用于序列到序列的自动语音识别。Futami, Hayato等。arXiv:2008.03822
针对语言模型压缩的中间表示对比蒸馏。Sun, Siqi等。EMNLP 2020 [代码]
用于文本摘要的噪声自知识蒸馏。arXiv:2009.07032
简化版TinyBERT：用于文档检索的知识蒸馏模型。arXiv:2009.07531
通过模仿学习实现自回归知识蒸馏。arXiv:2009.07253
BERT-EMD：基于地球移动距离的多对多层映射用于BERT压缩。EMNLP 2020 [代码]
可解释嵌入过程中的知识迁移。Seunghyun Lee等。AAAI 2021 [代码]
LRC-BERT：用于自然语言理解的潜在表征对比知识蒸馏模型。Fu, Hao等。AAAI 2021
向零样本知识蒸馏迈进：用于自然语言处理。Ahmad等。arXiv:2012.15495
Meta-KD：跨领域的语言模型压缩元知识蒸馏框架。Pan, Haojie等。AAAI 2021
学习如何扩充数据以进行数据稀缺领域的BERT知识蒸馏。Feng, Lingyun等。AAAI 2021
通过标签混淆学习提升文本分类模型性能。Guo, Biyang等。AAAI 2021
NewsBERT：为智能新闻应用蒸馏预训练语言模型。Wu, Chuhan等。kdd 2021

针对推荐系统

基于策略蒸馏强化学习的长期奖励多任务推荐。Liu, Xi 等。arXiv:2001.09595
一种基于统一数据的反事实推荐通用知识蒸馏框架。Liu, Dugang 等。SIGIR 2020 [幻灯片] [代码]
LightRec：一种内存与搜索效率俱佳的推荐系统。Lian, Defu 等。WWW 2020
淘宝推荐中的特权特征蒸馏。Xu, Chen 等。KDD 2020
资源受限移动设备上的下一个兴趣点推荐。WWW 2020
利用外部知识实现高效推荐的对抗性蒸馏。Chen, Xu 等。ACM Trans, 2018
排序蒸馏：为推荐系统学习高性能的紧凑排序模型。Tang, Jiaxi 等。SIGKDD 2018
一种新颖的增强型协同自编码器，结合知识蒸馏用于 Top-N 推荐系统。Pan, Yiteng 等。Neurocomputing 2019 [代码]
ADER：面向会话式推荐持续学习的自适应蒸馏示例回放。Mi, Fei 等。ACM RecSys 2020
基于知识蒸馏的 CTR 预测集成。Zhu, Jieming 等（华为）。CIKM 2020
DE-RRD：推荐系统的知识蒸馏框架。Kang, Seongku 等。CIKM 2020 [代码]
带有注意力机制的知识蒸馏神经兼容性建模。Song, Xuemeng 等。SIGIR 2018
结合图卷积网络蒸馏的二值化协同过滤。Wang, Haoyu 等。IJCAI 2019
用于 Top-N 推荐的协同蒸馏。Jae-woong Lee 等。CIKM 2019
将结构化知识蒸馏到嵌入中，以实现可解释且准确的推荐。Zhang Yuan 等。WSDM 2020
UMEC：统一模型与嵌入压缩，用于高效推荐系统。ICLR 2021
用于 Top-K 推荐系统的双向蒸馏。WWW 2021
冷启动推荐中的特权图蒸馏。SIGIR 2021
推荐系统的拓扑蒸馏 [KDD 2021]
用于推荐中知识图谱蒸馏的条件注意力网络 [CIKM 2021]
探索、过滤与蒸馏：推荐中的蒸馏强化学习 [CIKM 2021] [视频] [代码]
图结构感知的对比式知识蒸馏，用于推荐系统的增量学习 [CIKM 2021]
用于推荐中知识图谱蒸馏与精炼的条件图注意力网络 [CIKM 2021]
多兴趣推荐中的目标兴趣蒸馏 [CIKM 2022] [视频] [代码]
KDCRec：基于均匀数据的反事实推荐知识蒸馏 [TKDE 2022] [代码]
重访基于图的社会推荐：一种蒸馏增强的社会图网络 [WWW 2022] [代码]
用于个性化穿搭推荐的假负样本蒸馏与对比学习 [Arxiv 2110.06483]
用于 Top-N 推荐系统排序蒸馏的双重修正策略 [ArXiv 2109.03459v1]
基于可微架构搜索的场景自适应知识蒸馏，用于序列推荐。Chen, Lei 等。[ArXiv 2107.07173v1]
插值蒸馏用于统一有偏与无偏推荐 [SIGIR 2022] [视频] [代码]
FedSPLIT：基于非负联合矩阵分解与知识蒸馏的一次性联邦推荐系统 [Arxiv 2205.02359v1]
基于自监督知识蒸馏的端侧下一件商品推荐 [SIGIR 2022] [代码]
多任务推荐中的跨任务知识蒸馏 [AAAI 2022]
朝着理解排序学习中的特权特征蒸馏迈进 [NIPS 2022]
打破黑箱：基于知识蒸馏的公平排序框架 [WISE 2022]
Distill-VQ：通过从密集嵌入中蒸馏知识来学习检索导向的向量量化 [SIGIR 2022] [代码]
AutoFAS：预排序系统的自动特征与架构选择 [KDD 2022]
用于大规模 CTR 预测的增量学习框架 [RecSys 22]
基于知识蒸馏的有向无环图因子机，用于 CTR 预测 [WSDM 2023] [代码]
用于推荐的无偏知识蒸馏 [WSDM 2023] [代码]
DistilledCTR：通过模型蒸馏实现的精准且可扩展的 CTR 预测模型 [ESWA 2022]
基于深度强化学习的顶部感知推荐蒸馏 [Information Sciences 2021]

模型剪枝或量化

利用主导卷积核和知识预回归加速卷积神经网络。ECCV 2016
N2N学习：通过策略梯度强化学习实现网络到网络的压缩。Ashok、Anubhav等。ICLR 2018
可裁剪神经网络。Yu、Jiahui等。ICLR 2018
用于无配对图像翻译的协同进化压缩。Shu、Han等。ICCV 2019
元剪枝：基于元学习的自动神经网络通道剪枝。Liu、Zechun等。ICCV 2019
LightPAFF：一种用于预训练和微调的两阶段蒸馏框架。ICLR 2020
带提示的剪枝：一种高效的模型加速框架。ICLR 2020
使用廉价卷积和在线蒸馏训练卷积神经网络。arXiv:1909.13063
跨领域深度神经网络压缩中的协作式剪枝。Chen, Shangyu等。IJCAI 2019
QKD：感知量化的知识蒸馏。Kim、Jangho等。arXiv:1911.12491v1
基于残差连接和有限数据的神经网络剪枝。Luo、Jian-Hao & Wu、Jianxin。CVPR 2020
使用全精度辅助模块训练量化神经网络。Zhuang、Bohan等。CVPR 2020
向有效的低比特卷积神经网络迈进。Zhuang、Bohan等。CVPR 2018
使用低比特权重和激活的有效卷积神经网络训练。Zhuang、Bohan等。arXiv:1908.04680
更加关注迭代剪枝的快照：通过集成蒸馏改进模型压缩。Le等。arXiv:2006.11487 [代码]
知识蒸馏超越模型压缩。Choi、Arthur等。arxiv:2007.01493
针对二值卷积神经网络的蒸馏引导残差学习。Ye、Jianming等。ECCV 2020
使用层次自蒸馏的级联通道剪枝。Miles & Mikolajczyk。BMVC 2020
三值BERT：感知蒸馏的超低比特BERT。Zhang、Wei等。EMNLP 2020
权重蒸馏：在神经网络参数中传递知识。arXiv:2009.09152
随机精度集成：量化深度神经网络的自我知识蒸馏。Boo、Yoonho等。AAAI 2021
二值图神经网络。Bahri、Mehdi等。CVPR 2021
自我损害对比学习。Jiang、Ziyu等。ICML 2021
信息论表示蒸馏。Miles等。BMVC 2022 [代码]
针对二值卷积神经网络的蒸馏引导残差学习。Ye、Jianming等。ECCV 2020
使用层次自蒸馏的级联通道剪枝。Miles & Mikolajczyk。BMVC 2020
三值BERT：感知蒸馏的超低比特BERT。Zhang、Wei等。EMNLP 2020
权重蒸馏：在神经网络参数中传递知识。arXiv:2009.09152
随机精度集成：量化深度神经网络的自我知识蒸馏。Boo、Yoonho等。AAAI 2021
二值图神经网络。Bahri、Mehdi等。CVPR 2021
自我损害对比学习。Jiang、Ziyu等。ICML 2021

超越

深度网络真的需要那么深吗？Ba、Jimmy，以及Rich Caruana。NeurIPS 2014
标签平滑何时会有帮助？Müller、Rafael，Kornblith，以及Hinton。NeurIPS 2019
向理解知识蒸馏迈进。Phuong、Mary，以及Lampert、Christoph。ICML 2019
用逻辑规则驾驭深度神经网络。ACL 2016
标签的适应性正则化。Ding、Qianggang等。arXiv:1908.05474
神经网络之间的知识同构。Liang、Ruofan等。arXiv:1908.01581
（综述）深度神经网络中用于知识蒸馏的师生技术建模。arXiv:1912.13179
理解并改进知识蒸馏。Tang、Jiaxi等。arXiv:2002.03532
分类任务中知识蒸馏的现状。Ruffy、Fabian，以及Chahal、Karanbir。arXiv:1912.10850 [代码]
通过量化知识来解释知识蒸馏。Zhang、Quanshi等。CVPR 2020
DeepVID：通过知识蒸馏实现图像分类器的深度视觉解释与诊断。IEEE Trans，2019年。
论知识蒸馏的不合理有效性：核区域分析。Rahbar、Arman等。arXiv:2003.13438
（综述）知识蒸馏与师生学习在视觉智能中的应用：回顾与新展望。Wang、Lin & Yoon、Kuk-Jin。arXiv:2004.05937
为什么蒸馏有帮助：统计学视角。arXiv:2005.10419
通过知识蒸馏转移归纳偏置。Abnar、Samira等。arXiv:2006.00555
标签平滑能否缓解标签噪声？Lukasik、Michal等。ICML 2020
数据增强对知识蒸馏影响的实证分析。Das、Deepan等。arXiv:2006.03810
（综述）知识蒸馏：一项综述。Gou、Jianping等。IJCV 2021
对抗性迁移是否意味着知识迁移？Liang、Kaizhao等。arXiv:2006.14512
关于知识蒸馏的揭秘：残差网络视角。Jha等。arXiv:2006.16589
利用简单模型已有的知识来提升其性能。Dhurandhar等。ICML 2020
用于神经逻辑规则学习的特征提取函数。Gupta & Robles-Kelly。arXiv:2008.06326
从集成视角看知识蒸馏与其他技术的正交性。SeongUk等。arXiv:2009.04120
宽度神经网络中的知识蒸馏：风险边界、数据效率与不完美的教师。Ji、Guangda & Zhu、Zhanxing。NeurIPS 2020
为知识蒸馏中的特征模仿辩护。Wang、Guo-Hua等。arXiv:2011.0142
通过知识蒸馏继承正则化的可解模型。Luca Saglietti & Lenka Zdeborova。arXiv:2012.00194
不可蒸馏：制造一个无法教导学生的恶劣教师。ICLR 2021
向理解深度学习中的集成、知识蒸馏和自我蒸馏迈进。Allen-Zhu、Zeyuan & Li、Yuanzhi。（微软）arXiv:2012.09816
从清洁输入到噪声输入的师生学习。Hong、Guanzhe等。CVPR 2021
标签平滑是否真的与知识蒸馏不兼容：一项实证研究。ICLR 2021 [项目]
用于收益优化的模型蒸馏：可解释的个性化定价。Biggs、Max等。ICML 2021
蒸馏的统计学视角。Aditya等（谷歌）。ICML 2021
（综述）无数据知识转移：一项综述。Liu、Yuang等。arXiv:2112.15278
知识蒸馏超越模型压缩。Choi、Sarfraz等。arxiv:2007.01493

蒸馏工具

Neural Network Distiller：用于深度神经网络压缩研究的 Python 包。arXiv:1910.12232
TextBrewer：面向自然语言处理的开源知识蒸馏工具包。哈尔滨工业大学与科大讯飞。arXiv:2002.12620
torchdistill：一个模块化、基于配置驱动的知识蒸馏框架。
KD-Lib：一个用于知识蒸馏、剪枝和量化操作的 PyTorch 库。Shen, Het 等人。arXiv:2011.14691
Knowledge-Distillation-Zoo
RepDistiller
classification distiller

注：所有论文的 PDF 文件均可在 arXiv、Bing 或 Google 上找到并下载。

来源：https://github.com/FLHonker/Awesome-Knowledge-Distillation

感谢所有贡献者：

联系方式：刘源（frankliu624outlook.com）

Awesome-Knowledge-Distillation 快速上手指南

Awesome-Knowledge-Distillation 并非一个单一的可安装软件包，而是一个精选的知识蒸馏（Knowledge Distillation, KD）领域开源论文、代码实现及工具的资源列表。本指南旨在帮助开发者快速利用该列表中的资源，搭建环境并运行经典的蒸馏示例。

环境准备

在开始之前，请确保您的开发环境满足以下基本要求。由于列表中包含大量基于 PyTorch 和 TensorFlow 的项目，建议以 PyTorch 生态为主进行配置。

操作系统: Linux (推荐 Ubuntu 18.04/20.04) 或 macOS。Windows 用户建议使用 WSL2。
硬件要求: 支持 CUDA 的 NVIDIA GPU（推荐显存 ≥ 8GB），用于加速模型训练与蒸馏过程。
前置依赖:
- Python 3.7+
- Git
- CUDA Toolkit (版本需与深度学习框架匹配)
- cuDNN

安装步骤

由于该项目是资源索引，您需要根据需求克隆具体的子项目或使用通用的蒸馏库。以下以克隆主仓库并安装通用依赖为例。

1. 克隆仓库

使用国内镜像源加速克隆过程：

git clone https://gitee.com/mirrors/Awesome-Knowledge-Distillation.git
# 或者直接从 GitHub 克隆（若网络通畅）
# git clone https://github.com/FLHonker/Awesome-Knowledge-Distillation.git
cd Awesome-Knowledge-Distillation

2. 创建虚拟环境

推荐使用 conda 管理环境：

conda create -n kd_env python=3.8
conda activate kd_env

3. 安装深度学习框架

推荐使用清华源或阿里源加速安装 PyTorch：

# 示例：安装 PyTorch (CUDA 11.8 版本)，请根据实际显卡驱动调整
pip install torch torchvision torchaudio --index-url https://pypi.tuna.tsinghua.edu.cn/simple

4. 安装通用工具库

许多列表中的项目依赖常见的科学计算库：

pip install numpy scipy matplotlib tqdm scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：若要运行列表中特定的论文代码（如 FitNets, CRD, DKD 等），请进入对应论文的官方代码仓库，并按照其单独的 requirements.txt 进行安装。

基本使用

知识蒸馏的核心流程通常包含三个步骤：训练教师模型 (Teacher) -> 提取知识 (Logits/Features) -> 训练学生模型 (Student)。

以下是一个基于 PyTorch 的最简伪代码示例，演示了最经典的 Logits 蒸馏（参考 Hinton et al. 2015）的基本逻辑：

1. 定义蒸馏损失函数

结合硬标签（Ground Truth）和软标签（Teacher Logits）计算损失。

import torch
import torch.nn as nn
import torch.nn.functional as F

class DistillationLoss(nn.Module):
    def __init__(self, temperature=3.0, alpha=0.7):
        super().__init__()
        self.T = temperature
        self.alpha = alpha
        self.kl_div = nn.KLDivLoss(reduction='batchmean')
        self.ce_loss = nn.CrossEntropyLoss()

    def forward(self, student_logits, teacher_logits, targets):
        # 计算软目标损失 (KL 散度)
        soft_loss = self.kl_div(
            F.log_softmax(student_logits / self.T, dim=1),
            F.softmax(teacher_logits / self.T, dim=1)
        ) * (self.T ** 2)
        
        # 计算硬目标损失 (交叉熵)
        hard_loss = self.ce_loss(student_logits, targets)
        
        # 加权总和
        return self.alpha * soft_loss + (1.0 - self.alpha) * hard_loss

2. 训练循环示例

假设已加载预训练好的 teacher_model 和初始化的 student_model。

# 初始化
criterion = DistillationLoss(temperature=4.0, alpha=0.5)
optimizer = torch.optim.SGD(student_model.parameters(), lr=0.1, momentum=0.9)

# 设置教师模型为评估模式，冻结参数
teacher_model.eval()
for param in teacher_model.parameters():
    param.requires_grad = False

# 训练迭代
for images, labels in dataloader:
    images, labels = images.cuda(), labels.cuda()
    
    optimizer.zero_grad()
    
    # 前向传播
    with torch.no_grad():
        teacher_logits = teacher_model(images)
    
    student_logits = student_model(images)
    
    # 计算蒸馏损失
    loss = criterion(student_logits, teacher_logits, labels)
    
    # 反向传播
    loss.backward()
    optimizer.step()

3. 探索更多实现

浏览本仓库目录，您可以找到针对不同场景的实现方案：

中间层特征蒸馏: 查看 Knowledge from intermediate layers 章节（如 FitNets, AT）。
无数据蒸馏: 查看 Data-free KD 章节。
特定任务: 查看 Application of KD 章节（如 NLP, 推荐系统）。

直接访问列表中提供的 [code] 链接，即可获取对应论文的详细复现代码。

常见问题

为什么该仓库中关于推荐系统（RecSys）的知识蒸馏论文较少？

我想为仓库添加“推荐系统中的知识蒸馏”分类，应该如何操作？

仓库中的论文条目是否包含项目代码链接？

如何向该仓库贡献新的知识蒸馏论文？

如果发现某篇已收录论文发布了代码，如何更新仓库信息？

有哪些最近的知识蒸馏论文值得关注和收录？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架