Awesome-Knowledge-Distillation

GitHub
2.7k 333 困难 1 次阅读 2天前开发框架
AI 解读 由 AI 自动生成,仅供参考

Awesome-Knowledge-Distillation 是一个专注于“知识蒸馏”技术的开源论文合集,旨在系统性地整理和分类该领域从 2014 年至 2021 年的核心研究成果。在深度学习中,大型模型往往性能卓越但计算成本高昂,难以部署在资源受限的设备上。知识蒸馏技术通过将大模型(教师)的知识迁移给小模型(学生),有效解决了模型压缩与加速的难题,让轻量级模型也能具备接近大模型的性能。

这份资源库特别适合人工智能研究人员、算法工程师以及对模型优化感兴趣的开发者使用。它不仅仅是一份简单的文献列表,更独特地将数百篇论文按技术路径进行了细致分类,涵盖了从基于输出逻辑(Logits)、中间层特征、图结构知识,到结合生成对抗网络(GAN)、元学习、无数据蒸馏等前沿方向。此外,它还收录了知识蒸馏在自然语言处理、推荐系统及模型量化剪枝等具体场景的应用案例。无论是希望快速了解领域全貌的新手,还是寻找特定技术突破点的资深专家,都能从中高效获取有价值的学术参考,助力构建更高效、更紧凑的深度学习模型。

使用场景

某自动驾驶初创公司的算法团队正致力于将高精度的感知模型部署到算力受限的车载边缘芯片上,急需在保持准确率的同时大幅压缩模型体积。

没有 Awesome-Knowledge-Distillation 时

  • 文献调研如大海捞针:团队成员需手动在 arXiv 和各大会议中搜索“知识蒸馏”相关论文,耗时数周仍难以覆盖 2014-2021 年间的关键成果,极易遗漏如"Teacher Assistant"或"Self-KD"等进阶方案。
  • 技术选型盲目试错:面对 Logits 蒸馏、中间层特征对齐、图结构蒸馏等多种技术路线,缺乏系统分类指引,导致团队错误选择了不适配当前检测任务的蒸馏策略,浪费大量算力资源。
  • 跨领域应用受阻:当尝试将蒸馏技术迁移至雷达点云处理或小样本场景时,因找不到"Cross-modal"或"Data-free KD"等细分领域的专项论文,项目陷入停滞。
  • 复现成本高昂:由于缺乏对各类变体(如结合 GAN、元学习或自动化搜索)的整理,开发人员需从零阅读大量冗长原文才能理解核心差异,严重拖慢迭代进度。

使用 Awesome-Knowledge-Distillation 后

  • 一站式全景索引:团队直接利用其整理的 658+ 篇论文清单,按"Logits"、“中间层”、“自蒸馏”等维度快速定位到最适合车载场景的"Relational Knowledge Distillation"方案,调研时间缩短 80%。
  • 精准匹配技术路径:借助清晰的分类结构,迅速排除了不适用的纯日志蒸馏,锁定了能更好保留空间结构信息的图基于(Graph-based)蒸馏方法,显著提升了小模型对行人检测的精度。
  • 激发创新组合思路:通过浏览"KD + AutoML"和"Multi-teacher"板块,团队受启发设计了多教师集成蒸馏架构,成功解决了单一教师模型在极端天气下泛化能力不足的问题。
  • 高效落地验证:参考列表中提供的代码链接和经典复现路径,团队在一周内完成了基线搭建与对比实验,加速了模型从实验室到实车部署的闭环。

Awesome-Knowledge-Distillation 通过将碎片化的学术成果系统化,让工程师能从繁重的文献挖掘中解放出来,专注于解决实际的模型压缩与性能平衡难题。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个知识蒸馏(Knowledge Distillation)领域的论文和资源列表(Awesome List),并非一个可直接运行的单一软件工具或框架。README 中列出了数百篇相关学术论文及其分类,部分条目附带了独立的外部代码链接。因此,具体的运行环境、依赖库及硬件需求取决于用户选择复现哪一篇特定论文或使用哪个子项目,本仓库本身无统一的环境要求。
python未说明
Awesome-Knowledge-Distillation hero image

快速开始

令人惊叹的知识蒸馏

计数器 星标

知识的不同形式

从 logits 中提取的知识

  1. 神经网络中的知识蒸馏。Hinton 等人,arXiv:1503.02531
  2. 基于蒸馏的噪声标签学习。Li, Yuncheng 等人,ICCV 2017
  3. 分代训练深度神经网络:更宽容的教师培养出更好的学生。arXiv:1805.05551
  4. 从教师处学习度量:用于图像嵌入的紧凑网络。Yu, Lu 等人,CVPR 2019
  5. 关系知识蒸馏。Park, Wonpyo 等人,CVPR 2019
  6. 针对响应预测从复杂网络中进行知识蒸馏的研究。Arora, Siddhartha 等人,NAACL 2019
  7. 关于知识蒸馏的有效性。Cho, Jang Hyun 和 Hariharan, Bharath,arXiv:1910.01348。ICCV 2019
  8. 重访知识蒸馏:无教师框架(通过标签平滑正则化重审知识蒸馏)。Yuan, Li 等人,CVPR 2020 [代码]
  9. 通过教师助手改进知识蒸馏:弥合学生与教师之间的差距。Mirzadeh 等人,arXiv:1902.03393
  10. 集成分布蒸馏。ICLR 2020
  11. 知识蒸馏中的噪声协作。ICLR 2020
  12. 关于使用知识蒸馏压缩 U-net 的研究。arXiv:1812.00249
  13. 带有噪声学生的自训练提升了 ImageNet 分类性能。Xie, Qizhe 等人(Google),CVPR 2020
  14. 变分学生:在知识蒸馏框架中学习紧凑且稀疏的网络。AAAI 2020
  15. 准备课程:通过更好的监督提升知识蒸馏效果。arXiv:1911.07471
  16. 标签的自适应正则化。arXiv:1908.05474
  17. 云端上的正负样本压缩。Xu, Yixing 等人(华为),NeurIPS 2019
  18. 快照蒸馏:单代内的师生优化。Yang, Chenglin 等人,CVPR 2019
  19. QUEST:用于知识迁移的量化嵌入空间。Jain, Himalaya 等人,arXiv:2020
  20. 条件师生学习。Z. Meng 等人,ICASSP 2019
  21. 子类蒸馏。Müller, Rafael 等人,arXiv:2002.03936
  22. 边距蒸馏:基于边距的 softmax 蒸馏。Svitov, David 和 Alyamkin, Sergey,arXiv:2003.02586
  23. 一种极其简单的知识蒸馏方法。Gao, Mengya 等人,MLR 2018
  24. 序列级知识蒸馏。Kim, Yoon 和 Rush, Alexander M.,arXiv:1606.07947
  25. 通过知识迁移增强自监督学习。Noroozi, Mehdi 等人,CVPR 2018
  26. 元伪标签。Pham, Hieu 等人,ICML 2020 [代码]
  27. 神经网络比人类评分者更高效的教师:针对黑盒模型的数据高效知识蒸馏的主动混合。CVPR 2020 [代码]
  28. 用于单声道语音分离的蒸馏二值神经网络。Chen Xiuyi 等人,IJCNN 2018
  29. 教师-班级网络:一种神经网络压缩机制。Malik 等人,arXiv:2004.03281
  30. 深度监督下的知识协同。Sun, Dawei 等人,CVPR 2019
  31. 它认为重要的就是重要的:鲁棒性通过输入梯度传递。Chan, Alvin 等人,CVPR 2020
  32. 三元损失用于知识蒸馏。Oki, Hideki 等人,IJCNN 2020
  33. 面向知识蒸馏的角色导向数据增强。ICLR 2020 [代码]
  34. 蒸馏尖峰:脉冲神经网络中的知识蒸馏。arXiv:2005.00288
  35. 改进的噪声学生训练用于自动语音识别。Park 等人,arXiv:2005.09629
  36. 从轻量级教师处学习以实现高效知识蒸馏。Yuang Liu 等人,arXiv:2005.09163
  37. ResKD:残差引导的知识蒸馏。Li, Xuewei 等人,arXiv:2006.04719
  38. 从严重的标签噪声中提炼有效监督。Zhang, Zizhao 等人,CVPR 2020 [代码]
  39. 知识蒸馏与自监督学习的结合。Xu, Guodong 等人,ECCV 2020 [代码]
  40. 针对少样本学习的自监督知识蒸馏。arXiv:2006.09785 [代码]
  41. 带有噪声类别标签的学习用于实例分割。ECCV 2020
  42. 通过对比式知识蒸馏改善弱监督视觉定位。Wang, Liwei 等人,arXiv:2007.01951
  43. 深度流式标签学习。Wang, Zhen 等人,ICML 2020 [代码]
  44. 在对学习者行为信息有限的情况下进行教学。Zhang, Yonggang 等人,ICML 2020
  45. 在群体表征学习中进行可区分性蒸馏。Zhang, Manyuan 等人,ECCV 2020
  46. 知识蒸馏中的局部相关性一致性。ECCV 2020
  47. 基于素数的自适应蒸馏。Zhang, Youcai 等人,ECCV 2020
  48. 一刀切并不适用:自适应标签平滑。Krothapalli 等人,arXiv:2009.06432
  49. 从带有噪声标签的数据中学习如何学习。Li, Junnan 等人,CVPR 2019
  50. 通过一致来对抗噪声标签:一种具有共同正则化的联合训练方法。Wei, Hongxin 等人,CVPR 2020
  51. 通过多分支多样性增强进行在线知识蒸馏。Li, Zheng 等人,ACCV 2020
  52. Pea-KD:参数高效且准确的知识蒸馏。arXiv:2009.14822
  53. 通过自我知识蒸馏扩展标签平滑正则化。Wang, Jiyue 等人,arXiv:2009.05226
  54. 球面知识蒸馏。Guo, Jia 等人,arXiv:2010.07485
  55. 软标签数据集蒸馏和文本数据集蒸馏。arXiv:1910.02551
  56. Wasserstein 对比表征蒸馏。Chen, Liqun 等人,CVPR 2021
  57. 基于不确定性感知混合的计算高效知识蒸馏。Xu, Guodong 等人,CVPR 2021 [代码]
  58. 知识精炼:从解耦标签中学习。Ding, Qianggang 等人,AAAI 2021
  59. 火箭发射:一个通用且高效的框架,用于训练表现良好的轻量级网络。Zhou, Guorui 等人,AAAI 2018
  60. 为长尾识别蒸馏虚拟样本。He, Yin-Yin 等人,CVPR 2021
  61. 长尾学习的平衡知识蒸馏。Zhang, Shaoyu 等人,arXiv:2014.10510
  62. 比较 Kullback-Leibler 散度和均方误差损失在知识蒸馏中的应用。Kim, Taehyeon 等人,IJCAI 2021 [代码]
  63. 并非所有知识都同等重要。Li, Ziyun 等人,arXiv:2106.01489
  64. 知识蒸馏:好老师要有耐心和一致性。Beyer 等人,arXiv:2106.05237v1
  65. 层次化自监督增强型知识蒸馏。Yang 等人,IJCAI 2021 [代码]

中间层知识

  1. Fitnets:轻量级深度网络的提示。Romero, Adriana 等人。arXiv:1412.6550
  2. 更加关注注意力:通过注意力迁移提升卷积神经网络性能。Zagoruyko 等人。ICLR 2017
  3. 知识投影:用于高效设计更轻量、更快速的深度神经网络。Zhang, Zhi 等人。arXiv:1710.09505
  4. 知识蒸馏的馈赠:快速优化、网络压缩与迁移学习。Yim, Junho 等人。CVPR 2017
  5. 喜欢你所喜欢的:基于神经元选择性迁移的知识蒸馏。Huang, Zehao & Wang, Naiyan。2017
  6. 复杂网络的释义:通过因子迁移进行网络压缩。Kim, Jangho 等人。NeurIPS 2018
  7. 基于雅可比匹配的知识迁移。ICML 2018
  8. 使用奇异值分解的自监督知识蒸馏。Lee, Seung Hyun 等人。ECCV 2018
  9. 基于概率知识迁移的深度表示学习。Passalis 等人。ECCV 2018
  10. 用于知识迁移的变分信息蒸馏。Ahn, Sungsoo 等人。CVPR 2019
  11. 基于实例关系图的知识蒸馏。Liu, Yufan 等人。CVPR 2019
  12. 基于路径约束优化的知识蒸馏。Jin, Xiao 等人。ICCV 2019
  13. 保持相似性的知识蒸馏。Tung, Frederick 和 Mori Greg。ICCV 2019
  14. MEAL:基于对抗学习的多模型集成。Shen, Zhiqiang、He, Zhankui 和 Xue Xiangyang。AAAI 2019
  15. 特征蒸馏的全面革新。Heo, Byeongho 等人。ICCV 2019 [代码]
  16. 特征图级别的在线对抗知识蒸馏。ICML 2020
  17. 基于细粒度特征模仿的目标检测器蒸馏。ICLR 2020
  18. 知识挤压式对抗网络压缩。Changyong, Shu 等人。AAAI 2020
  19. 分阶段知识蒸馏。Kulkarni, Akshay 等人。arXiv:1911.06786
  20. 来自内部表征的知识蒸馏。AAAI 2020
  21. 知识流:超越你的老师。ICLR 2019
  22. LIT:用于模型压缩的中间表征学习训练。ICML 2019
  23. 通过噪声特征蒸馏提升迁移学习的对抗鲁棒性。Chin, Ting-wu 等人。arXiv:2002.02998
  24. 带有内部蒸馏的背包剪枝。Aflalo, Yonathan 等人。arXiv:2002.08258
  25. 残差知识蒸馏。Gao, Mengya 等人。arXiv:2002.09168
  26. 基于适应性实例归一化知识蒸馏。Yang, Jing 等人。arXiv:2003.04289
  27. 赫拉克勒斯之Bert:通过渐进式模块替换压缩Bert。Xu, Canwen 等人。arXiv:2002.02925 [代码]
  28. 锋火知识蒸馏:脉冲神经网络中的知识蒸馏。arXiv:2005.00727
  29. 面向深度神经网络的广义贝叶斯后验期望蒸馏。Meet 等人。arXiv:2005.08110
  30. 特征图级别的在线对抗知识蒸馏。Chung, Inseop 等人。ICML 2020
  31. 通道蒸馏:面向知识蒸馏的通道级注意力。Zhou, Zaida 等人。arXiv:2006.01683 [代码]
  32. 匹配引导的蒸馏。ECCV 2020 [代码]
  33. 可微分特征聚合搜索用于知识蒸馏。ECCV 2020
  34. 交互式知识蒸馏。Fu, Shipeng 等人。arXiv:2007.01476
  35. 面向图像分类的特征归一化知识蒸馏。ECCV 2020 [代码]
  36. 面向深度神经网络的层级知识蒸馏。Li, Hao Ting 等人。《应用科学》杂志,2019年
  37. 基于特征图的知识蒸馏用于图像分类。Chen, Weichun 等人。ACCV 2018
  38. 知识蒸馏中高效的卷积核迁移。Qian, Qi 等人。arXiv:2009.14416
  39. 视频动作识别中参数域与频谱域的协同蒸馏。arXiv:2009.06902
  40. 基于卷积核的渐进式蒸馏用于加法神经网络。Xu, Yixing 等人。NeurIPS 2020
  41. 基于引导式对抗对比学习的特征蒸馏。Bai, Tao 等人。arXiv:2009.09922
  42. 关注特征,更快地迁移CNN。Wang, Kafeng 等人。ICLR 2019
  43. 多层级知识蒸馏。Ding, Fei 等人。arXiv:2012.00573
  44. 带语义校准的跨层蒸馏。Chen, Defang 等人。AAAI 2021 [代码]
  45. 面向多出口架构的协调一致密集知识蒸馏训练。Wang, Xinglu 和 Li, Yingming。AAAI 2021
  46. 基于师生模型混合前向的稳健知识迁移。Song, Liangchen 等人。AAAI 2021
  47. 展示、注意并蒸馏:基于注意力的特征匹配知识蒸馏。Ji, Mingi 等人。AAAI 2021 [代码]
  48. MINILMv2:用于压缩预训练Transformer的多头自注意力关系蒸馏。Wang, Wenhui 等人。arXiv:2012.15828
  49. ALP-KD:基于注意力的层级投影用于知识蒸馏。Peyman 等人。AAAI 2021
  50. 基于层级聚类寻找信息丰富的提示点以进行知识蒸馏。Reyhan 等人。arXiv:2103.00053
  51. 解决蒸馏过程中师生知识差异。Han, Jiangfan 等人。arXiv:2103.16844
  52. 基于进化知识蒸馏的学生网络学习。Zhang, Kangkai 等人。arXiv:2103.13811
  53. 通过知识回顾进行知识蒸馏。Chen, Pengguang 等人。CVPR 2021
  54. 基于稀疏表示匹配的知识蒸馏。Tran 等人。arXiv:2103.17012
  55. 面向任务的特征蒸馏。Zhang 等人。NeurIPS 2020 [代码]
  56. 来自未标注数据的对抗性知识迁移。Gupta 等人。ACM-MM 2020 代码
  57. 知识蒸馏作为高效预训练:更快收敛、更高数据效率和更好迁移能力。He 等人。CVPR 2020
  58. PDF-Distil:在基于特征的知识蒸馏中纳入预测分歧以用于目标检测。Zhang 等人。BMVC 2021 代码

基于图的方法

  1. 基于图的知识蒸馏:多头注意力网络。Lee, Seunghyun 和 Song, Byung Cheol,arXiv:1907.02226
  2. 通过多任务知识蒸馏的图表示学习。arXiv:1911.05700
  3. 利用图进行深度几何知识蒸馏。arXiv:1911.03080
  4. 更好更快:通过图蒸馏从多个自监督学习任务中迁移知识用于视频分类。IJCAI 2018
  5. 从图卷积网络中蒸馏知识。Yang, Yiding 等人,CVPR 2020 [代码]
  6. 利用外部知识进行显著性预测。Zhang, Yifeng 等人,arXiv:2007.13839
  7. 通过学习从外部知识迁移实现多标签零样本分类。Huang, He 等人,arXiv:2007.15610
  8. 图卷积网络上的可靠数据蒸馏。Zhang, Wentao 等人,ACM SIGMOD 2020
  9. 图卷积网络的互学教学。Zhan, Kun 等人,Future Generation Computer Systems,2021
  10. DistilE:为更快速、更经济的推理而蒸馏知识图嵌入。Zhu, Yushan 等人,arXiv:2009.05912
  11. Distill2Vec:利用知识蒸馏的动态图表示学习。Antaris, Stefanos 和 Rafailidis, Dimitrios,arXiv:2011.05664
  12. 自蒸馏图神经网络。Chen, Yuzhao 等人,arXiv:2011.02255
  13. 迭代式图自蒸馏。iclr 2021
  14. 提取图神经网络的知识并超越它:一种有效的知识蒸馏框架。Yang, Cheng 等人,WWW 2021 [代码]
  15. 带有特权信息的RGB-D视频中基于图蒸馏的动作检测。Luo, Zelun 等人,ECCV 2018
  16. 基于图一致性的均值教学用于无监督域适应的人体重识别。Liu, Xiaobin 和 Zhang, Shiliang,IJCAI 2021

互信息与在线学习

  1. 用于知识蒸馏的关联一致性。Peng, Baoyun 等人,ICCV 2019
  2. 保持相似性的知识蒸馏。Tung, Frederick 和 Mori Greg,ICCV 2019
  3. 用于知识迁移的变分信息蒸馏。Ahn, Sungsoo 等人,CVPR 2019
  4. 对比表示蒸馏。Tian, Yonglong 等人,ICLR 2020 [RepDistill]
  5. 通过协作学习进行在线知识蒸馏。Guo, Qiushan 等人,CVPR 2020
  6. 同辈协作学习用于在线知识蒸馏。Wu, Guile 和 Gong, Shaogang,AAAI 2021
  7. 通过密集跨层互蒸馏进行知识迁移。ECCV 2020
  8. MutualNet:通过来自网络宽度和分辨率的互学自适应卷积网络。Yang, Taojiannan 等人,ECCV 2020 [代码]
  9. AMLN:基于对抗的互学网络用于在线知识蒸馏。ECCV 2020
  10. 通过在线互知实现跨模态医学图像分割。Li, Kang 等人,AAAI 2021
  11. 联邦知识蒸馏。Seo, Hyowoon 等人,arXiv:2011.02367
  12. 利用互均值教学进行无监督图像分割。Wu, Zhichao 等人,arXiv:2012.08922
  13. 用于自监督和半监督学习的指数移动平均归一化。Cai, Zhaowei 等人,arXiv:2101.08482
  14. 用于半监督语义分割的鲁棒互学。Zhang, Pan 等人,arXiv:2106.00609
  15. 用于视觉表示学习的互对比学习。Yang 等人,AAAI 2022 [代码]
  16. 信息论视角下的表示蒸馏。Miles 等人,BMVC 2022 [代码]

自蒸馏

  1. Moonshine:使用廉价卷积进行蒸馏。Crowley, Elliot J. 等人,NeurIPS 2018
  2. 成为自己老师:通过自蒸馏提升卷积神经网络性能。Zhang, Linfeng 等人,ICCV 2019
  3. 通过自注意力蒸馏学习轻量级车道检测CNN。Hou, Yuenan 等人,ICCV 2019
  4. BAM!重生的多任务网络用于自然语言理解。Clark, Kevin 等人,ACL 2019,短文
  5. 自然语言处理中的自知识蒸馏。Hahn, Sangchul 和 Choi, Heeyoul,arXiv:1908.01851
  6. 重新思考数据增强:自监督与自蒸馏。Lee, Hankook 等人,ICLR 2020
  7. MSD:通过深度神经网络内的多分类器进行多自蒸馏学习。arXiv:1911.09418
  8. 自蒸馏在希尔伯特空间中增强正则化。Mobahi, Hossein 等人,NeurIPS 2020
  9. MINILM:用于预训练Transformer任务无关压缩的深度自注意力蒸馏。Wang, Wenhui 等人,arXiv:2002.10957
  10. 通过自知识蒸馏正则化类别预测。CVPR 2020 [代码]
  11. 自蒸馏作为实例特定的标签平滑。Zhang, Zhilu 和 Sabuncu, Mert R.,NeurIPS 2020
  12. Self-PU:自我增强且校准的正类-未标记训练。Chen, Xuxi 等人,ICML 2020 [代码]
  13. S2SD:用于深度度量学习的同时性相似性自蒸馏。Karsten 等人,ICML 2021
  14. 用于弱监督目标检测的全面注意力自蒸馏。Huang, Zeyi 等人,NeurIPS 2020
  15. 基于蒸馏的多出口架构训练。Phuong, Mary 和 Lampert, Christoph H.,ICCV 2019
  16. 用于半监督域适应的成对自蒸馏。iclr 2021
  17. SEED:自监督蒸馏。ICLR 2021
  18. 自特征正则化:无需教师模型的自特征蒸馏。Fan, Wenxuan 和 Hou, Zhenyan,arXiv:2103.07350
  19. 通过自我教导完善自我:利用自知识蒸馏进行特征精炼。Ji, Mingi 等人,CVPR 2021 [代码]
  20. SE-SSD:从点云中自集成单阶段目标检测器。Zheng, Wu 等人,CVPR 2021 [代码]
  21. 结合批次知识集成的自蒸馏可提升ImageNet分类性能。Ge, Yixiao 等人,CVPR 2021
  22. 通过对比自蒸馏实现紧凑的单张图像超分辨率。IJCAI 2021
  23. DearKD:面向视觉Transformer的数据高效早期知识蒸馏 论文
  24. 使用复用教师分类器进行知识蒸馏 论文
  25. 基于上一个迷你批次的自蒸馏用于一致性正则化 论文
  26. 解耦合知识蒸馏 论文

结构知识

  1. 复杂网络的释义:通过因子迁移进行网络压缩。金章浩等。NeurIPS 2018
  2. 关系知识蒸馏。朴元杓等。CVPR 2019
  3. 基于实例关系图的知识蒸馏。刘宇凡等。CVPR 2019
  4. 对比表示蒸馏。田永龙等。ICLR 2020
  5. 通过结构化暗知识教授教学。ICLR 2020
  6. 道路标记分割中的区域间亲和力蒸馏。侯元楠等。CVPR 2020 [代码]
  7. 基于信息流建模的异构知识蒸馏。帕萨利斯等。CVPR 2020 [代码]
  8. 用于知识迁移的非对称度量学习。布德尼克、马特乌什与阿夫里西斯,扬尼斯。arXiv:2006.16331
  9. 知识蒸馏中的局部相关性一致性。ECCV 2020
  10. 少样本类别增量学习。陶晓宇等。CVPR 2020
  11. 用于图像到图像转换的语义关系保持知识蒸馏。ECCV 2020
  12. 可解释的前景目标搜索作为知识蒸馏。ECCV 2020
  13. 通过类别结构改进知识蒸馏。ECCV 2020
  14. 基于关系知识蒸馏的少样本类别增量学习。董松林等。AAAI 2021
  15. 补充关系对比蒸馏。朱金国等。CVPR 2021
  16. 信息论表示蒸馏。迈尔斯等。BMVC 2022 [代码]

特权信息

  1. 利用特权信息学习:相似性控制与知识转移。瓦普尼克,弗拉基米尔与劳夫,伊兹麦洛夫。MLR 2015
  2. 统一蒸馏与特权信息。洛佩兹-帕斯,大卫等。ICLR 2016
  3. 通过蒸馏与量化进行模型压缩。波利诺,安东尼奥等。ICLR 2018
  4. KDGAN:基于生成对抗网络的知识蒸馏。王小杰。NeurIPS 2018
  5. 使用更少帧实现高效视频分类。巴尔德瓦杰,什韦塔等。CVPR 2019
  6. 在多任务学习中保留特权信息。唐峰毅等。KDD 2019
  7. 一种基于特权信息的回归与分类通用元损失函数。阿西夫,阿米娜等。arXiv:1811.06885
  8. 通过生成对抗网络的模型蒸馏进行私有知识转移。高迪与卓成。AAAI 2020
  9. 面向在线动作检测的特权知识蒸馏。赵培森等。cvpr 2021
  10. 带有特权条款的学习的对抗性蒸馏。王小杰等。TPAMI 2019

KD + GAN

  1. 通过条件对抗网络的知识蒸馏加速浅层稀疏网络训练。徐征等。arXiv:1709.00513
  2. KTAN:知识迁移对抗网络。刘沛业等。arXiv:1810.08126
  3. KDGAN:基于生成对抗网络的知识蒸馏。王小杰。NeurIPS 2018
  4. 可移植学生网络的对抗式学习。王云鹤等。AAAI 2018
  5. 对抗式网络压缩。贝拉吉安尼斯等。ECCV 2018
  6. 跨模态蒸馏:以条件生成对抗网络为例。ICASSP 2018
  7. 基于外部知识的高效推荐的对抗式蒸馏。TOIS 2018
  8. 使用条件对抗网络加速学生网络训练。徐征等。BMVC 2018
  9. DAFL:无数据的学生网络学习。陈涵婷等。ICCV 2019
  10. MEAL:基于对抗学习的多模型集成。沈志强等。AAAI 2019
  11. 支持决策边界的对抗样本知识蒸馏。许炳浩等。AAAI 2019
  12. 利用真实标签:基于对抗模仿的知识蒸馏方法用于事件检测。刘健等。AAAI 2019
  13. 对抗鲁棒蒸馏。戈德布鲁姆,米卡等。AAAI 2020
  14. GAN-知识蒸馏用于单阶段目标检测。洪伟等。arXiv:1906.08467
  15. 终身GAN:面向条件图像生成的持续学习。昆杜等。arXiv:1908.03884
  16. 使用知识蒸馏压缩GAN。阿圭纳尔多,安吉琳等。arXiv:1902.00159
  17. 特征图级在线对抗知识蒸馏。ICML 2020
  18. MineGAN:从GAN向目标域有效转移知识,即使只有少量图片。王亚星等。CVPR 2020
  19. 为图像转换蒸馏便携式生成对抗网络。陈涵婷等。AAAI 2020
  20. GAN压缩:用于交互式条件GAN的高效架构。朱俊彦等。CVPR 2020 [代码]
  21. 对抗式网络压缩。贝拉吉安尼斯等。ECCV 2018
  22. P-KDGAN:基于GAN的渐进式知识蒸馏,用于单类新颖性检测。张志伟等。IJCAI 2020
  23. StyleGAN2蒸馏用于前馈式图像处理。维亚佐韦茨基等。ECCV 2020 [代码]
  24. HardGAN:一款雾霾感知型表示蒸馏GAN,用于单张图像去雾。ECCV 2020
  25. TinyGAN:为条件图像生成蒸馏BigGAN。ACCV 2020 [代码]
  26. 通过可微掩码与协同注意力蒸馏学习高效GAN。李绍杰等。arXiv:2011.08382 [代码]
  27. 自监督GAN压缩。余冲与池杰夫。arXiv:2007.01491
  28. 教师的作用远不止教学:压缩图像到图像模型。CVPR 2021 [代码]
  29. 通过cGAN生成的样本进行知识蒸馏与迁移,用于图像分类与回归。丁欣等。arXiv:2104.03164
  30. 内容感知GAN压缩。刘宇晨等。CVPR 2021

KD + 元学习

  1. 少样本知识蒸馏用于高效网络压缩。李天宏等。CVPR 2020
  2. 学习什么以及在哪里进行迁移。张允勋等,ICML 2019
  3. 跨学习过程的知识迁移。莫雷诺,巴勃罗·G等。ICLR 2019
  4. 语义感知的知识保存用于零样本基于草图的图像检索。刘青等。ICCV 2019
  5. 多样性与合作:用于少样本分类的集成方法。德沃尔尼克,尼基塔等。ICCV 2019
  6. 知识表征:用于知识蒸馏的高效、稀疏先验知识表示。arXiv:1911.05329v1
  7. 用于生成式建模的渐进式知识蒸馏。ICLR 2020
  8. 通过交叉蒸馏进行少样本网络压缩。AAAI 2020
  9. MetaDistiller:基于元学习的自顶向下蒸馏实现网络自我增强。刘本林等。ECCV 2020
  10. 带有类内知识迁移的少样本学习。arXiv:2008.09892
  11. 基于知识迁移的少样本目标检测。金健旭等。arXiv:2008.12496
  12. 蒸馏后的单次联邦学习。arXiv:2009.07999
  13. Meta-KD:跨领域语言模型压缩的元知识蒸馏框架。潘浩杰等。arXiv:2012.01266
  14. 用于少样本知识蒸馏的渐进式网络嫁接。沈承超等。AAAI 2021

无数据知识蒸馏

  1. 面向深度神经网络的无数据知识蒸馏。NeurIPS 2017
  2. 深度网络中的零样本知识蒸馏。ICML 2019
  3. DAFL:学生网络的无数据学习。ICCV 2019
  4. 基于对抗信念匹配的零样本知识迁移。Micaelli、Paul 和 Storkey, Amos。NeurIPS 2019
  5. 梦境蒸馏:一种与数据无关的模型压缩框架。Kartikeya 等人。ICML 2019
  6. 梦境蒸馏:通过 DeepInversion 实现的无数据知识迁移。Yin, Hongxu 等人。CVPR 2020 [代码]
  7. 无数据对抗蒸馏。Fang, Gongfan 等人。CVPR 2020
  8. 内在的知识:无数据模型压缩方法。Haroush, Matan 等人。CVPR 2020
  9. 在没有任何可观察数据的情况下进行知识提取。Yoo, Jaemin 等人。NeurIPS 2019 [代码]
  10. 通过 Group-Stack 双 GAN 进行无数据知识融合。CVPR 2020
  11. DeGAN:用于从训练好的分类器中检索代表性样本的数据增强 GAN。Addepalli, Sravanti 等人。arXiv:1912.11960
  12. 基于生成的低比特位无数据量化。Xu, Shoukai 等人。ECCV 2020 [代码]
  13. 这个数据集并不存在:从生成图像中训练模型。arXiv:1911.02888
  14. MAZE:使用零阶梯度估计的无数据模型窃取攻击。Sanjay 等人。arXiv:2005.03161
  15. 生成式教学网络:通过学习生成合成训练数据加速神经架构搜索。Such 等人。ECCV 2020
  16. 十亿规模的半监督图像分类学习。FAIR。arXiv:1905.00546 [代码]
  17. 基于对抗知识蒸馏的无数据网络量化。Choi, Yoojin 等人。CVPRW 2020
  18. 面向文本分类的对抗自监督无数据蒸馏。EMNLP 2020
  19. 通过无数据知识迁移实现精确量化和剪枝。arXiv:2010.07334
  20. 利用数据增强 GAN 进行分割任务的无数据知识蒸馏。Bhogale 等人。arXiv:2011.00809
  21. 分层无数据 CNN 压缩。Horton, Maxwell 等人(Apple Inc.)。cvpr 2021
  22. 任意迁移集合在无数据知识蒸馏中的有效性。Nayak 等人。WACV 2021
  23. 学校式学习:多教师知识反演用于无数据量化。Li, Yuhang 等人。cvpr 2021
  24. 大规模生成式无数据蒸馏。Luo, Liangchen 等人。cvpr 2021
  25. 域印象:一种无需源数据的域适应方法。Kurmi 等人。WACV 2021
  26. 在野外学习学生网络。(HUAWEI-Noah)。CVPR 2021
  27. 无数据知识蒸馏用于图像超分辨率。(HUAWEI-Noah)。CVPR 2021
  28. 零样本对抗量化。Liu, Yuang 等人。CVPR 2021 [代码]
  29. 面向语义分割的无源域适应。Liu, Yuang 等人。CVPR 2021
  30. 无数据模型提取。Jean-Baptiste 等人。CVPR 2021 [代码]
  31. 深入数据:以有效替代训练的方式进行黑盒攻击。CVPR 2021
  32. 使用无标签对抗扰动结合泰勒近似进行零样本知识蒸馏。Li, Kang 等人。IEEE Access,2021。
  33. 半真半假蒸馏用于类增量语义分割。Huang, Zilong 等人。arXiv:2104.00875
  34. 双判别器对抗蒸馏用于无数据模型压缩。Zhao, Haoran 等人。TCSVT 2021
  35. 穿透梯度:通过 GradInversion 恢复图像批次。Yin, Hongxu 等人。CVPR 2021
  36. 对比式模型反演用于无数据知识蒸馏。Fang, Gongfan 等人。IJCAI 2021 [代码]
  37. 面向图神经网络的无图知识蒸馏。Deng, Xiang 和 Zhang, Zhongfei。arXiv:2105.07519
  38. 基于决策的黑盒模式下的零样本知识蒸馏。Wang Zi。ICML 2021
  39. 面向异构联邦学习的无数据知识蒸馏。Zhu, Zhuangdi 等人。ICML 2021

其他无数据模型压缩:

  • 面向深度神经网络的无数据参数剪枝。Srinivas, Suraj 等人。arXiv:1507.06149
  • 通过权重均衡和偏置校正实现的无数据量化。Nagel, Markus 等人。ICCV 2019
  • DAC:卷积网络的无数据自动加速。Li, Xin 等人。WACV 2019
  • 一种保护隐私的 DNN 剪枝与移动加速框架。Zhan, Zheng 等人。arXiv:2003.06513
  • ZeroQ:一种新颖的零样本量化框架。Cai 等人。CVPR 2020 [代码]
  • 为无数据量化多样化样本生成。Zhang, Xiangguo 等人。CVPR 2021

知识蒸馏 + 自动机器学习

  1. 通过集成学习改进神经架构搜索图像分类器。Macko, Vladimir 等人。arXiv:1903.06236
  2. 基于知识蒸馏的分块监督神经架构搜索。Li, Changlin 等人。CVPR 2020
  3. 通过神经架构搜索实现接近最优的知识蒸馏。Kang, Minsoo 等人。AAAI 2020
  4. 寻找更好的学生来学习蒸馏知识。Gu, Jindong 和 Tresp, Volker arXiv:2001.11612
  5. 通过知识蒸馏规避 AutoAugment 的异常值。Wei, Longhui 等人。arXiv:2003.11342
  6. 通过可变换架构搜索进行网络剪枝。Dong, Xuanyi 和 Yang, Yi。NeurIPS 2019
  7. 搜索以蒸馏:珍珠无处不在,只是肉眼看不见而已。Liu Yu 等人。CVPR 2020
  8. AutoGAN-Distiller:搜索以压缩生成对抗网络。Fu, Yonggan 等人。ICML 2020 [代码]
  9. Joint-DetNAS:用 NAS、剪枝和动态蒸馏升级你的检测器。CVPR 2021

知识蒸馏 + 强化学习

  1. N2N 学习:通过策略梯度强化学习实现网络到网络的压缩。Ashok, Anubhav 等人。ICLR 2018
  2. 知识流动:超越你的老师。Liu, Iou-jen 等人。ICLR 2019
  3. 跨学习过程的知识转移。Moreno, Pablo G 等人。ICLR 2019
  4. 通过随机网络蒸馏进行探索。Burda, Yuri 等人。ICLR 2019
  5. 针对强化学习的周期性群体内知识蒸馏。Hong, Zhang-Wei 等人。arXiv:2002.00149
  6. 在同伴之间传递异质知识:一种模型蒸馏方法。Xue, Zeyue 等人。arXiv:2002.02202
  7. 代理经验回放:面向分布式强化学习的联邦蒸馏。Cha, han 等人。arXiv:2005.06105
  8. 双重策略蒸馏。Lai, Kwei-Herng 等人。IJCAI 2020
  9. 通过强化学习实现师生课程学习:预测医院住院患者的入院地点。El-Bouri, Rasheed 等人。ICML 2020
  10. 面向知识蒸馏的强化多教师选择。Yuan, Fei 等人。AAAI 2021
  11. 通过 Oracle 策略蒸馏实现订单执行的通用交易。Fang, Yuchen 等人。AAAI 2021
  12. 基于强化知识蒸馏的弱监督深度回归跟踪器域适应。Dunnhofer 等人。IEEE RAL

KD + 自监督

  1. 逆转循环:通过增强的单目蒸馏实现自监督深度立体视觉。ECCV 2020
  2. 基于输入变换的自监督标签增强。Lee, Hankook 等人。ICML 2020 [代码]
  3. 通过选择性自监督自训练改进目标检测。Li, Yandong 等人。ECCV 2020
  4. 从自监督学习中蒸馏视觉先验。Zhao, Bingchen 和 Wen, Xin。ECCVW 2020
  5. 自举自己的潜在表示:一种新的自监督学习方法。Grill 等人。arXiv:2006.07733 [代码]
  6. 无配对的深度图像去噪学习。Wu, Xiaohe 等人。arXiv:2008.13711 [代码]
  7. SSKD:用于跨域自适应行人重识别的自监督知识蒸馏。Yin, Junhui 等人。arXiv:2009.05972
  8. 通过从在线自我解释中蒸馏知识进行内省式学习。Gu, Jindong 等人。ACCV 2020
  9. 通过对抗对比学习实现稳健的预训练。Jiang, Ziyu 等人。NeurIPS 2020 [代码]
  10. CompRess:通过压缩表征进行自监督学习。Koohpayegani 等人。NeurIPS 2020 [代码]
  11. 大型自监督模型是强大的半监督学习者。Che, Ting 等人。NeurIPS 2020 [代码]
  12. 重新思考预训练与自训练。Zoph, Barret 等人。NeurIPS 2020 [代码]
  13. ISD:通过迭代相似性蒸馏进行自监督学习。Tejankar 等人。cvpr 2021 [代码]
  14. 动量²教师:带有动量统计的动量教师,用于自监督学习。Li, Zeming 等人。arXiv:2101.07525
  15. 超越自监督:一种简单而有效的网络蒸馏替代方案,用于改进骨干网络。Cui, Cheng 等人。arXiv:2103.05959
  16. 通过组合式对比学习蒸馏视听知识。Chen, Yanbei 等人。CVPR 2021
  17. DisCo:利用蒸馏对比学习修复轻量级模型上的自监督学习。Gao, Yuting 等人。arXiv:2104.09124
  18. 用于半监督医学图像分割的自集成对比学习。Xiang, Jinxi 等人。arXiv:2105.12924
  19. 基于交叉伪监督的半监督语义分割。Chen, Xiaokang 等人。CPVR 2021
  20. 来自未标记数据的对抗性知识迁移。Gupta 等人。ACM-MM 2020 代码

多教师与集成KD

  1. 从多个教师网络中学习。You, Shan 等人。KDD 2017
  2. 单教师多学生学习。You, Shan 等人。AAAI 2018
  3. 通过即时原生集成进行知识蒸馏。Lan, Xu 等人。NeurIPS 2018
  4. 面向深度学习的私有训练数据的半监督知识迁移。ICLR 2017
  5. 知识适应:教授适应能力。Arxiv:1702.02052
  6. 深度模型压缩:从噪声教师那里蒸馏知识。Sau, Bharat Bhusan 等人。arXiv:1610.09650
  7. 平均教师是更好的榜样:加权平均一致性目标可改善半监督深度学习效果。Tarvainen, Antti 和 Valpola, Harri。NeurIPS 2017
  8. 再生神经网络。Furlanello, Tommaso 等人。ICML 2018
  9. 深度互学。Zhang, Ying 等人。CVPR 2018
  10. 深度神经网络的协作学习。Song, Guocong 和 Chai, Wei。NeurIPS 2018
  11. 数据蒸馏:迈向全监督学习。Radosavovic, Ilija 等人。CVPR 2018
  12. 基于知识蒸馏的多语言神经机器翻译。ICLR 2019
  13. 用蒸馏统一异构分类器。Vongkulbhisal 等人。CVPR 2019
  14. 蒸馏后的行人重识别:迈向更可扩展的系统。Wu, Ancong 等人。CVPR 2019
  15. 多样性与合作:面向少样本分类的集成方法。Dvornik, Nikita 等人。ICCV 2019
  16. 用于网络问答系统的两阶段多教师知识蒸馏模型压缩。Yang, Ze 等人。WSDM 2020
  17. FEED:用于知识蒸馏的特征级集成。Park, SeongUk 和 Kwak, Nojun。AAAI 2020
  18. 随机性和跳跃连接改善知识迁移。Lee, Kwangjin 等人。ICLR 2020
  19. 与多样化同伴进行在线知识蒸馏。Chen, Defang 等人。AAAI 2020
  20. 海德拉:为模型蒸馏保持集成多样性。Tran, Linh 等人。arXiv:2001.04694
  21. 具有自适应推理成本的蒸馏分层神经网络集成。Ruiz, Adria 等人。arXiv:2003.01474
  22. 从声学模型集成中蒸馏知识,用于联合CTC-注意力端到端语音识别。Gao, Yan 等人。arXiv:2005.09310
  23. 通过多模态知识发现进行大规模少样本学习。ECCV 2020
  24. 协作学习加速StyleGAN嵌入。Guan, Shanyan 等人。arXiv:2007.01758
  25. 用于半监督目标检测的时序自集成教师。Chen, Cong 等人。IEEE 2020 [代码]
  26. 双教师:整合域内与域外教师,用于标注高效的 心脏分割。MICCAI 2020
  27. 联合渐进式知识蒸馏与无监督域适应。Nguyen-Meidine 等人。WACV 2020
  28. 基于师生网络的半监督学习,用于广义属性预测。Shin, Minchul 等人。ECCV 2020
  29. 用于多任务学习的知识蒸馏。Li, WeiHong 和 Bilen, Hakan。arXiv:2007.06889 [项目]
  30. 自适应多教师多层次知识蒸馏。Liu, Yuang 等人。Neurocomputing 2020 [代码]
  31. 利用知识蒸馏进行在线集成模型压缩。ECCV 2020
  32. 从多位专家那里学习:面向长尾分类的自定进度知识蒸馏。ECCV 2020
  33. 团体知识转移:在边缘设备上协同训练大型CNN。He, Chaoyang 等人。arXiv:2007.14513
  34. 使用多名助教进行密集引导的知识蒸馏。Son, Wonchul 等人。arXiv:2009.08825
  35. ProxylessKD:直接知识蒸馏,继承分类器用于人脸识别。Shi, Weidong 等人。arXiv:2011.00265
  36. 同意分歧:梯度空间中的自适应集成知识蒸馏。Du, Shangchen 等人。NeurIPS 2020 [代码]
  37. 为知识蒸馏强化多教师选择。Yuan, Fei 等人。AAAI 2021
  38. 基于多教师网络的类增量实例分割。Gu, Yanan 等人。AAAI 2021
  39. 通过多次知识转移进行师生协作学习。Sun, Liyuan 等人。arXiv:2101.08471
  40. 利用跨类知识传播高效传递条件GAN。Shahbaziet al. CVPR 2021 [代码]
  41. 神经网络中的知识进化。Taha, Ahmed 等人。CVPR 2021 [代码]
  42. 通过在线知识蒸馏蒸馏出强大的学生模型。Li, Shaojie 等人。arXiv:2103.14473

知识融合(KA)- zju-VIPA

VIPA - KA

  1. 面向综合分类的知识融合。沈成超等。AAAI 2019
  2. 融合过滤后的知识:从多任务教师中学习任务定制的学生模型。叶静文等。IJCAI 2019
  3. 基于共同特征学习的异构网络知识融合。罗思慧等。IJCAI 2019
  4. 学生变大师:用于联合场景解析、深度估计等任务的知识融合。叶静文等。CVPR 2019
  5. 通过自适应知识融合从异构教师中定制学生网络。ICCV 2019
  6. 基于组堆叠双GAN的数据无依赖知识融合。CVPR 2020

跨模态 / 知识蒸馏 / 增量学习

  1. SoundNet:从无标签视频中学习声音表示——SoundNet架构。Aytar, Yusuf 等人。NeurIPS 2016
  2. 用于监督迁移的跨模态蒸馏。Gupta, Saurabh 等人。CVPR 2016
  3. 在自然场景下利用跨模态迁移进行语音情感识别。Albanie, Samuel 等人。ACM MM 2018
  4. 利用无线电信号进行穿墙人体姿态估计。Zhao, Mingmin 等人。CVPR 2018
  5. 用于视觉问答任务的紧凑型三线性交互。Do, Tuong 等人。ICCV 2019
  6. 用于动作识别的跨模态知识蒸馏。Thoker, Fida Mohammad 和 Gall, Juerge。ICIP 2019
  7. 学习映射几乎任何事物。Salem, Tawfiq 等人。arXiv:1909.06928
  8. 面向零样本草图检索的语义感知知识保持。Liu, Qing 等人。ICCV 2019
  9. UM-Adapt:使用对抗性跨任务蒸馏的无监督多任务适应。Kundu 等人。ICCV 2019
  10. CrDoCo:基于跨域一致性的像素级域迁移。Chen, Yun-Chun 等人。CVPR 2019
  11. XD:面向多语言句子嵌入的跨语言知识蒸馏。ICLR 2020
  12. 通过软微调实现有效的领域知识迁移。Zhao, Zhichen 等人。arXiv:1909.02236
  13. 只需 ASR:用于唇读的跨模态蒸馏。Afouras 等人。arXiv:1911.12747v1
  14. 用于半监督领域适应的知识蒸馏。arXiv:1908.07355
  15. 通过师生学习进行端到端语音识别的领域适应。Meng, Zhong 等人。arXiv:2001.01798
  16. 使用教师进行聚类对齐的无监督领域适应。ICCV 2019
  17. 用于知识迁移的注意力桥接网络。Li, Kunpeng 等人。ICCV 2019
  18. 基于知识蒸馏的无配对多模态分割。Dou, Qi 等人。arXiv:2001.03111
  19. 多源蒸馏式领域适应。Zhao, Sicheng 等人。arXiv:1911.11554
  20. 从无到有:跨模态哈希的无监督知识蒸馏。Hu, Hengtong 等人。CVPR 2020
  21. 通过自训练改进语义分割。Zhu, Yi 等人。arXiv:2004.14960
  22. 语音到文本适应:迈向高效的跨模态蒸馏。arXiv:2005.08213
  23. 联合渐进式知识蒸馏与无监督领域适应。arXiv:2005.07839
  24. 将知识作为先验:针对缺乏优质知识数据集的跨模态知识泛化。Zhao, Long 等人。CVPR 2020
  25. 基于师生学习的大规模领域适应。Li, Jinyu 等人。arXiv:1708.05466
  26. 利用弱标签数据进行大规模视听声音学习。Fayek, Haytham M. 和 Kumar, Anurag。IJCAI 2020
  27. 通过关系匹配蒸馏跨任务知识。Ye, Han-Jia 等人。CVPR 2020 [代码]
  28. 基于多流网络的动作识别模态蒸馏。Garcia, Nuno C. 等人。ECCV 2018
  29. 通过任务蒸馏进行领域适应。Zhou, Brady 等人。ECCV 2020 [代码]
  30. 用于语义分割的双重超分辨率学习。Wang, Li 等人。CVPR 2020 [代码]
  31. 针对部分领域适应的自适应累积知识迁移。Jing, Taotao 等人。ACM MM 2020
  32. Domain2Vec:用于无监督领域适应的领域嵌入。Peng, Xingchao 等人。ECCV 2020 [代码]
  33. 用于语义分割的无监督领域适应性知识蒸馏。Kothandaraman 等人。arXiv:2011.08007
  34. 面向元学习环境下的对话领域适应的学生—教师架构。Qian, Kun 等人。AAAI 2021
  35. 基于师生网络的多模态融合,用于室内动作识别。Bruce 等人。AAAI 2021
  36. 双教师++:利用可靠的知识迁移,在心脏分割中挖掘域内与域间知识。Li, Kang 等人。TMI 2021
  37. 用于高效多领域无监督适应的知识蒸馏方法。Nguyen 等人。IVC 2021
  38. 特征引导的动作模态迁移。Thoker, Fida Mohammad 和 Snoek, Cees。ICPR 2020
  39. 表象之外还有更多:通过蒸馏多模态知识实现自监督的多目标检测与跟踪。Francisco 等人。CVPR 2021
  40. 用于半监督迁移学习的自适应一致性正则化 Abulikemu。Abulikemu 等人。CVPR 2021 [代码]
  41. 面向少量样本类别增量学习的语义感知知识蒸馏。Cheraghian 等人。CVPR 2021
  42. 在类别增量学习中蒸馏数据的因果效应。Hu, Xinting 等人。CVPR 2021 [代码]
  43. 基于双层域混合的半监督领域适应,用于语义分割。Chen, Shuaijun 等人。CVPR 2021
  44. PLOP:为持续语义分割而学,永不遗忘。Arthur 等人。CVPR 2021
  45. 通过稀疏且解耦的潜在表征之间的排斥—吸引机制实现持续语义分割。Umberto 和 Pietro。CVPR 2021
  46. 通过跨任务知识迁移指导场景结构,实现单深度超分辨率。Sun, Baoli 等人。CVPR 2021 [代码]
  47. CReST:面向不平衡半监督学习的类重平衡自训练框架。Wei, Chen 等人。CVPR 2021
  48. 领域适应的自适应增强:迈向场景分割中的稳健预测。Zheng, Zhedong 和 Yang, Yi。CVPR 2021
  49. 利用量子图像传感器在黑暗中进行图像分类。Gnanasambandam, Abhiram 和 Chan, Stanley H。ECCV 2020
  50. 利用量子图像传感器进行动态低光成像。Chi, Yiheng 等人。ECCV 2020
  51. 在领域迁移中可视化适应后的知识。Hou, Yunzhong 和 Zheng, Liang。CVPR 2021
  52. 基于中性交叉熵损失的无监督领域适应,用于语义分割。Xu, Hanqing 等人。IEEE TIP 2021
  53. 基于视觉和语言知识蒸馏的零样本检测。Gu, Xiuye 等人。arXiv:2104.13921
  54. 重新思考用于语义分割的无监督领域适应的集成—蒸馏方法。Chao, Chen-Hao 等人。CVPRW 2021
  55. 精神蒸馏:一种结合多领域知识迁移的模型压缩方法。Wu, Zhiyuan 等人。arXiv:2104.14696
  56. 基于傅里叶变换的领域泛化框架。Xu, Qinwei 等人。CVPR 2021
  57. KD3A:通过知识蒸馏实现的无监督多源去中心化领域适应。Feng, Haozhe 等人。ICML 2021

知识蒸馏的应用

  1. 通过从神经元中蒸馏知识来压缩人脸模型。罗平等,AAAI 2016
  2. 利用知识蒸馏学习高效的物体检测模型。陈国斌等,NeurIPS 2017
  3. 学徒:使用知识蒸馏技术提升低精度网络的准确性。米什拉等,NeurIPS 2018
  4. 蒸馏行人重识别:迈向更可扩展的系统。吴安聪等,CVPR 2019
  5. 使用更少帧实现高效的视频分类。巴德瓦杰等,CVPR 2019
  6. 快速人体姿态估计。张峰等,CVPR 2019
  7. 从深度姿态回归网络中蒸馏知识。萨普特拉等,arXiv:1908.00858 (2019)
  8. 通过自注意力蒸馏学习轻量级车道检测CNN。侯元楠等,ICCV 2019
  9. 面向语义分割的结构化知识蒸馏。刘一凡等,CVPR 2019
  10. 用于视频目标检测的关系蒸馏网络。邓嘉俊等,ICCV 2019
  11. 教师指导学生如何从部分标注图像中学习以进行人脸关键点检测。董宣毅和杨毅,ICCV 2019
  12. 用于早期动作预测的渐进式师生学习。王雄辉等,CVPR 2019
  13. 基于信息多蒸馏网络的轻量级图像超分辨率。惠正等,ICCVW 2019
  14. AWSD:用于视频表示的自适应加权时空蒸馏。塔瓦科利安等,ICCV 2019
  15. 动态核蒸馏用于视频中的高效姿态估计。聂学成等,ICCV 2019
  16. 教师引导的架构搜索。巴希万和滕森,ICCV 2019
  17. 用于高效视频推理的在线模型蒸馏。穆拉普迪等,ICCV 2019
  18. 通过细粒度特征模仿蒸馏目标检测器。王涛等,CVPR 2019
  19. 用于视频目标检测的关系蒸馏网络。邓嘉俊等,ICCV 2019
  20. 用于语义分割增量学习的知识蒸馏。arXiv:1911.03462
  21. MOD:一种具有在线知识蒸馏的深度混合模型,用于大规模视频时序概念定位。arXiv:1910.12295
  22. 用于暹罗跟踪器的师生知识蒸馏。arXiv:1907.10586
  23. LaTeS:用于师生驾驶策略学习的潜在空间蒸馏。赵阿尔伯特等,CVPR 2020(预)
  24. 用于脑肿瘤分割的知识蒸馏。arXiv:2002.03688
  25. ROAD:面向现实的城市场景语义分割适应方法。陈宇华等,CVPR 2018
  26. 用于音频分类的多表示知识蒸馏。高亮等,arXiv:2002.09607
  27. 用于超分辨率通用风格迁移的协同蒸馏。王欢等,CVPR 2020 [代码]
  28. ShadowTutor:用于移动端视频DNN推理的分布式部分蒸馏。郑在源等,ICPP 2020 [代码]
  29. 带有教师推荐学习的目标关系图用于视频字幕生成。张子琪等,CVPR 2020
  30. 带有知识蒸馏的时空图用于视频字幕生成。CVPR 2020 [代码]
  31. 利用知识蒸馏实现压缩版深度6DoF目标检测。费利克斯等,arXiv:2003.13586
  32. 通过蒸馏语义实现从视频中全面理解场景。托西等,arXiv:2003.14030
  33. 并行WaveNet:快速高保真语音合成。范等,ICML 2018
  34. 从NRSfM中蒸馏知识以进行弱监督3D姿态学习。王朝阳等,ICCV 2019
  35. KD-MRI:一种用于MRI工作流中图像重建与修复的知识蒸馏框架。穆鲁格桑等,MIDL 2020
  36. 面向室内语义分割的几何感知蒸馏。焦建波等,CVPR 2019
  37. 教师指导学生如何从部分标注图像中学习以进行人脸关键点检测。ICCV 2019
  38. 通过异构任务模仿蒸馏图像去雾。洪明等,CVPR 2020
  39. 通过标签平滑进行动作预判的知识蒸馏。坎波雷塞等,arXiv:2004.07711
  40. 通过蒸馏图像-文本匹配模型实现更贴近实际的图像字幕生成。周远恩等,CVPR 2020
  41. 在多个实例检测网络中通过精炼过程蒸馏知识。泽尼和荣克,arXiv:2004.10943
  42. 实现边缘端目标检测的增量知识迁移。arXiv:2004.05746
  43. 无先验知识的学生:基于判别式潜在嵌入的师生异常检测。贝格曼等,CVPR 2020
  44. TA-学生VQA:通过自我提问进行多智能体训练。熊培熙和吴颖,CVPR 2020
  45. Mentornet:在标签损坏的情况下为超深神经网络学习数据驱动的课程。蒋璐等,ICML 2018
  46. 用于半监督阴影检测的多任务平均教师。陈志浩等,CVPR 2020 [代码]
  47. 通过知识蒸馏学习轻量级人脸检测器。张世峰等,IEEE 2019
  48. 通过层次化知识蒸馏学习轻量级行人检测器。ICIP 2019
  49. 通过任务自适应正则化蒸馏目标检测器。孙若雨等,arXiv:2006.13108
  50. 面向语义分割的类内紧凑性蒸馏。ECCV 2020
  51. DOPE:针对野外全身3D姿态估计的局部专家蒸馏。ECCV 2020
  52. 自相似学生用于部分标注病理切片图像的分割。ECCV 2020
  53. 多视角知识蒸馏实现稳健的重识别。波雷洛等,ECCV 2020 [代码]
  54. LabelEnc:一种用于目标检测的新中间监督方法。郝苗等,arXiv:2007.03282
  55. 光流蒸馏:迈向高效稳定的视频风格迁移。陈兴浩等,ECCV 2020
  56. 用于半监督3D动作识别的对抗性自监督学习。施晨阳等,ECCV 2020
  57. 双路径蒸馏:一种统一框架,用于改进黑盒攻击。张永刚等,ICML 2020
  58. 基于师生GAN模式的RGB-IR跨模态人员重识别。张子悦等,arXiv:2007.07452
  59. 通过深度蒸馏进行散焦模糊检测。存晓东和潘志文,ECCV 2020 [代码]
  60. 通过渐进式知识迁移提升弱监督目标检测。钟元义等,ECCV 2020 [代码]
  61. 权重衰减调度与知识蒸馏用于主动学习。ECCV 2020
  62. 通过知识蒸馏规避AutoAugment的异常值。ECCV 2020
  63. 通过分布蒸馏损失改善对困难样本的人脸识别。ECCV 2020
  64. 排他性-一致性正则化的知识蒸馏用于人脸识别。ECCV 2020
  65. 自相似学生用于部分标注病理切片图像的分割。程贤祖等,ECCV 2020
  66. 面向重叠宫颈细胞实例分割的深度半监督知识蒸馏。周燕宁等,arXiv:2007.10787 [代码]
  67. 基于两级残差蒸馏的三重网络用于增量目标检测。杨东宝等,arXiv:2007.13428
  68. 通过回归-检测双知识迁移迈向无监督人群计数。刘玉婷等,ACM MM 2020
  69. 面向图像字幕生成的教师关键训练策略。黄一清和陈建生,arXiv:2009.14405
  70. 带有教师推荐学习的目标关系图用于视频字幕生成。张子琪等,CVPR 2020
  71. 从多帧到单帧:面向3D目标检测的知识蒸馏。王岳等,ECCV 2020
  72. 用于轻量级图像超分辨率的残差特征蒸馏网络。刘洁等,ECCV 2020
  73. 保留句间相似性的知识蒸馏用于音频标签。Interspeech 2020
  74. 带有无噪声差分隐私的联邦模型蒸馏。arXiv:2009.05537
  75. 通过路由多样化的分布感知专家实现长尾识别。王旭东等,arXiv:2010.01809
  76. 通过时空知识蒸馏实现快速视频显著目标检测。易唐和袁力,arXiv:2010.10027
  77. 用于异常检测的多分辨率知识蒸馏。萨莱希等,CVPR 2021
  78. 面向语义分割的通道级蒸馏。舒昌勇等,arXiv:2011.13256
  79. 教我用混合监督进行分割:自信的学生终成大师。多尔兹等,arXiv:2012.08051
  80. 不变教师与等变学生用于无监督3D人体姿态估计。许晨欣等,AAAI 2021 [代码]
  81. 训练数据高效的图像变换器及通过注意力进行蒸馏。图弗龙等,arXiv:2012.12877 [代码]
  82. SID:通过选择性和相互关联的蒸馏实现无锚框目标检测的增量学习。彭灿等,arXiv:2012.15439
  83. PSSM-Distil:利用对比学习进行知识蒸馏,在低质量PSSM上预测蛋白质二级结构。王秦等,AAAI 2021
  84. 用于端到端人员搜索的多样化知识蒸馏。张鑫宇等,AAAI 2021
  85. 通过多模态到单模态的师生互学提升音频标签。尹怡芳等,AAAI 2021
  86. 神经注意力蒸馏:清除深度神经网络中的后门触发器。李一戈等,ICLR 2021 [代码]
  87. 用于半监督目标检测的无偏教师。刘延成等,ICLR 2021 [代码]
  88. 面向目标检测的定位蒸馏。郑兆辉等,CVPR 2021 [代码]
  89. 通过中间分类头蒸馏知识。阿里安和阿米拉利,arXiv:2103.00497
  90. 通过解耦特征蒸馏目标检测器。(华为-诺亚)。CVPR 2021
  91. 面向目标检测的一般实例蒸馏。戴星等,CVPR 2021
  92. 用于异常检测的多分辨率知识蒸馏。穆罕默德雷扎等,CVPR 2021
  93. 师生特征金字塔匹配用于无监督异常检测。王国栋等,arXiv:2103.04257
  94. 教师-探索者-学生学习:一种用于开放集识别的新学习方法。张在渊和金昌旭。IEEE 2021
  95. 密集关系蒸馏结合上下文感知聚合,用于少样本目标检测。胡汉哲等,CVPR 2021 [代码]
  96. 通过知识蒸馏压缩视觉-语言模型。方志远等,arXiv:2104.02096
  97. 再见互信息:用于跨模态人员重识别的变分蒸馏。田旭东等,CVPR 2021
  98. 通过对比知识蒸馏提升弱监督视觉接地能力。王立伟等,CVPR 2021
  99. 有序的双教师知识蒸馏用于轻量级人体姿态估计。赵仲秋等,arXiv:2104.10414
  100. 通过知识蒸馏提升轻量级深度估计。胡俊杰等,arXiv:2105.06143
  101. 弱监督密集视频字幕生成,联合运用知识蒸馏和跨模态匹配。吴博锋等,arXiv:2105.08252
  102. 重新审视目标检测中的知识蒸馏。巴尼塔莱比-德霍尔迪,arXiv:2105.10633
  103. 通过对比自蒸馏迈向紧凑的单幅图像超分辨率。王彦博等,IJCAI 2021
  104. 多少观测足够?用于轨迹预测的知识蒸馏。蒙蒂等,CVPR 2022

用于自然语言处理与数据挖掘

  1. 针对BERT模型压缩的患者知识蒸馏。孙思琪等。arXiv:1908.09355
  2. TinyBERT:用于自然语言理解的BERT知识蒸馏模型。焦晓琪等。arXiv:1909.10351
  3. 基于知识蒸馏的视觉问答任务专精学习。NeurIPS 2018
  4. 用于双语词典构建的知识蒸馏。EMNLP 2017
  5. 一种面向可维护对话管理器的师生框架。EMNLP 2018
  6. 非自回归机器翻译中的知识蒸馏机制研究。arxiv 2019
  7. DistilBERT:BERT的精简版,更小、更快、更便宜、更轻量。Sanh, Victor等。arXiv:1910.01108
  8. 见多识广的学生学得更好:关于预训练紧凑模型的重要性。Turc, Iulia等。arXiv:1908.08962
  9. 复杂网络到响应预测的知识蒸馏研究。Arora, Siddhartha等。NAACL 2019
  10. 用于文本生成的BERT知识蒸馏模型。arXiv:1911.03829v1
  11. 非自回归机器翻译中的知识蒸馏机制理解。arXiv:1911.02727
  12. MobileBERT:适用于资源受限设备的紧凑型任务无关BERT模型。孙志清等。ACL 2020
  13. 从预训练模型中获取知识应用于神经机器翻译。Weng, Rongxiang等。AAAI 2020
  14. TwinBERT:通过知识蒸馏构建孪生结构BERT模型以实现高效检索。Lu, Wenhao等。KDD 2020
  15. 通过自集成和自蒸馏改进BERT微调。Xu, Yige等。arXiv:2002.10345
  16. FastBERT:具有自蒸馏功能且推理时间可适应的BERT模型。Liu, Weijie等。ACL 2020
  17. LadaBERT:通过混合模型压缩实现BERT的轻量化适配。Mao, Yihuan等。arXiv:2004.04124
  18. DynaBERT:宽度和深度可动态调整的BERT模型。Hou, Lu等。NeurIPS 2020
  19. 面向多语言序列标注的结构级知识蒸馏。Wang, Xinyu等。ACL 2020
  20. 蒸馏嵌入:利用知识蒸馏进行非线性嵌入分解。Lioutas, Vasileios等。arXiv:1910.06720
  21. TinyMBERT:用于大规模多语言命名实体识别的多阶段知识蒸馏框架。Mukherjee & Awadallah。ACL 2020
  22. 用于多语言无监督神经机器翻译的知识蒸馏。Sun, Haipeng等。arXiv:2004.10171
  23. 利用知识蒸馏将单语句子嵌入扩展为多语种。Reimers, Nils & Gurevych, Iryna。arXiv:2004.09813
  24. 为快速检索类聊天机器人蒸馏知识。Tahami等。arXiv:2004.11045
  25. 基于目标语言未标注数据的师生学习实现单/多源跨语言命名实体识别。ACL 2020
  26. 使用均值教师进行半监督学习的局部聚类。arXiv:2004.09665
  27. 基于判别式教师的时间扭曲技术增强神经网络时序数据。arXiv:2004.08780
  28. 双向编码器的句法结构蒸馏预训练。arXiv:2005.13482
  29. 蒸馏、适配、再蒸馏:针对神经机器翻译的小规模领域内模型训练。arXiv:2003.02877
  30. 为更快速、更绿色的依存句法分析蒸馏神经网络。arXiv:2006.00844
  31. 基于信息丰富的软标签蒸馏知识用于神经关系抽取。AAAI 2020 [代码]
  32. 通过蒸馏图像-文本匹配模型实现更贴近实际的图像字幕生成。Zhou, Yuanen等。CVPR 2020
  33. 利用知识蒸馏在模态不完整的情况下进行多模态学习。Wang, Qi等。KDD 2020
  34. 将BERT知识蒸馏应用于序列到序列的自动语音识别。Futami, Hayato等。arXiv:2008.03822
  35. 针对语言模型压缩的中间表示对比蒸馏。Sun, Siqi等。EMNLP 2020 [代码]
  36. 用于文本摘要的噪声自知识蒸馏。arXiv:2009.07032
  37. 简化版TinyBERT:用于文档检索的知识蒸馏模型。arXiv:2009.07531
  38. 通过模仿学习实现自回归知识蒸馏。arXiv:2009.07253
  39. BERT-EMD:基于地球移动距离的多对多层映射用于BERT压缩。EMNLP 2020 [代码]
  40. 可解释嵌入过程中的知识迁移。Seunghyun Lee等。AAAI 2021 [代码]
  41. LRC-BERT:用于自然语言理解的潜在表征对比知识蒸馏模型。Fu, Hao等。AAAI 2021
  42. 向零样本知识蒸馏迈进:用于自然语言处理。Ahmad等。arXiv:2012.15495
  43. Meta-KD:跨领域的语言模型压缩元知识蒸馏框架。Pan, Haojie等。AAAI 2021
  44. 学习如何扩充数据以进行数据稀缺领域的BERT知识蒸馏。Feng, Lingyun等。AAAI 2021
  45. 通过标签混淆学习提升文本分类模型性能。Guo, Biyang等。AAAI 2021
  46. NewsBERT:为智能新闻应用蒸馏预训练语言模型。Wu, Chuhan等。kdd 2021

针对推荐系统

  1. 基于策略蒸馏强化学习的长期奖励多任务推荐。Liu, Xi 等。arXiv:2001.09595
  2. 一种基于统一数据的反事实推荐通用知识蒸馏框架。Liu, Dugang 等。SIGIR 2020 [幻灯片] [代码]
  3. LightRec:一种内存与搜索效率俱佳的推荐系统。Lian, Defu 等。WWW 2020
  4. 淘宝推荐中的特权特征蒸馏。Xu, Chen 等。KDD 2020
  5. 资源受限移动设备上的下一个兴趣点推荐。WWW 2020
  6. 利用外部知识实现高效推荐的对抗性蒸馏。Chen, Xu 等。ACM Trans, 2018
  7. 排序蒸馏:为推荐系统学习高性能的紧凑排序模型。Tang, Jiaxi 等。SIGKDD 2018
  8. 一种新颖的增强型协同自编码器,结合知识蒸馏用于 Top-N 推荐系统。Pan, Yiteng 等。Neurocomputing 2019 [代码]
  9. ADER:面向会话式推荐持续学习的自适应蒸馏示例回放。Mi, Fei 等。ACM RecSys 2020
  10. 基于知识蒸馏的 CTR 预测集成。Zhu, Jieming 等(华为)。CIKM 2020
  11. DE-RRD:推荐系统的知识蒸馏框架。Kang, Seongku 等。CIKM 2020 [代码]
  12. 带有注意力机制的知识蒸馏神经兼容性建模。Song, Xuemeng 等。SIGIR 2018
  13. 结合图卷积网络蒸馏的二值化协同过滤。Wang, Haoyu 等。IJCAI 2019
  14. 用于 Top-N 推荐的协同蒸馏。Jae-woong Lee 等。CIKM 2019
  15. 将结构化知识蒸馏到嵌入中,以实现可解释且准确的推荐。Zhang Yuan 等。WSDM 2020
  16. UMEC:统一模型与嵌入压缩,用于高效推荐系统。ICLR 2021
  17. 用于 Top-K 推荐系统的双向蒸馏。WWW 2021
  18. 冷启动推荐中的特权图蒸馏。SIGIR 2021
  19. 推荐系统的拓扑蒸馏 [KDD 2021]
  20. 用于推荐中知识图谱蒸馏的条件注意力网络 [CIKM 2021]
  21. 探索、过滤与蒸馏:推荐中的蒸馏强化学习 [CIKM 2021] [视频] [代码]
  22. 图结构感知的对比式知识蒸馏,用于推荐系统的增量学习 [CIKM 2021]
  23. 用于推荐中知识图谱蒸馏与精炼的条件图注意力网络 [CIKM 2021]
  24. 多兴趣推荐中的目标兴趣蒸馏 [CIKM 2022] [视频] [代码]
  25. KDCRec:基于均匀数据的反事实推荐知识蒸馏 [TKDE 2022] [代码]
  26. 重访基于图的社会推荐:一种蒸馏增强的社会图网络 [WWW 2022] [代码]
  27. 用于个性化穿搭推荐的假负样本蒸馏与对比学习 [Arxiv 2110.06483]
  28. 用于 Top-N 推荐系统排序蒸馏的双重修正策略 [ArXiv 2109.03459v1]
  29. 基于可微架构搜索的场景自适应知识蒸馏,用于序列推荐。Chen, Lei 等。[ArXiv 2107.07173v1]
  30. 插值蒸馏用于统一有偏与无偏推荐 [SIGIR 2022] [视频] [代码]
  31. FedSPLIT:基于非负联合矩阵分解与知识蒸馏的一次性联邦推荐系统 [Arxiv 2205.02359v1]
  32. 基于自监督知识蒸馏的端侧下一件商品推荐 [SIGIR 2022] [代码]
  33. 多任务推荐中的跨任务知识蒸馏 [AAAI 2022]
  34. 朝着理解排序学习中的特权特征蒸馏迈进 [NIPS 2022]
  35. 打破黑箱:基于知识蒸馏的公平排序框架 [WISE 2022]
  36. Distill-VQ:通过从密集嵌入中蒸馏知识来学习检索导向的向量量化 [SIGIR 2022] [代码]
  37. AutoFAS:预排序系统的自动特征与架构选择 [KDD 2022]
  38. 用于大规模 CTR 预测的增量学习框架 [RecSys 22]
  39. 基于知识蒸馏的有向无环图因子机,用于 CTR 预测 [WSDM 2023] [代码]
  40. 用于推荐的无偏知识蒸馏 [WSDM 2023] [代码]
  41. DistilledCTR:通过模型蒸馏实现的精准且可扩展的 CTR 预测模型 [ESWA 2022]
  42. 基于深度强化学习的顶部感知推荐蒸馏 [Information Sciences 2021]

模型剪枝或量化

  1. 利用主导卷积核和知识预回归加速卷积神经网络。ECCV 2016
  2. N2N学习:通过策略梯度强化学习实现网络到网络的压缩。Ashok、Anubhav等。ICLR 2018
  3. 可裁剪神经网络。Yu、Jiahui等。ICLR 2018
  4. 用于无配对图像翻译的协同进化压缩。Shu、Han等。ICCV 2019
  5. 元剪枝:基于元学习的自动神经网络通道剪枝。Liu、Zechun等。ICCV 2019
  6. LightPAFF:一种用于预训练和微调的两阶段蒸馏框架。ICLR 2020
  7. 带提示的剪枝:一种高效的模型加速框架。ICLR 2020
  8. 使用廉价卷积和在线蒸馏训练卷积神经网络。arXiv:1909.13063
  9. 跨领域深度神经网络压缩中的协作式剪枝。Chen, Shangyu等。IJCAI 2019
  10. QKD:感知量化的知识蒸馏。Kim、Jangho等。arXiv:1911.12491v1
  11. 基于残差连接和有限数据的神经网络剪枝。Luo、Jian-Hao & Wu、Jianxin。CVPR 2020
  12. 使用全精度辅助模块训练量化神经网络。Zhuang、Bohan等。CVPR 2020
  13. 向有效的低比特卷积神经网络迈进。Zhuang、Bohan等。CVPR 2018
  14. 使用低比特权重和激活的有效卷积神经网络训练。Zhuang、Bohan等。arXiv:1908.04680
  15. 更加关注迭代剪枝的快照:通过集成蒸馏改进模型压缩。Le等。arXiv:2006.11487 [代码]
  16. 知识蒸馏超越模型压缩。Choi、Arthur等。arxiv:2007.01493
  17. 针对二值卷积神经网络的蒸馏引导残差学习。Ye、Jianming等。ECCV 2020
  18. 使用层次自蒸馏的级联通道剪枝。Miles & Mikolajczyk。BMVC 2020
  19. 三值BERT:感知蒸馏的超低比特BERT。Zhang、Wei等。EMNLP 2020
  20. 权重蒸馏:在神经网络参数中传递知识。arXiv:2009.09152
  21. 随机精度集成:量化深度神经网络的自我知识蒸馏。Boo、Yoonho等。AAAI 2021
  22. 二值图神经网络。Bahri、Mehdi等。CVPR 2021
  23. 自我损害对比学习。Jiang、Ziyu等。ICML 2021
  24. 信息论表示蒸馏。Miles等。BMVC 2022 [代码]
  25. 针对二值卷积神经网络的蒸馏引导残差学习。Ye、Jianming等。ECCV 2020
  26. 使用层次自蒸馏的级联通道剪枝。Miles & Mikolajczyk。BMVC 2020
  27. 三值BERT:感知蒸馏的超低比特BERT。Zhang、Wei等。EMNLP 2020
  28. 权重蒸馏:在神经网络参数中传递知识。arXiv:2009.09152
  29. 随机精度集成:量化深度神经网络的自我知识蒸馏。Boo、Yoonho等。AAAI 2021
  30. 二值图神经网络。Bahri、Mehdi等。CVPR 2021
  31. 自我损害对比学习。Jiang、Ziyu等。ICML 2021

超越

  1. 深度网络真的需要那么深吗?Ba、Jimmy,以及Rich Caruana。NeurIPS 2014
  2. 标签平滑何时会有帮助?Müller、Rafael,Kornblith,以及Hinton。NeurIPS 2019
  3. 向理解知识蒸馏迈进。Phuong、Mary,以及Lampert、Christoph。ICML 2019
  4. 用逻辑规则驾驭深度神经网络。ACL 2016
  5. 标签的适应性正则化。Ding、Qianggang等。arXiv:1908.05474
  6. 神经网络之间的知识同构。Liang、Ruofan等。arXiv:1908.01581
  7. (综述)深度神经网络中用于知识蒸馏的师生技术建模。arXiv:1912.13179
  8. 理解并改进知识蒸馏。Tang、Jiaxi等。arXiv:2002.03532
  9. 分类任务中知识蒸馏的现状。Ruffy、Fabian,以及Chahal、Karanbir。arXiv:1912.10850 [代码]
  10. 通过量化知识来解释知识蒸馏。Zhang、Quanshi等。CVPR 2020
  11. DeepVID:通过知识蒸馏实现图像分类器的深度视觉解释与诊断。IEEE Trans,2019年。
  12. 论知识蒸馏的不合理有效性:核区域分析。Rahbar、Arman等。arXiv:2003.13438
  13. (综述)知识蒸馏与师生学习在视觉智能中的应用:回顾与新展望。Wang、Lin & Yoon、Kuk-Jin。arXiv:2004.05937
  14. 为什么蒸馏有帮助:统计学视角。arXiv:2005.10419
  15. 通过知识蒸馏转移归纳偏置。Abnar、Samira等。arXiv:2006.00555
  16. 标签平滑能否缓解标签噪声?Lukasik、Michal等。ICML 2020
  17. 数据增强对知识蒸馏影响的实证分析。Das、Deepan等。arXiv:2006.03810
  18. (综述)知识蒸馏:一项综述。Gou、Jianping等。IJCV 2021
  19. 对抗性迁移是否意味着知识迁移?Liang、Kaizhao等。arXiv:2006.14512
  20. 关于知识蒸馏的揭秘:残差网络视角。Jha等。arXiv:2006.16589
  21. 利用简单模型已有的知识来提升其性能。Dhurandhar等。ICML 2020
  22. 用于神经逻辑规则学习的特征提取函数。Gupta & Robles-Kelly。arXiv:2008.06326
  23. 从集成视角看知识蒸馏与其他技术的正交性。SeongUk等。arXiv:2009.04120
  24. 宽度神经网络中的知识蒸馏:风险边界、数据效率与不完美的教师。Ji、Guangda & Zhu、Zhanxing。NeurIPS 2020
  25. 为知识蒸馏中的特征模仿辩护。Wang、Guo-Hua等。arXiv:2011.0142
  26. 通过知识蒸馏继承正则化的可解模型。Luca Saglietti & Lenka Zdeborova。arXiv:2012.00194
  27. 不可蒸馏:制造一个无法教导学生的恶劣教师。ICLR 2021
  28. 向理解深度学习中的集成、知识蒸馏和自我蒸馏迈进。Allen-Zhu、Zeyuan & Li、Yuanzhi。(微软)arXiv:2012.09816
  29. 从清洁输入到噪声输入的师生学习。Hong、Guanzhe等。CVPR 2021
  30. 标签平滑是否真的与知识蒸馏不兼容:一项实证研究。ICLR 2021 [项目]
  31. 用于收益优化的模型蒸馏:可解释的个性化定价。Biggs、Max等。ICML 2021
  32. 蒸馏的统计学视角。Aditya等(谷歌)。ICML 2021
  33. (综述)无数据知识转移:一项综述。Liu、Yuang等。arXiv:2112.15278
  34. 知识蒸馏超越模型压缩。Choi、Sarfraz等。arxiv:2007.01493

蒸馏工具

  1. Neural Network Distiller:用于深度神经网络压缩研究的 Python 包。arXiv:1910.12232
  2. TextBrewer:面向自然语言处理的开源知识蒸馏工具包。哈尔滨工业大学与科大讯飞。arXiv:2002.12620
  3. torchdistill:一个模块化、基于配置驱动的知识蒸馏框架。
  4. KD-Lib:一个用于知识蒸馏、剪枝和量化操作的 PyTorch 库。Shen, Het 等人。arXiv:2011.14691
  5. Knowledge-Distillation-Zoo
  6. RepDistiller
  7. classification distiller

注:所有论文的 PDF 文件均可在 arXivBingGoogle 上找到并下载。

来源:https://github.com/FLHonker/Awesome-Knowledge-Distillation

感谢所有贡献者:

yuang lioutasb KaiyuYue avatar cardwing jaywonchung ZainZhao avatar avatar avatar avatar

联系方式:刘源(frankliu624outlook.com)

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架