Awesome-Dataset-Distillation

1.9k 172 困难 1 次阅读昨天MIT开发框架

AI 解读由 AI 自动生成，仅供参考

Awesome-Dataset-Distillation 是一个专注于“数据集蒸馏”领域的精选资源库，汇集了该方向最全面、前沿的学术论文与应用案例。简单来说，它的核心目标是帮助研究者从海量原始数据中提炼出一个极小的合成数据集，使得模型仅在这个小数据集上训练，就能达到在原始大数据集上训练的同等高性能。

这一工具主要解决了大模型训练中数据存储成本高、计算资源消耗大以及隐私保护难等痛点。通过数据集蒸馏技术，用户不仅能大幅降低训练门槛，还能在持续学习、神经架构搜索及数据隐私保护等场景中实现更高效的应用。

Awesome-Dataset-Distillation 特别适合人工智能研究人员、算法工程师及相关领域的开发者使用。它由该领域的三位奠基人共同维护，不仅系统梳理了从 2018 年概念提出至今的技术演进脉络，还实时收录了包括梯度匹配、时间序列压缩及推荐系统应用在内的最新突破。无论是希望快速入门的新手，还是寻求前沿灵感的资深专家，都能在这里找到极具价值的参考文献与代码资源，是探索数据高效利用不可或缺的指南。

使用场景

某医疗 AI 初创团队需要在受限的隐私合规环境下，利用海量患者影像数据训练轻量级诊断模型，并快速验证新的网络架构。

没有 Awesome-Dataset-Distillation 时

文献调研如大海捞针：团队成员需手动在 arXiv 和各大会议中筛选“数据集蒸馏”相关论文，极易遗漏如梯度匹配（Gradient Matching）等关键早期工作或最新的医疗领域应用案例。
技术选型盲目试错：由于缺乏对 300+ 篇论文的系统分类，团队难以判断哪种算法适合小样本医疗场景，导致在不适用的通用算法上浪费数周算力进行无效实验。
复现门槛极高：找不到官方代码链接或标准的 BibTeX 引用，研究人员需花费大量时间逆向工程论文细节，甚至因缺少基准对比而无法评估自身模型效果。
应用场景视野狭窄：仅关注基础的压缩任务，忽略了该技术在持续学习、隐私保护及神经架构搜索（NAS）中的潜力，错失了优化产品合规性与迭代速度的机会。

使用 Awesome-Dataset-Distillation 后

一站式权威索引：直接获取由领域专家维护的最新论文清单，迅速定位到针对医疗数据集蒸馏的开创性研究及 2026 年最新的细粒度蒸馏框架（如 FD2）。
精准算法匹配：利用清晰的分类体系，快速锁定适合医疗影像的“形状引导凝聚”或“可学习性引导扩散”算法，将技术验证周期从数周缩短至几天。
开箱即用的资源：每个条目均附带项目主页、GitHub 代码库及标准引用格式，团队能立即复现 SOTA（最先进）结果，建立可靠的性能基线。
激发创新灵感：通过浏览隐私保护和推荐系统等跨界应用案例，团队成功将蒸馏技术应用于联邦学习场景，在满足数据不出院的前提下提升了模型泛化能力。

Awesome-Dataset-Distillation 将原本分散碎片化的前沿研究转化为结构化的知识资产，让研发团队能从繁琐的文献工作中解脱，专注于核心算法的创新与落地。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目是一个数据集蒸馏（Dataset Distillation）领域的论文和资源列表（Awesome List），而非一个可直接运行的单一软件工具。README 中列出了该领域内的数百篇论文及其对应的独立代码仓库链接。具体的运行环境需求（如操作系统、GPU、Python 版本等）取决于用户选择复现的特定论文代码，需参考各子项目的独立文档。

python未说明

快速开始

令人惊叹的数据集蒸馏

Stars Forks

令人惊叹的数据集蒸馏 提供了关于数据集蒸馏领域最全面、最详尽的信息。

数据集蒸馏 是指合成一个小型数据集，使得在其上训练的模型能够在原始大型数据集上达到高性能的任务。数据集蒸馏算法以待蒸馏的大型真实数据集（训练集）作为输入，并输出一个小型的合成蒸馏数据集。该蒸馏数据集通过在独立的真实数据集（验证/测试集）上评估基于此蒸馏数据集训练的模型来进行评价。一个好的小型蒸馏数据集不仅有助于理解数据集本身，还具有多种应用（例如持续学习、隐私保护、神经架构搜索等）。这一任务最早由论文Dataset Distillation [Tongzhou Wang et al., '18]提出，并提出了一种利用优化步骤中的反向传播来实现的算法。随后，在论文Medical Dataset Distillation [Guang Li et al., '19]中，该任务首次被扩展到真实世界的数据集，并探讨了数据集蒸馏在隐私保护方面的可能性。而在论文Dataset Condensation [Bo Zhao et al., '20]中，梯度匹配方法首次被引入，极大地推动了数据集蒸馏领域的发展。

近年来（2022年至今），数据集蒸馏在研究界受到了越来越多的关注，许多机构和实验室都在积极开展相关研究。每年发表的相关论文数量也在不断增加。这些出色的研究不断改进数据集蒸馏技术，并探索其各种变体和应用场景。

本项目由 Guang Li、Bo Zhao 和 Tongzhou Wang 共同策划和维护。

如何提交拉取请求？

:globe_with_meridians: 项目页面
:octocat: 代码
:book: bibtex

主条目

数据集蒸馏（Tongzhou Wang 等，2018年）:globe_with_meridians: :octocat: :book:

生成式蒸馏

GAN

使用 GAN 合成信息丰富的训练样本（Bo Zhao 等，NeurIPS 2022 工作坊）:octocat: :book:
通过深度生成先验泛化数据集蒸馏（George Cazenavette 等，CVPR 2023）:globe_with_meridians: :octocat: :book:
DiM：将数据集蒸馏为生成模型（Kai Wang & Jianyang Gu 等，2023）:octocat: :book:
通过生成模型进行数据集凝缩（Junhao Zhang 等，2023）:book:
生成式数据集蒸馏：平衡全局结构与局部细节（Longzhen Li & Guang Li 等，CVPR 2024 工作坊）:book:
从数据到模型的蒸馏：数据高效学习框架（Ahmad Sajedi & Samir Khaki 等，ECCV 2024）:book:
基于自我知识蒸馏的生成式数据集蒸馏（Longzhen Li & Guang Li 等，ICASSP 2025）:book:
层次化特征很重要：深入探索 GAN 先验以改进数据集蒸馏（Xinhao Zhong & Hao Fang 等，CVPR 2025）:octocat: :book:

扩散

通过极小极大扩散高效进行数据集蒸馏 (Jianyang Gu 等，CVPR 2024) :octocat: :book:
D4M：基于解耦扩散模型的数据集蒸馏 (Duo Su & Junjie Hou 等，CVPR 2024) :globe_with_meridians: :octocat: :book:
基于扩散模型的生成式数据集蒸馏 (Duo Su & Junjie Hou & Guang Li 等，ECCV 2024 Workshop) :octocat: :book:
用于数据集蒸馏的影响引导扩散 (Mingyang Chen 等，ICLR 2025) :octocat: :book:
利用高代表性驯服扩散进行数据集蒸馏 (Lin Zhao 等，ICML 2025) :octocat: :book:
MGD3：使用扩散模型的模式引导数据集蒸馏 (Jeffrey A. Chan-Santiago 等，ICML 2025) :globe_with_meridians: :octocat: :book:
通过对抗引导课程采样增强基于扩散的数据集蒸馏 (Lexiao Zou 等，ICME 2025) :book:
CaO2：修正基于扩散的数据集蒸馏中的不一致性 (Haoxuan Wang 等，ICCV 2025) :octocat: :book:
通过视觉-语言类别原型进行数据集蒸馏 (Yawen Zou & Guang Li 等，ICCV 2025) :globe_with_meridians: :octocat: :book:
具有难度引导采样的特定任务生成式数据集蒸馏 (Mingzhuo Li & Guang Li 等，ICCV 2025 Workshop) :octocat: :book:
利用扩散模型解锁数据集蒸馏 (Brian B. Moser & Federico Raue 等，NeurIPS 2025) :octocat: :book:
利用最优传输优化分布几何对齐以进行生成式数据集蒸馏 (Xiao Cui 等，NeurIPS 2025) :book:
带有颜色补偿的数据集凝聚 (Huyu Wu 等，TMLR 2025) :globe_with_meridians: :octocat: :book:
扩散模型作为数据集蒸馏先验 (Duo Su 等，ICLR 2026) :book:
CoDA：从文本到图像的扩散模型到无训练数据集蒸馏 (Letian Zhou 等，ICLR 2026) :octocat: :book:
ManifoldGD：用于基于扩散的数据集蒸馏的无训练分层流形指导 (Ayush Roy 等，CVPR 2026) :octocat: :book:
IMS3：打破基于扩散的数据集蒸馏中的分布聚合 (Chenru Wang & Yunyi Chen 等，CVPR 2026) :book:
EVLF：用于生成式数据集蒸馏的早期视觉-语言融合 (Wenqi Cai 等，CVPR 2026) :globe_with_meridians: :octocat: :book:
用于数据集蒸馏的学习能力引导扩散 (Jeffrey A. Chan-Santiago 等，CVPR 2026) :globe_with_meridians: :book:

VAR

HIERAMP：用于生成式数据集蒸馏的由粗到细自回归放大 (Lin Zhao & Xinru Jiang 等，CVPR 2026) :octocat: :book:

流

路径引导流匹配用于数据集蒸馏 (Xuhui Li 等，2026) :book:

更好的优化

通过模型增强加速数据蒸馏 (Lei Zhang & Jie Zhang 等，CVPR 2023) :octocat: :book:
DREAM：基于代表性匹配的高效数据蒸馏 (Yanqing Liu & Jianyang Gu & Kai Wang 等，ICCV 2023) :octocat: :book:
只蒸馏一次：压缩数据集的两条规则 (Yang He 等，NeurIPS 2023) :octocat: :book:
MIM4DD：用于数据蒸馏的互信息最大化 (Yuzhang Shang 等，NeurIPS 2023) :book:
预训练模型能否助力数据蒸馏？ (Yao Lu 等，2023年) :octocat: :book:
DREAM+：双向代表性匹配的高效数据蒸馏 (Yanqing Liu & Jianyang Gu & Kai Wang 等，2023年) :octocat: :book:
潜在空间中的数据蒸馏 (Yuxuan Duan 等，2023年) :book:
数据蒸馏就像伏特加一样：多次蒸馏以获得更佳品质 (Xuxi Chen & Yu Yang 等，ICLR 2024) :octocat: :book:
极其简单的数据蒸馏 (Yunzhen Feng 等，ICLR 2024) :octocat: :book:
多尺度数据集压缩 (Yang He 等，ICLR 2024) :octocat: :book:
具有领域偏移的大规模数据蒸馏 (Noel Loo & Alaa Maalouf 等，ICML 2024) :octocat: :book:
从海量矿石中提炼黄金：面向高效数据蒸馏的双层数据剪枝 (Yue Xu 等，ECCV 2024) :octocat: :book:
基于异构模型的模型无关数据集压缩 (Jun-Yeong Moon 等，ECCV 2024) :octocat: :book:
泰迪：基于泰勒近似匹配的高效大规模数据蒸馏 (Ruonan Yu 等，ECCV 2024) :book:
BACON：用于数据蒸馏的贝叶斯最优压缩框架 (Zheng Zhou 等，2024年) :octocat: :book:
超越特征相似性：基于类感知条件互信息的有效数据蒸馏 (Xinhao Zhong 等，ICLR 2025) :octocat: :book:
高IPC数据蒸馏的课程式粗细选择 (Yanda Chen & Gongwei Chen 等，CVPR 2025) :octocat: :book:
并非所有样本都应同等对待：迈向对数据蒸馏的理解与改进 (Shaobo Wang 等，CVPR 2025研讨会) :book:
超越随机：数据蒸馏中的自动内循环优化 (Muquan Li 等，NeurIPS 2025) :book:
作为前向最优量化的数据蒸馏 (Hongye Tan 等，ICLR 2026) :book:

更深入的理解

通过隐式微分优化数百万个超参数 (Jonathan Lorraine 等，AISTATS 2020) :octocat: :book:
关于过参数化双层优化中的隐式偏差 (Paul Vicol 等，ICML 2022) :book:
关于蒸馏集合的大小和近似误差 (Alaa Maalouf & Murad Tukan 等，NeurIPS 2023) :book:
数据蒸馏的理论研究 (Zachary Izzo 等，NeurIPS 2023研讨会) :book:
什么是数据蒸馏学习？ (William Yang 等，ICML 2024) :octocat: :book:
缓解数据蒸馏中的偏差 (Justin Cui 等，ICML 2024) :book:
从第一原理出发的数据蒸馏：整合核心信息提取与目的性学习 (Vyacheslav Kungurtsev 等，2024年) :book:
信息引导的扩散采样用于数据蒸馏 (Linfeng Ye 等，NeurIPS 2025研讨会) :book:
基于差异性的数据压缩视角 (Tong Chen 等，2025年) :book:
通过谱滤波理解数据蒸馏 (Deyu Bo 等，ICLR 2026) :book:
针对记忆型数据的数据蒸馏：软标签可能泄露保留教师的知识 (Freya Behrens 等，ICLR 2026) :book:
数据蒸馏高效地编码了非线性任务梯度学习中的低维表示 (Yuri Kinoshita 等，2026年) :book:

标签蒸馏

灵活的数据集蒸馏：学习标签而非图像（Ondrej Bohdal 等，NeurIPS 2020 工作坊）:octocat: :book:
软标签数据集蒸馏与文本数据集蒸馏（Ilia Sucholutsky 等，IJCNN 2021）:octocat: :book:
在数据集蒸馏中，一个标签胜过千张图片（Tian Qin 等，NeurIPS 2024）:octocat: :book:
大规模数据集蒸馏是否需要大规模软标签？（Lingao Xiao 等，NeurIPS 2024）:octocat: :book:
DRUPI：利用特权信息进行数据集缩减（Shaobo Wang 等，2024年）:book:
标签增强型数据集蒸馏（Seoungyoon Kang & Youngsun Lim 等，WACV 2025）:book:
GIFT：以近乎零成本释放蒸馏数据集中标签的全部潜力（Xinyi Shang & Peng Sun 等，ICLR 2025）:octocat: :book:
重标签出局！通过轻量化标签空间实现数据集蒸馏（Ruonan Yu 等，ICCV 2025）:book:

数据集量化

数据集量化（Daquan Zhou & Kai Wang & Jianyang Gu 等，ICCV 2023）:octocat: :book:
基于主动学习的自适应采样的数据集量化（Zhenghao Zhao 等，ECCV 2024）:octocat: :book:
自适应数据集量化（Muquan Li 等，AAAI 2025）:book:
数据集颜色量化：面向训练的数据集级压缩框架（Chenyue Yu 等，ICLR 2026）:book:

解耦蒸馏

挤压、恢复与重标签：从全新视角实现 ImageNet 规模的数据集凝缩（Zeyuan Yin & Zhiqiang Shen 等，NeurIPS 2023）:globe_with_meridians: :octocat: :book:
大数据时代下的课程式数据合成数据集蒸馏（Zeyuan Yin 等，TMLR 2024）:octocat: :book:
通过多种骨干网络和统计匹配实现的大规模数据凝缩（Shitong Shao 等，CVPR 2024）:octocat: :book:
关于蒸馏数据集的多样性和真实性：一种高效的数据集蒸馏范式（Peng Sun 等，CVPR 2024）:octocat: :book:
信息补偿：任何规模数据集蒸馏的修复方案（Peng Sun 等，ICLR 2024研讨会）:book:
阐明数据集凝缩的设计空间（Shitong Shao 等，NeurIPS 2024）:octocat: :book:
多样性驱动的合成：通过定向权重调整提升数据集蒸馏效果（Jiawei Du 等，NeurIPS 2024）:octocat: :book:
打破类别壁垒：通过跨类特征补偿器实现高效数据集蒸馏（Xin Zhang 等，ICLR 2025）:octocat: :book:
DELT：一种简单的多样性驱动的早晚期训练用于数据集蒸馏（Zhiqiang Shen & Ammar Sherif 等，CVPR 2025）:octocat: :book:
通过非关键区域精炼提升数据集蒸馏效果（Minh-Tuan Tran 等，CVPR 2025）:octocat: :book:
课程式数据集蒸馏（Zhiheng Ma & Anjia Cao 等，TIP 2025）:octocat: :book:
FADRM：用于数据集蒸馏的快速准确的数据残差匹配（Jiacheng Cui & Xinyue Bi 等，NeurIPS 2025）:octocat: :book:
FocusDD：注入真实场景以实现稳健的数据集蒸馏（Youbin Hu 等，2025年）:book:
通过委员会投票进行数据集蒸馏（Jiacheng Cui 等，2025年）:octocat: :book:
PRISM：通过解耦架构先验来多样化数据集蒸馏（Brian B. Moser 等，TMLR 2026）:octocat: :book:
DiRe：促进多样性的数据集凝缩正则化（Saumyaranjan Mohanty 等，WACV 2026）:octocat: :book:
在数据集蒸馏中夯实并提升信息量与实用性（Shaobo Wang 等，ICLR 2026）:book:
固定锚点还不够：动态检索与持久同调用于数据集蒸馏（Muquan Li 等，CVPR 2026）:book:

多模态蒸馏

视觉-语言数据集蒸馏（吴欣迪等，TMLR 2024）:globe_with_meridians: :octocat: :book:
基于低秩相似性挖掘的多模态数据集蒸馏（许悦等，ICML 2024）:octocat: :book:
视听数据集蒸馏（萨克沙姆·辛格·库什瓦哈等，TMLR 2024）:octocat: :book:
超越模态坍塌：用于多模态数据集蒸馏的表征融合（张鑫等，NeurIPS 2025）:book:
基于生成模型的高效多模态数据集蒸馏（赵正浩等，NeurIPS 2025）:octocat: :book:
CovMatch：基于交叉协方差引导、可训练文本编码器的多模态数据集蒸馏（李勇民等，NeurIPS 2025）:octocat: :book:
解耦的视听数据集蒸馏（李文渊、李广等，2025年）:book:
ImageBindDC：基于ImageBind的压缩技术对多模态数据进行精简（闵岳、王绍博等，AAAI 2026）:book:
原型引导的数据合成使多模态数据集蒸馏更简单（崔俊赫等，ICLR 2026）:octocat: :book:
分阶段教师模型驱动的多模态数据集蒸馏（郭圣斌、赵航等，ICLR 2026）:octocat: :book:
多模态数据集蒸馏中的异步匹配与动态采样（齐丁等，ICLR 2026）:book:

自监督蒸馏

用于迁移学习的自监督数据集蒸馏（李东朴、李西妮等，ICLR 2024）:octocat: :book:
免费的效率：理想的数据就是可迁移的表征（孙鹏等，NeurIPS 2024）:octocat: :book:
自监督数据集蒸馏：只需良好的压缩即可（周木欣等，2024年）:octocat: :book:
通过知识蒸馏实现数据集蒸馏：迈向深度网络的高效自监督预训练（乔希·西达尔特等，ICLR 2025）:octocat: :book:
通过参数化、预定义增强和近似方法提升自监督数据集蒸馏（余盛峰等，ICLR 2025）:book:
面向预训练自监督视觉模型的数据集蒸馏（乔治·卡泽纳韦特等，NeurIPS 2025）:globe_with_meridians: :octocat: :book:

基准测试

DC-BENCH：数据精简基准测试（贾斯汀·崔等，NeurIPS 2022）:globe_with_meridians: :octocat: :book:
关于数据集蒸馏的全面研究：性能、隐私、鲁棒性和公平性（陈宗雄、耿嘉慧等，2023年）:book:
BEARD：针对数据集蒸馏的对抗鲁棒性基准测试（周政等，2024年）:globe_with_meridians: :octocat: :book:
DD-RobustBench：数据集蒸馏的对抗鲁棒性基准测试（吴一凡等，TIP 2025）:octocat: :book:
DD-Ranking：重新思考数据集蒸馏的评估（李泽凯、钟新豪等，2025年）:globe_with_meridians: :octocat: :book:
修正的解耦数据集蒸馏：为公平且全面的评估提供更深入的视角（钟新豪等，ICLR 2026）:book:

综述

数据蒸馏：综述（萨奇德瓦·诺文等，TMLR 2023）:book:
关于数据集蒸馏的综述：方法、应用及未来方向（耿嘉慧、陈宗雄等，IJCAI 2023）:octocat: :book:
关于数据集蒸馏的全面综述（雷世业等，TPAMI 2023）:octocat: :book:
数据集蒸馏：全面回顾（于若楠、刘松华等，TPAMI 2023）:octocat: :book:
数据集蒸馏的发展历程：迈向可扩展且通用的解决方案（刘平等，2025年）:book:

博士论文

利用数据精简实现神经网络的高效训练（赵波，爱丁堡大学，2023年）:book:

研讨会

第1届CVPR数据集蒸馏研讨会（Saeed Vahidian等，CVPR 2024）:globe_with_meridians:

挑战赛

第一届数据集蒸馏挑战赛（Kai Wang & Ahmad Sajedi等，ECCV 2024）:globe_with_meridians: :octocat:

应用

持续学习

[利用合成数据学习减少灾难性遗忘]（Wojciech Masarczyk等，CVPR 2020研讨会）:book:
[凝聚型复合记忆持续学习]（Felix Wiewel等，IJCNN 2021）:octocat: :book:
[蒸馏回放：通过合成样本克服遗忘]（Andrea Rosasco等，IJCAI 2021研讨会）:octocat: :book:
[在线持续学习中的样本凝聚]（Mattia Sangermano等，IJCNN 2022）:octocat: :book:
[高效数据集凝聚插件及其在持续学习中的应用]（Enneng Yang等，NeurIPS 2023）:octocat: :book:
[面向内存受限的在线持续学习的流式数据摘要]（Jianyang Gu等，AAAI 2024）:octocat: :book:
[CD2：用于少样本类增量学习的约束数据集蒸馏]（Kexin Bao等，IJCAI 2025）:book:
[面向领域增量数据集蒸馏的非对称合成数据更新]（Minyoung Oh等，ICLR 2026）:octocat: :book:

隐私

[免费的隐私：数据集凝聚如何助力隐私保护？]（Tian Dong等，ICML 2022）:book:
[带有判别信息的隐私集合生成]（Dingfan Chen等，NeurIPS 2022）:octocat: :book:
[“免费的隐私”并非无代价：数据集凝聚如何助力隐私保护？]（Nicholas Carlini等，2022年）:book:
[针对数据集蒸馏的后门攻击]（Yugeng Liu等，NDSS 2023）:octocat: :book:
[差分隐私核诱导点（DP-KIP）用于隐私保护的数据蒸馏]（Margarita Vinaroz等，2023年）:octocat: :book:
[利用神经切空间核与数据集蒸馏理解重构攻击]（Noel Loo等，ICLR 2024）:book:
[重新思考数据集蒸馏上的后门攻击：基于核方法的视角]（Ming-Yu Chung等，ICLR 2024）:book:
[差分隐私数据集凝聚]（Zheng等，NDSS 2024研讨会）:book:
[面向联邦学习的数据集蒸馏自适应后门攻击]（Ze Chai等，ICC 2024）:book:
[提升隐私保护数据集蒸馏中的噪声效率]（Runkai Zheng等，ICCV 2025）:octocat: :book:
[SNEAKDOOR：针对基于分布匹配的数据集凝聚的隐蔽后门攻击]（He Yang & Dongyi Lv等，NeurIPS 2025）:book:
[毒化蒸馏：无需原始数据访问即可向蒸馏数据集中注入后门]（Ziyuan Yang等，AAAI 2026）:book:
[DP-GENG：由差分隐私生成的数据引导的差分隐私数据集蒸馏]（Shuo Shi等，AAAI 2026）[:book:](./citations/shi2026dpgeng.txt）

医疗

软标签匿名胃部X光图像蒸馏（Guang Li等，ICIP 2020）:octocat: :book:
基于软标签数据集蒸馏的压缩胃部图像生成用于医疗数据共享（Guang Li等，CMPB 2022）:octocat: :book:
用于医疗数据集共享的数据集蒸馏（Guang Li等，AAAI 2023研讨会）:octocat: :book:
具有可泛化数据集蒸馏的通信高效联邦皮肤病变分类（Yuchen Tian & Jiacheng Wang等，MICCAI 2023研讨会）:book:
重要性感知自适应数据集蒸馏（Guang Li等，NN 2024）:book:
用于组织病理学安全数据共享的图像蒸馏（Zhe Li等，MICCAI 2024）:octocat: :book:
MedSynth：利用生成模型进行医疗数据共享（Renuga Kanagavelu等，MICCAI 2024）:book:
用于医疗数据集蒸馏的渐进式轨迹匹配（Zhen Yu等，2024年）:book:
医学影像中的数据集蒸馏：可行性研究（Muyang Li等，2024年）:book:
用于组织病理学图像分类的数据集蒸馏（Cong Cong等，2024年）:book:
面向医学图像分析的多模态视觉预训练（Shaohao Rui & Lingzhi Chen等，CVPR 2025）:octocat: :book:
FedWSIDD：通过数据集蒸馏实现的联邦全切片图像分类（Haolong Jin等，MICCAI 2025）:octocat: :book:
用于医学图像数据集蒸馏的高阶渐进式轨迹匹配（Le Dong等，MICCAI 2025）:octocat: :book:
用于医学图像增强的低层次数据集蒸馏（Fengzhi Xu等，2025年）:book:

联邦学习

通过合成数据的联邦学习（Jack Goetz等，2020年）:book:
蒸馏式一次性联邦学习（Yanlin Zhou等，2020年）:book:
DENSE：无数据的一次性联邦学习（Jie Zhang & Chen Chen等，NeurIPS 2022）:octocat: :book:
FedSynth：联邦学习中通过合成数据进行梯度压缩（Shengyuan Hu等，2022年）:book:
面向联邦学习的元知识凝结（Ping Liu等，ICLR 2023）:book:
DYNAFED：用全局动态应对客户端数据异质性（Renjie Pi等，CVPR 2023）:octocat: :book:
FedDM：用于通信高效的联邦学习的迭代分布匹配（Yuanhao Xiong & Ruochen Wang等，CVPR 2023）:octocat: :book:
在资源受限的边缘环境中通过去中心化数据集蒸馏进行联邦学习（Rui Song等，IJCNN 2023）:octocat: :book:
FedLAP-DP：通过分享差分隐私损失近似值进行联邦学习（Hui-Po Wang等，2023年）:octocat: :book:
在虚拟异质数据上使用本地-全局蒸馏的联邦学习（Chun-Yin Huang等，TMLR 2024）:octocat: :book:
一种无需聚合的联邦学习，用于应对数据异质性（Yuan Wang等，CVPR 2024）:book:
通过合成锚点克服去中心化联邦学习中的数据和模型异质性（Chun-Yin Huang等，ICML 2024）:octocat: :book:
DCFL：非IID感知数据凝结辅助的联邦学习（Xingwang Wang等，IJCNN 2024）:octocat: :book:
释放联邦学习潜力：通过深度生成潜变量进行数据集蒸馏的交响曲（Yuqi Jia & Saeed Vahidian等，ECCV 2024）:octocat: :book:
一次性协作式数据蒸馏（William Holland等，ECAI 2024）:octocat: :book:
FedVCK：鲁棒且通信高效的非IID联邦学习，通过有价值的凝结知识用于医学图像分析（Guochen Yan等，AAAI 2025）:octocat: :book:

图神经网络

用于图神经网络的图凝聚（Wei Jin 等，ICLR 2022）:octocat: :book:
通过单步梯度匹配凝聚图（Wei Jin 等，KDD 2022）:octocat: :book:
通过感受野分布匹配进行图凝聚（Mengyang Liu 等，2022）:book:
基于核岭回归的图数据集蒸馏（Zhe Xu 等，KDD 2023）:octocat: :book:
无结构图凝聚：从大规模图到凝聚后的无图数据（Xin Zheng 等，NeurIPS 2023）:octocat: :book:
图数据蒸馏是否与视觉数据集蒸馏类似？（Beining Yang & Kai Wang 等，NeurIPS 2023）:octocat: :book:
CaT：基于图凝聚的平衡持续图学习（Yilun Liu 等，ICDM 2023）:octocat: :book:
Mirage：面向图分类的模型无关图蒸馏（Mridul Gupta & Sahil Manchanda 等，ICLR 2024）:octocat: :book:
通过特征基匹配进行图蒸馏（Yang Liu & Deyu Bo 等，ICML 2024）:octocat: :book:
驾驭复杂性：通过扩展窗口匹配实现无损图凝聚（Yuchen Zhang & Tianle Zhang & Kai Wang 等，ICML 2024）:octocat: :book:
通过自表达图结构重建进行图数据凝聚（Zhanyu Liu & Chaolv Zeng 等，KDD 2024）:octocat: :book:
两招不迷糊：通过设计合理梯度匹配凝聚图（Tianle Zhang & Yuchen Zhang & Kai Wang 等，2024）:octocat: :book:

综述

图规约的全面综述：稀疏化、粗化与凝聚（Mohammad Hashemi 等，IJCAI 2024）:octocat: :book:
图凝聚综述（Hongjia Xu 等，2024）:octocat: :book:
图凝聚：综述（Xinyi Gao 等，TKDE 2025）:octocat: :book:

基准测试

GC-Bench：一个开放且统一的图凝聚基准测试（Qingyun Sun & Ziying Chen 等，NeurIPS 2024）:octocat: :book:
GCondenser：图凝聚的基准测试（Yilun Liu 等，2024）:octocat: :book:
GC-Bench：带有新见解的图凝聚基准测试框架（Shengbo Gong & Juntong Ni 等，2024）:octocat: :book:

关于图蒸馏的主题将不再更新，因为目前已有关于此主题的足够论文和总结性项目。

神经架构搜索

生成式教学网络：通过学习生成合成训练数据加速神经架构搜索（Felipe Petroski Such 等，ICML 2020）:octocat: :book:
利用梯度匹配和隐式微分学习生成合成训练数据（Dmitry Medvedev 等，AIST 2021）:octocat: :book:
校准数据集蒸馏以加快超参数搜索（Mucong Ding 等，2024）:book:

时尚、艺术与设计

可穿戴 ImageNet：通过数据集蒸馏合成可平铺纹理（George Cazenavette 等，CVPR 2022 工作坊）:globe_with_meridians: :octocat: :book:
向设计师学习：通过数据集蒸馏分析时尚搭配（Yulan Chen 等，ICIP 2022）:book:
具有自适应轨迹匹配的银河数据集蒸馏（Haowen Guan 等，NeurIPS 2023 工作坊）:octocat: :book:

黑盒优化

用于离线无限宽模型优化的双向学习（Can Chen 等，NeurIPS 2022）:octocat: :book:
用于离线基于模型的生物序列设计的双向学习（Can Chen 等，ICML 2023）:octocat: :book:

鲁棒性

仅靠数据就能实现鲁棒性吗？（Nikolaos Tsilivis 等，ICML 2022 工作坊）:book:
迈向鲁棒的数据集学习（Yihan Wu 等，2022）:book:
重新思考数据蒸馏：不要忽视校准（Dongyao Zhu 等，ICCV 2023）:book:
迈向可信的数据集蒸馏（Shijie Ma 等，PR 2024）:octocat: :book:
通过曲率正则化实现对抗鲁棒的数据集蒸馏（Eric Xue 等，AAAI 2025）:globe_with_meridians: :octocat: :book:
具有风险最小化的群体分布鲁棒数据集蒸馏（Saeed Vahidian、Mingyu Wang 和 Jianyang Gu 等，ICLR 2025）:octocat: :book:
ROME 在逆境中锻造：通过信息瓶颈实现鲁棒的蒸馏数据集（Zheng Zhou 等，ICML 2025）:globe_with_meridians: :octocat: :book:

公平性

公平图蒸馏（Qizhang Feng 等，NeurIPS 2023）:book:
FairDD：公平数据集蒸馏（Qihang Zhou 等，NeurIPS 2025）:octocat: :book:

文本

文本分类中的数据蒸馏（Yongqi Li 等，2021）:book:
带有注意力标签的数据集蒸馏用于微调 BERT（Aru Maekawa 等，ACL 2023）:octocat: :book:
DiLM：将数据集蒸馏为语言模型以进行文本级数据集蒸馏（Aru Maekawa 等，NAACL 2024）:octocat: :book:
通过语言模型嵌入进行文本数据集蒸馏（Yefan Tao 等，EMNLP 2024）:book:
UniDetox：通过数据集蒸馏对大型语言模型进行通用去毒（Huimin Lu 等，ICLR 2025）:octocat: :book:
知识层级引导的生物医学数据集蒸馏用于领域 LLM 训练（Xunxin Cai、Chengrui Wang 和 Qingqing Long 等，DASFAA 2025）:book:
通过梯度匹配生成合成文本以训练大型语言模型（Dang Nguyen 和 Zeman Li 等，ICML 2025）:octocat: :book:
CondenseLM：通过奖励匹配驱动的 LLM 进行文本数据集浓缩（Cheng Shen 等，EMNLP 2025）:octocat: :book:

视频

与静止图像共舞：基于静态-动态解耦的视频蒸馏（Ziyu Wang 和 Yue Xu 等，CVPR 2024）:octocat: :book:
视频集合蒸馏：信息多样化与时间密集化（Yinjie Zhao 等，2024）:book:
关于视频动作数据集浓缩的大规模研究（Yang Chen 等，2024）:octocat: :book:
通过生成网络反演压缩动作分割数据集（Guodong Ding 等，CVPR 2025）:book:
潜在视频数据集蒸馏（Ning Li 等，CVPR 2025 工作坊）:octocat: :book:
将视频数据集蒸馏成图像（Zhenghao Zhao 等，2025）:book:
PRISM：通过渐进式精炼和插入稀疏运动来压缩视频数据集（Jaehyun Choi 等，CVPR 2026）:book:

表格数据

表格数据处理时数据蒸馏方法的新特性（德米特里·梅德韦杰夫等，AIST 2020）:octocat: :book:

检索

迈向高效的深度哈希检索：通过特征嵌入匹配凝练你的数据（冯涛、张杰等，2023年）:book:

领域适应

多源领域适应结合数据字典学习实现数据蒸馏（爱德华多·蒙特苏马等，ICASSP 2024）:book:

超分辨率

GSDD：用于图像超分辨率的生成空间数据蒸馏（张海宇等，AAAI 2024）:book:

时间序列

基于双域匹配的时间序列分类数据凝缩（刘占宇等，KDD 2024）:octocat: :book:
CondTSF：用于时间序列预测的一行式数据凝缩插件（丁建荣、刘占宇等，NeurIPS 2024）:octocat: :book:
少即是多：通过双重模态匹配实现高效的时间序列数据凝缩（苗浩等，VLDB 2025）:octocat: :book:
DDTime：面向时间序列预测的谱对齐与信息瓶颈数据蒸馏（李宇奇、丁奎业等，2025年）:book:
面向时间序列预测的谐波数据蒸馏（洪承河等，AAAI 2026）:book:
为高效预测而蒸馏时间序列基础模型（李宇奇、丁奎业等，ICASSP 2026）:octocat: :book:
利用二维压缩实现时空预测的有效数据蒸馏（权泰亨、崔妍洁等，ICDE 2026）:octocat: :book:
ShapeCond：面向时间序列分类的快速形状子指导数据凝缩（彭思佳等，2026年）:octocat: :book:

语音

用于语音情感识别的数据蒸馏生成模型（法比安·里特-古铁雷斯等，Interspeech 2024）:book:

机器遗忘

基于反向梯度匹配的蒸馏数据模型（叶静雯等，CVPR 2024）:book:
由数据凝缩驱动的机器遗忘（朱奈德·伊克巴尔·汗，2024年）:octocat: :book:

强化学习

行为蒸馏（安德烈·卢普等，ICLR 2024）:octocat: :book:
面向离线强化学习的数据蒸馏（乔纳森·莱特、刘元哲等，ICML 2024研讨会）:globe_with_meridians: :octocat: :book:
离线行为蒸馏（雷世业等，NeurIPS 2024）:octocat: :book:
将强化学习蒸馏进单批次数据集（康纳·威廉姆等，ECAI 2025）:book:
监督与离线强化学习数据蒸馏的算法保证（阿扬·古普塔等，ICLR 2026）:book:

长尾分布

长尾数据集的蒸馏（赵正浩、王浩轩等，CVPR 2025）:octocat: :book:
修正长尾数据蒸馏中的软标签纠缠偏差（蒋晨阳等，NeurIPS 2025）:octocat: :book:
重新思考长尾数据蒸馏：一种具有无偏恢复与重标签功能的统一框架（崔晓等，AAAI 2026）:book:

噪声标签学习

数据蒸馏器在实际应用中是优秀的标签去噪器（程乐超等，2024年）:octocat: :book:
利用监督对比学习实现稳健的数据凝缩（金熙妍等，ICCV 2025）:octocat: :book:

目标检测

获取与锻造：面向目标检测的有效数据凝缩（齐丁等，NeurIPS 2024）:book:
OD3：面向目标检测的无优化数据蒸馏（萨尔瓦·K·阿尔哈蒂布、艾哈迈德·埃尔哈格里、邵士通等，ICLR 2026）:octocat: :book:

点云

点云数据集蒸馏（Deyu Bo 等，ICML 2025）:book:
基于分布匹配的三维点云数据集蒸馏（Jae-Young Yim & Dongwook Kim 等，NeurIPS 2025）:book:
通过可学习形状变形实现的基于参数化的三维点云数据集蒸馏（Dongwook Kim & Jae-Young Yim 等，ICLR 2026）:book:

通用蒸馏

基于任务驱动扩散的通用数据集蒸馏探索（Ding Qi 等，CVPR 2025）:book:

脉冲神经网络

从密集事件中学习：通过事件数据集蒸馏实现快速脉冲神经网络训练（Shuhan Ye 等，2025年）:book:

脑电图

EEG-DLite：用于高效大型脑电模型训练的数据集蒸馏（Yuting Tang 等，AAAI 2026）:octocat: :book:

金融

基于分层多源数据集蒸馏的金融领域安全且可解释的欺诈检测（Yiming Qian 等，ICAIFF 2025）:book:

音乐

ConceptCaps：用于音乐模型可解释性的蒸馏概念数据集（Bruno Sienkiewicz 等，2026年）:book:

遥感

基于判别原型引导扩散的真实感遥感数据集蒸馏探索（Yonghao Xu 等，2026年）:book:

去雨

UniRain：基于RAG的数据集蒸馏与多目标重加权优化的统一图像去雨方法（Qianfeng Yang 等，CVPR 2026）:octocat: :book:

细粒度

FD2：专门用于细粒度数据集蒸馏的框架（Hongxu Ma & Guang Li 等，2026年）:book:

媒体报道

星标历史

引用“Awesome Dataset Distillation”

如果您觉得本项目对您的研究有所帮助，请使用以下BibTeX条目。

@misc{li2022awesome,
  author={Li, Guang and Zhao, Bo and Wang, Tongzhou},
  title={Awesome Dataset Distillation},
  howpublished={\url{https://github.com/Guang000/Awesome-Dataset-Distillation}},
  year={2022}
}

致谢

我们衷心感谢以下各位的宝贵建议和贡献：Nikolaos Tsilivis、Wei Jin、Yongchao Zhou、Noveen Sachdeva、Can Chen、Guangxiang Zhao、Shiye Lei、Xinchao Wang、Dmitry Medvedev、Seungjae Shin、Jiawei Du、Yidi Jiang、Xindi Wu、Guangyi Liu、Yilun Liu、Kai Wang、Yue Xu、Anjia Cao、Jianyang Gu、Yuanzhen Feng、Peng Sun、Ahmad Sajedi、Zhihao Sui、Ziyu Wang、Haoyang Liu、Eduardo Montesuma、Shengbo Gong、Zheng Zhou、Zhenghao Zhao、Duo Su、Tianhang Zheng、Shijie Ma、Wei Wei、Yantai Yang、Shaobo Wang、Xinhao Zhong、Zhiqiang Shen、Cong Cong、Chun-Yin Huang、Dai Liu、Ruonan Yu、William Holland、Saksham Singh Kushwaha、Ping Liu、Wenliang Zhong、Ning Li、Guochen Yan、Saumyaranjan Mohanty以及Taehyung Kwon。

“Awesome Dataset Distillation”的主页由Longzhen Li设计，并由Mingzhuo Li维护。

Awesome-Dataset-Distillation 快速上手指南

Awesome-Dataset-Distillation 并非一个单一的 Python 包，而是一个汇集了数据集蒸馏（Dataset Distillation）领域最新论文、代码实现和资源的精选列表。数据集蒸馏旨在合成一个小规模数据集，使得在该小数据集上训练的模型能在原始大规模数据集上取得高性能。

本指南将帮助你利用该仓库找到合适的工具并快速运行一个基础的蒸馏示例。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+) 或 macOS。Windows 用户建议使用 WSL2。
Python 版本: 3.8 - 3.10 (大多数深度学习项目对此范围支持最好)。
GPU: 推荐使用 NVIDIA GPU (显存建议 8GB 以上)，因为数据集蒸馏涉及大量的梯度计算。
前置依赖:
- git: 用于克隆仓库。
- conda 或 venv: 用于管理虚拟环境。
- PyTorch: 核心深度学习框架 (版本需与具体选用的子项目匹配，通常建议 1.9.0+)。
- torchvision: 用于加载标准数据集 (如 CIFAR-10, ImageNet)。

国内加速建议:

克隆仓库时若速度慢，可使用 Gitee 镜像（如有）或配置 Git 代理。

安装 PyTorch 时，优先使用清华源或中科大源。

安装步骤

由于该仓库是资源列表，你需要先克隆仓库，然后选择其中一个具体的算法项目（例如经典的 Dataset Condensation 或 MTT）进行安装。以下以克隆主仓库并安装一个典型子项目为例：

1. 克隆主仓库

git clone https://github.com/Guang000/Awesome-Dataset-Distillation.git
cd Awesome-Dataset-Distillation

2. 选择并安装具体算法

浏览 README.md 中的 Main 或 Gradient/Trajectory Matching Surrogate Objective 部分，选择一个带有 :octocat: Code 标记的项目。这里以 Dataset Condensation with Gradient Matching 为例：

# 克隆具体的算法代码库
git clone https://github.com/VICO-UoE/DatasetCondensation.git
cd DatasetCondensation

# 创建虚拟环境 (推荐)
conda create -n distill python=3.9 -y
conda activate distill

# 使用国内源安装 PyTorch (根据CUDA版本调整，此处以CPU版为例，生产环境请安装GPU版)
# 访问 https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ 获取最新镜像命令
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# 安装其他依赖
pip install -r requirements.txt

基本使用

数据集蒸馏的核心流程通常分为两步：蒸馏过程（生成合成数据）和 评估过程（在合成数据上训练模型并测试）。

以下是一个基于上述 DatasetCondensation 项目的最简使用示例，演示如何在 CIFAR-10 数据集上执行梯度匹配蒸馏。

1. 准备数据

确保已下载 CIFAR-10 数据集，或者让脚本自动下载。通常数据会存放在 ./data 目录下。

2. 运行蒸馏脚本

执行以下命令开始蒸馏。该命令将尝试从真实的 CIFAR-10 训练集中提炼出少量合成图像（例如每类 10 张）。

python main.py \
  --dataset CIFAR10 \
  --model ConvNet \
  --method DM \
  --ipc 10 \
  --epoch 2000 \
  --lr_img 0.1 \
  --save_dir ./checkpoints

参数说明：

--dataset: 原始数据集名称 (如 CIFAR10, MNIST)。
--method: 蒸馏算法 (如 DM 代表 Dataset Distillation, DC 代表 Dataset Condensation)。
--ipc: Images Per Class，即每类合成的图片数量（决定压缩率）。
--epoch: 蒸馏优化的迭代次数。
--save_dir: 保存生成的合成数据集路径。

3. 评估效果

蒸馏完成后，使用生成的合成数据集训练一个新的模型并在测试集上验证准确率：

python eval.py \
  --dataset CIFAR10 \
  --model ConvNet \
  --data_path ./checkpoints/dm_cifar10_ipc10.pt \
  --epoch 100

运行结束后，终端将输出模型在真实测试集上的准确率，以此衡量蒸馏数据集的质量。

提示: 更多高级用法（如针对 ImageNet 的大规模蒸馏、不同架构的适配）请参考具体子项目的 README 文件或 Awesome 列表中对应的论文链接。

常见问题

有没有易于使用的数据集蒸馏工具包？

数据集蒸馏技术可以应用于目标检测任务吗？

为什么某些论文（如匿名投稿或特定领域的论文）没有被收录或归类到主要算法部分？

如何申请将自己的新论文添加到该列表中？

列表中标记有代码图标但链接跳转错误的论文，是否有开源代码？

如果我提交的论文被拒绝收录或分类不符合预期，原因可能是什么？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 Awesome-Dataset-Distillation 时

使用 Awesome-Dataset-Distillation 后

运行环境要求

快速开始

令人惊叹的数据集蒸馏

如何提交拉取请求？

最新动态

目录

主条目

早期工作

基于梯度/轨迹匹配的代理目标函数

分布/特征匹配替代目标

基于核的蒸馏

数据集蒸馏参数化

生成式蒸馏

GAN

扩散

VAR

流

更好的优化

更深入的理解

标签蒸馏

数据集量化

解耦蒸馏

多模态蒸馏

自监督蒸馏

基准测试

综述

博士论文

研讨会

挑战赛

应用

持续学习

隐私

医疗

联邦学习

图神经网络

综述

基准测试

关于图蒸馏的主题将不再更新，因为目前已有关于此主题的足够论文和总结性项目。

神经架构搜索

时尚、艺术与设计

推荐系统

黑盒优化

鲁棒性

公平性

文本

视频

表格数据

检索

领域适应

超分辨率

时间序列

语音

机器遗忘

强化学习

长尾分布

噪声标签学习

目标检测

点云

通用蒸馏

脉冲神经网络

脑电图

金融

音乐

遥感

去雨

细粒度

媒体报道

星标历史

引用“Awesome Dataset Distillation”

致谢

Awesome-Dataset-Distillation 快速上手指南

环境准备

安装步骤

1. 克隆主仓库

2. 选择并安装具体算法

基本使用

1. 准备数据