DeepFAS
DeepFAS 是一个专注于人脸活体检测(Face Anti-Spoofing)的深度学习开源项目,旨在系统性地梳理和整合该领域的前沿研究成果。面对人脸识别系统中常见的照片打印、屏幕重放及 3D 面具等欺骗攻击,DeepFAS 通过汇总 2018 至 2022 年间的主流算法,为开发者提供了一套从传统混合方法到纯深度学习、再到广义化学习的完整技术图谱。
该项目不仅涵盖了基于普通 RGB 摄像头的单模态检测方案,还深入探讨了利用多模态数据及专用传感器的进阶策略。其核心亮点在于构建了一个详尽的公共资源库,整理了包括 NUAA、CASIA-MFSD、REPLAY-ATTACK 在内的多个经典数据集,并对比了不同的评估协议与攻击类型。此外,DeepFAS 还特别关注域适应、零样本学习、异常检测及自监督学习等前沿方向,帮助从业者应对复杂多变的应用场景。
DeepFAS 非常适合计算机视觉领域的研究人员、算法工程师及安全系统开发者使用。无论是希望快速了解行业现状的初学者,还是寻求最新模型架构进行二次开发的资深专家,都能从中获得宝贵的参考依据和数据支持,从而高效地构建更安全、鲁棒的人脸识别系统。
使用场景
某金融科技公司正在升级其移动端人脸支付系统,急需解决用户遭遇高清照片、视频回放及 3D 面具攻击的安全隐患。
没有 DeepFAS 时
- 防御手段单一:团队仅依赖传统手工特征算法,难以识别日益逼真的高清打印照片和屏幕重放攻击,漏报率居高不下。
- 泛化能力薄弱:模型在实验室特定光照下表现尚可,但一旦用户处于户外强光或昏暗室内等未知场景,误报率急剧上升。
- 研发周期漫长:面对不断涌现的新型攻击(如树脂面具),开发人员需从零收集数据并重新设计网络结构,迭代效率极低。
- 缺乏权威基准:团队在选型时难以评估不同数据集(如 CASIA-MFSD 与 REPLAY-ATTACK)的适用性,导致训练数据偏差大。
使用 DeepFAS 后
- 攻防全面升级:基于 DeepFAS 综述中集成的端到端深度学习方案,系统能精准提取像素级辅助监督信号,有效拦截各类复杂欺骗攻击。
- 跨域鲁棒增强:利用工具整理的域适应(Domain Adaptation)与域泛化(Domain Generalization)策略,模型在未见过的光照和设备环境下依然保持高准确率。
- 技术落地加速:直接复用仓库中分类清晰的 SOTA 方法(如生成式模型或异常检测),大幅缩短了新防御算法的研发与部署时间。
- 数据协议规范:参考工具提供的详细数据集对比与评估协议,团队快速构建了覆盖多模态攻击的高质量测试集,确保评估结果客观可靠。
DeepFAS 通过系统化整合前沿算法与权威数据基准,帮助团队将人脸反欺诈系统的防御能力从“被动修补”提升至“主动免疫”级别。
运行环境要求
未说明
未说明

快速开始
👏 深度人脸防伪技术综述 🔥
这是 "深度学习在人脸防伪中的应用:综述" 的官方仓库,这是一篇关于深度学习方法在人脸防伪(FAS)领域最新进展、数据集及评估协议的全面综述。
引用
如果您在研究中使用了我们的工作,请考虑引用:
@article{yu2022deep,
title={Deep Learning for Face Anti-Spoofing: A Survey},
author={Yu, Zitong and Qin, Yunxiao and Li, Xiaobai and Zhao, Chenxu and Lei, Zhen and Zhao, Guoying},
journal={IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)},
year={2022}
}
简介
我们对近年来用于人脸防伪的深度学习方法进行了全面回顾(主要集中在2018年至2022年间)。内容涵盖了基于单目RGB图像的人脸防伪技术,包括混合型(手工特征+深度学习)、纯深度学习以及广义学习方法。此外,还介绍了多模态学习方法和基于专用传感器的人脸防伪技术。同时,我们也对公开可用的数据集及其经典评估协议进行了详细比较。
🔔 我们将定期更新此页面~ :tada::tada::tada:
目录
1️⃣ 数据集
使用商用RGB摄像头采集的数据集
| 数据集 | 年份 | 活体/欺骗 | 受试者数 | 设置 | 攻击类型 |
|---|---|---|---|---|---|
| NUAA | 2010 | 5105/7509(I) | 15 | N/R | 打印(平面、包裹) |
| YALE Recaptured | 2011 | 640/1920(I) | 10 | 距离3台液晶显示器50厘米 | 打印(平面) |
| CASIA-MFSD | 2012 | 150/450(V) | 50 | 7种场景和3种图像质量 | 打印(平面、包裹、切割),回放(平板电脑) |
| REPLAY-ATTACK | 2012 | 200/1000(V) | 50 | 照明和手持 | 打印(平面),回放(平板电脑、手机) |
| Kose and Dugelay | 2013 | 200/198(I) | 20 | N/R | 面具(硬质树脂) |
| MSU-MFSD | 2014 | 70/210(V) | 35 | 室内场景;2种类型的相机 | 打印(平面),回放(平板电脑、手机) |
| UVAD | 2015 | 808/16268(V) | 404 | 不同的光照、背景和地点,分为两部分 | 回放(显示器) |
| REPLAY-Mobile | 2016 | 390/640(V) | 40 | 5种光照条件 | 打印(平面),回放(显示器) |
| HKBU-MARs V2 | 2016 | 504/504(V) | 12 | 7台固定和移动设备上的摄像头以及6种光照设置 | 使用Thatsmyface和REAL-f提供的硬质树脂面具 |
| MSU USSA | 2016 | 1140/9120(I) | 1140 | 条件不受控;2种类型的相机 | 打印(平面),回放(笔记本电脑、平板电脑、手机) |
| SMAD | 2017 | 65/65(V) | - | 来自网络资源的彩色图像 | 硅胶面具 |
| OULU-NPU | 2017 | 720/2880(V) | 55 | 分为3个部分,光照和背景各不相同 | 打印(平面),回放(手机) |
| Rose-Youtu | 2018 | 500/2850(V) | 20 | 5部前置手机摄像头;5种不同的光照条件 | 打印(平面),回放(显示器、笔记本电脑),纸制或裁剪纸制面具 |
| SiW | 2018 | 1320/3300(V) | 165 | 4次会话,距离、姿态、光照和表情各异 | 打印(平面、包裹),回放(手机、平板电脑、显示器) |
| WFFD | 2019 | 2300/2300(I) 140/145(V) | 745 | 在线收集;超逼真;剔除了低质量人脸 | 蜡像(蜡) |
| SiW-M | 2019 | 660/968(V) | 493 | 室内环境,姿态、光照和表情多变 | 打印(平面),回放,面具(硬质树脂、塑料、硅胶、纸、假人),化妆(化妆品、模仿、伪装),局部遮挡(眼镜、裁剪纸) |
| Swax | 2020 | 总计1812(I) 110(V) | 55 | 在线收集;在非受控场景下采集 | 蜡像(蜡) |
| CelebA-Spoof | 2020 | 156384/469153(I) | 10177 | 4种光照条件;室内与室外;丰富的标注 | 打印(平面、包裹),回放(显示器、平板电脑、手机),纸制面具 |
| RECOD-Mtablet | 2020 | 450/1800(V) | 45 | 户外环境,光线较弱且动态变化的场景 | 打印(平面),回放(显示器) |
| CASIA-SURF 3DMask | 2020 | 288/864(V) | 48 | 高质量且保留身份信息;3种装饰和6种环境 | 假人面具(3D打印) |
| HiFiMask | 2021 | 13650/40950(V) | 75 | 三种面具装饰;7种录制设备;6种光照条件;6种场景 | 面具(透明、石膏、树脂) |
| SiW-M v2 | 2022 | 785/915 (V) | 1093(493/600) | 室内外均有;年龄和种族多样;7种光照条件 | 经IAPRA验证的14种欺骗攻击方式(4种覆盖物、3种化妆、3种面具、2种真人模型、回放和打印) |
| SuHiFiMask | 2022 | 10195/10195 (V) | 101 | 远程使用监控摄像头,在3个场景中录制,采用3种光照和4种天气情况 | 2D图像、视频回放、3D面具,材料包括树脂、石膏、硅胶、纸 |
| WFAS | 2023 | 529,571/ 853,729 (I) | 469,920 | 互联网,无约束环境 | 17种欺骗手段,包括打印(报纸、海报、照片、相册、图画书、扫描照片、包装、布料),显示(手机、平板电脑、电视、电脑),面具,3D模型(拼装套件、玩偶、成人娃娃、蜡像) |
具有多模态数据或专用传感器的数据集
| 数据集 | 年份 | #活体/欺骗 | #受试者 | 男/女 | 实验设置 | 攻击类型 |
|---|---|---|---|---|---|---|
| 3DMAD | 2013 | 170/85(V) | 17 | 可见光, 深度 | 3次会话(间隔2周) | 面具(纸质、硬质树脂) |
| GUC-LiFFAD | 2015 | 1798/3028(V) | 80 | 光场 | 距离为1.5米的受限条件 | 打印(喷墨纸、激光打印纸)、回放(平板电脑) |
| 3DFS-DB | 2016 | 260/260(V) | 26 | 可见光, 深度 | 多角度头部运动 | 面具(塑料) |
| BRSU Skin/Face/Spoof | 2016 | 102/404(I) | 137 | 可见光, 短波红外 | 多光谱短波红外,包含4个波段:935nm、1060nm、1300nm和1550nm | 面具(硅胶、塑料、树脂、乳胶) |
| Msspoof | 2016 | 1470/3024(I) | 21 | 可见光, 近红外 | 7种环境条件 | 黑白打印(平面) |
| MLFP | 2017 | 150/1200(V) | 10 | 可见光, 近红外, 热成像 | 室内与室外,背景固定或随机 | 面具(乳胶、纸) |
| ERPA | 2017 | 总计86(V) | 5 | 可见光, 深度, 近红外, 热成像 | 受试者靠近两种相机(0.3~0.5米) | 打印(平面)、回放(显示器)、面具(树脂、硅胶) |
| LF-SAD | 2018 | 328/596(I) | 50 | 光场 | 室内固定背景,由Lytro ILLUM相机拍摄 | 打印(平面、包裹式)、回放(显示器) |
| CSMAD | 2018 | 104/159(V+I) | 14 | 可见光, 深度, 近红外, 热成像 | 4种光照条件 | 面具(定制硅胶) |
| 3DMA | 2019 | 536/384(V) | 67 | 可见光, 近红外 | 48种不同ID的面具;2种光照条件及4种采集距离 | 面具(塑料) |
| CASIA-SURF | 2019 | 3000/18000(V) | 1000 | 可见光, 深度, 近红外 | 背景已移除;随机裁剪眼睛、鼻子或嘴巴区域 | 打印(平面、包裹式、裁剪式) |
| WMCA | 2019 | 347/1332(V) | 72 | 可见光, 深度, 近红外, 热成像 | 6次会话,背景和光照各不相同;真样本记录了脉搏数据 | 打印(平面)、回放(平板电脑)、部分遮挡(眼镜)、面具(塑料、硅胶、纸、假人) |
| CeFA | 2020 | 6300/27900(V) | 1607 | 可见光, 深度, 近红外 | 3种族;室内外场景;使用假发和眼镜进行装饰 | 打印(平面、包裹式)、回放、面具(3D打印、硅胶) |
| HQ-WMCA | 2020 | 555/2349(V) | 51 | 可见光, 深度, 近红外, 短波红外, 热成像 | 室内;14种“模态”,包括4种近红外和7种短波红外波长;面具和假人均被加热至体温 | 激光或喷墨打印(平面)、回放(平板电脑、手机)、面具(塑料、硅胶、纸、假人)、化妆、部分遮挡(眼镜、假发、纹身) |
| PADISI-Face | 2021 | 1105/924(V) | 360 | 可见光, 深度, 近红外, 短波红外, 热成像 | 室内,固定背景,60帧序列,每帧图像分辨率为1984×1264像素 | 打印(平面)、回放(平板电脑、手机)、面具(塑料、硅胶、透明材质、假人)、化妆/纹身、部分遮挡(眼镜、趣味性眼饰) |
2️⃣ 基于商用RGB摄像头的深度学习人脸反欺骗方法
- temp
混合型(手工特征+深度学习)
| 方法 | 年份 | 主干网络 | 损失函数 | 输入 | 静态/动态 |
|---|---|---|---|---|---|
| DPCNN | 2016 | VGG-Face | 使用SVM训练 | RGB | S |
| Multi-cues+NN | 2016 | MLP | 二分类交叉熵损失 | RGB+OFM | D |
| CNN LBP-TOP | 2017 | 5层CNN | 二分类交叉熵损失、SVM | RGB | D |
| DF-MSLBP | 2018 | 深度森林 | 二分类交叉熵损失 | HSV+YCbCr | S |
| SPMT+SSD | 2018 | VGG16 | 二分类交叉熵损失、SVM、边界框回归 | RGB、地标 | S |
| CHIF | 2019 | VGG-Face | 使用SVM训练 | RGB | S |
| DeepLBP | 2019 | VGG-Face | 二分类交叉熵损失、SVM | RGB、HSV、YCbCr | S |
| CNN+LBP+WLD | 2019 | CaffeNet | 二分类交叉熵损失 | RGB | S |
| Intrinsic | 2019 | 1D-CNN | 使用SVM训练 | 反射信号 | D |
| FARCNN | 2019 | 多尺度注意力CNN | 回归损失、Crystal损失、Center损失 | RGB | S |
| CNN-LSP | TIFS 2019 | 1D-CNN | 使用SVM训练 | RGB | D |
| DT-Mask | 2019 | VGG16 | 二分类交叉熵损失、通道与空间可区分性 | RGB+OF | D |
| VGG+LBP | 2019 | VGG16 | 二分类交叉熵损失 | RGB | S |
| CNN+OVLBP | 2019 | VGG16 | 二分类交叉熵损失、神经网络分类器 | RGB | S |
| HOG-Pert. | 2019 | 多尺度CNN | 二分类交叉熵损失 | RGB+HOG | S |
| LBP-Pert. | 2020 | 多尺度CNN | 二分类交叉熵损失 | RGB+LBP | S |
| TransRPPG | SPL 2021 | Vision Transformer | 二分类交叉熵损失 | rPPG图 | D |
端到端二元交叉熵监督
| 方法 | 年份 | 主干网络 | 损失函数 | 输入 | 静态/动态 |
|---|---|---|---|---|---|
| CNN1 | 2014 | 8层CNN | 使用SVM训练 | RGB | S |
| LSTM-CNN | 2015 | CNN+LSTM | 二元交叉熵损失 | RGB | D |
| SpoofNet | 2015 | 2层CNN | 二元交叉熵损失 | RGB | S |
| HybridCNN | 2017 | VGG-Face | 使用SVM训练 | RGB | S |
| CNN2 | 2017 | VGG11 | 二元交叉熵损失 | RGB | S |
| Ultra-Deep | 2017 | ResNet50+LSTM | 二元交叉熵损失 | RGB | D |
| FASNet | 2017 | VGG16 | 二元交叉熵损失 | RGB | S |
| CNN3 | 2018 | Inception、ResNet | 二元交叉熵损失 | RGB | S |
| MILHP | 2018 | ResNet+STN | 多实例交叉熵损失 | RGB | D |
| LSCNN | 2018 | 9个PatchNet | 二元交叉熵损失 | RGB | S |
| LiveNet | 2018 | VGG11 | 二元交叉熵损失 | RGB | S |
| MS-FANS | 2018 | AlexNet+LSTM | 二元交叉熵损失 | RGB | S |
| DeepColorFAS | 2018 | 5层CNN | 二元交叉熵损失 | RGB、HSV、YCbCr | S |
| Siamese | 2019 | AlexNet | 对比损失 | RGB | S |
| FSBuster | 2019 | ResNet50 | 使用SVM训练 | RGB | S |
| FuseDNG | 2019 | 7层CNN | 二元交叉熵损失、重建损失 | RGB | S |
| STASN | CVPR 2019 | ResNet50+LSTM | 二元交叉熵损失 | RGB | D |
| TSCNN | TIFS 2019 | ResNet18 | 二元交叉熵损失 | RGB、MSR | S |
| FAS-UCM | 2019 | MobileNetV2、VGG19 | 二元交叉熵损失、风格损失 | RGB | S |
| SLRNN | 2019 | ResNet50+LSTM | 二元交叉熵损失 | RGB | D |
| GFA-CNN | 2019 | VGG16 | 二元交叉熵损失 | RGB | S |
| 3DSynthesis | 2019 | ResNet15 | 二元交叉熵损失 | RGB | S |
| CompactNet | NC 2020 | VGG19 | 点到中心三元组损失 | RGB | S |
| SSR-FCN | TIFS 2020 | 具有6层的FCN | 二元交叉熵损失 | RGB | S |
| FasTCo | 2020 | ResNet50或MobileNetV2 | 多分类交叉熵损失、时间一致性损失、类别一致性损失 | RGB | D |
| DRL-FAS | TIFS 2020 | ResNet18+GRU | 二元交叉熵损失 | RGB | S |
| SfSNet | 2020 | 6层CNN | 二元交叉熵损失 | 反照率、深度、反射 | S |
| LivenesSlight | 2020 | 6层CNN | 二元交叉熵损失 | RGB | S |
| MotionEnhancement | 2020 | VGGface+LSTM | 二元交叉熵损失 | RGB | D |
| CFSA-FAS | 2020 | ResNet18 | 二元交叉熵损失 | RGB | S |
| MC-FBC | 2020 | VGG16、ResNet50 | 二元交叉熵损失 | RGB | S |
| SimpleNet | 2020 | 多流5层CNN | 二元交叉熵损失 | RGB、光流、反射 | D |
| PatchCNN | 2020 | SqueezeNet v1.1 | 二元交叉熵损失、三元组损失 | RGB | S |
| FreqSpatialTempNet | 2020 | ResNet18 | 二元交叉熵损失 | RGB、HSV、光谱 | D |
| ViTranZFAS | IJCB 2021 | ViT | 二元交叉熵损失 | RGB | S |
| CIFL | TIFS 2021 | ResNet18 | 二元焦点损失、相机类型损失 | RGB | S |
| XFace-PAD | FG 2021 | ResNet50、ViT | 二元交叉熵损失、逐词交叉熵损失、句子判别损失以及句子语义损失 | RGB | S |
| PCGN | MM 2021 | ResNet101+GCN | 节点和边的交叉熵损失 | RGB整图 | S |
| TOD | 2021 | ResNet18、图注意力网络 | 交叉熵损失 | RGB | S |
| MTSS | BMVC 2021 | ViT+多级注意力模块 | 交叉熵损失 | RGB | S |
| PatchNet | CVPR 2022 | ResNet18 | 非对称AM-Softmax损失、自监督相似性损失 | RGB补丁 | S |
| ViTransPAD | ICIP 2022 | EfficientNet + VideoViT | 交叉熵损失 | RGB | D |
| FGDNet | TMM 2022 | 卷积Transformer | 5类交叉熵损失 | RGB | S |
像素级辅助监督
| 方法 | 年份 | 监督信号 | 主干网络 | 输入 | 静态/动态 |
|---|---|---|---|---|---|
| Depth&Patch | IJCB 2017 | 深度 | PatchNet, DepthNet | YCbCr, HSV | S |
| Auxiliary | CVPR 2018 | 深度, rPPG频谱 | DepthNet | RGB, HSV | D |
| BASN | ICCVW 2019 | 深度, 反射 | DepthNet, Enrichment | RGB, HSV | S |
| DTN | CVPR 2019 | BinaryMask | 树形网络 | RGB, HSV | S |
| PixBiS | ICB 2019 | BinaryMask | DenseNet161 | RGB | S |
| A-PixBiS | 2020 | BinaryMask | DenseNet161 | RGB | S |
| Auto-FAS | ICASSP 2020 | BinaryMask | NAS | RGB | S |
| MRCNN | 2020 | BinaryMask | 浅层CNN | RGB | S |
| FCN-LSA | 2020 | BinaryMask | DepthNet | RGB | S |
| CDCN | CVPR 2020 | 深度 | DepthNet | RGB | S |
| FAS-SGTD | CVPR 2020 | 深度 | DepthNet, STPM | RGB | D |
| TS-FEN | 2020 | 深度 | ResNet34, FCN | RGB, YCbCr, HSV | S |
| SAPLC | 2020 | 三元图 | DepthNet | RGB, HSV | S |
| BCN | ECCV 2020 | BinaryMask, 深度, 反射 | DepthNet | RGB | S |
| Disentangled | ECCV 2020 | 深度, 纹理图 | DepthNet | RGB | S |
| AENet | ECCV 2020 | 深度, 反射 | ResNet18 | RGB | S |
| 3DPC-Net | IJCB 2020 | 3D点云 | ResNet18 | RGB | S |
| PS | TBIOM 2020 | BinaryMask或深度 | ResNet50或CDCN | RGB | S |
| NAS-FAS | PAMI 2020 | BinaryMask或深度 | NAS | RGB | D |
| DAM | 2021 | 深度 | VGG16, TSM | RGB | D |
| Bi-FPNFAS | 2021 | 傅里叶频谱 | EfficientNetB0, FPN | RGB | S |
| DC-CDN | IJCAI 2021 | 深度 | CDCN | RGB | S |
| DCN | IJCB 2021 | 反射 | DepthNet | RGB | S |
| LMFD-PAD | 2021 | BinaryMask | Dual-ResNet50 | RGB + 频率图 | S |
| MPFLN | ICCVW 2021 | 深度, BinaryMask | CDCN, 3D-CDCN | RGB | S, D |
| DSDG+DUM | TIFS 2021 | 深度 | CDCN | RGB | S |
| SAFPAD | TIFS 2021 | 深度 | DepthNet | RGB & 补丁 | S |
| EPCR | 2021 | BinaryMask | CDCN | RGB | S |
| AISL | PRL 2021 | 深度 | DepthNet | RGB | S |
| MEGC | ICASSP 2022 | 深度, 反射, 莫尔条纹, 边界 | DepthNet+特征增强 | RGB, HSV | S |
| EulerNet | 2022 | 人脸位置图 | EulerNet结合时间注意力、残差金字塔 | RGB | D |
| TTN | TIFS 2022 | 深度 | ViT结合金字塔时间聚合、时间差注意力 | RGB | D |
| TransFAS | TBIOM 2022 | 深度 | ViT结合跨层注意力 | RGB | S |
| DepthSeg | IJCNN 2022 | 深度 | PSPNet, DeepLabv3+ | RGB | S |
基于像素级监督的生成模型
| 方法 | 年份 | 监督信号 | 主干网络 | 输入 | 静态/动态 |
|---|---|---|---|---|---|
| De-Spoof | ECCV 2018 | 深度, BinaryMask, 傅里叶图 | DSNet, DepthNet | RGB, HSV | S |
| Reconstruction | 2019 | 实人RGB输入,欺骗零矩阵 | U-Net | RGB | S |
| LGSC | 2020 | 实人零矩阵 | U-Net, ResNet18 | RGB | S |
| TAE | ICASSP 2020 | 二分类交叉熵损失、重建损失 | Info-VAE, DenseNet161 | RGB | S |
| STDN | ECCV 2020 | BinaryMask, 实人RGB输入 | U-Net, PatchGAN | RGB | S |
| GOGen | CVPR 2020 | RGB输入 | DepthNet | RGB+独热向量 | S |
| PhySTD | PAMI 2022 | 深度, 实人RGB输入 | U-Net, PatchGAN | 频率轨迹 | S |
| MT-FAS | PAMI 2021 | 实人零矩阵,可学习欺骗图 | DepthNet | RGB | S |
| IF-OM | 2021 | RGB输入,混合输入特征 | MobileNetV2 + UNet | RGB, 混合RGB, 折叠RGB | S |
| Dual-Stage Disentanglement | WACV 2021 | 实人零矩阵,用于重建的RGB输入 | U-Net, ResNet18 | RGB | S |
域适应
| 方法 | 年份 | 主干网络 | 损失函数 | 静态/动态 |
|---|---|---|---|---|
| OR-DA | TIFS 2018 | AlexNet | 二值交叉熵损失、MMD损失 | S |
| DTCNN | 2019 | AlexNet | 二值交叉熵损失、MMD损失 | S |
| Adversarial | ICB 2019 | ResNet18 | 三元组损失、对抗损失 | S |
| ML-MMD | ICMEW 2019 | 多尺度FCN | 交叉熵损失、MMD损失 | S |
| OCA-FAS | NC 2020 | DepthNet | 二值交叉熵损失、像素级二值损失 | S |
| DR-UDA | TIFS 2020 | ResNet18 | 中心点&三元组损失、对抗损失、解耦损失 | S |
| DGP | ICASSP 2020 | DenseNet161 | 特征散度度量、BinaryMask损失 | S |
| Distillation | J-STSP 2020 | AlexNet | 二值交叉熵损失、MMD损失、成对相似性 | S |
| SASA | 2021 | ResNet18 | 交叉熵损失、对抗损失、遗忘约束、对比语义对齐 | S |
| GDA | ECCV 2022 | DepthNet | 交叉熵损失、深度损失、域间神经统计一致性、相位一致性、感知损失 | S |
| CDFTN | AAAI 2023 | ResNet18 | 交叉熵损失、重建损失、三元组损失 | S |
域泛化
| 方法 | 年份 | 主干网络 | 损失函数 | 静态/动态 |
|---|---|---|---|---|
| MADDG | CVPR 2019 | DepthNet | 二值交叉熵与深度损失、多对抗损失、双力三元组损失 | S |
| PAD-GAN | CVPR 2020 | ResNet18 | 二值交叉熵与深度损失、多对抗损失、双力三元组损失 | S |
| DASN | 2020 | ResNet18 | 二值交叉熵与欺骗无关因素损失 | S |
| SSDG | CVPR 2020 | ResNet18 | 二值交叉熵损失、单侧对抗损失、非对称三元组损失 | S |
| RF-Meta | AAAI 2020 | DepthNet | 二值交叉熵损失、深度损失 | S |
| CCDD | CVPRW 2020 | ResNet50+LSTM | 二值交叉熵损失、类条件损失 | D |
| SDA | AAAI 2021 | DepthNet | 二值交叉熵与深度损失、重建损失、正交性正则化 | S |
| D2AM | AAAI 2021 | DepthNet | 二值交叉熵损失、深度损失、MMD损失 | S |
| DRDG | IJCAI 2021 | DepthNet | 二值交叉熵损失、深度损失、域损失 | S |
| PDL-FAS | 2021 | DepthNet | 二值交叉熵损失、深度损失 | S |
| ANRL | ACMMM 2021 | DepthNet | 二值交叉熵损失、深度损失、域间兼容损失、类间可分损失 | S |
| HFN+MP | 2021 | 双流ResNet50 | 二值交叉熵损失、均方误差损失 | S |
| SDFANet | TIFS 2021 | ResNet-18 | BCE损失 + 多粒度损失 + 中心点损失 + 非对称三元组损失 | S |
| VLAD-VSA | ACMMM 2021 | DepthNet或 ResNet18 | BCE损失 + 三元组损失 + 域对抗损失 + 正交损失 + 质心适应损失 + 内部损失 | S |
| FGHV | AAAI 2022 | DepthNet | 方差 + 相对相关 + 分布鉴别约束 | S |
| SSAN | CVPR 2022 | DepthNet/ResNet18 | CE损失 + 域对抗损失 + 对比损失 | S |
| AMEL | ACMMM 2022 | DepthNet | CE损失、深度损失、特征一致性损失 | S |
| MD-FAS | ECCV 2022 | PhySTD | CE损失、二值掩膜损失、源域与目标域蒸馏损失 | S |
| FRT-PAD | ECCV 2022 | ResNet18+GAT | CE损失 | S |
| CIFAS | ICME 2022 | ResNet18 | CE损失、三元组损失 | S |
| OneSideTriplet | FG 2023 | DepthNet+UNet | CE损失、三元组损失、深度损失、分割损失 | S |
| DiVT | WACV 2023 | MobileViT-S | 域不变集中和攻击分离损失 | S |
| ALDICF | IJCV 2023 | ResNet18, ResNet50 | 域内与域间鉴别损失、条件域对抗损失 | S |
| DKG+CSA+AIAW | CVPR 2023 | DepthNet | BCE损失、深度损失、非对称实例自适应漂白损失 | S |
| SA-FAS | CVPR 2023 | ResNet18 | 对比损失、对齐损失 | S |
| SPDA | ICASSP 2023 | ResNet18 | BCE损失、域损失、自我节奏聚类挖掘损失、正交损失 | S |
| CRFAS | ICASSP 2023 | ResNet18 | BCE损失、域损失、非对称三元组损失、反事实特征生成损失 | S |
零/少样本学习
| 方法 | 年份 | 主干网络 | 损失函数 | 输入 |
|---|---|---|---|---|
| DTN | CVPR 2019 | 深度树网络 | 二元交叉熵损失、像素级二元损失、无监督树损失 | RGB, HSV |
| AIM-FAS | AAAI 2020 | DepthNet | 深度损失、对比深度损失 | RGB |
| CM-PAD | IJCB 2021 | DepthNet, ResNet | 二元交叉熵损失、深度损失、梯度对齐 | RGB |
| ViTAF | ECCV 2022 | ViT+适配器 | 交叉熵损失、余弦损失 | S |
异常检测
| 方法 | 年份 | 主干网络 | 损失函数 | 输入 |
|---|---|---|---|---|
| AE+LBP | 2018 | 自编码器 | 重建损失 | RGB |
| Anomaly | 2019 | ResNet50 | 三元组焦点损失、度量-Softmax损失 | RGB |
| Anomaly2 | 2019 | GoogLeNet 或 ResNet50 | 马氏距离 | RGB |
| Hypersphere | 2020 | ResNet18 | 超球体损失 | RGB, HSV |
| Ensemble-Anomaly | 2020 | GoogLeNet 或 ResNet50 | 高斯混合模型(非端到端) | RGB, 图块 |
| MCCNN | 2020 | LightCNN | 二元交叉熵损失、对比损失 | 灰度、红外、深度、热成像 |
| End2End-Anomaly | 2020 | VGG-Face | 二元交叉熵损失、成对混淆 | RGB |
| ClientAnomaly | PR 2020 | ResNet50 或 GoogLeNet 或 VGG16 | 单类SVM或马氏距离或高斯混合模型 | RGB |
| ContrastiveEVT | ACM MM 2021 | cVAE | 二元交叉熵损失、重建损失、对比损失 | RGB |
| OneClassKD | TIFS 2022 | DepthNet | 像素级二元交叉熵损失、多级知识蒸馏损失 | RGB |
半监督与自监督
| 方法 | 年份 | 半/自 | 主干网络 | 损失函数 |
|---|---|---|---|---|
| SCNN++PL+TC | TIP 2021 | 半; 伪标签 | ResNet18 | 交叉熵损失 |
| USDAN | PR 2021 | 半; 分布对齐 | ResNet18 | 自适应二元交叉熵损失、熵损失、对抗损失 |
| EPCR | TIFS 2023 | 半; 一致性正则化 | CDCN | 预测和嵌入级别的重建损失 |
| TSS | PRL 2022 | 自; 预文本任务 | ResNet18+BiLSTM | 时间采样预测的交叉熵损失 |
| ACL-FAS | PRCV 2022 | 自; 对比学习 | - | 区域相似性损失、对比及反对比损失 |
| MIM-FAS | PRCV 2022 | 自; 掩码图像建模 | ViT | 重建损失 |
| DF-DM | TNNLS 2023 | 自; 预文本任务 | DeepPixBiS, SSDG-R, CDCN | GAN损失、基于插值的一致性损失 |
| MCAE | 2023 | 自+监督; 掩码图像建模 | ViT | 反馈重建损失 + 监督式对比损失 |
| AMA+M2A2E | 2023 | 自; 掩码图像建模 | ViT | 重建损失 |
持续学习
| 方法 | 年份 | 是否回放 | 主干网络 | 损失函数 |
|---|---|---|---|---|
| CM-PAD | IJCB 2020 | 带回放 | DepthNet | 批次/整体元损失 |
| Experience Replay | ICCV 2021 | 带回放 | ResNet50 | BCE损失用于已识别的新样本和回放样本 |
| DCDCA+PPCR | 2023 | 无需排练 | ViT | BCE损失、代理原型对比正则化 |
3️⃣ 具有先进传感器的深度FAS方法
基于专用传感器的学习
| 方法 | 年份 | 主干网络 | 损失函数 | 输入 | 静态/动态 |
|---|---|---|---|---|---|
| Thermal-FaceCNN | 2019 | AlexNet | 回归损失 | 热红外人脸图像 | S |
| SLNet | 2019 | 17层CNN | 二元交叉熵损失 | 立体(左&右)人脸图像 | S |
| Aurora-Guard | 2019 | U-Net | 二元交叉熵损失、深度回归、光照回归 | 投影人脸,伴随由随机光CAPTCHA指定的动态光线变化 | D |
| LFC | 2019 | AlexNet | 二元交叉熵损失 | 来自光场相机的光线差异/微透镜图像 | S |
| PAAS | 2020 | MobileNetV2 | 对比损失、SVM | 四向偏振人脸图像 | S |
| Face-Revelio | 2020 | 连体AlexNet | L1距离 | 四盏闪光灯分别显示在屏幕的四个象限 | D |
| SpecDiff | 2020 | ResNet4 | 二元交叉熵损失 | 合并了带闪光灯和不带闪光灯的人脸图像 | S |
| MC-PixBiS | 2020 | DenseNet161 | 二元掩码损失 | SWIR图像差异 | S |
| Thermalization | 2020 | YOLO V3+GoogLeNet | 二元交叉熵损失 | 热红外人脸图像 | S |
| DP Bin-Cls-Net | 2021 | 浅层U-Net + Xception | 变换一致性、相对视差损失、二元交叉熵损失 | DP图像对 | S |
多模态学习
| 方法 | 年份 | 主干网络 | 损失函数 | 输入 | 融合方式 |
|---|---|---|---|---|---|
| FaceBagNet | 2019 | 多流CNN | 二元交叉熵损失 | RGB、深度、近红外人脸区域 | 特征级 |
| FeatherNets | 2019 | Ensemble-FeatherNet | 二元交叉熵损失 | 深度、近红外 | 决策级 |
| Attention | 2019 | ResNet18 | 二元交叉熵损失、中心损失 | RGB、深度、近红外 | 特征级 |
| mmfCNN | ACMMM 2019 | ResNet34 | 二元交叉熵损失、二元中心损失 | RGB、近红外、深度、HSV、YCbCr | 特征级 |
| MM-FAS | 2019 | ResNet18/50 | 二元交叉熵损失 | RGB、近红外、深度 | 特征级 |
| AEs+MLP | 2019 | 自编码器、MLP | 二元交叉熵损失、重构损失 | 灰度-深度-红外组合 | 输入级 |
| SD-Net | 2019 | ResNet18 | 二元交叉熵损失 | RGB、近红外、深度 | 特征级 |
| Dual-modal | 2019 | MoblienetV3 | 二元交叉熵损失 | RGB、IR | 特征级 |
| Parallel-CNN | 2020 | 注意力CNN | 二元交叉熵损失 | 深度、近红外 | 特征级 |
| Multi-Channel Detector | 2020 | RetinaNet (FPN+ResNet18) | 关键点回归、焦点损失 | 灰度-深度-红外组合 | 输入级 |
| PSMM-Net | 2020 | ResNet18 | 各流分别使用二元交叉熵损失 | RGB、深度、近红外 | 特征级 |
| PipeNet | 2020 | SENet154 | 二元交叉熵损失 | RGB、深度、近红外人脸区域 | 特征级 |
| MM-CDCN | 2020 | CDCN | 像素级二元损失、对比度深度损失 | RGB、深度、近红外 | 特征&决策级 |
| HGCNN | 2020 | 超图-CNN、MLP | 二元交叉熵损失 | RGB、深度 | 特征级 |
| MCT-GAN | 2020 | CycleGAN、ResNet50 | GAN损失、二元交叉熵损失 | RGB、近红外 | 输入级 |
| D-M-Net | 2021 | ResNeXt | 二元交叉熵损失 | 多预处理后的深度、RGB-近红外组合 | 输入&特征级 |
| MA-Net | TIFS 2021 | CycleGAN、ResNet18 | 二元交叉熵损失、GAN损失 | RGB、近红外 | 特征级 |
| AMT | TMM 2021 | 译者:浅层编码器+解码器 + ResNet;判别器:DenseNet | BCE损失、像素级二元损失、重构损失 | 光照归一化的RGB或近红外或热成像或深度 | 输入级 |
| CompreEval | 2022 | DenseNet-161 | BCE损失、像素级二元损失 | RGB、深度、近红外、短波红外、热成像 | 输入级 |
| Conv-MLP | TIFS 2022 | Conv-MLP | 二元交叉熵损失、护城河损失 | RGB、深度、近红外 | 输入级 |
| Echo-FAS | TIFS 2022 | ResNet18、Transformer | 二元交叉熵损失 | RGB、语音 | 特征级 |
| AMA+M2A2E | 2023 | ViT | BCE损失、用于MAE的重构损失 | RGB、深度、IR | 特征级 |
| SNM | TIFS 2023 | ResNet18 | BCE损失、中心损失、余弦损失 | 深度、IR | 特征级 |
灵活模态学习
| 方法 | 年份 | 主干网络 | 损失函数 | 输入 | 融合方式 |
|---|---|---|---|---|---|
| CMFL | CVPR 2021 | DenseNet161 | 二元交叉熵损失、跨模态焦点损失 | RGB、深度 | 特征级 |
| MA-ViT | IJCAI 2022 | ViT-S/16 | 图像和模态上的二元交叉熵损失 | RGB、深度、近红外 | 输入&特征级 |
| FlexModal-FAS | CVPRW 2023 | CDCN、ResNet50、ViT | BCE损失、像素级二元损失 | RGB、深度、IR | 特征级 |
| FM-ViT | TIFS 2023 | ViT | 用于灵活模态分类头的BCE损失 | RGB、深度、IR | 特征级 |
常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
tesseract
Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中