DeepFAS

GitHub
602 65 较难 1 次阅读 4天前图像其他
AI 解读 由 AI 自动生成,仅供参考

DeepFAS 是一个专注于人脸活体检测(Face Anti-Spoofing)的深度学习开源项目,旨在系统性地梳理和整合该领域的前沿研究成果。面对人脸识别系统中常见的照片打印、屏幕重放及 3D 面具等欺骗攻击,DeepFAS 通过汇总 2018 至 2022 年间的主流算法,为开发者提供了一套从传统混合方法到纯深度学习、再到广义化学习的完整技术图谱。

该项目不仅涵盖了基于普通 RGB 摄像头的单模态检测方案,还深入探讨了利用多模态数据及专用传感器的进阶策略。其核心亮点在于构建了一个详尽的公共资源库,整理了包括 NUAA、CASIA-MFSD、REPLAY-ATTACK 在内的多个经典数据集,并对比了不同的评估协议与攻击类型。此外,DeepFAS 还特别关注域适应、零样本学习、异常检测及自监督学习等前沿方向,帮助从业者应对复杂多变的应用场景。

DeepFAS 非常适合计算机视觉领域的研究人员、算法工程师及安全系统开发者使用。无论是希望快速了解行业现状的初学者,还是寻求最新模型架构进行二次开发的资深专家,都能从中获得宝贵的参考依据和数据支持,从而高效地构建更安全、鲁棒的人脸识别系统。

使用场景

某金融科技公司正在升级其移动端人脸支付系统,急需解决用户遭遇高清照片、视频回放及 3D 面具攻击的安全隐患。

没有 DeepFAS 时

  • 防御手段单一:团队仅依赖传统手工特征算法,难以识别日益逼真的高清打印照片和屏幕重放攻击,漏报率居高不下。
  • 泛化能力薄弱:模型在实验室特定光照下表现尚可,但一旦用户处于户外强光或昏暗室内等未知场景,误报率急剧上升。
  • 研发周期漫长:面对不断涌现的新型攻击(如树脂面具),开发人员需从零收集数据并重新设计网络结构,迭代效率极低。
  • 缺乏权威基准:团队在选型时难以评估不同数据集(如 CASIA-MFSD 与 REPLAY-ATTACK)的适用性,导致训练数据偏差大。

使用 DeepFAS 后

  • 攻防全面升级:基于 DeepFAS 综述中集成的端到端深度学习方案,系统能精准提取像素级辅助监督信号,有效拦截各类复杂欺骗攻击。
  • 跨域鲁棒增强:利用工具整理的域适应(Domain Adaptation)与域泛化(Domain Generalization)策略,模型在未见过的光照和设备环境下依然保持高准确率。
  • 技术落地加速:直接复用仓库中分类清晰的 SOTA 方法(如生成式模型或异常检测),大幅缩短了新防御算法的研发与部署时间。
  • 数据协议规范:参考工具提供的详细数据集对比与评估协议,团队快速构建了覆盖多模态攻击的高质量测试集,确保评估结果客观可靠。

DeepFAS 通过系统化整合前沿算法与权威数据基准,帮助团队将人脸反欺诈系统的防御能力从“被动修补”提升至“主动免疫”级别。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库主要是一个关于深度人脸活体检测(Deep FAS)的综述列表,包含了数据集介绍、方法分类及论文引用信息。提供的 README 内容中并未包含具体的代码实现、安装指南或运行环境配置需求(如操作系统、GPU、Python 版本及依赖库等)。用户需根据列表中引用的具体论文或链接到各个子项目的官方仓库来获取相应的运行环境信息。
python未说明
DeepFAS hero image

快速开始

👏 深度人脸防伪技术综述 🔥

这是 "深度学习在人脸防伪中的应用:综述" 的官方仓库,这是一篇关于深度学习方法在人脸防伪(FAS)领域最新进展、数据集及评估协议的全面综述。

引用

如果您在研究中使用了我们的工作,请考虑引用:

@article{yu2022deep,
  title={Deep Learning for Face Anti-Spoofing: A Survey},
  author={Yu, Zitong and Qin, Yunxiao and Li, Xiaobai and Zhao, Chenxu and Lei, Zhen and Zhao, Guoying},
  journal={IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)},
  year={2022}
}

简介

我们对近年来用于人脸防伪的深度学习方法进行了全面回顾(主要集中在2018年至2022年间)。内容涵盖了基于单目RGB图像的人脸防伪技术,包括混合型(手工特征+深度学习)、纯深度学习以及广义学习方法。此外,还介绍了多模态学习方法和基于专用传感器的人脸防伪技术。同时,我们也对公开可用的数据集及其经典评估协议进行了详细比较。

🔔 我们将定期更新此页面~ :tada::tada::tada:


目录


image


1️⃣ 数据集

使用商用RGB摄像头采集的数据集

数据集 年份 活体/欺骗 受试者数 设置 攻击类型
NUAA 2010 5105/7509(I) 15 N/R 打印(平面、包裹)
YALE Recaptured 2011 640/1920(I) 10 距离3台液晶显示器50厘米 打印(平面)
CASIA-MFSD 2012 150/450(V) 50 7种场景和3种图像质量 打印(平面、包裹、切割),回放(平板电脑)
REPLAY-ATTACK 2012 200/1000(V) 50 照明和手持 打印(平面),回放(平板电脑、手机)
Kose and Dugelay 2013 200/198(I) 20 N/R 面具(硬质树脂)
MSU-MFSD 2014 70/210(V) 35 室内场景;2种类型的相机 打印(平面),回放(平板电脑、手机)
UVAD 2015 808/16268(V) 404 不同的光照、背景和地点,分为两部分 回放(显示器)
REPLAY-Mobile 2016 390/640(V) 40 5种光照条件 打印(平面),回放(显示器)
HKBU-MARs V2 2016 504/504(V) 12 7台固定和移动设备上的摄像头以及6种光照设置 使用Thatsmyface和REAL-f提供的硬质树脂面具
MSU USSA 2016 1140/9120(I) 1140 条件不受控;2种类型的相机 打印(平面),回放(笔记本电脑、平板电脑、手机)
SMAD 2017 65/65(V) - 来自网络资源的彩色图像 硅胶面具
OULU-NPU 2017 720/2880(V) 55 分为3个部分,光照和背景各不相同 打印(平面),回放(手机)
Rose-Youtu 2018 500/2850(V) 20 5部前置手机摄像头;5种不同的光照条件 打印(平面),回放(显示器、笔记本电脑),纸制或裁剪纸制面具
SiW 2018 1320/3300(V) 165 4次会话,距离、姿态、光照和表情各异 打印(平面、包裹),回放(手机、平板电脑、显示器)
WFFD 2019 2300/2300(I) 140/145(V) 745 在线收集;超逼真;剔除了低质量人脸 蜡像(蜡)
SiW-M 2019 660/968(V) 493 室内环境,姿态、光照和表情多变 打印(平面),回放,面具(硬质树脂、塑料、硅胶、纸、假人),化妆(化妆品、模仿、伪装),局部遮挡(眼镜、裁剪纸)
Swax 2020 总计1812(I) 110(V) 55 在线收集;在非受控场景下采集 蜡像(蜡)
CelebA-Spoof 2020 156384/469153(I) 10177 4种光照条件;室内与室外;丰富的标注 打印(平面、包裹),回放(显示器、平板电脑、手机),纸制面具
RECOD-Mtablet 2020 450/1800(V) 45 户外环境,光线较弱且动态变化的场景 打印(平面),回放(显示器)
CASIA-SURF 3DMask 2020 288/864(V) 48 高质量且保留身份信息;3种装饰和6种环境 假人面具(3D打印)
HiFiMask 2021 13650/40950(V) 75 三种面具装饰;7种录制设备;6种光照条件;6种场景 面具(透明、石膏、树脂)
SiW-M v2 2022 785/915 (V) 1093(493/600) 室内外均有;年龄和种族多样;7种光照条件 经IAPRA验证的14种欺骗攻击方式(4种覆盖物、3种化妆、3种面具、2种真人模型、回放和打印)
SuHiFiMask 2022 10195/10195 (V) 101 远程使用监控摄像头,在3个场景中录制,采用3种光照和4种天气情况 2D图像、视频回放、3D面具,材料包括树脂、石膏、硅胶、纸
WFAS 2023 529,571/ 853,729 (I) 469,920 互联网,无约束环境 17种欺骗手段,包括打印(报纸、海报、照片、相册、图画书、扫描照片、包装、布料),显示(手机、平板电脑、电视、电脑),面具,3D模型(拼装套件、玩偶、成人娃娃、蜡像)

具有多模态数据或专用传感器的数据集

数据集 年份 #活体/欺骗 #受试者 男/女 实验设置 攻击类型
3DMAD 2013 170/85(V) 17 可见光, 深度 3次会话(间隔2周) 面具(纸质、硬质树脂)
GUC-LiFFAD 2015 1798/3028(V) 80 光场 距离为1.5米的受限条件 打印(喷墨纸、激光打印纸)、回放(平板电脑)
3DFS-DB 2016 260/260(V) 26 可见光, 深度 多角度头部运动 面具(塑料)
BRSU Skin/Face/Spoof 2016 102/404(I) 137 可见光, 短波红外 多光谱短波红外,包含4个波段:935nm、1060nm、1300nm和1550nm 面具(硅胶、塑料、树脂、乳胶)
Msspoof 2016 1470/3024(I) 21 可见光, 近红外 7种环境条件 黑白打印(平面)
MLFP 2017 150/1200(V) 10 可见光, 近红外, 热成像 室内与室外,背景固定或随机 面具(乳胶、纸)
ERPA 2017 总计86(V) 5 可见光, 深度, 近红外, 热成像 受试者靠近两种相机(0.3~0.5米) 打印(平面)、回放(显示器)、面具(树脂、硅胶)
LF-SAD 2018 328/596(I) 50 光场 室内固定背景,由Lytro ILLUM相机拍摄 打印(平面、包裹式)、回放(显示器)
CSMAD 2018 104/159(V+I) 14 可见光, 深度, 近红外, 热成像 4种光照条件 面具(定制硅胶)
3DMA 2019 536/384(V) 67 可见光, 近红外 48种不同ID的面具;2种光照条件及4种采集距离 面具(塑料)
CASIA-SURF 2019 3000/18000(V) 1000 可见光, 深度, 近红外 背景已移除;随机裁剪眼睛、鼻子或嘴巴区域 打印(平面、包裹式、裁剪式)
WMCA 2019 347/1332(V) 72 可见光, 深度, 近红外, 热成像 6次会话,背景和光照各不相同;真样本记录了脉搏数据 打印(平面)、回放(平板电脑)、部分遮挡(眼镜)、面具(塑料、硅胶、纸、假人)
CeFA 2020 6300/27900(V) 1607 可见光, 深度, 近红外 3种族;室内外场景;使用假发和眼镜进行装饰 打印(平面、包裹式)、回放、面具(3D打印、硅胶)
HQ-WMCA 2020 555/2349(V) 51 可见光, 深度, 近红外, 短波红外, 热成像 室内;14种“模态”,包括4种近红外和7种短波红外波长;面具和假人均被加热至体温 激光或喷墨打印(平面)、回放(平板电脑、手机)、面具(塑料、硅胶、纸、假人)、化妆、部分遮挡(眼镜、假发、纹身)
PADISI-Face 2021 1105/924(V) 360 可见光, 深度, 近红外, 短波红外, 热成像 室内,固定背景,60帧序列,每帧图像分辨率为1984×1264像素 打印(平面)、回放(平板电脑、手机)、面具(塑料、硅胶、透明材质、假人)、化妆/纹身、部分遮挡(眼镜、趣味性眼饰)

2️⃣ 基于商用RGB摄像头的深度学习人脸反欺骗方法

  • temp

混合型(手工特征+深度学习)

方法 年份 主干网络 损失函数 输入 静态/动态
DPCNN 2016 VGG-Face 使用SVM训练 RGB S
Multi-cues+NN 2016 MLP 二分类交叉熵损失 RGB+OFM D
CNN LBP-TOP 2017 5层CNN 二分类交叉熵损失、SVM RGB D
DF-MSLBP 2018 深度森林 二分类交叉熵损失 HSV+YCbCr S
SPMT+SSD 2018 VGG16 二分类交叉熵损失、SVM、边界框回归 RGB、地标 S
CHIF 2019 VGG-Face 使用SVM训练 RGB S
DeepLBP 2019 VGG-Face 二分类交叉熵损失、SVM RGB、HSV、YCbCr S
CNN+LBP+WLD 2019 CaffeNet 二分类交叉熵损失 RGB S
Intrinsic 2019 1D-CNN 使用SVM训练 反射信号 D
FARCNN 2019 多尺度注意力CNN 回归损失、Crystal损失、Center损失 RGB S
CNN-LSP TIFS 2019 1D-CNN 使用SVM训练 RGB D
DT-Mask 2019 VGG16 二分类交叉熵损失、通道与空间可区分性 RGB+OF D
VGG+LBP 2019 VGG16 二分类交叉熵损失 RGB S
CNN+OVLBP 2019 VGG16 二分类交叉熵损失、神经网络分类器 RGB S
HOG-Pert. 2019 多尺度CNN 二分类交叉熵损失 RGB+HOG S
LBP-Pert. 2020 多尺度CNN 二分类交叉熵损失 RGB+LBP S
TransRPPG SPL 2021 Vision Transformer 二分类交叉熵损失 rPPG图 D

端到端二元交叉熵监督

方法 年份 主干网络 损失函数 输入 静态/动态
CNN1 2014 8层CNN 使用SVM训练 RGB S
LSTM-CNN 2015 CNN+LSTM 二元交叉熵损失 RGB D
SpoofNet 2015 2层CNN 二元交叉熵损失 RGB S
HybridCNN 2017 VGG-Face 使用SVM训练 RGB S
CNN2 2017 VGG11 二元交叉熵损失 RGB S
Ultra-Deep 2017 ResNet50+LSTM 二元交叉熵损失 RGB D
FASNet 2017 VGG16 二元交叉熵损失 RGB S
CNN3 2018 Inception、ResNet 二元交叉熵损失 RGB S
MILHP 2018 ResNet+STN 多实例交叉熵损失 RGB D
LSCNN 2018 9个PatchNet 二元交叉熵损失 RGB S
LiveNet 2018 VGG11 二元交叉熵损失 RGB S
MS-FANS 2018 AlexNet+LSTM 二元交叉熵损失 RGB S
DeepColorFAS 2018 5层CNN 二元交叉熵损失 RGB、HSV、YCbCr S
Siamese 2019 AlexNet 对比损失 RGB S
FSBuster 2019 ResNet50 使用SVM训练 RGB S
FuseDNG 2019 7层CNN 二元交叉熵损失、重建损失 RGB S
STASN CVPR 2019 ResNet50+LSTM 二元交叉熵损失 RGB D
TSCNN TIFS 2019 ResNet18 二元交叉熵损失 RGB、MSR S
FAS-UCM 2019 MobileNetV2、VGG19 二元交叉熵损失、风格损失 RGB S
SLRNN 2019 ResNet50+LSTM 二元交叉熵损失 RGB D
GFA-CNN 2019 VGG16 二元交叉熵损失 RGB S
3DSynthesis 2019 ResNet15 二元交叉熵损失 RGB S
CompactNet NC 2020 VGG19 点到中心三元组损失 RGB S
SSR-FCN TIFS 2020 具有6层的FCN 二元交叉熵损失 RGB S
FasTCo 2020 ResNet50或MobileNetV2 多分类交叉熵损失、时间一致性损失、类别一致性损失 RGB D
DRL-FAS TIFS 2020 ResNet18+GRU 二元交叉熵损失 RGB S
SfSNet 2020 6层CNN 二元交叉熵损失 反照率、深度、反射 S
LivenesSlight 2020 6层CNN 二元交叉熵损失 RGB S
MotionEnhancement 2020 VGGface+LSTM 二元交叉熵损失 RGB D
CFSA-FAS 2020 ResNet18 二元交叉熵损失 RGB S
MC-FBC 2020 VGG16、ResNet50 二元交叉熵损失 RGB S
SimpleNet 2020 多流5层CNN 二元交叉熵损失 RGB、光流、反射 D
PatchCNN 2020 SqueezeNet v1.1 二元交叉熵损失、三元组损失 RGB S
FreqSpatialTempNet 2020 ResNet18 二元交叉熵损失 RGB、HSV、光谱 D
ViTranZFAS IJCB 2021 ViT 二元交叉熵损失 RGB S
CIFL TIFS 2021 ResNet18 二元焦点损失、相机类型损失 RGB S
XFace-PAD FG 2021 ResNet50、ViT 二元交叉熵损失、逐词交叉熵损失、句子判别损失以及句子语义损失 RGB S
PCGN MM 2021 ResNet101+GCN 节点和边的交叉熵损失 RGB整图 S
TOD 2021 ResNet18、图注意力网络 交叉熵损失 RGB S
MTSS BMVC 2021 ViT+多级注意力模块 交叉熵损失 RGB S
PatchNet CVPR 2022 ResNet18 非对称AM-Softmax损失、自监督相似性损失 RGB补丁 S
ViTransPAD ICIP 2022 EfficientNet + VideoViT 交叉熵损失 RGB D
FGDNet TMM 2022 卷积Transformer 5类交叉熵损失 RGB S

像素级辅助监督

方法 年份 监督信号 主干网络 输入 静态/动态
Depth&Patch IJCB 2017 深度 PatchNet, DepthNet YCbCr, HSV S
Auxiliary CVPR 2018 深度, rPPG频谱 DepthNet RGB, HSV D
BASN ICCVW 2019 深度, 反射 DepthNet, Enrichment RGB, HSV S
DTN CVPR 2019 BinaryMask 树形网络 RGB, HSV S
PixBiS ICB 2019 BinaryMask DenseNet161 RGB S
A-PixBiS 2020 BinaryMask DenseNet161 RGB S
Auto-FAS ICASSP 2020 BinaryMask NAS RGB S
MRCNN 2020 BinaryMask 浅层CNN RGB S
FCN-LSA 2020 BinaryMask DepthNet RGB S
CDCN CVPR 2020 深度 DepthNet RGB S
FAS-SGTD CVPR 2020 深度 DepthNet, STPM RGB D
TS-FEN 2020 深度 ResNet34, FCN RGB, YCbCr, HSV S
SAPLC 2020 三元图 DepthNet RGB, HSV S
BCN ECCV 2020 BinaryMask, 深度, 反射 DepthNet RGB S
Disentangled ECCV 2020 深度, 纹理图 DepthNet RGB S
AENet ECCV 2020 深度, 反射 ResNet18 RGB S
3DPC-Net IJCB 2020 3D点云 ResNet18 RGB S
PS TBIOM 2020 BinaryMask或深度 ResNet50或CDCN RGB S
NAS-FAS PAMI 2020 BinaryMask或深度 NAS RGB D
DAM 2021 深度 VGG16, TSM RGB D
Bi-FPNFAS 2021 傅里叶频谱 EfficientNetB0, FPN RGB S
DC-CDN IJCAI 2021 深度 CDCN RGB S
DCN IJCB 2021 反射 DepthNet RGB S
LMFD-PAD 2021 BinaryMask Dual-ResNet50 RGB + 频率图 S
MPFLN ICCVW 2021 深度, BinaryMask CDCN, 3D-CDCN RGB S, D
DSDG+DUM TIFS 2021 深度 CDCN RGB S
SAFPAD TIFS 2021 深度 DepthNet RGB & 补丁 S
EPCR 2021 BinaryMask CDCN RGB S
AISL PRL 2021 深度 DepthNet RGB S
MEGC ICASSP 2022 深度, 反射, 莫尔条纹, 边界 DepthNet+特征增强 RGB, HSV S
EulerNet 2022 人脸位置图 EulerNet结合时间注意力、残差金字塔 RGB D
TTN TIFS 2022 深度 ViT结合金字塔时间聚合、时间差注意力 RGB D
TransFAS TBIOM 2022 深度 ViT结合跨层注意力 RGB S
DepthSeg IJCNN 2022 深度 PSPNet, DeepLabv3+ RGB S

基于像素级监督的生成模型

方法 年份 监督信号 主干网络 输入 静态/动态
De-Spoof ECCV 2018 深度, BinaryMask, 傅里叶图 DSNet, DepthNet RGB, HSV S
Reconstruction 2019 实人RGB输入,欺骗零矩阵 U-Net RGB S
LGSC 2020 实人零矩阵 U-Net, ResNet18 RGB S
TAE ICASSP 2020 二分类交叉熵损失、重建损失 Info-VAE, DenseNet161 RGB S
STDN ECCV 2020 BinaryMask, 实人RGB输入 U-Net, PatchGAN RGB S
GOGen CVPR 2020 RGB输入 DepthNet RGB+独热向量 S
PhySTD PAMI 2022 深度, 实人RGB输入 U-Net, PatchGAN 频率轨迹 S
MT-FAS PAMI 2021 实人零矩阵,可学习欺骗图 DepthNet RGB S
IF-OM 2021 RGB输入,混合输入特征 MobileNetV2 + UNet RGB, 混合RGB, 折叠RGB S
Dual-Stage Disentanglement WACV 2021 实人零矩阵,用于重建的RGB输入 U-Net, ResNet18 RGB S

域适应

方法 年份 主干网络 损失函数 静态/动态
OR-DA TIFS 2018 AlexNet 二值交叉熵损失、MMD损失 S
DTCNN 2019 AlexNet 二值交叉熵损失、MMD损失 S
Adversarial ICB 2019 ResNet18 三元组损失、对抗损失 S
ML-MMD ICMEW 2019 多尺度FCN 交叉熵损失、MMD损失 S
OCA-FAS NC 2020 DepthNet 二值交叉熵损失、像素级二值损失 S
DR-UDA TIFS 2020 ResNet18 中心点&三元组损失、对抗损失、解耦损失 S
DGP ICASSP 2020 DenseNet161 特征散度度量、BinaryMask损失 S
Distillation J-STSP 2020 AlexNet 二值交叉熵损失、MMD损失、成对相似性 S
SASA 2021 ResNet18 交叉熵损失、对抗损失、遗忘约束、对比语义对齐 S
GDA ECCV 2022 DepthNet 交叉熵损失、深度损失、域间神经统计一致性、相位一致性、感知损失 S
CDFTN AAAI 2023 ResNet18 交叉熵损失、重建损失、三元组损失 S

域泛化

方法 年份 主干网络 损失函数 静态/动态
MADDG CVPR 2019 DepthNet 二值交叉熵与深度损失、多对抗损失、双力三元组损失 S
PAD-GAN CVPR 2020 ResNet18 二值交叉熵与深度损失、多对抗损失、双力三元组损失 S
DASN 2020 ResNet18 二值交叉熵与欺骗无关因素损失 S
SSDG CVPR 2020 ResNet18 二值交叉熵损失、单侧对抗损失、非对称三元组损失 S
RF-Meta AAAI 2020 DepthNet 二值交叉熵损失、深度损失 S
CCDD CVPRW 2020 ResNet50+LSTM 二值交叉熵损失、类条件损失 D
SDA AAAI 2021 DepthNet 二值交叉熵与深度损失、重建损失、正交性正则化 S
D2AM AAAI 2021 DepthNet 二值交叉熵损失、深度损失、MMD损失 S
DRDG IJCAI 2021 DepthNet 二值交叉熵损失、深度损失、域损失 S
PDL-FAS 2021 DepthNet 二值交叉熵损失、深度损失 S
ANRL ACMMM 2021 DepthNet 二值交叉熵损失、深度损失、域间兼容损失、类间可分损失 S
HFN+MP 2021 双流ResNet50 二值交叉熵损失、均方误差损失 S
SDFANet TIFS 2021 ResNet-18 BCE损失 + 多粒度损失 + 中心点损失 + 非对称三元组损失 S
VLAD-VSA ACMMM 2021 DepthNet或 ResNet18 BCE损失 + 三元组损失 + 域对抗损失 + 正交损失 + 质心适应损失 + 内部损失 S
FGHV AAAI 2022 DepthNet 方差 + 相对相关 + 分布鉴别约束 S
SSAN CVPR 2022 DepthNet/ResNet18 CE损失 + 域对抗损失 + 对比损失 S
AMEL ACMMM 2022 DepthNet CE损失、深度损失、特征一致性损失 S
MD-FAS ECCV 2022 PhySTD CE损失、二值掩膜损失、源域与目标域蒸馏损失 S
FRT-PAD ECCV 2022 ResNet18+GAT CE损失 S
CIFAS ICME 2022 ResNet18 CE损失、三元组损失 S
OneSideTriplet FG 2023 DepthNet+UNet CE损失、三元组损失、深度损失、分割损失 S
DiVT WACV 2023 MobileViT-S 域不变集中和攻击分离损失 S
ALDICF IJCV 2023 ResNet18, ResNet50 域内与域间鉴别损失、条件域对抗损失 S
DKG+CSA+AIAW CVPR 2023 DepthNet BCE损失、深度损失、非对称实例自适应漂白损失 S
SA-FAS CVPR 2023 ResNet18 对比损失、对齐损失 S
SPDA ICASSP 2023 ResNet18 BCE损失、域损失、自我节奏聚类挖掘损失、正交损失 S
CRFAS ICASSP 2023 ResNet18 BCE损失、域损失、非对称三元组损失、反事实特征生成损失 S

零/少样本学习

方法 年份 主干网络 损失函数 输入
DTN CVPR 2019 深度树网络 二元交叉熵损失、像素级二元损失、无监督树损失 RGB, HSV
AIM-FAS AAAI 2020 DepthNet 深度损失、对比深度损失 RGB
CM-PAD IJCB 2021 DepthNet, ResNet 二元交叉熵损失、深度损失、梯度对齐 RGB
ViTAF ECCV 2022 ViT+适配器 交叉熵损失、余弦损失 S

异常检测

方法 年份 主干网络 损失函数 输入
AE+LBP 2018 自编码器 重建损失 RGB
Anomaly 2019 ResNet50 三元组焦点损失、度量-Softmax损失 RGB
Anomaly2 2019 GoogLeNet 或 ResNet50 马氏距离 RGB
Hypersphere 2020 ResNet18 超球体损失 RGB, HSV
Ensemble-Anomaly 2020 GoogLeNet 或 ResNet50 高斯混合模型(非端到端) RGB, 图块
MCCNN 2020 LightCNN 二元交叉熵损失、对比损失 灰度、红外、深度、热成像
End2End-Anomaly 2020 VGG-Face 二元交叉熵损失、成对混淆 RGB
ClientAnomaly PR 2020 ResNet50 或 GoogLeNet 或 VGG16 单类SVM或马氏距离或高斯混合模型 RGB
ContrastiveEVT ACM MM 2021 cVAE 二元交叉熵损失、重建损失、对比损失 RGB
OneClassKD TIFS 2022 DepthNet 像素级二元交叉熵损失、多级知识蒸馏损失 RGB

半监督与自监督

方法 年份 半/自 主干网络 损失函数
SCNN++PL+TC TIP 2021 半; 伪标签 ResNet18 交叉熵损失
USDAN PR 2021 半; 分布对齐 ResNet18 自适应二元交叉熵损失、熵损失、对抗损失
EPCR TIFS 2023 半; 一致性正则化 CDCN 预测和嵌入级别的重建损失
TSS PRL 2022 自; 预文本任务 ResNet18+BiLSTM 时间采样预测的交叉熵损失
ACL-FAS PRCV 2022 自; 对比学习 - 区域相似性损失、对比及反对比损失
MIM-FAS PRCV 2022 自; 掩码图像建模 ViT 重建损失
DF-DM TNNLS 2023 自; 预文本任务 DeepPixBiS, SSDG-R, CDCN GAN损失、基于插值的一致性损失
MCAE 2023 自+监督; 掩码图像建模 ViT 反馈重建损失 + 监督式对比损失
AMA+M2A2E 2023 自; 掩码图像建模 ViT 重建损失

持续学习

方法 年份 是否回放 主干网络 损失函数
CM-PAD IJCB 2020 带回放 DepthNet 批次/整体元损失
Experience Replay ICCV 2021 带回放 ResNet50 BCE损失用于已识别的新样本和回放样本
DCDCA+PPCR 2023 无需排练 ViT BCE损失、代理原型对比正则化

3️⃣ 具有先进传感器的深度FAS方法

基于专用传感器的学习

方法 年份 主干网络 损失函数 输入 静态/动态
Thermal-FaceCNN 2019 AlexNet 回归损失 热红外人脸图像 S
SLNet 2019 17层CNN 二元交叉熵损失 立体(左&右)人脸图像 S
Aurora-Guard 2019 U-Net 二元交叉熵损失、深度回归、光照回归 投影人脸,伴随由随机光CAPTCHA指定的动态光线变化 D
LFC 2019 AlexNet 二元交叉熵损失 来自光场相机的光线差异/微透镜图像 S
PAAS 2020 MobileNetV2 对比损失、SVM 四向偏振人脸图像 S
Face-Revelio 2020 连体AlexNet L1距离 四盏闪光灯分别显示在屏幕的四个象限 D
SpecDiff 2020 ResNet4 二元交叉熵损失 合并了带闪光灯和不带闪光灯的人脸图像 S
MC-PixBiS 2020 DenseNet161 二元掩码损失 SWIR图像差异 S
Thermalization 2020 YOLO V3+GoogLeNet 二元交叉熵损失 热红外人脸图像 S
DP Bin-Cls-Net 2021 浅层U-Net + Xception 变换一致性、相对视差损失、二元交叉熵损失 DP图像对 S

多模态学习

方法 年份 主干网络 损失函数 输入 融合方式
FaceBagNet 2019 多流CNN 二元交叉熵损失 RGB、深度、近红外人脸区域 特征级
FeatherNets 2019 Ensemble-FeatherNet 二元交叉熵损失 深度、近红外 决策级
Attention 2019 ResNet18 二元交叉熵损失、中心损失 RGB、深度、近红外 特征级
mmfCNN ACMMM 2019 ResNet34 二元交叉熵损失、二元中心损失 RGB、近红外、深度、HSV、YCbCr 特征级
MM-FAS 2019 ResNet18/50 二元交叉熵损失 RGB、近红外、深度 特征级
AEs+MLP 2019 自编码器、MLP 二元交叉熵损失、重构损失 灰度-深度-红外组合 输入级
SD-Net 2019 ResNet18 二元交叉熵损失 RGB、近红外、深度 特征级
Dual-modal 2019 MoblienetV3 二元交叉熵损失 RGB、IR 特征级
Parallel-CNN 2020 注意力CNN 二元交叉熵损失 深度、近红外 特征级
Multi-Channel Detector 2020 RetinaNet (FPN+ResNet18) 关键点回归、焦点损失 灰度-深度-红外组合 输入级
PSMM-Net 2020 ResNet18 各流分别使用二元交叉熵损失 RGB、深度、近红外 特征级
PipeNet 2020 SENet154 二元交叉熵损失 RGB、深度、近红外人脸区域 特征级
MM-CDCN 2020 CDCN 像素级二元损失、对比度深度损失 RGB、深度、近红外 特征&决策级
HGCNN 2020 超图-CNN、MLP 二元交叉熵损失 RGB、深度 特征级
MCT-GAN 2020 CycleGAN、ResNet50 GAN损失、二元交叉熵损失 RGB、近红外 输入级
D-M-Net 2021 ResNeXt 二元交叉熵损失 多预处理后的深度、RGB-近红外组合 输入&特征级
MA-Net TIFS 2021 CycleGAN、ResNet18 二元交叉熵损失、GAN损失 RGB、近红外 特征级
AMT TMM 2021 译者:浅层编码器+解码器 + ResNet;判别器:DenseNet BCE损失、像素级二元损失、重构损失 光照归一化的RGB或近红外或热成像或深度 输入级
CompreEval 2022 DenseNet-161 BCE损失、像素级二元损失 RGB、深度、近红外、短波红外、热成像 输入级
Conv-MLP TIFS 2022 Conv-MLP 二元交叉熵损失、护城河损失 RGB、深度、近红外 输入级
Echo-FAS TIFS 2022 ResNet18、Transformer 二元交叉熵损失 RGB、语音 特征级
AMA+M2A2E 2023 ViT BCE损失、用于MAE的重构损失 RGB、深度、IR 特征级
SNM TIFS 2023 ResNet18 BCE损失、中心损失、余弦损失 深度、IR 特征级

灵活模态学习

方法 年份 主干网络 损失函数 输入 融合方式
CMFL CVPR 2021 DenseNet161 二元交叉熵损失、跨模态焦点损失 RGB、深度 特征级
MA-ViT IJCAI 2022 ViT-S/16 图像和模态上的二元交叉熵损失 RGB、深度、近红外 输入&特征级
FlexModal-FAS CVPRW 2023 CDCN、ResNet50、ViT BCE损失、像素级二元损失 RGB、深度、IR 特征级
FM-ViT TIFS 2023 ViT 用于灵活模态分类头的BCE损失 RGB、深度、IR 特征级

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。

74.9k|★★★☆☆|今天
语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

73.3k|★★☆☆☆|3天前
开发框架图像