DeepFake-Detection

647 198 较难 1 次阅读 2天前MIT图像开发框架数据工具

AI 解读由 AI 自动生成，仅供参考

DeepFake-Detection 是一个致力于解决现实场景中深度伪造视频检测难题的开源项目。当前许多先进的检测模型在实验室数据上表现优异，但面对从 YouTube 等平台随机收集的真实视频时，往往难以有效泛化。DeepFake-Detection 通过大量实验证实，仅依赖现有的标准数据集（如 FaceForensics++）不足以训练出能应对真实世界人脸篡改技术的神经网络。

为了解决这一痛点，该项目提出检测器必须利用真实世界数据进行持续更新，并提供了一套基于 PyTorch 的解决方案。其核心思路是在 ImageNet 预训练的 ResNet18 模型基础上进行微调，并通过引入更多样化的数据来提升模型的泛化能力。项目还集成了 Dessa 开源的实验调度与管理工具 Atlas，支持大规模实验验证。

该工具主要适合人工智能研究人员、算法工程师以及对深度伪造检测技术感兴趣的开发者使用。使用者需要具备一定的深度学习基础，并满足较高的硬件要求（建议内存 32GB 以上且配备 GPU）。通过提供详细的数据重构脚本和 Docker 部署方案，DeepFake-Detection 帮助研究者复现实验结果，推动构建更鲁棒的防伪检测系统，是探索视频内容真实性验证的有力工具。

使用场景

某新闻机构的内容审核团队每天需处理大量来自社交平台的突发视频素材，急需甄别其中是否包含伪造的政治人物讲话片段以防止假新闻扩散。

没有 DeepFake-Detection 时

依赖传统的 FaceForensics++ 模型，但在面对 YouTube 等真实场景采集的视频时，检测准确率大幅下降，误报率极高。
缺乏持续更新机制，模型无法适应不断演变的深度伪造技术，导致新型伪造视频轻易绕过审核。
人工复核工作量巨大，审核员需在海量视频中逐帧排查，严重拖慢新闻发布的时效性。
无法量化评估不同数据集对模型泛化能力的影响，优化方向模糊，只能盲目尝试。

使用 DeepFake-Detection 后

采用基于 ResNet18 微调的专用模型，并结合真实世界 YouTube 数据训练，显著提升了对非实验室环境下伪造视频的识别精度。
建立了“数据驱动”的迭代流程，通过不断纳入新收集的真实伪造样本更新模型，确保持续对抗最新的造假手段。
利用 Atlas 调度器自动化大规模实验，快速筛选最优参数，将视频初筛效率提升数倍，让人工仅聚焦于高疑点案例。
通过可视化平行坐标图清晰展示数据分布与模型表现，帮助团队精准定位数据缺口，科学制定数据采集策略。

DeepFake-Detection 通过引入真实世界数据闭环和自动化实验管理，将深度伪造检测从“实验室玩具”转变为真正可用的防线。

运行环境要求

操作系统

Linux

GPU

必需，NVIDIA GPU (数量 >=1)，需安装 nvidia-docker

内存

>= 32GB

依赖

notes1. 必须安装 nvidia-docker (version 2.0+) 和 ffmpeg。2. 项目依赖 Dessa 开源的 Atlas 调度器进行实验管理。3. 数据集分为 FaceForensics++（需申请访问）和 YouTube 采集数据（S3 下载），需运行脚本重新结构化数据。4. 模型基于 ImageNet 预训练的 ResNet18 进行微调。5. 运行前需构建自定义 Docker 镜像并修改配置文件中的数据路径。

python未说明

PyTorch

nvidia-docker

ffmpeg

Atlas (Dessa scheduler)

快速开始

平行坐标图

阅读技术深度解析：https://www.dessa.com/post/deepfake-detection-that-actually-works

可视化深度伪造检测

在我们最近的文章中，我们做出了以下贡献：

我们表明，当前视频篡改领域最先进方法（FaceForensics++）所提出的模型，并不能泛化到从YouTube随机收集的真实生活视频。
我们指出检测器需要不断用真实世界的数据进行更新，并提出了一种初步解决方案，以期解决深度伪造视频的检测问题。

我们的PyTorch实现进行了大量实验，证明由Google生成并在FaceForensics++论文中详细描述的数据集，并不足以使神经网络泛化，从而检测现实生活中的面部篡改技术。同时，我们也提供了一种当前的解决方案，即通过增加数据来应对这一问题。

我们的PyTorch模型基于在ImageNet上预训练的ResNet18，并对其进行微调以解决深度伪造检测问题。此外，我们还使用Dessa的开源调度器和实验管理工具Atlas进行了大规模实验。

设置

先决条件

要运行代码，您的系统应满足以下要求：内存 >= 32GB，GPU >=1。

步骤

安装nvidia-docker
安装ffmpeg 或 sudo apt install ffmpeg
克隆本仓库。
如果您尚未安装，请安装Atlas。
安装Atlas后，如果您尚未激活环境，请先激活，并导航到您的项目文件夹。

至此，您已准备就绪！

数据集

本项目使用的数据集中有一半来自FaceForensics深度伪造检测数据集。

要下载这些数据，请务必填写谷歌表单，以申请访问权限。

对于我们从YouTube收集的数据集，您可以通过S3下载。

要自动下载并重新组织这两个数据集，请执行：

bash restructure_data.sh faceforensics_download.py

注意：在执行重新组织脚本之前，您需要先从FaceForensics++团队获取下载脚本。

注2：我们创建了restructure_data.sh脚本，用于按照与上方UI中完全相同的实验设置进行数据划分，您可以根据自己的需求调整划分方式。

操作指南

在开始训练或评估模型之前，我们首先需要创建将用于运行实验的Docker镜像。为此，我们在custom_docker_image目录下已经准备好了Dockerfile。要构建Docker镜像，请在终端中执行以下命令：

cd custom_docker_image
nvidia-docker build . -t atlas_ff

注意：如果您更改了镜像名称，请确保同时修改job.config.yaml文件第16行，以匹配Docker镜像名称。

在job.config.yaml文件中，请将主机上的数据路径从/media/biggie2/FaceForensics/datasets/更改为您的datasets文件夹的绝对路径。

包含数据集的文件夹应具有以下结构：

datasets
├── augment_deepfake        (2)
│   ├── fake
│   │   └── frames
│   ├── real
│   │   └── frames
│   └── val
│       ├── fake
│       └── real
├── base_deepfake           (1)
│   ├── fake
│   │   └── frames
│   ├── real
│   │   └── frames
│   └── val
│       ├── fake
│       └── real
├── both_deepfake           (3)
│   ├── fake
│   │   └── frames
│   ├── real
│   │   └── frames
│   └── val
│       ├── fake
│       └── real
├── precomputed             (4)
└── T_deepfake              (0)
    ├── manipulated_sequences
    │   ├── DeepFakeDetection
    │   ├── Deepfakes
    │   ├── Face2Face
    │   ├── FaceSwap
    │   └── NeuralTextures
    └── original_sequences
        ├── actors
        └── youtube

注释：

(0) 是使用FaceForensics仓库脚本下载的数据集。
(1) 是对FaceForensics数据进行重塑后的版本，以符合代码库预期的结构。名为frames的子文件夹中包含了使用ffmpeg采集的帧。
(2) 是从YouTube收集的增强数据集，可在S3上获取。
(3) 是基础数据集与增强数据集的结合。
(4) 预计算数据将在训练过程中自动生成，其中保存着缓存的裁剪帧。

接下来，要运行我们将在后续文章中展示的所有实验，您可以使用以下命令启动hparams_search.py脚本：

python hparams_search.py

结果

在下面的图片中，每个子图的标题格式为“真实概率，虚假概率 | 预测 | 标签”。

基于FaceForensics++数据集训练的模型

对于仅使用论文中数据集训练的模型，我们注意到该模型只能识别论文中提到的篡改技术，而无法检测真实世界数据中的其他篡改内容。

model1 model11

基于YouTube数据集训练的模型

仅使用YouTube数据集训练的模型能够检测真实世界的深度伪造，但同时也误判了论文数据集中的简单伪造样本。然而，这些模型无法检测其他类型的篡改（如NeuralTextures）。

model2 model22

基于论文+YouTube数据集联合训练的模型

最后，结合两个数据集共同训练的模型，不仅能够检测真实世界的篡改技术，还能识别FaceForensics++论文中提到的其他方法。

model3 model33

有关这些结果的更深入解释，请参阅我们发布的文章。更多结果可在交互式UI中查看。

帮助改进这项技术

欢迎您fork本项目并继续推进。

如果您也希望帮助改进深度伪造检测数据集，请将您的真实/伪造样本发送至foundations@dessa.com。

许可证

DeepFake-Detection 快速上手指南

本指南基于 Dessa 开源的 DeepFake 检测项目，旨在帮助开发者快速搭建环境并复现论文中的实验。该模型基于预训练的 ResNet18，通过结合 FaceForensics++ 数据集与真实 YouTube 视频数据，提升对现实世界深度伪造视频的泛化检测能力。

环境准备

在开始之前，请确保您的系统满足以下硬件和软件要求：

系统要求

内存 (RAM): ≥ 32GB
显卡 (GPU): ≥ 1 块 (支持 CUDA)
操作系统: Linux (推荐 Ubuntu)

前置依赖

您需要安装以下基础工具：

NVIDIA Docker: 用于容器化运行环境。
- 安装参考：nvidia-docker v2.0 安装指南
FFmpeg: 用于视频帧提取。
- 安装命令：
```
sudo apt install ffmpeg
```
Atlas: Dessa 开源的任务调度与实验管理工具。
- 安装参考：Atlas GitHub 仓库

安装步骤

1. 克隆项目代码

git clone <repository_url>
cd <repository_folder>

(注：请将 <repository_url> 替换为实际的项目地址)

2. 配置 Atlas 环境

如果您尚未安装 Atlas，请先完成安装。安装完成后，激活您的 Python 环境并进入项目目录。

3. 构建 Docker 镜像

项目提供了自定义 Dockerfile 以统一实验环境。在项目根目录下执行：

cd custom_docker_image
nvidia-docker build . -t atlas_ff

注意：如果您修改了镜像名称（-t 后面的名字），请务必同步修改 job.config.yaml 文件第 16 行中的镜像名称以保持一致。

4. 准备数据集

本项目使用两部分数据：

FaceForensics++ 数据集：需前往 FaceForensics GitHub 填写 Google 表单申请访问权限并获取下载脚本。
YouTube 增强数据集：可直接从 S3 下载。

数据重组

确保您已拥有 FaceForensics 的官方下载脚本后，运行以下命令自动下载（如已下载）并重组数据结构：

bash restructure_data.sh faceforensics_download.py

配置文件调整

打开 job.config.yaml，将宿主机的数据路径从默认的 /media/biggie2/FaceForensics/datasets/ 修改为您本地实际的 datasets 文件夹绝对路径。

预期的目录结构如下：

datasets
├── augment_deepfake        (YouTube 增强数据)
│   ├── fake/frames
│   ├── real/frames
│   └── val/...
├── base_deepfake           (FaceForensics 重构数据)
│   ├── fake/frames
│   ├── real/frames
│   └── val/...
├── both_deepfake           (合并数据)
├── precomputed             (训练时自动生成，缓存裁剪帧)
└── T_deepfake              (FaceForensics 原始数据)
    ├── manipulated_sequences/...
    └── original_sequences/...

基本使用

完成上述配置后，您可以直接启动超参数搜索脚本来运行论文中展示的实验：

python hparams_search.py

该脚本将利用 Atlas 调度器在 Docker 容器中启动训练任务。训练完成后，模型将能够同时识别 FaceForensics++ 中定义的伪造技术以及现实世界中采集的深度伪造视频。

更多详细的实验结果可视化与分析，请参考项目原文技术文章或交互式 UI 演示。

常见问题

数据加载器中的 collate 函数有什么作用？

如何解决 'ModuleNotFoundError: No module named foundations' 错误？

如何获取用于提取 YouTube 数据的原始视频 URL 列表？

在 Docker 构建过程中遇到 cmake 缺失导致 dlib 安装失败怎么办？

为什么 Foundations 包中没有 .submit 成员导致代码报错？

下载 FaceForensics 数据集时出现 'Connection refused' 错误如何解决？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 140.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|昨天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架