fraud-detection-handbook

691 212 简单 1 次阅读 4天前NOASSERTION其他数据工具开发框架

AI 解读由 AI 自动生成，仅供参考

fraud-detection-handbook 是一本专注于信用卡欺诈检测的开源实战手册，旨在推动该领域机器学习研究的可复现性。当前，虽然利用机器学习识别支付欺诈已成为热门研究方向，但行业内长期缺乏统一的基准测试和方法论，导致不同技术方案难以进行公平对比与评估。

本项目通过提供完整的代码实现和详细教程，有效解决了这一痛点。书中涵盖的所有技术与实验结果均具备高度可复现性，核心内容以 Jupyter Notebook 形式呈现，支持用户在本地环境或 Google Colab、Binder 等云端平台直接运行代码。内容体系全面，从基础背景、性能指标、模型选择，到不平衡学习、深度学习及模型可解释性等进阶主题均有深入讲解。

fraud-detection-handbook 特别适合希望从实践角度深入理解信用卡反欺诈的学生、数据科学家及相关从业者。同时，对于需要处理序列数据或解决类别不平衡分类问题的广大机器学习开发者，本书也极具参考价值。项目采用开放协作模式，代码遵循 GNU GPL v3.0 协议，文本与图片采用 CC BY-SA 4.0 协议，欢迎社区共同参与完善。

使用场景

某金融科技公司数据科学团队正面临信用卡交易欺诈激增的挑战，急需构建一套高效且可验证的机器学习检测系统。

没有 fraud-detection-handbook 时

缺乏统一标准：团队成员各自为战，选用的评估指标混乱（如仅看准确率），导致模型在极度不平衡的欺诈数据上表现虚高，实际漏报严重。
复现困难重重：参考的学术论文代码缺失或依赖不明，花费数周时间仍无法复现业界先进的深度学习算法，研发进度严重滞后。
方法论缺失：面对样本极度倾斜问题，团队盲目尝试各种过采样技术，缺乏系统的对比实验指导，导致模型泛化能力差。
黑盒决策风险：模型上线后无法向合规部门解释判定逻辑，因缺乏可解释性分析框架而面临监管审计风险。

使用 fraud-detection-handbook 后

建立规范基准：直接采用书中定义的标准化性能指标体系（如 PR-AUC），快速识别出真正有效的模型，显著降低漏报率。
开箱即用复现：通过提供的 Jupyter Notebook 和 Google Colab 环境，一键运行并验证前沿算法，将算法验证周期从数周缩短至数天。
系统化不平衡学习：依据书中第 6 章的系统方法论，科学选择并组合重采样与代价敏感学习策略，大幅提升了模型对罕见欺诈模式的捕捉能力。
透明可信决策：利用第 8 章的可解释性指南，生成清晰的特征贡献图，轻松通过内部合规审查并赢得业务部门信任。

fraud-detection-handbook 通过提供可复现的代码基准与系统化方法论，将信用卡反欺诈建模从“盲目试错”转变为“科学工程”，极大提升了研发效率与模型可靠性。

运行环境要求

操作系统

未说明 (支持本地运行或云端 Google Colab/Binder)

GPU

未说明

内存

未说明

依赖

notes本项目是一本可复现的机器学习书籍，核心内容为 Jupyter Notebook。需在本地克隆仓库并安装 Jupyter Book 来编译生成 HTML 版本阅读，或直接使用 Google Colab 和 Binder 在云端运行代码。书中包含深度学习章节，具体运行时依赖取决于各章节 Notebook 内的代码实现，但 README 仅明确列出了构建书籍文档所需的特定版本依赖。

python未说明

jupyter-book==0.11.2

Sphinx==4.2.0

sphinxcontrib-bibtex==2.2.1

快速开始

用于信用卡欺诈检测的可复现机器学习——实践手册

提前访问

预览版可在 https://fraud-detection-handbook.github.io/fraud-detection-handbook/Foreword.html 获取。

动机

用于信用卡欺诈检测的机器学习（ML for CCFD）已成为一个活跃的研究领域。这一点可以从过去十年间该主题上“数量惊人的出版物”中得到体现（参见 https://fraud-detection-handbook.github.io/fraud-detection-handbook/Chapter_2_Background/MachineLearningForFraudDetection.html）。

毫无疑问，将机器学习技术整合到支付卡欺诈检测系统中，极大地提升了其高效识别欺诈的能力。然而，在这一新兴研究领域中，一个主要问题在于缺乏可复现性。目前尚不存在公认的基准或方法论来比较和评估所提出的各种技术。

本书旨在朝着这一方向迈出第一步。书中提供的所有技术和结果均可复现。包含代码的部分均为 Jupyter 笔记本，既可以在本地运行，也可以通过 Google Colab 或 Binder 在云端执行。

本书的目标读者是那些从实践角度对信用卡欺诈检测这一特定问题感兴趣的学生或专业人士。更广泛地说，我们认为本书对于处理涉及序列数据和/或不平衡分类问题的机器学习任务的数据从业者和数据科学家也具有参考价值。

暂定目录：

第1章：本书概述
第2章：背景知识
第3章：入门
第4章：性能指标
第5章：模型选择
第6章：不平衡学习
第7章：深度学习
第8章：可解释性*

(*): 尚未发布。

当前草稿

本书的撰写工作仍在进行中。我们通过此 GitHub 仓库提供本书的早期访问版本。截至 2022 年 1 月，前七章已公开发布。

本书当前草稿的在线版本可在此处查看：https://fraud-detection-handbook.github.io/fraud-detection-handbook/。

欢迎提出任何意见或建议。我们建议使用 GitHub Issues 来讨论相关话题，并使用 Pull Requests 来修正错别字。

编译本书

若要在您的计算机上阅读或执行本书，您需要先克隆此仓库并编译本书。

本书为 Jupyter Book 格式，因此您首先需要安装 Jupyter Book（参见 https://jupyterbook.org/intro.html#install-jupyter-book）。

编译过程已在以下软件包版本下测试通过：

sphinxcontrib-bibtex==2.2.1
Sphinx==4.2.0
jupyter-book==0.11.2

完成上述步骤后，编译过程分为两步：

克隆本仓库：

git clone https://github.com/Fraud-Detection-Handbook/fraud-detection-handbook

编译本书：

jupyter-book build fraud-detection-handbook

编译完成后，本书将在本地路径 fraud-detection-handbook/_build/html/index.html 下可用。

许可证

笔记本中的代码采用 GNU GPL v3.0 许可证发布。正文和图片则采用 CC BY-SA 4.0 许可证发布。

如需引用本书，可使用以下格式：

@book{leborgne2022fraud,
title={Reproducible Machine Learning for Credit Card Fraud Detection - Practical Handbook},
author={Le Borgne, Yann-Aël and Siblini, Wissam and Lebichot, Bertrand and Bontempi, Gianluca},
url={https://github.com/Fraud-Detection-Handbook/fraud-detection-handbook},
year={2022},
publisher={Université Libre de Bruxelles}
}

作者

Yann-Aël Le Borgne（联系作者 — yann-ael.le.borgne@ulb.be）— 比利时布鲁塞尔自由大学机器学习小组。
Wissam Siblini — Worldline Labs 机器学习研究团队。
Bertrand Lebichot — 卢森堡大学跨学科安全、可靠性和信任研究中心。
Gianluca Bontempi — 比利时布鲁塞尔自由大学机器学习小组。

致谢

本书是比利时布鲁塞尔自由大学机器学习小组与 Worldline 公司之间长达十年合作的成果。

布鲁塞尔自由大学机器学习小组，首席研究员：Gianluca Bontempi
Worldline 公司，研发负责人：Frédéric Oblé

我们衷心感谢在此合作期间参与该项目的所有同事：Olivier Caelen（布鲁塞尔自由大学机器学习小组/Worldline）、Fabrizio Carcillo（布鲁塞尔自由大学机器学习小组）、Guillaume Coter（Worldline）、Andrea Dal Pozzolo（布鲁塞尔自由大学机器学习小组）、Jacopo De Stefani（布鲁塞尔自由大学机器学习小组）、Rémy Fabry（Worldline）、Liyun He-Guelton（Worldline）、Gian Marco Paldino（布鲁塞尔自由大学机器学习小组）、Théo Verhelst（布鲁塞尔自由大学机器学习小组）。

此次合作得以实现，得益于布鲁塞尔地区科研与创新机构 Innoviris 的支持，通过一系列始于 2012 年、止于 2021 年的资助项目。

2018年至2021年：DefeatFraud：欺诈检测中深度特征工程与学习方案的评估与验证。Innoviris Team Up 计划。
2015年至2018年：BruFence：用于自动化防御系统的可扩展机器学习。Innoviris Bridge 计划。
2012年至2015年：用于信用卡欺诈检测的自适应实时机器学习。Innoviris Doctiris 计划。

目前，双方的合作仍在继续，依托于 Data Engineering for Data Science (DEDS) 项目——该计划属于欧盟“地平线 2020”框架下的玛丽·斯克沃多夫斯卡-居里创新培训网络（H2020-MSCA-ITN-2020）。

fraud-detection-handbook 快速上手指南

本指南旨在帮助开发者快速本地部署并运行《可复现的信用卡欺诈检测机器学习实用手册》。该项目基于 Jupyter Book 构建，包含完整的代码示例（Jupyter Notebook）和理论章节，专注于解决数据不平衡和序列数据分类问题。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows (需安装 Git 和 Python 环境)
Python 版本：推荐 Python 3.7+
前置依赖：
- git：用于克隆代码仓库
- pip 或 conda：用于安装 Python 包
- 核心工具：jupyter-book (用于编译书籍)

注意：原文档测试通过的特定版本如下，若遇到兼容性问题，可参考安装：

sphinxcontrib-bibtex==2.2.1

Sphinx==4.2.0

jupyter-book==0.11.2

安装步骤

1. 克隆项目仓库

使用终端或命令行工具克隆官方 GitHub 仓库：

git clone https://github.com/Fraud-Detection-Handbook/fraud-detection-handbook

2. 安装 Jupyter Book

进入项目目录（可选），并使用 pip 安装必要的构建工具。国内用户建议使用清华源或阿里源加速安装：

pip install jupyter-book -i https://pypi.tuna.tsinghua.edu.cn/simple

(如需严格复现原文档环境，可执行：pip install sphinxcontrib-bibtex==2.2.1 Sphinx==4.2.0 jupyter-book==0.11.2)

3. 编译书籍

执行以下命令将源码编译为本地可阅读的 HTML 格式：

jupyter-book build fraud-detection-handbook

基本使用

编译完成后，您可以在本地浏览器中查看完整内容并运行代码示例。

打开书籍：在文件管理器中找到生成的索引文件，路径为： fraud-detection-handbook/_build/html/index.html 双击打开或在浏览器中访问该文件。
运行代码示例：书中包含代码的章节均为 Jupyter Notebook。您可以选择以下两种方式运行：
- 本地运行：在 _build 目录或源码目录中找到对应的 .ipynb 文件，使用 Jupyter Lab 或 Jupyter Notebook 打开并执行单元格。
- 云端运行：根据书中提供的链接，直接使用 Google Colab 或 Binder 加载对应章节进行在线实验（需网络环境支持）。
学习路径建议：建议按顺序阅读，重点关注以下核心章节：
- Chapter 4: 性能指标（针对不平衡数据的评估方法）
- Chapter 6: 不平衡学习（处理欺诈检测核心难点）
- Chapter 7: 深度学习（前沿模型应用）

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架