differential-privacy-library

911 207 非常简单 1 次阅读 1周前MIT数据工具开发框架

AI 解读由 AI 自动生成，仅供参考

differential-privacy-library 是 IBM 开源的一款通用差分隐私库，旨在帮助开发者和研究人员轻松探索和应用差分隐私技术。在数据分析和机器学习日益普及的今天，如何在挖掘数据价值的同时严格保护个人隐私成为一大挑战，differential-privacy-library 正是为解决这一难题而生。它通过向算法中添加可控的随机噪声，确保模型训练过程不会泄露任何单个样本的敏感信息，从而在数据效用与隐私安全之间找到平衡。

这款工具特别适合数据科学家、算法工程师以及高校研究人员使用。无论是想快速验证差分隐私对模型精度的影响，还是希望原型化自己的隐私保护算法，differential-privacy-library 都能提供极大便利。其最大的技术亮点在于高度的兼容性：它设计了与主流机器学习库 scikit-learn 几乎一致的接口。这意味着用户无需重写大量代码，只需将普通的分类器或回归模型替换为库中对应的差分隐私版本（如 GaussianNB），并设定隐私预算参数 epsilon，即可立即获得具备隐私保护能力的模型。虽然目前主要面向科研与教育场景，但它凭借低门槛和实用性，已成为全球差分隐私社区广泛采用的基准工具。

使用场景

某医疗科技公司的数据科学团队需要在不泄露患者隐私的前提下，利用敏感的临床记录训练疾病预测模型。

没有 differential-privacy-library 时

隐私泄露风险高：直接训练机器学习模型可能导致模型“记忆”特定患者的独特特征，攻击者可通过模型反推还原个人病历。
算法实现门槛极高：团队需从零研究复杂的差分隐私数学原理并手动编写噪声注入代码，开发周期长达数月且极易出错。
隐私与效用难平衡：缺乏标准化工具来量化隐私预算（epsilon），难以评估添加多少噪声能在保护隐私的同时保持模型准确率。
合规审计困难：无法向监管机构提供标准化的隐私保护证明，导致项目因不符合数据安全法规（如 HIPAA 或 GDPR）而被搁置。

使用 differential-privacy-library 后

原生隐私保护：直接调用 diffprivlib.models 中的分类器（如高斯朴素贝叶斯），在训练过程中自动注入数学证明安全的噪声，从源头阻断隐私泄露。
无缝集成现有流程：该库接口完全兼容 Scikit-learn，团队无需重写代码，仅需替换导入语句即可在 30 秒内将普通模型升级为隐私保护模型。
可控的隐私预算：通过简单设置 epsilon 参数即可精确控制隐私保护强度，并能快速绘制"epsilon-准确率”曲线以找到最佳平衡点。
加速合规落地：基于 IBM 开源且经过社区广泛验证的算法，团队能迅速生成符合学术与工业标准的安全报告，推动项目顺利上线。

differential-privacy-library 将高深的隐私保护理论转化为开箱即用的工程能力，让开发者在严守数据伦理的同时释放人工智能的价值。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该库主要用于研究和教育目的，生产环境使用需联系作者。安装可通过 pip 或源码克隆。代码示例依赖 scikit-learn 进行数据加载和模型评估，依赖 matplotlib 进行绘图。未明确指定具体的操作系统、GPU 或内存需求，表明其可能适用于通用的 Python 运行环境。

python3.x

scikit-learn

numpy

matplotlib

pytest

快速开始

Diffprivlib v0.6

Diffprivlib 是一个用于差分隐私（DP）的通用库。如果您希望：

尝试差分隐私技术
探索差分隐私对机器学习和数据分析应用的影响
原型设计您自己的差分隐私算法

自 2019 年首次发布以来，diffprivlib 已被证明是差分隐私社区中不可或缺的资源，获得了数百次引用、星标、分支和部署。该库降低了新科学家和工程师进入差分隐私领域并进行学习的门槛，催生了新的研究，并成为新算法和新库的基准。

注意： diffprivlib 的公开发布仅用于研究和教育目的。如果您有意在生产环境中使用 diffprivlib，请与我们联系。

入门：30 秒内实现差分隐私的机器学习

我们使用 Iris 数据集，让我们加载它并进行 80/20 的训练/测试集划分。

from sklearn import datasets
from sklearn.model_selection import train_test_split

dataset = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(dataset.data, dataset.target, test_size=0.2)

现在，让我们训练一个差分隐私朴素贝叶斯分类器。我们的分类器 运行方式与 sklearn 分类器完全相同，因此您可以快速上手。

diffprivlib.models.GaussianNB 可以 无需任何参数 运行，尽管这会触发警告（我们需要指定 bounds 参数来避免此情况）。隐私级别由参数 epsilon 控制，该参数在分类器初始化时传入（例如 GaussianNB(epsilon=0.1)）。默认值为 epsilon = 1.0。

from diffprivlib.models import GaussianNB

clf = GaussianNB()
clf.fit(X_train, y_train)

现在我们可以对未见过的样本进行分类，同时确信训练好的模型是差分隐私的，并且保护了训练集中“个体”的隐私（毕竟，花朵也有隐私权嘛！）。

clf.predict(X_test)

每次调用 .fit() 训练模型时，由于差分隐私的随机性，都会生成不同的模型。因此，即使使用相同的训练数据重新训练，准确率也会有所变化。不妨亲自尝试一下，看看结果吧！

print("测试准确率：%f" % clf.score(X_test, y_test))

我们可以轻松评估不同 epsilon 值下的模型准确率，并使用 matplotlib 绘制图表。

import numpy as np
import matplotlib.pyplot as plt

epsilons = np.logspace(-2, 2, 50)
bounds = ([4.3, 2.0, 1.1, 0.1], [7.9, 4.4, 6.9, 2.5])
accuracy = list()

for epsilon in epsilons:
    clf = GaussianNB(bounds=bounds, epsilon=epsilon)
    clf.fit(X_train, y_train)
    
    accuracy.append(clf.score(X_test, y_test))

plt.semilogx(epsilons, accuracy)
plt.title("差分隐私朴素贝叶斯准确率")
plt.xlabel("epsilon")
plt.ylabel("准确率")
plt.show()

差分隐私朴素贝叶斯

恭喜您！您已经使用差分隐私库完成了您的第一个差分隐私机器学习任务！更多示例请查看 notebooks 目录，或直接深入源码。

内容

Diffprivlib 由四个主要组件组成：

机制： 这些是差分隐私的构建模块，所有实现差分隐私的模型都会使用它们。机制几乎没有默认设置，主要供专家在实现自有模型时使用。不过，它们也可以独立于模型用于单独的研究等。
模型： 本模块包含具有差分隐私功能的机器学习模型。目前，Diffprivlib 提供聚类、分类、回归、降维和预处理等模型。
工具： Diffprivlib 配备了多种用于差分隐私数据分析的通用工具。其中包括差分隐私直方图，其格式与 Numpy 的 histogram 函数相同。
预算管理器： BudgetAccountant 类可用于跟踪隐私预算，并利用高级组合技术计算总隐私损失。

安装

使用 `pip` 安装

该库专为 Python 3 设计。可以通过 PyPI 仓库使用 pip（或 pip3）安装：

pip install diffprivlib

手动安装

要获取最新版本的库，您可以下载源代码或将仓库克隆到您选择的目录中：

git clone https://github.com/IBM/differential-privacy-library

要在项目文件夹中安装 diffprivlib，请执行以下操作（或者您也可以运行 python3 -m pip install .）：

pip install .

该库附带一组基本的 pytest 单元测试。要检查您的安装是否正常，可以在安装目录中运行所有单元测试：

pytest

引用 diffprivlib

如果您在研究中使用 diffprivlib，请考虑引用以下参考文献：

@article{diffprivlib,
  title={Diffprivlib：{IBM} 差分隐私库},
  author={Holohan, Naoise and Braghin, Stefano and Mac Aonghusa, P{\'o}l and Levacher, Killian},
  year={2019},
  journal = {ArXiv e-prints},
  archivePrefix = "arXiv",
  volume = {1907.02444 [cs.CR]},
  primaryClass = "cs.CR",
  month = jul
}

参考文献

Holohan, N., Antonatos, S., Braghin, S. 和 Mac Aonghusa, P., 2018. 差分隐私中的有界拉普拉斯机制. 隐私与保密期刊第10卷第1期.
Holohan, N., Braghin, S., Mac Aonghusa, P. 和 Levacher, K., 2019. Diffprivlib：IBM 差分隐私库. ArXiv e-prints 1907.02444 [cs.CR].
Ludwig, H., Baracaldo, N., Thomas, G., Zhou, Y., Anwar, A., Rajamoni, S., Ong, Y., Radhakrishnan, J., Verma, A., Sinn, M. 和 Purcell, M., 2020. IBM 联邦学习：企业级框架白皮书 v0.1. ArXiv e-prints 2007.10987 [cs.LG].
Holohan, N. 和 Braghin, S., 2021. 差分隐私中的安全随机采样. 载于《计算机安全—ESORICS 2021：第26届欧洲计算机安全研究研讨会，德国达姆施塔特，2021年10月4日至8日，论文集，第二部分第26章（第523–542页）。Springer International Publishing.
Holohan, N., 2023. 用于差分隐私的随机数生成器与种子设置. ArXiv e-prints 2307.03543 [cs.CR].
Holohan, N., Braghin, S. 和 Suliman, M., 2024. 为噪声添加提供保障的浮点运算. 载于2024年ACM SIGSAC计算机与通信安全会议论文集（第1954–1966页）。

致谢

本仓库中的工作部分得到了欧盟“地平线”研究与创新计划的资助，资助编号分别为951911（AI4Media）和101070473（FLUIDOS）。

Diffprivlib 快速上手指南

Diffprivlib 是 IBM 开源的通用差分隐私（Differential Privacy, DP）库，旨在降低研究人员和工程师进入差分隐私领域的门槛。它提供了与 scikit-learn 兼容的机器学习模型、基础机制及隐私预算跟踪工具，适用于实验、原型开发及数据分析。

注意：该库主要用于研究和教育目的。若需在生产环境中使用，请联系官方团队。

环境准备

操作系统：Linux, macOS, Windows
Python 版本：Python 3.6 及以上
核心依赖：
- numpy
- scikit-learn
- matplotlib (用于绘图示例)
- pytest (可选，用于运行测试)

确保已安装 Python 3 及 pip 包管理工具。

安装步骤

方式一：通过 PyPI 安装（推荐）

使用 pip 直接安装稳定版：

pip install diffprivlib

国内用户加速建议：如果下载速度较慢，可使用国内镜像源（如清华源）：

pip install diffprivlib -i https://pypi.tuna.tsinghua.edu.cn/simple

方式二：从源码安装（获取最新版本）

克隆仓库并本地安装：

git clone https://github.com/IBM/differential-privacy-library
cd differential-privacy-library
pip install .

验证安装

安装完成后，可运行内置单元测试检查环境是否正常：

pytest

基本使用

Diffprivlib 的设计理念是与 scikit-learn 保持接口一致。以下示例展示如何在 30 秒内训练一个具有差分隐私保护的朴素贝叶斯分类器。

1. 数据准备

加载经典的 Iris 数据集并进行训练集/测试集划分：

from sklearn import datasets
from sklearn.model_selection import train_test_split

dataset = datasets.load_iris()
X_train, X_test, y_train, y_test = train_test_split(dataset.data, dataset.target, test_size=0.2)

2. 训练差分隐私模型

导入 GaussianNB 模型。该模型用法与普通 sklearn 模型完全相同。

epsilon: 控制隐私保护强度（默认 1.0，值越小隐私性越强，但准确率可能下降）。
bounds: 数据边界范围（强烈建议指定以消除警告并提高准确性）。

from diffprivlib.models import GaussianNB

# 定义数据边界 (根据 Iris 数据集特征范围)
bounds = ([4.3, 2.0, 1.1, 0.1], [7.9, 4.4, 6.9, 2.5])

# 初始化并训练模型
clf = GaussianNB(bounds=bounds, epsilon=1.0)
clf.fit(X_train, y_train)

3. 预测与评估

使用训练好的模型进行预测，并计算准确率。由于差分隐私引入了随机噪声，每次运行 .fit() 得到的模型和准确率都会略有不同。

# 预测
predictions = clf.predict(X_test)

# 评估准确率
print("Test accuracy: %f" % clf.score(X_test, y_test))

4. 进阶：探索隐私预算对准确率的影响

可以通过循环不同的 epsilon 值，观察隐私保护强度与模型性能之间的权衡关系：

import numpy as np
import matplotlib.pyplot as plt
from diffprivlib.models import GaussianNB

epsilons = np.logspace(-2, 2, 50)
bounds = ([4.3, 2.0, 1.1, 0.1], [7.9, 4.4, 6.9, 2.5])
accuracy = list()

for epsilon in epsilons:
    clf = GaussianNB(bounds=bounds, epsilon=epsilon)
    clf.fit(X_train, y_train)
    accuracy.append(clf.score(X_test, y_test))

plt.semilogx(epsilons, accuracy)
plt.title("Differentially private Naive Bayes accuracy")
plt.xlabel("epsilon")
plt.ylabel("Accuracy")
plt.show()

更多详细示例（如聚类、回归、直方图统计等）请参考项目官方 notebooks 目录。

版本历史

0.6.62025/04/10

0.6.52024/10/10

0.6.42024/01/31

0.6.32023/06/30

0.6.22022/12/09

0.6.12022/11/24

0.6.02022/10/21

0.5.22022/05/13

0.5.12022/01/17

0.5.02021/10/01

0.4.12021/01/29

0.4.02020/12/18

0.3.02020/06/26

0.2.12020/05/13

0.2.02020/01/06

常见问题

差分隐私随机森林分类器（RandomForestClassifier）在调用 predict 函数时报错 "ValueError: can only convert an array of size 1 to a Python scalar"，如何解决？

如何生成一个带有拉普拉斯噪声的向量（noisy vector）？

库中是否支持差分隐私百分位数（percentiles）计算？如果有，如何使用？

运行官方提供的 logistic_regression.ipynb 示例笔记本时，结果与预期不符（准确率随 epsilon 变化不明显），该怎么办？

在 quantiles.py 中发现潜在的 "Array index out of bounds"（数组索引越界）错误，官方确认了吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|5天前

插件开发框架

使用场景

没有 differential-privacy-library 时

使用 differential-privacy-library 后

运行环境要求

快速开始

Diffprivlib v0.6

入门：30 秒内实现差分隐私的机器学习

内容

安装

使用 pip 安装

手动安装

引用 diffprivlib

参考文献

致谢

Diffprivlib 快速上手指南

环境准备

安装步骤

方式一：通过 PyPI 安装（推荐）

方式二：从源码安装（获取最新版本）

验证安装

基本使用

1. 数据准备

2. 训练差分隐私模型

3. 预测与评估

4. 进阶：探索隐私预算对准确率的影响

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown

使用 `pip` 安装