pcam

GitHub
519 108 简单 1 次阅读 1周前NOASSERTION数据工具开发框架其他
AI 解读 由 AI 自动生成,仅供参考

pcam 是一个专为深度学习设计的图像分类基准数据集,旨在推动机器学习在医疗影像领域的应用。它包含超过 32 万张从淋巴结组织病理扫描中提取的彩色小图(96x96 像素),每张图像都标注了是否含有转移性肿瘤组织的二元标签。

传统机器学习进展多依赖 MNIST 或 CIFAR 等自然图像数据集,而 pcam 填补了医疗领域缺乏标准化、易上手基准数据的空白。它将临床上复杂的转移灶检测任务,简化为类似 CIFAR-10 的直接图像分类问题,既保留了临床相关性,又降低了研究门槛。研究人员可以在单块 GPU 上仅用数小时完成模型训练,并在肿瘤检测任务中获得具有竞争力的结果。

pcam 特别适合人工智能研究人员、算法开发者以及关注医疗影像分析的学者使用。其独特的价值在于平衡了任务难度与可执行性:规模大于 CIFAR-10 但小于 ImageNet,非常适合作为主动学习、模型不确定性分析及可解释性研究等前沿方向的实验平台。通过提供标准化的数据划分和便捷的下载方式,pcam 帮助社区更高效地验证新算法,促进有益于医疗诊断的技术发展。

使用场景

某医疗 AI 初创团队正在研发淋巴结转移癌自动筛查算法,急需一个既能反映真实病理特征,又能在单张显卡上快速验证模型原型的基准数据集。

没有 pcam 时

  • 数据门槛过高:直接使用完整的 Camelyon16 全切片图像(WSI)需要巨大的显存和复杂的预处理流程,新手难以在几小时内跑通第一个模型。
  • 评估标准缺失:缺乏介于 CIFAR-10 简单自然图像与 ImageNet 超大规模数据之间的医学专用基准,导致无法公平对比不同架构在病理场景下的真实性能。
  • 研发迭代缓慢:训练周期长达数天,严重阻碍了针对“主动学习”或“模型不确定性”等前沿方向的快速实验与调优。
  • 临床相关性弱:使用非医学通用数据集训练的模型,往往难以迁移到真实的肿瘤检测任务中,造成学术指标与临床应用脱节。

使用 pcam 后

  • 开箱即用的高效训练:利用 pcam 提供的 32 万张 96x96 标准化病理补丁,团队可在单张 GPU 上仅需数小时即可完成模型训练并达到竞争性分数。
  • 确立行业对标基准:作为专为机器学习设计的分类基准,pcam 让团队能立即将自研模型与全球最新成果进行量化对比,明确技术差距。
  • 加速前沿探索:适中的任务难度与数据规模,使得研究人员能快速验证关于可解释性和不确定性的新算法,大幅缩短从想法到验证的周期。
  • 无缝衔接临床任务:由于数据直接源自真实的淋巴结组织切片且标注精准,基于 pcam 优化的模型能更平滑地迁移至实际的癌症辅助诊断系统中。

pcam 成功填补了通用图像分类与复杂医疗影像之间的空白,让高精度的癌症检测模型研发变得像训练 CIFAR-10 一样高效且可及。

运行环境要求

操作系统
  • 未说明
GPU

非必需,但推荐用于训练(README 提及可在单张 GPU 上训练),具体型号、显存及 CUDA 版本未说明

内存

未说明(数据集文件较大,训练集约 6.1GB,建议具备足够内存以加载 HDF5 数据)

依赖
notes该工具主要是一个数据集基准(PatchCamelyon),而非独立的软件包。数据以压缩的 HDF5 格式存储,下载后需解压。官方示例代码基于 Keras 框架。训练集图像数据约为 6.1GB,验证集和测试集各约 0.8GB。任务为二分类图像分类,图像尺寸为 96x96 像素。
python未说明
keras
h5py (隐含,用于读取 HDF5Matrix)
numpy (隐含)
pcam hero image

快速开始

PatchCamelyon (PCam)

可测量的事物,才能改进。 - 卡尔·皮尔逊

PatchCamelyon 基准是一个全新且极具挑战性的图像分类数据集。它由 327,680 张彩色图像(96×96 像素)组成,这些图像取自淋巴结切片的组织病理学扫描。每张图像都附有一个二元标签,用于指示是否存在转移性组织。PCam 为机器学习模型提供了一个新的基准:规模大于 CIFAR-10,小于 ImageNet,可在单块 GPU 上进行训练。

PCam 示例图像。绿色框表示阳性标签。 PCam 中的示例图像。绿色框标示出中心区域的肿瘤组织,该区域决定了图像的阳性标签。

目录

为何选择 PCam

机器学习领域的基础性进展通常是在一些较为简单的自然图像分类数据集上进行评估的,比如 MNIST、CIFAR 和 SVHN。然而,医学影像正逐渐成为机器学习的主要应用领域之一,我们认为它理应被列入“首选”机器学习数据集之列。这不仅能够推动未来研究的创新,还能引导相关技术朝着对该领域有益的方向发展。

我们相信,PCam 可以在这一过程中发挥重要作用。它将具有临床意义的转移灶检测任务简化为一个直接的二分类图像任务,类似于 CIFAR-10 和 MNIST。模型只需在单块 GPU 上运行数小时即可完成训练,并在 Camelyon16 的肿瘤检测和全切片图像诊断任务中取得具有竞争力的成绩。此外,任务难度与可操作性之间的平衡使其成为主动学习、模型不确定性及可解释性等基础机器学习研究的理想对象。

下载

数据以 gzip 压缩的 HDF5 文件形式存储,可通过以下链接下载。每个数据集包含数据文件和标签文件。此外,还提供了一个元数据 CSV 文件,其中描述了补丁是从 Camelyon16 的哪张切片中提取的,但此信息并未用于基准的训练或评估。如遇下载问题,请通过 GitHub 问题提交反馈。

可从 Google Drive 一次性下载所有文件。

名称 内容 大小 链接 MD5 校验码
camelyonpatch_level_2_split_train_x.h5.gz 训练图像 6.1 GB 下载 1571f514728f59376b705fc836ff4b63
camelyonpatch_level_2_split_train_y.h5.gz 训练标签 21 KB 下载 35c2d7259d906cfc8143347bb8e05be7
camelyonpatch_level_2_split_valid_x.h5.gz 验证图像 0.8 GB 下载 d8c2d60d490dbd479f8199bdfa0cf6ec
camelyonpatch_level_2_split_valid_y.h5.gz 验证标签 3.0 KB 下载 60a7035772fbdb7f34eb86d4420cf66a
camelyonpatch_level_2_split_test_x.h5.gz 测试图像 0.8 GB 下载 d5b63470df7cfa627aeec8b9dc0c066e
camelyonpatch_level_2_split_test_y.h5.gz 测试标签 3.0 KB 下载 2b85f58b927af9964a4c15b8f7e8f179
camelyonpatch_level_2_split_train_meta.csv 训练元数据 下载 5a3dd671e465cfd74b5b822125e65b0a
camelyonpatch_level_2_split_valid_meta.csv 验证元数据 下载 3455fd69135b66734e1008f3af684566
camelyonpatch_level_2_split_test_meta.csv 测试元数据 下载 67589e00a4a37ec317f2d1932c7502ca

Zenodo 镜像:

https://zenodo.org/record/2546921

百度 AI Studio:

https://aistudio.baidu.com/aistudio/datasetdetail/30060

使用与技巧

Keras 示例

Keras 的通用数据加载器

from keras.utils import HDF5Matrix
from keras.preprocessing.image import ImageDataGenerator

x_train = HDF5Matrix('camelyonpatch_level_2_split_train_x.h5', 'x')
y_train = HDF5Matrix('camelyonpatch_level_2_split_train_y.h5', 'y')

datagen = ImageDataGenerator(
              preprocessing_function=lambda x: x/255.,
              width_shift_range=4,  // 随机水平平移图像
              height_shift_range=4,  // 随机垂直平移图像
              horizontal_flip=True,  // 随机翻转图像
              vertical_flip=True)  // 随机翻转图像
              
model.fit_generator(datagen.flow(x_train, y_train, batch_size=batch_size),
                    steps_per_epoch=len(x_train) // batch_size
                    epochs=1024,
                    )

详细信息

数据量

该数据集分为训练集、验证集和测试集三部分:训练集包含 262,144 个样本(2^18),验证集和测试集各包含 32,768 个样本(2^15)。各划分之间不存在全切片图像的重叠,且所有划分中的阳性与阴性样本比例均为 50/50。

标注规则

阳性标签表示补丁中心区域的 32×32 像素内至少包含一个肿瘤细胞像素。补丁外围区域的肿瘤组织不会影响标签判定。提供外围区域是为了便于设计无需零填充的全卷积模型,从而确保其在应用于整张切片图像时行为一致。不过,这并非 PCam 基准的强制要求。

片段选择

PCam 数据集源自 Camelyon16 挑战赛 [2],该数据集包含 400 张前哨淋巴结切片的 H&E 染色全切片图像(WSI)。这些载玻片由两家不同的中心使用 40 倍物镜采集并数字化,最终像素分辨率为 0.243 微米。我们将其下采样至 10 倍放大率,以扩大视野范围。 我们沿用了 Camelyon16 挑战赛 [2] 的训练/测试划分方式,并进一步从训练 WSI 中抽出 20% 作为验证集。为避免选取背景片段,我们将载玻片转换为 HSV 颜色空间并进行模糊处理,若最大像素饱和度低于 0.07,则过滤掉该片段(经验证此阈值不会误剔除训练集中的肿瘤数据)。 基于片段的数据集通过迭代选择一张 WSI,并以概率 p 选取阳性或阴性片段来采样。随后,利用一个小型卷积神经网络按照随机硬负样本挖掘策略拒绝部分片段,并调整 p 值,以维持接近 50/50 的正负样本比例。

统计信息

即将发布

联系方式

如遇不适合在 GitHub 上提交的问题或疑问,请发送邮件至 Bas Veeling

引用 PCam

若您在科研出版物中使用了 PCam 数据集,我们非常感谢您引用以下论文:

[1] B. S. Veeling, J. Linmans, J. Winkens, T. Cohen, M. Welling. “用于数字病理学的旋转等变 CNN”。arXiv:1806.03962

同时,也欢迎引用原始的 Camelyon16 数据集论文:

[2] Ehteshami Bejnordi 等人. 深度学习算法在检测乳腺癌女性患者淋巴结转移中的诊断评估. JAMA:美国医学会杂志,318(22), 2199–2210. doi:jama.2017.14585

Biblatex 条目:

@ARTICLE{Veeling2018-qh,
  title         = "Rotation Equivariant {CNNs} for Digital Pathology",
  author        = "Veeling, Bastiaan S and Linmans, Jasper and Winkens, Jim and
                   Cohen, Taco and Welling, Max",
  month         =  jun,
  year          =  2018,
  archivePrefix = "arXiv",
  primaryClass  = "cs.CV",
  eprint        = "1806.03962"
}

基准测试

名称 参考文献 数据增强 准确率 AUC NLL FROC*
GDensenet [1] 按照 Liu 等人的方法 89.8 96.3 0.260 75.8 (64.3, 87.2)
添加您的结果

* 在 Camelyon16 肿瘤检测任务上的表现,并非 PCam 基准测试的一部分。

贡献

欢迎提供其他框架的示例脚本!

许可证

数据依据 Camelyon16 的许可协议,采用 CC0 许可证 提供。 本仓库其余内容则采用 MIT 许可证

致谢

  • Babak Ehteshami Bejnordi、Geert Litjens 和 Jeroen van der Laak 对本数据集配置提供的宝贵建议。
  • README 文档参考自 Fashion-MNIST

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|3天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|4天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

147.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|昨天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|3天前
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|3天前
语言模型图像Agent