Siamese-pytorch

732 156 简单 1 次阅读 2天前MIT图像

AI 解读由 AI 自动生成，仅供参考

Siamese-pytorch 是一个基于 PyTorch 框架实现的孪生神经网络开源库，核心功能是高效比对两张图片的相似程度。它主要解决了图像识别中“小样本学习”的难题，即在缺乏大量标注数据的情况下，依然能够精准判断图像是否属于同一类别，广泛应用于人脸验证、签名鉴别及字符匹配等场景。

该工具非常适合 AI 开发者、算法研究人员以及需要快速构建图像相似度模型的技术团队使用。其技术亮点在于采用了经典的 VGG16 作为主干特征提取网络，并针对训练过程进行了深度优化：不仅支持 Adam 和 SGD 等多种优化器，还引入了 Step 和 Cosine 学习率衰减策略，甚至能根据 Batch Size 自适应调整学习率，显著提升了模型的收敛速度与稳定性。

在使用灵活性方面，Siamese-pytorch 既提供了预训练权重，让用户无需训练即可直接对 Omniglot 数据集进行预测；也支持用户自定义数据集，只需简单调整文件目录结构，便能轻松训练专属的相似度比较模型。无论是用于学术研究还是工程落地，它都是一个上手友好且功能强大的基础工具。

使用场景

某电商平台的客服团队每天需处理大量用户上传的商品瑕疵照片，人工判断两张图片是否属于同一类瑕疵效率极低且容易出错。

没有 Siamese-pytorch 时

开发人员需从头搭建复杂的深度学习架构，耗费数周时间研究孪生神经网络的底层实现细节。
缺乏预训练模型支持，必须收集海量标注数据才能启动训练，冷启动成本极高。
面对不同格式的图片数据集（如 Omniglot 或自定义人脸/商品图），需手动编写繁琐的数据加载与预处理代码。
难以灵活调整学习率策略和优化器，模型收敛速度慢，且在小样本场景下识别准确率不稳定。
每次新增一种瑕疵类型，都需要重新训练整个分类模型，维护成本随业务扩展呈指数级上升。

使用 Siamese-pytorch 后

直接调用基于 VGG16 的成熟主干网络，配合清晰的训练脚本，半天内即可完成环境部署与模型试运行。
利用官方提供的 Omniglot 预训练权重进行迁移学习，仅需少量瑕疵样本即可快速适配新业务场景。
支持灵活的数据集格式配置，无论是多层级的字符集还是扁平化的商品图文件夹，均可通过简单参数切换适配。
内置 Step/Cos 学习率衰减及 Adam/SGD 优化器选项，自动根据 Batch Size 调整策略，显著提升小样本下的比对精度。
采用“一对一对”的相似性判断机制，新增瑕疵类型无需重训全网，只需加入新样本即可实时生效。

Siamese-pytorch 将原本需要数周研发的图像比对功能缩短至天级别，让中小团队也能低成本落地高精度的视觉相似性检测应用。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该工具使用 VGG16 作为主干特征提取网络。训练 Omniglot 数据集和自定义数据集需要不同的文件夹层级格式（自定义数据集比 Omniglot 少一级目录）。若使用预训练权重进行预测，需下载 Omniglot_vgg.pth；若训练新数据集，需下载 vgg16-397923af.pth 作为初始化权重。数据文件主要通过百度网盘提供。

python未说明

torch==1.2.0

快速开始

Siamese：孪生神经网络在Pytorch当中的实现

Top News

2022-04:进行了大幅度的更新，支持step、cos学习率下降法、支持adam、sgd优化器选择、支持学习率根据batch_size自适应调整。
BiliBili视频中的原仓库地址为：https://github.com/bubbliiiing/siamese-pytorch/tree/bilibili

注意事项

训练Omniglot数据集和训练自己的数据集可以采用两种不同的格式。需要注意格式的摆放噢！

该仓库实现了孪生神经网络（Siamese network），该网络常常用于检测输入进来的两张图片的相似性。该仓库所使用的主干特征提取网络（backbone）为VGG16。

所需环境

torch==1.2.0

文件下载

训练所需的vgg16-397923af.pth可在百度网盘中下载。
链接: https://pan.baidu.com/s/14SFoKX6xTDPx2XG9rcUTDQ 提取码: 44en

Omniglot数据集下载地址为：
链接: https://pan.baidu.com/s/1pYp6vqiLLRFLn1tVeRk8ZQ 提取码: 5sa7

人脸数据集下载地址为（格式还需要简单修改一下才可以使用，请参考下方“训练自己相似性比较的模型”的格式进行修改）：
链接: https://pan.baidu.com/s/1OvEFXTUZrvu4T5qSPkHOJw 提取码: aqhg

我一共会提供两个权重，分别是vgg16-397923af.pth和Omniglot_vgg.pth。
其中:
Omniglot_vgg.pth是Omniglot训练好的权重，可直接使用进行下面的预测步骤。
vgg16-397923af.pth是vgg的权重，可以用于训练其它的数据集。

预测步骤

a、使用预训练权重

下载完库后解压，在百度网盘下载Omniglot_vgg.pth，放入model_data，运行predict.py，依次输入

img/Angelic_01.png

img/Angelic_02.png

b、使用自己训练的权重

按照训练步骤训练。
在siamese.py文件里面，在如下部分修改model_path使其对应训练好的文件；model_path对应logs文件夹下面的权值文件。

_defaults = {
    "model_path": 'model_data/Omniglot_vgg.pth',
    "input_shape" : (105, 105, 3),
}

运行predict.py，输入

img/Angelic_01.png

img/Angelic_02.png

训练步骤

可参考我的CSDN博客https://blog.csdn.net/weixin_44791964/article/details/107343394

a、训练Omniglot例子

Omniglot数据集中数据存放格式有三级：

- image_background
	- Alphabet_of_the_Magi
		- character01
			- 0709_01.png
			- 0709_02.png
			- ……
		- character02
		- character03
		- ……
	- Anglo-Saxon_Futhorc
	- ……

训练步骤为：

下载数据集，放在根目录下的dataset文件夹下。
运行train.py开始训练。

b、训练自己相似性比较的模型

如果大家想要训练自己的数据集，可以将数据集按照如下格式进行摆放。

- image_background
	- character01
		- 0709_01.png
		- 0709_02.png
		- ……
	- character02
	- character03
	- ……

相比Omniglot少了一级。每一个chapter里面放同类型的图片。
训练步骤为：

按上述格式放置数据集，放在根目录下的dataset文件夹下。
之后将train.py当中的train_own_data设置成True。
运行train.py开始训练。

Reference

https://github.com/tensorfreitas/Siamese-Networks-for-One-Shot-Learning

Siamese-pytorch 快速上手指南

环境准备

本项目基于 PyTorch 框架实现孪生神经网络（Siamese Network），主要用于检测两张图片的相似性。

系统要求：支持 Python 3.x 的操作系统（Windows/Linux/MacOS）。
核心依赖：
- torch==1.2.0 (或兼容版本)
- 其他常见深度学习库（如 torchvision, PIL, numpy 等，通常随 torch 安装或按需安装）。
硬件建议：推荐使用 NVIDIA GPU 进行训练以加速过程，CPU 亦可运行预测和小规模训练。

安装步骤

克隆仓库

git clone https://github.com/bubbliiiing/siamese-pytorch.git
cd siamese-pytorch

安装依赖 建议使用国内镜像源加速安装：

pip install torch==1.2.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
# 如有其他依赖缺失，请根据报错自行安装，例如：
# pip install opencv-python pillow numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

下载预训练权重与数据集 项目提供百度网盘下载链接，请下载以下文件并放置到指定目录：
- VGG16 主干权重 (vgg16-397923af.pth)：用于迁移学习或训练新数据集。
  - 下载地址：百度网盘 (提取码: 44en)
  - 存放路径：项目根目录下的 model_data/ 文件夹。
- Omniglot 预训练权重 (Omniglot_vgg.pth)：可直接用于 Omniglot 数据集的预测演示。
  - 同上链接或单独下载，存放路径：model_data/ 文件夹。
- 数据集 (可选，若需重新训练)：
  - Omniglot 数据集：百度网盘 (提取码: 5sa7)
  - 人脸数据集：百度网盘 (提取码: aqhg)
  - 存放路径：项目根目录下的 dataset/ 文件夹（注意文件夹层级结构，详见“基本使用”中的训练部分）。

基本使用

1. 快速预测 (使用预训练模型)

无需训练，直接体验图片相似度检测功能。

确保已下载 Omniglot_vgg.pth 并放入 model_data/ 目录。
运行预测脚本：
```
python predict.py
```
根据提示依次输入两张图片的路径（示例）：
```
img/Angelic_01.png
img/Angelic_02.png
```
程序将输出这两张图片的相似性判断结果。

注：若想使用自己训练的模型，请修改 siamese.py 中的 _defaults 字典，将 model_path 指向 logs/ 目录下生成的最新权重文件。

2. 开始训练

方案 A：训练 Omniglot 数据集

数据准备：下载 Omniglot 数据集，解压后保持原有的三级目录结构，整体放入 dataset/ 文件夹下：

dataset/
└── image_background/
    ├── Alphabet_of_the_Magi/
    │   ├── character01/
    │   │   ├── 0709_01.png
    │   │   └── ...
    │   └── character02/
    └── Anglo-Saxon_Futhorc/
        └── ...

启动训练：
```
python train.py
```

方案 B：训练自定义数据集

数据准备：按照以下二级目录结构整理你的图片数据（相比 Omniglot 少一级），放入 dataset/ 文件夹：

dataset/
└── image_background/
    ├── class_name_01/  (同类图片放在一个文件夹)
    │   ├── img_01.png
    │   └── img_02.png
    ├── class_name_02/
    └── ...

修改配置：打开 train.py，找到 train_own_data 变量并设置为 True：
```
train_own_data = True
```
启动训练：
```
python train.py
```

训练完成后，生成的权重文件将保存在 logs/ 目录中，可用于后续的预测任务。

常见问题

训练时卡在 validation 阶段不动是什么原因？

训练时报错 'ValueError: not enough values to unpack (expected 2, got 1)' 如何解决？

SiameseDataset 中 self.types = max(labels) 是否会导致最大类别的标签无法被选中？

SiameseDataset 中不同类别的索引选择逻辑是否有误？index 未使用是否会导致图片遗漏？

为什么损失函数直接使用网络输出计算，而精度计算时要先经过 Sigmoid？

指定预训练模型路径为 vgg16-397923af.pth 时报错 KeyError 怎么办？

数据集目录结构正确，但报错 'ValueError: a cannot be empty unless no samples are taken' 如何解决？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

tesseract

Tesseract 是一款历史悠久且备受推崇的开源光学字符识别（OCR）引擎，最初由惠普实验室开发，后由 Google 维护，目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据，有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题，是数字化归档和信息自动化的重要基础工具。在技术层面，Tesseract 展现了强大的适应能力。从版本 4 开始，它引入了基于长短期记忆网络（LSTM）的神经网络 OCR 引擎，显著提升了行识别的准确率；同时，为了兼顾旧有需求，它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码，开箱即用即可识别超过 100 种语言，并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面，它灵活支持纯文本、hOCR、PDF、TSV 等多种格式，方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库（libtesseract），不包含图形用户界面（GUI），因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中

★ 73.3k|★★☆☆☆|3天前

开发框架图像