siamese-triplet

GitHub
3.2k 633 简单 1 次阅读 1周前BSD-3-Clause开发框架
AI 解读 由 AI 自动生成,仅供参考

siamese-triplet 是一个基于 PyTorch 的开源工具,专注于实现孪生网络(Siamese Networks)和三元组网络(Triplet Networks),旨在学习高质量的图像嵌入表示。它核心解决了如何将图像映射到紧凑的欧几里得空间的问题,使得在该空间中,距离远近能直接反映图像间的相似度。这种能力对于分类任务,尤其是数据稀缺的“少样本学习”场景至关重要。

该工具特别适合 AI 研究人员和深度学习开发者使用,尤其是那些需要自定义度量学习策略或探索特征嵌入技术的专业人士。其独特的技术亮点在于支持“在线挖掘”(Online Mining)机制:在训练过程中,它能动态地从每个迷你批次中自动筛选出最具价值的正负样本对或三元组(如困难负样本),从而显著提升模型区分细微差异的能力。此外,siamese-triplet 提供了模块化的代码结构,内置了多种损失函数(如对比损失、三元组损失)及灵活的采样策略,并附带完整的 MNIST 实验示例,帮助用户快速上手并可视化验证嵌入效果,是进行度量学习研究与开发的实用基石。

使用场景

某电商初创公司的算法团队正致力于构建一个能识别新款商品相似度的推荐系统,但面临新上架商品缺乏历史点击数据的冷启动难题。

没有 siamese-triplet 时

  • 依赖大量标注数据:传统分类模型需要为每个新商品类别收集成百上千张标注图片才能训练,新品上线即“失明”,无法立即参与推荐。
  • 相似度度量不准:直接使用预训练模型的通用特征向量,导致在欧氏空间中“视觉相似”的商品(如不同款式的白衬衫)距离过远,召回率极低。
  • 挖掘效率低下:人工构造正负样本对耗时耗力,且难以动态筛选出那些“看似相似实则不同”的困难负样本,模型收敛慢且区分度差。
  • 泛化能力薄弱:模型死记硬背已知类别的特征,一旦遇到未见过的新品类或细粒度差异(如领口微差),表现大幅下滑。

使用 siamese-triplet 后

  • 实现小样本学习:利用 siamese-triplet 构建孪生网络,仅需少量样本即可将商品映射到紧凑的嵌入空间,新品上架当天即可基于图像相似度进行精准推荐。
  • 优化距离度量:通过 TripletLoss 强制拉近同款商品(Anchor-Positive)距离、推远不同款商品(Anchor-Negative)距离,确保空间距离直接反映视觉相似度。
  • 自动在线挖掘:借助内置的 OnlineTripletLoss 和 HardNegativePairSelector,在训练批次中自动实时挖掘最具挑战性的困难样本,显著提升模型对细微差异的辨别力。
  • 强泛化特性:学到的嵌入向量具有通用的度量属性,无需重新训练即可直接作为特征向量,服务于新品分类、以图搜图等多种下游任务。

siamese-triplet 通过将图像转化为具有严格度量性质的嵌入向量,让机器真正学会了“像人类一样比较异同”,彻底解决了小样本场景下的相似性匹配难题。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该工具版本较旧,明确要求使用 PyTorch 0.4 和 torchvision 0.2.1。若需兼容 PyTorch 0.3,需检出 torch-0.3.1 标签。README 中未提及具体的操作系统、GPU 型号、显存大小或内存需求。示例实验基于 MNIST 数据集并使用 2 维嵌入进行可视化,实际应用中可能需要调整网络架构。
python未说明
pytorch==0.4
torchvision==0.2.1
siamese-triplet hero image

快速开始

基于在线成对/三元组挖掘的暹罗网络和三元组网络学习

用于学习嵌入表示的暹罗网络和三元组网络的 PyTorch 实现。

暹罗网络和三元组网络可用于学习从图像到紧凑欧几里得空间的映射,其中距离对应于相似度度量[2]。以这种方式训练得到的嵌入可以作为分类或少样本学习任务的特征向量使用。

安装

需要 PyTorch 0.4 和 torchvision 0.2.1。

若需兼容 PyTorch 0.3,请检出标签 torch-0.3.1。

代码结构

  • datasets.py
    • SiameseMNIST 类 - MNIST 类似数据集的包装器,返回随机的正负样本对。
    • TripletMNIST 类 - MNIST 类似数据集的包装器,返回随机三元组(锚点、正样本和负样本)。
    • BalancedBatchSampler 类 - 数据加载器的批采样器,根据标签从每个类别中随机选择 n_classes 个类别和 n_samples 个样本。
  • networks.py
    • EmbeddingNet - 用于将图像编码为嵌入向量的基础网络。
    • ClassificationNet - 嵌入网络的包装器,添加全连接层和 log softmax 用于分类。
    • SiameseNet - 嵌入网络的包装器,处理输入的成对样本。
    • TripletNet - 嵌入网络的包装器,处理输入的三元组样本。
  • losses.py
    • ContrastiveLoss - 针对嵌入对及其目标(相同/不同)的对比损失。
    • TripletLoss - 针对嵌入三元组的三元组损失。
    • OnlineContrastiveLoss - 针对一小批嵌入的对比损失。使用 PairSelector 对象根据真实类别标签在小批量中查找正负样本对,并计算这些样本对的对比损失。
    • OnlineTripletLoss - 针对一小批嵌入的三元组损失。使用 TripletSelector 对象根据真实类别标签在小批量中查找三元组,并计算三元组损失。
  • trainer.py
    • fit - 用于训练具有不同输入数量和不同类型损失函数的网络的统一函数。
  • metrics.py
    • 可与 trainer.py 中的 fit 函数一起使用的示例指标。
  • utils.py
    • PairSelector - 定义基于嵌入和真实类别标签生成样本对的抽象类。可与 OnlineContrastiveLoss 一起使用。
      • AllPositivePairSelector, HardNegativePairSelector - PairSelector 的具体实现。
    • TripletSelector - 定义基于嵌入和真实类别标签生成三元组的抽象类。可与 OnlineTripletLoss 一起使用。
      • AllTripletSelector, HardestNegativeTripletSelector, RandomNegativeTripletSelector, SemihardNegativeTripletSelector - TripletSelector 的具体实现。

示例 - MNIST

我们将在 MNIST 数据集上训练嵌入。实验是在 jupyter notebook 中进行的。

我们将通过 MNIST 数据集,使用不同的损失函数来学习监督式特征嵌入。这里仅用于可视化目的,因此我们使用的是二维嵌入,这在实际应用中并不是最佳选择。

对于每个实验,我们都使用相同的嵌入网络(32 个 5x5 卷积 -> PReLU -> 2x2 最大池化 -> 64 个 5x5 卷积 -> PReLU -> 2x2 最大池化 -> 全连接 256 -> PReLU -> 全连接 256 -> PReLU -> 全连接 2),并且没有进行超参数搜索。

基线 - 使用 softmax 的分类

我们添加一个与类别数相等的全连接层,并使用 softmax 和交叉熵损失训练网络进行分类。网络最终达到约 99% 的准确率。我们从倒数第二层提取 2 维嵌入:

训练集:

测试集:

虽然这些嵌入看起来是可分的(这也是我们训练它们的目的),但它们并不具备良好的度量特性。因此,它们可能不适合作为新类别的描述符。

暹罗网络

现在我们将训练一个暹罗网络,该网络接收一对图像,并训练嵌入使得来自同一类别的图像之间的距离尽可能小,而来自不同类别的图像之间的距离则大于某个边界值。

我们将最小化对比损失函数 [1]:

SiameseMNIST 类会随机采样正负样本对,然后将其输入暹罗网络。

经过 20 个 epoch 的训练后,我们在训练集上得到了以下嵌入:

测试集:

训练得到的嵌入在同类内部聚类得更好。

三元组网络

我们将训练一个三元组网络,该网络接收一个锚点样本、一个与其同属一类的正样本以及一个属于不同类别的负样本。目标是学习一种嵌入,使得锚点样本与正样本的距离比与负样本的距离更近,并且两者之间存在一定的边界值。

alt text 来源: Schroff, Florian, Dmitry Kalenichenko, and James Philbin. Facenet: A unified embedding for face recognition and clustering. CVPR 2015.

三元组损失:

TripletMNIST 类会为每一个可能的锚点样本随机采样正负样本。

经过 20 个 epoch 的训练后,我们在训练集上得到了以下嵌入:

测试集:

训练得到的嵌入在同类内部并不像暹罗网络那样紧密,但这并不是我们优化的目标。我们希望嵌入与同类别中的其他嵌入相比,与不同类别的嵌入距离更远,而从结果来看,训练确实朝着这个方向发展。

在线对/三元组选择——负样本挖掘

暹罗网络和三元组网络存在几个问题:

  1. 可能的对/三元组数量会随着样本数量的增加而呈二次方/三次方增长。处理所有这些对/三元组是不现实的,且训练收敛速度很慢。
  2. 先前我们是随机生成对/三元组的。随着训练的进行,越来越多的对/三元组变得容易(损失值非常小甚至为0),这阻碍了网络的学习。我们需要为网络提供难样本
  3. 每张输入到网络中的图像仅用于计算一个对或三元组的对比损失/三元组损失。这种计算有些浪费;一旦嵌入被计算出来,它本可以被复用于许多对/三元组。

为了高效地解决这些问题,我们将像分类任务那样向网络输入标准的小批量数据。损失函数将负责在小批量内选择难样本对和三元组。如果我们每批次输入16张来自10个类别的图像,那么可以处理多达159×160/2 = 12,720个对,以及10×16×15/2×(9×16) = 172,800个三元组,相比之下,在之前的实现中只能处理80个对和53个三元组。

通常情况下,处理小批量内的所有可能对或三元组并不是最佳方案。关于如何选择三元组,可以在文献[2]和[3]中找到一些策略。

在线对选择

我们将像训练分类网络一样,向网络输入小批量数据。这一次,我们会使用一种特殊的BatchSampler,它会在每个类别中采样n_classes个类别和n_samples个样本,从而得到大小为n_classes×n_samples的小批量。

对于每个小批量,将根据提供的标签选择正样本对和负样本对。

MNIST数据集相对简单,从随机选择的样本对中得到的嵌入已经相当不错,因此在这里我们并没有看到明显的改进。

训练集嵌入:

测试集嵌入:

在线三元组选择

我们将像在线对选择那样,向网络输入小批量数据。给定标签和预测的嵌入,我们可以采用几种不同的三元组选择策略:

  • 所有可能的三元组(可能会太多)
  • 每个正样本对中最难的负样本(会导致每个锚点对应相同的负样本)
  • 每个正样本对中随机选择的难负样本(只考虑三元组损失为正的情况)
  • 每个正样本对中半难的负样本(类似于文献[2]中的方法)

三元组选择策略必须谨慎选择。如果策略不当,可能会导致训练效率低下,甚至更糟的是模型坍塌(所有嵌入最终都变为相同的值)。

以下是针对每个正样本对随机选择难负样本的结果。

训练集:

测试集:

FashionMNIST

类似的实验也在FashionMNIST数据集上进行了,其中在线负样本挖掘的优势更加明显。我们使用了完全相同的网络架构,但嵌入维度仅为2维,这可能不足以学习到良好的嵌入表示。对于类别数更多、数据集更复杂的场景,采用在线挖掘的方法将会带来更大的收益。

基线——分类任务

暹罗网络与带负样本挖掘的在线对比损失

暹罗网络,随机选择样本对

带负样本挖掘的在线对比损失

三元组网络与带负样本挖掘的在线三元组损失

三元组网络,随机选择三元组

带负样本挖掘的在线三元组损失

待办事项

  • 优化三元组选择策略
  • 使用可比较不同方法的指标进行评估
  • 在测试集中包含训练集未出现的类别时,进行一次-shot设置下的评估
  • 展示在更复杂数据集上的在线三元组选择示例

参考文献

[1] Raia Hadsell, Sumit Chopra, Yann LeCun,《通过学习不变映射进行降维》(http://yann.lecun.com/exdb/publis/pdf/hadsell-chopra-lecun-06.pdf),CVPR 2006

[2] Schroff, Florian, Dmitry Kalenichenko, and James Philbin,《FaceNet:用于人脸识别和聚类的统一嵌入》(https://arxiv.org/abs/1503.03832),CVPR 2015

[3] Alexander Hermans, Lucas Beyer, Bastian Leibe,《为行人再识别辩护:关于三元组损失的思考》(https://arxiv.org/pdf/1703.07737),2017年

[4] Brandon Amos, Bartosz Ludwiczuk, Mahadev Satyanarayanan,《OpenFace:一个通用的人脸识别库及其移动应用》(http://reports-archive.adm.cs.cmu.edu/anon/2016/CMU-CS-16-118.pdf),2016年

[5] Yi Sun, Xiaogang Wang, Xiaoou Tang,《通过联合识别-验证进行深度学习人脸表征》(http://papers.nips.cc/paper/5416-deep-learning-face-representation-by-joint-identification-verification),NIPS 2014

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|4天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|5天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

149.5k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|今天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|昨天
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|4天前
插件开发框架