deep-person-reid

4.8k 1.2k 中等 1 次阅读今天MIT开发框架图像其他

AI 解读由 AI 自动生成，仅供参考

deep-person-reid 是一个基于 PyTorch 开发的深度学习行人重识别（Re-ID）开源库，旨在帮助开发者高效训练和评估行人追踪模型。它的核心任务是解决“跨摄像头行人匹配”难题，即在不同监控视角下，准确判断出现的行人是否为同一人，广泛应用于智能安防与视频分析领域。

该工具特别适合计算机视觉研究人员、算法工程师及高校学生使用。它极大地降低了 ReID 任务的门槛，提供了从数据准备、多 GPU 训练到端到端评估的一站式解决方案。用户不仅可以轻松调用多种业界领先的预训练模型，还能便捷地扩展自定义数据集或网络结构。

其技术亮点在于高度的灵活性与实用性：支持图像与视频双重模态，内置多数据集联合训练及跨域评估的标准协议，并集成了 TensorBoard 等可视化手段。此外，项目持续更新，近期已支持将模型导出为 ONNX、OpenVINO 和 TFLite 格式，便于在边缘设备部署；同时收录了著名的 OSNet 架构及其在域泛化方面的最新研究成果，是探索通用性行人重识别技术的理想起点。

使用场景

某大型物流园区的安全团队需要构建一套跨摄像头的行人追踪系统，以便在货物丢失时快速锁定嫌疑人在不同监控区域的行动轨迹。

没有 deep-person-reid 时

算法复现困难：开发人员需从零搭建 PyTorch 训练框架，手动复现 OSNet 等前沿模型，耗时数周且极易出错。
数据准备繁琐：面对多路摄像头产生的异构视频数据，缺乏标准化工具进行清洗和对齐，数据集预处理占据 80% 的开发时间。
跨场景效果差：自研模型在 A 区摄像头训练后，直接应用到 B 区时因光线和角度变化导致识别率断崖式下跌，无法解决域适应问题。
部署门槛高：模型训练完成后，缺乏便捷的导出工具，难以转换为 ONNX 或 OpenVINO 格式以适配边缘计算设备。

使用 deep-person-reid 后

开箱即用：直接调用库中预置的 SOTA 模型（如 OSNet）和标准化训练流程，半天内即可完成基线模型搭建与验证。
高效数据流水线：利用其内置的多数据集支持功能，轻松整合图像与视频数据，自动化完成端到端的训练与评估。
泛化能力显著提升：借助其先进的跨数据集评估协议和实例归一化技术，模型在未见过的新摄像头场景中仍保持高精度识别。
无缝边缘部署：通过自带的导出脚本，一键将训练好的模型转换为 TFLite 或 OpenVINO 格式，迅速部署到园区现有的监控盒子上。

deep-person-reid 将原本需要数月研发的行人的重识别系统构建周期缩短至数天，并显著提升了模型在复杂真实环境中的鲁棒性。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

需要 NVIDIA GPU（支持多卡训练），具体显存未说明，需根据模型大小自行调整
CUDA 版本需与安装的 PyTorch 匹配（示例中为 9.0，实际建议使用较新版本如 11.x+）

内存

未说明

依赖

notes推荐使用 conda 管理环境；支持 Docker 容器化部署；Cython 代码已兼容 Windows 系统；首次运行可能需要下载预训练模型或数据集（部分托管于 Google Drive 或 Huggingface）；支持导出为 ONNX、OpenVINO 和 TFLite 格式。

python3.7

torch

torchvision

cython

numpy

Pillow

scipy

h5py

tensorboardX

yacs

gdown

快速开始

Torchreid

Torchreid 是一个基于 PyTorch <https://pytorch.org/>_ 编写的深度学习行人重识别库，专为我们在 ICCV'19 上发表的项目——“面向行人重识别的全尺度特征学习”（arXiv:1905.00953 <https://arxiv.org/abs/1905.00953>_）而开发。

其主要特性包括：

多 GPU 训练
同时支持图像和视频的行人重识别任务
端到端的训练与评估
极其简便的重识别数据集准备流程
多数据集联合训练
跨数据集评估
采用大多数研究论文通用的标准协议
高度可扩展性（易于添加模型、数据集、训练方法等）
实现了当前最先进的深度行人重识别模型
提供预训练的重识别模型
先进的训练技巧
可视化工具（TensorBoard、Rank 指标等）

代码：https://github.com/KaiyangZhou/deep-person-reid。

文档：https://kaiyangzhou.github.io/deep-person-reid/。

使用指南：https://kaiyangzhou.github.io/deep-person-reid/user_guide。

模型库：https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO。

技术报告：https://arxiv.org/abs/1910.10093。

基于 Torchreid 构建的一些研究项目可以在这里找到：https://github.com/KaiyangZhou/deep-person-reid/tree/master/projects_。

模型权重也在 Hugging Face 上提供：https://huggingface.co/kaiyangzhou/osnet。

新增内容

[2022年8月] 我们为以下框架添加了模型导出功能：ONNX、OpenVINO 和 TFLite。导出脚本可在此处找到：here <https://github.com/KaiyangZhou/deep-person-reid/blob/master/tools/export.py>_
[2021年8月] 我们发布了 osnet_ain_x0_75、osnet_ain_x0_5 和 osnet_ain_x0_25 的 ImageNet 预训练模型。预训练设置遵循 pycls <https://github.com/facebookresearch/pycls/blob/master/configs/archive/imagenet/resnet/R-50-1x64d_step_8gpu.yaml>_。
[2021年4月] 我们更新了 OSNet 的 TPAMI 版本附录，以包含多源域泛化设置下的结果。训练好的模型可在 Model Zoo <https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO.html>_ 中找到。
[2021年4月] 我们添加了一个脚本，用于自动化计算多个划分的平均结果的过程。更多详情请参阅 tools/parse_test_res.py。
[2021年4月] v1.4.0：我们增加了行人搜索数据集 CUHK-SYSU <http://www.ee.cuhk.edu.hk/~xgwang/PS/dataset.html>。请参阅 文档 <https://kaiyangzhou.github.io/deep-person-reid/> 了解如何下载该数据集（其中包含裁剪后的行人图像）。
[2021年4月] 模型库中的所有模型已迁移到 Google Drive。如果任何模型的性能与模型库页面上显示的数字不一致，请提交 issue（可能是链接错误所致）。
[2021年3月] OSNet <https://arxiv.org/abs/1910.06827>_ 将发表在 TPAMI 期刊上！与专注于使用全尺度构建模块进行判别特征学习的会议版本相比，该期刊扩展版进一步考虑了通过将 实例归一化层 <https://arxiv.org/abs/1607.08022>_ 整合到 OSNet 架构中来实现可泛化特征学习。我们希望这篇期刊论文能够激励更多的未来工作，以解决跨数据集重识别中的泛化问题。
[2021年3月] 行人重识别中跨域（数据集）的泛化在实际应用中至关重要，这与 域泛化 主题密切相关。您是否想了解过去十年中域泛化领域的发展情况？请查看我们在该主题上的最新综述：https://arxiv.org/abs/2103.02503，其中涵盖了历史、数据集、相关问题、方法论、潜在方向等内容（*适用于可泛化重识别的方法也包含在内*！）。
[2021年2月] v1.3.6 新增了 University-1652 <https://dl.acm.org/doi/abs/10.1145/3394171.3413896>，这是一个用于多视角多源地理定位的新数据集（感谢 Zhedong Zheng <https://github.com/layumi>）。
[2021年2月] v1.3.5：现在 cython 代码 <https://github.com/KaiyangZhou/deep-person-reid/pull/412>_ 可以在 Windows 上运行（感谢 lablabla <https://github.com/lablabla>_）。
[2021年1月] 我们的最新工作 MixStyle <https://openreview.net/forum?id=6xHJ37MVxxp>_（混合不同域样本的实例级特征统计以提高域泛化能力）已被 ICLR'21 接受。代码已在 https://github.com/KaiyangZhou/mixstyle-release 上发布，其中行人重识别部分基于 Torchreid。
[2021年1月] 在 深度学习在行人重识别中的应用：综述与展望（TPAMI 2021） <https://arxiv.org/abs/2001.04193>_ 中，引入了一种新的行人重识别评估指标，称为 平均逆向负惩罚 (mINP)。其代码可在 <https://github.com/mangye16/ReID-Survey>_ 获取。
[2020年8月] v1.3.3：修复了 visrank 中的 bug（由于未解包 dsetid 所致）。
[2020年8月] v1.3.2：在 grid 和 prid 中添加了 _junk_pids。这样可以在设置 combineall=True 时避免使用标记错误的图库图像进行训练。
[2020年8月] v1.3.0：(1) 在现有的三元组数据源中添加了 dsetid，从而得到 (impath, pid, camid, dsetid)。该变量表示数据集 ID，在合并多个数据集进行训练时非常有用（作为数据集标识）。例如，当合并 market1501 和 cuhk03 时，前者将被分配 dsetid=0，而后者则被分配 dsetid=1。 (2) 添加了 RandomDatasetSampler。类似于 RandomDomainSampler，RandomDatasetSampler 会从每个指定的数据集中抽取一定数量的图像（batch_size // num_datasets），抽取的数量由 num_datasets 决定。
[2020年8月] v1.2.6：添加了 RandomDomainSampler（它会从 num_cams 个摄像头中各抽取 batch_size // num_cams 张图像，组成一个小批次）。
[2020年6月] v1.2.5：(1) 数据加载器从 __getitem__ 返回的结果由原来的 list 改为 dict。以前，可以通过 imgs=data[0] 来获取某个元素，比如图像张量。现在则应通过 imgs=data['img'] 来获取。有关详细更改，请参阅此 提交 <https://github.com/KaiyangZhou/deep-person-reid/commit/aefe335d68f39a20160860e6d14c2d34f539b8a5>_。 (2) 添加了 k_tfm 作为图像数据加载器的一个选项，允许对一张图像独立地应用 k_tfm 次数据增强。如果 k_tfm > 1，imgs=data['img'] 将返回一个包含 k_tfm 张图像张量的列表。
[2020年5月] 添加了用于 面向行人重识别的全尺度特征学习（ICCV'19） <https://arxiv.org/abs/1905.00953>_ 中的行人属性识别代码。请参阅 projects/attribute_recognition/。
[2020年5月] v1.2.1：添加了一个简单的特征提取 API（torchreid/utils/feature_extractor.py）。有关说明，请参阅 文档 <https://kaiyangzhou.github.io/deep-person-reid/user_guide.html>_。
[2020年4月] 用于复现 深度互学习 <https://zpascal.net/cvpr2018/Zhang_Deep_Mutual_Learning_CVPR_2018_paper.pdf>_ 实验的代码，已在 OSNet 论文 <https://arxiv.org/pdf/1905.00953v6.pdf>_（补充 B）的 projects/DML 中发布。
[2020年4月] 升级至 v1.2.0。引擎类变得更加模型无关，以提高可扩展性。有关详细信息，请参阅 Engine <torchreid/engine/engine.py>_ 和 ImageSoftmaxEngine <torchreid/engine/image/softmax.py>。感谢 Dassl.pytorch <https://github.com/KaiyangZhou/Dassl.pytorch>。
[2019年12月] 我们的 OSNet 论文 <https://arxiv.org/pdf/1905.00953v6.pdf>_ 已更新，补充部分 B 中增加了额外的实验，展示了一些在实践中提升 OSNet 性能的实用技术。
[2019年11月] `ImageDataManager可以通过设置load_train_targets=True从目标数据集加载训练数据，并可通过train_loader_t = datamanager.train_loader_t`` 访问训练加载器。此功能对域适应研究非常有用。

安装

确保已安装 conda <https://www.anaconda.com/distribution/>_。

.. code-block:: bash

切换到您 preferred 的目录并克隆此仓库

git clone https://github.com/KaiyangZhou/deep-person-reid.git

# 创建环境
cd deep-person-reid/
conda create --name torchreid python=3.7
conda activate torchreid

# 安装依赖
# 确保 `which python` 和 `which pip` 指向正确的路径
pip install -r requirements.txt

# 安装 PyTorch 和 torchvision（根据您的机器选择合适的 CUDA 版本）
conda install pytorch torchvision cudatoolkit=9.0 -c pytorch

# 安装 torchreid（如果您修改了源代码，则无需重新构建）
python setup.py develop

另一种安装方式是在 Docker 容器中运行所有步骤：

构建：make build-image
运行：make run

快速入门：30 秒掌握 Torchreid

导入 torchreid

.. code-block:: python

import torchreid

加载数据管理器

.. code-block:: python

datamanager = torchreid.data.ImageDataManager(
    root="reid-data",
    sources="market1501",
    targets="market1501",
    height=256,
    width=128,
    batch_size_train=32,
    batch_size_test=100,
    transforms=["random_flip", "random_crop"]
)

3 构建模型、优化器和学习率调度器

.. code-block:: python

model = torchreid.models.build_model(
    name="resnet50",
    num_classes=datamanager.num_train_pids,
    loss="softmax",
    pretrained=True
)

model = model.cuda。

optimizer = torchreid.optim.build_optimizer(
    model,
    optim="adam",
    lr=0.0003
)

scheduler = torchreid.optim.build_lr_scheduler(
    optimizer,
    lr_scheduler="single_step",
    stepsize=20
)

构建训练引擎

.. code-block:: python

engine = torchreid.engine.ImageSoftmaxEngine(
    datamanager,
    model,
    optimizer=optimizer,
    scheduler=scheduler,
    label_smooth=True
)

开始训练和测试

.. code-block:: python

engine.run(
    save_dir="log/resnet50",
    max_epoch=60,
    eval_freq=10,
    print_freq=10,
    test_only=False
)

统一接口

在“deep-person-reid/scripts/”中，我们提供了一个统一的接口来训练和测试模型。更多细节请参阅“scripts/main.py”和“scripts/default_config.py”。文件夹“configs/”包含一些预定义的配置文件，您可以将其作为起点。

下面提供一个训练和测试 OSNet (Zhou et al. ICCV'19) <https://arxiv.org/abs/1905.00953>_ 的示例。假设 :code:PATH_TO_DATA 是包含 reid 数据集的目录。环境变量 :code:CUDA_VISIBLE_DEVICES 被省略，如果您有一组 GPU 并希望使用其中特定的一组，则需要指定该变量。

常规设置 ^^^^^^^^^^^^^^^^^

要在 Market1501 上训练 OSNet，请执行以下命令：

.. code-block:: bash

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
--transforms random_flip random_erase \
--root $PATH_TO_DATA

配置文件将 Market1501 设置为默认数据集。如果您想使用 DukeMTMC-reID，则可以执行以下命令：

.. code-block:: bash

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
-s dukemtmcreid \
-t dukemtmcreid \
--transforms random_flip random_erase \
--root $PATH_TO_DATA \
data.save_dir log/osnet_x1_0_dukemtmcreid_softmax_cosinelr

代码会自动（下载并）加载 ImageNet 预训练权重。训练完成后，模型将保存为 “log/osnet_x1_0_market1501_softmax_cosinelr/model.pth.tar-250”。在同一文件夹下，您还可以找到 tensorboard <https://pytorch.org/docs/stable/tensorboard.html>_ 文件。要使用 tensorboard 可视化学习曲线，可以在终端中运行 :code:tensorboard --logdir=log/osnet_x1_0_market1501_softmax_cosinelr，然后在浏览器中访问 :code:http://localhost:6006/。

训练结束时会自动进行评估。要使用已训练好的模型再次进行测试，可以执行以下命令：

.. code-block:: bash

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
--root $PATH_TO_DATA \
model.load_weights log/osnet_x1_0_market1501_softmax_cosinelr/model.pth.tar-250 \
test.evaluate True

跨域设置 ^^^^^^^^^^^^^^^^^

假设您想在 DukeMTMC-reID 上训练 OSNet，并在 Market1501 上测试其性能，可以执行以下命令：

.. code-block:: bash

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad.yaml \
-s dukemtmcreid \
-t market1501 \
--transforms random_flip color_jitter \
--root $PATH_TO_DATA

在这里，我们仅测试跨域性能。然而，如果您还想测试源数据集（即 DukeMTMC-reID）上的性能，可以设置 :code:-t dukemtmcreid market1501，这将分别在两个数据集上评估模型。

与同域设置不同，这里我们将 :code:random_erase 替换为 :code:color_jitter。这可以提高模型在未见过的目标数据集上的泛化能力。

预训练模型可在 Model Zoo <https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO.html>_ 中找到。

数据集

图像 reid 数据集 ^^^^^^^^^^^^^^^^^^^^^

Market1501 <https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Zheng_Scalable_Person_Re-Identification_ICCV_2015_paper.pdf>_
CUHK03 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Li_DeepReID_Deep_Filter_2014_CVPR_paper.pdf>_
DukeMTMC-reID <https://arxiv.org/abs/1701.07717>_
MSMT17 <https://arxiv.org/abs/1711.08565>_
VIPeR <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.331.7285&rep=rep1&type=pdf>_
GRID <http://www.eecs.qmul.ac.uk/~txiang/publications/LoyXiangGong_cvpr_2009.pdf>_
CUHK01 <http://www.ee.cuhk.edu.hk/~xgwang/papers/liZWaccv12.pdf>_
SenseReID <http://openaccess.thecvf.com/content_cvpr_2017/papers/Zhao_Spindle_Net_Person_CVPR_2017_paper.pdf>_
QMUL-iLIDS <http://www.eecs.qmul.ac.uk/~sgg/papers/ZhengGongXiang_BMVC09.pdf>_
PRID <https://pdfs.semanticscholar.org/4c1b/f0592be3e535faf256c95e27982db9b3d3d3.pdf>_

地理定位数据集 ^^^^^^^^^^^^^^^^^^^^^^^

University-1652 <https://dl.acm.org/doi/abs/10.1145/3394171.3413896>_

视频 reid 数据集 ^^^^^^^^^^^^^^^^^^^^^^^

MARS <http://www.liangzheng.org/1320.pdf>_
iLIDS-VID <https://www.eecs.qmul.ac.uk/~sgg/papers/WangEtAl_ECCV14.pdf>_
PRID2011 <https://pdfs.semanticscholar.org/4c1b/f0592be3e535faf256c95e27982db9b3d3d3.pdf>_
DukeMTMC-VideoReID <http://openaccess.thecvf.com/content_cvpr_2018/papers/Wu_Exploit_the_Unknown_CVPR_2018_paper.pdf>_

模型

ImageNet分类模型 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

ResNet <https://arxiv.org/abs/1512.03385>_
ResNeXt <https://arxiv.org/abs/1611.05431>_
SENet <https://arxiv.org/abs/1709.01507>_
DenseNet <https://arxiv.org/abs/1608.06993>_
Inception-ResNet-V2 <https://arxiv.org/abs/1602.07261>_
Inception-V4 <https://arxiv.org/abs/1602.07261>_
Xception <https://arxiv.org/abs/1610.02357>_
IBN-Net <https://arxiv.org/abs/1807.09441>_

轻量级模型 ^^^^^^^^^^^^^^^^^^^

NASNet <https://arxiv.org/abs/1707.07012>_
MobileNetV2 <https://arxiv.org/abs/1801.04381>_
ShuffleNet <https://arxiv.org/abs/1707.01083>_
ShuffleNetV2 <https://arxiv.org/abs/1807.11164>_
SqueezeNet <https://arxiv.org/abs/1602.07360>_

ReID专用模型 ^^^^^^^^^^^^^^^^^^^^^^

MuDeep <https://arxiv.org/abs/1709.05165>_
ResNet-mid <https://arxiv.org/abs/1711.08106>_
HACNN <https://arxiv.org/abs/1802.08122>_
PCB <https://arxiv.org/abs/1711.09349>_
MLFN <https://arxiv.org/abs/1803.09132>_
OSNet <https://arxiv.org/abs/1905.00953>_
OSNet-AIN <https://arxiv.org/abs/1910.06827>_

实用链接

OSNet-IBN1-Lite（仅用于测试的代码及精简版Docker容器） <https://github.com/RodMech/OSNet-IBN1-Lite>_
基于深度学习的人体重识别：综述与展望 <https://github.com/mangye16/ReID-Survey>_

引用

如果您在研究中使用了本代码或相关模型，请引用以下论文：

.. code-block:: bash

@article{torchreid,
  title={Torchreid: 一个基于PyTorch的深度学习人体重识别库},
  author={周凯阳和向涛},
  journal={arXiv预印本 arXiv:1910.10093},
  year={2019}
}

@inproceedings{zhou2019osnet,
  title={面向人体重识别的全尺度特征学习},
  author={周凯阳、杨永新、卡瓦拉罗和向涛},
  booktitle={ICCV},
  year={2019}
}

@article{zhou2021osnet,
  title={学习可泛化的全尺度人体重识别表示},
  author={周凯阳、杨永新、卡瓦拉罗和向涛},
  journal={TPAMI},
  year={2021}
}

deep-person-reid 快速上手指南

deep-person-reid (Torchreid) 是一个基于 PyTorch 的深度学习行人重识别（Person Re-ID）库，支持图像和视频 ReID、多 GPU 训练、跨数据集评估等高级功能，并集成了多种 SOTA 模型（如 OSNet）。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux 或 Windows (Windows 需特定配置以支持 Cython)。
Python: 推荐版本 3.7。
包管理器: 必须安装 Conda。
GPU: 推荐使用 NVIDIA GPU 并安装对应的 CUDA 驱动（用于加速训练）。

安装步骤

以下是标准的本地安装流程。国内用户若遇到 pip 下载慢的问题，可临时使用清华源或阿里源。

克隆仓库

git clone https://github.com/KaiyangZhou/deep-person-reid.git
cd deep-person-reid/

创建 Conda 环境

conda create --name torchreid python=3.7
conda activate torchreid

安装依赖

# 建议先配置 pip 国内镜像加速 (可选)
# pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pip install -r requirements.txt

安装 PyTorch 和 torchvision 请根据您的机器 CUDA 版本选择合适的命令。以下为示例（CUDA 9.0）：
```
# 国内用户推荐使用清华源安装 PyTorch
conda install pytorch torchvision cudatoolkit=9.0 -c pytorch
```
注：如需其他 CUDA 版本，请访问 PyTorch 官网获取对应命令。
安装 Torchreid 使用 develop 模式安装，以便修改源码后无需重新编译即可生效。
```
python setup.py develop
```

Docker 替代方案：如果您偏好容器化部署，也可在项目根目录运行 make build-image 构建镜像，然后运行 make run。

基本使用

以下是一个最简单的"30 秒上手”示例，演示如何加载数据、构建模型并启动训练。

1. Python 代码示例

创建一个 .py 文件（例如 quick_start.py），填入以下代码：

import torchreid

# 1. 加载数据管理器
datamanager = torchreid.data.ImageDataManager(
    root="reid-data",
    sources="market1501",
    targets="market1501",
    height=256,
    width=128,
    batch_size_train=32,
    batch_size_test=100,
    transforms=["random_flip", "random_crop"]
)

# 2. 构建模型、优化器和学习率调度器
model = torchreid.models.build_model(
    name="resnet50",
    num_classes=datamanager.num_train_pids,
    loss="softmax",
    pretrained=True
)

model = model.cuda()

optimizer = torchreid.optim.build_optimizer(
    model,
    optim="adam",
    lr=0.0003
)

scheduler = torchreid.optim.build_lr_scheduler(
    optimizer,
    lr_scheduler="single_step",
    stepsize=20
)

# 3. 构建引擎
engine = torchreid.engine.ImageSoftmaxEngine(
    datamanager,
    model,
    optimizer=optimizer,
    scheduler=scheduler,
    label_smooth=True
)

# 4. 运行训练和测试
engine.run(
    save_dir="log/resnet50",
    max_epoch=60,
    eval_freq=10,
    print_freq=10,
    test_only=False
)

2. 命令行统一接口（推荐）

对于更复杂的实验配置，建议使用项目提供的统一脚本接口。假设您的数据集位于 $PATH_TO_DATA 目录下。

训练 OSNet 模型 (Market1501 数据集):

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
--transforms random_flip random_erase \
--root $PATH_TO_DATA

训练 OSNet 模型 (DukeMTMC-reID 数据集):

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
-s dukemtmcreid \
-t dukemtmcreid \
--transforms random_flip random_erase \
--root $PATH_TO_DATA \
data.save_dir log/osnet_x1_0_dukemtmcreid_softmax_cosinelr

说明：代码会自动下载并加载 ImageNet 预训练权重。训练完成后，模型将保存在指定的 save_dir 中。

版本历史

v1.0.62019/10/23

v1.0.52019/10/23

v1.0.02019/08/26

v0.9.12019/08/04

v0.8.12019/07/08

v0.8.02019/07/03

v0.7.82019/05/28

v0.7.72019/05/24

v0.7.52019/05/09

v0.7.42019/04/27

v0.7.32019/04/18

v0.7.22019/03/25

v0.7.12019/03/25

v0.7.02019/03/25

v0.5.02018/11/12

v0.3.02018/08/15

v0.2.22018/08/01

v0.2.02018/07/06

v0.1.02018/06/04

v0.0.92018/06/04

常见问题

导入 torchreid 时出现 'No module named torchreid.utils' 错误怎么办？

如何解决 Cython 评估不可用或编译错误（如 Buffer dtype mismatch）的问题？

如何将 ReID 模型（如 OSNet, ResNet50）正确导出为 ONNX 格式？

CUHK03 数据集的 mAP 评估中 --split-id 参数应该如何设置？

模型加载后为何同时占用大量 GPU 和 CPU 内存？

在 OSNet 上使用 ArcFace 或 CosFace 损失函数效果不佳怎么办？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 155.4k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|4天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架