deep-person-reid

GitHub
4.8k 1.2k 中等 1 次阅读 今天MIT开发框架图像其他
AI 解读 由 AI 自动生成,仅供参考

deep-person-reid 是一个基于 PyTorch 开发的深度学习行人重识别(Re-ID)开源库,旨在帮助开发者高效训练和评估行人追踪模型。它的核心任务是解决“跨摄像头行人匹配”难题,即在不同监控视角下,准确判断出现的行人是否为同一人,广泛应用于智能安防与视频分析领域。

该工具特别适合计算机视觉研究人员、算法工程师及高校学生使用。它极大地降低了 ReID 任务的门槛,提供了从数据准备、多 GPU 训练到端到端评估的一站式解决方案。用户不仅可以轻松调用多种业界领先的预训练模型,还能便捷地扩展自定义数据集或网络结构。

其技术亮点在于高度的灵活性与实用性:支持图像与视频双重模态,内置多数据集联合训练及跨域评估的标准协议,并集成了 TensorBoard 等可视化手段。此外,项目持续更新,近期已支持将模型导出为 ONNX、OpenVINO 和 TFLite 格式,便于在边缘设备部署;同时收录了著名的 OSNet 架构及其在域泛化方面的最新研究成果,是探索通用性行人重识别技术的理想起点。

使用场景

某大型物流园区的安全团队需要构建一套跨摄像头的行人追踪系统,以便在货物丢失时快速锁定嫌疑人在不同监控区域的行动轨迹。

没有 deep-person-reid 时

  • 算法复现困难:开发人员需从零搭建 PyTorch 训练框架,手动复现 OSNet 等前沿模型,耗时数周且极易出错。
  • 数据准备繁琐:面对多路摄像头产生的异构视频数据,缺乏标准化工具进行清洗和对齐,数据集预处理占据 80% 的开发时间。
  • 跨场景效果差:自研模型在 A 区摄像头训练后,直接应用到 B 区时因光线和角度变化导致识别率断崖式下跌,无法解决域适应问题。
  • 部署门槛高:模型训练完成后,缺乏便捷的导出工具,难以转换为 ONNX 或 OpenVINO 格式以适配边缘计算设备。

使用 deep-person-reid 后

  • 开箱即用:直接调用库中预置的 SOTA 模型(如 OSNet)和标准化训练流程,半天内即可完成基线模型搭建与验证。
  • 高效数据流水线:利用其内置的多数据集支持功能,轻松整合图像与视频数据,自动化完成端到端的训练与评估。
  • 泛化能力显著提升:借助其先进的跨数据集评估协议和实例归一化技术,模型在未见过的新摄像头场景中仍保持高精度识别。
  • 无缝边缘部署:通过自带的导出脚本,一键将训练好的模型转换为 TFLite 或 OpenVINO 格式,迅速部署到园区现有的监控盒子上。

deep-person-reid 将原本需要数月研发的行人的重识别系统构建周期缩短至数天,并显著提升了模型在复杂真实环境中的鲁棒性。

运行环境要求

操作系统
  • Linux
  • macOS
  • Windows
GPU
  • 需要 NVIDIA GPU(支持多卡训练),具体显存未说明,需根据模型大小自行调整
  • CUDA 版本需与安装的 PyTorch 匹配(示例中为 9.0,实际建议使用较新版本如 11.x+)
内存

未说明

依赖
notes推荐使用 conda 管理环境;支持 Docker 容器化部署;Cython 代码已兼容 Windows 系统;首次运行可能需要下载预训练模型或数据集(部分托管于 Google Drive 或 Huggingface);支持导出为 ONNX、OpenVINO 和 TFLite 格式。
python3.7
torch
torchvision
cython
numpy
Pillow
scipy
h5py
tensorboardX
yacs
gdown
deep-person-reid hero image

快速开始

Torchreid

Torchreid 是一个基于 PyTorch <https://pytorch.org/>_ 编写的深度学习行人重识别库,专为我们在 ICCV'19 上发表的项目——“面向行人重识别的全尺度特征学习”(arXiv:1905.00953 <https://arxiv.org/abs/1905.00953>_)而开发。

其主要特性包括:

  • 多 GPU 训练
  • 同时支持图像和视频的行人重识别任务
  • 端到端的训练与评估
  • 极其简便的重识别数据集准备流程
  • 多数据集联合训练
  • 跨数据集评估
  • 采用大多数研究论文通用的标准协议
  • 高度可扩展性(易于添加模型、数据集、训练方法等)
  • 实现了当前最先进的深度行人重识别模型
  • 提供预训练的重识别模型
  • 先进的训练技巧
  • 可视化工具(TensorBoard、Rank 指标等)

代码:https://github.com/KaiyangZhou/deep-person-reid。

文档:https://kaiyangzhou.github.io/deep-person-reid/。

使用指南:https://kaiyangzhou.github.io/deep-person-reid/user_guide。

模型库:https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO。

技术报告:https://arxiv.org/abs/1910.10093。

基于 Torchreid 构建的一些研究项目可以在这里找到:https://github.com/KaiyangZhou/deep-person-reid/tree/master/projects_。

模型权重也在 Hugging Face 上提供:https://huggingface.co/kaiyangzhou/osnet。

新增内容

  • [2022年8月] 我们为以下框架添加了模型导出功能:ONNX、OpenVINO 和 TFLite。导出脚本可在此处找到:here <https://github.com/KaiyangZhou/deep-person-reid/blob/master/tools/export.py>_
  • [2021年8月] 我们发布了 osnet_ain_x0_75osnet_ain_x0_5osnet_ain_x0_25 的 ImageNet 预训练模型。预训练设置遵循 pycls <https://github.com/facebookresearch/pycls/blob/master/configs/archive/imagenet/resnet/R-50-1x64d_step_8gpu.yaml>_。
  • [2021年4月] 我们更新了 OSNet 的 TPAMI 版本附录,以包含多源域泛化设置下的结果。训练好的模型可在 Model Zoo <https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO.html>_ 中找到。
  • [2021年4月] 我们添加了一个脚本,用于自动化计算多个划分的平均结果的过程。更多详情请参阅 tools/parse_test_res.py
  • [2021年4月] v1.4.0:我们增加了行人搜索数据集 CUHK-SYSU <http://www.ee.cuhk.edu.hk/~xgwang/PS/dataset.html>。请参阅 文档 <https://kaiyangzhou.github.io/deep-person-reid/> 了解如何下载该数据集(其中包含裁剪后的行人图像)。
  • [2021年4月] 模型库中的所有模型已迁移到 Google Drive。如果任何模型的性能与模型库页面上显示的数字不一致,请提交 issue(可能是链接错误所致)。
  • [2021年3月] OSNet <https://arxiv.org/abs/1910.06827>_ 将发表在 TPAMI 期刊上!与专注于使用全尺度构建模块进行判别特征学习的会议版本相比,该期刊扩展版进一步考虑了通过将 实例归一化层 <https://arxiv.org/abs/1607.08022>_ 整合到 OSNet 架构中来实现可泛化特征学习。我们希望这篇期刊论文能够激励更多的未来工作,以解决跨数据集重识别中的泛化问题。
  • [2021年3月] 行人重识别中跨域(数据集)的泛化在实际应用中至关重要,这与 域泛化 主题密切相关。您是否想了解过去十年中域泛化领域的发展情况?请查看我们在该主题上的最新综述:https://arxiv.org/abs/2103.02503,其中涵盖了历史、数据集、相关问题、方法论、潜在方向等内容(*适用于可泛化重识别的方法也包含在内*!)。
  • [2021年2月] v1.3.6 新增了 University-1652 <https://dl.acm.org/doi/abs/10.1145/3394171.3413896>,这是一个用于多视角多源地理定位的新数据集(感谢 Zhedong Zheng <https://github.com/layumi>)。
  • [2021年2月] v1.3.5:现在 cython 代码 <https://github.com/KaiyangZhou/deep-person-reid/pull/412>_ 可以在 Windows 上运行(感谢 lablabla <https://github.com/lablabla>_)。
  • [2021年1月] 我们的最新工作 MixStyle <https://openreview.net/forum?id=6xHJ37MVxxp>_(混合不同域样本的实例级特征统计以提高域泛化能力)已被 ICLR'21 接受。代码已在 https://github.com/KaiyangZhou/mixstyle-release 上发布,其中行人重识别部分基于 Torchreid。
  • [2021年1月] 在 深度学习在行人重识别中的应用:综述与展望(TPAMI 2021) <https://arxiv.org/abs/2001.04193>_ 中,引入了一种新的行人重识别评估指标,称为 平均逆向负惩罚 (mINP)。其代码可在 <https://github.com/mangye16/ReID-Survey>_ 获取。
  • [2020年8月] v1.3.3:修复了 visrank 中的 bug(由于未解包 dsetid 所致)。
  • [2020年8月] v1.3.2:在 gridprid 中添加了 _junk_pids。这样可以在设置 combineall=True 时避免使用标记错误的图库图像进行训练。
  • [2020年8月] v1.3.0:(1) 在现有的三元组数据源中添加了 dsetid,从而得到 (impath, pid, camid, dsetid)。该变量表示数据集 ID,在合并多个数据集进行训练时非常有用(作为数据集标识)。例如,当合并 market1501cuhk03 时,前者将被分配 dsetid=0,而后者则被分配 dsetid=1。 (2) 添加了 RandomDatasetSampler。类似于 RandomDomainSamplerRandomDatasetSampler 会从每个指定的数据集中抽取一定数量的图像(batch_size // num_datasets),抽取的数量由 num_datasets 决定。
  • [2020年8月] v1.2.6:添加了 RandomDomainSampler(它会从 num_cams 个摄像头中各抽取 batch_size // num_cams 张图像,组成一个小批次)。
  • [2020年6月] v1.2.5:(1) 数据加载器从 __getitem__ 返回的结果由原来的 list 改为 dict。以前,可以通过 imgs=data[0] 来获取某个元素,比如图像张量。现在则应通过 imgs=data['img'] 来获取。有关详细更改,请参阅此 提交 <https://github.com/KaiyangZhou/deep-person-reid/commit/aefe335d68f39a20160860e6d14c2d34f539b8a5>_。 (2) 添加了 k_tfm 作为图像数据加载器的一个选项,允许对一张图像独立地应用 k_tfm 次数据增强。如果 k_tfm > 1imgs=data['img'] 将返回一个包含 k_tfm 张图像张量的列表。
  • [2020年5月] 添加了用于 面向行人重识别的全尺度特征学习(ICCV'19) <https://arxiv.org/abs/1905.00953>_ 中的行人属性识别代码。请参阅 projects/attribute_recognition/
  • [2020年5月] v1.2.1:添加了一个简单的特征提取 API(torchreid/utils/feature_extractor.py)。有关说明,请参阅 文档 <https://kaiyangzhou.github.io/deep-person-reid/user_guide.html>_。
  • [2020年4月] 用于复现 深度互学习 <https://zpascal.net/cvpr2018/Zhang_Deep_Mutual_Learning_CVPR_2018_paper.pdf>_ 实验的代码,已在 OSNet 论文 <https://arxiv.org/pdf/1905.00953v6.pdf>_(补充 B)的 projects/DML 中发布。
  • [2020年4月] 升级至 v1.2.0。引擎类变得更加模型无关,以提高可扩展性。有关详细信息,请参阅 Engine <torchreid/engine/engine.py>_ 和 ImageSoftmaxEngine <torchreid/engine/image/softmax.py>。感谢 Dassl.pytorch <https://github.com/KaiyangZhou/Dassl.pytorch>
  • [2019年12月] 我们的 OSNet 论文 <https://arxiv.org/pdf/1905.00953v6.pdf>_ 已更新,补充部分 B 中增加了额外的实验,展示了一些在实践中提升 OSNet 性能的实用技术。
  • [2019年11月] `ImageDataManager可以通过设置load_train_targets=True从目标数据集加载训练数据,并可通过train_loader_t = datamanager.train_loader_t`` 访问训练加载器。此功能对域适应研究非常有用。

安装

确保已安装 conda <https://www.anaconda.com/distribution/>_。

.. code-block:: bash

切换到您 preferred 的目录并克隆此仓库

git clone https://github.com/KaiyangZhou/deep-person-reid.git

# 创建环境
cd deep-person-reid/
conda create --name torchreid python=3.7
conda activate torchreid

# 安装依赖
# 确保 `which python` 和 `which pip` 指向正确的路径
pip install -r requirements.txt

# 安装 PyTorch 和 torchvision(根据您的机器选择合适的 CUDA 版本)
conda install pytorch torchvision cudatoolkit=9.0 -c pytorch

# 安装 torchreid(如果您修改了源代码,则无需重新构建)
python setup.py develop

另一种安装方式是在 Docker 容器中运行所有步骤:

  • 构建:make build-image
  • 运行:make run

快速入门:30 秒掌握 Torchreid

  1. 导入 torchreid

.. code-block:: python

import torchreid
  1. 加载数据管理器

.. code-block:: python

datamanager = torchreid.data.ImageDataManager(
    root="reid-data",
    sources="market1501",
    targets="market1501",
    height=256,
    width=128,
    batch_size_train=32,
    batch_size_test=100,
    transforms=["random_flip", "random_crop"]
)

3 构建模型、优化器和学习率调度器

.. code-block:: python

model = torchreid.models.build_model(
    name="resnet50",
    num_classes=datamanager.num_train_pids,
    loss="softmax",
    pretrained=True
)

model = model.cuda。

optimizer = torchreid.optim.build_optimizer(
    model,
    optim="adam",
    lr=0.0003
)

scheduler = torchreid.optim.build_lr_scheduler(
    optimizer,
    lr_scheduler="single_step",
    stepsize=20
)
  1. 构建训练引擎

.. code-block:: python

engine = torchreid.engine.ImageSoftmaxEngine(
    datamanager,
    model,
    optimizer=optimizer,
    scheduler=scheduler,
    label_smooth=True
)
  1. 开始训练和测试

.. code-block:: python

engine.run(
    save_dir="log/resnet50",
    max_epoch=60,
    eval_freq=10,
    print_freq=10,
    test_only=False
)

统一接口

在“deep-person-reid/scripts/”中,我们提供了一个统一的接口来训练和测试模型。更多细节请参阅“scripts/main.py”和“scripts/default_config.py”。文件夹“configs/”包含一些预定义的配置文件,您可以将其作为起点。

下面提供一个训练和测试 OSNet (Zhou et al. ICCV'19) <https://arxiv.org/abs/1905.00953>_ 的示例。假设 :code:PATH_TO_DATA 是包含 reid 数据集的目录。环境变量 :code:CUDA_VISIBLE_DEVICES 被省略,如果您有一组 GPU 并希望使用其中特定的一组,则需要指定该变量。

常规设置 ^^^^^^^^^^^^^^^^^

要在 Market1501 上训练 OSNet,请执行以下命令:

.. code-block:: bash

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
--transforms random_flip random_erase \
--root $PATH_TO_DATA

配置文件将 Market1501 设置为默认数据集。如果您想使用 DukeMTMC-reID,则可以执行以下命令:

.. code-block:: bash

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
-s dukemtmcreid \
-t dukemtmcreid \
--transforms random_flip random_erase \
--root $PATH_TO_DATA \
data.save_dir log/osnet_x1_0_dukemtmcreid_softmax_cosinelr

代码会自动(下载并)加载 ImageNet 预训练权重。训练完成后,模型将保存为 “log/osnet_x1_0_market1501_softmax_cosinelr/model.pth.tar-250”。在同一文件夹下,您还可以找到 tensorboard <https://pytorch.org/docs/stable/tensorboard.html>_ 文件。要使用 tensorboard 可视化学习曲线,可以在终端中运行 :code:tensorboard --logdir=log/osnet_x1_0_market1501_softmax_cosinelr,然后在浏览器中访问 :code:http://localhost:6006/

训练结束时会自动进行评估。要使用已训练好的模型再次进行测试,可以执行以下命令:

.. code-block:: bash

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
--root $PATH_TO_DATA \
model.load_weights log/osnet_x1_0_market1501_softmax_cosinelr/model.pth.tar-250 \
test.evaluate True

跨域设置 ^^^^^^^^^^^^^^^^^

假设您想在 DukeMTMC-reID 上训练 OSNet,并在 Market1501 上测试其性能,可以执行以下命令:

.. code-block:: bash

python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad.yaml \
-s dukemtmcreid \
-t market1501 \
--transforms random_flip color_jitter \
--root $PATH_TO_DATA

在这里,我们仅测试跨域性能。然而,如果您还想测试源数据集(即 DukeMTMC-reID)上的性能,可以设置 :code:-t dukemtmcreid market1501,这将分别在两个数据集上评估模型。

与同域设置不同,这里我们将 :code:random_erase 替换为 :code:color_jitter。这可以提高模型在未见过的目标数据集上的泛化能力。

预训练模型可在 Model Zoo <https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO.html>_ 中找到。

数据集

图像 reid 数据集 ^^^^^^^^^^^^^^^^^^^^^

  • Market1501 <https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Zheng_Scalable_Person_Re-Identification_ICCV_2015_paper.pdf>_
  • CUHK03 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Li_DeepReID_Deep_Filter_2014_CVPR_paper.pdf>_
  • DukeMTMC-reID <https://arxiv.org/abs/1701.07717>_
  • MSMT17 <https://arxiv.org/abs/1711.08565>_
  • VIPeR <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.331.7285&rep=rep1&type=pdf>_
  • GRID <http://www.eecs.qmul.ac.uk/~txiang/publications/LoyXiangGong_cvpr_2009.pdf>_
  • CUHK01 <http://www.ee.cuhk.edu.hk/~xgwang/papers/liZWaccv12.pdf>_
  • SenseReID <http://openaccess.thecvf.com/content_cvpr_2017/papers/Zhao_Spindle_Net_Person_CVPR_2017_paper.pdf>_
  • QMUL-iLIDS <http://www.eecs.qmul.ac.uk/~sgg/papers/ZhengGongXiang_BMVC09.pdf>_
  • PRID <https://pdfs.semanticscholar.org/4c1b/f0592be3e535faf256c95e27982db9b3d3d3.pdf>_

地理定位数据集 ^^^^^^^^^^^^^^^^^^^^^^^

  • University-1652 <https://dl.acm.org/doi/abs/10.1145/3394171.3413896>_

视频 reid 数据集 ^^^^^^^^^^^^^^^^^^^^^^^

  • MARS <http://www.liangzheng.org/1320.pdf>_
  • iLIDS-VID <https://www.eecs.qmul.ac.uk/~sgg/papers/WangEtAl_ECCV14.pdf>_
  • PRID2011 <https://pdfs.semanticscholar.org/4c1b/f0592be3e535faf256c95e27982db9b3d3d3.pdf>_
  • DukeMTMC-VideoReID <http://openaccess.thecvf.com/content_cvpr_2018/papers/Wu_Exploit_the_Unknown_CVPR_2018_paper.pdf>_

模型

ImageNet分类模型 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^

  • ResNet <https://arxiv.org/abs/1512.03385>_
  • ResNeXt <https://arxiv.org/abs/1611.05431>_
  • SENet <https://arxiv.org/abs/1709.01507>_
  • DenseNet <https://arxiv.org/abs/1608.06993>_
  • Inception-ResNet-V2 <https://arxiv.org/abs/1602.07261>_
  • Inception-V4 <https://arxiv.org/abs/1602.07261>_
  • Xception <https://arxiv.org/abs/1610.02357>_
  • IBN-Net <https://arxiv.org/abs/1807.09441>_

轻量级模型 ^^^^^^^^^^^^^^^^^^^

  • NASNet <https://arxiv.org/abs/1707.07012>_
  • MobileNetV2 <https://arxiv.org/abs/1801.04381>_
  • ShuffleNet <https://arxiv.org/abs/1707.01083>_
  • ShuffleNetV2 <https://arxiv.org/abs/1807.11164>_
  • SqueezeNet <https://arxiv.org/abs/1602.07360>_

ReID专用模型 ^^^^^^^^^^^^^^^^^^^^^^

  • MuDeep <https://arxiv.org/abs/1709.05165>_
  • ResNet-mid <https://arxiv.org/abs/1711.08106>_
  • HACNN <https://arxiv.org/abs/1802.08122>_
  • PCB <https://arxiv.org/abs/1711.09349>_
  • MLFN <https://arxiv.org/abs/1803.09132>_
  • OSNet <https://arxiv.org/abs/1905.00953>_
  • OSNet-AIN <https://arxiv.org/abs/1910.06827>_

实用链接

  • OSNet-IBN1-Lite(仅用于测试的代码及精简版Docker容器) <https://github.com/RodMech/OSNet-IBN1-Lite>_
  • 基于深度学习的人体重识别:综述与展望 <https://github.com/mangye16/ReID-Survey>_

引用

如果您在研究中使用了本代码或相关模型,请引用以下论文:

.. code-block:: bash

@article{torchreid,
  title={Torchreid: 一个基于PyTorch的深度学习人体重识别库},
  author={周凯阳和向涛},
  journal={arXiv预印本 arXiv:1910.10093},
  year={2019}
}

@inproceedings{zhou2019osnet,
  title={面向人体重识别的全尺度特征学习},
  author={周凯阳、杨永新、卡瓦拉罗和向涛},
  booktitle={ICCV},
  year={2019}
}

@article{zhou2021osnet,
  title={学习可泛化的全尺度人体重识别表示},
  author={周凯阳、杨永新、卡瓦拉罗和向涛},
  journal={TPAMI},
  year={2021}
}

版本历史

v1.0.62019/10/23
v1.0.52019/10/23
v1.0.02019/08/26
v0.9.12019/08/04
v0.8.12019/07/08
v0.8.02019/07/03
v0.7.82019/05/28
v0.7.72019/05/24
v0.7.52019/05/09
v0.7.42019/04/27
v0.7.32019/04/18
v0.7.22019/03/25
v0.7.12019/03/25
v0.7.02019/03/25
v0.5.02018/11/12
v0.3.02018/08/15
v0.2.22018/08/01
v0.2.02018/07/06
v0.1.02018/06/04
v0.0.92018/06/04

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

155.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|4天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|4天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架