deep-person-reid
deep-person-reid 是一个基于 PyTorch 开发的深度学习行人重识别(Re-ID)开源库,旨在帮助开发者高效训练和评估行人追踪模型。它的核心任务是解决“跨摄像头行人匹配”难题,即在不同监控视角下,准确判断出现的行人是否为同一人,广泛应用于智能安防与视频分析领域。
该工具特别适合计算机视觉研究人员、算法工程师及高校学生使用。它极大地降低了 ReID 任务的门槛,提供了从数据准备、多 GPU 训练到端到端评估的一站式解决方案。用户不仅可以轻松调用多种业界领先的预训练模型,还能便捷地扩展自定义数据集或网络结构。
其技术亮点在于高度的灵活性与实用性:支持图像与视频双重模态,内置多数据集联合训练及跨域评估的标准协议,并集成了 TensorBoard 等可视化手段。此外,项目持续更新,近期已支持将模型导出为 ONNX、OpenVINO 和 TFLite 格式,便于在边缘设备部署;同时收录了著名的 OSNet 架构及其在域泛化方面的最新研究成果,是探索通用性行人重识别技术的理想起点。
使用场景
某大型物流园区的安全团队需要构建一套跨摄像头的行人追踪系统,以便在货物丢失时快速锁定嫌疑人在不同监控区域的行动轨迹。
没有 deep-person-reid 时
- 算法复现困难:开发人员需从零搭建 PyTorch 训练框架,手动复现 OSNet 等前沿模型,耗时数周且极易出错。
- 数据准备繁琐:面对多路摄像头产生的异构视频数据,缺乏标准化工具进行清洗和对齐,数据集预处理占据 80% 的开发时间。
- 跨场景效果差:自研模型在 A 区摄像头训练后,直接应用到 B 区时因光线和角度变化导致识别率断崖式下跌,无法解决域适应问题。
- 部署门槛高:模型训练完成后,缺乏便捷的导出工具,难以转换为 ONNX 或 OpenVINO 格式以适配边缘计算设备。
使用 deep-person-reid 后
- 开箱即用:直接调用库中预置的 SOTA 模型(如 OSNet)和标准化训练流程,半天内即可完成基线模型搭建与验证。
- 高效数据流水线:利用其内置的多数据集支持功能,轻松整合图像与视频数据,自动化完成端到端的训练与评估。
- 泛化能力显著提升:借助其先进的跨数据集评估协议和实例归一化技术,模型在未见过的新摄像头场景中仍保持高精度识别。
- 无缝边缘部署:通过自带的导出脚本,一键将训练好的模型转换为 TFLite 或 OpenVINO 格式,迅速部署到园区现有的监控盒子上。
deep-person-reid 将原本需要数月研发的行人的重识别系统构建周期缩短至数天,并显著提升了模型在复杂真实环境中的鲁棒性。
运行环境要求
- Linux
- macOS
- Windows
- 需要 NVIDIA GPU(支持多卡训练),具体显存未说明,需根据模型大小自行调整
- CUDA 版本需与安装的 PyTorch 匹配(示例中为 9.0,实际建议使用较新版本如 11.x+)
未说明

快速开始
Torchreid
Torchreid 是一个基于 PyTorch <https://pytorch.org/>_ 编写的深度学习行人重识别库,专为我们在 ICCV'19 上发表的项目——“面向行人重识别的全尺度特征学习”(arXiv:1905.00953 <https://arxiv.org/abs/1905.00953>_)而开发。
其主要特性包括:
- 多 GPU 训练
- 同时支持图像和视频的行人重识别任务
- 端到端的训练与评估
- 极其简便的重识别数据集准备流程
- 多数据集联合训练
- 跨数据集评估
- 采用大多数研究论文通用的标准协议
- 高度可扩展性(易于添加模型、数据集、训练方法等)
- 实现了当前最先进的深度行人重识别模型
- 提供预训练的重识别模型
- 先进的训练技巧
- 可视化工具(TensorBoard、Rank 指标等)
代码:https://github.com/KaiyangZhou/deep-person-reid。
文档:https://kaiyangzhou.github.io/deep-person-reid/。
使用指南:https://kaiyangzhou.github.io/deep-person-reid/user_guide。
模型库:https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO。
技术报告:https://arxiv.org/abs/1910.10093。
基于 Torchreid 构建的一些研究项目可以在这里找到:https://github.com/KaiyangZhou/deep-person-reid/tree/master/projects_。
模型权重也在 Hugging Face 上提供:https://huggingface.co/kaiyangzhou/osnet。
新增内容
- [2022年8月] 我们为以下框架添加了模型导出功能:ONNX、OpenVINO 和 TFLite。导出脚本可在此处找到:
here <https://github.com/KaiyangZhou/deep-person-reid/blob/master/tools/export.py>_ - [2021年8月] 我们发布了
osnet_ain_x0_75、osnet_ain_x0_5和osnet_ain_x0_25的 ImageNet 预训练模型。预训练设置遵循pycls <https://github.com/facebookresearch/pycls/blob/master/configs/archive/imagenet/resnet/R-50-1x64d_step_8gpu.yaml>_。 - [2021年4月] 我们更新了 OSNet 的 TPAMI 版本附录,以包含多源域泛化设置下的结果。训练好的模型可在
Model Zoo <https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO.html>_ 中找到。 - [2021年4月] 我们添加了一个脚本,用于自动化计算多个划分的平均结果的过程。更多详情请参阅
tools/parse_test_res.py。 - [2021年4月]
v1.4.0:我们增加了行人搜索数据集CUHK-SYSU <http://www.ee.cuhk.edu.hk/~xgwang/PS/dataset.html>。请参阅文档 <https://kaiyangzhou.github.io/deep-person-reid/>了解如何下载该数据集(其中包含裁剪后的行人图像)。 - [2021年4月] 模型库中的所有模型已迁移到 Google Drive。如果任何模型的性能与模型库页面上显示的数字不一致,请提交 issue(可能是链接错误所致)。
- [2021年3月]
OSNet <https://arxiv.org/abs/1910.06827>_ 将发表在 TPAMI 期刊上!与专注于使用全尺度构建模块进行判别特征学习的会议版本相比,该期刊扩展版进一步考虑了通过将实例归一化层 <https://arxiv.org/abs/1607.08022>_ 整合到 OSNet 架构中来实现可泛化特征学习。我们希望这篇期刊论文能够激励更多的未来工作,以解决跨数据集重识别中的泛化问题。 - [2021年3月] 行人重识别中跨域(数据集)的泛化在实际应用中至关重要,这与 域泛化 主题密切相关。您是否想了解过去十年中域泛化领域的发展情况?请查看我们在该主题上的最新综述:https://arxiv.org/abs/2103.02503,其中涵盖了历史、数据集、相关问题、方法论、潜在方向等内容(*适用于可泛化重识别的方法也包含在内*!)。
- [2021年2月]
v1.3.6新增了University-1652 <https://dl.acm.org/doi/abs/10.1145/3394171.3413896>,这是一个用于多视角多源地理定位的新数据集(感谢Zhedong Zheng <https://github.com/layumi>)。 - [2021年2月]
v1.3.5:现在cython 代码 <https://github.com/KaiyangZhou/deep-person-reid/pull/412>_ 可以在 Windows 上运行(感谢lablabla <https://github.com/lablabla>_)。 - [2021年1月] 我们的最新工作
MixStyle <https://openreview.net/forum?id=6xHJ37MVxxp>_(混合不同域样本的实例级特征统计以提高域泛化能力)已被 ICLR'21 接受。代码已在 https://github.com/KaiyangZhou/mixstyle-release 上发布,其中行人重识别部分基于 Torchreid。 - [2021年1月] 在
深度学习在行人重识别中的应用:综述与展望(TPAMI 2021) <https://arxiv.org/abs/2001.04193>_ 中,引入了一种新的行人重识别评估指标,称为平均逆向负惩罚 (mINP)。其代码可在<https://github.com/mangye16/ReID-Survey>_ 获取。 - [2020年8月]
v1.3.3:修复了visrank中的 bug(由于未解包dsetid所致)。 - [2020年8月]
v1.3.2:在grid和prid中添加了_junk_pids。这样可以在设置combineall=True时避免使用标记错误的图库图像进行训练。 - [2020年8月]
v1.3.0:(1) 在现有的三元组数据源中添加了dsetid,从而得到(impath, pid, camid, dsetid)。该变量表示数据集 ID,在合并多个数据集进行训练时非常有用(作为数据集标识)。例如,当合并market1501和cuhk03时,前者将被分配dsetid=0,而后者则被分配dsetid=1。 (2) 添加了RandomDatasetSampler。类似于RandomDomainSampler,RandomDatasetSampler会从每个指定的数据集中抽取一定数量的图像(batch_size // num_datasets),抽取的数量由num_datasets决定。 - [2020年8月]
v1.2.6:添加了RandomDomainSampler(它会从num_cams个摄像头中各抽取batch_size // num_cams张图像,组成一个小批次)。 - [2020年6月]
v1.2.5:(1) 数据加载器从__getitem__返回的结果由原来的list改为dict。以前,可以通过imgs=data[0]来获取某个元素,比如图像张量。现在则应通过imgs=data['img']来获取。有关详细更改,请参阅此提交 <https://github.com/KaiyangZhou/deep-person-reid/commit/aefe335d68f39a20160860e6d14c2d34f539b8a5>_。 (2) 添加了k_tfm作为图像数据加载器的一个选项,允许对一张图像独立地应用k_tfm次数据增强。如果k_tfm > 1,imgs=data['img']将返回一个包含k_tfm张图像张量的列表。 - [2020年5月] 添加了用于
面向行人重识别的全尺度特征学习(ICCV'19) <https://arxiv.org/abs/1905.00953>_ 中的行人属性识别代码。请参阅projects/attribute_recognition/。 - [2020年5月]
v1.2.1:添加了一个简单的特征提取 API(torchreid/utils/feature_extractor.py)。有关说明,请参阅文档 <https://kaiyangzhou.github.io/deep-person-reid/user_guide.html>_。 - [2020年4月] 用于复现
深度互学习 <https://zpascal.net/cvpr2018/Zhang_Deep_Mutual_Learning_CVPR_2018_paper.pdf>_ 实验的代码,已在OSNet 论文 <https://arxiv.org/pdf/1905.00953v6.pdf>_(补充 B)的projects/DML中发布。 - [2020年4月] 升级至
v1.2.0。引擎类变得更加模型无关,以提高可扩展性。有关详细信息,请参阅Engine <torchreid/engine/engine.py>_ 和ImageSoftmaxEngine <torchreid/engine/image/softmax.py>。感谢Dassl.pytorch <https://github.com/KaiyangZhou/Dassl.pytorch>。 - [2019年12月] 我们的
OSNet 论文 <https://arxiv.org/pdf/1905.00953v6.pdf>_ 已更新,补充部分 B 中增加了额外的实验,展示了一些在实践中提升 OSNet 性能的实用技术。 - [2019年11月] `ImageDataManager
可以通过设置load_train_targets=True从目标数据集加载训练数据,并可通过train_loader_t = datamanager.train_loader_t`` 访问训练加载器。此功能对域适应研究非常有用。
安装
确保已安装 conda <https://www.anaconda.com/distribution/>_。
.. code-block:: bash
切换到您 preferred 的目录并克隆此仓库
git clone https://github.com/KaiyangZhou/deep-person-reid.git
# 创建环境
cd deep-person-reid/
conda create --name torchreid python=3.7
conda activate torchreid
# 安装依赖
# 确保 `which python` 和 `which pip` 指向正确的路径
pip install -r requirements.txt
# 安装 PyTorch 和 torchvision(根据您的机器选择合适的 CUDA 版本)
conda install pytorch torchvision cudatoolkit=9.0 -c pytorch
# 安装 torchreid(如果您修改了源代码,则无需重新构建)
python setup.py develop
另一种安装方式是在 Docker 容器中运行所有步骤:
- 构建:
make build-image - 运行:
make run
快速入门:30 秒掌握 Torchreid
- 导入
torchreid
.. code-block:: python
import torchreid
- 加载数据管理器
.. code-block:: python
datamanager = torchreid.data.ImageDataManager(
root="reid-data",
sources="market1501",
targets="market1501",
height=256,
width=128,
batch_size_train=32,
batch_size_test=100,
transforms=["random_flip", "random_crop"]
)
3 构建模型、优化器和学习率调度器
.. code-block:: python
model = torchreid.models.build_model(
name="resnet50",
num_classes=datamanager.num_train_pids,
loss="softmax",
pretrained=True
)
model = model.cuda。
optimizer = torchreid.optim.build_optimizer(
model,
optim="adam",
lr=0.0003
)
scheduler = torchreid.optim.build_lr_scheduler(
optimizer,
lr_scheduler="single_step",
stepsize=20
)
- 构建训练引擎
.. code-block:: python
engine = torchreid.engine.ImageSoftmaxEngine(
datamanager,
model,
optimizer=optimizer,
scheduler=scheduler,
label_smooth=True
)
- 开始训练和测试
.. code-block:: python
engine.run(
save_dir="log/resnet50",
max_epoch=60,
eval_freq=10,
print_freq=10,
test_only=False
)
统一接口
在“deep-person-reid/scripts/”中,我们提供了一个统一的接口来训练和测试模型。更多细节请参阅“scripts/main.py”和“scripts/default_config.py”。文件夹“configs/”包含一些预定义的配置文件,您可以将其作为起点。
下面提供一个训练和测试 OSNet (Zhou et al. ICCV'19) <https://arxiv.org/abs/1905.00953>_ 的示例。假设 :code:PATH_TO_DATA 是包含 reid 数据集的目录。环境变量 :code:CUDA_VISIBLE_DEVICES 被省略,如果您有一组 GPU 并希望使用其中特定的一组,则需要指定该变量。
常规设置 ^^^^^^^^^^^^^^^^^
要在 Market1501 上训练 OSNet,请执行以下命令:
.. code-block:: bash
python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
--transforms random_flip random_erase \
--root $PATH_TO_DATA
配置文件将 Market1501 设置为默认数据集。如果您想使用 DukeMTMC-reID,则可以执行以下命令:
.. code-block:: bash
python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
-s dukemtmcreid \
-t dukemtmcreid \
--transforms random_flip random_erase \
--root $PATH_TO_DATA \
data.save_dir log/osnet_x1_0_dukemtmcreid_softmax_cosinelr
代码会自动(下载并)加载 ImageNet 预训练权重。训练完成后,模型将保存为 “log/osnet_x1_0_market1501_softmax_cosinelr/model.pth.tar-250”。在同一文件夹下,您还可以找到 tensorboard <https://pytorch.org/docs/stable/tensorboard.html>_ 文件。要使用 tensorboard 可视化学习曲线,可以在终端中运行 :code:tensorboard --logdir=log/osnet_x1_0_market1501_softmax_cosinelr,然后在浏览器中访问 :code:http://localhost:6006/。
训练结束时会自动进行评估。要使用已训练好的模型再次进行测试,可以执行以下命令:
.. code-block:: bash
python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad_cosine.yaml \
--root $PATH_TO_DATA \
model.load_weights log/osnet_x1_0_market1501_softmax_cosinelr/model.pth.tar-250 \
test.evaluate True
跨域设置 ^^^^^^^^^^^^^^^^^
假设您想在 DukeMTMC-reID 上训练 OSNet,并在 Market1501 上测试其性能,可以执行以下命令:
.. code-block:: bash
python scripts/main.py \
--config-file configs/im_osnet_x1_0_softmax_256x128_amsgrad.yaml \
-s dukemtmcreid \
-t market1501 \
--transforms random_flip color_jitter \
--root $PATH_TO_DATA
在这里,我们仅测试跨域性能。然而,如果您还想测试源数据集(即 DukeMTMC-reID)上的性能,可以设置 :code:-t dukemtmcreid market1501,这将分别在两个数据集上评估模型。
与同域设置不同,这里我们将 :code:random_erase 替换为 :code:color_jitter。这可以提高模型在未见过的目标数据集上的泛化能力。
预训练模型可在 Model Zoo <https://kaiyangzhou.github.io/deep-person-reid/MODEL_ZOO.html>_ 中找到。
数据集
图像 reid 数据集 ^^^^^^^^^^^^^^^^^^^^^
Market1501 <https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Zheng_Scalable_Person_Re-Identification_ICCV_2015_paper.pdf>_CUHK03 <https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Li_DeepReID_Deep_Filter_2014_CVPR_paper.pdf>_DukeMTMC-reID <https://arxiv.org/abs/1701.07717>_MSMT17 <https://arxiv.org/abs/1711.08565>_VIPeR <http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.331.7285&rep=rep1&type=pdf>_GRID <http://www.eecs.qmul.ac.uk/~txiang/publications/LoyXiangGong_cvpr_2009.pdf>_CUHK01 <http://www.ee.cuhk.edu.hk/~xgwang/papers/liZWaccv12.pdf>_SenseReID <http://openaccess.thecvf.com/content_cvpr_2017/papers/Zhao_Spindle_Net_Person_CVPR_2017_paper.pdf>_QMUL-iLIDS <http://www.eecs.qmul.ac.uk/~sgg/papers/ZhengGongXiang_BMVC09.pdf>_PRID <https://pdfs.semanticscholar.org/4c1b/f0592be3e535faf256c95e27982db9b3d3d3.pdf>_
地理定位数据集 ^^^^^^^^^^^^^^^^^^^^^^^
University-1652 <https://dl.acm.org/doi/abs/10.1145/3394171.3413896>_
视频 reid 数据集 ^^^^^^^^^^^^^^^^^^^^^^^
MARS <http://www.liangzheng.org/1320.pdf>_iLIDS-VID <https://www.eecs.qmul.ac.uk/~sgg/papers/WangEtAl_ECCV14.pdf>_PRID2011 <https://pdfs.semanticscholar.org/4c1b/f0592be3e535faf256c95e27982db9b3d3d3.pdf>_DukeMTMC-VideoReID <http://openaccess.thecvf.com/content_cvpr_2018/papers/Wu_Exploit_the_Unknown_CVPR_2018_paper.pdf>_
模型
ImageNet分类模型 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
ResNet <https://arxiv.org/abs/1512.03385>_ResNeXt <https://arxiv.org/abs/1611.05431>_SENet <https://arxiv.org/abs/1709.01507>_DenseNet <https://arxiv.org/abs/1608.06993>_Inception-ResNet-V2 <https://arxiv.org/abs/1602.07261>_Inception-V4 <https://arxiv.org/abs/1602.07261>_Xception <https://arxiv.org/abs/1610.02357>_IBN-Net <https://arxiv.org/abs/1807.09441>_
轻量级模型 ^^^^^^^^^^^^^^^^^^^
NASNet <https://arxiv.org/abs/1707.07012>_MobileNetV2 <https://arxiv.org/abs/1801.04381>_ShuffleNet <https://arxiv.org/abs/1707.01083>_ShuffleNetV2 <https://arxiv.org/abs/1807.11164>_SqueezeNet <https://arxiv.org/abs/1602.07360>_
ReID专用模型 ^^^^^^^^^^^^^^^^^^^^^^
MuDeep <https://arxiv.org/abs/1709.05165>_ResNet-mid <https://arxiv.org/abs/1711.08106>_HACNN <https://arxiv.org/abs/1802.08122>_PCB <https://arxiv.org/abs/1711.09349>_MLFN <https://arxiv.org/abs/1803.09132>_OSNet <https://arxiv.org/abs/1905.00953>_OSNet-AIN <https://arxiv.org/abs/1910.06827>_
实用链接
OSNet-IBN1-Lite(仅用于测试的代码及精简版Docker容器) <https://github.com/RodMech/OSNet-IBN1-Lite>_基于深度学习的人体重识别:综述与展望 <https://github.com/mangye16/ReID-Survey>_
引用
如果您在研究中使用了本代码或相关模型,请引用以下论文:
.. code-block:: bash
@article{torchreid,
title={Torchreid: 一个基于PyTorch的深度学习人体重识别库},
author={周凯阳和向涛},
journal={arXiv预印本 arXiv:1910.10093},
year={2019}
}
@inproceedings{zhou2019osnet,
title={面向人体重识别的全尺度特征学习},
author={周凯阳、杨永新、卡瓦拉罗和向涛},
booktitle={ICCV},
year={2019}
}
@article{zhou2021osnet,
title={学习可泛化的全尺度人体重识别表示},
author={周凯阳、杨永新、卡瓦拉罗和向涛},
journal={TPAMI},
year={2021}
}
版本历史
v1.0.62019/10/23v1.0.52019/10/23v1.0.02019/08/26v0.9.12019/08/04v0.8.12019/07/08v0.8.02019/07/03v0.7.82019/05/28v0.7.72019/05/24v0.7.52019/05/09v0.7.42019/04/27v0.7.32019/04/18v0.7.22019/03/25v0.7.12019/03/25v0.7.02019/03/25v0.5.02018/11/12v0.3.02018/08/15v0.2.22018/08/01v0.2.02018/07/06v0.1.02018/06/04v0.0.92018/06/04常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器