pretrained-models.pytorch

9.1k 1.8k 简单 2 次阅读今天BSD-3-Clause开发框架图像

AI 解读由 AI 自动生成，仅供参考

pretrained-models.pytorch 是一个专为 PyTorch 框架打造的预训练卷积神经网络集合。它囊括了 ResNet、InceptionV4、NASNet、SENet 等多种主流及前沿视觉模型，让开发者无需从零训练即可直接调用强大的特征提取能力。

深度学习研究常面临复现论文困难或迁移学习资源不足的挑战。pretrained-models.pytorch 通过提供统一且简洁的 API 接口（灵感源自 torchvision），有效降低了获取和使用高质量预训练模型的门槛。用户仅需少量代码即可加载模型，将精力集中在算法验证或业务应用上，而无需耗费时间在网络搭建与权重初始化等繁琐环节。

pretrained-models.pytorch 同样适合计算机视觉领域的研究人员和开发者，特别是那些需要快速评估不同架构性能、复现学术成果或构建基于迁移学习项目的团队。此外，库内持续更新的模型列表涵盖了从经典到最新的网络结构，并支持 ImageNet 上的精度评估数据，是探索深度学习模型能力的可靠选择。无论是入门实践还是进阶研究，pretrained-models.pytorch 都能提供便捷的支持。

使用场景

某工业质检团队正在开发自动化表面缺陷检测系统，急需对比多种主流卷积神经网络在特定数据集上的表现。

没有 pretrained-models.pytorch 时

研发人员需从零编写 ResNet、InceptionV4 等复杂网络结构代码，易出错且维护成本高。
预训练权重散落在不同 GitHub 项目或 Caffe 转换脚本中，下载和集成过程繁琐。
各模型对输入图片的尺寸、均值方差要求不同，需手动编写大量适配代码。
每次更换基准模型都要重新调试整个推理 pipeline，严重拖慢实验迭代速度。

使用 pretrained-models.pytorch 后

直接调用接口即可加载 NASNet、SE-ResNet 等数十种 SOTA 模型的预训练参数。
提供类似 torchvision 的统一 API，无需关心底层架构差异，代码简洁清晰。
内置标准化的 TransformImage 接口，自动处理图像缩放与归一化，保证特征提取准确。
可轻松替换 last_linear 层，将 ImageNet 预训练模型快速迁移到工业缺陷分类任务。

pretrained-models.pytorch 通过标准化接口和丰富模型库，显著缩短了从算法验证到工程落地的周期。

运行环境要求

操作系统

未说明

GPU

可选 (支持 CUDA 或 CPU)

内存

未说明

依赖

notes建议使用 Anaconda 管理环境；模型文件默认下载至 $HOME/.torch 目录，可通过 $TORCH_HOME 环境变量修改；项目发布于 2018 年，使用新版 PyTorch 时需注意 API 兼容性

python3

torch

快速开始

PyTorch 预训练模型（开发中）

本仓库的目标是：

帮助复现研究论文的结果（例如迁移学习设置），
通过受 torchvision 启用的统一接口/API（应用程序接口）访问预训练的卷积神经网络（ConvNets）。

概述

安装

通过 pip 安装

pip install pretrainedmodels

从仓库安装

git clone https://github.com/Cadene/pretrained-models.pytorch.git
cd pretrained-models.pytorch
python setup.py install

快速示例

导入 pretrainedmodels：

import pretrainedmodels

打印可用的预训练模型：

print(pretrainedmodels.model_names)
> ['fbresnet152', 'bninception', 'resnext101_32x4d', 'resnext101_64x4d', 'inceptionv4', 'inceptionresnetv2', 'alexnet', 'densenet121', 'densenet169', 'densenet201', 'densenet161', 'resnet18', 'resnet34', 'resnet50', 'resnet101', 'resnet152', 'inceptionv3', 'squeezenet1_0', 'squeezenet1_1', 'vgg11', 'vgg11_bn', 'vgg13', 'vgg13_bn', 'vgg16', 'vgg16_bn', 'vgg19_bn', 'vgg19', 'nasnetalarge', 'nasnetamobile', 'cafferesnet101', 'senet154',  'se_resnet50', 'se_resnet101', 'se_resnet152', 'se_resnext50_32x4d', 'se_resnext101_32x4d', 'cafferesnet101', 'polynet', 'pnasnet5large']

打印选定模型的可用预训练设置：

print(pretrainedmodels.pretrained_settings['nasnetalarge'])
> {'imagenet': {'url': 'http://data.lip6.fr/cadene/pretrainedmodels/nasnetalarge-a1897284.pth', 'input_space': 'RGB', 'input_size': [3, 331, 331], 'input_range': [0, 1], 'mean': [0.5, 0.5, 0.5], 'std': [0.5, 0.5, 0.5], 'num_classes': 1000}, 'imagenet+background': {'url': 'http://data.lip6.fr/cadene/pretrainedmodels/nasnetalarge-a1897284.pth', 'input_space': 'RGB', 'input_size': [3, 331, 331], 'input_range': [0, 1], 'mean': [0.5, 0.5, 0.5], 'std': [0.5, 0.5, 0.5], 'num_classes': 1001}}

从 ImageNet 加载预训练模型：

model_name = 'nasnetalarge' # could be fbresnet152 or inceptionresnetv2
model = pretrainedmodels.__dict__[model_name](num_classes=1000, pretrained='imagenet')
model.eval()

注意：默认情况下，模型将下载到您的 $HOME/.torch 文件夹。您可以使用 $TORCH_HOME 变量修改此行为，如下所示：export TORCH_HOME="/local/pretrainedmodels"

加载图像并执行完整的前向传播（forward pass）：

import torch
import pretrainedmodels.utils as utils

load_img = utils.LoadImage()

# transformations depending on the model
# rescale, center crop, normalize, and others (ex: ToBGR, ToRange255)
tf_img = utils.TransformImage(model) 

path_img = 'data/cat.jpg'

input_img = load_img(path_img)
input_tensor = tf_img(input_img)         # 3x400x225 -> 3x299x299 size may differ
input_tensor = input_tensor.unsqueeze(0) # 3x299x299 -> 1x3x299x299
input = torch.autograd.Variable(input_tensor,
    requires_grad=False)

output_logits = model(input) # 1x1000

提取特征（注意：此 API (应用程序接口) 并非对所有网络都可用）：

output_features = model.features(input) # 1x14x14x2048 size may differ
output_logits = model.logits(output_features) # 1x1000

一些使用案例

计算 ImageNet logits (对数几率)

参见 examples/imagenet_logits.py 以使用在 ImageNet 上的预训练模型计算单张图像中各类别的 logits。

$ python examples/imagenet_logits.py -h
> nasnetalarge, resnet152, inceptionresnetv2, inceptionv4, ...

$ python examples/imagenet_logits.py -a nasnetalarge --path_img data/cat.jpg
> 'nasnetalarge': data/cat.jpg' is a 'tiger cat'

计算 ImageNet 评估指标

参见 examples/imagenet_eval.py 以在 ImageNet 验证集上评估预训练模型。

$ python examples/imagenet_eval.py /local/common-data/imagenet_2012/images -a nasnetalarge -b 20 -e
> * Acc@1 82.693, Acc@5 96.13

ImageNet 评估

验证集准确率（单模型）

结果是使用与训练过程中相同大小的图像（中心裁剪）获得的。

模型	实现来源	Top-1 准确率	Top-5 准确率
PNASNet-5-Large	Tensorflow	82.858	96.182
PNASNet-5-Large	本项目移植	82.736	95.992
NASNet-A-Large	Tensorflow	82.693	96.163
NASNet-A-Large	本项目移植	82.566	96.086
SENet154	Caffe	81.32	95.53
SENet154	本项目移植	81.304	95.498
PolyNet	Caffe	81.29	95.75
PolyNet	本项目移植	81.002	95.624
InceptionResNetV2	Tensorflow	80.4	95.3
InceptionV4	Tensorflow	80.2	95.3
SE-ResNeXt101_32x4d	本项目移植	80.236	95.028
SE-ResNeXt101_32x4d	Caffe	80.19	95.04
InceptionResNetV2	本项目移植	80.170	95.234
InceptionV4	本项目移植	80.062	94.926
DualPathNet107_5k	本项目移植	79.746	94.684
ResNeXt101_64x4d	Torch7	79.6	94.7
DualPathNet131	本项目移植	79.432	94.574
DualPathNet92_5k	本项目移植	79.400	94.620
DualPathNet98	本项目移植	79.224	94.488
SE-ResNeXt50_32x4d	本项目移植	79.076	94.434
SE-ResNeXt50_32x4d	Caffe	79.03	94.46
Xception	Keras	79.000	94.500
ResNeXt101_64x4d	本项目移植	78.956	94.252
Xception	本项目移植	78.888	94.292
ResNeXt101_32x4d	Torch7	78.8	94.4
SE-ResNet152	Caffe	78.66	94.46
SE-ResNet152	本项目移植	78.658	94.374
ResNet152	Pytorch	78.428	94.110
SE-ResNet101	本项目移植	78.396	94.258
SE-ResNet101	Caffe	78.25	94.28
ResNeXt101_32x4d	本项目移植	78.188	93.886
FBResNet152	Torch7	77.84	93.84
SE-ResNet50	Caffe	77.63	93.64
SE-ResNet50	本项目移植	77.636	93.752
DenseNet161	Pytorch	77.560	93.798
ResNet101	Pytorch	77.438	93.672
FBResNet152	本项目移植	77.386	93.594
InceptionV3	Pytorch	77.294	93.454
DenseNet201	Pytorch	77.152	93.548
DualPathNet68b_5k	本项目移植	77.034	93.590
CaffeResnet101	Caffe	76.400	92.900
CaffeResnet101	本项目移植	76.200	92.766
DenseNet169	Pytorch	76.026	92.992
ResNet50	Pytorch	76.002	92.980
DualPathNet68	本项目移植	75.868	92.774
DenseNet121	Pytorch	74.646	92.136
VGG19_BN	Pytorch	74.266	92.066
NASNet-A-Mobile	Tensorflow	74.0	91.6
NASNet-A-Mobile	本项目移植	74.080	91.740
ResNet34	Pytorch	73.554	91.456
BNInception	本项目移植	73.524	91.562
VGG16_BN	Pytorch	73.518	91.608
VGG19	Pytorch	72.080	90.822
VGG16	Pytorch	71.636	90.354
VGG13_BN	Pytorch	71.508	90.494
VGG11_BN	Pytorch	70.452	89.818
ResNet18	Pytorch	70.142	89.274
VGG13	Pytorch	69.662	89.264
VGG11	Pytorch	68.970	88.746
SqueezeNet1_1	Pytorch	58.250	80.800
SqueezeNet1_0	Pytorch	58.108	80.428
Alexnet	Pytorch	56.432	79.194

注意事项：

ResNet152 的 PyTorch (深度学习框架) 版本并非 Torch7 的移植版，而是由 Facebook 重新训练的。
对于 PolyNet 评估，每张图像被调整为 378x378（不保持宽高比），然后使用结果图像的中心 331×331 区域。

注意，此处报告的准确率并不总是代表网络在其他任务和数据集上的迁移能力。你必须全部尝试一下！:P

复现结果

请参阅计算 ImageNet (图像数据集) 验证指标 (validation metrics)

文档

可用模型

NASNet*

来源：TensorFlow Slim 仓库 (repo)

nasnetalarge(num_classes=1000, pretrained='imagenet')
nasnetalarge(num_classes=1001, pretrained='imagenet+background')
nasnetamobile(num_classes=1000, pretrained='imagenet')

FaceBook ResNet*

来源：FaceBook Torch7 仓库 (repo)

它们与 torchvision 中的 ResNet (残差网络)* 略有不同。ResNet152 是目前唯一可用的。

fbresnet152(num_classes=1000, pretrained='imagenet')

Caffe ResNet*

来源：KaimingHe 的 Caffe 仓库 (repo)

cafferesnet101(num_classes=1000, pretrained='imagenet')

Inception*

来源：TensorFlow Slim 仓库 (repo) 和 PyTorch/Vision 仓库 (repo) 用于 inceptionv3

inceptionresnetv2(num_classes=1000, pretrained='imagenet')
inceptionresnetv2(num_classes=1001, pretrained='imagenet+background')
inceptionv4(num_classes=1000, pretrained='imagenet')
inceptionv4(num_classes=1001, pretrained='imagenet+background')
inceptionv3(num_classes=1000, pretrained='imagenet')

BNInception

来源：使用 Caffe 训练由 Xiong Yuanjun

bninception(num_classes=1000, pretrained='imagenet')

ResNeXt*

来源：FaceBook ResNeXt 仓库 (repo)

resnext101_32x4d(num_classes=1000, pretrained='imagenet')
resnext101_62x4d(num_classes=1000, pretrained='imagenet')

DualPathNetworks

来源：Chen Yunpeng 的 MXNet 仓库 (repo)

移植工作由 Ross Wightman 在其 PyTorch 仓库 (repo) 中完成。

正如你在这里看到的，DualPathNetworks 允许你尝试不同的比例。本仓库中的默认比例为 0.875，这意味着原始输入大小为 256，在裁剪至 224 之前。

dpn68(num_classes=1000, pretrained='imagenet')
dpn98(num_classes=1000, pretrained='imagenet')
dpn131(num_classes=1000, pretrained='imagenet')
dpn68b(num_classes=1000, pretrained='imagenet+5k')
dpn92(num_classes=1000, pretrained='imagenet+5k')
dpn107(num_classes=1000, pretrained='imagenet+5k')

'imagenet+5k' 表示该网络先在 imagenet5k 上预训练 (pretrained)，然后在 imagenet1k 上进行微调 (finetuned)。

Xception

来源：Keras 仓库 (repo)

移植工作由 T Standley 完成。

xception(num_classes=1000, pretrained='imagenet')

SENet*

来源：Jie Hu 的 Caffe 仓库 (repo)

senet154(num_classes=1000, pretrained='imagenet')
se_resnet50(num_classes=1000, pretrained='imagenet')
se_resnet101(num_classes=1000, pretrained='imagenet')
se_resnet152(num_classes=1000, pretrained='imagenet')
se_resnext50_32x4d(num_classes=1000, pretrained='imagenet')
se_resnext101_32x4d(num_classes=1000, pretrained='imagenet')

PNASNet*

来源：TensorFlow Slim 仓库 (repo)

pnasnet5large(num_classes=1000, pretrained='imagenet')
pnasnet5large(num_classes=1001, pretrained='imagenet+background')

PolyNet

来源：CUHK 多媒体实验室的 Caffe 仓库 (repo)

polynet(num_classes=1000, pretrained='imagenet')

TorchVision

来源：PyTorch/Vision 仓库 (repo)

(inceptionv3 包含在 Inception*)

resnet18(num_classes=1000, pretrained='imagenet')
resnet34(num_classes=1000, pretrained='imagenet')
resnet50(num_classes=1000, pretrained='imagenet')
resnet101(num_classes=1000, pretrained='imagenet')
resnet152(num_classes=1000, pretrained='imagenet')
densenet121(num_classes=1000, pretrained='imagenet')
densenet161(num_classes=1000, pretrained='imagenet')
densenet169(num_classes=1000, pretrained='imagenet')
densenet201(num_classes=1000, pretrained='imagenet')
squeezenet1_0(num_classes=1000, pretrained='imagenet')
squeezenet1_1(num_classes=1000, pretrained='imagenet')
alexnet(num_classes=1000, pretrained='imagenet')
vgg11(num_classes=1000, pretrained='imagenet')
vgg13(num_classes=1000, pretrained='imagenet')
vgg16(num_classes=1000, pretrained='imagenet')
vgg19(num_classes=1000, pretrained='imagenet')
vgg11_bn(num_classes=1000, pretrained='imagenet')
vgg13_bn(num_classes=1000, pretrained='imagenet')
vgg16_bn(num_classes=1000, pretrained='imagenet')
vgg19_bn(num_classes=1000, pretrained='imagenet')

模型 API

一旦预训练模型加载完成，你就可以这样使用它。

重要提示：所有图像必须使用 PIL (Python Imaging Library) 加载，它会将像素值缩放到 0 到 1 之间。

`model.input_size`

类型为 list (列表) 的属性，由 3 个数字组成：

颜色通道数，
输入图像的高度，
输入图像的宽度。

示例：

[3, 299, 299] 用于 inception* 网络，
[3, 224, 224] 用于 resnet* 网络。

`model.input_space`

类型为 str (字符串) 的属性，表示图像的颜色空间。可以是 RGB 或 BGR。

`model.input_range`

类型为 list (列表) 的属性，由 2 个数字组成：

最小像素值，
最大像素值。

示例：

[0, 1] 用于 resnet* 和 inception* 网络，
[0, 255] 用于 bninception 网络。

`model.mean`

类型为 list (列表) 的属性，由 3 个数字组成，用于归一化输入图像（按“颜色通道”减去）。

示例：

[0.5, 0.5, 0.5] 用于 inception* 网络，
[0.485, 0.456, 0.406] 用于 resnet* 网络。

`model.std`

类型为 list (列表) 的属性，由 3 个数字组成，用于归一化输入图像（按“颜色通道”除以）。

示例：

[0.5, 0.5, 0.5] 用于 inception* 网络，
[0.229, 0.224, 0.225] 用于 resnet* 网络。

`model.features`

/!\ 进行中（可能不可用）

用于从图像中提取 features (特征) 的方法。

当使用 fbresnet152 加载模型时的示例：

print(input_224.size())            # (1,3,224,224)
output = model.features(input_224) 
print(output.size())               # (1,2048,1,1)

# print(input_448.size())          # (1,3,448,448)
output = model.features(input_448)
# print(output.size())             # (1,2048,7,7)

`model.logits`

/!\ 进行中（可能不可用）

用于对图像 features (特征) 进行分类的方法，输出 logits (原始输出)。

当使用 fbresnet152 加载模型时的示例：

output = model.features(input_224) 
print(output.size())               # (1,2048, 1, 1)
output = model.logits(output)
print(output.size())               # (1,1000)

`model.forward`

用于调用 model.features 和 model.logits 的方法。可以根据需要重写。

注意：一种好的做法是使用 model.__call__ 作为将输入 forward (转发) 到模型的首选函数。见下方示例。

# Without model.__call__
output = model.forward(input_224)
print(output.size())      # (1,1000)

# With model.__call__
output = model(input_224)
print(output.size())      # (1,1000)

`model.last_linear`

类型为 nn.Linear (线性层) 的属性。该模块是在 forward pass (前向传播) 过程中最后被调用的模块。

可以替换为适配的 nn.Linear (线性层) 以进行 fine tuning (微调)。
可以替换为 pretrained.utils.Identity (恒等模块) 以进行特征提取。

当使用 fbresnet152 加载模型时的示例：

print(input_224.size())            # (1,3,224,224)
output = model.features(input_224) 
print(output.size())               # (1,2048,1,1)
output = model.logits(output)
print(output.size())               # (1,1000)

# fine tuning
dim_feats = model.last_linear.in_features # =2048
nb_classes = 4
model.last_linear = nn.Linear(dim_feats, nb_classes)
output = model(input_224)
print(output.size())               # (1,4)

# features extraction
model.last_linear = pretrained.utils.Identity()
output = model(input_224)
print(output.size())               # (1,2048)

复现

ResNet152 的手动移植

th pretrainedmodels/fbresnet/resnet152_dump.lua
python pretrainedmodels/fbresnet/resnet152_load.py

ResNeXt 的自动移植

https://github.com/clcarwin/convert_torch_to_pytorch

NASNet、InceptionV4 和 InceptionResNetV2 的手动移植

https://github.com/Cadene/tensorflow-model-zoo.torch

致谢

感谢深度学习社区，特别是 PyTorch 生态系统的贡献者。

pretrained-models.pytorch 快速上手指南

环境准备

Python: 建议使用 Python 3 (推荐使用 Anaconda 环境)
深度学习框架: PyTorch (支持 CPU 或 CUDA 版本)

安装步骤

方式一：通过 pip 安装（推荐）

直接安装官方发布的包：

pip install pretrainedmodels

方式二：从源码安装

如需获取最新开发版本，可克隆仓库并安装：

git clone https://github.com/Cadene/pretrained-models.pytorch.git
cd pretrained-models.pytorch
python setup.py install

注意：默认情况下，预训练模型权重将下载至 $HOME/.torch 文件夹。如需修改下载路径，可设置环境变量： export TORCH_HOME="/local/pretrainedmodels"

基本使用

1. 导入库与查看可用模型

import pretrainedmodels

# 打印所有可用的预训练模型名称
print(pretrainedmodels.model_names)

2. 加载预训练模型

以 nasnetalarge 为例加载 ImageNet 预训练模型：

model_name = 'nasnetalarge' # 也可以是 fbresnet152 或 inceptionresnetv2
model = pretrainedmodels.__dict__[model_name](num_classes=1000, pretrained='imagenet')
model.eval()

3. 图像推理示例

加载图片并进行完整的前向传播：

import torch
import pretrainedmodels.utils as utils

load_img = utils.LoadImage()

# 根据模型类型进行变换（重缩放、中心裁剪、归一化等）
tf_img = utils.TransformImage(model) 

path_img = 'data/cat.jpg'

input_img = load_img(path_img)
input_tensor = tf_img(input_img)         # 尺寸可能因模型而异
input_tensor = input_tensor.unsqueeze(0) # 增加 batch 维度
input = torch.autograd.Variable(input_tensor,
    requires_grad=False)

output_logits = model(input) # 输出类别 logits

4. 特征提取（部分网络支持）

某些网络支持分离特征提取和分类头：

output_features = model.features(input) # 提取特征图
output_logits = model.logits(output_features) # 计算 logits

常见问题

预训练模型的输入预处理应该使用哪些均值和标准差？

使用 PNASNet 时遇到 `TypeError: forward() missing 1 required positional argument: 'x_right'` 错误如何解决？

该仓库是否包含 Google Brain 发布的 NASNet 模型？

InceptionV1 模型中是否存在 ReLU 激活函数未被使用的情况？

NASNet 实现中的 MaxPool 和 AvgPool 操作是否配置正确？

ResNeXt 模型训练速度明显慢于 ResNet 是否正常？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架