models

9.5k 1.6k 简单 1 次阅读今天Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

ONNX Model Zoo 是一个汇聚了众多预训练、最先进机器学习模型的开源资源库，所有模型均采用通用的 ONNX 格式。它主要解决了不同深度学习框架之间模型转换困难、复用成本高的问题，让开发者能够轻松跨越框架壁垒，在各种工具、运行时和编译器中灵活部署和使用模型。

虽然该项目目前已转为历史归档状态，不再直接通过 Git LFS 提供下载（新资源已迁移至 Hugging Face），但其沉淀的模型资产依然极具价值。这些模型源自 timm、torchvision、transformers 等知名开源项目，涵盖计算机视觉、自然语言处理、生成式 AI 及图机器学习等多个领域，并经过严格的准确性验证。此外，资源库还特别提供了由 Intel Neural Compressor 生成的 INT8 量化模型，帮助追求高性能推理的用户进一步优化模型体积与速度。

无论是希望快速上手实验的 AI 开发者、需要基准模型进行研究的研究人员，还是对机器学习感兴趣的技术爱好者，都能从中找到适合的起点。通过标准化的格式和丰富的类别，models 让高质量的人工智能技术变得更加触手可及，促进了社区内的知识共享与技术普及。

使用场景

某边缘计算团队正致力于将先进的图像识别算法部署到资源受限的工业质检摄像头中，以实现实时缺陷检测。

没有 models 时

框架绑定严重：团队使用的模型多基于 PyTorch 或 TensorFlow 训练，而目标硬件仅支持特定推理引擎，导致跨框架迁移需重写大量代码甚至重新训练。
格式转换繁琐：缺乏现成的标准化模型，开发人员需手动导出并调试 ONNX 格式，常因算子不兼容导致转换失败，耗费数天排查环境差异。
验证成本高昂：自行转换的模型缺乏权威精度验证，必须在生产环境中反复测试才能确认效果，极大拖慢了从原型到落地的周期。
量化优化困难：为了让模型在低算力设备上流畅运行，团队需从零研究 INT8 量化策略，难以快速找到精度与速度的最佳平衡点。

使用 models 后

即插即用部署：直接下载 models 库中预置的、已转换为 ONNX 格式的 ResNet 或 YOLO 等_state-of-the-art_模型，无缝对接各类推理后端，消除框架壁垒。
开箱即用体验：获取经过严格准确性验证的模型文件，跳过复杂的导出与调试环节，将原本数天的环境适配工作缩短至几小时。
可信基准参考：利用库中提供的验证脚本和测试数据，快速确认模型在目标场景下的表现，确保上线前的性能指标可靠可控。
高效量化支持：直接复用由 Intel Neural Compressor 生成的 INT8 量化模型，在几乎不损失精度的前提下显著提升边缘设备的推理速度。

models 通过提供标准化、预验证且优化的模型资产，让开发者从繁琐的格式转换与调优中解放出来，专注于业务逻辑创新与快速落地。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目为已弃用的 ONNX 模型库（历史存档），模型文件需通过 Git LFS 下载（2025 年 7 月 1 日后将停止 LFS 支持，建议转至 Hugging Face 获取）。部分 INT8 量化模型依赖 Intel® Neural Compressor。README 未明确列出具体的操作系统、GPU、内存或 Python 版本要求，因为该仓库主要存储模型文件而非推理代码，具体运行环境取决于用户使用的推理框架（如 ONNX Runtime）。

python未说明

onnx

Git LFS

快速开始

弃用通知：我们衷心感谢社区对 ONNX Model Zoo 项目的参与和支持。随着机器学习生态系统的不断发展，许多新颖的模型共享已成功迁移至 Hugging Face 平台，该平台目前保持着活跃且健康的态势。我们仅将 ONNX Model Zoo 仓库保留用于历史记录目的。请注意，自 2025 年 7 月 1 日起，模型将不再可通过 LFS 下载。您仍可访问原本在此仓库中提供的模型，请前往 https://huggingface.co/onnxmodelzoo。

ONNX 模型库

简介

欢迎来到 ONNX 模型库！开放神经网络交换格式（ONNX）是一种开放标准格式，旨在表示机器学习模型。在强大的合作伙伴社区支持下，ONNX 定义了一组通用算子和一种通用文件格式，使 AI 开发人员能够在多种框架、工具、运行时和编译器之间使用模型。

本仓库是一个精选的预训练、最先进的 ONNX 格式模型集合。这些模型来自知名的开源项目，并由多元化的社区成员贡献。我们的目标是促进机器学习模型在更广泛的开发者、研究人员和爱好者群体中的传播与应用。

由于 ONNX 模型文件可能较大，我们使用 Git LFS（大文件存储）来管理这些文件。

模型

目前，我们正在通过纳入以下类别中的更多模型来扩展 ONNX 模型库。鉴于我们正在严格验证新模型的准确性，请参阅下方已成功通过准确性验证的[已验证模型]：

计算机视觉
自然语言处理（NLP）
生成式 AI
图机器学习

这些模型来源于诸如 timm、torchvision、torch_hub 和 transformers 等知名开源项目，并使用开源的 TurnkeyML 工具链导出为 ONNX 格式。

已验证模型

请阅读下方的使用说明部分，了解更多关于 ONNX 模型库中文件格式（.onnx、.pb、.npz）、通过Git LFS 命令行下载多个 ONNX 模型，以及使用测试数据验证 ONNX 模型的入门 Python 代码的信息。

INT8 模型由 Intel® Neural Compressor 生成。Intel® Neural Compressor 是一个开源的 Python 库，支持自动的精度驱动调优策略，帮助用户快速找到最佳量化模型。它为 ONNX 模型实现了动态和静态量化，并能以算子导向和张量导向（QDQ）两种方式表示量化后的 ONNX 模型。用户可以通过基于 Web 的 UI 服务或 Python 代码进行量化操作。更多详情请参阅简介。

图像分类

这一系列模型以图像作为输入，然后将图像中的主要物体分类到1000个类别中，例如键盘、鼠标、铅笔以及许多动物。

模型类别	参考文献	描述
MobileNet	Sandler等	轻量级深度神经网络，最适合移动和嵌入式视觉应用。论文中的Top-5错误率约为10%
ResNet	He等	一种CNN模型（最多152层）。使用捷径连接在图像分类时达到更高的准确率。论文中的Top-5错误率约为3.6%
SqueezeNet	Iandola等	一种轻量级CNN模型，在参数数量减少50倍的情况下仍能提供AlexNet级别的准确率。论文中的Top-5错误率约为20%
VGG	Simonyan等	深度CNN模型（最多19层）。与AlexNet类似，但使用多个较小的卷积核，从而在图像分类时提供更高的准确率。论文中的Top-5错误率约为8%
AlexNet	Krizhevsky等	一种深度CNN模型（最多8层），输入为图像，输出为一个包含1000个数字的向量。论文中的Top-5错误率约为15%
GoogleNet	Szegedy等	深度CNN模型（最多22层）。相比VGG更小、更快，而在细节刻画上又比AlexNet更准确。论文中的Top-5错误率约为6.7%
CaffeNet	Krizhevsky等	AlexNet的深度CNN变体，用于Caffe中的图像分类，其中最大池化先于局部响应归一化（LRN），从而使LRN占用更少的计算资源和内存。
RCNN_ILSVRC13	Girshick等	R-CNN的纯Caffe实现，用于图像分类。该模型利用区域定位来对图像进行分类并提取特征。
DenseNet-121	Huang等	一种每层都与其他所有层相连的模型，能够传递自身的特征，从而提供更强的梯度流动和更丰富的特征。 Top-5错误率约为6.7%
Inception_V1	Szegedy等	该模型与GoogLeNet相同，通过Caffe2实现，改进了网络内部计算资源的利用率，并有助于缓解梯度消失问题。论文中的Top-5错误率约为6.7%
Inception_V2	Szegedy等	一种针对图像分类的深度CNN模型，是Inception v1的改进版本，加入了批量归一化。与Inception v1相比，该模型降低了计算成本并提高了图像分辨率。论文中的Top-5错误率约为4.82%
ShuffleNet_V1	Zhang等	一种极其高效的CNN模型，专为移动设备设计。该模型大大减少了计算成本，在基于ARM的移动设备上比AlexNet快约13倍。与MobileNet相比，ShuffleNet凭借其高效的结构取得了显著的优势。论文中的Top-1错误率约为32.6%
ShuffleNet_V2	Zhang等	一种极其高效的CNN模型，专为移动设备设计。该网络架构设计考虑的是直接指标，如速度，而不是间接指标，如FLOP。论文中的Top-1错误率约为30.6%
ZFNet-512	Zeiler等	一种深度CNN模型（最多8层），增加了网络能够检测的特征数量，从而帮助在网络分辨率更高的情况下提取图像特征。论文中的Top-5错误率约为14.3%
EfficientNet-Lite4	Tan等	一种计算和参数数量都大幅减少的CNN模型，同时仍能达到最先进的准确率，并且比之前的ConvNet效率更高。论文中的Top-5错误率约为2.9%

领域特定图像分类

这一子集的模型针对特定领域和数据集对图像进行分类。

模型类别	参考文献	描述
MNIST手写数字识别	带有MNIST的卷积神经网络	用于手写数字识别的深度CNN模型

目标检测与图像分割

目标检测模型用于检测图像中是否存在多个对象，并分割出检测到对象的区域。语义分割模型则通过为每个像素分配预定义的类别标签，将输入图像划分为不同的区域。

模型类别	参考文献	描述
Tiny YOLOv2	Redmon等	一种实时目标检测CNN，可检测20个不同类别。它是更复杂的完整YOLOv2网络的一个较小版本。
SSD	Liu等	单阶段检测器：一种实时目标检测CNN，可检测80个不同类别。
SSD-MobileNetV1	Howard等	MobileNet的一种变体，使用单次检测器（SSD）模型框架。该模型可检测80个不同物体类别，并在一张图像中定位最多10个物体。
Faster-RCNN	Ren等	通过将RPN与CNN连接，形成一个统一的目标检测网络，从而提高了R-CNN的效率，可检测80个不同类别。
Mask-RCNN	He等	一种实时目标实例分割神经网络，可检测80个不同类别。它扩展了Faster R-CNN，对选出的300个ROI分别进行三个并行分支的处理：类别预测、边界框预测和掩码预测。
RetinaNet	Lin等	一种实时密集型目标检测网络，通过焦点损失解决类别不平衡问题。RetinaNet能够达到之前单阶段检测器的速度，并在双阶段检测器中树立了新的标杆（超越R-CNN）。
YOLO v2-coco	Redmon等	一种用于实时目标检测系统的CNN模型，可检测超过9000个物体类别。它采用单次网络评估，速度比R-CNN快1000多倍，比Faster R-CNN快100倍。该模型使用COCO数据集训练，包含80个类别。
YOLO v3	Redmon等	一种深度CNN模型，用于实时目标检测，可检测80个不同类别。比YOLOv2稍大，但仍非常快速。准确度与SSD相当，但速度快3倍。
Tiny YOLOv3	Redmon等	YOLOv3模型的一个较小版本。
YOLOv4	Bochkovskiy等	优化了目标检测的速度和精度。速度是EfficientDet的两倍。它将YOLOv3的AP和FPS分别提高了10%和12%，在COCO 2017数据集上的mAP50为52.32，Tesla V100上的FPS为41.7。
DUC	Wang等	基于深度CNN的逐像素语义分割模型，mIOU（平均交并比）超过80%。该模型在cityscapes数据集上训练，可有效应用于自动驾驶车辆系统。
FCN	Long等	一种端到端、逐像素训练的深度CNN分割模型，具有高效的推理和学习能力。基于AlexNet、VGG网络和GoogLeNet分类方法构建。贡献

身体、面部及手势分析

面部检测模型用于识别和/或在给定图像中识别人脸及其情感。身体和手势分析模型则用于识别图像中的性别和年龄。

模型类别	参考文献	描述
ArcFace	Deng等	一种基于CNN的面部识别模型，能够学习人脸的判别特征，并为输入的面部图像生成嵌入向量。
UltraFace	超轻量级面部检测模型	该模型是一种专为边缘计算设备设计的轻量级面部检测模型。
Emotion FerPlus	Barsoum等	一种基于深度CNN的情感识别模型，基于人脸图像进行训练。
基于卷积神经网络的年龄与性别分类	Rothe等	该模型即使在训练数据有限的情况下，也能准确地对性别和年龄进行分类。

图像处理

图像处理模型利用神经网络将输入图像转换为经过修改的输出图像。这一类别中一些流行的模型涉及风格迁移或通过提高分辨率来增强图像。

模型类别	参考文献	描述
基于循环一致对抗网络的无配对图像到图像翻译	Zhu 等	该模型在缺乏成对示例的情况下，学习将源域 X 中的图像转换为目标域 Y 中的图像。贡献
基于亚像素卷积神经网络的超分辨率	Shi 等	一种使用亚像素卷积层来放大输入图像的深度卷积神经网络。
快速神经风格迁移	Johnson 等	该方法使用一个用于图像分类的预训练损失网络来定义感知损失函数，以衡量图像内容和风格之间的感知差异。在训练过程中，该损失网络保持固定不变。

语音与音频处理

这一类模型使用音频数据来训练能够识别语音、生成音乐，甚至将文本朗读出来的模型。

模型类别	参考文献	描述
基于深度循环神经网络的语音识别	Graves 等	一种用于语音识别的序列数据循环神经网络模型。适用于输入输出对齐未知的问题贡献
Deep Voice：实时神经文本转语音	Arik 等	一种执行端到端神经语音合成的深度神经网络模型。所需参数较少，且速度比其他系统更快。贡献
声音生成模型	WaveNet：原始音频的生成模型	一种生成原始音频波形的卷积神经网络模型。对每个音频样本都有预测分布，能生成逼真的音乐片段。贡献

机器阅读理解

这是自然语言处理模型的一个子集，能够根据给定的上下文段落回答问题。

模型类别	参考文献	描述
双向注意力流	Seo 等	一种根据给定的上下文段落回答问题的模型。
BERT-SQuAD	Devlin 等	该模型根据给定输入段落的上下文回答问题。
RoBERTa	Liu 等	一种基于 Transformer 的大型模型，可根据给定的文本预测情感倾向。
GPT-2	Radford 等	一种基于 Transformer 的大型语言模型，给定一段文本中的词序列，可预测下一个词。
T5	Raffel 等	一种基于 Transformer 的大型语言模型，同时在多个任务上进行训练，以更好地理解提示的语义，能够进行情感分析、问答、相似度检测、翻译、摘要等任务。

机器翻译

这类自然语言处理模型学习如何将输入文本翻译成另一种语言。

模型类别	参考文献	描述
通过联合学习对齐与翻译实现神经机器翻译	Bahdanau 等	旨在构建一个可以联合调优以最大化翻译性能的单一神经网络。贡献
谷歌的神经机器翻译系统	Wu 等	该模型有助于改善神经机器翻译（NMT）系统面临的问题，例如并行化，从而加快最终的翻译速度。贡献

语言建模

这是自然语言处理模型的一个子集，从大规模文本语料库中学习语言表示。

模型类别	参考文献	描述
深度神经网络语言模型	Arisoy 等	一种深度神经网络声学模型。广泛应用于多种自然语言技术中。它表示语言中所有可能词串的概率分布。贡献

视觉问答与对话

这一自然语言处理模型子集使用输入图像来回答关于这些图像的问题。

模型类别	参考文献	描述
VQA：视觉问答	Agrawal 等	该模型接收一张图像以及一个关于该图像的自由形式、开放式自然语言问题，并输出一个自然语言答案。贡献
阴阳：平衡与回答二元视觉问题	Zhang 等	通过将问题转换为一个简洁总结图像中待检测视觉概念的元组来解决 VQA 问题。随后，如果图像中能找到该概念，则给出“是”或“否”的答案。其在不平衡数据集上的表现与传统 VQA 方法相当，在平衡数据集上则优于后者。贡献
让 VQA 中的“V”更有意义	Goyal 等	通过收集互补图像来平衡 VQA 数据集，使得每个问题都对应一对相似但会产生不同答案的图像，从而提供一种独特的可解释模型，基于反例进行解释。贡献
视觉对话	Das 等	一个能够以自然、会话式的语言与人类就视觉内容进行有意义对话的 AI 代理。整理了一个大规模的视觉对话数据集（VisDial）。贡献

其他有趣的模型

有许多有趣的深度学习模型并不符合上述分类。ONNX 团队非常鼓励用户和研究人员将他们的模型贡献到不断增长的模型库中。

模型类别	参考文献	描述
文本到图像	生成对抗网络文本到图像合成	有效地结合了文本和图像建模领域的进展，将视觉概念从文字转化为像素。根据详细的文本描述生成逼真的鸟类和花卉图像。贡献
时间序列预测	利用深度神经网络建模长期和短期时间模式	该模型提取变量之间的短期局部依赖模式，并发现时间序列趋势中的长期模式。有助于预测太阳能电站的发电量、电力消耗以及交通拥堵情况。贡献
推荐系统	DropoutNet：解决推荐系统中的冷启动问题	一种协同过滤方法，基于其他用户的偏好信息来预测个人的偏好。贡献
协同过滤	神经协同过滤	一种基于矩阵分解的 DNN 模型，利用用户和物品特征之间的交互作用。贡献
自编码器	用于段落和文档的层次化神经自编码器	一种 LSTM（长短期记忆）自编码器，用于保存和重建多句段落。贡献

使用

每个 ONNX 后端都应该支持开箱即用地运行这些模型。下载并解压每个模型的 tarball 文件后，您会发现：

一个表示序列化 ONNX 模型的 protobuf 文件 model.onnx。
测试数据（以序列化的 protobuf TensorProto 文件或序列化的 NumPy 归档文件的形式）。

使用 - 测试数据入门代码

测试数据文件可用于验证来自模型库的 ONNX 模型。我们提供了以下接口示例供您开始使用。请将代码中的 onnx_backend 替换为您选择的、支持 ONNX 推理的相应框架，并将 backend.run_model 替换为该框架的模型评估逻辑。

测试数据文件有两种不同的格式：

序列化的 protobuf TensorProtos (.pb)，存储在以 test_data_set_* 命名的文件夹中。

import numpy as np
import onnx
import os
import glob
import onnx_backend as backend

from onnx import numpy_helper

model = onnx.load('model.onnx')
test_data_dir = 'test_data_set_0'

# 加载输入
inputs = []
inputs_num = len(glob.glob(os.path.join(test_data_dir, 'input_*.pb')))
for i in range(inputs_num):
    input_file = os.path.join(test_data_dir, 'input_{}.pb'.format(i))
    tensor = onnx.TensorProto()
    with open(input_file, 'rb') as f:
        tensor.ParseFromString(f.read())
    inputs.append(numpy_helper.to_array(tensor))

# 加载参考输出
ref_outputs = []
ref_outputs_num = len(glob.glob(os.path.join(test_data_dir, 'output_*.pb')))
for i in range(ref_outputs_num):
    output_file = os.path.join(test_data_dir, 'output_{}.pb'.format(i))
    tensor = onnx.TensorProto()
    with open(output_file, 'rb') as f:
        tensor.ParseFromString(f.read())
    ref_outputs.append(numpy_helper.to_array(tensor))

# 在后端运行模型
outputs = list(backend.run_model(model, inputs))

# 将结果与参考输出进行比较。
for ref_o, o in zip(ref_outputs, outputs):
    np.testing.assert_almost_equal(ref_o, o)

序列化的 Numpy 归档文件，以 test_data_*.npz 的命名方式存储。每个文件包含一组测试输入和输出。

import numpy as np
import onnx
import onnx_backend as backend

# 加载模型以及样本输入和输出
model = onnx.load(model_pb_path)
sample = np.load(npz_path, encoding='bytes')
inputs = list(sample['inputs'])
outputs = list(sample['outputs'])

# 使用 ONNX 后端运行模型并验证结果
np.testing.assert_almost_equal(outputs, backend.run_model(model, inputs))

使用 - 模型量化

您可以使用 Intel® Neural Compressor 获取量化后的 ONNX 模型。它提供基于 Web 的 UI 服务，使量化更加简便，并支持基于代码的使用方式以实现更丰富的量化设置。有关如何使用基于 Web 的 UI 服务，请参阅 bench 文档，有关简单的基于代码的演示，请参阅示例文档。

使用

访问 ONNX 模型库有多种方式：

Git 克隆（不推荐）

使用 git 克隆仓库时，由于 ONNX 模型文件体积较大，不会自动下载这些模型。要管理这些文件，首先需要安装 Git LFS，运行以下命令：

pip install git-lfs

要下载特定模型：

git lfs pull --include="[模型路径].onnx" --exclude=""

要下载所有模型：

git lfs pull --include="*" --exclude=""

GitHub 网页界面

此外，您也可以直接从 GitHub 下载模型。导航到相应模型的页面，然后点击右上角的“Download”按钮。

模型可视化

为了以图形化方式展示每个模型的架构，我们推荐使用 Netron。

贡献

欢迎为 ONNX 模型库做出贡献！请查看我们的贡献指南，了解如何参与本资源的建设与改进。

感谢您对 ONNX 模型库的关注，我们期待您的加入！

许可证

Apache License v2.0

ONNX Model Zoo 快速上手指南

重要提示：ONNX Model Zoo 仓库目前已进入归档维护状态，不再新增模型。自 2025 年 7 月 1 日起，将停止通过 Git LFS 提供模型下载。

推荐方案：请访问 Hugging Face ONNX Model Zoo 获取所有历史及最新模型。

国内加速：中国开发者建议使用 Hugging Face 镜像站或配置 HF_ENDPOINT 环境变量以加速下载。

本指南旨在帮助开发者快速获取并使用仓库中经过验证的预训练 ONNX 模型（如 ResNet, YOLO, BERT 等）。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows
Python：版本 3.8 及以上
Git & Git LFS：必须安装 Git Large File Storage (LFS) 以拉取大型模型文件
核心依赖：
- onnx: 用于加载和验证模型结构
- onnxruntime: 用于推理执行
- numpy: 用于数据处理

安装前置依赖

# 安装 Git LFS (以 Ubuntu/Debian 为例，其他系统请参考官方文档)
sudo apt-get install git-lfs
git lfs install

# 创建虚拟环境并安装 Python 依赖
python -m venv onnx-env
source onnx-env/bin/activate  # Windows 用户请使用: onnx-env\Scripts\activate

# 安装核心库 (推荐使用国内镜像源加速)
pip install onnx onnxruntime numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤 (获取模型)

由于原仓库已停止 LFS 服务，强烈建议直接从 Hugging Face 下载模型。

方法一：使用 Hugging Face CLI (推荐)

# 安装 huggingface hub 工具
pip install huggingface_hub -i https://pypi.tuna.tsinghua.edu.cn/simple

# 设置国内镜像加速 (可选但推荐)
export HF_ENDPOINT=https://hf-mirror.com

# 下载特定模型 (例如 ResNet-50)
# 注意：将 <model_path> 替换为 Hugging Face 上的具体模型路径
huggingface-cli download --repo-type model onnxmodelzoo/resnet-50 --local-dir ./models/resnet-50

方法二：直接下载 .onnx 文件

如果您只需单个模型文件，可直接在 Hugging Face ONNX Model Zoo 页面找到对应的 .onnx 文件并下载，或使用 wget/curl：

# 示例：下载 ResNet-50 模型 (链接仅为示例，请以官网最新链接为准)
wget https://huggingface.co/onnxmodelzoo/resnet-50/resolve/main/resnet-50.onnx

基本使用

以下是一个最简单的 Python 示例，展示如何加载一个图像分类模型（如 ResNet）并进行推理。

1. 准备测试数据

确保你有一张测试图片（例如 test.jpg），或者使用随机生成的符合模型输入形状的数据。

2. 运行推理代码

创建一个名为 infer.py 的文件，写入以下代码：

import onnx
import onnxruntime as ort
import numpy as np
from PIL import Image

# 1. 加载模型
model_path = "resnet-50.onnx"  # 替换为你下载的模型路径
session = ort.InferenceSession(model_path)

# 2. 获取模型输入信息
input_name = session.get_inputs()[0].name
input_shape = session.get_inputs()[0].shape
# 假设形状为 [batch, channel, height, width]，去除 batch 维度处理单张图片
height, width = input_shape[2], input_shape[3]

# 3. 预处理图片 (以 ResNet 为例，需调整大小并归一化)
# 实际使用时请根据具体模型的预处理要求调整
image = Image.open("test.jpg").convert("RGB")
image = image.resize((width, height))
image_data = np.array(image).astype(np.float32)
image_data = np.transpose(image_data, (2, 0, 1)) / 255.0  # HWC -> CHW & Normalize
image_data = np.expand_dims(image_data, axis=0)  # Add batch dimension

# 4. 执行推理
outputs = session.run(None, {input_name: image_data})

# 5. 处理结果
result = outputs[0]
print(f"输出形状：{result.shape}")
print(f"预测分数前 5 类索引：{np.argsort(result[0])[-5:][::-1]}")

3. 运行脚本

python infer.py

如果一切正常，终端将输出模型的预测结果索引。您可以结合 ImageNet 标签表将这些索引转换为具体的类别名称（如 "cat", "dog" 等）。

常见问题

为什么在 Windows CPU 上运行量化模型（如 VGG16, ResNet50 int8）会失败或产生显著不同的结果？

将 ArcFace (MXNet) 模型转换为 ONNX 时遇到 'Sub' 操作数类型不匹配或 'PRelu' 广播错误怎么办？

将 SSD 模型转换为 TensorRT 时遇到 'Assertion failed: axis >= 0 && axis < nbDims' 错误如何解决？

ONNX Model Zoo 中是否有预训练的目标检测模型（如 SSD, Faster-RCNN, RetinaNet）可用？

为什么 ONNX Model Zoo 中存在重复的 VGG19 模型文件？应该使用哪一个？

在转换模型到 TensorRT 时遇到 INT64 权重不支持的警告，这会影响模型运行吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.6k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架