training_extensions

1.2k 465 简单 1 次阅读今天Apache-2.0开发框架图像

AI 解读由 AI 自动生成，仅供参考

OpenVINO™ Training Extensions 是一个专为计算机视觉打造的低代码迁移学习框架，旨在帮助用户轻松完成模型的训练、评估、优化与部署。它有效解决了深度学习领域门槛高、流程复杂的问题，让用户无需具备深厚的算法专家背景，也能快速构建高性能的视觉模型。

该工具非常适合希望高效落地 AI 应用的开发者、研究人员以及工程团队使用。无论是图像分类、目标检测（含旋转框支持）、语义与实例分割，还是异常检测任务，它都提供了经过多数据集验证的成熟“配方”（Recipe），确保用户能一站式获得优质模型。

其核心技术亮点在于基于 PyTorch 和 OpenVINO™ 工具包构建了灵活的架构。从 v2.4.5 版本起，它引入了多后端支持机制，不仅原生支持英特尔 GPU（XPU）加速，未来还将无缝集成 Anomalib、Transformers 等主流第三方库。这意味着用户可以通过统一的命令行接口和 API，灵活调用不同后端的模型进行训练与导出，无需重复开发，极大提升了工作效率与扩展性。

使用场景

某智能制造工厂的质检团队需要快速部署一套能识别 PCB 电路板上微小缺陷（如划痕、缺件）的视觉检测系统，且必须运行在产线边缘的 Intel 工控机上。

没有 training_extensions 时

开发门槛高：算法工程师需手动编写复杂的 PyTorch 训练代码、数据增强逻辑及模型导出脚本，非深度学习专家难以上手。
适配周期长：为了让模型在 Intel GPU 上高效运行，需花费数周时间研究 OpenVINO 工具链，手动进行算子转换与精度校准。
任务切换困难：从“缺陷分类”切换到“缺陷分割”任务时，几乎要重构整个代码库，无法复用现有流程。
部署风险大：训练环境与推理环境不一致，常出现模型导出失败或推理速度不达标的情况，导致产线停机等待。

使用 training_extensions 后

低代码快速启动：只需通过简单的 CLI 命令或配置文件，即可调用预验证的模型模板，几天内完成从数据加载到模型训练的全过程。
原生硬件加速：直接利用其内置的 OpenVINO 后端和 Intel GPU (XPU) 支持，自动完成模型优化与量化，无需手动干预即可实现高性能推理。
统一任务接口：无论是分类、检测还是分割任务，均使用同一套 API 和命令结构，切换任务仅需修改配置参数，极大提升迭代效率。
端到端无缝部署：提供从训练、评估到导出 OpenVINO IR 格式的一站式流程，确保模型在边缘设备上“训完即跑”，显著降低落地风险。

training_extensions 让工厂团队无需深究底层算法细节，即可低成本、高效率地构建并部署工业级计算机视觉应用。

运行环境要求

操作系统

未说明

GPU

非必需
支持 CPU、Intel GPU (XPU) 和 NVIDIA GPU (CUDA)
若使用 NVIDIA GPU，需安装带有 CUDA 支持的版本（具体显存大小和 CUDA 版本未在文档中明确指定，仅提及支持混合精度训练以节省显存）

内存

未说明

依赖

notes该工具是一个低代码迁移学习框架，支持多种后端（Native 和 OpenVINO）。安装时可根据硬件环境选择不同选项：'pip install otx[cpu]'（仅 CPU）、'pip install otx[xpu]'（Intel GPU）或 'pip install otx[cuda]'（NVIDIA GPU）。支持分布式训练和混合精度训练。从 v2.4.5 开始引入了新的仓库结构和更灵活的后端概念。

python3.11+

pytorch>=2.7

openvino>=2025.2

datumaro

快速开始

OpenVINO™ 训练扩展

主要特性 • 安装 • 文档 • 许可证

简介

OpenVINO™ 训练扩展是一个面向计算机视觉领域的低代码迁移学习框架。该框架的 API 和 CLI 命令使用户即使在深度学习领域经验有限的情况下，也能轻松快速地进行模型训练、推理、优化和部署。OpenVINO™ 训练扩展基于 PyTorch 和 OpenVINO™ 工具套件，提供了多样化的模型架构、学习方法和任务类型的组合。

OpenVINO™ 训练扩展为每种支持的任务类型提供了一套“配方”，其中整合了构建模型所需的所有必要信息。这些模型模板已在多种数据集上进行了验证，能够为用户提供一站式的解决方案，帮助他们获得通用场景下的最佳模型。

自 OTX v2.4.5 起，我们引入了新的仓库结构和更灵活的后端概念。我们很高兴地宣布支持多后端——首先推出了 OpenVINO™ 后端，而此前的所有 OTX 功能现在都归入“原生”后端之下。

未来，我们计划集成诸如 Anomalib <https://github.com/open-edge-platform/anomalib>_、Transformers <https://huggingface.co/docs/transformers/index>_ 等流行的第三方库，并将其无缝整合到本仓库中。这将使用户能够使用相同的 CLI 命令和统一的 API，在不需重新实现的情况下，从不同后端训练、测试、导出和优化各种模型。

主要特性

OpenVINO™ 训练扩展支持以下计算机视觉任务：

分类，包括多类、多标签及层次化图像分类任务。
目标检测，包括旋转边界框和支持分块处理。
语义分割，包括分块算法支持。
实例分割，包括分块算法支持。
异常检测任务，包括异常分类、检测和分割。

OpenVINO™ 训练扩展还提供以下易用性功能：

原生 Intel GPU（XPU）支持。OpenVINO™ 训练扩展可安装 XPU 支持，以利用 Intel GPU 进行训练和测试。
Datumaro 数据前端：OpenVINO™ 训练扩展支持每种任务中最常见的学术领域数据集格式。我们正不断努力扩展支持的格式，以便用户拥有更大的数据集格式选择自由。
分布式训练，可在拥有多块 GPU 时加速训练过程。
混合精度训练，可节省 GPU 显存并允许使用更大的批量大小。
类别增量学习，可向现有模型添加新类别。
模型部署至 OpenVINO™ IR 和 ONNX 格式，并通过 OpenVINO™ ModelAPI 进行推理。
多后端支持，可轻松将来自第三方实现的模型适配到 OpenVINO™ 训练扩展仓库中。

安装

请参阅安装指南。如果您希望对库进行修改，建议进行本地安装。

从 PyPI 安装

使用 pip 或 uv 安装库是开始使用 otx 最简单的方式。

# 不带 GPU 支持（仅 CPU）
pip install otx[cpu]

# 带 Intel GPU 支持（XPU）
pip install otx[xpu]

# 带 NVIDIA GPU 支持（CUDA）
pip install otx[cuda]

从源码安装

从源码安装需要先克隆仓库，然后使用 pip 或 uv 安装库。建议使用虚拟环境以避免与其他包发生冲突。

# 克隆仓库
git clone https://github.com/open-edge-platform/training_extensions.git
cd training_extensions

# 安装（可选：传递 '-e' 标志以启用可编辑模式
# 如果您有 Intel GPU，请使用 'xpu' 启用支持。
# 如果您有 NVIDIA GPU，请使用 'cuda' 启用支持。
pip install -e .[cpu]

快速入门

OpenVINO™ 训练扩展同时支持基于 API 和 CLI 的训练方式。API 更加灵活，允许更多自定义；而 CLI 训练则通过命令行界面进行，对于希望直接使用现成解决方案的用户来说可能更为简便。

对于 CLI，以下命令提供了子命令及其用法说明等信息：

# 查看可用子命令
otx --help

# 打印 train 子命令的帮助信息
otx train --help

# 打印帮助信息以获取更多详细信息
otx train --help -v   # 打印所需参数
otx train --help -vv  # 打印所有可配置参数

您可以在CLI 指南和API 快速指南中找到包含示例的详细信息。

以下是使用自动配置进行训练的方法，该方法适用于拥有数据集和任务的用户：

API 使用

from otx.engine import create_engine

# 获取所有任务的所有可用配方
from otx.backend.native.cli.utils import list_models
model_lists = list_models(print_table=True)

# 使用 ATSS 模型实例化用于目标检测的原生 OTX 引擎
engine = create_engine(data="path/to/dataset/root", model="src/otx/recipe/detection/atss_mobilenetv2.yaml")
engine.train()
engine.test()
exported_path = engine.export()

# 默认情况下，所有工件都存储在“./otx-workspace”目录中。
# 可以指定工作目录
engine = create_engine(data="path/to/dataset/root", model="src/otx/recipe/detection/atss_mobilenetv2.yaml", work_dir="my_workdir")


# 使用 OpenVINO 后端来验证和优化导出的 OpenVINO IR 模型
ov_engine = create_engine(data="path/to/dataset/root", model=exported_path)
ov_engine.test()
ov_engine.optimize()

更多示例，请参阅文档：API 快速指南

CLI 使用

# 获取所有配方列表
otx find

# otx 训练
otx train --config src/otx/recipe/detection/atss_mobilenetv2.yaml --data_root data/wgisd

# 默认情况下，工作目录是“./otx-workspace”。可以通过“--work_dir”参数指定
otx test --config src/otx/recipe/detection/atss_mobilenetv2.yaml --data_root data/wgisd --checkpoint otx-workspace/.latest/train/best_checkpoint.ckpt
otx export --config src/otx/recipe/detection/atss_mobilenetv2.yaml --data_root data/wgisd --checkpoint otx-workspace/.latest/train/best_checkpoint.ckpt

# 或者使用 work_dir
otx test --work_dir otx-workspace/.latest/train
otx export --work_dir otx-workspace/.latest/train

# 直接从工作目录运行
cd otx-workspace
otx test
otx export

更多示例，请参阅文档：CLI 指南

除了上述示例之外，请参阅文档中的教程，了解如何使用自定义模型、覆盖训练参数以及按任务类型划分的教程（教程：如何训练）等内容。

发布历史

请参阅 CHANGELOG.md

许可证

OpenVINO™ 工具包根据 Apache 许可证 2.0 版授权。通过为本项目做出贡献，您同意其中的许可和版权条款，并在此基础上发布您的贡献。

问题 / 讨论

请使用问题选项卡提交错误报告、功能请求或任何疑问。

免责声明

英特尔致力于尊重人权并避免参与侵犯人权的行为。请参阅英特尔的全球人权原则。英特尔的产品和软件仅适用于不会导致或促成违反国际公认人权的应用场景。

贡献

对于希望为本库做出贡献的人员，请参阅CONTRIBUTING.md以获取详细信息。

感谢您的支持！

OpenVINO™ Training Extensions 快速上手指南

OpenVINO™ Training Extensions (OTX) 是一个面向计算机视觉的低代码迁移学习框架。它基于 PyTorch 和 OpenVINO™ 工具包，支持分类、目标检测、语义分割、实例分割及异常检测等任务。通过统一的 API 和 CLI，用户可以轻松完成模型的训练、推理、优化和部署，即使没有深厚的深度学习背景也能快速上手。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04/22.04) 或 Windows。
Python: 3.11 或更高版本。
PyTorch: 2.7 或更高版本。
OpenVINO: 2025.2 或更高版本。
硬件加速 (可选):
- Intel GPU (XPU): 需安装相应的 Intel GPU 驱动。
- NVIDIA GPU (CUDA): 需安装匹配的 CUDA toolkit 和 NVIDIA 驱动。

提示：建议使用虚拟环境（如 venv 或 conda）来隔离依赖，避免与其他项目冲突。

安装步骤

您可以通过 PyPI 直接安装，也可以从源码安装以进行二次开发。

方式一：通过 PyPI 安装（推荐）

根据您的硬件环境选择对应的安装命令：

# 仅 CPU 模式
pip install otx[cpu]

# Intel GPU 支持 (XPU)
pip install otx[xpu]

# NVIDIA GPU 支持 (CUDA)
pip install otx[cuda]

国内加速建议：如果遇到下载速度慢的问题，可以使用清华或阿里镜像源： pip install -i https://pypi.tuna.tsinghua.edu.cn/simple otx[cuda]

方式二：从源码安装

如果您需要修改库代码或体验最新功能，请克隆仓库并安装：

# 克隆仓库
git clone https://github.com/open-edge-platform/training_extensions.git
cd training_extensions

# 安装可编辑模式 (根据硬件选择 cpu, xpu 或 cuda)
pip install -e .[cpu]

基本使用

OTX 提供了 CLI (命令行) 和 Python API 两种使用方式。以下以目标检测任务为例，展示最简化的使用流程。

方法 A：使用 CLI 命令行（最简单）

CLI 适合快速验证和标准化流程。

查看可用模型配方 (Recipes)：
```
otx find
```
训练模型：使用内置的 atss_mobilenetv2 模型配置和数据集路径进行训练。
```
otx train --config src/otx/recipe/detection/atss_mobilenetv2.yaml --data_root data/wgisd
```
注：默认工作目录为 ./otx-workspace，可通过 --work_dir 指定。

测试与导出：训练完成后，使用生成的最佳检查点进行测试和导出（转为 OpenVINO IR 或 ONNX）。

# 测试
otx test --work_dir otx-workspace/.latest/train

# 导出模型
otx export --work_dir otx-workspace/.latest/train

方法 B：使用 Python API（更灵活）

API 适合需要自定义逻辑或集成到现有 Python 项目中的场景。

from otx.engine import create_engine

# 1. 创建引擎实例
# 指定数据集路径和模型配置文件 (此处以 ATSS MobileNetV2 检测模型为例)
engine = create_engine(
    data="path/to/dataset/root", 
    model="src/otx/recipe/detection/atss_mobilenetv2.yaml"
)

# 2. 训练模型
engine.train()

# 3. 测试模型
engine.test()

# 4. 导出模型 (默认导出为 OpenVINO IR 格式)
exported_path = engine.export()

# 5. (可选) 使用 OpenVINO 后端对导出的模型进行验证和优化
ov_engine = create_engine(data="path/to/dataset/root", model=exported_path)
ov_engine.test()
ov_engine.optimize()

后续步骤：模型导出后，您可以使用 OpenVINO™ ModelAPI 进行高效的推理部署。更多高级用法（如自定义模型、增量学习、混合精度训练等）请参考官方文档。

版本历史

2.6.02025/10/13

2.5.02025/08/18

2.4.62025/07/09

2.4.52025/07/03

2.4.42025/05/19

2.4.32025/05/12

2.4.22025/04/24

2.4.12025/04/22

2.4.02025/03/13

2.3.02025/02/24

2.2.22024/12/16

2.2.12024/12/06

2.2.02024/11/18

2.2.0rc142024/11/08

2.2.0rc132024/10/31

2.2.0rc122024/10/25

2.2.0rc112024/10/24

2.2.0rc102024/10/23

2.2.0rc92024/10/17

2.2.0rc82024/10/17

常见问题

如果不使用预训练权重从头开始训练，模型权重是如何初始化的？如何配置使用预训练骨干网络？

在 Google Colab 上运行 OTX 时遇到 "ModuleNotFoundError: No module named 'model_api'" 错误且 `otx --help` 失败，如何解决？

如何在 OTX 中添加基于 Timm 库的新模型（如 MobileNetV4）？需要修改哪些文件？

从保存的最佳模型继续微调时，训练损失出现震荡或下降，是否有特殊的微调设置建议？

针对小数据集（如 6-10 张图片）训练分类模型，有哪些策略可以提升性能？

如何对比加载预训练权重与从头训练的性能差异？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent