once-for-all

1.9k 343 简单 1 次阅读 4天前MIT图像开发框架

AI 解读由 AI 自动生成，仅供参考

Once-for-All 是一个创新的深度学习框架，旨在解决神经网络在不同硬件设备上高效部署的难题。传统方法通常需要为每种特定的硬件约束（如手机、边缘设备或 FPGA）重新训练专用模型，耗时且资源消耗巨大。Once-for-All 颠覆了这一流程，主张“一次训练，多次专用”：只需训练一个包含大量子网络结构的超网，即可从中直接提取出适应各种延迟、能耗和精度要求的专用子模型，无需再次训练。

该项目由麻省理工学院韩松团队提出，曾荣获 ICLR 2020 最佳论文提名，并在多项国际低功耗视觉挑战赛中夺冠。其核心亮点在于强大的灵活性与卓越的性能，例如在移动端设置下仍能保持 80% 以上的 ImageNet 顶级准确率，且在多种硬件平台上表现优于经典的 MobileNetV3。此外，它还提供了包括 ResNet50 在内的多种预训练模型支持。

Once-for-All 非常适合 AI 研究人员、算法工程师以及需要在多样化终端设备部署模型的开发者使用。无论是希望探索神经架构搜索（NAS）前沿技术的研究者，还是追求极致推理效率的工程团队，都能通过它快速获得针对特定场景优化的高质量模型，大幅降低部署门槛与时间成本。目前该工具已集成至 PyTorch Hub，并支持通过 pip 一键安装，方便用户立即上手体验。

使用场景

某边缘计算团队需将图像分类模型部署到从低端 IoT 传感器到高端工业网关等十余种不同算力的硬件设备上。

没有 once-for-all 时

重复训练成本高昂：针对每种硬件约束（如延迟、能耗），团队必须从头单独训练一个专用模型，耗费数周 GPU 机时。
架构搜索效率低下：为寻找最优网络结构，需在每个设备上反复进行神经架构搜索（NAS），开发周期被严重拉长。
存储与维护困难：最终需维护十几个独立的模型文件，占用大量存储空间，且版本迭代更新极其繁琐。
性能妥协明显：受限于单点优化的局限，部分极端受限设备上的模型精度难以突破瓶颈，无法兼顾效率与准确率。

使用 once-for-all 后

一次训练全域覆盖：只需训练一个超网（Supernet），即可从中直接提取适配任意硬件约束的子网，训练时间缩短 90% 以上。
秒级专属模型生成：无需重新搜索或训练，通过调整深度、宽度等参数，几分钟内即可生成针对特定芯片的最优子网。
统一模型仓库管理：所有专用设备共享同一套权重文件，大幅降低存储开销，模型更新只需替换超网即可同步所有端侧。
精度与效率双优：在移动端及嵌入式设备上，生成的子网在保持极低延迟的同时，ImageNet 顶一准确率稳定超过 80%，优于手动设计的 MobileNetV3。

once-for-all 通过“训练一次，按需特化”的模式，彻底解决了多场景部署中效率与精度的矛盾，让异构硬件适配变得像搭积木一样简单高效。

运行环境要求

操作系统

Linux

GPU

训练必需：需多卡 NVIDIA GPU 环境（示例命令使用 32 卡），依赖 Horovod 和 NCCL
推理未强制要求 GPU，支持 CPU (Intel Xeon + MKL-DNN) 及多种边缘设备 (Jetson, FPGA 等)
具体显存和 CUDA 版本未在文中明确说明

内存

未说明

依赖

notes该工具主要用于神经架构搜索 (NAS) 和模型部署优化。训练阶段需要分布式环境（支持 mpirun 或 horovodrun），示例显示需 32 个进程。预训练模型可通过 PyTorch Hub 或 pip (pip install ofa) 获取。支持针对特定硬件（如手机、GPU、CPU）延迟或算力约束自动采样专用子网络。

python3.6+

pytorch>=1.4.0

horovod

mpirun (OpenMPI)

快速开始

一次训练，多次部署：训练一个网络并将其专业化以实现高效部署 [arXiv] [幻灯片] [视频]

@inproceedings{
  cai2020once,
  title={Once for All: Train One Network and Specialize it for Efficient Deployment},
  author={Han Cai and Chuang Gan and Tianzhe Wang and Zhekai Zhang and Song Han},
  booktitle={International Conference on Learning Representations},
  year={2020},
  url={https://arxiv.org/pdf/1908.09791.pdf}
}

[新闻] Once-for-All 现已在 PyTorch Hub 上可用！

[新闻] Once-for-All (OFA) 网络已被 SONY 神经架构搜索库采用。

[新闻] Once-for-All (OFA) 网络已被 ADI MAX78000/MAX78002 模型训练与合成工具采用。

[新闻] Once-for-All (OFA) 网络已被阿里巴巴采用，并在 MLPerf 推理基准测试的开放组中排名第一（数据中心 Datacenter 和边缘 Edge)。

[新闻] 在 CVPR 2020 低功耗计算机视觉挑战赛中获得第一名，涵盖 CPU 检测和 FPGA 赛道。

[新闻] OFA-ResNet50 已发布。

[新闻] OFA 的动手教程已发布！

[新闻] OFA 现可通过 pip 安装！运行 pip install ofa 即可安装完整的 OFA 代码库。

[新闻] 在第四届低功耗计算机视觉挑战赛中获得第一名，包括分类和检测两个赛道。

[新闻] 在第三届低功耗计算机视觉挑战赛中获得第一名，使用 Once-for-all 网络在 ICCV’19 的 DSP 赛道上获胜。

一次训练，针对多种部署场景进行专业化

在移动设备环境下达到 80% 的 ImageNet Top-1 准确率

在多种硬件平台上持续优于 MobileNetV3

如何使用/评估 OFA 网络

使用

""" OFA 网络。
    示例：ofa_network = ofa_net('ofa_mbv3_d234_e346_k357_w1.0', pretrained=True)
""" 
from ofa.model_zoo import ofa_net
ofa_network = ofa_net(net_id, pretrained=True)
    
# 从 OFA 网络中随机采样子网络
ofa_network.sample_active_subnet()
random_subnet = ofa_network.get_active_subnet(preserve_weight=True)
    
# 手动设置子网络
ofa_network.set_active_subnet(ks=7, e=6, d=4)
manual_subnet = ofa_network.get_active_subnet(preserve_weight=True)

评估

python eval_ofa_net.py --path '您的 ImageNet 数据路径' --net ofa_mbv3_d234_e346_k357_w1.0

OFA 网络	设计空间	分辨率	宽度倍数	深度	扩展比	卷积核大小
ofa_resnet50	ResNet50D	128 - 224	0.65, 0.8, 1.0	0, 1, 2	0.2, 0.25, 0.35	3
ofa_mbv3_d234_e346_k357_w1.0	MobileNetV3	128 - 224	1.0	2, 3, 4	3, 4, 6	3, 5, 7
ofa_mbv3_d234_e346_k357_w1.2	MobileNetV3	160 - 224	1.2	2, 3, 4	3, 4, 6	3, 5, 7
ofa_proxyless_d234_e346_k357_w1.3	ProxylessNAS	128 - 224	1.3	2, 3, 4	3, 4, 6	3, 5, 7

如何使用/评估 OFA 专业化网络

使用

""" OFA 专业化网络。
示例：net, image_size = ofa_specialized('flops@595M_top1@80.0_finetune@75', pretrained=True)
""" 
from ofa.model_zoo import ofa_specialized
net, image_size = ofa_specialized(net_id, pretrained=True)

评估

python eval_specialized_net.py --path '您指向 imagent 的路径' --net flops@595M_top1@80.0_finetune@75

模型名称	详情	Top-1 (%)	Top-5 (%)	参数量	计算量
ResNet50 设计空间
ofa-resnet50D-41	resnet50D_MAC@4.1B_top1@79.8	79.8	94.7	30.9M	4.1B
ofa-resnet50D-37	resnet50D_MAC@3.7B_top1@79.7	79.7	94.7	26.5M	3.7B
ofa-resnet50D-30	resnet50D_MAC@3.0B_top1@79.3	79.3	94.5	28.7M	3.0B
ofa-resnet50D-24	resnet50D_MAC@2.4B_top1@79.0	79.0	94.2	29.0M	2.4B
ofa-resnet50D-18	resnet50D_MAC@1.8B_top1@78.3	78.3	94.0	20.7M	1.8B
ofa-resnet50D-12	resnet50D_MAC@1.2B_top1@77.1_finetune@25	77.1	93.3	19.3M	1.2B
ofa-resnet50D-09	resnet50D_MAC@0.9B_top1@76.3_finetune@25	76.3	92.9	14.5M	0.9B
ofa-resnet50D-06	resnet50D_MAC@0.6B_top1@75.0_finetune@25	75.0	92.1	9.6M	0.6B
FLOPs
ofa-595M	flops@595M_top1@80.0_finetune@75	80.0	94.9	9.1M	595M
ofa-482M	flops@482M_top1@79.6_finetune@75	79.6	94.8	9.1M	482M
ofa-389M	flops@389M_top1@79.1_finetune@75	79.1	94.5	8.4M	389M
LG G8
ofa-lg-24	LG-G8_lat@24ms_top1@76.4_finetune@25	76.4	93.0	5.8M	230M
ofa-lg-16	LG-G8_lat@16ms_top1@74.7_finetune@25	74.7	92.0	5.8M	151M
ofa-lg-11	LG-G8_lat@11ms_top1@73.0_finetune@25	73.0	91.1	5.0M	103M
ofa-lg-8	LG-G8_lat@8ms_top1@71.1_finetune@25	71.1	89.7	4.1M	74M
Samsung S7 Edge
ofa-s7edge-88	s7edge_lat@88ms_top1@76.3_finetune@25	76.3	92.9	6.4M	219M
ofa-s7edge-58	s7edge_lat@58ms_top1@74.7_finetune@25	74.7	92.0	4.6M	145M
ofa-s7edge-41	s7edge_lat@41ms_top1@73.1_finetune@25	73.1	91.0	4.7M	96M
ofa-s7edge-29	s7edge_lat@29ms_top1@70.5_finetune@25	70.5	89.5	3.8M	66M
Samsung Note8
ofa-note8-65	note8_lat@65ms_top1@76.1_finetune@25	76.1	92.7	5.3M	220M
ofa-note8-49	note8_lat@49ms_top1@74.9_finetune@25	74.9	92.1	6.0M	164M
ofa-note8-31	note8_lat@31ms_top1@72.8_finetune@25	72.8	90.8	4.6M	101M
ofa-note8-22	note8_lat@22ms_top1@70.4_finetune@25	70.4	89.3	4.3M	67M
Samsung Note10
ofa-note10-64	note10_lat@64ms_top1@80.2_finetune@75	80.2	95.1	9.1M	743M
ofa-note10-50	note10_lat@50ms_top1@79.7_finetune@75	79.7	94.9	9.1M	554M
ofa-note10-41	note10_lat@41ms_top1@79.3_finetune@75	79.3	94.5	9.0M	457M
ofa-note10-30	note10_lat@30ms_top1@78.4_finetune@75	78.4	94.2	7.5M	339M
ofa-note10-22	note10_lat@22ms_top1@76.6_finetune@25	76.6	93.1	5.9M	237M
ofa-note10-16	note10_lat@16ms_top1@75.5_finetune@25	75.5	92.3	4.9M	163M
ofa-note10-11	note10_lat@11ms_top1@73.6_finetune@25	73.6	91.2	4.3M	110M
ofa-note10-08	note10_lat@8ms_top1@71.4_finetune@25	71.4	89.8	3.8M	79M
Google Pixel1
ofa-pixel1-143	pixel1_lat@143ms_top1@80.1_finetune@75	80.1	95.0	9.2M	642M
ofa-pixel1-132	pixel1_lat@132ms_top1@79.8_finetune@75	79.8	94.9	9.2M	593M
ofa-pixel1-79	pixel1_lat@79ms_top1@78.7_finetune@75	78.7	94.2	8.2M	356M
ofa-pixel1-58	pixel1_lat@58ms_top1@76.9_finetune@75	76.9	93.3	5.8M	230M
ofa-pixel1-40	pixel1_lat@40ms_top1@74.9_finetune@25	74.9	92.1	6.0M	162M
ofa-pixel1-28	pixel1_lat@28ms_top1@73.3_finetune@25	73.3	91.0	5.2M	109M
ofa-pixel1-20	pixel1_lat@20ms_top1@71.4_finetune@25	71.4	89.8	4.3M	77M
Google Pixel2
ofa-pixel2-62	pixel2_lat@62ms_top1@75.8_finetune@25	75.8	92.7	5.8M	208M
ofa-pixel2-50	pixel2_lat@50ms_top1@74.7_finetune@25	74.7	91.9	4.7M	166M
ofa-pixel2-35	pixel2_lat@35ms_top1@73.4_finetune@25	73.4	91.1	5.1M	113M
ofa-pixel2-25	pixel2_lat@25ms_top1@71.5_finetune@25	71.5	90.1	4.1M	79M
1080ti GPU (批量大小 64)
ofa-1080ti-27	1080ti_gpu64@27ms_top1@76.4_finetune@25	76.4	93.0	6.5M	397M
ofa-1080ti-22	1080ti_gpu64@22ms_top1@75.3_finetune@25	75.3	92.4	5.2M	313M
ofa-1080ti-15	1080ti_gpu64@15ms_top1@73.8_finetune@25	73.8	91.3	6.0M	226M
ofa-1080ti-12	1080ti_gpu64@12ms_top1@72.6_finetune@25	72.6	90.9	5.9M	165M
V100 GPU (批量大小 64)
ofa-v100-11	v100_gpu64@11ms_top1@76.1_finetune@25	76.1	92.7	6.2M	352M
ofa-v100-09	v100_gpu64@9ms_top1@75.3_finetune@25	75.3	92.4	5.2M	313M
ofa-v100-06	v100_gpu64@6ms_top1@73.0_finetune@25	73.0	91.1	4.9M	179M
ofa-v100-05	v100_gpu64@5ms_top1@71.6_finetune@25	71.6	90.3	4.2M	141M
Jetson TX2 GPU (批量大小 16)
ofa-tx2-96	tx2_gpu16@96ms_top1@75.8_finetune@25	75.8	92.7	6.2M	349M
ofa-tx2-80	tx2_gpu16@80ms_top1@75.4_finetune@25	75.4	92.4	5.2M	313M
ofa-tx2-47	tx2_gpu16@47ms_top1@72.9_finetune@25	72.9	91.1	4.9M	179M
ofa-tx2-35	tx2_gpu16@35ms_top1@70.3_finetune@25	70.3	89.4	4.3M	121M
Intel Xeon CPU with MKL-DNN (批量大小 1)
ofa-cpu-17	cpu_lat@17ms_top1@75.7_finetune@25	75.7	92.6	4.9M	365M
ofa-cpu-15	cpu_lat@15ms_top1@74.6_finetune@25	74.6	92.0	4.9M	301M
ofa-cpu-11	cpu_lat@11ms_top1@72.0_finetune@25	72.0	90.4	4.4M	160M
ofa-cpu-10	cpu_lat@10ms_top1@71.1_finetune@25	71.1	89.9	4.2M	143M

如何训练 OFA 网络

mpirun -np 32 -H <server1_ip>:8,<server2_ip>:8,<server3_ip>:8,<server4_ip>:8 \
    -bind-to none -map-by slot \
    -x NCCL_DEBUG=INFO -x LD_LIBRARY_PATH -x PATH \
    python train_ofa_net.py

或

horovodrun -np 32 -H <server1_ip>:8,<server2_ip>:8,<server3_ip>:8,<server4_ip>:8 \
    python train_ofa_net.py

介绍视频

实操教程视频

需求

Python 3.6+
Pytorch 1.4.0+
ImageNet 数据集
Horovod

自动化且高效的深度学习相关工作：

[ProxylessNAS：针对目标任务与硬件的直接神经架构搜索]（ICLR’19）

[用于构建高效且专用神经网络的AutoML]（IEEE Micro）

[AMC：面向移动设备模型压缩与加速的AutoML]（ECCV’18）

[HAQ：面向硬件的自动化量化]（CVPR’19，口头报告）

Once-for-All (OFA) 快速上手指南

Once-for-All (OFA) 是一种创新的神经网络架构搜索方法，只需训练一次超大网络，即可从中提取出适应不同硬件平台（如手机、GPU、FPGA 等）和不同延迟约束的专用子网络，无需重新训练。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu)
Python: 3.6 或更高版本
PyTorch: 1.4.0 或更高版本
分布式训练框架: Horovod (用于训练 OFA 母网络，若仅使用预训练模型可忽略)
数据集: ImageNet 数据集 (用于评估或重新训练)

依赖安装建议： 建议使用 pip 进行安装。国内用户可配置清华源或阿里源以加速下载：

pip install torch torchvision -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install horovod -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 安装步骤

OFA 已发布到 PyPI，可以通过以下命令直接安装完整代码库：

pip install ofa

如果您希望使用最新代码或贡献代码，也可以从 GitHub 克隆：

git clone https://github.com/mit-han-lab/once-for-all.git
cd once-for-all
pip install -e .

3. 基本使用

OFA 提供了两种主要的使用模式：直接使用预训练的专用子网络（推荐大多数开发者使用），或者从母网络中采样/自定义子网络。

模式一：加载预训练的专用网络 (最简单)

针对特定硬件（如 Pixel1, Samsung Note10）或特定计算量（FLOPs）优化过的模型可以直接加载使用。

from ofa.model_zoo import ofa_specialized

# 示例：加载一个在 595M FLOPs 约束下优化，Top-1 准确率为 80.0% 的模型
# net_id 格式通常为：约束条件_性能指标_微调轮次
net, image_size = ofa_specialized('flops@595M_top1@80.0_finetune@75', pretrained=True)

# 此时 net 即为准备好的 PyTorch 模型，可直接用于推理
print(f"Model loaded. Input image size: {image_size}")

常用模型 ID 参考（详见官方文档表格）：

flops@595M_top1@80.0_finetune@75: 通用高效模型
pixel1_lat@143ms_top1@80.1_finetune@75: 针对 Google Pixel1 优化
note10_lat@64ms_top1@80.2_finetune@75: 针对 Samsung Note10 优化

模式二：从母网络采样或自定义子网络

如果您需要探索特定的架构参数（如核大小、深度、扩展率），可以加载母网络并动态生成子网络。

from ofa.model_zoo import ofa_net

# 1. 加载预训练的 OFA 母网络 (以 MobileNetV3 搜索空间为例)
ofa_network = ofa_net('ofa_mbv3_d234_e346_k357_w1.0', pretrained=True)

# 2. 方式 A：随机采样一个子网络
ofa_network.sample_active_subnet()
random_subnet = ofa_network.get_active_subnet(preserve_weight=True)

# 3. 方式 B：手动设置子网络参数
# ks: kernel size, e: expand ratio, d: depth
ofa_network.set_active_subnet(ks=7, e=6, d=4)
manual_subnet = ofa_network.get_active_subnet(preserve_weight=True)

# manual_subnet 即为提取出的专用模型，权重已继承自母网络

模型评估

如果您本地有 ImageNet 验证集，可以使用提供的脚本评估模型性能：

评估专用网络：

python eval_specialized_net.py --path 'Your path to imagenet' --net flops@595M_top1@80.0_finetune@75

评估母网络中的子网络：

python eval_ofa_net.py --path 'Your path to imagenet' --net ofa_mbv3_d234_e346_k357_w1.0

版本历史

v0.12020/06/16

常见问题

遇到 'ImportError: Extension horovod.torch has not been built' 错误如何解决？

无法下载 Supernet 预训练权重或出现连接错误怎么办？

如何在 CIFAR-10/100 等非 ImageNet 数据集上训练 OFA Supernet？

在渐进式收缩（Progressive Shrinking）验证阶段遇到 'CUDA out of memory' 错误如何解决？

下载 ResNet50 Supernet 时遇到 Google Drive 'Access denied' 或链接失效错误怎么办？

如何将 PyTorch 格式的 OFA 专用模型转换为 Tensorflow-Lite 以进行端侧推理延迟测试？

使用 Horovod 多卡训练时，为什么所有进程的显存都集中在同一张显卡上？

相似工具推荐

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|昨天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|今天

语言模型图像Agent

once-for-all

使用场景

没有 once-for-all 时

使用 once-for-all 后

运行环境要求

快速开始

一次训练，多次部署：训练一个网络并将其专业化以实现高效部署 [arXiv] [幻灯片] [视频]

一次训练，针对多种部署场景进行专业化

在移动设备环境下达到 80% 的 ImageNet Top-1 准确率

在多种硬件平台上持续优于 MobileNetV3

OFA-ResNet50 [使用方法]

如何使用/评估 OFA 网络

使用

评估

如何使用/评估 OFA 专业化网络

使用

评估

如何训练 OFA 网络

介绍视频

实操教程视频

需求

自动化且高效的深度学习相关工作：

Once-for-All (OFA) 快速上手指南

1. 环境准备

2. 安装步骤

3. 基本使用

模式一：加载预训练的专用网络 (最简单)

模式二：从母网络采样或自定义子网络

模型评估

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch