CoreML-Models

GitHub
1.7k 160 简单 1 次阅读 今天开发框架图像
AI 解读 由 AI 自动生成,仅供参考

CoreML-Models 是一个专为苹果生态打造的机器学习模型资源库,汇集了众多已转换并优化好的 Core ML 格式模型。它主要解决了开发者在 iOS、macOS 等平台应用机器学习功能时,面临模型格式转换复杂、适配难度大以及缺乏高质量现成模型的痛点。

无论是图像分类、目标检测(涵盖 YOLO 系列)、人像分割,还是超分辨率重建、低光增强、风格迁移乃至 Stable Diffusion 文生图,CoreML-Models 都提供了丰富的预训练模型选择。其独特的技术亮点在于将原本复杂的开源模型直接转换为苹果原生框架支持的格式,让开发者无需自行处理繁琐的转换流程,即可通过简单的下载和拖拽操作,将先进的 AI 能力集成到 Xcode 项目中。

这套资源库非常适合 iOS /macOS 应用开发者、希望快速验证算法原型的科研人员,以及对移动端 AI 感兴趣的设计师使用。对于普通用户而言,虽然不能直接运行模型,但许多基于此库开发的 App 能带来更智能的拍照、修图及交互体验。如果你希望在苹果设备上高效落地前沿 AI 技术,CoreML-Models 无疑是一个值得信赖的起点。

使用场景

一位 iOS 开发者正在为一款旅行摄影 App 开发“实时智能背景虚化”功能,希望在不依赖云端服务器的情况下,让用户在拍摄瞬间即可享受专业级的人像效果。

没有 CoreML-Models 时

  • 模型转换门槛高:开发者需自行寻找开源算法(如 MobileSAM 或 RMBG),并耗费数天时间配置复杂的 Python 环境进行格式转换,极易因版本兼容问题失败。
  • 端侧性能难优化:直接移植的通用模型体积庞大,导致 App 安装包激增,且在旧款 iPhone 上运行帧率低下,无法实现流畅的实时预览。
  • 集成调试周期长:缺乏针对 Xcode 优化的示例代码,开发者需从零编写 Core ML 推理逻辑,排查内存泄漏与算力瓶颈耗时耗力。
  • 功能迭代受限:由于技术验证成本过高,团队被迫放弃尝试更先进的分割算法,只能使用效果平庸的传统图像处理方案。

使用 CoreML-Models 后

  • 即取即用高效集成:直接从仓库下载已预训练并转换好的 MobileSAMRMBG1.4 模型文件,拖入 Xcode 项目即可调用,省去了繁琐的转换环节。
  • 原生性能极致发挥:这些模型专为 Apple 神经引擎优化,在保持高精度的同时大幅降低延迟,确保即使在 iPhone 11 等老设备上也能维持 30fps+ 的实时流畅度。
  • 参考示例加速开发:利用仓库提供的 Sample Project 快速理解 API 调用方式,将原本需要一周的集成调试工作压缩至半天内完成。
  • 前沿算法轻松落地:能够低成本尝试最新的分割与生成式模型,迅速上线竞品难以企及的创意滤镜功能,显著提升产品竞争力。

CoreML-Models 通过将复杂的模型工程标准化,让 iOS 开发者能专注于业务创新,真正实现了高端 AI 能力在移动端的普惠与即时落地。

运行环境要求

操作系统
  • macOS
  • iOS
GPU

未说明

内存

未说明

依赖
notes该项目是已转换为 Core ML 格式的模型库,专为 Apple 生态系统设计。用户无需自行配置训练环境或安装 Python 依赖,只需从 Google Drive 下载 .mlmodel 或 .mlpackage 文件,直接集成到 Xcode 项目中即可在 iOS、iPadOS 或 macOS 上运行。不同模型的具体输入尺寸和输出格式请参考各模型章节的详细说明。
python未说明
Xcode
Core ML
CoreML-Models hero image

快速开始

CoreML-模型

转换后的Core ML模型库。

Core ML是苹果公司推出的一款机器学习框架。 如果你是一名iOS开发者,就可以轻松地在你的Xcode项目中使用机器学习模型。

使用方法

浏览这个模型库,如果你找到了想要的CoreML模型, 可以从Google Drive链接下载该模型,并将其打包到你的项目中。 或者,如果该模型附有示例项目链接,可以尝试运行一下,看看如何在项目中使用这个模型。 你可以选择是否这样做。

如果你喜欢这个仓库,请给我点个赞,这样我就能更加努力地维护它了。

章节链接

如何获取模型

你可以通过Google Drive链接获取已转换为CoreML格式的模型。 关于如何在Xcode中使用这些模型,请参阅下方章节。 每个模型的许可证均遵循其原始项目的许可证。

图像分类器

Efficientnet

截图 2021-12-27 6 34 43
Google Drive链接 大小 数据集 原始项目 许可证
Efficientnetb0 22.7 MB ImageNet TensorFlowHub Apache2.0

Efficientnetv2

截图 2021-12-31 4 30 22
Google Drive链接 大小 数据集 原始项目 许可证 年份
Efficientnetv2 85.8 MB ImageNet Google/autoML Apache2.0 2021

VisionTransformer

一张图片胜过16x16个单词:大规模图像识别中的Transformer。

截图 2022-01-07 10 37 05
Google Drive链接 大小 数据集 原始项目 许可证 年份
VisionTransformer-B16 347.5 MB ImageNet google-research/vision_transformer Apache2.0 2021

Conformer

局部特征耦合全局表示用于视觉识别。

截图 2022-01-07 11 34 33
Google Drive 链接 大小 数据集 原项目 许可证 年份
Conformer-tiny-p16 94.1 MB ImageNet pengzhiliang/Conformer Apache2.0 2021

DeiT

数据高效的图像Transformer

截图 2022-01-07 11 50 25
Google Drive 链接 大小 数据集 原项目 许可证 年份
DeiT-base384 350.5 MB ImageNet facebookresearch/deit Apache2.0 2021

RepVGG

让VGG风格的卷积神经网络再次伟大

截图 2022-01-08 5 00 53
Google Drive 链接 大小 数据集 原项目 许可证 年份
RepVGG-A0 33.3 MB ImageNet DingXiaoH/RepVGG MIT 2021

RegNet

设计网络设计空间

截图 2022-02-23 7 38 23
Google Drive 链接 大小 数据集 原项目 许可证 年份
regnet_y_400mf 16.5 MB ImageNet TORCHVISION.MODELS MIT 2020

MobileViTv2

CVNets:用于训练计算机视觉网络的库

截图 2022-02-23 7 38 23
Google Drive 链接 大小 数据集 原项目 许可证 年份 转换脚本
MobileViTv2 18.8 MB ImageNet apple/ml-cvnets 苹果 2022 在 Colab 中打开

目标检测

D-FINE

D-FINE iOS演示
下载链接 大小 输出 原项目 许可证 备注 示例项目
dfine-n-coco 13MB 置信度(Float32 300 × 80 的多维数组),坐标(Float32 300 × 4 的多维数组) Peterande/D-FINE Apache 2.0 输入为640×640。坐标归一化为cxcywh。无NMS——按置信度阈值筛选。 peaceofcake DFINEDemo

RF-DETR

RF-DETR iOS演示
下载链接 大小 输出 原项目 许可证 备注 示例项目
rfdetr-n-coco 95MB 置信度(Float32 300 × 91 的多维数组),坐标(Float32 300 × 4 的多维数组) roboflow/rf-detr Apache 2.0 输入为384×384。91个类别(索引0为背景,1-90为COCO类别ID)。坐标归一化为cxcywh。无NMS。 peaceofcake DFINEDemo

YOLOv5s

截图 2021-12-29 6 17 08
Google Drive 链接 大小 输出 原项目 许可证 备注 示例项目
YOLOv5s 29.3MB 置信度(Double 0 × 80 的多维数组),坐标(Double 0 × 4 的多维数组) ultralytics/yolov5 GNU 已添加非极大值抑制。 CoreML-YOLOv5

YOLOv7

截图 2021-12-29 6 17 08
Google Drive 链接 大小 输出 原始项目 许可证 备注 示例项目 转换脚本
YOLOv7 147.9MB 置信度(多维数组 (Double 0 × 80)),坐标(多维数组 (Double 0 × 4)) WongKinYiu/yolov7 GNU 已添加非极大值抑制。 CoreML-YOLOv5 在 Colab 中打开

YOLOv8

截图 2021-12-29 6 17 08
Google Drive 链接 大小 输出 原始项目 许可证 备注 示例项目
YOLOv8s 45.1MB 置信度(多维数组 (Double 0 × 80)),坐标(多维数组 (Double 0 × 4)) ultralytics/ultralytics GNU 已添加非极大值抑制。 CoreML-YOLOv5

YOLOv9

YOLOv9:使用可编程梯度信息学习你想学的内容。采用 PGI 和 GELAN 架构实现高效的目标检测。

下载链接 大小 输出 原始项目 许可证 年份 备注 示例项目
yolov9s.mlpackage.zip 14 MB 置信度(多维数组(Double 0 × 80)),坐标(多维数组(Double 0 × 4)) WongKinYiu/yolov9 GPL-3.0 2024 已添加非极大值抑制。 YOLOv9Demo

YOLOv10

YOLOv10:实时端到端目标检测。采用一致的双重分配无 NMS 架构——无需后处理。

下载链接 大小 输出 原始项目 许可证 年份 备注 示例项目
yolov10s.mlpackage.zip 14 MB 多维数组(1 × 300 × 6) THU-MIG/yolov10 AGPL-3.0 2024 无 NMS 的端到端检测。 YOLO26Demo

YOLO11

YOLO11:Ultralytics 最新的 YOLO,改进了骨干和颈部架构。参数比 YOLOv8 少 22%,mAP 更高。

下载链接 大小 输出 原始项目 许可证 年份 备注 示例项目
yolo11s.mlpackage.zip 18 MB 置信度(多维数组(Double 0 × 80)),坐标(多维数组(Double 0 × 4)) ultralytics/ultralytics AGPL-3.0 2024 已添加非极大值抑制。 YOLOv9Demo

YOLO26

YOLO26:边缘优先的视觉 AI,具有无 NMS 的端到端检测功能。与 YOLO11 相比,CPU 推理速度最高快 43%,并移除了 DFL 和 ProgLoss。

下载链接 大小 输出 原始项目 许可证 年份 备注 示例项目
yolo26s.mlpackage.zip 18 MB 多维数组(1 × 300 × 6) ultralytics/ultralytics AGPL-3.0 2026 无 NMS 的端到端检测。 YOLO26Demo

YOLO-World

YOLO-World:实时开放词汇目标检测。输入任意文本查询即可检测,无需固定类别列表。使用 CLIP 文本编码器进行开放词汇匹配。

下载链接 大小 描述 原始项目 许可证 年份 示例项目
yoloworld_detector.mlpackage.zip 25 MB YOLO-World V2-S 视觉检测器 AILab-CVC/YOLO-World GPL-3.0 2024 YOLOWorldDemo
clip_text_encoder.mlpackage.zip 121 MB CLIP ViT-B/32 文本编码器 openai/CLIP MIT 2021
clip_vocab.json.zip 1.6 MB BPE 词汇表用于分词器

分割

U2Net

Google Drive 链接 大小 输出 原始项目 许可证
U2Net 175.9 MB 图像(灰度,320 × 320) xuebinqin/U-2-Net Apache
U2Netp 4.6 MB 图像(灰度,320 × 320) xuebinqin/U-2-Net Apache

IS-Net

Google Drive 链接 大小 输出 原始项目 许可证 年份 转换脚本
IS-Net 176.1 MB 图像(灰度,1024 × 1024) xuebinqin/DIS Apache 2022 Open In Colab
IS-Net-General-Use 176.1 MB 图像(灰度,1024 × 1024) xuebinqin/DIS Apache 2022 Open In Colab

RMBG1.4

RMBG1.4 - 经过我们独特的训练方案和专有数据集增强的 IS-Net。

下载链接 大小 输出 原始项目 许可证 年份 示例项目 转换脚本
RMBG_1_4.mlpackage.zip 42 MB(INT8) Alpha 透明度图 1024×1024 briaai/RMBG-1.4 知识共享 2024 RMBGDemo convert_rmbg.py

face-Parsing

Google Drive 链接 大小 输出 原始项目 许可证 示例项目
face-Parsing 53.2 MB 多维数组(1 x 512 × 512) zllrunning/face-parsing.PyTorch MIT CoreML-face-parsing

Segformer

使用 Transformer 的简单高效语义分割设计

Google Drive 链接 大小 输出 原始项目 许可证 年份
SegFormer_mit-b0_1024x1024_cityscapes 14.9 MB 多维数组(512 × 1024) NVlabs/SegFormer NVIDIA 2021

BiSeNetV2

用于实时语义分割的引导聚合双边网络

Google Drive 链接 大小 输出 原始项目 许可证 年份
BiSeNetV2_1024x1024_cityscapes 12.8 MB 多维数组 ycszen/BiSeNet Apache2.0 2021

DNL

解耦非局部神经网络

Google Drive 链接 大小 输出 数据集 原项目 许可证 年份
dnl_r50-d8_512x512_80k_ade20k 190.8 MB MultiArray[512x512] ADE20K yinmh17/DNL-Semantic-Segmentation Apache2.0 2020

ISANet

用于语义分割的交错稀疏自注意力机制

Google Drive 链接 大小 输出 数据集 原项目 许可证 年份
isanet_r50-d8_512x512_80k_ade20k 141.5 MB MultiArray[512x512] ADE20K openseg-group/openseg.pytorch MIT ArXiv'2019/IJCV'2021

FastFCN

重新思考骨干网络中的空洞卷积在语义分割中的应用

Google Drive 链接 大小 输出 数据集 原项目 许可证 年份
fastfcn_r50-d32_jpu_aspp_512x512_80k_ade20k 326.2 MB MultiArray[512x512] ADE20K wuhuikai/FastFCN MIT ArXiv'2019

GCNet

非局部网络与挤压激励网络的结合及其扩展

Google Drive 链接 大小 输出 数据集 原项目 许可证 年份
gcnet_r50-d8_512x512_20k_voc12aug 189 MB MultiArray[512x512] PascalVOC xvjiarui/GCNet Apache License 2.0 ICCVW'2019/TPAMI'2020

DANet

用于场景分割的双注意力网络(CVPR2019)

Google Drive 链接 大小 输出 数据集 原项目 许可证 年份
danet_r50-d8_512x1024_40k_cityscapes 189.7 MB MultiArray[512x1024] CityScapes junfu1115/DANet MIT CVPR2019

Semantic-FPN

全景特征金字塔网络

Google Drive 链接 大小 输出 数据集 原项目 许可证 年份
fpn_r50_512x1024_80k_cityscapes 108.6 MB MultiArray[512x1024] CityScapes facebookresearch/detectron2 Apache License 2.0 2019

cloths_segmentation

用于各种衣物二值分割的代码。

Google Drive 链接 大小 输出 数据集 原项目 许可证 年份
clothSegmentation 50.1 MB 图像(灰度 640x960) fashion-2019-FGVC6 facebookresearch/detectron2 MIT 2020

easyportrait

EasyPortrait - 人脸解析与人像分割数据集。

Google Drive 链接 大小 输出 原项目 许可证 年份 Swift 示例 转换脚本
easyportrait-segformer512-fp 7.6 MB 图像(灰度 512x512)* 9 hukenovs/easyportrait 知识共享 2023 easyportrait-coreml Open In Colab

MobileSAM

更快的 Segment Anything:面向移动应用的轻量级 SAM。MobileSAM 通过解耦的知识蒸馏,用轻量级的 ViT-Tiny 编码器替代了沉重的 ViT-H 图像编码器,使其体积缩小约 60 倍,速度提升约 40 倍,相比原始的 SAM。

| 下载链接 | 大小 | 输出 | 原项目 | 许可证 | 年份 | 示例项目 | | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- | ------------- | | [MobileSAM.zip](https://github.com/john-rocky/SamKit/releases/download/v1.0.0/MobileSAM.zip) | 23 MB(编码器 13 MB + 解码器 9.8 MB) | 分割掩膜 | [ChaoningZhang/MobileSAM](https://github.com/ChaoningZhang/MobileSAM) | [Apache 2.0](https://github.com/ChaoningZhang/MobileSAM/blob/master/LICENSE) | 2023 | [SamKit](https://github.com/john-rocky/SamKit) |

SAM2-Tiny

SAM 2:对图像和视频进行任意分割。SAM 2 使用带有记忆功能的流式架构,将可提示分割从图像扩展到视频。Tiny 变体采用 Hiera-T 主干网络,以实现高效的设备端推理。

下载链接 大小 输出 原项目 许可证 年份 示例项目
SAM2Tiny.zip 76 MB(图像编码器 64 MB + 提示编码器 2 MB + 掩膜解码器 9.8 MB) 分割掩膜 facebookresearch/sam2 Apache 2.0 2024 SamKit

视频抠图

MatAnyone

pq-yang/MatAnyone(CVPR 2025)—— 具有对象级记忆传播的时序一致视频抠图。给定第一帧的掩膜,该网络会跟踪并细化整段视频中的 Alpha 抠图,能够比逐帧抠图基线更好地保持清晰的边缘(如头发、半透明区域)。它基于 Cutie 视频目标分割主干网络构建,并配备了专门用于抠图的掩膜解码器。

CoreML 版本将网络拆分为 5 个无状态模块,以便每帧的记忆状态机可以在 Swift 中运行,而 CoreML 则负责繁重的计算任务。端到端 Alpha 抠图与官方 PyTorch 参考实现的对比结果显示:MAE < 2e-4,相关系数在 18 帧中超过 0.9999,其中包括 3 个记忆周期。

示例应用程序使用 Vision 的 VNGeneratePersonSegmentationRequest 自动生成第一帧的掩膜——选择一段视频,点击“移除背景”,即可将前景合成到选定的背景颜色上。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
MatAnyone(5 个 mlpackage,FP16 总大小约 111 MB) 111 MB 图像 [1,3,432,768](每帧状态由 Swift 维护) alpha 抠图 [1,1,432,768] pq-yang/MatAnyone NTU S-Lab 1.0 2025 MatAnyoneDemo convert_matanyone.py

有关每帧状态机、5 模块拆分及转换细节,请参阅 sample_apps/MatAnyoneDemo/README.md

超分辨率

Real ESRGAN

Google Drive 链接 大小 输出 原项目 许可证 年份
Real ESRGAN4x 66.9 MB 图像(RGB 2048x2048) xinntao/Real-ESRGAN BSD 3-Clause 许可证 2021
Real ESRGAN Anime4x 66.9 MB 图像(RGB 2048x2048) xinntao/Real-ESRGAN BSD 3-Clause 许可证 2021

GFPGAN

利用生成式面部先验实现真实世界的盲态人脸修复

Google Drive 链接 大小 输出 原项目 许可证 年份
GFPGAN 337.4 MB 图像(RGB 512x512) TencentARC/GFPGAN Apache2.0 2021

BSRGAN

Google Drive 链接 大小 输出 原项目 许可证 年份
BSRGAN 66.9 MB 图像(RGB 2048x2048) cszn/BSRGAN 2021

A-ESRGAN

Google Drive 链接 大小 输出 原项目 许可证 年份 转换脚本
A-ESRGAN 63.8 MB 图像(RGB 1024x1024) aesrgan/A-ESRGANN BSD 3-Clause 许可证 2021 Open In Colab

Beby-GAN

用于高细节图像超分辨率的最佳伙伴GANs

Google Drive 链接 大小 输出 原项目 许可证 年份
Beby-GAN 66.9 MB 图像(RGB 2048x2048) dvlab-research/Simple-SR MIT 2021

RRDN

用于图像超分辨率的残差级联密集网络。

Google Drive 链接 大小 输出 原项目 许可证 年份
RRDN 16.8 MB 图像(RGB 2048x2048) idealo/image-super-resolution Apache2.0 2018

Fast-SRGAN

快速SRGAN。

Google Drive 链接 大小 输出 原项目 许可证 年份
Fast-SRGAN 628 KB 图像(RGB 1024x1024) HasnainRaz/Fast-SRGAN MIT 2019

ESRGAN

增强版SRGAN。

Google Drive 链接 大小 输出 原项目 许可证 年份
ESRGAN 66.9 MB 图像(RGB 2048x2048) xinntao/ESRGAN Apache 2.0 2018

UltraSharp

预训练:4倍ESRGAN

Google Drive 链接 大小 输出 原项目 许可证 年份
UltraSharp 34 MB 图像(RGB 1024x1024) Kim2019/ CC-BY-NC-SA-4.0 2021

SRGAN

使用生成对抗网络实现照片级真实感单张图像超分辨率。

Google Drive 链接 大小 输出 原项目 许可证 年份
SRGAN 6.1 MB 图像(RGB 2048x2048) dongheehand/SRGAN-PyTorch 2017

SRResNet

基于生成对抗网络的逼真单张图像超分辨率。

Google Drive 链接 大小 输出 原始项目 许可证 年份
SRResNet 6.1 MB 图像(RGB 2048x2048) dongheehand/SRGAN-PyTorch 2017

LESRCNN

基于增强CNN的轻量级图像超分辨率。

Google Drive 链接 大小 输出 原始项目 许可证 年份 转换脚本
LESRCNN 4.3 MB 图像(RGB 512x512) hellloxiaotian/LESRCNN 2020 Open In Colab

MMRealSR

基于度量学习的真实世界交互式调制超分辨率

Google Drive 链接 大小 输出 原始项目 许可证 年份 转换脚本
MMRealSRGAN 104.6 MB 图像(RGB 1024x1024) TencentARC/MM-RealSR BSD 3-Clause 2022 Open In Colab
MMRealSRNet 104.6 MB 图像(RGB 1024x1024) TencentARC/MM-RealSR BSD 3-Clause 2022 Open In Colab

DASR

“用于盲超分辨率的无监督退化表征学习”在 CVPR 2021 中的 PyTorch 实现

Google Drive 链接 大小 输出 原始项目 许可证 年份
DASR 12.1 MB 图像(RGB 1024x1024) The-Learning-And-Vision-Atelier-LAVA/DASR MIT 2022

SinSR

wyf0912/SinSR — 单步扩散式超分辨率(CVPR 2024,约1.13亿参数)。从 ResShift 中提炼而来,实现一步4倍放大。采用 Swin Transformer UNet 结合 VQ-VAE 隐空间。

左:双三次4倍放大,右:SinSR单步扩散超分辨率(128x128 → 512x512)

包含3个 CoreML 模型:VQ-VAE 编码器、Swin-UNet 去噪器(单步)以及带有向量量化功能的 VQ-VAE 解码器。

下载链接 大小 输入 输出 原始项目 许可证 年份 示例项目 转换脚本
SinSR_Encoder.mlpackage.zip 39 MB 图像 [1,3,1024,1024] 隐变量 [1,3,256,256] wyf0912/SinSR S-Lab 2024 SinSRDemo convert_sinsr.py
SinSR_Denoiser.mlpackage.zip 420 MB 输入 [1,6,256,256] 预测的隐变量 [1,3,256,256]
SinSR_Decoder.mlpackage.zip 58 MB 隐变量 [1,3,256,256] 图像 [1,3,1024,1024]

推理流程及转换细节请参阅 sample_apps/SinSRDemo/README.md

低光增强

StableLLVE

从单张图像中学习时间一致性以进行低光视频增强。

Google Drive 链接 大小 输出 原始项目 许可证 年份
StableLLVE 17.3 MB 图像(RGB 512x512) zkawfanx/StableLLVE MIT 2021

Zero-DCE

无参考深度曲线估计用于低光图像增强

Google Drive 链接 大小 输出 原项目 许可证 年份 转换脚本
Zero-DCE 320KB 图像(RGB 512x512) Li-Chongyi/Zero-DCE 查看仓库 2021 Open In Colab

Retinexformer

Retinexformer:基于 Retinex 的单阶段 Transformer 用于低光图像增强

Google Drive 链接 大小 输出 原项目 许可证 年份 转换脚本
ZRetinexformer FiveK 3.4MB 图像(RGB 512x512) caiyuanhao1998/Retinexformer MIT 2023 Open In Colab
ZRetinexformer NTIRE 3.4MB 图像(RGB 512x512) caiyuanhao1998/Retinexformer MIT 2023 Open In Colab

图像修复

MPRNet

多阶段渐进式图像修复。

去模糊

去噪

去雨

Google Drive 链接 大小 输出 原项目 许可证 年份
MPRNetDebluring 137.1 MB 图像(RGB 512x512) swz30/MPRNet MIT 2021
MPRNetDeNoising 108 MB 图像(RGB 512x512) swz30/MPRNet MIT 2021
MPRNetDeraining 24.5 MB 图像(RGB 512x512) swz30/MPRNet MIT 2021

MIRNetv2

用于快速图像修复与增强的特征学习模型。

去噪

超分辨率

对比度增强

低光增强

Google Drive 链接 大小 输出 原项目 许可证 年份 转换脚本
MIRNetv2Denoising 42.5 MB 图像(RGB 512×512) swz30/MIRNetv2 学术公共许可证 2022 Open In Colab
MIRNetv2SuperResolution 42.5 MB 图像(RGB 512×512) swz30/MIRNetv2 学术公共许可证 2022 Open In Colab
MIRNetv2ContrastEnhancement 42.5 MB 图像(RGB 512×512) swz30/MIRNetv2 学术公共许可证 2022 Open In Colab
MIRNetv2LowLightEnhancement 42.5 MB 图像(RGB 512×512) swz30/MIRNetv2 学术公共许可证 2022 Open In Colab

图像生成

MobileStyleGAN

Google Drive 链接 大小 输出 原项目 许可证 示例项目
MobileStyleGAN 38.6MB 图像(彩色 1024 × 1024) bes-dev/MobileStyleGAN.pytorch Nvidia 源代码许可证-非商业用途 CoreML-StyleGAN

DCGAN

Google Drive 链接 大小 输出 原项目
DCGAN 9.2MB 多维数组 TensorFlowCore

图像到图像转换

Anime2Sketch

Google Drive 链接 大小 输出 原项目 许可证 使用方法
Anime2Sketch 217.7MB 图像(彩色 512 × 512) Mukosame/Anime2Sketch MIT 许可证 拖入一张图片即可预览

AnimeGAN2Face_Paint_512_v2

<img width="400" src="https://camo.qiitausercontent.com/74a02b6e0b80e52c2ae3af798c93eea9aa3e394d/68747470733a2f2f7169612d696d6167652d73746f72652e73332e61702d6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6f6e6......### MIRNetv2

用于快速图像修复与增强的特征学习。

去噪

超分辨率

对比度增强

低光增强

Google Drive 链接 大小 输出 原项目 许可证 年份 转换脚本
MIRNetv2Denoising 42.5 MB 图像(RGB 512x512) swz30/MIRNetv2 学术公共许可证 2022 在 Colab 中打开
MIRNetv2SuperResolution 42.5 MB 图像(RGB 512x512) swz30/MIRNetv2 学术公共许可证 2022 在 Colab 中打开
MIRNetv2ContrastEnhancement 42.5 MB 图像(RGB 512x512) swz30/MIRNetv2 学术公共许可证 2022 在 Colab 中打开
MIRNetv2LowLightEnhancement 42.5 MB 图像(RGB 512x512) swz30/MIRNetv2 学术公共许可证 2022 在 Colab 中打开

图像生成

MobileStyleGAN

Google Drive 链接 大小 输出 原项目 许可证 示例项目
MobileStyleGAN 38.6MB 图像(彩色 1024 × 1024) bes-dev/MobileStyleGAN.pytorch Nvidia 源代码许可证-NC CoreML-StyleGAN

DCGAN

Google Drive 链接 大小 输出 原项目
DCGAN 9.2MB 多维数组 TensorFlowCore

图像到图像

Anime2Sketch

Google Drive 链接 大小 输出 原项目 许可证 使用方法
Anime2Sketch 217.7MB 图像(彩色 512 × 512) Mukosame/Anime2Sketch MIT 拖放一张图片即可预览

AnimeGAN2Face_Paint_512_v2

Google Drive 链接 大小 输出 原项目 转换脚本
AnimeGAN2Face_Paint_512_v2 8.6MB 图像(彩色 512 × 512) bryandlee/animegan2-pytorch 在 Colab 中打开

Photo2Cartoon

Google Drive 链接 大小 输出 原始项目 许可证 备注
Photo2Cartoon 15.2 MB 图像(彩色 256 × 256) minivision-ai/photo2cartoon MIT 输出与原始模型略有不同,原因是部分操作被手动替换。

AnimeGANv2_Hayao

Google Drive 链接 大小 输出 原始项目 示例
AnimeGANv2_Hayao 8.7MB 图像(256 x 256) TachibanaYoshino/AnimeGANv2 AnimeGANv2-iOS

AnimeGANv2_Paprika

Google Drive 链接 大小 输出 原始项目
AnimeGANv2_Paprika 8.7MB 图像(256 x 256) TachibanaYoshino/AnimeGANv2

WarpGAN 卡通化

Google Drive 链接 大小 输出 原始项目
WarpGAN 卡通化 35.5MB 图像(256 x 256) seasonSH/WarpGAN

UGATIT selfie2anime

截图 2021-12-27 8 18 33 截图 2021-12-27 8 28 11

Google Drive 链接 大小 输出 原始项目
UGATIT selfie2anime 266.2MB(量化版) 图像(256x256) taki0112/UGATIT

CartoonGAN

Google Drive 链接 大小 输出 原始项目
CartoonGAN_Shinkai 44.6MB 多数组 mnicnc404/CartoonGan-tensorflow
CartoonGAN_Hayao 44.6MB 多数组 mnicnc404/CartoonGan-tensorflow
CartoonGAN_Hosoda 44.6MB 多数组 mnicnc404/CartoonGan-tensorflow
CartoonGAN_Paprika 44.6MB 多数组 mnicnc404/CartoonGan-tensorflow

快速神经风格迁移

Google Drive 链接 大小 输出 原项目 许可证 年份
fast-neural-style-transfer-cuphead 6.4MB 图像(RGB 960x640) eriklindernoren/Fast-Neural-Style-Transfer MIT 2019
fast-neural-style-transfer-starry-night 6.4MB 图像(RGB 960x640) eriklindernoren/Fast-Neural-Style-Transfer MIT 2019
fast-neural-style-transfer-mosaic 6.4MB 图像(RGB 960x640) eriklindernoren/Fast-Neural-Style-Transfer MIT 2019

白盒卡通化

使用白盒卡通表示学习卡通化

Google Drive 链接 大小 输出 原项目 许可证 年份
White_box_Cartoonization 5.9MB 图像(1536x1536) SystemErrorWang/White-box-Cartoonization creativecommons CVPR2020

人脸卡通化

白盒人脸图像卡通化

Google Drive 链接 大小 输出 原项目 许可证 年份
FacialCartoonization 8.4MB 图像(256x256) SystemErrorWang/FacialCartoonization creativecommons 2020

图像修复

AOT-GAN用于图像修复

Google Drive 链接 大小 输出 原项目 许可证 备注 示例项目
AOT-GAN-for-Inpainting 60.8MB MLMultiArray(3,512,512) researchmm/AOT-GAN-for-Inpainting Apache2.0 使用时请参考示例。 john-rocky/Inpainting-CoreML

Lama

Google Drive 链接 大小 输入 输出 原项目 许可证 备注 示例项目 转换脚本
Lama 216.6MB 图像(彩色 800 × 800),图像(灰度 800 × 800) 图像(彩色 800 × 800) advimman/lama Apache2.0 使用时请参考示例。 john-rocky/lama-cleaner-iOS mallman/CoreMLaMa

单目深度估计

MiDaS

迈向鲁棒的单目深度估计:混合数据集实现零样本跨数据集迁移

Google Drive 链接 大小 输出 原项目 许可证 年份 转换脚本
MiDaS_Small 66.3MB MultiArray(1x256x256) isl-org/MiDaS MIT 2022 Open In Colab

稳定扩散

Hyper-SD

ByteDance/Hyper-SD — 通过轨迹分段一致性蒸馏从 SD1.5 中提炼出的单步文生图模型。字节跳动报告称,在单步情况下,用户对 Hyper-SD 的偏好是 SD-Turbo 的两倍。结合 Apple 的 ml-stable-diffusion(Split-Einsum 注意力机制、分块 UNet、6 位调色板量化),该模型在 iPhone 15 及更高版本上能够以可接受的速度和质量运行。

iPhone 上的单步生成,512×512 分辨率。提示词:戴太阳镜的猫、赛博朋克城市、日式庭院、骑马的宇航员。

包含 4 个 CoreML 模型(总大小约 947 MB):CLIP 文本编码器 + Swin 风格分块 UNet(6 位调色板量化)+ VAE 解码器。使用 TCD 调度器进行单步推理。

下载链接 大小 输入 输出 原始项目 许可证 年份 示例项目 转换脚本
HyperSDTextEncoder.mlpackage.zip 235 MB input_ids [1,77] encoder_hidden_states [1,77,768] ByteDance/Hyper-SD OpenRAIL++ 2024 HyperSDDemo convert_hypersd.py
HyperSDUnetChunk1.mlpackage.zip 318 MB latent + encoder_hs + timestep 第一半中间结果
HyperSDUnetChunk2.mlpackage.zip 299 MB 第一半输出 + 跳跃连接 noise_pred [2,4,64,64]
HyperSDVAEDecoder.mlpackage.zip 95 MB latent [1,4,64,64] image [1,3,512,512]

有关 LoRA 融合、分块 UNet 调色板量化以及 TCD 调度器的详细信息,请参阅 sample_apps/HyperSDDemo/README.md

stable-diffusion-v1-5

スクリーンショット 2023-03-21 18 52 18
Google Drive 链接 原始模型 原始项目 许可证 在 Mac 上运行 转换脚本 年份
stable-diffusion-v1-5 runwayml/stable-diffusion-v1-5 runwayml/stable-diffusion Open RAIL M 许可证 godly-devotion/MochiDiffusion godly-devotion/MochiDiffusion 2022

pastel-mix

Pastel Mix - 一种风格化的潜在扩散模型。该模型旨在仅通过少量提示词就能生成高质量、细节丰富的动漫风格图像。

スクリーンショット 2023-03-21 19 54 13
Google Drive 链接 原始模型 许可证 在 Mac 上运行 转换脚本 年份
pastelMixStylizedAnime_pastelMixPrunedFP16 andite/pastel-mix Fantasy.ai godly-devotion/MochiDiffusion godly-devotion/MochiDiffusion 2023

Orange Mix

スクリーンショット 2023-03-21 23 34 13
Google Drive 链接 原始模型 许可证 在 Mac 上运行 转换脚本 年份
AOM3_orangemixs WarriorMama777/OrangeMixs CreativeML OpenRAIL-M godly-devotion/MochiDiffusion godly-devotion/MochiDiffusion 2023

Counterfeit

スクリーンショット 2023-03-22 0 47 53
Google Drive 链接 原始模型 许可证 在 Mac 上运行 转换脚本 年份
Counterfeit-V2.5 gsdf/Counterfeit-V2.5 - godly-devotion/MochiDiffusion godly-devotion/MochiDiffusion 2023

anything-v4

截图 2023-03-22 0 47 53
Google Drive 链接 原始模型 许可证 是否可在 Mac 上运行 转换脚本 年份
anything-v4.5 andite/anything-v4.0 Fantasy.ai godly-devotion/MochiDiffusion godly-devotion/MochiDiffusion 2023

Openjourney

截图 2023-03-22 7 49 39
Google Drive 链接 原始模型 许可证 是否可在 Mac 上运行 转换脚本 年份
Openjourney prompthero/openjourney - godly-devotion/MochiDiffusion godly-devotion/MochiDiffusion 2023

dreamlike-photoreal-2

dreamlike
Google Drive 链接 原始模型 许可证 是否可在 Mac 上运行 转换脚本 年份
dreamlike-photoreal-2.0 dreamlike-art/dreamlike-photoreal-2.0 CreativeML OpenRAIL-M godly-devotion/MochiDiffusion godly-devotion/MochiDiffusion 2023

图像上色

DDColor Tiny

DDColor — 使用双解码器对灰度/黑白照片进行 AI 图像上色(ICCV 2023)。

输入 输出
下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
DDColor_Tiny.mlpackage.zip 242 MB 512×512 RGB AB 通道(LAB) piddnad/DDColor Apache-2.0 2023 DDColorDemo convert_ddcolor.py

人脸识别

AdaFace IR-18

AdaFace — 质量自适应的人脸识别。输出用于人脸验证和识别的 512 维嵌入向量。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
AdaFace_IR18.mlpackage.zip 48 MB 图像(112×112 的人脸) 512 维 L2 归一化嵌入向量 mk-minchul/AdaFace MIT 2022 AdaFaceDemo convert_adaface.py

3D 人脸姿态估计

3DDFA_V2

3DDFA_V2 — 从单张人脸图像中进行 3D 人脸重建和头部姿态估计(偏航、俯仰、滚转)。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目
3DDFA_V2.mlpackage.zip 6.3 MB 图像(120×120 RGB) 62 个参数(12 个姿态 + 40 个形状 + 10 个表情) cleardusk/3DDFA_V2 MIT 2020 Face3DDemo

发言人分离

pyannote segmentation-3.0

pyannote 分割 — 最多支持 3 名同时发言者的发言人分离。能够识别谁在何时说话,并具备重叠检测和每位发言人的转录功能。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
SpeakerSegmentation.mlpackage.zip 5.8 MB 10 秒单声道 16kHz [1,1,160000] [1, 589, 7] 发言人置信度分数 pyannote/segmentation-3.0 MIT 2023 DiarizationDemo convert_diarization.py

语音转换

OpenVoice V2

OpenVoice — 零样本语音转换。录制源语音和目标语音,在设备端进行转换。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
OpenVoice_SpeakerEncoder.mlpackage.zip 1.7 MB 频谱图 [1, T, 513] 256维说话人嵌入 myshell-ai/OpenVoice MIT 2024 OpenVoiceDemo convert_openvoice.py
OpenVoice_VoiceConverter.mlpackage.zip 64 MB 频谱图 + 说话人嵌入 波形音频(22050 Hz)

音频分离

HTDemucs

混合Transformer Demucs — 将音乐分离为鼓、贝斯、人声和其他乐器4个音轨。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
HTDemucs_SourceSeparation_F32.mlpackage.zip 80 MB 音频波形 [1, 2, 343980],采样率44.1kHz 4个音轨(鼓、贝斯、其他、人声)立体声 facebookresearch/demucs MIT 2022 DemucsDemo convert_htdemucs.py

视觉-语言模型

Florence-2-base

微软Florence-2 — 一个统一的视觉-语言模型,支持从单个模型完成图像描述、OCR和目标检测任务。已转换为3个CoreML模型(INT8):视觉编码器(DaViT)、文本编码器(BART)以及具有自回归生成能力的解码器。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
Florence2VisionEncoder / TextEncoder / Decoder 260 MB(INT8,共3个模型) 768×768 RGB图像 + 任务提示 生成的文本(描述、OCR等) microsoft/Florence-2-base MIT 2024 Florence2Demo convert_florence2.py

零样本图像分类

SigLIP ViT-B/16

谷歌SigLIP — 基于sigmoid的对比学习图像-文本模型,用于零样本分类。输入任意标签(如“猫、狗、汽车”),即可获得每个标签的概率。已转换为2个CoreML模型(INT8):图像编码器和文本编码器。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
SigLIP_ImageEncoder / TextEncoder 386 MB(FP16,共2个模型) 224×224 RGB图像 + 文本标签 每个标签的相似度分数(softmax) google/siglip-base-patch16-224 Apache-2.0 2024 SigLIPDemo convert_siglip.py

文本转语音

心-82M

hexgrad/Kokoro-82M — hexgrad 开源的 8200 万参数 TTS 模型。基于 StyleTTS2 架构(BERT + 长度预测器 + iSTFTNet 声码器),能够根据每种声音的风格嵌入,生成 9 种语言、采样率为 24kHz 的语音。这是首个 CoreML 移植版本,支持 设备端双语(英语 + 日语)自由文本输入——运行时无需 MLX、MeCab、IPADic 或 Python G2P。

包含两个 CoreML 模型:一个灵活长度的 预测器(BERT + LSTM 长度头 + 文本编码器)和 三个固定形状的解码器桶(128 / 256 / 512 帧)。Swift 流水线会选取最合适的桶来匹配预测的总时长,对输入特征进行零填充,并裁剪输出音频。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
Kokoro_Predictor.mlpackage.zip 75 MB input_ids [1, T≤256] (int32) + ref_s_style [1, 128] duration [1, T] + d_for_align [1, 640, T] + t_en [1, 512, T] hexgrad/Kokoro-82M Apache-2.0 2025 KokoroDemo convert_kokoro.py
Kokoro_Decoder_128.mlpackage.zip 238 MB en_aligned [1, 640, 128] + asr_aligned [1, 512, 128] + ref_s [1, 256] audio [1, 76800] @ 24kHz
Kokoro_Decoder_256.mlpackage.zip 241 MB en_aligned [1, 640, 256] + asr_aligned [1, 512, 256] + ref_s [1, 256] audio [1, 153600] @ 24kHz
Kokoro_Decoder_512.mlpackage.zip 246 MB en_aligned [1, 640, 512] + asr_aligned [1, 512, 512] + ref_s [1, 256] audio [1, 307200] @ 24kHz

有关设备端 G2P(英语 + 日语)、分桶解码策略及转换细节,请参阅 sample_apps/KokoroDemo/README.md

异常检测

EfficientAD

EfficientAD(PDN-Small)— 一种轻量级的无监督工业质检异常检测模型。它将教师网络、学生网络和自编码器网络封装为单个模型,输出像素级异常热图和图像级别的异常分数。已在 MVTec AD 瓶子类别数据集上预训练。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
EfficientAD_Bottle.mlpackage.zip 15 MB(FP16) 256×256 RGB 图像 anomaly_map [1,1,256,256] + anomaly_score [0-1] nelson1425/EfficientAD MIT 2023 EfficientADDemo convert_efficientad.py

音乐转录

Basic Pitch

spotify/basic-pitch — 一款多声部自动音乐转录工具。它可以将任何音频(任何乐器或人声)转换为带有音高弯曲检测的 MIDI 音符。仅需 1.7 万个参数 / 272 KB,即可在 iPhone 上通过 ANE 全速加速实时运行。

这是首个开源的 iOS 实现。它可以加载任意音频文件,在 2 秒滑动窗口中运行 CoreML 模型,随后在 Swift 中原生执行完整的 Python note_creation.py 流程(起音推断、贪婪逆向追踪、Melodia 技巧、音高弯曲提取)。检测到的音符会以钢琴卷帘的形式可视化,导出为标准 MIDI 文件,并通过内置的加法正弦合成器播放,以便与原始音频进行 A/B 对比。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目
BasicPitch_nmp.mlpackage.zip 272 KB 音频波形 [1, 43844, 1] @ 22050 Hz 单声道 note [1,172,88] + onset [1,172,88] + contour [1,172,264] spotify/basic-pitch Apache-2.0 2022 BasicPitchDemo

有关滑窗推理、后处理移植以及 iOS 特有的注意事项,请参阅 sample_apps/BasicPitchDemo/README.md

文本到音乐生成

稳定音频开放小型模型

stabilityai/stable-audio-open-small — 文本到音乐生成(4.97亿参数)。该模型使用修正流扩散技术,可根据文本提示生成长达11.9秒的44.1kHz立体声音频。

包含4个CoreML模型:T5文本编码器、NumberEmbedder(秒数条件)、DiT(扩散Transformer)以及VAE解码器(Oobleck)。

下载链接 大小 输入 输出 原项目 许可证 年份 示例项目 转换脚本
StableAudioT5Encoder.mlpackage.zip 105 MB input_ids [1, 64] text_embeddings [1, 64, 768] stabilityai/stable-audio-open-small Stability AI Community 2024 StableAudioDemo convert_stable_audio.py
StableAudioNumberEmbedder.mlpackage.zip 396 KB normalized_seconds [1] seconds_embedding [1, 768]
StableAudioDiT.mlpackage.zip 326 MB latent [1,64,256] + timestep + conditioning velocity [1,64,256]
StableAudioDiT_FP32.mlpackage.zip 1.3 GB latent [1,64,256] + timestep + conditioning velocity [1,64,256]
StableAudioVAEDecoder.mlpackage.zip 149 MB latent [1, 64, 256] 立体声音频 [1, 2, 524288],采样率为44.1kHz

有关INT8与FP32 DiT的选择及转换详情,请参阅sample_apps/StableAudioDemo/README.md

非我本人转换的模型。

稳定扩散

apple/ml-stable-diffusion

如何在Xcode项目中使用。

方法一:实现Vision请求。


import Vision
lazy var coreMLRequest:VNCoreMLRequest = {
   let model = try! VNCoreMLModel(for: modelname().model)
   let request = VNCoreMLRequest(model: model, completionHandler: self.coreMLCompletionHandler)
   return request
   }()

let handler = VNImageRequestHandler(ciImage: ciimage,options: [:])
   DispatchQueue.global(qos: .userInitiated).async {
   try? handler.perform([coreMLRequest])
}

如果模型输出类型为Image:

let result = request?.results?.first as! VNPixelBufferObservation
let uiimage = UIImage(ciImage: CIImage(cvPixelBuffer: result.pixelBuffer))

否则,若模型输出类型为Multiarray:

要将MultiArray可视化为图像,Hollance先生的“CoreML Helpers”非常方便。 CoreML Helpers

使用CoreML Helpers将MultiArray转换为图像。

func coreMLCompletionHandler(request:VNRequest?、error:Error?){
   let = coreMLRequest.results?.first as!VNCoreMLFeatureValueObservation
   let multiArray = result.featureValue.multiArrayValue
   let cgimage = multiArray?.cgImage(min:-1、max:1、channel:nil)

方法二:使用CoreGANContainer。您可以将模型拖放至容器项目中直接使用。

使模型更轻量化

如果您希望减小模型大小,可以通过量化来实现。 https://coremltools.readme.io/docs/quantization

位数越低,模型精度下降的风险越大。精度损失因模型而异。

import coremltools as ct
from coremltools.models.neural_network import quantization_utils

# 加载全精度模型
model_fp32 = ct.models.MLModel('model.mlmodel')

model_fp16 = quantization_utils.quantize_weights(model_fp32, nbits=16)
# nbits可以是16(模型大小减半)、8(四分之一)、4(八分之一)、2或1
量化后的示例(U2Net)
输入图像 / nbits=32(原版) / nbits=16 / nbits=8 / nbits=4

感谢

封面图片取自吉卜力免费素材。

在YOLOv5转换方面,dbsystel/yolov5-coreml-tools为我提供了极其智能的转换脚本。

以及所有原始项目的所有者。

作者

Daisuke Majima 自由职业工程师。iOS/机器学习/AR 我可以从事移动ML项目和AR项目。 欢迎联系:rockyshikoku@gmail.com

GitHub Twitter Medium

版本历史

moge2-v12026/04/08
hypersd-v12026/04/06
kokoro-v12026/04/07
efficientad-v12026/04/04
sinsr-v12026/04/05
stable-audio-v12026/04/04
siglip-v22026/04/03
rmbg-v12026/04/03
siglip-v12026/04/03
florence2-v12026/04/03
diarization-v12026/04/03
ddcolor-v12026/04/03
openvoice-v12026/04/03
adaface-v12026/04/03
face3d-v12026/04/02
demucs-v12026/04/01
yolo-models-v12026/03/30

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2天前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|3天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

145.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.1k|★★☆☆☆|今天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|2天前
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|2天前
语言模型图像Agent