Awesome-CoreML-Models

7k 506 非常简单 1 次阅读 3天前MIT开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

Awesome-CoreML-Models 是一个专为苹果生态系统打造的开源资源库，汇集了目前规模最大的 Core ML 格式机器学习模型集合。自 iOS 11 引入 Core ML 框架以来，开发者虽然能便捷地在应用中集成人工智能功能，但寻找高质量、现成可用的预训练模型往往耗时费力。Awesome-CoreML-Models 正是为了解决这一痛点而生，它通过精心整理和策展，提供了一站式的模型下载与参考指南，极大地降低了移动端 AI 开发的门槛。

这个资源库主要面向 iOS、macOS、tvOS 和 watchOS 的应用开发者，同时也适合希望快速验证想法的研究人员或对移动端 AI 感兴趣的技术爱好者。无论你是想实现图像中的文字识别、人体姿态估计，还是进行场景分类、物体检测（如 YOLO、MobileNet、ResNet 等经典模型），都能在这里找到对应的 Core ML 版本及其演示代码和参考文献。此外，项目还贴心地集成了如 Netron 等可视化工具，帮助用户更直观地理解模型结构。

Awesome-CoreML-Models 的最大亮点在于其“开箱即用”的便利性和社区的活跃性。它不仅节省了开发者自行转换和调试模型的时间，还通过开放的 Pull Request 机制鼓励社区贡献新模型，确保资源库持续更新和丰富。对于希望在苹果设备上高效落地机器学习功能的团队或个人而言，这是一个不可或缺的高效辅助工具，能让开发者将更多精力集中在应用逻辑与创新体验上，而非底层模型的准备工作中。

使用场景

某 iOS 独立开发者计划开发一款名为“智拍助手”的摄影辅助应用，旨在通过实时分析取景画面，自动识别场景类型（如海滩、森林）并评估照片美学质量，从而指导用户拍出更好看的照片。

没有 Awesome-CoreML-Models 时

模型转换门槛高：开发者需自行寻找通用的 TensorFlow 或 PyTorch 模型，并花费大量时间研究如何将其转换为 Apple 专有的 Core ML (.mlmodel) 格式，过程中常遇到算子不支持导致的报错。
缺乏现成场景分类器：要实现“识别海滩或森林”的功能，需要从头训练或微调复杂的 Places CNN 模型，数据收集和训练成本极高，且难以保证在移动端的运行效率。
美学评估实现困难：照片质量评分算法涉及复杂的主观特征提取，若无现成模型，开发者很难在短时间内构建出准确的 PhotoAssessment 模型，导致核心功能延期。
调试与验证耗时：缺乏可视化的模型结构参考，开发者在集成模型后若出现推理错误，难以快速定位是模型结构问题还是代码调用问题。

使用 Awesome-CoreML-Models 后

即拿即用，零转换成本：直接在列表中找到已预转换好的 Places CNN 和 PhotoAssessment 模型文件，下载即可拖入 Xcode 工程，省去了繁琐的格式转换和环境配置环节。
快速集成场景识别：利用现成的 Places CNN 模型，几行代码即可实现对 205 种场景（如卧室、海岸）的高精度分类，立即赋予应用“懂场景”的能力。
轻松添加美学评分：直接集成社区验证过的 PhotoAssessment 模型，结合 Metal 加速，迅速实现照片美学打分功能，提升了应用的专业度和用户粘性。
结构清晰，便于调试：借助仓库推荐的 Netron 等可视化工具，开发者可直观查看模型输入输出节点，大幅缩短了集成调试周期，确保功能稳定上线。

Awesome-CoreML-Models 通过提供丰富且开箱即用的预训练模型资源，将 iOS 开发者集成机器学习功能的周期从数周缩短至数小时，极大地降低了移动端 AI 应用的开发门槛。

运行环境要求

操作系统

iOS
macOS
tvOS
watchOS

GPU

未说明（Core ML 自动利用 Apple 设备的 GPU/Neural Engine，无需特定 NVIDIA/CUDA 配置）

内存

未说明（取决于具体模型和设备性能）

依赖

notes该项目是一个 Core ML 模型集合列表，而非单一可执行软件。主要面向 Apple 生态系统开发者，模型需集成到 iOS (11+)、macOS、tvOS 或 watchOS 应用中运行。部分模型可能需要 Xcode 和 Swift/Objective-C 开发环境。文中提到的 Netron 为独立的模型可视化工具。

python未说明

快速开始

自 iOS 11 以来，苹果发布了 Core ML 框架，以帮助开发者将机器学习模型集成到应用程序中。官方文档

我们整理了目前最大的 Core ML 格式机器学习模型集合，旨在帮助 iOS、macOS、tvOS 和 watchOS 开发者尝试各种机器学习技术。

如果您已经将模型转换为 Core ML 格式，欢迎提交 pull request。

最近，我们还添加了可视化工具。这里有一个 Netron。

模型

图像 - 元数据/文本

以图像数据为输入，输出关于图像的有用信息的模型。
TextDetection - 使用 Vision 内置模型实时检测文本。下载 | 演示 | 参考
PhotoAssessment - 使用 Core ML 和 Metal 进行照片评估。下载 | 演示 | 参考
PoseEstimation - 从图片中估计人体姿态，适用于移动端。下载 | 演示 | 参考
MobileNet - 检测图像中占主导地位的对象。下载 | 演示 | 参考
Places CNN - 从 205 个类别中检测图像场景，如卧室、森林、海岸等。下载 | 演示 | 参考
Inception v3 - 检测图像中占主导地位的对象。下载 | 演示 | 参考
ResNet50 - 检测图像中占主导地位的对象。下载 | 演示 | 参考
VGG16 - 检测图像中占主导地位的对象。下载 | 演示 | 参考
Car Recognition - 预测汽车的品牌和型号。下载 | 演示 | 参考
YOLO - 识别给定图像中的物体及其在图像中的位置。下载 | 演示 | 参考
AgeNet - 根据肖像预测年龄。下载 | 演示 | 参考
GenderNet - 根据肖像预测性别。下载 | 演示 | 参考
MNIST - 根据图像预测手写（绘制）数字。下载 | 演示 | 参考
EmotionNet - 根据肖像预测情绪。下载 | 演示 | 参考
SentimentVision - 根据图像预测正面或负面情感。下载 | 演示 | 参考
Food101 - 根据图像预测食物类型。下载 | 演示 | 参考
Oxford102 - 根据图像检测花卉类型。下载 | 演示 | 参考
FlickrStyle - 检测图像的艺术风格。下载 | 演示 | 参考
RN1015k500 - 预测照片的拍摄地点。下载 | 演示 | 参考
Nudity - 将图像分类为 NSFW（裸露）或 SFW（非裸露）下载 | 演示 | 参考
TextRecognition (ML Kit) - 使用 ML Kit 内置模型实时识别文本。下载 | 演示 | 参考
ImageSegmentation - 将摄像头画面或图像的像素分割成预定义的类别。下载 | 演示 | 参考
DepthPrediction - 从单张图像预测深度。下载 | 演示 | 参考

图像 - 图像

用于处理图像的模型

HED - 从彩色图像中检测嵌套边缘。下载 | 演示 | 参考文献
AnimeScale2x - 处理双三次缩放的动漫风格艺术作品。下载 | 演示 | 参考文献

文本 - 元数据/文本

用于处理文本数据的模型

情感极性 - 预测句子中的正面或负面情感。下载 | 演示 | 参考文献
文档分类 - 将新闻文章分类为5个类别之一。下载 | 演示 | 参考文献
iMessage垃圾信息检测 - 检测消息是否为垃圾信息。下载 | 演示 | 参考文献
NamesDT - 使用决策树分类器进行性别分类。下载 | 演示 | 参考文献
人格检测 - 根据用户文档（句子）预测人格特征。下载 | 演示 | 参考文献
BERT问答系统 - BERT问答系统的Swift Core ML 3实现。下载 | 演示 | 参考文献
GPT-2 - OpenAI GPT-2文本生成（Core ML 3）。下载 | 演示 | 参考文献

其他

Exermote - 当iPhone佩戴在右上臂时，预测正在进行的运动。下载 | 演示 | 参考文献
GestureAI - 根据给定的位置和音乐类型推荐艺术家。下载 | 演示 | 参考文献
艺术家推荐 - 根据给定的位置和音乐类型推荐艺术家。下载 | 演示 | 参考文献
和弦建议器 - 根据输入的和弦进行预测最可能的下一个和弦。下载 | 演示 | 参考文献

语音处理

流式ASR – 适用于iOS的实时流式语音识别引擎。采用Fast Conformer + CTC架构，完全在设备端运行。
下载 | 演示 | 参考文献
关键词检测（KWS） – 基于轻量级CRNN架构的设备端关键词检测引擎，专为移动设备优化。
下载 | 演示 | 参考文献

可视化工具

帮助可视化CoreML模型的工具

Netron

支持的格式

可转换为Core ML的模型格式列表及示例

黄金

可转换为 Core ML 的机器学习模型集合*
Caffe Model Zoo - 包含大量 Caffe 格式模型的列表。
TensorFlow Models - TensorFlow 模型集合。
TensorFlow Slim Models - 另一个 TensorFlow 模型集合。
MXNet Model Zoo - MXNet 模型集合。

可转换为 Core ML 的单个机器学习模型。我们会根据模型的转换进度不断更新此列表。

LaMem 用于评估图片的记忆度。
ILGnet 用于图像美学评价。
Colorization 使用深度神经网络实现自动上色。
Illustration2Vec 从给定插图中估计一组标签并提取语义特征向量。
CTPN 用于自然场景图像中的文本检测。
Image Analogy 在两张输入图像之间找到语义上有意义的密集对应关系。
iLID 用于自动语音语言识别。
Fashion Detection 从图像中检测服装。
Saliency 传统上，图像显著区域的预测是通过手工设计的特征来实现的。
Face Detection 用于从图像中检测人脸。
mtcnn 用于联合人脸检测与对齐。
deephorizon 用于从单张图像中估计地平线位置。

贡献与许可

参阅贡献指南
本项目采用 MIT 许可证开源。更多信息请参阅 LICENSE 文件。

Awesome-CoreML-Models 快速上手指南

Awesome-CoreML-Models 是一个精选的 Core ML 格式机器学习模型集合，旨在帮助 iOS、macOS、tvOS 和 watchOS 开发者轻松将机器学习能力集成到应用中。本指南将帮助你快速获取并使用这些预训练模型。

环境准备

在使用这些模型之前，请确保你的开发环境满足以下要求：

操作系统：macOS（用于开发和模型转换/测试）。
开发工具：Xcode 10 或更高版本（建议最新版以支持最新的 Core ML 特性）。
目标平台：
- iOS 11+
- macOS 10.13+
- tvOS 11+
- watchOS 4+
编程语言：Swift 或 Objective-C。
可选工具：
- Netron：用于可视化查看 .mlmodel 文件的结构和输入输出层。
- Python & coremltools：如果你需要自行转换模型，需安装 Apple 的 coremltools 库。

安装步骤

由于这是一个模型资源列表而非单一的代码库，"安装"主要指获取模型文件并将其集成到你的 Xcode 项目中。

1. 获取模型文件

浏览 Awesome-CoreML-Models GitHub 仓库，根据需求选择模型类别（如图像分类、文本分析等），点击对应模型的 Download 链接下载 .mlmodel 或 .mlpackage 文件。

提示：部分模型托管在 Google Drive 或 AWS S3，国内开发者可能需要使用网络加速工具才能顺利下载。

2. 集成到 Xcode 项目

打开你的 Xcode 项目。
将下载好的 .mlmodel 文件直接拖入 Xcode 的项目导航栏（Project Navigator）中。
在弹出的对话框中，确保勾选你的应用 Target，并点击 Finish。
Xcode 会自动编译该模型，并在项目导航栏中生成一个对应的 Swift 类（例如 Resnet50.swift），该类包含了模型的输入输出接口定义。

基本使用

以下以使用 MobileNet（图像物体识别）为例，展示如何在 Swift 代码中加载模型并进行预测。

1. 导入模型类

Xcode 自动生成模型类后，你无需额外 import 特殊库，只需确保在文件中导入 CoreML 框架（通常默认已包含）：

import CoreML
import Vision // 如果使用 Vision 框架辅助处理图像

2. 加载模型并执行预测

假设你已经将 MobileNet.mlmodel 加入项目，Xcode 生成了 MobileNet 类。

import UIKit
import CoreML

class ViewController: UIViewController {

    override func viewDidLoad() {
        super.viewDidLoad()
        runPrediction()
    }

    func runPrediction() {
        // 1. 初始化模型
        guard let model = try? MobileNet(configuration: MLModelConfiguration()) else {
            print("无法加载模型")
            return
        }

        // 2. 准备输入数据
        // 注意：不同模型对输入图像的大小和格式要求不同，请参考模型文档或 Netron 查看输入层要求
        // 这里假设我们有一个 UIImage 需要转换
        guard let image = UIImage(named: "test_image.jpg"),
              let pixelBuffer = image.pixelBuffer(width: 224, height: 224) else {
            print("图像处理失败")
            return
        }

        // 3. 创建模型输入对象
        let input = MobileNetInput(image: pixelBuffer)

        // 4. 执行预测
        do {
            let output = try model.prediction(input: input)
            
            // 5. 处理结果
            // MobileNet 输出通常包含概率最高的类别标签和置信度
            if let topLabel = output.classLabelProbs.keys.max(by: { output.classLabelProbs[$0]! < output.classLabelProbs[$1]! }) {
                let confidence = output.classLabelProbs[topLabel]!
                print("识别结果: \(topLabel), 置信度: \(confidence)")
            }
        } catch {
            print("预测出错: \(error.localizedDescription)")
        }
    }
}

// 辅助扩展：将 UIImage 转换为 CVPixelBuffer
extension UIImage {
    func pixelBuffer(width: Int, height: Int) -> CVPixelBuffer? {
        let attrs = [kCVPixelBufferCGImageCompatibilityKey: kCFBooleanTrue,
                     kCVPixelBufferCGBitmapContextCompatibilityKey: kCFBooleanTrue] as CFDictionary
        var pixelBuffer: CVPixelBuffer?
        let status = CVPixelBufferCreate(kCFAllocatorDefault, width, height,
                                         kCVPixelFormatType_32ARGB, attrs, &pixelBuffer)
        guard status == kCVReturnSuccess, let buffer = pixelBuffer else { return nil }
        
        CVPixelBufferLockBaseAddress(buffer, [])
        let pixelData = CVPixelBufferGetBaseAddress(buffer)
        
        let rgbColorSpace = CGColorSpaceCreateDeviceRGB()
        guard let context = CGContext(data: pixelData, width: width, height: height,
                                      bitsPerComponent: 8, bytesPerRow: CVPixelBufferGetBytesPerRow(buffer),
                                      space: rgbColorSpace, bitmapInfo: CGImageAlphaInfo.noneSkipFirst.rawValue) else { return nil }
        
        context.translateBy(x: 0, y: CGFloat(height))
        context.scaleBy(x: 1.0, y: -1.0)
        
        UIGraphicsPushContext(context)
        self.draw(in: CGRect(x: 0, y: 0, width: width, height: height))
        UIGraphicsPopContext()
        CVPixelBufferUnlockBaseAddress(buffer, [])
        
        return buffer
    }
}

3. 使用 Vision 框架（推荐）

对于图像类模型，Apple 推荐结合 Vision 框架使用，它可以自动处理图像预处理、旋转和缩放。

import Vision

func performVisionRequest(on image: UIImage) {
    guard let model = try? VNCoreMLModel(for: MobileNet().model) else { return }
    
    let request = VNCoreMLRequest(model: model) { (request, error) in
        if let results = request.results as? [VNClassificationObservation],
           let topResult = results.first {
            print("Vision 识别结果: \(topResult.identifier), 置信度: \(topResult.confidence)")
        }
    }
    
    guard let ciImage = CIImage(image: image) else { return }
    let handler = VNImageRequestHandler(ciImage: ciImage, options: [:])
    
    DispatchQueue.global(qos: .userInitiated).async {
        try? handler.perform([request])
    }
}

通过以上步骤，你可以快速将 Awesome-CoreML-Models 中的任何模型集成到你的应用中。对于文本或其他非图像模型，请直接使用生成的 Swift 类进行数据输入和结果读取，无需经过 Vision 框架。

常见问题

如何将 TensorFlow 模型转换为 CoreML 模型？

为什么 coreml.store 网站无法访问或链接失效？

如何优化 CoreML 模型的输入类型以提升性能？

是否有用于交通标志检测的 CoreML 模型？

如何将风格迁移（Style Transfer）模型转换为 CoreML？

如何使用 CoreML 进行文档分类？

是否有用于移动端的人体姿态估计（Pose Estimation）CoreML 模型？

是否有用于检测图像内容安全性（NSFW）的 CoreML 模型？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架