mace

5k 824 较难 1 次阅读 2天前Apache-2.0开发框架

AI 解读由 AI 自动生成，仅供参考

MACE（Mobile AI Compute Engine）是一款专为移动端异构计算平台打造的高性能深度学习推理框架，由小米开源。它致力于解决在 Android、iOS、Linux 及 Windows 等移动设备上运行 AI 模型时面临的性能瓶颈、功耗过高及内存占用大等核心难题。

无论是移动端应用开发者还是算法研究人员，若需在资源受限的手机或嵌入式设备上高效部署模型，MACE 都是理想选择。其独特技术亮点在于深度优化了底层算力：利用 NEON、OpenCL 和 Hexagon 加速运行时，并引入 Winograd 算法显著提升卷积运算速度。同时，MACE 特别关注用户体验，通过自动拆分计算任务确保界面渲染的流畅响应，并提供芯片级的功耗调控选项。

在安全性方面，MACE 支持将模型转换为 C++ 代码并进行混淆，有效保护知识产权。它兼容 TensorFlow、Caffe 和 ONNX 等多种主流模型格式，且广泛适配高通、联发科等 ARM 架构芯片。凭借轻量级的依赖设计和图级内存优化，MACE 能帮助开发者轻松实现低延迟、低功耗的移动端 AI 落地。

使用场景

某初创团队正在开发一款面向安卓用户的实时 AR 试妆应用，需要在低端机型上流畅运行高精度人脸关键点检测模型。

没有 mace 时

推理延迟高：直接使用通用框架在 CPU 上运行卷积网络，帧率不足 15fps，用户移动面部时妆容跟随严重滞后。
发热耗电快：缺乏针对异构计算的优化，GPU 调度不当导致手机迅速发烫，电池电量在半小时内下降 30%。
界面卡顿：繁重的计算任务独占主线程资源，无法被系统抢占，导致 UI 渲染掉帧，滑动菜单时出现明显冻结。
模型易泄露：标准的模型文件格式容易被反编译提取，核心算法面临被竞争对手直接复制的风险。
包体积过大：引入完整的深度学习运行时库导致安装包激增，严重影响用户在弱网环境下的下载转化率。

使用 mace 后

推理速度倍增：利用 MACE 内置的 Winograd 算法和 NEON/OpenCL 加速，卷积运算效率大幅提升，帧率稳定在 30fps 以上。
功耗显著降低：通过 big.LITTLE 大小核调度及 Adreno GPU 提示接口，精准控制算力分配，设备温升减少 40%。
交互丝滑流畅：MACE 自动将 OpenCL 内核拆分为微小单元执行，允许 UI 渲染任务随时抢占资源，彻底消除界面卡顿。
资产安全加固：借助模型转 C++ 代码及字面量混淆技术，将二进制模型隐藏于原生代码中，有效防止算法被盗用。
轻量级部署：得益于图级内存优化和极小的外部依赖，库文件 footprint 大幅缩减，应用安装包体积减少约 2MB。

mace 通过深度适配移动端异构硬件，成功解决了高性能 AI 模型在资源受限设备上“跑不动、耗不起、保不住”的核心难题。

运行环境要求

操作系统

Android
iOS
Linux
Windows

GPU

非必需
支持通过 OpenCL 调用移动设备 GPU（如 Adreno），或 Hexagon DSP
未提及桌面级 NVIDIA GPU 或 CUDA 需求

内存

未说明

依赖

notesMACE 是专为移动端异构计算设计的推理框架，主要优化了 ARM 架构芯片（如高通、联发科、松果）。支持将模型转换为 C++ 代码以进行保护。具体编译环境依赖（如 Bazel、NDK 等）需参考官方安装文档，README 中未详细列出版本号。

python未说明

TensorFlow

Caffe

ONNX

Qualcomm Hexagon NN Offload Framework

ARM ComputeLibrary (参考)

快速开始

文档 | 常见问题 | 发布说明 | 路线图 | MACE 模型库 | 示例 | 加入我们 | 中文

移动人工智能计算引擎（简称 MACE）是一个针对 Android、iOS、Linux 和 Windows 设备上的移动异构计算优化的深度学习推理框架。其设计主要聚焦于以下目标：

性能
- 运行时通过 NEON、OpenCL 和 Hexagon 等技术进行优化，并引入了 Winograd 算法来加速卷积运算。同时，初始化过程也进行了优化，以提升速度。
能耗
- 提供了与芯片相关的电源管理选项，例如 big.LITTLE 调度和 Adreno GPU 提示等高级 API。
响应性
- 在运行模型时，确保 UI 的响应性有时是至关重要的。为此，引入了将 OpenCL 内核自动拆分为小单元的机制，以便更好地让出资源给 UI 渲染任务。
内存使用与库体积
- 支持图级别的内存分配优化和缓冲区复用。核心库尽量减少对外部依赖，以保持较小的库体积。
模型保护
- 模型保护自设计之初就一直是最高优先级。为此引入了多种技术，如将模型转换为 C++ 代码以及字面混淆等。
平台覆盖
- 对高通、联发科、平头哥等基于 ARM 架构的最新芯片有良好的支持。CPU 运行时支持 Android、iOS 和 Linux。
丰富的模型格式支持
- 支持 TensorFlow、Caffe 和 ONNX 等多种模型格式。

快速入门

性能

MACE 模型库包含了几种常见的神经网络和模型，这些模型会每天针对一系列手机设备进行构建。基准测试结果可以在 CI 结果页面上找到（选择最新的成功流水线，点击 release 步骤即可查看基准测试结果）。若想与其他框架进行对比，可以参考 MobileAIBench 项目。

沟通交流

GitHub Issues：用于提交 bug 报告、使用问题及功能请求。
Slack：mace-users.slack.com
QQ 群：756046893

贡献

我们欢迎任何形式的贡献。对于 bug 报告和功能请求，请随时创建 issue；而对于代码贡献，强烈建议先创建 issue 进行讨论。更多详情请参阅贡献指南。

许可证

Apache License 2.0。

致谢

MACE 依赖于位于 third_party 目录下的多个开源项目。在开发过程中，我们尤其从以下项目中受益匪浅：

Qualcomm Hexagon NN Offload Framework：Hexagon DSP 运行时依赖于此库。
TensorFlow、Caffe、SNPE、ARM ComputeLibrary、ncnn、ONNX 等众多项目：我们从这些项目中学习到了许多最佳实践。

最后，我们还要感谢 Qualcomm、平头哥和联发科的工程师团队提供的帮助。

MACE 快速上手指南

MACE (Mobile AI Compute Engine) 是小米开源的移动端深度学习推理框架，专为 Android、iOS、Linux 和 Windows 设备的异构计算优化。支持 TensorFlow、Caffe 和 ONNX 模型格式。

环境准备

系统要求

操作系统: Linux (推荐 Ubuntu 16.04/18.04), macOS, 或 Windows (需 WSL)
Python: 3.5+
Bazel: 0.19.2 - 1.2.1 (版本兼容性较强，建议使用 0.26.1)
Android NDK: r18b 或更高版本 (如需部署到 Android)
CMake: 3.10+

前置依赖

确保安装以下基础工具：

sudo apt-get update
sudo apt-get install -y python3-pip python3-dev git wget curl autoconf libtool pkg-config zip unzip opencl-headers ocl-icd-libopencl1
pip3 install -U pip setuptools wheel
pip3 install numpy six

提示：国内开发者可使用清华源加速 Python 包安装：
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy six

安装步骤

1. 克隆代码库

git clone https://github.com/XiaoMi/mace.git
cd mace
git submodule update --init --recursive

加速建议：如果 GitHub 连接缓慢，可使用 Gitee 镜像（如有）或配置 Git 代理。

2. 配置环境变量

编辑 ~/.bashrc 或 ~/.zshrc，添加以下内容（路径请根据实际情况调整）：

export ANDROID_NDK_HOME=/path/to/android-ndk-r18b
export PATH=$PATH:/path/to/bazel/bin

使配置生效：

source ~/.bashrc

3. 构建 MACE 核心库

在项目根目录下运行构建脚本（以 Android ARM64 为例）：

bazel build //mace/lib:mace --config=android_arm64

若需构建用于本地测试的 Linux 版本：

bazel build //mace/lib:mace --config=linux

基本使用

1. 转换模型

将 TensorFlow 冻结模型 (.pb) 转换为 MACE 格式：

python3 -m mace.bin.mace_run --model_name=mobilenet_v2 \
  --platform=tensorflow \
  --model_path=models/mobilenet_v2.pb \
  --input_node="input" \
  --output_node="MobilenetV2/Predictions/Reshape_1" \
  --input_shape="1,224,224,3" \
  --output_dir=models/mace_mobilenet_v2

2. 在 C++ 中调用

创建一个简单的推理程序 test_mace.cc：

#include "mace/core/runtime.h"
#include "mace/public/model.h"

int main() {
  // 初始化 MACE 运行时
  mace::MaceStatus status = mace::MaceEngine::Init();
  
  // 加载模型 (路径需替换为实际生成的 .data 和 .cc 文件路径)
  std::unique_ptr<mace::MaceEngine> engine;
  status = mace::CreateMaceEngine("mobilenet_v2", 
                                  "models/mace_mobilenet_v2", 
                                  {"input"}, 
                                  {"output"}, 
                                  &engine);
  
  if (status != mace::MaceStatus::MACE_SUCCESS) {
    return -1;
  }

  // 准备输入数据
  std::map<std::string, mace::MaceTensor> inputs;
  std::map<std::string, mace::MaceTensor> outputs;
  std::vector<float> input_data(1 * 224 * 224 * 3);
  // ... 填充 input_data ...
  
  inputs["input"] = mace::MaceTensor({1, 224, 224, 3}, input_data.data());
  outputs["output"] = mace::MaceTensor({1, 1001}, nullptr);

  // 执行推理
  status = engine->Run(inputs, &outputs);
  
  return 0;
}

3. 编译并运行

g++ -std=c++11 test_mace.cc -I./include -L./lib -lmace -o test_mace
LD_LIBRARY_PATH=./lib ./test_mace

更多高级用法（如 OpenCL/GPU 加速、模型加密、多线程优化）请参考官方文档。

版本历史

v1.1.12022/01/13

v1.0.42021/03/18

v1.0.32021/03/03

v1.0.22021/01/12

v1.0.12020/12/23

v1.0.02020/11/04

v0.13.02020/04/03

v0.12.02019/11/17

v0.11.0-rc12019/05/30

v0.11.0-rc02019/05/15

v0.10.02019/01/04

v0.9.02018/08/02

常见问题

在 ARM Linux 设备（如 RK3399）上使用 GPU 加速时，性能是否一定优于 CPU？

转换 TensorFlow 模型时遇到 'Beta input to batch norm has bad shape' 错误如何解决？

如何在 Android 项目中同时编译和加载多个模型？

在 RK3399 上运行模型时显示 'Fall back to CPU' 且 GPU 性能极差（如 200ms+）怎么办？

Winograd 加速策略如何配置？适用于哪些场景？

交叉编译 MACE 到 ARM Linux 平台需要提供哪些信息？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|今天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent