uTensor
uTensor 是一款专为资源受限设备打造的轻量级机器学习推理框架。它基于 TensorFlow 构建并针对 Arm 架构优化,核心运行时库体积仅约 2KB,完美契合嵌入式场景。面对传统 AI 模型难以在单片机或低功耗设备上运行的痛点,uTensor 提供了一套高效的解决方案。
工作流程十分友好:开发者在 PC 端完成 TensorFlow 模型训练后,利用 uTensor 的离线工具即可生成可直接嵌入的 C++ 代码,实现“复制粘贴”式的部署。其技术亮点在于系统安全性与可调试性——uTensor 能在编译阶段精确锁定内存占用,杜绝运行时堆冲突,同时提供高层级接口屏蔽底层指针操作的复杂性,既保证了速度又降低了出错风险。
它特别适合物联网工程师、嵌入式开发人员以及对 TinyML 感兴趣的研究者,帮助他们在有限的硬件资源上轻松运行智能算法。
使用场景
某物联网团队正在为工业电机开发基于微控制器的异常振动监测终端,需要在资源受限的 ARM Cortex-M 芯片上运行深度学习模型,以实现预测性维护功能。
没有 uTensor 时
- 通用推理库体积庞大,导致 MCU 剩余内存不足,无法同时处理高频传感器数据。
- 手动管理内存极易引发堆栈溢出,设备运行时偶尔会死机且难以复现故障原因。
- 每次更新模型都需要重新编写底层 C 代码,部署周期长且容易引入人为错误。
- 缺乏可视化的图结构支持,排查推理逻辑错误如同大海捞针,调试效率极低。
使用 uTensor 后
- 核心运行时仅约 2KB,极大释放了内存空间,确保多任务稳定并行运行。
- 编译期即可锁定最大 RAM 占用,杜绝了运行时内存冲突的安全隐患,保障系统可靠性。
- 直接复制生成的 C++ 文件即可集成模型,大幅简化了从训练到部署的流程,提升迭代速度。
- 清晰的张量接口和调试支持,让开发者能直观理解模型图并快速定位逻辑问题。
uTensor 以极小的资源开销实现了嵌入式 AI 的安全高效部署,让边缘智能触手可及。
运行环境要求
- 未说明
未说明
未说明

快速开始
uTensor - 测试版本发布
教程
构建教程示例
确保您的系统上已安装 cmake(构建工具)并运行以下命令:
$ mkdir build
$ cd build
$ cmake -DPACKAGE_TUTORIALS=ON ..
$ make
构建过程完成后,您应该在 build/tutorials/ 目录下找到教程可执行文件。
遵循每个教程目录中 README.md 的说明来学习如何使用 uTensor。
以下是教程链接:
简介
它是什么?
uTensor 是一个极轻量级的机器学习推理框架,基于 Tensorflow(深度学习框架)构建并针对 Arm(处理器架构)目标进行了优化。它由一个运行时库(Runtime library)和一个离线工具组成,后者处理大部分模型转换工作。此仓库包含核心运行时以及一些算子(Operators)、内存管理器/调度器(Memory managers/schedulers)的示例实现,且核心运行时的大小仅为 ~2KB!
| Module | .text | .data | .bss |
|---|---|---|---|
| uTensor/src/uTensor/core | 1275(+1275) | 4(+4) | 28(+28) |
| uTensor/src/uTensor/tensors | 791(+791) | 0(+0) | 0(+0) |
uTensor 工作流程是如何运作的?

模型在 Tensorflow 中构建和训练。uTensor 接收该模型并生成 .cpp 和 .hpp 文件。这些文件包含推理所需的生成的 C++11 代码。在嵌入式侧使用 uTensor 就像复制粘贴一样简单。
uTensor 运行时是如何工作的?
发布说明
此次重构从根本上围绕几个关键理念展开,代码库结构和构建工具也随之自然演变。 旧的关键点:
- 张量 (Tensor) 描述数据如何访问以及来自何处
- 算子 (Ops) 的性能取决于使用了哪些张量
- 算子 (Operators) 是独立于张量的
- 高性能算子可以一次性获取数据块
- 追求执行过程中的低总功耗
- 低静态和动态占用空间,保持小巧
- 整个系统中每个张量的成本低,因为大多数生成的模型包含 100+ 个(包括中间变量),这也影响动态占用空间
- 轻量级类层次结构
- 显而易见
新的附加关键理念:
- 系统安全性
- 所有张量元数据和实际数据都拥有在专用区域中
- 这可以由用户提供,也可以是我们创建的
- 我们可以保证在代码生成时或编译时,运行时使用的 RAM 不超过 N 字节!
- 通常不应与用户空间或系统空间内存冲突,即不要共享堆
- 一般含义:安全的运行时意味着我们可以安全地远程更新模型
- 尽可能多的编译时错误!
- 输入、输出或数量不匹配
- 使用了错误的尺寸
- 不可能的内存访问
- 等等
- 所有张量元数据和实际数据都拥有在专用区域中
- 清晰、简洁且可调试
- uTensor 的前一版本几乎过于依赖代码生成 (Codegen),出于任何原因修改模型都几乎不可能
- 开发人员应该能够在不依赖代码生成的情况下修改模型
- 开发人员应该能够查看模型文件并立即理解图的结构,而无需大量跳转
- 默认张量接口应表现得像高级语言,同时利用 C++ 的速度
- 一般来说:别再搞指针垃圾了!C 语言极易出错,不服来战
- 只有专用算子可以访问原始数据块,这些算子将非常快
- 一般来说:别再搞指针垃圾了!C 语言极易出错,不服来战
- 可扩展、可配置且可优化掉的错误处理
- GDB(调试器)调试现在变得极其简单
如前所述,这些关键理念不仅需要在代码中体现,还需要体现在代码结构中,使其具有可维护性、可修改性和用户可扩展性。uTensor 运行时中的几乎所有内容都可以分为两个组件:核心和其他部分。核心库包含运行时实现上述保证所需的所有底层深度功能,以及具体实现所需的接口。此外,相对于系统操作,此核心引擎的开销应该可以忽略不计。核心库之外的所有内容实际上都应被视为合理的默认值。例如,张量实现、默认算子、示例内存分配器,甚至可能的日志系统和错误处理器。这些模块应该是未来优化的主要领域,特别是在模型部署之前。
高级 API
using namespace uTensor;
const uint8_t s_a[4] = {1, 2, 3, 4};
const uint8_t s_b[4] = {5, 6, 7, 8};
const uint8_t s_c_ref[4] = {19, 22, 43, 50};
// These can also be embedded in models
// Recommend, not putting these on the heap or stack directly as they can be large
localCircularArenaAllocator<256> meta_allocator; // All tensor metadata gets stored here automatically, even when new is called
localCircularArenaAllocator<256> ram_allocator; // All temporary storage gets allocated here
void foo() {
// Tell the uTensor context which allocators to use
Context::get_default_context()->set_metadata_allocator(&meta_allocator);
Context::get_default_context()->set_ram_data_allocator(&ram_allocator);
// Tensors are simply handles for accessing data as necessary, they are no larger than a pointer
// RomTensor(TensorShape, data_type, data*);
Tensor a = new /*const*/ RomTensor({2, 2}, u8, s_a);
Tensor b = new /*const*/ RomTensor({2, 2}, u8, s_b);
Tensor c_ref = new RomTensor({2,2}, u8, s_c_ref);
// RamTensors are held internally and can be moved or cleared depending on the memory schedule (optional)
Tensor c = new RamTensor({2, 2}, u8);
// Operators take in a fixed size map of (input_name -> parameter), this gives compile time errors on input mismatching
// Also, the name binding + lack of parameter ordering makes ctag jumping and GDB sessions significantly more intuitive
MatrixMultOperator<uint8_t> mult_AB;
mult_AB
.set_inputs({{MatrixMultOperator<uint8_t>::a, a}, {MatrixMultOperator<uint8_t>::b, b}})
.set_outputs({{MatrixMultOperator<uint8_t>::c, c}})
.eval();
// Compare results
TensorShape& c_shape = c->get_shape();
for (int i = 0; i < c_shape[0]; i++) {
for (int j = 0; j < c_shape[1]; j++) {
// Just need to cast the access to the expected type
if( static_cast<uint8_t>(c(i, j)) != static_cast<uint8_t>(c_ref(i, j)) ) {
printf("Oh crap!\n");
exit(-1);
}
}
}
}
本地构建与测试
git clone git@github.com:uTensor/uTensor.git
cd uTensor/
git checkout proposal/rearch
git submodule init
git submodule update
mkdir build
cd build/
cmake -DPACKAGE_TESTS=ON -DCMAKE_BUILD_TYPE=Debug ..
make
make test
在 Arm Mbed OS 上构建和运行
uTensor 核心库开箱即用地配置为 Mbed (嵌入式开发平台) 库,因此我们只需将其导入项目并正常构建。
mbed new my_project
cd my_project
mbed import https://github.com/uTensor/uTensor.git
# Create main file
# Run uTensor-cli workflow and copy model directory here
mbed compile # as normal
在 Arm 系统上构建和运行
TODO 注意:CMake (跨平台构建工具) 对 ARM (处理器架构) 的支持目前处于实验阶段 https://stackoverflow.com/questions/46916611/cross-compiling-googletest-for-arm64
默认构建
mkdir build && cd build
cmake -DCMAKE_BUILD_TYPE=Debug -DCMAKE_TOOLCHAIN_FILE=../extern/CMSIS_5/CMSIS/DSP/gcc.cmake ..
使用 CMSIS (微控制器软件接口标准) 优化内核
mkdir build && cd build
cmake -DARM_PROJECT=1 -DCMAKE_BUILD_TYPE=Debug -DCMAKE_TOOLCHAIN_FILE=../extern/CMSIS_5/CMSIS/DSP/gcc.cmake ..
延伸阅读
版本历史
v0.0.12018/09/17v0.0.02018/07/02常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。