OM1

2.7k 965 中等 1 次阅读今天MIT其他开发框架Agent语言模型

AI 解读由 AI 自动生成，仅供参考

OM1 是 OpenMind 推出的一款模块化 AI 运行时，旨在帮助开发者轻松构建并部署能同时理解数字环境与物理世界的多模态智能体。无论是人形机器人、四足机器狗、教育机器人，还是手机应用和仿真模拟器，OM1 都能让它们具备处理网页数据、摄像头画面、激光雷达等信息的能力，并执行移动导航、语音对话等实际动作。

它主要解决了机器人开发中软硬件适配复杂、系统难以复用升级的痛点。通过基于 Python 的模块化架构，OM1 让开发者可以像搭积木一样灵活组合功能，快速接入新型传感器或硬件设备。其独特的插件机制原生支持 ROS2、Zenoh 等通信协议，并预置了多家主流大模型及视觉语言模型的接口，大幅降低了集成门槛。此外，OM1 还内置了基于网页的调试界面 WebSim，让用户能直观地监控智能体的运行状态与决策过程。

这款工具特别适合机器人工程师、AI 研究者以及希望将大模型能力落地到实体设备的软件开发人员。如果你正在寻找一个既能连接云端智慧又能驱动真实机械身体的开发框架，OM1 提供了一个高效且易于扩展的解决方案。

使用场景

某教育科技团队正致力于为大学实验室开发一款能自主导航、识别实验器材并与学生自然对话的四足机器人助教。

没有 OM1 时

硬件适配繁琐：每更换一种机器人底盘（如从 TurtleBot 换到 Spot），都需要重写底层的 ROS2 通信代码和传感器驱动，耗时数周。
多模态整合困难：难以将摄像头视觉数据、激光雷达点云与语音输入统一处理，往往需要搭建复杂的中间件来串联不同的 AI 模型。
调试效率低下：缺乏直观的实时监控工具，开发者只能通过查看枯燥的终端日志来推测机器人的感知状态和决策逻辑，排查问题极慢。
模型切换成本高：想要测试不同大语言模型（如从 Ollama 本地模型切换到云端 Gemini）的效果，需要手动修改大量配置文件和 API 对接代码。

使用 OM1 后

插件化硬件支持：利用 OM1 的插件架构，通过配置 Zenoh 或 ROS2 接口即可无缝连接不同形态的机器人，新硬件接入时间从数周缩短至数小时。
原生多模态运行时：OM1 内置了对相机、LIDAR 及语音流的统一处理能力，开发者只需定义智能体行为，无需关心底层数据融合的细节。
WebSim 可视化调试：通过浏览器访问 WebSim 界面，团队成员可实时看到机器人“眼中”的物体标签、生成的运动指令及对话内容，故障定位一目了然。
预配置模型端点：直接在配置文件中切换 OpenAI、xAI 或本地 Ollama 等预置端点，即可瞬间完成不同大模型对机器人决策能力的对比测试。

OM1 通过模块化架构和可视化调试能力，让开发者从繁琐的底层集成中解放出来，专注于打造真正具备多模态交互能力的智能机器人应用。

运行环境要求

操作系统

Linux
macOS

GPU

仅在运行 Isaac Sim 模拟器时必需 NVIDIA GPU 且需支持 CUDA
开发平台推荐 Nvidia Thor 或 Jetson AGX Orin，Mac 平台使用 Apple Silicon (M2 Ultra/M4 Pro)

内存

推荐 48GB (基于 Mac Studio/Mini 配置)，最低未明确说明但建议 16GB+。

依赖

notes1. 必须安装 'uv' 包管理器来管理依赖和虚拟环境。 2. macOS 需通过 brew 安装 portaudio 和 ffmpeg；Linux (Ubuntu 22.04) 需安装 portaudio19-dev, python3-dev 和 ffmpeg。 3. 需要 OpenMind API Key 才能运行。 4. 支持通过插件连接 ROS2, Zenoh (推荐), CycloneDDS 等中间件。 5. 若使用 Isaac Sim 模拟器，必须配备支持 CUDA 的 NVIDIA GPU。

python未说明 (通过 uv 管理虚拟环境)

portaudio

ffmpeg

ROS2

Zenoh

CycloneDDS

快速开始

om1_banner_w

技术论文 | 文档 | X

OpenMind 的 OM1 是一款模块化的 AI 运行时，赋能开发者在数字环境和实体机器人中创建并部署多模态 AI 代理，涵盖人形机器人、手机应用、四足机器人、TurtleBot 4 等教育机器人，以及 Gazebo 和 Isaac Sim 等仿真平台。OM1 代理能够处理来自网络数据、社交媒体、摄像头馈流和激光雷达等多种输入，并执行运动控制、自主导航和自然对话等物理动作。OM1 的目标是让开发高度智能、以人类为中心的机器人变得简单易行，同时便于升级和（重新）配置，以适应不同的硬件形态。

OM1 的核心能力

模块化架构：采用 Python 构建，简单易用且无缝集成。
数据输入：轻松接入新数据与各类传感器。
插件式硬件支持：通过插件支持新硬件，实现 API 端点及特定机器人硬件与 ROS2、Zenoh 和 CycloneDDS 的连接。（我们推荐所有新开发均使用 Zenoh）。
基于 Web 的调试界面：借助 WebSim（访问地址：http://localhost:8000/）实时监控系统运行状态，方便进行可视化调试。
预配置端点：支持文本转语音、来自 OpenAI、xAI、DeepSeek、Anthropic、Meta、Gemini、NearAI、Ollama（本地模型）等多个大语言模型，以及多种视觉语言模型（VLM），并为每项服务提供预配置端点。

架构概览

Artboard 1@4x 1 (1)

快速上手

让我们从运行 Spot 代理开始体验 OM1。Spot 将利用你的摄像头捕捉并标注物体，随后将这些文本描述发送至大语言模型，模型会返回移动、语音和面部表情等行动指令。这些指令将在 WebSim 上显示，并附带基本的时间信息及其他调试数据。

包管理与虚拟环境

你需要安装 uv 包管理器。

安装依赖

对于 macOS：

brew install portaudio ffmpeg

对于 Linux：

sudo apt-get update
sudo apt-get install portaudio19-dev python3-dev ffmpeg

克隆仓库

git clone https://github.com/OpenMind/OM1.git
cd OM1
git submodule update --init
uv venv

获取 OpenMind API 密钥

请在 OpenMind 门户获取你的 API 密钥：

如果尚未注册，请先在 OpenMind 门户创建账户。
进入仪表盘，生成新的 API 密钥。
复制生成的密钥。
编辑 config/spot.json5，将其中的 openmind_free 占位符替换为你自己的 API 密钥。或者，你也可以通过以下命令配置 .env 文件——cp .env.example .env，然后将密钥添加到 .env 中。

此外，你还可以将 API 密钥设置在 .bashrc 或 .zshrc 文件中：

vi ~/.bashrc # 对于 Linux
vi ~/.zshrc # 对于 macOS

在文件中加入以下内容：

export OM_API_KEY="<your_api_key>"

source ~/.bashrc # 对于 Linux
source ~/.zshrc # 对于 macOS

OMCU

OMCU 是 OpenMind 平台上的计费单位。免费套餐每月可获得 50 个 OMCU。

如需更多额度，请在此处升级套餐：OpenMind 门户。

启动 OM1

运行以下命令：

uv run src/run.py spot

启动后，Spot 代理将与你互动并执行（模拟的）动作。如需进一步帮助将 OM1 与你的机器人硬件连接，请参阅入门指南。

注意：这只是一个示例代理配置。若想与代理交互并观察其运行情况，请确保在 spot.json5 中已正确配置 ASR 和 TTS 功能。

接下来？

尝试一些示例。
添加新的 输入 和 动作。
通过自定义 json5 配置文件，组合不同的输入与动作，设计专属的代理和机器人。
修改配置文件中的系统提示词（位于 /config/ 目录下），以创造全新的行为模式。

与新型机器人硬件对接

OM1 假设机器人硬件提供一个高级 SDK，能够接收诸如“后空翻”、“奔跑”、“轻轻拿起红苹果”、“move(0.37, 0, 0)”和“微笑”等基础运动与动作指令。例如，在 src/actions/move/connector/ros2.py 中有如下代码：

...
elif output_interface.action == "shake paw":
    if self.sport_client:
        self.sport_client.Hello()
...

如果你的机器人硬件尚未提供合适的 HAL（硬件抽象层），则需要结合强化学习（RL）与适当的仿真环境（Unity、Gazebo）、传感器（如手持 ZED 深度相机）以及自定义 VLA 来构建 HAL。此外，还假设你的 HAL 能够接受运动轨迹、提供电池与热管理功能，并对 IMU、激光雷达和磁力计等传感器进行校准与调优。

OM1 可通过 USB、串口、ROS2、CycloneDDS、Zenoh 或 WebSocket 与你的 HAL 对接。有关先进人形机器人的 HAL 示例，请参阅 Unitree 的 C++ SDK：链接。通常，HAL 代码（尤其是 ROS2 代码）会被容器化，从而可通过 DDS 中间件或 WebSocket 与 OM1 通信。

BrainPack 简介

从科研到真实世界的自主性，一个与你共同学习、移动并构建的平台。

BrainPack 专为直接安装在机器人上而设计，集地图构建、目标识别、远程控制和自动充电于一体，为人形机器人和四足机器人提供导航、记忆与有目的行动所需的能力。

完全自主导航

我们很高兴地推出适用于 Unitree Go2 和 G1 机器人，并搭配 BrainPack 使用的完全自主导航功能。完全自主导航包含五项服务，它们以闭环方式协同工作，无需人工干预：

om1
OM1-ros2-sdk – 一个 ROS 2 包，利用 RPLiDAR(S2L) 传感器、SLAM 工具箱和 Nav2 导航栈，为 Unitree Go2 机器人提供同时定位与地图构建（SLAM）能力。
om1-avatar – 一款基于 React 的现代化前端应用，为 OM1 机器人软件提供用户界面和虚拟形象显示系统。
om1-video-processor – OM1 视频处理器是一个基于 Docker 的解决方案，可为 OM1 机器人实现实时视频流传输、人脸识别和音频采集功能。
om1-system-setup – 用于配置 Wi‑Fi，并监控和管理 Docker 容器。

模拟器支持

OM1 集成了流行的机器人模拟器，可在无需物理硬件的情况下实现快速原型设计和测试。目前我们支持使用 Gazebo 模拟 Unitree Go2 机器人，以及使用 Isaac Sim 模拟 Unitree Go2 和 G1 机器人。

Gazebo

全面支持 Gazebo，并集成 ROS2。非常适合测试自主 SLAM 地图生成与导航栈、传感器仿真以及多机器人场景。

请参阅 Gazebo，开始使用。

Isaac Sim

支持 NVIDIA Isaac Sim，提供具有物理精确度且基于 GPU 加速的仿真环境。

需要配备 NVIDIA GPU 并支持 CUDA。请参阅 Isaac Sim 设置，开始使用。

详细文档

更多详细文档可在 docs.openmind.com 查阅。

贡献

在提交拉取请求之前，请务必阅读贡献指南。

许可证

本项目采用 MIT 许可证授权，这是一种宽松的自由软件许可证，允许用户自由使用、修改和分发该软件。MIT 许可证广泛使用且久经考验，以其简洁性和灵活性而闻名。通过采用 MIT 许可证，本项目旨在鼓励对软件的协作、修改和分发。

OM1 快速上手指南

OM1 是 OpenMind 推出的模块化 AI 运行时，旨在帮助开发者轻松创建和部署多模态 AI 智能体。它支持从数字环境到物理机器人（如人形机器人、四足机器狗、TurtleBot 等）的广泛场景，能够处理摄像头、激光雷达等多种输入，并执行运动、导航和自然对话等动作。

环境准备

系统要求

OM1 主要在以下平台开发和测试：

Linux: Ubuntu 22.04 (推荐)
macOS: macOS Sequoia (适用于 Apple Silicon M2/M4 芯片)
嵌入式: Nvidia Jetson AGX Orin (JetPack 6.1/7.0), Nvidia Thor
注：理论上支持 Windows 及 Raspberry Pi 5，但需自行验证。

前置依赖

在开始之前，请确保系统已安装以下基础工具：

包管理器: 必须安装 uv。

系统库:

macOS:
```
brew install portaudio ffmpeg
```

Linux:

sudo apt-get update
sudo apt-get install portaudio19-dev python3-dev ffmpeg

安装步骤

1. 克隆代码库

获取源代码并初始化子模块，同时使用 uv 创建虚拟环境：

git clone https://github.com/OpenMind/OM1.git
cd OM1
git submodule update --init
uv venv

2. 配置 API Key

OM1 需要 OpenMind 平台的 API Key 才能运行。

访问 OpenMind Portal 注册账号并创建新的 API Key。
复制生成的 Key。
方式一（推荐）：修改配置文件。编辑 config/spot.json5，将 openmind_free 占位符替换为你的真实 API Key。

或者，复制环境变量文件并填入 Key：
```
cp .env.example .env
# 编辑 .env 文件，填入 OM_API_KEY=<your_api_key>
```
方式二：设置全局环境变量。
- Linux (~/.bashrc) 或 macOS (~/.zshrc)：
```
export OM_API_KEY="<your_api_key>"
```
- 使配置生效：
```
source ~/.bashrc  # Linux
source ~/.zshrc   # macOS
```

注意: 免费计划每月提供 50 OMCU 计算额度。如需更多算力，可在官网升级套餐。

基本使用

安装完成后，你可以运行内置的 Spot Agent 示例。该智能体会调用你的摄像头捕捉画面，识别物体并生成描述，随后通过大语言模型（LLM）决策，输出运动、语音和面部表情指令，并在 Web 界面中展示调试信息。

启动智能体

在项目根目录下运行以下命令：

uv run src/run.py spot

查看运行状态

启动后，打开浏览器访问本地调试界面：

地址: http://localhost:8000/ (WebSim)

在此界面中，你可以实时观察智能体的感知数据、推理过程以及生成的动作指令（如移动、说话等）。

提示: 若要体验完整的交互功能（语音识别与合成），请确保在 config/spot.json5 中已正确配置 ASR 和 TTS 服务。

更多高级用法（如自定义机器人配置、连接真实硬件 ROS2/Zenoh 接口、使用 Gazebo/Isaac Sim 仿真器）请参阅官方文档：docs.openmind.com

版本历史

v1.0.12026/03/15

v1.0.1-beta.32026/03/12

v1.0.1-beta.22026/02/13

v1.0.1-beta.12026/02/05

v1.0.02025/12/17

v1.0.0-beta.42025/10/24

v1.0.0-beta.32025/09/20

v1.0.0-beta.22025/09/06

v1.0.0-beta.12025/09/05

常见问题

OM1 支持哪些语言进行自动语音识别（ASR）测试？

OM1 的多语言 ASR 在不同语言下的表现如何？

如何为 OM1 添加新的 AI 提供商支持？

OM1 是否支持除 Coinbase 以外的其他加密货币钱包？

OM1 与智能助手及钱包支付的集成任务状态如何？

提交 OM1 Bounty 任务时需要提供哪些信息？

如果在开发过程中 Bounty 任务被取消，贡献者会得到什么补偿？

如何在本地验证 OM1 的多语言 ASR 修复？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|昨天

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

使用场景

没有 OM1 时

使用 OM1 后

运行环境要求

快速开始

OM1 的核心能力

架构概览

快速上手

包管理与虚拟环境

安装依赖

克隆仓库

获取 OpenMind API 密钥

OMCU

启动 OM1

接下来？

与新型机器人硬件对接

推荐开发平台

BrainPack 简介

完全自主导航

模拟器支持

Gazebo

Isaac Sim

详细文档

贡献

许可证

OM1 快速上手指南

环境准备

系统要求

前置依赖

安装步骤

1. 克隆代码库

2. 配置 API Key

基本使用

启动智能体

查看运行状态

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

markitdown

LLMs-from-scratch