[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-OpenMind--OM1":3,"similar-OpenMind--OM1":162},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":14,"owner_avatar_url":15,"owner_bio":16,"owner_company":17,"owner_location":17,"owner_email":18,"owner_twitter":19,"owner_website":20,"owner_url":21,"languages":22,"stars":46,"forks":47,"last_commit_at":48,"license":49,"difficulty_score":50,"env_os":51,"env_gpu":52,"env_ram":53,"env_deps":54,"category_tags":64,"github_topics":69,"view_count":75,"oss_zip_url":17,"oss_zip_packed_at":17,"status":76,"created_at":77,"updated_at":78,"faqs":79,"releases":116},5043,"OpenMind\u002FOM1","OM1","Modular AI runtime for robots","OM1 是 OpenMind 推出的一款模块化 AI 运行时，旨在帮助开发者轻松构建并部署能同时理解数字环境与物理世界的多模态智能体。无论是人形机器人、四足机器狗、教育机器人，还是手机应用和仿真模拟器，OM1 都能让它们具备处理网页数据、摄像头画面、激光雷达等信息的能力，并执行移动导航、语音对话等实际动作。\n\n它主要解决了机器人开发中软硬件适配复杂、系统难以复用升级的痛点。通过基于 Python 的模块化架构，OM1 让开发者可以像搭积木一样灵活组合功能，快速接入新型传感器或硬件设备。其独特的插件机制原生支持 ROS2、Zenoh 等通信协议，并预置了多家主流大模型及视觉语言模型的接口，大幅降低了集成门槛。此外，OM1 还内置了基于网页的调试界面 WebSim，让用户能直观地监控智能体的运行状态与决策过程。\n\n这款工具特别适合机器人工程师、AI 研究者以及希望将大模型能力落地到实体设备的软件开发人员。如果你正在寻找一个既能连接云端智慧又能驱动真实机械身体的开发框架，OM1 提供了一个高效且易于扩展的解决方案。","![om1_banner_w](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenMind_OM1_readme_58e08450674c.png)\n\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.18588\">Technical Paper\u003C\u002Fa> |\n\u003Ca href=\"https:\u002F\u002Fdocs.openmind.com\u002F\">Documentation\u003C\u002Fa> |\n\u003Ca href=\"https:\u002F\u002Fx.com\u002Fopenmind_agi\">X\u003C\u002Fa>\n\u003C\u002Fp>\n\n**OpenMind's OM1 is a modular AI runtime that empowers developers to create and deploy multimodal AI agents across digital environments and physical robots**, including Humanoids, Phone Apps, Quadrupeds, educational robots such as TurtleBot 4, and simulators like Gazebo and Isaac Sim. OM1 agents can process diverse inputs like web data, social media, camera feeds, and LIDAR, while enabling physical actions including motion, autonomous navigation, and natural conversations. The goal of OM1 is to make it easy to create highly capable human-focused robots, that are easy to upgrade and (re)configure to accommodate different physical form factors.\n\n## Capabilities of OM1\n\n* **Modular Architecture**: Designed with Python for simplicity and seamless integration.\n* **Data Input**: Easily handles new data and sensors.\n* **Hardware Support via Plugins**: Supports new hardware through plugins for API endpoints and specific robot hardware connections to `ROS2`, `Zenoh`, and `CycloneDDS`. (We recommend `Zenoh` for all new development).\n* **Web-Based Debugging Display**: Monitor the system in action with WebSim (available at http:\u002F\u002Flocalhost:8000\u002F) for easy visual debugging.\n* **Pre-configured Endpoints**: Supports Text-to-Speech, multiple LLMs from OpenAI, xAI, DeepSeek, Anthropic, Meta, Gemini, NearAI, Ollama (local), and multiple Visual Language Models (VLMs) with pre-configured endpoints for each service.\n\n## Architecture Overview\n![Artboard 1@4x 1 (1)](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenMind_OM1_readme_048256b486e9.png)\n\n\n## Getting Started\n\nTo get started with OM1, let's run the Spot agent. Spot uses your webcam to capture and label objects. These text captions are then sent to the LLM, which returns `movement`, `speech` and `face` action commands. These commands are displayed on WebSim along with basic timing and other debugging information.\n\n### Package Management and VENV\n\nYou will need the [`uv` package manager](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002Fgetting-started\u002Finstallation\u002F).\n\n### Install Dependencies\n\nFor macOS\n```bash\nbrew install portaudio ffmpeg\n```\n\nFor Linux\n```bash\nsudo apt-get update\nsudo apt-get install portaudio19-dev python3-dev ffmpeg\n```\n\n### Clone the Repo\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1.git\ncd OM1\ngit submodule update --init\nuv venv\n```\n\n### Obtain an OpenMind API Key\n\nObtain your API Key at [OpenMind Portal](https:\u002F\u002Fportal.openmind.com\u002F).\n1. Create your account on OpenMind Portal if you haven't yet.\n2. Go to the dashboard and create a new API key.\n3. Copy the generated API key.\n4. Edit `config\u002Fspot.json5` and replace the `openmind_free` placeholder with your API key. Or, configure it in the `.env` file using this command - `cp .env.example .env` and add your key to the `.env`.\n\nAlternatively, you can set your API key in the `.bashrc` file\n\n```bash\nvi ~\u002F.bashrc # for Linux\nvi ~\u002F.zshrc # for macOS\n```\n\nAdd the following to the file\n\n```bash\nexport OM_API_KEY=\"\u003Cyour_api_key>\"\n```\n\n```bash\nsource ~\u002F.bashrc # for linux\nsource ~\u002F.zshrc # for macOS\n```\n\n### OMCU\n\nOMCU is the computational unit for billing on OpenMind's platform. The free plan provides 50 OMCU renewed monthly.\n\nUpgrade your plan [here](https:\u002F\u002Fportal.openmind.com\u002F) for additional credits.\n\n### Launching OM1\n\nRun\n```bash\nuv run src\u002Frun.py spot\n```\n\nAfter launching OM1, the Spot agent will interact with you and perform (simulated) actions. For more help connecting OM1 to your robot hardware, see [getting started](https:\u002F\u002Fdocs.openmind.com\u002Fdeveloping\u002F1_get-started).\n\n> **Note:** This is just an example agent configuration.\nIf you want to interact with the agent and see how it works, make sure ASR and TTS are configured in spot.json5.\n\n## What's Next?\n\n* Try out some [examples](https:\u002F\u002Fdocs.openmind.com\u002Fdeveloper-cookbook\u002Fexamples)\n* Add new `inputs` and `actions`.\n* Design custom agents and robots by creating your own `json5` config files with custom combinations of inputs and actions.\n* Change the system prompts in the configuration files (located in `\u002Fconfig\u002F`) to create new behaviors.\n\n## Interfacing with New Robot Hardware\n\nOM1 assumes that robot hardware provides a high-level SDK that accepts elemental movement and action commands such as `backflip`, `run`, `gently pick up the red apple`, `move(0.37, 0, 0)`, and `smile`. An example is provided in `src\u002Factions\u002Fmove\u002Fconnector\u002Fros2.py`:\n\n```python\n...\nelif output_interface.action == \"shake paw\":\n    if self.sport_client:\n        self.sport_client.Hello()\n...\n```\n\nIf your robot hardware does not yet provide a suitable HAL (hardware abstraction layer), traditional robotics approaches such as RL (reinforcement learning) in concert with suitable simulation environments (Unity, Gazebo), sensors (such as hand mounted ZED depth cameras), and custom VLAs will be needed for you to create one. It is further assumed that your HAL accepts motion trajectories, provides battery and thermal management\u002Fmonitoring, and calibrates and tunes sensors such as IMUs, LIDARs, and magnetometers.\n\nOM1 can interface with your HAL via USB, serial, ROS2, CycloneDDS, Zenoh, or websockets. For an example of an advanced humanoid HAL, please see [Unitree's C++ SDK](https:\u002F\u002Fgithub.com\u002Funitreerobotics\u002Funitree_sdk2\u002Fblob\u002Fadee312b081c656ecd0bb4e936eed96325546296\u002Fexample\u002Fg1\u002Fhigh_level\u002Fg1_loco_client_example.cpp#L159). Frequently, a HAL, especially ROS2 code, will be dockerized and can then interface with OM1 through DDS middleware or websockets.\n\n## Recommended Development Platforms\n\nOM1 is developed on:\n\n* Nvidia Thor (running JetPack 7.0) - full support\n* Jetson AGX Orin 64GB (running Ubuntu 22.04 and JetPack 6.1) - limited support\n* Mac Studio with Apple M2 Ultra with 48 GB unified memory (running MacOS Sequoia)\n* Mac Mini with Apple M4 Pro with 48 GB unified memory (running MacOS Sequoia)\n* Generic Linux machines (running Ubuntu 22.04)\n\nOM1 _should_ run on other platforms (such as Windows) and microcontrollers such as the Raspberry Pi 5 16GB.\n\n## Introduction to BrainPack\n\nFrom research to real-world autonomy, a platform that learns, moves, and builds with you.\n\nThe BrainPack is designed to be mounted directly onto a robot to bring together mapping, object recognition, remote control, and self charging, giving humanoids and quadrupeds what they need to navigate, remember, and act with purpose.\n\n## Full Autonomy Guidance\n\nWe're excited to introduce **full autonomy** for Unitree Go2 and G1 with the BrainPack. Full autonomy has five services that work together in a loop without manual intervention:\n\n- **om1**\n- **OM1-ros2-sdk** – A ROS 2 package that provides SLAM (Simultaneous Localization and Mapping) capabilities for the Unitree Go2 robot using an RPLiDAR(S2L) sensor, the SLAM Toolbox and the Nav2 stack.\n- **om1-avatar** – A modern React-based frontend application that provides the user interface and avatar display system for OM1 robotics software.\n- **om1-video-processor** - The OM1 Video Processor is a Docker-based solution that enables real-time video streaming, face recognition, and audio capture for OM1 robots.\n- **om1-system-setup** - To setup wifi, and, monitor and manage docker containers.\n\n## Simulator Support\n\nOM1 integrates with popular robotics simulators to enable rapid prototyping and testing without physical hardware. We currently support Gazebo with Unitree Go2 and Isaac Sim with Unitree Go2 and G1.\n\n### Gazebo\n\nFull support for Gazebo with ROS2 integration. Ideal for testing autonomous SLAM map generation and navigation stacks, sensor simulation, and multi-robot scenarios.\n\nSee [Gazebo](docs\u002Fsimulators\u002Fgazebo.md) to get started.\n\n### Isaac Sim\n\nNVIDIA Isaac Sim support for physics-accurate simulation with GPU acceleration.\n\nRequires NVIDIA GPU and CUDA support. See [Isaac Sim Setup](docs\u002Fsimulators\u002Fisaac-sim.md) to get started.\n\n## Detailed Documentation\n\nMore detailed documentation can be accessed at [docs.openmind.com](https:\u002F\u002Fdocs.openmind.com\u002F).\n\n## Contributing\n\nPlease make sure to read the [Contributing Guide](.\u002FCONTRIBUTING.md) before making a pull request.\n\n## License\n\nThis project is licensed under the terms of the MIT License, which is a permissive free software license that allows users to freely use, modify, and distribute the software. The MIT License is a widely used and well-established license that is known for its simplicity and flexibility. By using the MIT License, this project aims to encourage collaboration, modification, and distribution of the software.\n","![om1_banner_w](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenMind_OM1_readme_58e08450674c.png)\n\n\u003Cp align=\"center\">\n\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2412.18588\">技术论文\u003C\u002Fa> |\n\u003Ca href=\"https:\u002F\u002Fdocs.openmind.com\u002F\">文档\u003C\u002Fa> |\n\u003Ca href=\"https:\u002F\u002Fx.com\u002Fopenmind_agi\">X\u003C\u002Fa>\n\u003C\u002Fp>\n\n**OpenMind 的 OM1 是一款模块化的 AI 运行时，赋能开发者在数字环境和实体机器人中创建并部署多模态 AI 代理**，涵盖人形机器人、手机应用、四足机器人、TurtleBot 4 等教育机器人，以及 Gazebo 和 Isaac Sim 等仿真平台。OM1 代理能够处理来自网络数据、社交媒体、摄像头馈流和激光雷达等多种输入，并执行运动控制、自主导航和自然对话等物理动作。OM1 的目标是让开发高度智能、以人类为中心的机器人变得简单易行，同时便于升级和（重新）配置，以适应不同的硬件形态。\n\n## OM1 的核心能力\n\n* **模块化架构**：采用 Python 构建，简单易用且无缝集成。\n* **数据输入**：轻松接入新数据与各类传感器。\n* **插件式硬件支持**：通过插件支持新硬件，实现 API 端点及特定机器人硬件与 `ROS2`、`Zenoh` 和 `CycloneDDS` 的连接。（我们推荐所有新开发均使用 `Zenoh`）。\n* **基于 Web 的调试界面**：借助 WebSim（访问地址：http:\u002F\u002Flocalhost:8000\u002F）实时监控系统运行状态，方便进行可视化调试。\n* **预配置端点**：支持文本转语音、来自 OpenAI、xAI、DeepSeek、Anthropic、Meta、Gemini、NearAI、Ollama（本地模型）等多个大语言模型，以及多种视觉语言模型（VLM），并为每项服务提供预配置端点。\n\n## 架构概览\n![Artboard 1@4x 1 (1)](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenMind_OM1_readme_048256b486e9.png)\n\n\n## 快速上手\n\n让我们从运行 Spot 代理开始体验 OM1。Spot 将利用你的摄像头捕捉并标注物体，随后将这些文本描述发送至大语言模型，模型会返回移动、语音和面部表情等行动指令。这些指令将在 WebSim 上显示，并附带基本的时间信息及其他调试数据。\n\n### 包管理与虚拟环境\n\n你需要安装 [`uv` 包管理器](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002Fgetting-started\u002Finstallation\u002F)。\n\n### 安装依赖\n\n对于 macOS：\n```bash\nbrew install portaudio ffmpeg\n```\n\n对于 Linux：\n```bash\nsudo apt-get update\nsudo apt-get install portaudio19-dev python3-dev ffmpeg\n```\n\n### 克隆仓库\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1.git\ncd OM1\ngit submodule update --init\nuv venv\n```\n\n### 获取 OpenMind API 密钥\n\n请在 [OpenMind 门户](https:\u002F\u002Fportal.openmind.com\u002F)获取你的 API 密钥：\n1. 如果尚未注册，请先在 OpenMind 门户创建账户。\n2. 进入仪表盘，生成新的 API 密钥。\n3. 复制生成的密钥。\n4. 编辑 `config\u002Fspot.json5`，将其中的 `openmind_free` 占位符替换为你自己的 API 密钥。或者，你也可以通过以下命令配置 `.env` 文件——`cp .env.example .env`，然后将密钥添加到 `.env` 中。\n\n此外，你还可以将 API 密钥设置在 `.bashrc` 或 `.zshrc` 文件中：\n\n```bash\nvi ~\u002F.bashrc # 对于 Linux\nvi ~\u002F.zshrc # 对于 macOS\n```\n\n在文件中加入以下内容：\n```bash\nexport OM_API_KEY=\"\u003Cyour_api_key>\"\n```\n\n```bash\nsource ~\u002F.bashrc # 对于 Linux\nsource ~\u002F.zshrc # 对于 macOS\n```\n\n### OMCU\n\nOMCU 是 OpenMind 平台上的计费单位。免费套餐每月可获得 50 个 OMCU。\n\n如需更多额度，请在此处升级套餐：[OpenMind 门户](https:\u002F\u002Fportal.openmind.com\u002F)。\n\n### 启动 OM1\n\n运行以下命令：\n```bash\nuv run src\u002Frun.py spot\n```\n\n启动后，Spot 代理将与你互动并执行（模拟的）动作。如需进一步帮助将 OM1 与你的机器人硬件连接，请参阅 [入门指南](https:\u002F\u002Fdocs.openmind.com\u002Fdeveloping\u002F1_get-started)。\n\n> **注意**：这只是一个示例代理配置。若想与代理交互并观察其运行情况，请确保在 `spot.json5` 中已正确配置 ASR 和 TTS 功能。\n\n## 接下来？\n\n* 尝试一些 [示例](https:\u002F\u002Fdocs.openmind.com\u002Fdeveloper-cookbook\u002Fexamples)。\n* 添加新的 `输入` 和 `动作`。\n* 通过自定义 `json5` 配置文件，组合不同的输入与动作，设计专属的代理和机器人。\n* 修改配置文件中的系统提示词（位于 `\u002Fconfig\u002F` 目录下），以创造全新的行为模式。\n\n## 与新型机器人硬件对接\n\nOM1 假设机器人硬件提供一个高级 SDK，能够接收诸如“后空翻”、“奔跑”、“轻轻拿起红苹果”、“move(0.37, 0, 0)”和“微笑”等基础运动与动作指令。例如，在 `src\u002Factions\u002Fmove\u002Fconnector\u002Fros2.py` 中有如下代码：\n\n```python\n...\nelif output_interface.action == \"shake paw\":\n    if self.sport_client:\n        self.sport_client.Hello()\n...\n```\n\n如果你的机器人硬件尚未提供合适的 HAL（硬件抽象层），则需要结合强化学习（RL）与适当的仿真环境（Unity、Gazebo）、传感器（如手持 ZED 深度相机）以及自定义 VLA 来构建 HAL。此外，还假设你的 HAL 能够接受运动轨迹、提供电池与热管理功能，并对 IMU、激光雷达和磁力计等传感器进行校准与调优。\n\nOM1 可通过 USB、串口、ROS2、CycloneDDS、Zenoh 或 WebSocket 与你的 HAL 对接。有关先进人形机器人的 HAL 示例，请参阅 Unitree 的 C++ SDK：[链接](https:\u002F\u002Fgithub.com\u002Funitreerobotics\u002Funitree_sdk2\u002Fblob\u002Fadee312b081c656ecd0bb4e936eed96325546296\u002Fexample\u002Fg1\u002Fhigh_level\u002Fg1_loco_client_example.cpp#L159)。通常，HAL 代码（尤其是 ROS2 代码）会被容器化，从而可通过 DDS 中间件或 WebSocket 与 OM1 通信。\n\n## 推荐开发平台\n\nOM1 已在以下平台上完成开发：\n* Nvidia Thor（搭载 JetPack 7.0）——全面支持\n* Jetson AGX Orin 64GB（搭载 Ubuntu 22.04 和 JetPack 6.1）——有限支持\n* Mac Studio（配备 Apple M2 Ultra 处理器，48 GB 统一内存，运行 MacOS Sequoia）\n* Mac Mini（配备 Apple M4 Pro 处理器，48 GB 统一内存，运行 MacOS Sequoia）\n* 通用 Linux 机器（搭载 Ubuntu 22.04）\n\nOM1 _应_能在其他平台（如 Windows）以及树莓派 5 16GB 等微控制器上运行。\n\n## BrainPack 简介\n\n从科研到真实世界的自主性，一个与你共同学习、移动并构建的平台。\n\nBrainPack 专为直接安装在机器人上而设计，集地图构建、目标识别、远程控制和自动充电于一体，为人形机器人和四足机器人提供导航、记忆与有目的行动所需的能力。\n\n## 完全自主导航\n\n我们很高兴地推出适用于 Unitree Go2 和 G1 机器人，并搭配 BrainPack 使用的**完全自主导航**功能。完全自主导航包含五项服务，它们以闭环方式协同工作，无需人工干预：\n\n- **om1**\n- **OM1-ros2-sdk** – 一个 ROS 2 包，利用 RPLiDAR(S2L) 传感器、SLAM 工具箱和 Nav2 导航栈，为 Unitree Go2 机器人提供同时定位与地图构建（SLAM）能力。\n- **om1-avatar** – 一款基于 React 的现代化前端应用，为 OM1 机器人软件提供用户界面和虚拟形象显示系统。\n- **om1-video-processor** – OM1 视频处理器是一个基于 Docker 的解决方案，可为 OM1 机器人实现实时视频流传输、人脸识别和音频采集功能。\n- **om1-system-setup** – 用于配置 Wi‑Fi，并监控和管理 Docker 容器。\n\n## 模拟器支持\n\nOM1 集成了流行的机器人模拟器，可在无需物理硬件的情况下实现快速原型设计和测试。目前我们支持使用 Gazebo 模拟 Unitree Go2 机器人，以及使用 Isaac Sim 模拟 Unitree Go2 和 G1 机器人。\n\n### Gazebo\n\n全面支持 Gazebo，并集成 ROS2。非常适合测试自主 SLAM 地图生成与导航栈、传感器仿真以及多机器人场景。\n\n请参阅 [Gazebo](docs\u002Fsimulators\u002Fgazebo.md)，开始使用。\n\n### Isaac Sim\n\n支持 NVIDIA Isaac Sim，提供具有物理精确度且基于 GPU 加速的仿真环境。\n\n需要配备 NVIDIA GPU 并支持 CUDA。请参阅 [Isaac Sim 设置](docs\u002Fsimulators\u002Fisaac-sim.md)，开始使用。\n\n## 详细文档\n\n更多详细文档可在 [docs.openmind.com](https:\u002F\u002Fdocs.openmind.com\u002F) 查阅。\n\n## 贡献\n\n在提交拉取请求之前，请务必阅读[贡献指南](.\u002FCONTRIBUTING.md)。\n\n## 许可证\n\n本项目采用 MIT 许可证授权，这是一种宽松的自由软件许可证，允许用户自由使用、修改和分发该软件。MIT 许可证广泛使用且久经考验，以其简洁性和灵活性而闻名。通过采用 MIT 许可证，本项目旨在鼓励对软件的协作、修改和分发。","# OM1 快速上手指南\n\nOM1 是 OpenMind 推出的模块化 AI 运行时，旨在帮助开发者轻松创建和部署多模态 AI 智能体。它支持从数字环境到物理机器人（如人形机器人、四足机器狗、TurtleBot 等）的广泛场景，能够处理摄像头、激光雷达等多种输入，并执行运动、导航和自然对话等动作。\n\n## 环境准备\n\n### 系统要求\nOM1 主要在以下平台开发和测试：\n- **Linux**: Ubuntu 22.04 (推荐)\n- **macOS**: macOS Sequoia (适用于 Apple Silicon M2\u002FM4 芯片)\n- **嵌入式**: Nvidia Jetson AGX Orin (JetPack 6.1\u002F7.0), Nvidia Thor\n- *注：理论上支持 Windows 及 Raspberry Pi 5，但需自行验证。*\n\n### 前置依赖\n在开始之前，请确保系统已安装以下基础工具：\n\n1. **包管理器**: 必须安装 [`uv`](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002Fgetting-started\u002Finstallation\u002F)。\n2. **系统库**:\n   - **macOS**:\n     ```bash\n     brew install portaudio ffmpeg\n     ```\n   - **Linux**:\n     ```bash\n     sudo apt-get update\n     sudo apt-get install portaudio19-dev python3-dev ffmpeg\n     ```\n\n## 安装步骤\n\n### 1. 克隆代码库\n获取源代码并初始化子模块，同时使用 `uv` 创建虚拟环境：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1.git\ncd OM1\ngit submodule update --init\nuv venv\n```\n\n### 2. 配置 API Key\nOM1 需要 OpenMind 平台的 API Key 才能运行。\n\n1. 访问 [OpenMind Portal](https:\u002F\u002Fportal.openmind.com\u002F) 注册账号并创建新的 API Key。\n2. 复制生成的 Key。\n3. **方式一（推荐）**：修改配置文件。\n   编辑 `config\u002Fspot.json5`，将 `openmind_free` 占位符替换为你的真实 API Key。\n   \n   或者，复制环境变量文件并填入 Key：\n   ```bash\n   cp .env.example .env\n   # 编辑 .env 文件，填入 OM_API_KEY=\u003Cyour_api_key>\n   ```\n\n4. **方式二**：设置全局环境变量。\n   - Linux (`~\u002F.bashrc`) 或 macOS (`~\u002F.zshrc`)：\n     ```bash\n     export OM_API_KEY=\"\u003Cyour_api_key>\"\n     ```\n   - 使配置生效：\n     ```bash\n     source ~\u002F.bashrc  # Linux\n     source ~\u002F.zshrc   # macOS\n     ```\n\n> **注意**: 免费计划每月提供 50 OMCU 计算额度。如需更多算力，可在官网升级套餐。\n\n## 基本使用\n\n安装完成后，你可以运行内置的 **Spot Agent** 示例。该智能体会调用你的摄像头捕捉画面，识别物体并生成描述，随后通过大语言模型（LLM）决策，输出运动、语音和面部表情指令，并在 Web 界面中展示调试信息。\n\n### 启动智能体\n在项目根目录下运行以下命令：\n\n```bash\nuv run src\u002Frun.py spot\n```\n\n### 查看运行状态\n启动后，打开浏览器访问本地调试界面：\n- **地址**: `http:\u002F\u002Flocalhost:8000\u002F` (WebSim)\n\n在此界面中，你可以实时观察智能体的感知数据、推理过程以及生成的动作指令（如移动、说话等）。\n\n> **提示**: 若要体验完整的交互功能（语音识别与合成），请确保在 `config\u002Fspot.json5` 中已正确配置 ASR 和 TTS 服务。\n\n---\n*更多高级用法（如自定义机器人配置、连接真实硬件 ROS2\u002FZenoh 接口、使用 Gazebo\u002FIsaac Sim 仿真器）请参阅官方文档：[docs.openmind.com](https:\u002F\u002Fdocs.openmind.com\u002F)*","某教育科技团队正致力于为大学实验室开发一款能自主导航、识别实验器材并与学生自然对话的四足机器人助教。\n\n### 没有 OM1 时\n- **硬件适配繁琐**：每更换一种机器人底盘（如从 TurtleBot 换到 Spot），都需要重写底层的 ROS2 通信代码和传感器驱动，耗时数周。\n- **多模态整合困难**：难以将摄像头视觉数据、激光雷达点云与语音输入统一处理，往往需要搭建复杂的中间件来串联不同的 AI 模型。\n- **调试效率低下**：缺乏直观的实时监控工具，开发者只能通过查看枯燥的终端日志来推测机器人的感知状态和决策逻辑，排查问题极慢。\n- **模型切换成本高**：想要测试不同大语言模型（如从 Ollama 本地模型切换到云端 Gemini）的效果，需要手动修改大量配置文件和 API 对接代码。\n\n### 使用 OM1 后\n- **插件化硬件支持**：利用 OM1 的插件架构，通过配置 Zenoh 或 ROS2 接口即可无缝连接不同形态的机器人，新硬件接入时间从数周缩短至数小时。\n- **原生多模态运行时**：OM1 内置了对相机、LIDAR 及语音流的统一处理能力，开发者只需定义智能体行为，无需关心底层数据融合的细节。\n- **WebSim 可视化调试**：通过浏览器访问 WebSim 界面，团队成员可实时看到机器人“眼中”的物体标签、生成的运动指令及对话内容，故障定位一目了然。\n- **预配置模型端点**：直接在配置文件中切换 OpenAI、xAI 或本地 Ollama 等预置端点，即可瞬间完成不同大模型对机器人决策能力的对比测试。\n\nOM1 通过模块化架构和可视化调试能力，让开发者从繁琐的底层集成中解放出来，专注于打造真正具备多模态交互能力的智能机器人应用。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenMind_OM1_58e08450.jpg","OpenMind","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenMind_2db7b28d.png","",null,"ask@openmind.com","openmind_agi","https:\u002F\u002Fopenmind.com","https:\u002F\u002Fgithub.com\u002FOpenMind",[23,27,31,35,39,42],{"name":24,"color":25,"percentage":26},"Python","#3572A5",97.6,{"name":28,"color":29,"percentage":30},"C++","#f34b7d",1.6,{"name":32,"color":33,"percentage":34},"HTML","#e34c26",0.6,{"name":36,"color":37,"percentage":38},"Dockerfile","#384d54",0.1,{"name":40,"color":41,"percentage":38},"C","#555555",{"name":43,"color":44,"percentage":45},"Shell","#89e051",0,2701,965,"2026-04-06T22:53:38","MIT",3,"Linux, macOS","仅在运行 Isaac Sim 模拟器时必需 NVIDIA GPU 且需支持 CUDA；开发平台推荐 Nvidia Thor 或 Jetson AGX Orin，Mac 平台使用 Apple Silicon (M2 Ultra\u002FM4 Pro)。","推荐 48GB (基于 Mac Studio\u002FMini 配置)，最低未明确说明但建议 16GB+。",{"notes":55,"python":56,"dependencies":57},"1. 必须安装 'uv' 包管理器来管理依赖和虚拟环境。\n2. macOS 需通过 brew 安装 portaudio 和 ffmpeg；Linux (Ubuntu 22.04) 需安装 portaudio19-dev, python3-dev 和 ffmpeg。\n3. 需要 OpenMind API Key 才能运行。\n4. 支持通过插件连接 ROS2, Zenoh (推荐), CycloneDDS 等中间件。\n5. 若使用 Isaac Sim 模拟器，必须配备支持 CUDA 的 NVIDIA GPU。","未说明 (通过 uv 管理虚拟环境)",[58,59,60,61,62,63],"uv","portaudio","ffmpeg","ROS2","Zenoh","CycloneDDS",[65,66,67,68],"其他","开发框架","Agent","语言模型",[70,71,72,73,74],"llm","multiagent","robotics","ros2","zenoh",2,"ready","2026-03-27T02:49:30.150509","2026-04-07T22:49:55.896011",[80,85,89,94,99,104,108,112],{"id":81,"question_zh":82,"answer_zh":83,"source_url":84},22926,"OM1 支持哪些语言进行自动语音识别（ASR）测试？","OM1 的 ASR 系统支持多种语言，包括韩语 (ko-KR)、西班牙语、意大利语、葡萄牙语、俄语和阿拉伯语。贡献者发现部分语言代码缺失并进行了修复，更新了 `google_asr.py` 和 `google_asr_rtsp.py` 文件，并编写了涵盖所有新语言的测试套件以防止回归。详细文档可参考 `docs\u002FMULTILINGUAL_ASR.md`。","https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fissues\u002F359",{"id":86,"question_zh":87,"answer_zh":88,"source_url":84},22927,"OM1 的多语言 ASR 在不同语言下的表现如何？","测试显示，OM1 在英语环境下的语音转文字表现 flawless（完美），但在其他语言中，由于口音差异可能导致部分单词识别错误。系统在速度和准确性方面表现良好，且具备上下文记忆能力，例如能记住用户之前提供的信息（如星期几）并在后续对话中使用。",{"id":90,"question_zh":91,"answer_zh":92,"source_url":93},22928,"如何为 OM1 添加新的 AI 提供商支持？","OM1 已通过集成 OpenRouter 来支持更多的 AI 提供商。开发者可以通过环境变量配置选择使用的提供商。原有的 Bounty 任务旨在添加本地或其他提供商（如 Meta, Mistral），但目前项目方已统一通过 OpenRouter 实现该功能，具体贡献已被记录并将体现在排行榜中。","https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fissues\u002F360",{"id":95,"question_zh":96,"answer_zh":97,"source_url":98},22929,"OM1 是否支持除 Coinbase 以外的其他加密货币钱包？","虽然曾有 Bounty 任务计划扩展支持更多钱包提供商以实现钱包无关性，但维护者随后宣布该功能超出项目当前范围（out of scope）并已关闭相关议题。目前项目主要聚焦于现有集成，暂无官方支持的其他钱包插件。","https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fissues\u002F358",{"id":100,"question_zh":101,"answer_zh":102,"source_url":103},22930,"OM1 与智能助手及钱包支付的集成任务状态如何？","该功能（集成智能助手如 Home Assistant 并通过加密钱包支付）曾被列为 Bounty 任务，要求实现从下单到支付确认的全流程。然而，维护者最终决定该功能超出项目范围并关闭了议题。尽管有社区成员完成了包含语音识别、多代币支持（SOL, ETH, USDC 等）和实时价格反馈的实现，但未获得官方合并或奖励。","https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fissues\u002F367",{"id":105,"question_zh":106,"answer_zh":107,"source_url":84},22931,"提交 OM1 Bounty 任务时需要提供哪些信息？","提交时需根据具体议题在评论中填写模板。通常包括：演示视频链接（YouTube\u002FDrive）、PR 链接（如有代码贡献）、新增功能或提供商列表、以及可选的笔记（设置步骤、遇到的挑战或解决方案）。例如，多语言测试需上传演示视频并描述测试场景；AI 提供商扩展需列出集成的提供商名称和 PR 地址。",{"id":109,"question_zh":110,"answer_zh":111,"source_url":103},22932,"如果在开发过程中 Bounty 任务被取消，贡献者会得到什么补偿？","根据社区反馈，如果任务在开发者投入工作后被标记为“超出范围”而关闭，贡献者建议至少应获得开发者徽章（dev badge）作为认可，以维持社区积极性。虽然官方未在所有案例中明确执行此政策，但维护者表示会将贡献记录在案，并在未来的排行榜或联系中予以考虑。",{"id":113,"question_zh":114,"answer_zh":115,"source_url":84},22933,"如何在本地验证 OM1 的多语言 ASR 修复？","验证步骤包括：1. 运行包含 17 个测试用例的测试套件，覆盖所有新增语言；2. 审查 PR 中的语言代码映射是否正确；3. 查看 `docs\u002FMULTILINGUAL_ASR.md` 中的文档说明。代码修复涉及 `google_asr.py` 和 `google_asr_rtsp.py` 文件的更新。",[117,122,127,132,137,142,147,152,157],{"id":118,"version":119,"summary_zh":120,"released_at":121},136719,"v1.0.1","本次新版本统一了单模和多模模式，并提升了模式切换的稳定性。\n\n## 变更内容\n* 使用 Pydantic 重构背景模块，由 @YuchengZhou821 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F847 中完成\n* 新增：添加配置校验 CLI 命令，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F831 中完成\n* 更新 LLM 和模拟器，由 @YuchengZhou821 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F851 中完成\n* 更新 TTS 中断功能，由 @YuchengZhou821 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F852 中完成\n* 修复：修正 simple_paths.py 中的拼写错误（lattency -> latency），由 @KangJKJK 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F860 中完成\n* 添加 OTA 文档，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F858 中完成\n* G1 全自主功能，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F857 中完成\n* 修复：修正文档和代码中的多个拼写错误，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F862 中完成\n* 移除文档上传工作流，并重命名配置模式工作流，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F866 中完成\n* 修复：确保 SimplePathsProvider 的日志命名一致性，由 @ScapeXYZ 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F876 中完成\n* CI：更新工作流依赖项，并优化配置模式，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F891 中完成\n* 添加 vulture 和拼写检查；修复拼写及命名问题，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F894 中完成\n* 文档：修复 GalleryIdentitiesProvider 中的拼写错误及文档不一致之处，由 @ScapeXYZ 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F896 中完成\n* 文档：改进多模配置模式文档，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F899 中完成\n* 发布说明，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F910 中完成\n* 添加动作执行模式及依赖支持，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F872 中完成\n* 修复（模式）：修正阻止验证的 JSON 语法错误，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F958 中完成\n* 修复 DualLLM 类中 docstring 的缩进问题，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F986 中完成\n* 将 TTS 中断设置为 false，由 @YuchengZhou821 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1005 中完成\n* 统一 docstring 格式，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F987 中完成\n* 更新贡献指南，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1008 中完成\n* 在文档中将 pre-commit 命令以代码块形式展示，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1036 中完成\n* 文档：完善 D435 背景类的 docstring，加入完整的参数说明，由 @0xKingBack 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1034 中完成\n* 修复（模式）：在多模配置中强制要求赫兹频率为正数，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1037 中完成\n* 文档：完善编排器类的 docstring，加入完整的参数说明，由 @ORietze 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1029 中完成\n* 文档：改进 LLM 历史记录管理器的 docstring，提升可读性！✨，由 @Yiyufadacai 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1027 中完成\n*","2026-03-15T19:36:44",{"id":123,"version":124,"summary_zh":125,"released_at":126},136720,"v1.0.1-beta.3","本次新版本引入了多项新功能，并修复了多个问题。\n\n- 单模式已迁移到多模式。相同的 Cortex 运行时现在同时支持单模式和多模式。\n- 修复了一个在模式切换时，之前的 LLM 可能会持续存在的 bug。\n- 修复了 Riva 和 Google ASR 回调处理中的一个 bug。\n- 改进了问候模式下的 TTS 时长计算。\n\n## 变更内容\n* 缩短 system_prompt_base 并添加 hertz，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2250 中完成。\n* 更新命令以启动模拟器的编排器，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2247 中完成。\n* 移除问候配置中重复的 hertz 条目，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2251 中完成。\n* 修复问候 hertz 配置，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2252 中完成。\n* 将 dimo 重命名为 tesla_dimo，并重构测试，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2260 中完成。\n* 修复：文档字符串中参数名不匹配——显示为 input_，由 @Vt01nft 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1490 中完成。\n* 新增功能：扩展集成测试，加入新的输入类型和模式切换，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2274 中完成。\n* 测试（actions）：为 move_game_controller 动作添加单元测试，由 @LupaFlex 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2269 中完成。\n* 测试（actions）：为 move_go2_teleops 动作添加单元测试，由 @LupaFlex 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2268 中完成。\n* 测试：为 WebSim 模拟器添加单元测试，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2266 中完成。\n* 重构：清理 ubtech_asr_provider（修正拼写错误、移除冗余注释、格式化），由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2267 中完成。\n* 测试：为 navigate_location 动作添加接口测试，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2265 中完成。\n* 测试：为 inputs.base.loop.FuserInput 添加单元测试，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2263 中完成。\n* 修复：在架构文档中将“succession”修正为“sequence”，由 @erhnysr 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2259 中完成。\n* 测试：为提供商、LLM 和输入插件添加覆盖率缺口测试，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2253 中完成。\n* 修复：在钩子系统中将 rate 参数传递到 ElevenLabsTTSProvider，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2234 中完成。\n* 修复：在 KokoroTTSProvider.configure() 中跟踪 rate 参数，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2233 中完成。\n* 修复：在 UbTtsConnector 中添加缺失的 tts_enabled 初始化，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2231 中完成。\n* 修复（测试）：重写 test_riva_tts，改为测试真实的 SpeakRivaTTSConnector，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2226 中完成。\n* 改进（inputs）：为面部和图库回调暴露队列丢弃诊断信息，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2216 中完成。\n* 修复：将 ub_tts_provider 中的 _speak_workder 重命名为 _speak_worker，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2191 中完成。\n* 修复：在 .env.example 中添加缺失的 OM1_COMMAND，由 @do 完成。","2026-03-12T20:20:08",{"id":128,"version":129,"summary_zh":130,"released_at":131},136721,"v1.0.1-beta.2","## v1.0.1-beta.2\n\n## 本次发布的新内容\n\n- 引入了巨大的性能提升。\n- 对代码库进行了标准化，仅支持多模式配置，移除了原有的单模式结构及相关文件夹。单模式设置仍然受支持，现在会通过新的运行时基础设施自动转换为多模式。\n- 新增对Unitree Go2机器人充电状态的监控与报告功能。\n- 将通用传感器输入类型标准化，并针对不同机器人添加了特定变体。为Unitree G1、Go2和Turtlebot4分别新增了独立的后台进程。\n- Docker 现在支持使用 `OM_COMMAND` 来切换配置。\n- 重构了 `ApproachingPerson` 后台插件，改用 Zenoh 处理人员接近事件。\n- 更新了 ElevenLabs TTS 集成，通过将 JSON\u002Fbase64 音频响应改为实时音频流输出，降低了延迟；并将 ElevenLabs 的默认输出格式更改为 16kHz 的 PCM。\n- OM1 现在支持 Isaac Sim。\n- 提升了各插件的测试覆盖率。\n\n## 变更内容\n* chore(deps): 由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2134 中将 protobuf 从 5.29.5 升级至 5.29.6\n* 为不同机器人拆分 odom 和 rplidar，并添加对 G1 的支持，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2136 中完成\n* Gitbook 迁移，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2146 中完成\n* 更新标语，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2147 中完成\n* fix: 修正 KokoroTTSProvider 中的日志消息，将来源从 ElevenLabs 更改为 Kokoro，由 @giwaov 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2151 中完成\n* feature\u002Fadd-unitree-go2-odom-provider-tests: 添加 Unitree Go2 的 odom 提供者测试，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2161 中完成\n* fix(logging): 在关键运行时路径中保留异常堆栈跟踪，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2149 中完成\n* fix: 解决 Kokoro TTS 连接器中的代码质量和一致性问题，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2142 中完成\n* fix: 在 _path_processor 中使用 any() 正确过滤掉 RPLidar 的空白角度，由 @Ridwannurudeen 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2141 中完成\n* test(actions): 为 GPS 动作添加单元测试，由 @LupaFlex 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2133 中完成\n* test(actions): 为人脸动作添加单元测试，由 @LupaFlex 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2132 中完成\n* fix: 修复 src\u002F 和 config\u002F 目录中的拼写错误及复制粘贴问题，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2127 中完成\n* 实现单例装饰器的测试，由 @kivancbeser 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2107 中完成\n* 修复 UBTECH Yanshee 文档中重复出现的“the”拼写错误，由 @erenyegit 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2105 中完成\n* docs: 修复文档中的拼写、语法错误以及已弃用的软件包，由 @0xbyt4 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2099 中完成\n* refactor: 移除 Sensor.__init__ 中不必要的 pass 语句，由 @eren-karakus0 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F2086 中完成\n* fix: 移除生产环境中随机增加 ETH 余额的调试代码，由 @letm","2026-02-13T02:16:58",{"id":133,"version":134,"summary_zh":135,"released_at":136},136722,"v1.0.1-beta.1","## v1.0.1-beta.1\n\n## 本次发布的新功能\n\n- 新增对 LimX TRON 的支持\n- 增加了对 Ollama 的本地推理支持\n- 最新配置版本现已升级至 v1.0.2\n- 文档更新\n  - 我们更新了 G1 和 Go2 的完全自主运行文档\n  - 新增了 Gazebo 搭建的文档\n  - 修复了文档中的拼写错误和失效链接\n  - 更新了整个代码库中的 docstring\n  - 更新了 API 端点文档\n  - 更新了 API 定价文档及关于新订阅计划的信息\n- 在编排器和配置模式中引入了“并发”、“顺序”和“依赖”三种动作执行模式的支持\n- 新增问候对话模式和状态管理功能\n- 新增对 Koroko 和 Riva 模型的本地支持\n- 新增人物跟随模式\n- 提升了提供者和输入插件的单元测试覆盖率\n\n## 变更内容\n* 使用 Pydantic 重构背景模块，由 @YuchengZhou821 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F847 中完成\n* 功能：新增配置验证 CLI 命令，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F831 中完成\n* 更新 LLM 和模拟器，由 @YuchengZhou821 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F851 中完成\n* 更新 TTS 中断功能，由 @YuchengZhou821 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F852 中完成\n* 修复：修正 simple_paths.py 中的拼写错误（lattency -> latency），由 @KangJKJK 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F860 中完成\n* 新增 OTA 文档，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F858 中完成\n* G1 完全自主运行功能，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F857 中完成\n* 修复：修正文档和代码中的多个拼写错误，由 @Wanbogang 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F862 中完成\n* 移除文档上传工作流并重命名配置模式工作流，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F866 中完成\n* 修复：统一 SimplePathsProvider 的日志命名规范，由 @ScapeXYZ 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F876 中完成\n* CI：更新工作流依赖并优化配置模式，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F891 中完成\n* 添加 vulture 和拼写检查；修复拼写和命名问题，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F894 中完成\n* 文档：修复 GalleryIdentitiesProvider 中的拼写错误及文档不一致之处，由 @ScapeXYZ 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F896 中完成\n* 文档：改进多模式配置模式文档，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F899 中完成\n* 发行说明，由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F910 中完成\n* 新增动作执行模式及依赖支持，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F872 中完成\n* 修复（模式）：修正阻碍验证的 JSON 语法错误，由 @MuhamadRifansyah 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F958 中完成\n* 修复 DualLLM 类中的 docstring 缩进问题，由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F986 中完成\n* 将 TTS 中断设置为 false，由 @YuchengZhou821 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1005 中完成\n* 统一 docstring 格式，由 @openminddev 在 https","2026-02-05T19:43:08",{"id":138,"version":139,"summary_zh":140,"released_at":141},136723,"v1.0.0","## 本次发布有哪些新内容？\n\n- **开发专区**  \n  新增专门的开发专区，帮助开发者快速入门设置、构建和测试流程。\n\n- **Gazebo**  \n  现在 Gazebo 模拟环境中已全面支持 Unitree Go2 的 SLAM、导航和自动充电功能。这使得用户无需物理硬件即可在模拟器上测试 OM1。\n\n- **配置版本管理**  \n  更新了配置文件，新增 `version` 字段。该字段确保随着运行时的演进而保持配置文件的兼容性。\n\n- **Unitree G1 全自主能力**  \n  现已支持 Unitree G1 的全自主功能，包括人脸检测与匿名化、3D SLAM 地图生成以及导航。\n\n- **热重载**  \n  添加了热重载支持，通过首次运行后自动复用已解析的依赖项来加速开发。运行时配置通过 `.runtime.json5` 文件持久化，从而实现无缝重启和代理切换，而无需完全重新初始化。\n\n- **OTA**  \n  引入了完整的空中升级（OTA）支持，使用户能够平滑地升级到最新的运行时版本。配置现在支持流畅的版本管理和更新的自动化部署。\n\n- **模式与生命周期文档**  \n  在文档中新增了对不同支持模式及生命周期管理的详细指南。\n\n- **Thor 的本地大模型支持**  \n  在 Thor 上新增了对本地大型语言模型（LLM）的支持，超时时间为 3.2 秒。当云端和本地响应均可用时，由本地 LLM 决定选择哪个响应继续处理。\n\n- **上下文感知模式切换**  \n  OM1 现已支持上下文感知的模式切换，可在无人干预的情况下自动进行模式转换。\n\n- **LiDAR 定位**  \n  利用 LiDAR 传感器提升了定位精度。\n\n- **机器学习栈迁移**  \n  将机器学习栈迁移到 Thor（运行于 Jetson 7.0）。AGX 仍受支持，但功能有所限制。\n\n- **运行时版本**  \n  升级至最新运行时版本，以提升性能和稳定性。\n\n- **文档修复**  \n  修正了文档中的错别字，并提升了整体清晰度。\n\n- **引入 Pydantic 配置**  \n  通过引入基于 Pydantic 的配置和更强的泛型类型标注，重构了动作连接器架构，以提高类型安全性、可扩展性和可维护性。新增了连接器专用的配置模型，并通过详细的文档字符串增强了文档的清晰度和验证能力。\n\n\n## 变更内容\n* chore: 由 @vastonus 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F595 中移除注释中的重复词语。\n* chore: 由 @rocksload 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F605 中修复大量拼写问题。\n* 由 @sirdavos47 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F598 中对 Dockerfile 进行小改进并重构。\n* 由 @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F622 中更新仓库名称。\n* 由 @cryptoahmet06 在 https:\u002F 增强 Unitree Go2 电池管理模块的安全消息解析功能。","2025-12-17T21:05:52",{"id":143,"version":144,"summary_zh":145,"released_at":146},136724,"v1.0.0-beta.4","## 本次发布的新功能\n- OpenRouter 支持 LLaMA 和 Anthropic：新增对 OpenRouter API 的兼容性，支持无缝接入更多 AI 提供商，包括 Meta 的 LLaMA 模型和 Anthropic 的 Claude 模型。  \n  这使得在自然语言处理、推理和控制任务中，可以根据性能或成本偏好灵活选择模型。\n- 支持多种模式：Unitree Go2 现已实现完全自主运行，并支持 5 种不同模式。  \n  - 欢迎模式——初始问候与用户信息收集  \n  - 对话模式——专注对话与社交互动  \n  - SLAM 模式——自主导航与地图构建  \n  - 导航模式——自主路径规划与移动  \n  - 巡逻模式——巡逻与安全监控  \n- 支持人脸模糊与检测：OpenMind 隐私系统是一款实时、端侧运行的人脸检测与模糊模块，旨在保护视频采集和直播过程中的个人隐私。  \n  该模块完全在 Unitree Go2 机器人本地设备上运行，无需云端或网络连接。  \n  所有帧处理均在本地完成，原始帧不会离开设备；仅存储或传输经过模糊处理的输出内容。  \n  模块可离线运行，并保持低延迟，适合实时应用场景。\n- 支持多路 RTSP 输入：OpenMind RTSP 接入管道可管理多路 RTSP 输入，支持三路摄像头信号和一路麦克风输入，实现同步流媒体传输。  \n  其中，顶部摄像头信号会通过 OpenMind 人脸识别模块进行检测、叠加显示及 FPS 监控；而麦克风（default_mic_aec）则负责音频采集与传输。  \n  所有处理后的音视频流都会通过 OpenMind API 的 RTSP 端点接入，从而实现系统内多源实时数据流的整合。\n- 支持回声消除与远程视频直播：您可通过我们的门户，在机器狗背包中远程显示自己的面部，并直接与他人交流。\n- 支持导航与地图构建：导航与地图模块使 OM1 能够在其环境中智能移动，主要包含两种核心模式：导航模式和 SLAM 模式。  \n  在 SLAM 模式下，机器人会自主探索周围环境，利用机载传感器构建并持续更新内部地图，以实现空间感知和后续导航能力。此模式通常用于初始设置阶段，或在新环境及动态变化环境中运行。  \n  在导航模式下，机器人则会在已构建的地图区域内，按照预设路径在各目标点之间移动，借助 SLAM 模式生成的地图进行路径规划、障碍物规避，并安全抵达目的地。\n- 重构 AI 控制消息机制：现采用函数调用方式执行动作。  \n  新流程如下：动作 → 函数调用参数 → 大语言模型 → 函数调用 → JSON 结构（CortexOutputModel）。\n- 支持 NVIDIA Thor：现已支持 NVIDIA Thor，助力 Unitree Go2 实现完全自主运行。\n- 文档新增版本说明：官方文档现增设专门的“版本说明”章节。","2025-10-24T22:59:10",{"id":148,"version":149,"summary_zh":150,"released_at":151},136725,"v1.0.0-beta.3","## 本次发布的新内容\n\n- 为更好地支持 Jetson 平台，将 Python 版本降级至 3.10。\n- 集成 Nav2 实现状态反馈和目标发布，并在定位完成后自动关闭 AI 模式。\n- 将 Zenoh 的配置和会话移至 zenoh_msgs 包，现在优先使用本地网络而非组播。\n- 添加了用于与 OM1 虚拟形象通信的背景服务器。\n- 改进了虚拟形象动画，增加了思考行为，并可将 ASR 响应注入到提示中。\n- 新增对人形机器人和四足机器人的长距离控制支持，使用 [TBS_TANGO2](https:\u002F\u002Fwww.team-blacksheep.com\u002Fproducts\u002Fprod:tbs_tango_2) 无线电设备。\n- 为 ASR 添加了休眠模式：若 5 分钟内无语音输入，则进入休眠状态。\n\n## Docker\n📦 [openmindagi\u002Fom1:v1.0.0-beta.3](https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fblob\u002Fv1.0.0-beta.3)\n\n## 变更内容\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F386 中将 Jetson 环境的 Python 版本降级至 3.10。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F387 中新增自动休眠功能。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F388 中将工作流更新至 Python 3.10。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F389 中添加了语音休眠模式。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F390 中改用 RecoveryStand 而非 StandUp。\n* @TangmereCottage 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F391 中实现了可靠的操纵杆控制。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F392 中改进了虚拟形象动画。\n* @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F393 和 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F394 中编写了生产指南文档。\n* @TangmereCottage 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F397 中更新了 crsf_long_range_control.mdx 文件。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F396 中添加了 Nav2 支持。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F385 中提高了静默率。\n* @Prachi1615 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F398 中添加了版本发布说明。\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fcompare\u002Fv1.0.0-beta.2...v1.0.0-beta.3","2025-09-20T20:59:44",{"id":153,"version":154,"summary_zh":155,"released_at":156},136726,"v1.0.0-beta.2","# v1.0.0-beta.2\n\n此版本新增了对自定义摄像头索引的支持，并在 Docker 中启用了麦克风和扬声器功能。\n\n## Docker\n📦 [openmindagi\u002Fom1:v1.0.0-beta.2]()\n\n## 变更内容\n* 修复音量问题，并由 @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F384 中添加了摄像头索引\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fcompare\u002Fv1.0.0-beta.1...v1.0.0-beta.2","2025-09-06T23:02:14",{"id":158,"version":159,"summary_zh":160,"released_at":161},136727,"v1.0.0-beta.1","## 概述\r\n**OM1 首个 Beta 版发布**  \r\n我们很高兴地宣布 OM1 的首个 Beta 版正式发布。OM1 是一款开源、模块化且基于智能体的机器人操作系统。它与硬件无关，使开发者能够在不局限于特定平台的情况下进行机器人应用的原型设计、测试和部署。\n\n## 功能特性\n- 支持多个大模型提供商集成（OpenAI、Gemini、Deepseek、xAI）。\n- 集成 GoogleASR 模型实现语音转文本功能。\n- 支持 Riva 和 Eleven Labs 用于文本转语音。\n- 预配置了适用于 Unitree Go2、G1、TurtleBot 和 Ubtech Yanshee 的智能体。\n- 为 Go2 提供完全自主能力，包括实时 SLAM、对 RPLiDAR A1\u002FA2\u002FA3 系列传感器的支持、Nav2 自主导航以及坐标系变换的自动处理。\n- 支持使用 Gazebo 模拟器对 Go2 进行仿真。\n- 多架构支持——AMD64 和 ARM64。\n\n## Docker 镜像\n要启动完整的系统设置，请运行以下 Docker 镜像（更多技术细节请参阅我们的[文档](https:\u002F\u002Fdocs.openmind.org\u002Fmintlify_splash)）：\n\n📦 [openmindagi\u002Fom1:v1.0.0-beta.1](https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fblob\u002Fv1.0.0-beta.1)\n\n## 变更内容\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F4 中添加全局时间计时器。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F1 中添加 ASRTTSProvider。\n* @TangmereCottage 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F3 中添加情感分析和网络摄像头功能。\n* @TangmereCottage 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F6 中为每个输入单独设置缓冲区。\n* @TangmereCottage 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F7 中将 mutate 重命名为 connect。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F5 中添加完整对话模式。\n* @TangmereCottage 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F11 中添加以太坊钱包功能。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F13 中添加全局 IO 提供者。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F17 中添加项目代码检查功能。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F16 中添加 OpenMind 大模型端点。\n* @TangmereCottage 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F8 中添加模拟器支持、修复若干 bug，并集成以太坊钱包。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F18 中修复对话模式问题。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F19 中添加运行时单元测试。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F20 中添加 Fuser 单元测试。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F21 中添加大模型单元测试。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F22 中添加输入单元测试。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F23 中添加提供者单元测试。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F25 中为模拟器添加计时器。\n* @openminddev 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F29 中添加对 DeepSeek 的支持。\n* @TangmereCottage 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F28 中修复钱包和 Pygame 相关的 bug。\n* @kyle-openmind 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull\u002F27 中添加 Coinbase 集成。\n* @kyle-openmind 在 https:\u002F\u002Fgithub.com\u002FOpenMind\u002FOM1\u002Fpull 中为 .env 文件添加注释。","2025-09-05T21:47:55",[163,173,181,189,197,206],{"id":164,"name":165,"github_repo":166,"description_zh":167,"stars":168,"difficulty_score":50,"last_commit_at":169,"category_tags":170,"status":76},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[67,66,171,172],"图像","数据工具",{"id":174,"name":175,"github_repo":176,"description_zh":177,"stars":178,"difficulty_score":50,"last_commit_at":179,"category_tags":180,"status":76},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[66,171,67],{"id":182,"name":183,"github_repo":184,"description_zh":185,"stars":186,"difficulty_score":75,"last_commit_at":187,"category_tags":188,"status":76},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,"2026-04-07T11:33:18",[66,67,68],{"id":190,"name":191,"github_repo":192,"description_zh":193,"stars":194,"difficulty_score":75,"last_commit_at":195,"category_tags":196,"status":76},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[66,171,67],{"id":198,"name":199,"github_repo":200,"description_zh":201,"stars":202,"difficulty_score":75,"last_commit_at":203,"category_tags":204,"status":76},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[205,66],"插件",{"id":207,"name":208,"github_repo":209,"description_zh":210,"stars":211,"difficulty_score":50,"last_commit_at":212,"category_tags":213,"status":76},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[68,171,67,66]]