xtreme1
Xtreme1 是一款专为多模态数据训练打造的一站式开源标注平台,全面支持图像、3D LiDAR 点云以及大语言模型(LLM)的数据处理。它致力于解决机器学习项目中数据标注效率低、多传感器融合难以及数据质量管理复杂等核心痛点,帮助团队快速构建高质量的训练数据集。
该平台特别适合计算机视觉领域的开发者、自动驾驶研究人员以及从事大模型对齐工作的算法工程师使用。Xtreme1 的独特亮点在于其强大的"AI 辅助”能力:内置了基于 YOLOR 和 RITM 的预标注与交互式分割模型,能显著提升 2D/3D 目标检测与语义分割的标注速度;同时支持 LiDAR 与摄像头的融合标注,并集成了 OpenPCDet 等前沿算法。此外,它还提供了可配置的本体中心用于管理类别层级,具备数据清洗、错误修复及模型结果可视化功能。针对当下热门的大语言模型,Xtrome1 还率先引入了 RLHF(人类反馈强化学习)标注工具(测试版),为模型微调提供得力支持。通过 Docker 即可轻松部署,让数据准备工作变得更加高效流畅。
使用场景
某自动驾驶初创团队正急需构建一套高精度的多传感器融合数据集,以训练能在复杂城市路况下准确识别行人和车辆的感知模型。
没有 xtreme1 时
- 工具割裂效率低:标注团队需分别在 2D 图像工具和 3D 点云软件间切换,无法在同一界面进行 LiDAR 与摄像头的联合标注,导致数据对齐耗时极长。
- 纯人工标注成本高:缺乏预标注模型支持,标注员必须手动逐帧绘制包围盒和分割掩码,处理海量路测数据时人力成本居高不下。
- 类别管理混乱:随着场景增加,物体类别(如“施工车辆”、“夜间行人”)及其属性定义在多个表格中分散管理,极易出现标准不一致导致的模型训练偏差。
- 质量排查困难:难以快速定位标注错误,往往要等到模型训练效果不佳时,才通过回溯发现是数据标注层面的问题,迭代周期被大幅拉长。
使用 xtreme1 后
- 一站式融合标注:利用 xtreme1 的 LiDAR-camera 融合功能,标注员可在同一视图下同步完成 3D 点云与 2D 图像的关联标注,数据对齐效率提升数倍。
- AI 辅助自动化:内置的 YOLOR 和 RITM 模型提供智能预标注,自动勾勒出物体轮廓,人工仅需微调,将单帧标注时间从分钟级缩短至秒级。
- 统一本体中心:通过可配置的本体中心,团队能集中管理带有层级关系的类别树和属性标签,确保所有标注员遵循同一套严格标准。
- 可视化质检闭环:借助模型结果可视化和错误查找功能,团队能即时发现并修复标注瑕疵,在数据进入训练前即可把控质量,显著加速模型迭代。
xtreme1 通过打通多模态数据标注的全流程并引入 AI 辅助,将原本松散低效的数据准备环节转变为自动化、标准化的核心竞争力。
运行环境要求
- Linux
- macOS
- Windows
- 基础运行无需 GPU
- 若启用内置预标注模型(Built-in Models),则必须配备 NVIDIA GPU(如 T4 或类似型号),需安装 NVIDIA CUDA Driver 和 NVIDIA Container Toolkit,显存需求未明确具体数值但建议 RAM 4GB+(针对模型容器环境)
最低 2GB(基础平台);4GB 或更高(启用内置模型时)

快速开始
简介
Xtreme1 是一个面向多模态训练数据的一站式开源平台。
Xtreme1 在数据标注、数据整理以及本体管理方面实现了效率的飞跃,助力解决计算机视觉和大型语言模型领域的机器学习挑战。该平台的 AI 驱动工具将您的标注工作提升至全新的效率水平,以前所未有的方式推动您在 2D/3D 物体检测、2D/3D 语义/实例分割以及激光雷达与相机融合等项目中的进展。
如需了解企业版,请点击此处 🎉 免费申请演示。
本 README 文档仅包含安装、构建和运行的相关内容。如果您对功能有任何疑问或疑虑,欢迎随时访问我们的 文档网站。
核心功能
| 图像标注(边界框、分割)——YOLOR 和 RITM | 激光雷达-相机融合标注——OpenPCDet 和 AB3DMOT |
|---|---|
![]() |
![]() |
:one: 支持图像、3D 激光雷达以及 2D/3D 传感器融合数据集的数据标注
:two: 内置预标注和交互式模型,支持 2D/3D 物体检测、分割和分类
:three: 可配置的本体中心,提供通用类别(含层级结构)和属性,用于您的模型训练
:four: 数据管理和质量监控
:five: 发现并修复标注错误
:six: 模型结果可视化,帮助您评估模型性能
:seven: 大型语言模型的 RLHF 功能 :new: (测试版)
| 图像数据整理(可视化与调试)——MobileNetV3 和 openTSNE | LLM 的 RLHF 标注工具(测试版) |
|---|---|
![]() |
![]() |
安装
前提条件
操作系统要求
任何操作系统均可通过 Docker Compose 安装 Xtreme1 平台(在 Mac、Windows 和 Linux 设备上安装 Docker Desktop)。在 Linux 服务器上,您可以使用 Docker Compose 插件 安装 Docker Engine。
硬件要求
CPU: AMD64 或 ARM64
内存: 2GB 或更高
硬盘: 10GB 以上可用空间(取决于数据量)
软件要求
适用于带有桌面环境的 Mac、Windows 和 Linux。
Docker Desktop: 4.1 或更高版本
适用于 Linux 服务器。
Docker Engine: 20.10 或更高版本
Docker Compose 插件: 2.0 或更高版本
内置模型部署要求
内置模型容器仅可在安装了 NVIDIA CUDA 驱动程序 和 NVIDIA 容器工具包 的 Linux 服务器上运行。
GPU: NVIDIA T4 或其他类似 GPU
内存: 4GB 或更高
使用 Docker 安装
下载安装包
下载最新发布的安装包并解压。
wget https://github.com/xtreme1-io/xtreme1/releases/download/v0.9.1/xtreme1-v0.9.1.zip
unzip -d xtreme1-v0.9.1 xtreme1-v0.9.1.zip
启动服务
进入发布包目录,执行以下命令以启动所有服务。初始化数据库并准备测试数据集需要几分钟时间。
cd xtreme1-v0.9.1
docker compose up
在浏览器中访问 http://localhost:8190 即可体验 Xtreme1!如果您想从另一台设备访问,可以将 localhost 替换为 IP 地址。
Docker Compose 将从 Docker Hub 拉取所有服务镜像,包括基础服务 MySQL、Redis、MinIO 以及应用服务 backend、frontend。您可以在 docker-compose.yml 中找到访问 MySQL、Redis 和 MinIO 的用户名、密码及端口映射,例如可以通过 http://localhost:8194 访问 MinIO 控制台。我们使用 Docker 卷来保存数据,因此即使容器被重新创建,数据也不会丢失。
Docker Compose 高级命令:
# 在前台启动。
docker compose up
# 或者添加 -d 选项在后台运行。
docker compose up -d
# 完成后,您可以启动或停止全部或特定服务。
docker compose start
docker compose stop
# 停止所有服务并删除所有容器,但数据卷会保留。
docker compose down
# 警告!删除所有卷。MySQL、Redis 和 MinIO 中的所有数据。
docker compose down -v
启动内置模型
您需要显式指定模型配置文件才能启用模型服务。
docker compose --profile model up
请确保主机上已安装 NVIDIA CUDA 驱动程序 和 NVIDIA 容器工具包。
# 您需要在 /etc/docker/daemon.json 中将 "default-runtime" 设置为 "nvidia" 并重启 Docker,以启用 NVIDIA 容器工具包。
{
"runtimes": {
"nvidia": {
"path": "nvidia-container-runtime",
"runtimeArgs": []
}
},
"default-runtime": "nvidia"
}
如果您使用的是 Docker Desktop + WSL2.0,请参考此 问题 #144。
在 ARM CPU 上运行
请注意,某些 Docker 镜像(包括 MySQL)可能与 ARM 架构不兼容。如果您的计算机基于 ARM CPU(例如 Apple M1),您可以创建一个名为 docker-compose.override.yml 的 Docker Compose 覆盖文件,并加入以下内容。虽然这种方法使用 QEMU 模拟来强制在 ARM64 平台上使用 ARM64 镜像,但可能会影响性能。
services:
mysql:
platform: linux/amd64
从源码安装
如果您希望构建或扩展功能,可以下载源代码并在本地运行。
启用 Docker BuildKit
我们使用 Docker BuildKit 来加速构建速度,例如在不同构建之间缓存 Maven 和 NPM 包。默认情况下,Docker Desktop 并未启用 BuildKit,你可以按照以下步骤进行启用。更多详细信息,请参阅官方文档 使用 BuildKit 构建镜像。
# 设置环境变量以仅在本次构建中启用 BuildKit。
DOCKER_BUILDKIT=1 docker build .
DOCKER_BUILDKIT=1 docker compose up
# 或者编辑 Docker 守护进程配置文件 daemon.json,以默认启用 BuildKit,内容可以是 '{ "features": { "buildkit": true } }'。
vi /etc/docker/daemon.json
# 如果遇到与包版本相关的问题,可以清除构建缓存。
docker builder prune
克隆仓库
git clone https://github.com/basicai/xtreme1.git
cd xtreme1
构建镜像并运行服务
docker-compose.yml 默认会从 Docker Hub 拉取应用镜像。如果你希望从源代码构建镜像,可以注释掉服务的 image 行,并取消注释 build 行。
services:
backend:
# image: basicai/xtreme1-backend
build: ./backend
frontend:
# image: basicai/xtreme1-frontend
build: ./frontend
然后当你运行 docker compose up 时,它会先构建 backend 和 frontend 镜像,并启动这些服务。请务必在代码发生变化时运行 docker compose build,因为 up 命令只会构建不存在的镜像。
不应将更改提交到
docker-compose.yml文件中。为了避免这种情况,可以将docker-compose.yml复制为一个新的文件docker-compose.develop.yml,并根据开发需求修改该文件;此文件已添加到.gitignore中。在运行 Docker Compose 命令时,需要指定这个特定文件,例如docker compose -f docker-compose.develop.yml build。
许可证
本软件采用 Apache 2.0 许可证授权。Xtreme1 是 LF AI & Data Foundation 的商标。
Xtreme1 现已托管于 LF AI & Data Foundation,作为首个开源的数据标注、注释和可视化项目。
如果 Xtreme1 是你开发流程、项目或出版物的一部分,请引用我们 ❤️:
@misc{Xtreme1,
title = {Xtreme1 - 多感官训练数据的下一代平台},
year = {2023},
note = {软件可从 https://github.com/xtreme1-io/xtreme1/ 获取},
url={https://xtreme1.io/},
author = {LF AI & Data Foundation},
}
版本历史
v0.9.12024/04/23v0.92024/02/28v0.8.12024/02/04v0.82023/12/27v0.7.32023/11/16v0.7.22023/10/09v0.7.12023/05/16v0.7.02023/04/28v0.6.12023/04/25v0.6.02023/04/10v0.5.62023/03/03v0.5.52022/12/26v0.5.22022/10/26v0.5.12022/09/23v0.52022/09/15常见问题
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
tesseract
Tesseract 是一款历史悠久且备受推崇的开源光学字符识别(OCR)引擎,最初由惠普实验室开发,后由 Google 维护,目前由全球社区共同贡献。它的核心功能是将图片中的文字转化为可编辑、可搜索的文本数据,有效解决了从扫描件、照片或 PDF 文档中提取文字信息的难题,是数字化归档和信息自动化的重要基础工具。 在技术层面,Tesseract 展现了强大的适应能力。从版本 4 开始,它引入了基于长短期记忆网络(LSTM)的神经网络 OCR 引擎,显著提升了行识别的准确率;同时,为了兼顾旧有需求,它依然支持传统的字符模式识别引擎。Tesseract 原生支持 UTF-8 编码,开箱即用即可识别超过 100 种语言,并兼容 PNG、JPEG、TIFF 等多种常见图像格式。输出方面,它灵活支持纯文本、hOCR、PDF、TSV 等多种格式,方便后续数据处理。 Tesseract 主要面向开发者、研究人员以及需要构建文档处理流程的企业用户。由于它本身是一个命令行工具和库(libtesseract),不包含图形用户界面(GUI),因此最适合具备一定编程能力的技术人员集成到自动化脚本或应用程序中



