X-VLA

583 50 中等 1 次阅读昨天Apache-2.0语言模型数据工具其他

AI 解读由 AI 自动生成，仅供参考

X-VLA 是一款面向机器人领域的通用视觉 - 语言 - 动作（VLA）模型，旨在让机器人通过统一的架构理解视觉信息、自然语言指令并执行复杂动作。它主要解决了当前机器人模型难以在不同形态设备（如机械臂、人形机器人等）之间通用迁移的难题，打破了以往模型“专机专用”的限制，显著提升了机器人在多场景下的灵活性与适应性。

这款工具特别适合机器人研究人员、AI 开发者以及希望探索具身智能的企业团队使用。无论是进行仿真训练还是真机部署，X-VLA 都能提供强大的基础支持。其核心技术亮点在于引入了“软提示（Soft-Prompt）”机制，即为不同机器人形态学习专属的可嵌入参数，从而引导同一个 Transformer 主干网络高效处理多样化的任务策略。凭借这一设计，X-VLA-0.9B 版本在六个仿真平台和三款真实机器人上均取得了业界领先的泛化性能，并荣获 IROS 2025 AgiBot 挑战赛冠军。此外，X-VLA 已原生集成至 LeRobot 平台，支持服务器 - 客户端架构，便于在集群或边缘设备上分布式推理，大大降低了开发与部署门槛。

使用场景

某具身智能团队正致力于让一台人形机器人（AgiBot-G1）在未经过专门训练的陌生厨房环境中，根据语音指令完成“打开冰箱并取出饮料”的复杂操作。

没有 X-VLA 时

泛化能力弱：机器人在仿真环境中训练的策略难以迁移到真实世界，一旦光照或物体位置微调，任务成功率便断崖式下跌。
多机型适配难：若需将算法部署到不同形态的机械臂上，必须重新收集数据并从头训练专用模型，研发周期长达数周。
指令理解僵化：传统模型仅能识别固定的命令关键词，无法理解“把那个蓝色的瓶子拿给我”这类包含指代和属性的自然语言描述。
算力资源浪费：为每个特定任务维护独立的模型权重，导致显存占用高企，边缘设备难以承载多任务切换。

使用 X-VLA 后

跨域泛化卓越：借助软提示（Soft-Prompt）机制，X-VLA 将在大规模异构数据集上学到的通用策略无缝迁移至新场景，零样本下任务成功率显著提升。
统一架构复用：无需重新训练，仅需加载针对 AgiBot-G1 的微调检查点，同一套 Transformer 骨干网络即可适配多种机器人形态，部署时间缩短至小时级。
自然语言交互流畅：模型能精准解析复杂的视觉 - 语言指令，准确锁定目标物体并规划精细动作，真正实现了“所说即所得”。
推理高效灵活：采用服务端 - 客户端架构分离模型与环境依赖，支持在集群或边缘端分布式推理，大幅降低了多任务并发时的资源开销。

X-VLA 通过统一的软提示架构打破了机器人具身数据的孤岛，让通用具身智能从“单点定制”迈向了“规模化落地”。

运行环境要求

操作系统

未说明

GPU

必需 (基于 Server-Client 架构支持多 GPU/SLURM 集群，日志显示运行在 cuda:0，暗示需要 NVIDIA GPU)

内存

未说明

依赖

notes1. 采用 Server-Client 架构部署，将模型环境与仿真/机器人依赖分离以避免冲突。2. 必须安装 requirements.txt 或使用 environment.yml 创建名为 'xvla-stable' 的 Conda 环境。3. 加载模型时需设置 trust_remote_code=True。4. 统一使用 EE6D (末端执行器 6D) 控制空间，输出为 20 维向量。5. 部分模型转换为 Hugging Face 格式后可能存在约 1% 的性能下降。6. 支持 LoRA 微调适配器。

python3.10

transformers

json_numpy

requests

numpy

快速开始

🤖 X-VLA：基于软提示的Transformer作为可扩展的跨机器人形态视觉-语言-动作模型

📄 论文	🌐 项目页面	🤗 Hugging Face
阅读完整研究	探索演示	访问模型与数据集

🏆 亮点与新闻

🎉 热烈喜讯：X-VLA 被 ICLR 2026 接收

我们非常高兴地宣布，X-VLA 已被 ICLR 2026 接收。

🚀 现已在 LeRobot 中支持

X-VLA 现已原生集成到 LeRobot 平台。
快来试试吧！我们由衷感谢 Hugging Face 团队的支持与合作。

🥇 IROS 2025 冠军得主

X-VLA 在 IROS 2025 举办的 AgiBot 世界挑战赛 中荣获 第一名（冠军）。

🧩 概述

成功的通用型 视觉–语言–动作（VLA） 模型依赖于跨不同机器人形态的大规模、可扩展训练。
为充分利用大规模机器人数据集的异构性，X-VLA 引入了一种 软提示 机制——即特定于机器人形态的可学习嵌入，用以引导统一的 Transformer 主干网络实现高效的多领域策略学习。

由此构建的架构——X-VLA-0.9B——在六个仿真平台和三台真实机器人上实现了 最先进的泛化能力，其灵巧性、适应性和效率均超越了先前的 VLA 方法。

https://github.com/user-attachments/assets/c047bac4-17c3-4d66-8036-badfab2b8c41

🚀 快速入门：安装与部署

1️⃣ 安装

# 克隆仓库
git clone https://github.com/2toinf/X-VLA.git
cd X-VLA

# 创建并激活 Conda 环境
conda create -n XVLA python=3.10 -y
conda activate XVLA

# 安装依赖
pip install -r requirements.txt

或者

conda env create -f environment.yml
conda activate xvla-stable

2️⃣ 部署 X-VLA 进行推理

X-VLA 采用 服务器–客户端 架构，将模型环境与仿真或机器人特定依赖项分离。这种设计避免了包冲突，并支持在多 GPU、SLURM 集群或边缘设备上进行分布式推理。

🧠 可用的预训练模型

我们发现将模型转换为 HF 格式后，性能略有下降（在不同数据集上约 1%），我们正在积极调查原因。

🧠 关于 Libero 的设置与评估

如有关于相对动作到绝对动作的转换及其实现的问题，请先参考 issue #2 和 #15。我们已在这里更新了完整的预处理指南。

🔥 更新：我们已发布 LoRA 微调代码，以及检查点和相关的推理代码。

模型 ID	载体	描述	性能	评估指南
`2toINF/X-VLA-Pt`	基础模型	在大规模异构的机器人–视觉–语言数据集上预训练，用于通用迁移。	—	—
`2toINF/X-VLA-AgiWorld-Challenge`	Agibot-G1	针对 AgiWorld 挑战赛微调。	冠军🥇	-
`2toINF/X-VLA-Calvin-ABC_D`	Franka	在 CALVIN 基准测试（ABC_D 子集）上微调	4.43	Calvin 评估
`2toINF/X-VLA-Google-Robot`	Google Robot	在大规模 Google Robot 数据集上微调	83.5%(VM) 76.4%(VA)	Simpler 评估
`2toINF/X-VLA-Libero`	Franka	在 LIBERO 基准测试上微调	98.1%	LIBERO 评估
`2toINF/X-VLA-VLABench`	Franka	在 VLABench 基准测试上微调	51.1分	VLABench 评估
`2toINF/X-VLA-RoboTwin2`	Agilex	基于 RoboTwin2 数据集训练，用于双臂协同操作（每项任务 50 次演示）。	70%	RoboTwin2.0 评估
`2toINF/X-VLA-WidowX`	WidowX	在 BridgeDataV2（Simpler 基准）上微调。	95.8%	Simpler 评估
`2toINF/X-VLA-SoftFold`	Agilex	在 Soft-Fold 数据集上微调。专门用于可变形物体的操作（如折叠和布料控制）。	2 小时内布料折叠成功率达到 100%。	SoftFold-Agilex
LoRA 适配器
`2toINF/X-VLA-libero-spatial-peft`	Franka	在 LIBERO 基准测试上微调	96.2%	LIBERO 评估
`2toINF/X-VLA-libero-object-peft`	Franka	在 LIBERO 基准测试上微调	96%	LIBERO 评估
`2toINF/X-VLA-libero-goal-peft`	Franka	在 LIBERO 基准测试上微调	94.4%	LIBERO 评估
`2toINF/X-VLA-libero-long-peft`	Franka	在 LIBERO 基准测试上微调	83.2%	LIBERO 评估
`2toINF/X-VLA-simpler-widowx-peft`	WidowX	在 BridgeDataV2（Simpler 基准）上微调。	66.7%	Simpler 评估

🧩 注意事项

所有模型采用一致的架构：configuration_xvla.py、modeling_xvla.py 和统一的分词器 (tokenizer.json)。
X-VLA-Pt 模型是 基础检查点，在多个机器人领域上进行了训练。
每种载体都在其各自环境中进行了微调，同时保持跨载体的一致性。
评估脚本（位于 evaluation/ 目录下）遵循标准化格式，以实现可重复的基准测试。

📊 性能指标遵循论文中详述的标准评估协议，详情请参阅论文。

3️⃣ 启动推理服务器

from transformers import AutoModel, AutoProcessor
import json_numpy

# 加载模型和处理器
model = AutoModel.from_pretrained("2toINF/X-VLA-WidowX", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("2toINF/X-VLA-WidowX", trust_remote_code=True)

# 启动推理服务器
print("🚀 正在启动 X-VLA 推理服务器...")
model.run(processor, host="0.0.0.0", port=8000)

启动后，API 端点如下：

POST http://<server_ip>:8000/act

4️⃣ 客户端交互与动作预测

客户端通过 HTTP POST 方法进行通信，以 JSON 负载的形式发送多模态数据（视觉 + 语言 + 本体感知）。

负载结构

键	类型	描述
`proprio`	`json_numpy.dumps(array)`	当前本体感知状态（例如，关节位置）。
`language_instruction`	`str`	任务指令（例如，“拿起红色方块”）。
`image0`	`json_numpy.dumps(array)`	主摄像头图像（RGB）。
`image1`, `image2`	可选	如适用，其他摄像头视图。
`domain_id`	`int`	当前机器人本体/领域的标识符。
`steps`	`int`	基于流匹配生成的去噪步数（例如，10步）。

示例客户端代码

import requests
import numpy as np
import json_numpy

server_url = "http://localhost:8000/act"
timeout = 5

# 准备输入
proprio = np.zeros(7, dtype=np.float32)
image = np.zeros((256, 256, 3), dtype=np.uint8)
instruction = "将夹爪移动到目标位置"

payload = {
    "proprio": json_numpy.dumps(proprio),
    "language_instruction": instruction,
    "image0": json_numpy.dumps(image),
    "domain_id": 0,
    "steps": 10
}

try:
    response = requests.post(server_url, json=payload, timeout=timeout)
    response.raise_for_status()
    result = response.json()
    actions = np.array(result["action"], dtype=np.float32)
    print(f"✅ 收到 {actions.shape[0]} 个预测动作。")
except Exception as e:
    print(f"⚠️ 请求失败：{e}")
    actions = np.zeros((30, 20), dtype=np.float32)

预期输出

[服务器] 模型已成功加载至 cuda:0
[服务器] 正在监听 0.0.0.0:8000
[客户端] 向服务器发送观测数据...
✅ 收到 30 个预测动作。

5️⃣ 标准化控制接口：EE6D

为确保不同本体之间的一致性，X-VLA 采用统一的 EE6D（末端执行器 6D） 控制空间。

组件	规格	备注
本体输入	当前 EE6D 姿态（位置 + 方向）	必须与训练空间的归一化一致。
动作输出	预测的目标位移/绝对姿态（EE6D）	由下游控制器执行。
维度	20 维向量 = 3（EE 位置） + 6（6D 旋转） + 1（夹爪） + 10（填充）
单臂情况	如果仅有一只手臂，则用零填充以保持 20 维向量。

⚙️ 参考后处理：
from datasets.utils import rotate6d_to_xyz
action_final = np.concatenate([
    action_pred[:3],
    rotate6d_to_xyz(action_pred[3:9]),
    np.array([1.0 如果 action_pred[9] > 0.5 else 0])
])
将本体感知输入模型时，应相应地应用 逆变换。

6️⃣ 参考客户端实现

每个发布的模型都包含一个对应的 参考客户端，位于 evaluation/<domain>/<robot>/client.py 中，用于复现确切的部署行为。我们强烈建议在连接物理或仿真机器人时，基于这些客户端进行适配。

7️⃣ SLURM 和集群部署

对于大规模或分布式训练/部署（例如，HPC 集群、AgiBot 节点）：

python -m deploy --model_path /path/to/your/model

该脚本会自动检测 SLURM 环境变量，启动分布式服务器，并将连接元数据写入 info.json 文件中。

⚙️ 自定义数据上的训练/微调

X-VLA 支持通过模块化且可扩展的数据集接口，对新演示数据进行微调。

数据准备流程

准备元 JSON 文件 — 每个领域都有一个 meta.json 文件，列出轨迹文件路径。
实现自定义处理器 — 编写具有 iter_episode(traj_idx) 生成器的领域加载类。
注册领域 — 更新：
- datasets/domain_handler/registry.py
- datasets/domain_config.py

示例处理器

处理器	数据集	描述
`"lerobot"`	Agibot-Beta	针对 LEROBOT 格式优化
`"h5py"`	RoboMind / 模拟	从 `.h5` 轨迹高效加载
`"scattered"`	AGIWorld	处理分散存储的轨迹

使用 Accelerate 启动训练

accelerate launch \
    --mixed_precision bf16 \
    train.py \
    --models '2toINF/X-VLA-Pt' \
    --train_metas_path /path/to/meta_files.json \
    --learning_rate 1e-4 \
    --learning_coef 0.1 \
    --iters 50000 \
    --freeze_steps 1000 \
    --warmup_steps 2000

参数	描述
`--models`	基础模型（例如，`'2toINF/X-VLA-Pt'`）
`--train_metas_path`	元 JSON 文件路径
`--batch_size`	批量大小
`--learning_rate`	基础学习率
`--learning_coef`	软提示的学习率乘数
`--iters`	总训练迭代次数
`--freeze_steps`	冻结主干网络的步数
`--warmup_steps`	热身迭代次数

📚 引用

如果您在研究中使用 X-VLA，请引用以下内容：

@article{zheng2025x,
  title   = {X-VLA: 基于软提示的 Transformer 作为可扩展的跨本体视觉-语言-动作模型},
  author  = {Zheng, Jinliang and Li, Jianxiong and Wang, Zhihao and Liu, Dongxiu and Kang, Xirui
             and Feng, Yuchun and Zheng, Yinan and Zou, Jiayin and Chen, Yilun and Zeng, Jia and others},
  journal = {arXiv 预印本 arXiv:2510.10274},
  year    = {2025}
}

🪪 许可证

本仓库采用 Apache 2.0 许可证 许可。您可以在该许可证的条款下自由地使用、修改和分发代码。

版权所有 2025 2toINF（https://github.com/2toinf）
依照 Apache 许可证第 2.0 版授权。

由 2toINF 维护 💬 欢迎通过 GitHub Discussions 或 Pull Requests 提出反馈、报告问题或贡献代码。

X-VLA 快速上手指南

X-VLA 是一个基于软提示（Soft-Prompt）机制的可扩展跨具身视觉 - 语言 - 动作模型，支持多种机器人平台的通用策略学习。本指南将帮助您快速完成环境搭建与推理部署。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统: Linux (推荐 Ubuntu 20.04+)
Python 版本: 3.10
硬件要求: NVIDIA GPU (支持 CUDA)，显存建议 16GB 以上以运行完整模型
前置依赖:
- Conda (推荐使用 Miniconda 或 Anaconda)
- Git

💡 国内加速建议：若下载依赖或模型较慢，建议配置国内镜像源：

Conda: 使用清华或中科大镜像 (conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/)

PyPI: 使用阿里云或清华镜像 (pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple)

Hugging Face: 设置环境变量 export HF_ENDPOINT=https://hf-mirror.com

2. 安装步骤

克隆代码库

git clone https://github.com/2toinf/X-VLA.git
cd X-VLA

创建并激活虚拟环境

推荐使用 Conda 创建隔离环境：

conda create -n XVLA python=3.10 -y
conda activate XVLA

安装依赖

您可以选择通过 requirements.txt 或 environment.yml 进行安装：

方式 A：使用 requirements.txt

pip install -r requirements.txt

方式 B：使用 environment.yml (推荐)

conda env create -f environment.yml
conda activate xvla-stable

3. 基本使用

X-VLA 采用 Server-Client 架构，将模型推理环境与机器人具体依赖解耦。以下是启动服务并获取动作预测的最小化示例。

第一步：启动推理服务器

以下代码将加载预训练模型（以 WidowX 为例）并启动 HTTP 服务：

from transformers import AutoModel, AutoProcessor
import json_numpy

# 加载模型和处理器
# 注意：首次运行会自动从 Hugging Face 下载模型，请确保网络通畅或配置镜像
model = AutoModel.from_pretrained("2toINF/X-VLA-WidowX", trust_remote_code=True)
processor = AutoProcessor.from_pretrained("2toINF/X-VLA-WidowX", trust_remote_code=True)

# 启动推理服务器
print("🚀 Starting X-VLA inference server...")
model.run(processor, host="0.0.0.0", port=8000)

启动成功后，服务端将监听 http://0.0.0.0:8000。

第二步：客户端发送请求并获取动作

客户端通过 HTTP POST 请求发送多模态数据（图像、本体感知、语言指令），并接收预测的动作序列。

import requests
import numpy as np
import json_numpy

server_url = "http://localhost:8000/act"
timeout = 5

# 准备输入数据 (此处为零占位符，实际使用请替换为真实传感器数据)
proprio = np.zeros(7, dtype=np.float32)       # 本体感知状态 (如关节位置)
image = np.zeros((256, 256, 3), dtype=np.uint8) # 主摄像头 RGB 图像
instruction = "Move the gripper to the target position" # 语言指令

# 构建 Payload
payload = {
    "proprio": json_numpy.dumps(proprio),
    "language_instruction": instruction,
    "image0": json_numpy.dumps(image),
    "domain_id": 0,          # 机器人具身标识 ID
    "steps": 10              # 去噪步数 (基于 flow-matching)
}

try:
    response = requests.post(server_url, json=payload, timeout=timeout)
    response.raise_for_status()
    result = response.json()
    
    # 解析返回的动作 (20 维向量：3 位置 + 6 旋转 + 1 夹爪 + 10 填充)
    actions = np.array(result["action"], dtype=np.float32)
    print(f"✅ Received {actions.shape[0]} predicted actions.")
    
except Exception as e:
    print(f"⚠️ Request failed: {e}")
    actions = np.zeros((30, 20), dtype=np.float32)

关键说明

控制空间: 模型输出统一为 EE6D (末端执行器 6D) 格式，包含位置、6D 旋转表示及夹爪状态。
后处理: 实际部署时，需将输出的 6D 旋转转换为欧拉角或四元数以适配底层控制器（参考官方 rotate6d_to_xyz 工具函数）。
模型选择: 可根据具体机器人型号更换 from_pretrained 中的模型 ID（如 2toINF/X-VLA-Libero, 2toINF/X-VLA-Google-Robot 等）。

常见问题

如何为新环境微调 X-VLA 模型？应该收集什么样的数据？

在 CALVIN 基准测试中复现结果时，成功率偏低或分数不一致怎么办？

X-VLA 的输出维度代表什么？如何将 LIBERO 动作转换为绝对末端执行器 (Abs EEF) 坐标？

项目使用什么方法进行数据采集？主从机械臂还是遥操作？

微调后评估轨迹每次都相同，即使物体位置不同，是什么原因？

Softfold 项目中使用的桌子高度和相机参数是多少？

是否有预训练的 Softfold 检查点和数据集可用？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 142.7k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|2天前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|昨天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|3天前

Agent图像开发框架