docarray

3.1k 240 非常简单 1 次阅读 5天前Apache-2.0插件数据工具开发框架其他

AI 解读由 AI 自动生成，仅供参考

DocArray 是一个专为多模态数据设计的 Python 库，旨在帮助开发者轻松表示、传输、存储和检索图像、文本、音频等复杂非结构化数据。在构建多模态 AI 应用时，处理不同类型数据的混合结构往往令人头疼，DocArray 通过提供统一且灵活的数据结构，有效解决了这一痛点，让数据在不同系统间的流转更加顺畅。

这款工具特别适合 AI 工程师、研究人员以及后端开发者使用，尤其是那些正在利用 PyTorch、TensorFlow 或 JAX 进行模型训练，或需要构建基于向量数据库检索系统的团队。DocArray 的独特之处在于其强大的生态兼容性：它原生支持主流深度学习框架，能无缝对接 NumPy 数组；基于 Pydantic 构建，可快速集成到 FastAPI 等 Web 服务中；同时内置了对 Weaviate、Qdrant、Redis 等多种向量数据库的支持。此外，它还支持通过 HTTP (JSON) 或 gRPC (Protobuf) 高效传输数据。作为 LF AI & Data 基金会下的开源项目，DocArray 以 Apache 2.0 协议开放，是连接数据处理与多模态 AI 应用的理想桥梁。

使用场景

某电商初创团队正在开发一个“以图搜同款”功能，需要同时处理商品图片、文本描述及价格标签等多模态数据，并将其存入向量数据库以供快速检索。

没有 docarray 时

数据结构混乱：开发者需手动编写类来对齐图像张量（PyTorch/TensorFlow）与文本元数据，字段类型检查全靠自觉，极易出错。
转换代码冗余：在模型推理、API 传输（JSON/Protobuf）和数据库存储之间，需要反复编写繁琐的格式转换代码，维护成本极高。
生态集成困难：对接 Weaviate 或 Qdrant 等向量库时，缺乏统一接口，每次更换后端都要重构大量数据序列化逻辑。
调试效率低下：由于缺乏标准化的多模态数据结构，排查数据维度不匹配或类型错误往往耗费数小时。

使用 docarray 后

统一数据建模：利用基于 Pydantic 的 Document 结构，一行代码即可定义包含图像张量、文本嵌入和标量的强类型对象，自动校验数据完整性。
无缝流转互通：docarray 原生支持将数据直接序列化为 JSON 过 HTTP 或 Protobuf 过 gRPC，并能直接与 PyTorch/JAX 模型交互，消除了中间转换层。
一键向量入库：内置对 Weaviate、Qdrant 等主流向量库的支持，只需调用简单接口即可完成多模态数据的索引构建与相似度搜索。
开发聚焦业务：团队不再纠结于底层数据搬运，可将精力集中在优化检索算法和提升用户体验上，新功能上线周期缩短一半。

docarray 通过提供专为多模态 AI 设计的标准化数据结构，彻底打通了从模型训练到生产部署的数据链路，让复杂的多模态应用开发变得像操作普通 Python 对象一样简单。

运行环境要求

操作系统

未说明

GPU

非必需
支持多种后端（NumPy, PyTorch, TensorFlow, JAX），GPU 需求取决于用户选择的具体深度学习框架及模型训练场景，工具本身无强制显卡型号或显存要求

内存

未说明

依赖

notesDocArray 是一个用于多模态数据表示、传输、存储和检索的 Python 库。它基于 Pydantic 构建，与 FastAPI 和 Jina 无缝集成。用户可根据需要选择安装不同的深度学习后端（如 PyTorch、TensorFlow、JAX 或仅使用 NumPy）。当前 README 主要针对 v0.30+ 版本，若需使用旧版 (<=0.21) 需指定版本号安装。支持通过 HTTP/JSON 或 gRPC/Protobuf 进行数据传输，并兼容多种向量数据库（如 Weaviate, Qdrant, Redis 等）。

python未说明

pydantic

numpy

torch (可选)

tensorflow (可选)

jax (可选)

快速开始

多模态数据的数据结构

注意您当前查看的 README 是针对 DocArray 0.30 的，它相比 DocArray 0.21 引入了一些重大变化。如果您希望继续使用旧版本的 DocArray ≤0.21，请确保通过 pip install docarray==0.21 进行安装。更多信息请参考其代码库、文档以及修复分支。

DocArray 是一个 Python 库，专为多模态数据的表示、传输、存储和检索而精心设计。它专为多模态 AI 应用程序的开发而打造，其设计确保与广泛的 Python 和机器学习生态系统无缝集成。截至 2022 年 1 月，DocArray 以 Apache License 2.0 开源发布，目前是 LF AI & Data Foundation 中的一个沙盒项目。

:fire: 原生支持 NumPy、PyTorch、TensorFlow 和 JAX，特别适用于 模型训练场景。
:zap: 基于 Pydantic，可立即与 Web 和微服务框架（如 FastAPI 和 Jina）兼容。
:package: 支持多种向量数据库，包括 Weaviate、Qdrant、ElasticSearch、Redis、Mongo Atlas 和 HNSWLib。
:chains: 支持通过 HTTP 以 JSON 格式传输数据，或通过 gRPC 使用 Protobuf 进行传输。

安装

要从命令行安装 DocArray，请运行以下命令：

pip install -U docarray

注意如果您需要使用 DocArray ≤0.21，请确保通过 pip install docarray==0.21 进行安装，并查看其代码库、文档以及修复分支。

入门

刚接触 DocArray？根据您的使用场景和背景，有多种方式可以了解 DocArray：

来自纯 PyTorch 或 TensorFlow
来自 Pydantic
来自 FastAPI
来自 Jina
来自向量数据库
来自 Langchain

表示

DocArray 让您可以以一种天然契合机器学习的方式 表示您的数据。

这在以下各种场景中尤为有用：

:running: 您正在 训练模型：您处理的是形状和大小各异的张量，每个张量代表不同的元素。您希望有一种方法来逻辑地组织它们。
:cloud: 您正在 部署模型：例如通过 FastAPI，您希望精确地定义 API 端点。
:card_index_dividers: 您正在 解析数据：也许是为了将来在您的机器学习或数据科学项目中使用。

:bulb: 熟悉 Pydantic 吗？ 您会很高兴地知道， DocArray 不仅构建在 Pydantic 之上，而且与其完全兼容！此外，我们还有一个专门针对您的需求的部分！

本质上，DocArray 以类似于 Python 数据类的方式进行数据表示，同时将机器学习作为其核心组成部分：

from docarray import BaseDoc
from docarray.typing import TorchTensor, ImageUrl
import torch


# 定义您的数据模型
class MyDocument(BaseDoc):
    description: str
    image_url: ImageUrl  # 也可以是 VideoUrl、AudioUrl 等
    image_tensor: TorchTensor[1704, 2272, 3]  # 您可以指定张量的形状！


# 将多个文档堆叠成一个文档向量
from docarray import DocVec

vec = DocVec[MyDocument](
    [
        MyDocument(
            description="一只猫",
            image_url="https://example.com/cat.jpg",
            image_tensor=torch.rand(1704, 2272, 3),
        ),
    ]
    * 10
)
print(vec.image_tensor.shape)  # (10, 1704, 2272, 3)

点击查看更多详情

让我们更详细地看看如何使用 DocArray 表示您的数据：

from docarray import BaseDoc
from docarray.typing import TorchTensor, ImageUrl
from typing import Optional
import torch


# 定义您的数据模型
class MyDocument(BaseDoc):
    description: str
    image_url: ImageUrl  # 也可以是 VideoUrl、AudioUrl 等
    image_tensor: Optional[
        TorchTensor[1704, 2272, 3]
    ] = None  # 也可以是 NdArray 或 TensorflowTensor
    embedding: Optional[TorchTensor] = None

因此，您不仅可以定义数据的类型，还可以 指定张量的形状！

# 创建一个文档
doc = MyDocument(
    description="这是一张山的照片",
    image_url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
)

# 从 URL 加载图像张量
doc.image_tensor = doc.image_url.load()


# 使用您选择的任何模型计算嵌入
def clip_image_encoder(image_tensor: TorchTensor) -> TorchTensor:  # 虚拟函数
    return torch.rand(512)


doc.embedding = clip_image_encoder(doc.image_tensor)

print(doc.embedding.shape)  # torch.Size([512])

组合嵌套的 Document

当然，你可以将 Document 组合成嵌套结构：

from docarray import BaseDoc
from docarray.documents import ImageDoc, TextDoc
import numpy as np


class MultiModalDocument(BaseDoc):
    image_doc: ImageDoc
    text_doc: TextDoc


doc = MultiModalDocument(
    image_doc=ImageDoc(tensor=np.zeros((3, 224, 224))), text_doc=TextDoc(text='hi!')
)

在实际应用中，尤其是机器学习领域，很少会单独处理一个数据点。因此，你可以轻松地收集多个 Document：

收集多个 `Document`

在构建或与机器学习系统交互时，通常需要一次处理多个 Document（即多个数据点）。

DocArray 提供了两种数据结构来实现这一点：

DocVec：一组 Document 的向量。所有 Document 中的张量会被堆叠成一个单一的张量。非常适合批量处理和在机器学习模型中使用。
DocList：一组 Document 的列表。所有 Document 中的张量保持原样。非常适合流式传输、重新排序和数据洗牌。

我们先来看看 DocVec：

from docarray import DocVec, BaseDoc
from docarray.typing import AnyTensor, ImageUrl
import numpy as np


class Image(BaseDoc):
    url: ImageUrl
    tensor: AnyTensor  # 这允许使用 PyTorch、NumPy 和 TensorFlow 张量


vec = DocVec[Image](  # DocVec 根据你的自定义 Schema 进行参数化！
    [
        Image(
            url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
            tensor=np.zeros((3, 224, 224)),
        )
        for _ in range(100)
    ]
)

在上面的代码片段中，DocVec 是根据你想要使用的 Document 类型进行参数化的：DocVec[Image]。

这看起来可能有些奇怪，但我们相信你会很快习惯！此外，它还允许我们做一些很酷的事情，比如批量访问你在 Document 中定义的字段：

tensor = vec.tensor  # 获取 DocVec 中的所有张量
print(tensor.shape)  # 它们被堆叠成了一个单一的张量！
print(vec.url)  # 你也可以批量访问其他字段

第二种数据结构 DocList 的工作方式类似：

from docarray import DocList

dl = DocList[Image](  # DocList 根据你的自定义 Schema 进行参数化！
    [
        Image(
            url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
            tensor=np.zeros((3, 224, 224)),
        )
        for _ in range(100)
    ]
)

你仍然可以批量访问 Document 中的字段：

tensors = dl.tensor  # 获取 DocList 中的所有张量
print(type(tensors))  # 以张量列表的形式
print(dl.url)  # 你也可以批量访问其他字段

此外，你还可以向 DocList 中插入、删除或追加 Document：

# 追加
dl.append(
    Image(
        url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
        tensor=np.zeros((3, 224, 224)),
    )
)
# 删除
del dl[0]
# 插入
dl.insert(
    0,
    Image(
        url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
        tensor=np.zeros((3, 224, 224)),
    ),
)

你还可以无缝地在 DocVec 和 DocList 之间切换：

vec_2 = dl.to_doc_vec()
assert isinstance(vec_2, DocVec)

dl_2 = vec_2.to_doc_list()
assert isinstance(dl_2, DocList)

发送

DocArray 能够以与机器学习天然兼容的方式促进数据的传输。

这包括对 Protobuf 和 gRPC 的原生支持，以及对 HTTP、JSON、JSONSchema、Base64 和字节序列化的支持。

这一特性在以下几种场景中非常有用：

:cloud: 你正在部署模型服务，例如通过 Jina 或 FastAPI 等框架。
:spider_web: 你正在将模型分布到多台机器上，需要一种高效的数据传输方式。
:gear: 你正在构建微服务架构，需要一种在微服务之间传输数据的方法。

:bulb: 你熟悉 FastAPI 吗？ 你会很高兴地知道，DocArray 与 FastAPI 完全兼容！此外，我们还有一个专门为你准备的部分！

在数据传输过程中，序列化是一个关键步骤。让我们深入了解一下 DocArray 如何简化这一过程：

from docarray import BaseDoc
from docarray.typing import ImageTorchTensor
import torch


# 建模你的数据
class MyDocument(BaseDoc):
    description: str
    image: ImageTorchTensor[3, 224, 224]


# 创建一个 Document
doc = MyDocument(
    description="这是一个描述",
    image=torch.zeros((3, 224, 224)),
)

# 序列化它！
proto = doc.to_protobuf()
bytes_ = doc.to_bytes()
json = doc.json()

# 反序列化它！
doc_2 = MyDocument.from_protobuf(proto)
doc_4 = MyDocument.from_bytes(bytes_)
doc_5 = MyDocument.parse_raw(json)

当然，仅仅序列化是不够的。接下来，让我们看看 DocArray 如何与 Jina 和 FastAPI 集成。

存储

在对数据进行建模并可能将其分发之后，你通常会希望将其存储起来。这时，DocArray 就派上用场了！

Document Store 提供了一种无缝的方式来存储你的 Document，正如其名称所示。无论是在本地还是远程，你都可以通过相同的用户界面完成操作：

:cd: 本地磁盘，作为文件保存在你的本地文件系统中。
:bucket: 在 AWS S3 上。
:cloud: 在 Jina AI Cloud 上。

Document Store 的界面允许你从多个数据源推送和拉取 Document，而这一切都通过同一个用户界面完成。

例如，让我们看看如何使用本地磁盘存储：

from docarray import BaseDoc, DocList


class SimpleDoc(BaseDoc):
    text: str


docs = DocList[SimpleDoc]([SimpleDoc(text=f'doc {i}') for i in range(8)])
docs.push('file://simple_docs')

docs_pull = DocList[SimpleDoc].pull('file://simple_docs')

检索

文档索引 允许您将文档索引到 向量数据库 中，以便高效地进行基于相似度的检索。

这在以下场景中非常有用：

:left_speech_bubble: 使用领域知识增强 LLM 和聊天机器人（检索增强生成）
:mag: 神经搜索 应用
:bulb: 推荐系统

目前，文档索引支持 Weaviate、Qdrant、ElasticSearch、Redis、Mongo Atlas 以及 HNSWLib，未来还将支持更多！

文档索引接口允许您从多个向量数据库中索引和检索文档，且所有操作都使用相同的用户界面。它支持近似最近邻向量搜索、文本搜索、过滤以及混合搜索。

from docarray import DocList, BaseDoc
from docarray.index import HnswDocumentIndex
import numpy as np

from docarray.typing import ImageUrl, ImageTensor, NdArray


class ImageDoc(BaseDoc):
    url: ImageUrl
    tensor: ImageTensor
    embedding: NdArray[128]


# 创建一些数据
dl = DocList[ImageDoc](
    [
        ImageDoc(
            url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
            tensor=np.zeros((3, 224, 224)),
            embedding=np.random.random((128,)),
        )
        for _ in range(100)
    ]
)

# 创建一个文档索引
index = HnswDocumentIndex[ImageDoc](work_dir='/tmp/test_index')


# 索引您的数据
index.index(dl)

# 查找相似文档
query = dl[0]
results, scores = index.find(query, limit=10, search_field='embedding')

学习 DocArray

根据您的背景和使用场景，您可以采用不同的方式来理解 DocArray。

来自 DocArray ≤0.21 的用户

点击展开

如果您正在使用 DocArray 0.30.0 或更低版本，您应该熟悉其数据类 API。

DocArray ≥0.30 是这一理念的进一步发展。 每个文档都是通过类似数据类的接口创建的，这得益于 Pydantic。

这带来了以下优势：

灵活性： 无需遵循固定的字段集——您的数据定义了模式。
多模态性： 文档本质上只是字典。这使得它们可以轻松地从任何语言创建并发送，而不仅仅是 Python。

您可能也熟悉我们用于向量数据库集成的旧版文档存储。现在它们被称为 文档索引，并提供了以下改进（有关新 API，请参阅此处）：

混合搜索： 您现在可以将向量搜索与文本搜索结合，甚至可以根据任意字段进行过滤。
生产就绪： 新的文档索引是对各种向量数据库库的更轻量封装，使其更加健壮且易于维护。
更高的灵活性： 我们致力于支持您可以通过数据库官方客户端执行的任何配置或设置。

目前，文档索引支持 Weaviate、Qdrant、ElasticSearch、Redis、Mongo Atlas、精确最近邻搜索以及 HNSWLib，未来还将支持更多。

来自 Pydantic 的用户

点击展开

如果您来自 Pydantic 社区，可以将 DocArray 文档视为功能增强的 Pydantic 模型，而 DocArray 则是围绕这些模型的一系列扩展工具。

具体来说，我们的目标是 让 Pydantic 更适合机器学习领域——不是取代它，而是在此基础上构建！

这意味着您将获得以下好处：

面向机器学习的类型： Tensor、TorchTensor、Embedding 等，包括 张量形状验证。
与 FastAPI volle 兼容。
DocList 和 DocVec 将模型的概念推广到模型的序列或批次。非常适合 用于机器学习模型 和其他批量处理任务。
活体类型： ImageUrl 可以 .load() URL 并转换为图像张量，TextUrl 可以加载并分词文本文档等。
云就绪：支持序列化为 Protobuf，适用于微服务和 gRPC。
预建的多模态文档，适用于不同数据模态：图像、文本、3D网格、视频、音频等。请注意，所有这些都符合 Pydantic 模型的标准！
文档存储 和 文档索引 让您能够存储数据，并通过 向量搜索 进行检索。

这里最明显的优势是 对以机器学习为中心的数据提供一流的支持，例如 {Torch, TF, ...}Tensor、Embedding 等。

这还包括一些实用的功能，比如验证张量的形状：

from docarray import BaseDoc
from docarray.typing import TorchTensor
import torch


class MyDoc(BaseDoc):
    tensor: TorchTensor[3, 224, 224]


doc = MyDoc(tensor=torch.zeros(3, 224, 224))  # 成功
doc = MyDoc(tensor=torch.zeros(224, 224, 3))  # 通过重塑成功

try:
    doc = MyDoc(tensor=torch.zeros(224))  # 验证失败
except Exception as e:
    print(e)
    # tensor
    # 无法将形状为 (224,) 的张量重塑为 (3, 224, 224)（类型=value_error）


class Image(BaseDoc):
    tensor: TorchTensor[3, 'x', 'x']


Image(tensor=torch.zeros(3, 224, 224))  # 成功

try:
    Image(
        tensor=torch.zeros(3, 64, 128)
    )  # 验证失败，因为第二维度与第三维度不匹配
except Exception as e:
    print()


try:
    Image(
        tensor=torch.zeros(4, 224, 224)
    )  # 验证失败，因为第一维度不符合要求
except Exception as e:
    print(e)
    # 张量形状不匹配。预期 (3, 'x', 'x')，实际得到 (4, 224, 224)（类型=value_error）

try:
    Image(
        tensor=torch.zeros(3, 64)
    )  # 验证失败，因为维度不足
except Exception as e:
    print(e)
    # 张量形状不匹配。预期 (3, 'x', 'x')，实际得到 (3, 64)（类型=value_error）

来自 PyTorch

点击展开

如果你来自 PyTorch 生态，可以将 DocArray 看作一种 在数据流经模型时组织数据 的方式。

它为你提供了多项优势：

在类型提示中表达 张量的形状
将属于同一对象的张量分组，例如一段音频和一张图像
直接部署上线，通过复用你的数据模型作为 FastAPI 或 Jina API 的 Schema
使用 Protobuf 和 gRPC 在 微服务之间 连接模型组件

DocArray 可以直接用于机器学习模型中，以处理和表示多模态数据。这使得你能够在 nn.Module 的深层逻辑中利用 DocArray 的抽象来分析数据，并提供与 FastAPI 兼容的 Schema，从而简化从模型训练到模型推理部署的过渡。

为了更好地理解这一点，我们先来看一个原生 PyTorch 实现的三模态机器学习模型：

import torch
from torch import nn


def encoder(x):
    return torch.rand(512)


class MyMultiModalModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.audio_encoder = encoder()
        self.image_encoder = encoder()
        self.text_encoder = encoder()

    def forward(self, text_1, text_2, image_1, image_2, audio_1, audio_2):
        embedding_text_1 = self.text_encoder(text_1)
        embedding_text_2 = self.text_encoder(text_2)

        embedding_image_1 = self.image_encoder(image_1)
        embedding_image_2 = self.image_encoder(image_2)

        embedding_audio_1 = self.image_encoder(audio_1)
        embedding_audio_2 = self.image_encoder(audio_2)

        return (
            embedding_text_1,
            embedding_text_2,
            embedding_image_1,
            embedding_image_2,
            embedding_audio_1,
            embedding_audio_2,
        )

坦白说，这段代码可读性并不高。更糟糕的是，如果需要再增加一种模态，你就不得不修改整个代码库：既要更改 forward() 方法的返回值类型，还要对后续所有依赖这部分输出的代码进行大量调整。

接下来，让我们看看使用 DocArray 后同样的代码会是什么样子：

from docarray import DocList, BaseDoc
from docarray.documents import ImageDoc, TextDoc, AudioDoc
from docarray.typing import TorchTensor
from torch import nn
import torch


def encoder(x):
    return torch.rand(512)


class Podcast(BaseDoc):
    text: TextDoc
    image: ImageDoc
    audio: AudioDoc


class PairPodcast(BaseDoc):
    left: Podcast
    right: Podcast


class MyPodcastModel(nn.Module):
    def __init__(self):
        super().__init__()
        self.audio_encoder = encoder()
        self.image_encoder = encoder()
        self.text_encoder = encoder()

    def forward_podcast(self, docs: DocList[Podcast]) -> DocList[Podcast]:
        docs.audio.embedding = self.audio_encoder(docs.audio.tensor)
        docs.text.embedding = self.text_encoder(docs.text.tensor)
        docs.image.embedding = self.image_encoder(docs.image.tensor)

        return docs

    def forward(self, docs: DocList[PairPodcast]) -> DocList[PairPodcast]:
        docs.left = self.forward_podcast(docs.left)
        docs.right = self.forward_podcast(docs.right)

        return docs

是不是清晰多了？代码的可读性和可维护性瞬间提升。而且只需稍加改动，你就能将 PyTorch 模型转换为 FastAPI 应用，并复用你的 Document Schema 定义（详见下方“来自 FastAPI”部分）。这一切都通过 Python 式的类型提示来实现。

来自 TensorFlow

点击展开

与 PyTorch 方案类似，你也可以在 TensorFlow 中使用 DocArray 来处理和表示多模态数据。

首先，要在 TensorFlow 中使用 DocArray，你需要按照以下步骤安装：

pip install tensorflow==2.12.0
pip install protobuf==3.19.0

与在 PyTorch 中使用 DocArray 相比，在 TensorFlow 中使用时有一个主要区别：DocArray 的 TorchTensor 是 torch.Tensor 的子类，而 TensorFlowTensor 则不是。由于 tf.Tensor 的一些技术限制，DocArray 的 TensorFlowTensor 并非 tf.Tensor 的子类，而是将其存储在 .tensor 属性中。

这会对你产生什么影响呢？每当你需要访问张量数据——比如对其进行操作或传递给你的机器学习模型时——就不能直接传递 TensorFlowTensor 实例，而必须通过其 .tensor 属性来获取张量本身。

示例如下：

from typing import Optional

from docarray import DocList, BaseDoc

import tensorflow as tf


class Podcast(BaseDoc):
    audio_tensor: Optional[AudioTensorFlowTensor] = None
    embedding: Optional[AudioTensorFlowTensor] = None


class MyPodcastModel(tf.keras.Model):
    def __init__(self):
        super().__init__()
        self.audio_encoder = AudioEncoder()

    def call(self, inputs: DocList[Podcast]) -> DocList[Podcast]:
        inputs.audio_tensor.embedding = self.audio_encoder(
            inputs.audio_tensor.tensor
        )  # 访问 audio_tensor 的 .tensor 属性
        return inputs

来自 FastAPI

点击展开

文档是 Pydantic 模型（略有不同），因此它们与 FastAPI 完全兼容！

但为什么你应该使用它们，而不是你已经熟悉并喜爱的 Pydantic 模型呢？这是个好问题！

因为它们具备以机器学习为中心的功能、类型和验证，详见此处
因为 DocArray 可以充当向量数据库的 ORM，类似于 SQLModel 对 SQL 数据库的作用

为了进一步说明，我们来展示文档如何轻松地融入你的 FastAPI 应用：

import numpy as np
from fastapi import FastAPI
from docarray.base_doc import DocArrayResponse
from docarray import BaseDoc
from docarray.documents import ImageDoc
from docarray.typing import NdArray, ImageTensor


class InputDoc(BaseDoc):
    img: ImageDoc
    text: str


class OutputDoc(BaseDoc):
    embedding_clip: NdArray
    embedding_bert: NdArray


app = FastAPI()


def model_img(img: ImageTensor) -> NdArray:
    return np.zeros((100, 1))


def model_text(text: str) -> NdArray:
    return np.zeros((100, 1))


@app.post("/embed/", response_model=OutputDoc, response_class=DocArrayResponse)
async def create_item(doc: InputDoc) -> OutputDoc:
    doc = OutputDoc(
        embedding_clip=model_img(doc.img.tensor), embedding_bert=model_text(doc.text)
    )
    return doc


input_doc = InputDoc(text='', img=ImageDoc(tensor=np.random.random((3, 224, 224))))

async with AsyncClient(app=app, base_url="http://test") as ac:
    response = await ac.post("/embed/", data=input_doc.json())

就像普通的 Pydantic 模型一样！

来自 Jina

点击展开

Jina 已经采用 DocArray 作为其用于表示和序列化文档的库。

Jina 允许你部署和扩展使用 DocArray 构建的模型和服务，从而充分利用 DocArray 的序列化能力。

import numpy as np
from jina import Deployment, Executor, requests
from docarray import BaseDoc, DocList
from docarray.documents import ImageDoc
from docarray.typing import NdArray, ImageTensor


class InputDoc(BaseDoc):
    img: ImageDoc
    text: str


class OutputDoc(BaseDoc):
    embedding_clip: NdArray
    embedding_bert: NdArray


def model_img(img: ImageTensor) -> NdArray:
    return np.zeros((100, 1))


def model_text(text: str) -> NdArray:
    return np.zeros((100, 1))


class MyEmbeddingExecutor(Executor):
    @requests(on='/embed')
    def encode(self, docs: DocList[InputDoc], **kwargs) -> DocList[OutputDoc]:
        ret = DocList[OutputDoc]()
        for doc in docs:
            output = OutputDoc(
                embedding_clip=model_img(doc.img.tensor),
                embedding_bert=model_text(doc.text),
            )
            ret.append(output)
        return ret


with Deployment(
    protocols=['grpc', 'http'], ports=[12345, 12346], uses=MyEmbeddingExecutor
) as dep:
    resp = dep.post(
        on='/embed',
        inputs=DocList[InputDoc](
            [InputDoc(text='', img=ImageDoc(tensor=np.random.random((3, 224, 224)))]
        ),
        return_type=DocList[OutputDoc],
    )
    print(resp)

来自向量数据库

点击展开

如果你将 DocArray 视为通用的向量数据库客户端，那么你可以把它看作一种新型的向量数据库 ORM。 DocArray 的作用是将多模态、嵌套且领域特定的数据映射到向量数据库中，在那里存储并使其可搜索：

from docarray import DocList, BaseDoc
from docarray.index import HnswDocumentIndex
import numpy as np

from docarray.typing import ImageUrl, ImageTensor, NdArray


class ImageDoc(BaseDoc):
    url: ImageUrl
    tensor: ImageTensor
    embedding: NdArray[128]


# 创建一些数据
dl = DocList[ImageDoc](
    [
        ImageDoc(
            url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
            tensor=np.zeros((3, 224, 224)),
            embedding=np.random.random((128,)),
        )
        for _ in range(100)
    ]
)

# 创建一个文档索引
index = HnswDocumentIndex[ImageDoc](work_dir='/tmp/test_index2')


# 索引你的数据
index.index(dl)

# 查找相似的文档
query = dl[0]
results, scores = index.find(query, limit=10, search_field='embedding')

目前，DocArray 支持以下向量数据库：

Weaviate
Qdrant
Elasticsearch v8 和 v7
Redis
Milvus
ExactNNMemorySearch 作为一种本地替代方案，提供精确的 kNN 搜索。
HNSWlib 作为一种本地优先的近似最近邻搜索替代方案
Mongo Atlas

目前正在开发对 OpenSearch 的集成。

当然，这仅仅是 DocArray 能够做到的事情之一，所以我们鼓励你查看本 README 的其余部分！

来自 Langchain

点击展开

借助 DocArray，你可以通过 Langchain 将外部数据连接到 LLM。DocArray 让你能够自由定义灵活的文档模式，并从不同的后端中选择文档存储方式。创建文档索引后，你可以使用 DocArrayRetriever 将其连接到你的 Langchain 应用程序。

通过以下命令安装 Langchain：

pip install langchain

定义模式并创建文档：

from docarray import BaseDoc, DocList
from docarray.typing import NdArray
from langchain.embeddings.openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings()


# 定义文档模式
class MovieDoc(BaseDoc):
    title: str
    description: str
    year: int
    embedding: NdArray[1536]


movies = [
    {"title": "#1 title", "description": "#1 description", "year": 1999},
    {"title": "#2 title", "description": "#2 description", "year": 2001},
]

# 嵌入“description”并创建文档
docs = DocList[MovieDoc](
    MovieDoc(embedding=embeddings.embed_query(movie["description"]), **movie)
    for movie in movies
)

使用任何支持的后端初始化文档索引：

from docarray.index import (
    InMemoryExactNNIndex,
    HnswDocumentIndex,
    WeaviateDocumentIndex,
    QdrantDocumentIndex,
    ElasticDocIndex,
    RedisDocumentIndex,
    MongoDBAtlasDocumentIndex,
)

# 选择合适的后端并用数据初始化
db = InMemoryExactNNIndex[MovieDoc](docs)

最后，初始化检索器并将其集成到你的链中！

from langchain.chat_models import ChatOpenAI
from langchain.chains import ConversationalRetrievalChain
from langchain.retrievers import DocArrayRetriever

# 创建一个检索器
retriever = DocArrayRetriever(
    index=db,
    embeddings=embeddings,
    search_field="embedding",
    content_field="description",
)

# 在你的链中使用该检索器
model = ChatOpenAI()
qa = ConversationalRetrievalChain.from_llm(model, retriever=retriever)

或者，你也可以使用内置的向量存储。Langchain 支持两种向量存储：DocArrayInMemorySearch 和 DocArrayHnswSearch。这两种存储都易于使用，最适合中小型数据集。

参阅

DocArray 是 LF AI Projects, LLC 的注册商标

DocArray 快速上手指南

DocArray 是一个专为多模态数据（如文本、图像、音频、视频等）设计的 Python 库。它提供了统一的数据结构，用于数据的表示、传输、存储和检索，能够无缝集成 PyTorch、TensorFlow、JAX 等主流深度学习框架以及 FastAPI、Jina 等微服务框架。

环境准备

操作系统：Linux, macOS, Windows
Python 版本：建议 Python 3.8 或更高版本
前置依赖：
- 本库基于 Pydantic 构建，安装时会自动处理依赖。
- 根据实际需求，建议预先安装深度学习框架（如 torch, tensorflow, jax）以启用完整的张量类型支持。

安装步骤

使用 pip 进行安装。国内开发者推荐使用清华源或阿里源以加速下载。

# 官方源安装
pip install -U docarray

# 推荐：使用清华大学镜像源加速安装
pip install -U docarray -i https://pypi.tuna.tsinghua.edu.cn/simple

注意：本文档适用于 DocArray v0.30+ 版本。如果您需要使用旧版 (v0.21)，请运行 pip install docarray==0.21。

基本使用

1. 定义多模态数据结构

DocArray 允许你像定义 Python 数据类一样定义数据结构，并直接指定张量（Tensor）的形状和多模态字段类型。

from docarray import BaseDoc
from docarray.typing import TorchTensor, ImageUrl
import torch


# 定义你的数据模型
class MyDocument(BaseDoc):
    description: str
    image_url: ImageUrl  # 支持 ImageUrl, VideoUrl, AudioUrl 等
    # 可以直接指定张量的具体形状 [高，宽，通道]
    image_tensor: TorchTensor[1704, 2272, 3]

2. 创建与处理数据实例

你可以轻松创建文档实例，并利用内置方法加载数据或计算嵌入向量。

# 创建一个文档实例
doc = MyDocument(
    description="这是一张山的照片",
    image_url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
)

# 从 URL 加载图像张量
doc.image_tensor = doc.image_url.load()

# 模拟一个编码函数（实际使用中可替换为 CLIP 等模型）
def clip_image_encoder(image_tensor: TorchTensor) -> TorchTensor:
    return torch.rand(512)

# 计算嵌入向量
doc.embedding = clip_image_encoder(doc.image_tensor)

print(doc.embedding.shape)  # 输出：torch.Size([512])

3. 批量数据处理 (DocVec vs DocList)

在机器学习场景中，通常需要批量处理数据。DocArray 提供两种核心容器：

DocVec：将多个文档中的张量堆叠成一个大张量。适用于模型训练和批量推理，性能极高。
DocList：保持文档列表形式，张量不堆叠。适用于数据流式传输、重排序或动态增删。

使用 DocVec 进行批量操作

from docarray import DocVec, BaseDoc
from docarray.typing import AnyTensor, ImageUrl
import numpy as np

class Image(BaseDoc):
    url: ImageUrl
    tensor: AnyTensor  # 兼容 torch, numpy, tensorflow

# 初始化 DocVec，所有张量自动堆叠
vec = DocVec[Image](
    [
        Image(
            url="https://example.com/image.jpg",
            tensor=np.zeros((3, 224, 224)),
        )
        for _ in range(100)  # 创建 100 个样本
    ]
)

# 批量访问字段：直接获取堆叠后的大张量
batch_tensors = vec.tensor 
print(batch_tensors.shape)  # 输出：(100, 3, 224, 224)

灵活转换

你可以根据需求在 DocVec 和 DocList 之间无缝切换：

from docarray import DocList

# 转换为列表模式（适合后续单独处理或追加数据）
dl = vec.to_doc_list()

# 也可以从列表转回向量模式
vec_new = dl.to_doc_vec()

4. 数据序列化与传输

DocArray 原生支持多种序列化格式，方便通过 HTTP (JSON) 或 gRPC (Protobuf) 传输数据。

# 序列化为不同格式
proto_bytes = doc.to_protobuf()
json_str = doc.json()
raw_bytes = doc.to_bytes()

# 反序列化还原
doc_restored = MyDocument.from_protobuf(proto_bytes)
doc_from_json = MyDocument.parse_raw(json_str)

版本历史

v0.40.12025/03/21

v0.40.02023/12/22

v0.39.12023/10/23

v0.39.02023/10/02

v0.38.02023/09/07

v0.37.12023/08/22

v0.37.02023/08/03

v0.36.02023/07/18

v0.35.02023/07/03

v0.21.12023/06/26

v0.34.02023/06/21

v0.33.02023/06/06

v0.32.12023/05/26

v0.32.02023/05/16

v0.31.12023/05/08

v0.31.02023/05/08

v0.30.02023/04/18

v0.21.02023/01/17

v0.20.12022/12/12

v0.20.02022/12/07

常见问题

如何在 FastAPI 中为 DocArray 的 BaseDoc 生成 Swagger UI 文档？

安装 docarray[common] 后仍然报错提示缺少 google.protobuf 库怎么办？

在使用 numpy==1.26.1 时从 DataFrame 反序列化数据遇到错误如何解决？

索引嵌套的 DocList 时出现 'RuntimeError: The number of elements exceeds the specified limit' 错误怎么办？

BaseDoc 对象的 dict() 方法和内置的 dict(doc) 函数有什么区别？

初始化大量的 Document 或 DocumentArray 时速度非常慢，有什么优化方法吗？

Weaviate 最小示例在调试模式下运行正常，但整体运行时失败，特别是在 M1 Mac 上？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|5天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 docarray 时

使用 docarray 后

运行环境要求

快速开始

安装

入门

表示

组合嵌套的 Document

收集多个 Document

发送

存储

检索

学习 DocArray

来自 DocArray ≤0.21 的用户

来自 Pydantic 的用户

来自 PyTorch

来自 TensorFlow

来自 FastAPI

来自 Jina

来自向量数据库

来自 Langchain

参阅

DocArray 快速上手指南

环境准备

安装步骤

基本使用

1. 定义多模态数据结构

2. 创建与处理数据实例

3. 批量数据处理 (DocVec vs DocList)

使用 DocVec 进行批量操作

灵活转换

4. 数据序列化与传输

版本历史

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown

收集多个 `Document`