unstructured

14.4k 1.2k 中等 1 次阅读今天Apache-2.0开发框架数据工具其他语言模型图像

AI 解读由 AI 自动生成，仅供参考

unstructured 是一款开源的 ETL（提取、转换、加载）工具，旨在轻松地将各类复杂文档转化为结构化数据。在人工智能应用开发中，大语言模型通常难以直接理解 PDF、Word、PPT 或扫描件等非结构化文件中的杂乱信息。unstructured 正是为了解决这一痛点而生，它能自动解析多种文件格式，清理冗余内容，并将文本整理成模型易于处理的干净格式。

这款工具特别适合开发者、数据工程师以及 AI 研究人员使用。当你需要构建基于私有文档的知识库、研发 RAG（检索增强生成）系统，或进行大规模文档数据分析时，unstructured 能提供强大的支持。其核心技术亮点在于卓越的文档“分区”能力，能够精准识别并分离文档中的标题、段落、表格、页眉页脚等元素，同时支持智能分块（chunking）与数据富化，为后续的向量化嵌入打下坚实基础。作为连接原始文档与大模型之间的桥梁，unstructured 以开源免费的姿态，帮助用户高效打通数据预处理流程，让非结构化数据真正变得可用、好用。

使用场景

某金融合规团队需要从数千份格式各异的 PDF 财报、扫描件和 Word 合同中提取关键风险数据，以构建企业级 RAG（检索增强生成）问答系统。

没有 unstructured 时

解析格式单一：传统库如 PyPDF2 难以处理扫描版图片或复杂排版的文档，导致大量非文本内容直接丢失。
结构信息混乱：提取出的文字往往丢失了标题、页眉页脚与正文的层级关系，变成无意义的“文字汤”，大模型无法理解文档逻辑。
清洗成本高昂：开发人员需编写大量正则表达式手动去除乱码和无关字符，耗时且容易误删关键数据。
分块效果差：由于缺乏语义感知，简单的按字符数切分会切断完整的句子或段落，严重降低后续向量检索的准确率。

使用 unstructured 后

全格式统一支持：unstructured 能自动识别并高质量解析 PDF、图片、PPT 等 20+ 种复杂格式，即使是扫描件也能通过内置 OCR 提取文字。
智能结构还原：自动将文档元素分类为标题、叙述文本、表格等结构化对象，完整保留文档的逻辑层级，让大模型“读懂”内容。
开箱即用的清洗：内置去重、去除特殊符号等清洗流程，无需额外编码即可输出干净、标准化的 JSON 数据。
语义感知分块：提供基于标题和段落语义的智能切分策略，确保每个数据块上下文完整，显著提升 RAG 系统的回答质量。

unstructured 将原本需要数周的非结构化数据清洗工程，缩短为几行代码的自动化流程，让团队能专注于核心业务逻辑而非数据预处理。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具主要依赖系统级库而非单纯的 Python 包。处理不同文档类型需安装对应的系统依赖：libmagic-dev 用于文件类型检测，poppler-utils 用于 PDF 和图片处理，tesseract-ocr 用于 OCR（可选装 tesseract-lang 支持多语言），libreoffice 用于 MS Office 文档。Windows 用户建议使用 conda 安装。项目使用 uv 进行依赖管理。Docker 镜像支持 x86_64 和 Apple Silicon 架构。

python3.8+

libmagic-dev

poppler-utils

tesseract-ocr

libreoffice

pypandoc-binary

快速开始

Open-Source Pre-Processing Tools for Unstructured Data

The unstructured library provides open-source components for ingesting and pre-processing images and text documents, such as PDFs, HTML, Word docs, and many more. The use cases of unstructured revolve around streamlining and optimizing the data processing workflow for LLMs. unstructured modular functions and connectors form a cohesive system that simplifies data ingestion and pre-processing, making it adaptable to different platforms and efficient in transforming unstructured data into structured outputs.

Try the Unstructured Platform Product

Ready to move your data processing pipeline to production, and take advantage of advanced features? Check out Unstructured Platform. In addition to better processing performance, take advantage of chunking, embedding, and image and table enrichment generation, all from a low code UI or an API. Request a demo from our sales team to learn more about how to get started.

:eight_pointed_black_star: Quick Start

There are several ways to use the unstructured library:

Run the library in a container or
Install the library
1. Install from PyPI
2. Install for local development
For installation with conda on Windows system, please refer to the documentation

在容器中运行该库

以下说明旨在帮助您使用 Docker 与 unstructured 进行交互。如果您尚未在本地安装 Docker，请参阅此处。

注意：我们构建了多平台镜像，以支持 x86_64 和 Apple Silicon 硬件。docker pull 应会下载适合您架构的镜像，但如有需要，您也可以通过 --platform 参数指定（例如 --platform linux/amd64）。

我们为每次推送到 main 分支都会构建 Docker 镜像。每个镜像都打上对应的短提交哈希标签（如 fbc7a69）和应用版本标签（如 0.5.5-dev1）。我们还会将最新镜像标记为 latest。要利用这一点，请从我们的镜像仓库拉取镜像。

docker pull downloads.unstructured.io/unstructured-io/unstructured:latest

拉取完成后，您可以基于此镜像创建一个容器，并进入该容器的 Shell。

# 创建容器
docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest

# 这将带您进入正在运行 Docker 镜像的 Bash Shell
docker exec -it unstructured bash

您也可以自行构建 Docker 镜像。请注意，基础镜像是 wolfi-base，它会定期更新。如果您在本地构建镜像，由于 wolfi-base 的上游变更，docker build 可能会失败。

如果您只打算解析一种类型的数据，可以通过注释掉其他数据类型所需的某些包或依赖项来加快镜像构建速度。请参考 Dockerfile，了解哪些行对您的用例是必要的。

make docker-build

# 这将带您进入正在运行 Docker 镜像的 Bash Shell
make docker-start-bash

进入运行中的容器后，您可以直接在 Python 解释器的交互模式下尝试操作。

# 这将带您进入 Python 控制台，以便运行下面的分区函数
python3

>>> from unstructured.partition.pdf import partition_pdf
>>> elements = partition_pdf(filename="example-docs/layout-parser-paper-fast.pdf")

>>> from unstructured.partition.text import partition_text
>>> elements = partition_text(filename="example-docs/fake-text.txt")

安装该库

请按照以下说明开始使用 unstructured 并测试您的安装。

使用 pip install "unstructured[all-docs]" 安装支持所有文档类型的 Python SDK。
- 对于不需要任何额外依赖的纯文本文件、HTML、XML、JSON 和电子邮件，您可以直接运行 pip install unstructured。
- 若要处理其他类型的文档，可以安装这些文档所需的附加组件，例如 pip install "unstructured[docx,pptx]"。
如果您的系统尚未安装以下系统依赖项，请进行安装。根据您解析的文档类型，可能并不需要全部依赖项：
- libmagic-dev（文件类型检测）
- poppler-utils（图像和 PDF）
- tesseract-ocr（图像和 PDF；安装 tesseract-lang 可获得额外的语言支持）
- libreoffice（MS Office 文档）
- pandoc 会通过 pypandoc-binary Python 包自动打包，无需单独安装。
关于如何在 Windows 上安装以及了解其他功能的依赖项，请参阅安装文档此处。

此时，您应该能够运行以下代码：

from unstructured.partition.auto import partition

elements = partition(filename="example-docs/eml/fake-email.eml")
print("\n\n".join([str(el) for el in elements]))

本地开发的安装说明

以下说明旨在帮助您在计划为项目做出贡献时，在本地设置并运行 unstructured。

该项目使用 uv 进行依赖管理。请先安装它：

# macOS / Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

然后安装所有依赖项（基础、附加、开发、测试和 lint 组）：

make install

这会运行 uv sync --locked --all-extras --all-groups，从而一步创建虚拟环境并安装所有内容。无需手动创建或激活虚拟环境。

如果仅需安装特定文档类型的附加组件：

uv sync --extra pdf
uv sync --extra csv --extra docx

在更改 pyproject.toml 中的依赖项后，更新锁定文件：

make lock

可选：
- 要在本地安装用于处理图像和 PDF 的附加组件，可运行 uv sync --extra pdf --extra image。
- 处理图像文件时，需要 tesseract。安装说明请参见此处。
- 处理 PDF 文件时，需要 tesseract 和 poppler。pdf2image 文档提供了在不同平台上安装 poppler 的说明。

此外，如果您计划为 unstructured 做出贡献，我们还提供了一个可选的 pre-commit 配置文件，以确保您的代码符合 unstructured 中使用的格式和 lint 标准。如果您不希望每次提交前自动整理代码，可以使用 make check 来查看是否需要进行 lint 或格式化调整，并使用 make tidy 来应用这些调整。

如果使用可选的 pre-commit，只需运行 pre-commit install 即可安装钩子，因为 pre-commit 包已在上述 make install 中一并安装。最后，如果您决定使用 pre-commit，也可以通过 pre-commit uninstall 来卸载这些钩子。

除了在本地操作系统中开发之外，我们还提供了一个辅助工具，即使用 Docker 提供开发环境：

make docker-start-dev

这将启动一个 Docker 容器，其中您的本地仓库被挂载到 /mnt/local_unstructured。该 Docker 镜像使您无需担心本地操作系统与仓库及其依赖项的兼容性问题，即可进行开发。

:clap: 快速游览

文档

如需更全面的文档，请访问 https://docs.unstructured.io 。您还可以在文档页面上了解更多关于我们其他产品的信息，包括我们的 SaaS API。

以下是开源文档页面中对新用户有帮助的一些页面：

PDF 文档解析示例

以下示例展示了如何开始使用 unstructured 库。在 unstructured 中解析文档最简单的方式是使用 partition 函数。如果使用 partition 函数，unstructured 会自动检测文件类型，并将其路由到相应的特定于文件类型的分割函数。如果您使用 partition 函数，可能需要根据文档类型安装额外的依赖项。例如，要安装 docx 的依赖项，您需要运行 pip install "unstructured[docx]"。更多详细信息请参阅我们的安装指南。

from unstructured.partition.auto import partition

elements = partition("example-docs/layout-parser-paper.pdf")

运行 print("\n\n".join([str(el) for el in elements])) 可以获取输出的字符串表示，其内容如下：


LayoutParser：基于深度学习的文档图像分析统一工具包

沈泽江 1 ( (cid:0) ), 张若晨 2 , 梅丽莎·戴尔 3 , 本杰明·查尔斯·热姆·李 4 , 雅各布·卡尔森 3 , 和 李伟宁 5

摘要。近年来，文档图像分析（DIA）领域的进步主要得益于神经网络的应用。理想情况下，研究成果应能轻松部署到生产环境中，并为进一步研究提供扩展性。然而，代码库组织松散、模型配置复杂等多种因素，使得重要创新难以被广泛用户群体重复使用。尽管自然语言处理和计算机视觉等领域一直在努力提高可复用性并简化深度学习（DL）模型开发，但这些方法并未针对 DIA 领域的挑战进行优化。这构成了现有工具集中的一个重大缺口，因为 DIA 在社会科学和人文学科的众多研究领域中占据核心地位。本文介绍了 LayoutParser，一个开源库，旨在简化深度学习在 DIA 研究和应用中的使用。LayoutParser 核心库提供了一组简单直观的接口，用于应用和定制深度学习模型，以实现版面检测、字符识别以及许多其他文档处理任务。为促进扩展性，LayoutParser 还整合了一个社区平台，用于共享预训练模型和完整的文档数字化流水线。我们证明了 LayoutParser 对于实际应用场景中的轻量级和大规模数字化流水线均有所帮助。该库已在 https://layout-parser.github.io 上公开发布。

关键词：文档图像分析 · 深度学习 · 版面分析 · 字符识别 · 开源库 · 工具包。

引言

基于深度学习（DL）的方法已成为多种文档图像分析（DIA）任务的最先进手段，包括文档图像分类 [11,

有关完整选项列表及如何使用特定于文件类型的分割函数的说明，请参阅我们文档中的分割部分。

:guardsman: 安全政策

有关如何报告安全漏洞的信息，请参阅我们的安全政策。

:bug: 报告错误

遇到错误了吗？请创建一个新的 GitHub 问题，并使用我们的错误报告模板描述问题。为了帮助我们诊断问题，请使用 python scripts/collect_env.py 命令收集您的系统环境信息，并将其包含在报告中。您的帮助将有助于我们不断改进软件——感谢您！

:books: 了解更多

版块	描述
公司官网	Unstructured.io 产品及公司信息
文档	完整的 API 文档
批量处理	通过 Unstructured 批量导入文档

:chart_with_upwards_trend: 分析

遥测功能 默认关闭。如需启用，请在导入 unstructured 之前设置 UNSTRUCTURED_TELEMETRY_ENABLED=true（或 =1）。如需禁用，请将 DO_NOT_TRACK 或 SCARF_NO_ANALYTICS 设置为任意非空值（例如 true、1、yes、false、0——任何非空字符串都会禁用遥测功能）；禁用优先于启用。如果您不想禁用遥测功能，可以不设置该变量或将其留空。详情请参阅我们的隐私政策。

Unstructured 快速上手指南

unstructured 是一个开源的非结构化数据预处理工具库，专为大语言模型（LLM）设计。它能高效地将 PDF、HTML、Word 文档、图片等非结构化数据转换为结构化输出，简化数据摄入和清洗流程。

环境准备

在开始之前，请确保您的系统满足以下要求并安装了必要的系统依赖。根据您的使用场景（处理的文件类型），可能需要安装不同的依赖包。

系统要求

Python 3.8+
操作系统：Linux, macOS, Windows (Windows 用户建议参考官方文档使用 Conda 或 Docker)

前置系统依赖

如果您计划处理多种文档格式（如 PDF、图片、Office 文档），请在安装 Python 包前先安装以下系统级依赖：

Ubuntu/Debian:

sudo apt-get update
sudo apt-get install -y libmagic-dev poppler-utils tesseract-ocr libreoffice pandoc
# 如需更多语言支持，可安装 tesseract-lang

macOS (使用 Homebrew):

brew install libmagic poppler tesseract libreoffice pandoc

注意：

libmagic-dev: 用于文件类型检测

poppler-utils: 用于处理图片和 PDF

tesseract-ocr: 用于 OCR 文字识别（图片和 PDF）

libreoffice: 用于处理 MS Office 文档

pandoc: Python 包 pypandoc-binary 会自动捆绑，通常无需手动安装系统版。

安装步骤

您可以选择直接通过 PyPI 安装，或使用 Docker 容器运行。

方式一：使用 Pip 安装（推荐）

1. 全功能安装 支持所有文档类型（PDF, Word, PPT, 图片等）：

pip install "unstructured[all-docs]"

2. 按需安装 如果仅处理纯文本、HTML、JSON 或邮件，无需额外依赖：

pip install unstructured

如果只需处理特定格式（例如仅 Word 和 PPT）：

pip install "unstructured[docx,pptx]"

方式二：使用 Docker 运行

如果您希望避免配置系统依赖，可以直接拉取官方镜像：

# 拉取最新镜像
docker pull downloads.unstructured.io/unstructured-io/unstructured:latest

# 创建并启动容器
docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest

# 进入容器交互界面
docker exec -it unstructured bash

基本使用

安装完成后，您可以使用 partition 函数自动识别文件类型并进行解析。以下是最简单的使用示例：

Python 代码示例

from unstructured.partition.auto import partition

# 自动识别文件类型并解析
elements = partition(filename="example-docs/eml/fake-email.eml")

# 打印提取的内容
print("\n\n".join([str(el) for el in elements]))

针对特定文件类型的用法

您也可以直接调用特定格式的解析函数：

# 解析 PDF
from unstructured.partition.pdf import partition_pdf
elements = partition_pdf(filename="example-docs/layout-parser-paper-fast.pdf")

# 解析纯文本
from unstructured.partition.text import partition_text
elements = partition_text(filename="example-docs/fake-text.txt")

解析后的 elements 对象包含文档的结构化块（如标题、段落、表格等），可直接用于后续的 LLM 嵌入或向量数据库存储。

版本历史

0.22.162026/04/03

0.22.122026/04/02

0.22.102026/03/31

0.22.62026/03/26

0.22.42026/03/26

0.21.52026/02/24

0.21.22026/02/23

0.21.12026/02/22

0.21.02026/02/22

0.20.82026/02/20

0.20.62026/02/19

0.20.22026/02/13

0.20.12026/02/12

0.19.32026/02/11

0.18.322026/02/10

0.18.312026/01/27

0.18.282026/01/09

0.18.272026/01/08

0.18.262026/01/05

0.18.242025/12/30

常见问题

运行 partition_pdf() 时遇到 NLTK 错误：Resource "punkt_tab" not found 如何解决？

处理 PDF 时遇到 PIL.UnidentifiedImageError: cannot identify image file 错误怎么办？

partition_html 为什么只能提取包含嵌套标签（如 span, b）的 div 元素的部分文本？

如何从 PDF 中提取图片并获取 base64 格式的元数据？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架