docetl

3.7k 386 较难 1 次阅读 3天前MIT数据工具Agent语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

DocETL 是一个专为复杂文档处理设计的智能数据提取与转换（ETL）系统。它利用大语言模型（LLM）的代理能力，帮助用户构建高效的数据处理流水线，特别擅长应对非结构化文档中那些传统规则难以处理的复杂任务。

在日常工作中，从大量文档中精准提取、清洗和整合信息往往是一项耗时且容易出错的挑战。DocETL 正是为了解决这一痛点而生，它将繁琐的数据预处理过程自动化，确保数据质量的同时大幅降低人工成本。无论是处理长篇报告、会议记录还是多媒体转录文本，它都能提供稳定可靠的解决方案。

这款工具主要面向开发者、数据工程师以及 AI 应用研究人员。如果你正在构建需要深度理解文档内容的应用，或者希望优化现有的数据处理流程，DocETL 将是一个得力的助手。普通用户若具备一定的技术基础，也可通过其提供的辅助提示词快速上手。

DocETL 的核心亮点在于其独特的“双模式”工作流。一方面，它提供了名为 DocWrangler 的交互式可视化界面，允许用户在开发阶段实时调试提示词、逐步构建管道并即时查看结果，极大地降低了试错门槛；另一方面，它提供了成熟的 Python 包，支持将验证后的流程无缝部署到生产环境中。此外，DocETL 还引入了如“Gleaning”（精炼）等先进操作符，能显著提升模型输出的准确性与一致性。结合对 Claude Code 等 AI 编程助手的良好支持，用户可以更轻松地编写和维护复杂的数据处理逻辑，实现从原型设计到实际落地的平滑过渡。

使用场景

某金融科技公司风控团队需从数千份非结构化的企业信贷申请 PDF 中提取关键财务指标（如营收、负债率）及风险条款，用于自动化审批决策。

没有 docetl 时

提取准确率极低：传统 OCR 配合正则表达式难以处理复杂的表格跨页、手写签名遮挡或非标准排版，导致关键字段遗漏或错位，人工复核成本极高。
逻辑一致性难保障：不同文档中对“净利润”的定义可能隐含不同扣除项，硬编码规则无法理解上下文语义，导致数据口径混乱，后续清洗工作量巨大。
迭代开发周期漫长：当发现新的文档格式或提取错误时，工程师需重新编写解析代码并全量回归测试，调整一次提示词或逻辑往往需要数天时间。
缺乏中间态调试能力：黑盒式的处理流程让开发者难以定位具体是哪一步骤出错，面对成千上万份文档，排查个别异常案例如同大海捞针。

使用 docetl 后

智能语义提取：利用 docetl 构建基于 LLM 的代理管道，能精准理解复杂语境下的财务术语，即使面对非标准表格也能通过语义推理准确抓取数据，显著降低人工复核率。
自动消歧与标准化：通过 docetl 的 Resolve 操作符，系统能自动识别并统一不同文档中的异构字段定义（如将“EBITDA”与“息税折旧摊销前利润”对齐），确保输出数据结构一致。
交互式快速迭代：借助 DocWrangler 可视化界面，分析师可实时调整提示词并即时查看样本结果，无需编写代码即可在几分钟内完成策略优化与验证。
透明化链路追踪：管道每一步的中间结果均可见，开发者能快速定位特定文档的处理瓶颈，针对性地优化单个节点，极大提升了调试效率。

docetl 将原本耗时数周的非结构化文档清洗工作缩短至小时级，同时通过交互式开发模式大幅降低了 AI 数据管道的构建门槛与维护成本。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该工具主要依赖 LLM API（如 OpenAI 或 AWS Bedrock），需配置相应的 API Key。支持通过 Docker 快速部署或使用 uv 进行本地开发环境安装。前端基于 TypeScript/Next.js，后端基于 Python。

python3.10+

litellm

openai

快速开始

📜 DocETL：赋能复杂文档处理流水线

DocETL示意图

DocETL 是一款用于创建和执行数据处理流水线的工具，尤其适用于复杂的文档处理任务。它提供以下功能：

一个交互式 UI 演示环境，用于迭代式提示工程和流水线开发
一个 Python 软件包，可用于从命令行或 Python 代码中运行生产级流水线

💡 需要帮助编写你的流水线吗？
你可以使用 Claude Code（推荐）来辅助你编写流水线——请参阅快速入门指南：https://ucbepic.github.io/docetl/quickstart-claude-code/
如果你更倾向于使用 ChatGPT 或 Claude 应用程序，请访问 docetl.org/llms.txt，那里提供了一个大型提示模板，你可以在描述任务之前直接复制粘贴。

🌟 社区项目

📚 教育资源

🚀 快速上手

使用 DocETL 主要有两种方式：

1. 🎮 DocWrangler，交互式 UI 演示环境（推荐用于开发）

DocWrangler 可帮助你逐步开发流水线：

实验不同的提示并实时查看结果
分步构建你的流水线
导出最终确定的流水线配置以供生产使用

DocWrangler

DocWrangler 托管在 docetl.org/playground 上。但如果你想在本地运行演示环境，可以采取以下两种方式之一：

使用 Docker（推荐，快速启动）：make docker
手动搭建开发环境

详细说明请参阅 Playground 设置指南。

2. 📦 Python 软件包（用于生产环境）

如果你想将 DocETL 作为 Python 软件包使用：

前提条件

Python 3.10 或更高版本
OpenAI API 密钥

pip install docetl

在你的项目目录中创建一个 .env 文件：

OPENAI_API_KEY=your_api_key_here  # LLM 操作所需（或你选择的其他 LLM 的密钥）

⚠️ 重要提示：两个不同的 .env 文件

根目录下的 .env：由执行 DocETL 流水线的后端 Python 服务器使用

website/.env.local：由 DocWrangler 的前端 TypeScript 代码使用（用于改进提示和聊天机器人等功能）

要查看如何使用 DocETL 的示例，请参阅教程。

2. 🎮 DocWrangler 设置

要在本地运行 DocWrangler，你有两种选择：

选项 A：使用 Docker（推荐，快速启动）

让 DocWrangler 演示环境运行起来最简单的方法是：

创建所需的环境文件：

在根目录下创建 .env 文件（用于执行流水线的后端 Python 服务器）：

OPENAI_API_KEY=your_api_key_here  # 用于 DocETL 流水线执行引擎
# 后端配置
BACKEND_ALLOW_ORIGINS=http://localhost:3000,http://127.0.0.1:3000
BACKEND_HOST=localhost
BACKEND_PORT=8000
BACKEND_RELOAD=True

# 前端配置
FRONTEND_HOST=0.0.0.0
FRONTEND_PORT=3000

# Docker Compose 中的主机端口映射（若未设置，则使用 docker-compose.yml 中的默认值）
FRONTEND_DOCKER_COMPOSE_PORT=3031
BACKEND_DOCKER_COMPOSE_PORT=8081

# 支持的文本文件编码
TEXT_FILE_ENCODINGS=utf-8,latin1,cp1252,iso-8859-1

在 website 目录下创建 .env.local 文件（用于 DocWrangler UI 功能，如改进提示和聊天机器人等）：

OPENAI_API_KEY=sk-xxx  # 用于 TypeScript 功能：改进提示、聊天机器人等
OPENAI_API_BASE=https://api.openai.com/v1
MODEL_NAME=gpt-4o-mini  # UI 助手使用的模型

NEXT_PUBLIC_BACKEND_HOST=localhost
NEXT_PUBLIC_BACKEND_PORT=8000
NEXT_PUBLIC_HOSTED_DOCWRANGLER=false

运行 Docker：

make docker

这将完成以下操作：

创建用于持久化数据的 Docker 卷
构建 DocETL 镜像
运行容器，UI 将可通过 http://localhost:3000 访问

若需清理 Docker 资源（请注意，这将删除 Docker 卷）：

make docker-clean

AWS Bedrock

该框架支持与 AWS Bedrock 的集成。要启用：

配置 AWS 凭证：

aws configure

测试你的 AWS 凭证：

make test-aws

在启用 AWS 支持的情况下运行：

AWS_PROFILE=your-profile AWS_REGION=your-region make docker

或者使用 Docker Compose：

AWS_PROFILE=your-profile AWS_REGION=your-region docker compose --profile aws up

环境变量：

AWS_PROFILE：你的 AWS CLI 配置文件（默认为 'default'）
AWS_REGION：AWS 区域（默认为 'us-west-2'）

Bedrock 模型名称前会加上 bedrock_ 前缀。更多详情请参阅 liteLLM 的文档。

选项 B：手动设置（开发模式）

如果你希望进行开发，或者不想使用 Docker，可以按以下步骤操作：

克隆仓库：

git clone https://github.com/ucbepic/docetl.git
cd docetl

在根目录/顶级目录下的 .env 文件中设置环境变量（用于后端 Python 服务器）：

OPENAI_API_KEY=your_api_key_here  # 用于 DocETL 流水线执行引擎
# 后端配置
BACKEND_ALLOW_ORIGINS=http://localhost:3000,http://127.0.0.1:3000
BACKEND_HOST=localhost
BACKEND_PORT=8000
BACKEND_RELOAD=True

# 前端配置
FRONTEND_HOST=0.0.0.0
FRONTEND_PORT=3000

# Docker Compose 中的主机端口映射（若未设置，则使用 docker-compose.yml 中的默认值）
FRONTEND_DOCKER_COMPOSE_PORT=3031
BACKEND_DOCKER_COMPOSE_PORT=8081

# 支持的文本文件编码
TEXT_FILE_ENCODINGS=utf-8,latin1,cp1252,iso-8859-1

并在 website 目录下创建一个 .env.local 文件（用于 DocWrangler 的 UI 功能）：

OPENAI_API_KEY=sk-xxx  # 由 TypeScript 功能使用：改进提示、聊天机器人等。
OPENAI_API_BASE=https://api.openai.com/v1
MODEL_NAME=gpt-4o-mini  # UI 助手使用的模型。

NEXT_PUBLIC_BACKEND_HOST=localhost
NEXT_PUBLIC_BACKEND_PORT=8000
NEXT_PUBLIC_HOSTED_DOCWRANGLER=false

安装依赖：

make install      # 使用 uv 安装 Python 依赖并设置 pre-commit 钩子
make install-ui   # 安装 UI 依赖

如果您更倾向于直接使用 uv 而不是 Make：

curl -LsSf https://astral.sh/uv/install.sh | sh
uv sync --all-groups --all-extras

启动开发服务器：

make run-ui-dev

访问 http://localhost:3000/playground 即可进入交互式 UI。

🛠️ 开发环境搭建

如果您计划为 DocETL 做贡献或进行修改，可以通过运行测试套件来验证您的环境是否配置正确：

make tests-basic  # 运行基础测试套件（使用 OpenAI 时成本低于 0.01 美元）

如需详细文档和教程，请访问我们的文档。

DocETL 快速上手指南

DocETL 是一款专为复杂文档处理任务设计的数据处理流水线工具。它提供交互式 UI（DocWrangler）用于迭代开发，以及 Python 包用于生产环境部署。

1. 环境准备

在开始之前，请确保满足以下系统要求和前置依赖：

操作系统：支持 Docker 的环境（推荐）或 Linux/macOS/Windows。
Python 版本：Python 3.10 或更高版本。
API 密钥：需要 OpenAI API Key（或其他兼容 LLM 的 API Key）。
其他依赖：
- 若使用 Docker 方式：需安装 Docker 和 Docker Compose。
- 若手动开发：需安装 git 和 uv（可选，用于加速依赖安装）。

2. 安装步骤

DocETL 提供两种主要使用方式：交互式 UI (DocWrangler) 和 Python 包。推荐新手先通过 Docker 运行 UI 进行体验。

方式一：使用 Docker 运行交互式 UI（推荐）

这是最快上手的方式，无需配置复杂的本地开发环境。

克隆仓库

git clone https://github.com/ucbepic/docetl.git
cd docetl

配置环境变量

在项目根目录创建 .env 文件（用于后端服务）：

OPENAI_API_KEY=your_api_key_here
BACKEND_ALLOW_ORIGINS=http://localhost:3000,http://127.0.0.1:3000
BACKEND_HOST=localhost
BACKEND_PORT=8000
BACKEND_RELOAD=True
FRONTEND_HOST=0.0.0.0
FRONTEND_PORT=3000
FRONTEND_DOCKER_COMPOSE_PORT=3031
BACKEND_DOCKER_COMPOSE_PORT=8081
TEXT_FILE_ENCODINGS=utf-8,latin1,cp1252,iso-8859-1

在 website 目录下创建 .env.local 文件（用于前端 UI 功能）：

OPENAI_API_KEY=sk-xxx
OPENAI_API_BASE=https://api.openai.com/v1
MODEL_NAME=gpt-4o-mini
NEXT_PUBLIC_BACKEND_HOST=localhost
NEXT_PUBLIC_BACKEND_PORT=8000
NEXT_PUBLIC_HOSTED_DOCWRANGLER=false

启动服务
```
make docker
```
启动成功后，访问 http://localhost:3000 即可使用 DocWrangler playground。

方式二：作为 Python 包安装（生产环境）

如果你希望在代码中直接调用 DocETL：

安装库
```
pip install docetl
```
配置 API Key 在项目目录下创建 .env 文件：
```
OPENAI_API_KEY=your_api_key_here
```

3. 基本使用

使用交互式 UI (DocWrangler)

浏览器打开 http://localhost:3000/playground。
构建流水线：
- 上传你的文档数据。
- 添加操作算子（如提取、总结、转换等）。
- 在右侧实时预览 Prompt 效果，调整提示词直到满意。
导出配置：完成调试后，导出 pipeline 配置文件（YAML/JSON），用于后续生产环境运行。

使用 Python 代码运行流水线

安装并配置好环境后，你可以编写简单的 Python 脚本来执行处理任务：

import docetl

# 加载之前从 UI 导出的 pipeline 配置
pipeline = docetl.load_pipeline("path/to/your/pipeline.yaml")

# 执行流水线
results = pipeline.run()

# 查看结果
for result in results:
    print(result)

提示：如果你不熟悉如何编写 Pipeline 配置，可以使用 Claude Code 或参考 docetl.org/llms.txt 中的提示词模板，让 AI 辅助生成初始配置。

版本历史

0.2.62025/12/28

0.2.52025/08/09

0.2.42025/05/21

0.2.32025/04/29

0.2.22025/01/29

0.2.12025/01/09

0.2.02024/12/04

0.1.72024/10/14

0.1.62024/10/03

0.1.52024/09/30

0.1.42024/09/30

0.1.32024/09/29

0.1.22024/09/23

0.1.12024/09/17

常见问题

如何配置 DocETL 以支持 vLLM 或其他非 OpenAI 的 LLM 提供商？

DocETL 目前支持哪些 PDF 解析和 OCR 工具？

在运行 Playground 时遇到 "Path arguments must not be null" 错误怎么办？

如何处理 LLM 调用中的超时和速率限制（Rate Limit）问题？

如何在 UI 中自定义后端服务器地址？

如何扩展 DocETL 以支持更多文件格式（如 PDF、Wikipedia 等）？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架