data-juicer

GitHub
6.3k 359 简单 1 次阅读 昨天Apache-2.0开发框架其他语言模型数据工具
AI 解读 由 AI 自动生成,仅供参考

Data-Juicer 是专为大模型时代打造的数据操作系统,旨在将杂乱无章的原始数据转化为高质量的 AI 就绪智能资产。它通过模块化的构建块,帮助用户高效完成数据的清洗、合成与分析,覆盖从预训练语料去重、智能体交互轨迹整理,到领域专用检索增强生成(RAG)索引构建的全流程。

面对海量多模态数据处理难、流程复现成本高以及从小规模实验到千节点集群扩展复杂等痛点,Data-Juicer 提供了无缝衔接的解决方案。无论是个人开发者在笔记本上调试,还是企业在大规模集群上运行任务,都能无需编写繁琐的“胶水代码”即可轻松应对。

这款工具特别适合 AI 研究人员、数据工程师及大模型开发者使用。其核心亮点在于拥有超过 200 个涵盖文本、图像、音频及视频的操作算子,支持通过 YAML 配置文件像管理代码一样版本化、分享和复用数据处理流水线(Recipe)。此外,它还具备云原生架构特性,支持热重载技术,让用户能在不重启流程的情况下快速迭代算子,极大地提升了数据处理的灵活性与效率。

使用场景

某大型电商团队正试图构建一个垂直领域的多模态客服大模型,需要处理海量且杂乱的用户咨询日志(包含文本对话、商品截图及语音录音)。

没有 data-juicer 时

  • 脚本碎片化严重:工程师需分别编写 Python 脚本清洗文本、调用独立工具处理图像分辨率、再用 FFmpeg 转换音频格式,维护成本极高且容易出错。
  • 数据质量不可控:缺乏统一的去重和质量过滤机制,导致训练集中混入大量重复投诉、模糊图片或含敏感信息的录音,模型收敛缓慢且存在合规风险。
  • 扩展性瓶颈:本地单机处理 GB 级数据尚可,一旦数据量升至 TB 级,原有“胶水代码”无法平滑迁移至集群,重构耗时数周。
  • 流程难以复现:数据处理逻辑硬编码在脚本中,不同成员修改参数后无法追溯版本,导致模型效果波动时难以定位是数据还是算法问题。

使用 data-juicer 后

  • 一站式流水线编排:通过 YAML 配置文件即可串联起文本长度过滤、图片清晰度检测、语音静音切除等 200+ 算子,将原本分散的工具整合为统一的多模态处理流。
  • 智能化质量门禁:利用内置的语义去重和敏感信息识别算子,自动剔除低质样本并脱敏,显著提升了训练数据的纯净度与安全性。
  • 云原生弹性伸缩:data-juicer 支持从笔记本无缝切换至千节点集群,无需修改代码即可并行处理 PB 级数据,任务交付时间从数天缩短至数小时。
  • 可复用的配方管理:团队将最佳实践固化为"Recipe"进行版本控制,任何成员均可一键复现相同的数据处理逻辑,确保实验结果稳定可靠。

data-juicer 将杂乱无章的原始数据转化为高质量智能燃料,让团队能专注于模型创新而非繁琐的数据清洗工程。

运行环境要求

操作系统
  • Linux
GPU

非必需(支持 CPU 运行),可选 NVIDIA GPU 用于加速(提及 CUDA 加速及 Docker 镜像基于 CUDA 12.6.3)

内存

未说明(大规模处理依赖集群节点数,示例提及 6400 核处理 70B 样本)

依赖
notes该工具支持从单机扩展到千节点集群(基于 Ray 分布式框架)。官方提供 Docker 镜像(基于 Ubuntu 24.04 + CUDA 12.6.3 + Python 3.11)。支持多种数据格式(包括压缩的 jsonl.gz)及 S3 存储。拥有 200+ 算子覆盖文本、图像、音频、视频及多模态数据。可通过 YAML 配置文件或 Python 代码构建处理流水线。
python3.11+
ray
py-data-juicer
vLLM (可选)
data-juicer hero image

快速开始

Data-Juicer:面向基础模型时代的数据操作系统

PyPI 下载量 Docker
文档 算子 配方
中文 论文 覆盖率

多模态 | 云原生 | AI就绪 | 大规模

Data-Juicer(DJ)将原始数据的混乱转化为AI就绪的智能。它将数据处理视为可组合的基础设施——提供模块化的构建块,用于在整个AI生命周期中清洗、合成和分析数据,从而释放每一字节中的潜在价值。

无论您是在去重网络规模的预训练语料库、策划智能体交互轨迹,还是准备领域特定的RAG索引,DJ都能无缝扩展,从您的笔记本电脑到上千节点的集群——无需任何胶水代码。

阿里云PAI已将Data-Juicer深度集成到其数据处理产品中。请参阅**快速提交DataJuicer任务**。


🚀 快速入门

零安装探索

安装并运行

uv pip install py-data-juicer
dj-process --config demos/process_simple/process.yaml

或在Python中组合

from data_juicer.core.data import NestedDataset
from data_juicer.ops.filter import TextLengthFilter
from data_juicer.ops.mapper import WhitespaceNormalizationMapper

ds = NestedDataset.from_dict({
    "text": ["Short", "This passes the filter.", "Text   with   spaces"]
})
res_ds = ds.process([
    TextLengthFilter(min_len=10),
    WhitespaceNormalizationMapper()
])

for s in res_ds:
    print(s)

✨ 为什么选择Data-Juicer?

1. 模块化与可扩展架构

  • 200+种算子,覆盖文本、图像、音频、视频及多模态数据
  • 配方优先:可复现的YAML流水线,像代码一样可以版本控制、共享和分叉
  • 可组合性:可单独插入一个算子,也可串联复杂的工作流,或编排完整的流水线
  • 热加载:无需重启流水线即可迭代算子

2. 全方位数据智能

  • 基础模型:预训练、微调、强化学习及评估级别的数据精选
  • 智能体系统:清理工具痕迹、结构化上下文、去标识化和质量门控
  • RAG与分析:提取、归一化、语义分块、去重以及数据概览

3. 生产级性能

  • 规模:在50个Ray节点(6400核)上2小时内处理700亿条样本
  • 效率:使用1280核在2.8小时内去重5TB数据
  • 优化:自动算子融合(提速2–10倍)、适应性并行、CUDA加速、高鲁棒性
  • 可观测性:内置追踪功能,便于调试、审计和迭代改进

⭐ 如果Data-Juicer为您节省了时间或提升了数据工作质量,请考虑给本仓库点个星。这有助于更多人发现该项目,并让您及时了解新版本和新功能。


📰 新闻

[2026-03-17] 发布 v1.5.1:LaTeX 操作符;压缩格式支持;操作符鲁棒性修复
  • 📄 推出了两个新的以 LaTeX 为核心的映射器操作符,扩展了 data-juicer 的文档处理能力,可处理 .tex 归档文件和图表上下文。
  • 🗜️ 增加了对压缩数据集格式的支持:现在可以直接加载 json[l].gz 文件,Ray 数据集也正式支持读取压缩的 JSON 文件。
  • 📚 新增了关于缓存、导出和追踪工作流的文档,帮助用户更好地理解并调试数据处理管道。
  • 🤖 完成了 data-juicer-agents 的重大重构与升级:项目架构及 CLI/会话功能得到了全面重新设计,以提升可维护性和扩展性。更多详情请参阅 data-juicer-agents
[2026-02-12] 发布 v1.5.0:分区式 Ray 执行器、OP 级别环境管理以及更多具身智能 OP
  • 🚀 增强的分布式执行框架 — 引入了分区式 Ray 执行器和 OP 级别的隔离环境,以提高容错性、可扩展性以及依赖冲突的解决能力。
  • 🤖 扩展的具身智能视频处理 — 新增了用于相机标定、视频去畸变、手部重建和姿态估计的专用操作符,从而强化了多视角视频的处理能力。
  • 💪🏻 系统性能与开发者体验优化 — 支持批量推理、减少内存和日志输出、重构核心逻辑,并更新了文档和模板。
  • 🐳 关键 bug 修复与稳定性提升 — 解决了重复跟踪、参数冲突、首页渲染问题以及文档过时等问题,进一步提升了可靠性。
[2026-02-02] 发布 v1.4.6:Copilot、视频字节 I/O 和 Ray 追踪
  • 🤖 问答 Copilot — 已在我们的 文档网站 | 钉钉 | Discord 上线。欢迎随时提问有关 Data-Juicer 生态系统的任何问题!
  • 🎬 视频字节 I/O — 直接处理视频管道中的字节数据。
  • 🫆 Ray 模式追踪器 — 在分布式处理中跟踪发生变化的样本。
  • 🐳 增强与修复 — 更新了 Docker 镜像,小幅提升了性能,优化了 GitHub Insights 流量工作流程,更新了 Ray 兼容性,并修复了一些 bug 和文档问题。
[2026-01-15] 发布 v1.4.5:20 多个新 OP、Ray vLLM 管道和 Sphinx 文档升级
  • 具身智能 OP:新增或增强了用于视频字幕生成 (VLM)、视频目标分割 (YOLOE+SAM2)、视频深度估计 (viz + 点云)、人体姿态估计 (MMPose)、图像标签 (VLM)、单张图像 3D 身体网格恢复 (SAM 3D Body) 的映射器,同时还增加了 S3 上传/下载 功能。
  • 新型管道 OP:可将多个 OP 组合成一条管道;引入了用于 LLM/VLM 推理的 Ray + vLLM 管道。
  • 文档升级:迁移到统一的基于 Sphinx 的文档构建/部署工作流,并采用了独立的主题和架构仓库。
  • 增强与修复:更新了依赖项,改进了 Ray 的去重和 S3 加载功能,支持 OpenAI Responses API,提升了追踪器的一致性,Docker 基础镜像更新为 CUDA 12.6.3 + Ubuntu 24.04 + Py3.11,并修复了多个 bug。
[2025-12-01] 发布 v1.4.4:NeurIPS’25 特别关注、6 个新的视频/多模态 OP 以及 S3 I/O
  • Data-Juicer 2.0 荣获 NeurIPS'25 特别关注
  • 代码库拆分:sandbox/recipes/agents 被移至独立的代码库。
  • S3 I/O 被添加到加载器和导出器中。
  • 6 个新的视频和多模态 OP(角色检测、VGGT、全身姿态、手部重建)+ 文档/Ray/视频 I/O 的改进以及 bug 修复。

查看 所有发布新闻存档


🔌 用户与生态系统

下列列表按字母顺序排列,重点介绍面向开发者的集成与使用情况。
如果您的项目或名字未在此列出,请随时 提交 PR联系我们

Data-Juicer 可无缝接入您现有的技术栈,并随着社区贡献不断演进:

扩展

框架与平台

AgentScope · Apache Arrow · Apache HDFS · Apache Hudi · Apache Iceberg · Apache Paimon · 阿里巴巴 PAI · Delta Lake · DiffSynth-Studio · EasyAnimate · Eval-Scope · 华为 Ascend · Hugging Face · LanceDB · LLaMA-Factory · ModelScope · ModelScope Swift · NVIDIA NeMo · Ray · RM-Gallery · Trinity-RFT · 火山引擎

行业

阿里巴巴集团、蚂蚁集团、比亚迪汽车、字节跳动、DTSTACK、京东、英伟达、OPPO、小红书、小米、喜马拉雅等。

学术界

中国科学院、南京大学、北京大学、中国人民大学、清华大学、中国科学院大学、浙江大学等。

贡献与社区

我们坚信共同构建。无论您是在修正拼写错误、开发新的算子,还是分享突破性的数据处理方案,每一次贡献都在塑造数据处理的未来。

我们欢迎各层次的贡献:

Discord 钉钉

Data-Juicer 的发展离不开用户和社区的支持:

  • 发起方:阿里巴巴通义实验室
  • 联合开发:阿里云 PAI、Anyscale(Ray 团队)、中山大学、NVIDIA(NeMo 团队)以及全球各地的贡献者
  • 灵感来源:Apache Arrow、Ray、Hugging Face Datasets、BLOOM、RedPajama-Data 等……

文档

如需详细文档,请参阅此处

快速链接:


📄 许可与署名

Data-Juicer 采用 Apache License 2.0 开源。
如您使用本项目,请注明署名:可使用我们的徽标此处,或以文字形式标注:“本项目使用 Data-Juicer:https://github.com/datajuicer”。


📖 引用

若您在工作中使用了 Data-Juicer,请引用以下文献:

@inproceedings{djv1,
  title={Data-Juicer: A One-Stop Data Processing System for Large Language Models},
  author={Chen, Daoyuan and Huang, Yilun and Ma, Zhijian and Chen, Hesen and Pan, Xuchen and Ge, Ce and Gao, Dawei and Xie, Yuexiang and Liu, Zhaoyang and Gao, Jinyang and Li, Yaliang and Ding, Bolin and Zhou, Jingren},
  booktitle={SIGMOD},
  year={2024}
}

@article{djv2,
  title={Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models},
  author={Chen, Daoyuan and Huang, Yilun and Pan, Xuchen and Jiang, Nana and Wang, Haibin and Zhang, Yilei and Ge, Ce and Chen, Yushuo and Zhang, Wenhao and Ma, Zhijian and Huang, Jun and Lin, Wei and Li, Yaliang and Ding, Bolin and Zhou, Jingren},
  journal={NeurIPS},
  year={2025}
}
更多出版物(点击展开)

版本历史

v1.5.12026/03/17
v1.5.02026/02/26
v1.4.62026/02/02
v1.4.52026/01/13
v1.4.42025/12/01
v1.4.32025/09/11
v1.4.22025/08/18
v1.4.12025/07/16
v1.4.02025/06/13
v1.3.32025/05/09
v1.3.22025/04/25
v1.3.12025/04/11
v1.3.02025/03/28
v1.2.22025/03/14
v1.2.12025/02/28
v1.2.02025/02/14
v1.1.02025/01/17
v1.0.32025/01/03
v1.0.22024/12/20
v1.0.12024/12/06

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

160.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|昨天
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|1周前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架