Daft

GitHub
5.4k 436 简单 1 次阅读 今天Apache-2.0开发框架插件图像其他数据工具
AI 解读 由 AI 自动生成,仅供参考

Daft 是一款专为人工智能和多模态任务打造的高性能数据引擎。在当前的 AI 开发中,开发者往往需要分别处理图像、音频、视频等非结构化数据与传统的表格数据,流程繁琐且难以扩展。Daft 旨在解决这一痛点,让用户能在同一个框架内无缝混合处理各类数据,并直接运行大模型提示、生成嵌入向量或进行数据分类。

这款工具特别适合需要处理大规模多模态数据的 AI 工程师、数据科学家及研究人员。无论是本地原型验证,还是通过 Ray 或 Kubernetes 集群进行分布式大规模计算,Daft 都能提供流畅的体验。其核心技术亮点在于"Python 原生、Rust 驱动”的架构:既保留了 Python 开发的便捷性,又利用 Rust 实现了极致性能,无需面对复杂的 JVM 环境。此外,Daft 具备强大的通用连接能力,可直接访问 S3、Hugging Face、Delta Lake 等多种数据源,并拥有智能的内存管理机制,让开发者能更专注于算法逻辑而非基础设施配置。

使用场景

某电商平台的算法团队需要处理千万级商品数据,结合结构化表格与非结构化的商品图片,批量生成视觉嵌入向量以构建新一代以图搜图推荐系统。

没有 Daft 时

  • 多模态割裂:必须编写复杂的胶水代码,分别用 Pandas 处理表格、用 PIL/OpenCV 加载图片,再手动对齐数据索引,极易出错。
  • 扩展性瓶颈:本地脚本无法处理海量图片内存溢出,迁移到 Spark 或 Ray 集群需要重写大量分布式逻辑,开发周期长达数周。
  • 推理效率低下:调用 AI 模型(如 CLIP)进行批量推理时,缺乏内置的并行优化,GPU 利用率低,处理全量数据耗时数天。
  • 存储适配繁琐:读取存储在 S3 或 Iceberg 中的不同格式数据时,需配置多种连接器并处理认证与分页逻辑。

使用 Daft 后

  • 原生统一处理:Daft 允许在同一个 DataFrame 中直接加载图片列与结构化字段,自动处理多模态数据的对齐与转换,代码量减少 70%。
  • 无缝弹性伸缩:只需一行配置即可将任务从本地笔记本无缝切换至 Ray 或 Kubernetes 集群,利用 Rust 内核实现高性能分布式计算。
  • 内置 AI 加速:直接调用 Daft 内置的 AI 算子运行模型推理,自动优化批处理大小与资源调度,将千万级数据的处理时间缩短至数小时。
  • 通用数据连接:原生支持 S3、Iceberg、Hugging Face 等多种数据源,无需额外配置即可直接流式读取云端数据。

Daft 通过统一的 Python 接口与 Rust 高性能内核,彻底消除了多模态数据工程中的碎片化痛点,让大规模 AI 数据处理变得简单且高效。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notes该工具核心由 Python 和 Rust 构建。支持本地运行或通过 Ray 和 Kubernetes 扩展至分布式集群。可通过 pip 直接安装,高级功能(如分布式处理或特定云存储支持)需安装额外依赖。支持多种数据源(S3, GCS, Iceberg, Delta Lake 等)。可通过设置环境变量 DO_NOT_TRACK=true 禁用遥测数据收集。
python3.10+
Ray (可选,用于分布式)
AWS utilities (可选)
OpenAI API (可选,用于 AI 操作)
Transformers (可选,用于 AI 操作)
Daft hero image

快速开始

|横幅|

|CI| |PyPI| |最新标签| |覆盖率| |Slack|

网站 <https://www.daft.ai>_ • 文档 <https://docs.daft.ai>_ • 安装 <https://docs.daft.ai/en/stable/install/>_ • Daft 快速入门 <https://docs.daft.ai/en/stable/quickstart/>_ • 社区与支持 <https://github.com/Eventual-Inc/Daft/discussions>_

Daft:面向 AI 和多模态工作负载的高性能数据引擎

|趋势变化|

Daft <https://www.daft.ai>_ 是一款专为 AI 和多模态工作负载设计的高性能数据引擎。无论规模大小,都能高效处理图像、音频、视频以及结构化数据。

  • 原生多模态处理: 在同一框架内同时处理图像、音频、视频及嵌入向量与结构化数据
  • 内置 AI 操作: 使用 OpenAI、Transformers 或自定义模型,大规模运行 LLM 提示词、生成嵌入并向数据进行分类
  • Python 原生,Rust 驱动: 无需复杂的 JVM 环境,以 Python 为核心,底层由 Rust 提供强大性能
  • 无缝扩展: 可从本地开始,轻松扩展至基于 Ray <https://docs.daft.ai/en/stable/distributed/ray/>_ 或 Kubernetes <https://docs.daft.ai/en/stable/distributed/kubernetes/>_ 的分布式集群
  • 通用连接性: 随时随地访问数据(S3、GCS、Iceberg、Delta Lake、Hugging Face、Unity Catalog 等)
  • 开箱即用的可靠性: 智能内存管理和合理默认设置,让您告别繁琐的配置问题

快速入门

安装 ^^^^^^

使用 pip install daft 即可安装 Daft。需 Python 3.10 或更高版本。

如需更高级的安装方式(例如从源码安装或添加 Ray、AWS 工具等额外依赖),请参阅我们的 安装指南 <https://docs.daft.ai/en/stable/install/>_。

快速上手 ^^^^^^^^

只需几分钟即可通过我们的 快速入门 <https://docs.daft.ai/en/stable/quickstart/>_ 开始使用——加载一个真实的电商数据集,处理商品图片,并大规模运行 AI 推理。

更多资源 ^^^^^^^^

  • 示例 <https://docs.daft.ai/en/stable/examples/>_ - 通过文本、图像、音频等多种场景,了解 Daft 的实际应用
  • 用户指南 <https://docs.daft.ai/en/stable/>_ - 深入探索 Daft 的各个功能模块
  • API 参考 <https://docs.daft.ai/en/stable/api/>_ - Daft 公开类和函数的 API 文档

基准测试

|基准测试图片|

如需查看完整的基准测试结果、详细设置及日志,请访问我们的 基准测试页面 <https://docs.daft.ai/en/stable/benchmarks>_。

贡献代码

我们非常欢迎开发者参与贡献!要开始为 Daft 贡献代码,请阅读 CONTRIBUTING.md <https://github.com/Eventual-Inc/Daft/blob/main/CONTRIBUTING.md>_ 文件。该文档介绍了 Daft 的开发流程和工具链,还详细说明了如何向核心引擎添加新功能并通过 Python API 对外暴露。

以下是一些适合初学者的 优质议题 <https://github.com/Eventual-Inc/Daft/issues?q=is%3Aopen+is%3Aissue+label%3A%22good+first+issue%22>_,帮助您熟悉 Daft。在相关议题下留言即可认领,如有任何疑问也欢迎随时提问!

遥测数据

为了持续改进 Daft,我们通过 Scarf(https://scarf.sh)收集非识别性数据。

如需禁用此功能,可设置环境变量 DO_NOT_TRACK=true

我们收集的数据包括:

  1. 非识别性: 事件以会话 ID 进行标记,该 ID 在导入 Daft 时生成
  2. 仅元数据: 我们不会收集用户的任何专有代码或数据
  3. 仅用于开发: 我们既不购买也不出售任何用户数据

更多详情请参阅我们的 文档 <https://docs.daft.ai/en/stable/resources/telemetry/>_。

.. image:: https://static.scarf.sh/a.png?x-pxid=31f8d5ba-7e09-4d75-8895-5252bbf06cf6

相关项目

+---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+ | 引擎 | 查询优化器 | 多模态 | 分布式 | Arrow 支持 | 向量化执行引擎 | 磁盘外处理 | +===================================================+=================+===============+=============+=================+=============================+=============+ | Daft | 是 | 是 | 是 | 是 | 是 | 是 | +---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+ | Pandas <https://github.com/pandas-dev/pandas>_ | 否 | Python 对象 | 否 | 可选 >= 2.0 | 部分(Numpy) | 否 | +---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+ | Polars <https://github.com/pola-rs/polars>_ | 是 | Python 对象 | 否 | 是 | 是 | 是 | +---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+ | Modin <https://github.com/modin-project/modin>_ | 是 | Python 对象 | 是 | 否 | 部分(Pandas) | 是 | +---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+ | Ray Data <https://github.com/ray-project/ray>_ | 否 | 是 | 是 | 是 | 部分(PyArrow) | 是 | +---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+ | PySpark <https://github.com/apache/spark>_ | 是 | 否 | 是 | Pandas UDF/IO | Pandas UDF | 是 | +---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+ | Dask DF <https://github.com/dask/dask>_ | 否 | Python 对象 | 是 | 否 | 部分(Pandas) | 是 | +---------------------------------------------------+-----------------+---------------+-------------+-----------------+-----------------------------+-------------+

许可证

Daft 采用 Apache 2.0 许可证——详情请参阅 LICENSE 文件。

.. |快速入门图片| image:: https://github.com/Eventual-Inc/Daft/assets/17691182/dea2f515-9739-4f3e-ac58-cd96d51e44a8 :alt: 从 AWS S3 加载图像文件夹并创建缩略图的 DataFrame 代码 :height: 256

.. |基准图像| image:: https://raw.githubusercontent.com/Eventual-Inc/Daft/refs/heads/main/assets/benchmark.png :alt: AI 基准测试

.. |横幅| image:: https://daft.ai/images/diagram.png :target: https://www.daft.ai :alt: Daft 数据框可以将任何数据(如 PDF 文档、图像、Protocol Buffers、CSV、Parquet 和音频文件)加载到表格型数据框结构中,以便于查询。

.. |CI| image:: https://github.com/Eventual-Inc/Daft/actions/workflows/pr-test-suite.yml/badge.svg :target: https://github.com/Eventual-Inc/Daft/actions/workflows/pr-test-suite.yml?query=branch:main :alt: GitHub Actions 测试

.. |PyPI| image:: https://img.shields.io/pypi/v/daft.svg?label=pip&logo=PyPI&logoColor=white :target: https://pypi.org/project/daft :alt: PyPI

.. |最新标签| image:: https://img.shields.io/github/v/tag/Eventual-Inc/Daft?label=latest&logo=GitHub :target: https://github.com/Eventual-Inc/Daft/tags :alt: 最新标签

.. |覆盖率| image:: https://codecov.io/gh/Eventual-Inc/Daft/branch/main/graph/badge.svg?token=J430QVFE89 :target: https://codecov.io/gh/Eventual-Inc/Daft :alt: 覆盖率

.. |Slack| image:: https://img.shields.io/badge/slack-@distdata-purple.svg?logo=slack :target: https://join.slack.com/t/dist-data/shared_invite/zt-3rh9jr9iv-tmmTNOlQpfvhEy2NTMWS_w :alt: Slack 社区

.. |TrendShift| image:: https://trendshift.io/api/badge/repositories/8239 :target: https://trendshift.io/repositories/8239 :alt: Eventual-Inc/Daft | Trendshift :width: 250px :height: 55px

版本历史

v0.7.72026/04/02
v0.7.62026/03/30
v0.7.52026/03/16
v0.7.42026/02/25
v0.7.32026/02/13
v0.7.22026/01/15
v0.7.12025/12/19
v0.7.02025/12/16
v0.6.142025/11/17
v0.6.132025/11/13
v0.6.122025/11/10
v0.6.112025/11/07
v0.6.102025/11/05
v0.6.92025/11/04
v0.6.82025/10/30
v0.6.72025/10/20
v0.6.62025/10/14
v0.6.52025/10/06
v0.6.42025/10/01
v0.6.32025/09/24

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|昨天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|3天前
开发框架图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具,用户仅需一张静态照片,即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点,让高质量的数字内容创作变得触手可及。 这款工具不仅适合开发者和技术研究人员探索算法边界,更因其极简的操作逻辑(仅需三步:选脸、选摄像头、启动),广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换,还是制作趣味短视频和直播互动,Deep-Live-Cam 都能提供流畅的支持。 其核心技术亮点在于强大的实时处理能力,支持口型遮罩(Mouth Mask)以保留使用者原始的嘴部动作,确保表情自然精准;同时具备“人脸映射”功能,可同时对画面中的多个主体应用不同面孔。此外,项目内置了严格的内容安全过滤机制,自动拦截涉及裸露、暴力等不当素材,并倡导用户在获得授权及明确标注的前提下合规使用,体现了技术发展与伦理责任的平衡。

88.9k|★★★☆☆|今天
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|昨天
图像数据工具视频