[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-data-prep-kit--data-prep-kit":3,"tool-data-prep-kit--data-prep-kit":62},[4,18,26,36,46,54],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":42,"last_commit_at":43,"category_tags":44,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,45],"插件",{"id":47,"name":48,"github_repo":49,"description_zh":50,"stars":51,"difficulty_score":32,"last_commit_at":52,"category_tags":53,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":55,"name":56,"github_repo":57,"description_zh":58,"stars":59,"difficulty_score":32,"last_commit_at":60,"category_tags":61,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[45,13,15,14],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":68,"readme_en":69,"readme_zh":70,"quickstart_zh":71,"use_case_zh":72,"hero_image_url":73,"owner_login":65,"owner_name":65,"owner_avatar_url":74,"owner_bio":75,"owner_company":75,"owner_location":75,"owner_email":75,"owner_twitter":75,"owner_website":75,"owner_url":76,"languages":77,"stars":106,"forks":107,"last_commit_at":108,"license":109,"difficulty_score":32,"env_os":110,"env_gpu":110,"env_ram":110,"env_deps":111,"category_tags":120,"github_topics":121,"view_count":32,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":140,"updated_at":141,"faqs":142,"releases":177},9623,"data-prep-kit\u002Fdata-prep-kit","data-prep-kit","Open source project for data preparation for GenAI applications","data-prep-kit 是一个专为生成式 AI（GenAI）应用打造的开源数据准备工具包。在构建大语言模型（LLM）时，处理杂乱的非结构化数据往往是最耗时且棘手的环节，而 data-prep-kit 正是为了解决这一痛点而生。它能帮助开发者高效地对文本、代码和图像等非结构化数据进行清洗、转换和增强，从而为模型的预训练、微调、指令对齐以及检索增强生成（RAG）应用提供高质量的数据基础。\n\n无论是个人开发者在笔记本电脑上进行小规模实验，还是企业团队需要在数据中心处理海量数据，data-prep-kit 都能轻松应对。其核心亮点在于基于 Python 和 Ray 框架构建，具备卓越的弹性扩展能力，可无缝从单机环境延伸至大规模集群。此外，它还支持通过 Kubernetes 和 Tekton 流水线灵活部署复杂的数据处理任务，并兼容 Parquet、JSONL 等多种主流文件格式。\n\n这款工具非常适合 AI 应用开发者、数据工程师以及研究人员使用。如果你希望跳过繁琐的数据预处理基建工作，快速将精力集中在模型优化与应用创新上，data-prep-kit 将是一个得力助手。它提供了丰富的现成模块","data-prep-kit 是一个专为生成式 AI（GenAI）应用打造的开源数据准备工具包。在构建大语言模型（LLM）时，处理杂乱的非结构化数据往往是最耗时且棘手的环节，而 data-prep-kit 正是为了解决这一痛点而生。它能帮助开发者高效地对文本、代码和图像等非结构化数据进行清洗、转换和增强，从而为模型的预训练、微调、指令对齐以及检索增强生成（RAG）应用提供高质量的数据基础。\n\n无论是个人开发者在笔记本电脑上进行小规模实验，还是企业团队需要在数据中心处理海量数据，data-prep-kit 都能轻松应对。其核心亮点在于基于 Python 和 Ray 框架构建，具备卓越的弹性扩展能力，可无缝从单机环境延伸至大规模集群。此外，它还支持通过 Kubernetes 和 Tekton 流水线灵活部署复杂的数据处理任务，并兼容 Parquet、JSONL 等多种主流文件格式。\n\n这款工具非常适合 AI 应用开发者、数据工程师以及研究人员使用。如果你希望跳过繁琐的数据预处理基建工作，快速将精力集中在模型优化与应用创新上，data-prep-kit 将是一个得力助手。它提供了丰富的现成模块，同时也允许用户根据特定需求自定义数据处理流程，让高质量数据准备变得简单可控。","\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-prep-kit_data-prep-kit_readme_ed9d3891db58.png\" width=\"50%\" \u002F>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-prep-kit_data-prep-kit_readme_db8616e92574.png\" width=\"50%\" \u002F>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2409.18164-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.18164)\n[![Docs](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-live-brightgreen)](https:\u002F\u002Fdata-prep-kit.github.io\u002Fdata-prep-kit\u002F)\n[![PyPI version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fdata-prep-toolkit-transforms)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fdata-prep-toolkit-transforms\u002F)\n[![pre-commit](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpre--commit-enabled-brightgreen?logo=pre-commit&logoColor=white)](https:\u002F\u002Fgithub.com\u002Fpre-commit\u002Fpre-commit)\n[![Apache 2.0](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fdata-prep-kit\u002Fdata-prep-kit)](https:\u002F\u002Fopensource.org\u002Flicense\u002Fapache-2-0)\n[![GitHub Issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fkylelobo\u002FThe-Documentation-Compendium.svg)](https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fissues)\n  [![GitHub Pull Requests](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002Fkylelobo\u002FThe-Documentation-Compendium.svg)](https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpulls)\n  [![LF AI & Data](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLF%20AI%20%26%20Data-003778?logo=linuxfoundation&logoColor=fff&color=0094ff&labelColor=003778)](https:\u002F\u002Flfaidata.foundation\u002Fprojects\u002F)\n  [![OpenSSF Best Practices](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-prep-kit_data-prep-kit_readme_0d6272b6e589.png)](https:\u002F\u002Fwww.bestpractices.dev\u002Fprojects\u002F10250)\n\n  \u003C\u002Fdiv>\n\nData Prep Kit accelerates unstructured data preparation for LLM app developers. Developers can use Data Prep Kit to cleanse, transform, and enrich use case-specific unstructured data to pre-train LLMs, fine-tune LLMs, instruct-tune LLMs, or build [Retrieval Augmented Generation (RAG)](https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fblob\u002Fdev\u002Fexamples\u002Frag-html-1\u002FREADME.md) applications for LLMs\n\nData Prep Kit can readily scale from a commodity laptop all the way to data center scale.\n\n\n## Features \u003Ca name = \"features\">\u003C\u002Fa>\n\n- The kit provides a growing set of [modules\u002Ftransforms](#table) targeting laptop-scale to datacenter-scale processing.\n- The data modalities supported _today_ are: Natural Language, Code, and Image. \n- The modules are built on common frameworks for Python and Ray runtimes for scaling up data processing.\n- The kit provides a framework for developing custom transforms for processing Parquet files as well as ZIP, NDJSON, and JSONL file formats. \n- The kit provides examples of how a single transform can be deployed on Kubernetes clusters as a Python or a Ray job. Additionally, when multiple transforms are deployed in a sequence, the kit uses [Tekton](https:\u002F\u002Ftekton.dev\u002F) pipelines.\n\n\n## Installation\n\nThe latest version of the Data Prep Kit is available on PyPi for Python 3.10, 3.11, 3.12, and 3.13. It can be installed using: \n\n```bash\npip install uv\nuv pip install 'data-prep-toolkit-transforms[all]'\n```\n\nThis will install all available transforms. \n\nFor guidance on creating the virtual environment for installing the data prep kit, click [here](doc\u002Fquick-start\u002Fquick-start.md).\n\n## &#x1F680; Getting Started \u003Ca name = \"gettingstarted\">\u003C\u002Fa>\n\n### Fastest way to experience Data Prep Kit\n\nWith no setup necessary, let's use a Google Colab friendly notebook to try Data Prep Kit. This is a simple transform to extract content from PDF files: [examples\u002Fnotebooks\u002FRun_your_first_transform_colab.ipynb](examples\u002Fnotebooks\u002FRun_your_first_transform_colab.ipynb)  | [![Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fblob\u002Fdev\u002Fexamples\u002Fnotebooks\u002FRun_your_first_transform_colab.ipynb). ([Here](doc\u002Fgoogle-colab.md) are some tips for running Data Prep Kit transforms on Google Colab. For this simple example, these tips are either already taken care of, or are not needed.)  The same notebook can be downloaded and run on the local machine, without cloning the repo or any other setup. \n\n### Examples\n\nNow that you have run a single transform, the next step is to explore how to put these transforms \ntogether to run a data prep pipeline for end to end real enterprise use cases like fine-tuning a model or building a RAG application. \n\nWe have a complete set of data processing [recipes](examples) for such use cases. \n\nWe also have [a developer tutorial](doc\u002Fquick-start\u002Fcontribute-your-own-transform.md) for contributing a new transform to the kit. \n\nFor advanced users, [here](ADVANCED.md) is more information for adding your own transform, \nrunning transforms from the command line, scaling and automation and more. \nAlso, repository structure and use are discussed [here](doc\u002Frepo.md).\n\n### Using HuggingFace data files \n\nAll the transforms in the kit include small sample data files for testing, but advanced users who want to download real data files from HuggingFace and use them in testing, can refer to [this](ADVANCED.md#using-data-from-huggingface). \n\n\n## Supported data transforms \u003Ca name=\"table\">\u003C\u002Fa>\n\n\nThe matrix below shows the the combination of modules and supported runtimes. All the modules can be accessed [here](transforms) and can be combined to form data processing pipelines, as shown in the [examples](examples) folder. \n\n| Modules                                                                              |    Python-only     |        Ray         |     \n|:-------------------------------------------------------------------------------------|:------------------:|:------------------:|\n| **Data Ingestion**                                                                   |                    |                    |                    |                    |\n| [Code (from zip) to Parquet](transforms\u002Fcode\u002Fcode2parquet\u002FREADME.md) | :white_check_mark: | :white_check_mark: |\n| [Docling to Parquet](transforms\u002Flanguage\u002Fdocling2parquet\u002FREADME.md)                 | :white_check_mark: | :white_check_mark: |\n| [HTML to Parquet](transforms\u002Flanguage\u002Fhtml2parquet\u002FREADME.md)               | :white_check_mark: | :white_check_mark: |\n| [Web to Parquet](transforms\u002Funiversal\u002Fweb2parquet\u002FREADME.md)                | :white_check_mark: |                    |       \n| **Universal (Code & Language)**                                                      |                    |                    |\n| [Exact dedup filter](transforms\u002Funiversal\u002Fededup\u002FREADME.md)                      | :white_check_mark: | :white_check_mark: |\n| [Fuzzy dedup filter](transforms\u002Funiversal\u002Ffdedup\u002FREADME.md)                      | :white_check_mark: | :white_check_mark: | \n| [Unique ID annotation](transforms\u002Funiversal\u002Fdoc_id\u002FREADME.md)                    | :white_check_mark: | :white_check_mark: | \n| [Filter on annotations](transforms\u002Funiversal\u002Ffilter\u002FREADME.md)                   | :white_check_mark: | :white_check_mark: | \n| [Profiler](transforms\u002Funiversal\u002Fprofiler\u002FREADME.md)                       | :white_check_mark: | :white_check_mark: |\n| [Resize](transforms\u002Funiversal\u002Fresize\u002FREADME.md)                           | :white_check_mark: | :white_check_mark: |\n| [Hate, Abuse, Profanity (HAP)](transforms\u002Funiversal\u002Fhap\u002FREADME.md)               | :white_check_mark: | :white_check_mark: |\n| [Tokenizer](transforms\u002Funiversal\u002Ftokenization\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n| [Tokenization2Arrow](transforms\u002Funiversal\u002Ftokenization\u002FREADME-tkn2arrow.md)                         | :white_check_mark: | :white_check_mark: | \n| [Repetition removal](transforms\u002Funiversal\u002Frep_removal\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n| [Bloom filter](transforms\u002Funiversal\u002Fbloom\u002FREADME.md)                         | :white_check_mark: |  |\n| [Collapse(column concatenation)](transforms\u002Funiversal\u002Fcollapse\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n| [Blocklist](transforms\u002Funiversal\u002Fblocklist\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [C4 annotator](transforms\u002Funiversal\u002Fc4_annotator\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [Fineweb quality annotator](transforms\u002Funiversal\u002Ffineweb_quality_annotator\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [Gopher repetition annotator](transforms\u002Funiversal\u002Fgopher_repetition_annotator\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [Opensearch](transforms\u002Funiversal\u002Fopensearch\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [Folder2Parquet](transforms\u002Funiversal\u002Ffolder2parquet\u002FREADME.md)                         | :white_check_mark: |  |\n**Language-only**                                                                    |                    |                    |                    |                    |\n| [Language identification](transforms\u002Flanguage\u002Flang_id\u002FREADME.md)              | :white_check_mark: | :white_check_mark: |\n| [Document quality](transforms\u002Flanguage\u002Fdoc_quality\u002FREADME.md)                 | :white_check_mark: | :white_check_mark: |\n| [Document chunking for RAG](transforms\u002Flanguage\u002Fdoc_chunk\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [Text encoder](transforms\u002Flanguage\u002Ftext_encoder\u002FREADME.md)                    | :white_check_mark: | :white_check_mark: |\n| [PII Annotator\u002FRedactor](transforms\u002Flanguage\u002Fpii_redactor\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [Similarity](transforms\u002Flanguage\u002Fsimilarity\u002FREADME.md)                        | :white_check_mark: |                    |\n| [GneissWeb classification](transforms\u002Flanguage\u002Fgneissweb_classification\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [Readability scores](transforms\u002Flanguage\u002Freadability\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [Extreme tokenized annotation](transforms\u002Flanguage\u002Fextreme_tokenized\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [ML Filter](transforms\u002Flanguage\u002Fml_filter\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n| [ML Enrichment(quality annotation)](transforms\u002Flanguage\u002Fenrichment\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n**Code-only**                                                                         |                    |                     |             |                    |\n| [Programming language annotation](transforms\u002Fcode\u002Fproglang_select\u002FREADME.md)  | :white_check_mark: | :white_check_mark: |\n| [Code quality annotation](transforms\u002Fcode\u002Fcode_quality\u002FREADME.md)             | :white_check_mark: | :white_check_mark: |\n| [Malware annotation](transforms\u002Fcode\u002Fmalware\u002Fpython\u002FREADME.md)                       | :white_check_mark: | :white_check_mark: |\n| [Header cleanser](transforms\u002Fcode\u002Fheader_cleanser\u002Fpython\u002FREADME.md)                  | :white_check_mark: | :white_check_mark: |\n| [Semantic file ordering](transforms\u002Fcode\u002Frepo_level_ordering\u002Fray\u002FREADME.md)          |                    | :white_check_mark: |\n| [License Select Annotation](transforms\u002Fcode\u002Flicense_select\u002FREADME.md)         | :white_check_mark: | :white_check_mark: |\n| [Code profiler](transforms\u002Fcode\u002Fcode_profiler\u002FREADME.md)                             | :white_check_mark: | :white_check_mark: |\n**Images**                                                                         |                    |                     |             |                    |\n| [Faces](transforms\u002Fimages\u002FREADME.md)  | :white_check_mark: | :white_check_mark: |\n| [NSFW(Not Safe For Work)](transforms\u002Fimages\u002FREADME.md)  | :white_check_mark: | :white_check_mark: |\n| [People](transforms\u002Fimages\u002FREADME.md)  | :white_check_mark: | :white_check_mark: |\n\u003C\u002Fdetails>\n\n## Logging configuration\nDPK uses a unified logger - `dpk`. It can be configured, by setting the following environment variables\n\n| Variable name        | Default value | Description                                                                                                                            |\n|----------------------|-----------|----------------------------------------------------------------------------------------------------------------------------------------|\n| DPK_LOG_LEVEL        | INFO      | The loggger level                                                                                                                      |\n| DPK_LOG_FILE         | None      | The path to the log file, if set the log message will be stored in the file                                                            |\n| DPK_LOG_JSON_HANDLER | \"\"        | If set to any value of \"true\", \"1\", \"yes\", or \"on\" (case insensitive) the console logs will be in JSON format                          |\n| DPK_LOG_PROPAGATION  | \"\" | If set to any value of \"true\", \"1\", \"yes\", or \"on\" (case insensitive), the logger will propagate all log messages to its parent logger |\n\n\n## Contributing\n\nContributors are welcome to add new modules to expand to other data modalities as well as add runtime support for existing modules! Please read [this](CONTRIBUTING.md) for details.\n\n## Get help and support\n\nPlease feel free to connect with us using the [discussion](https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fdiscussions) section.\n\n## MAINTAINERS\n\nFor a list of current maintainers, please [see](MAINTAINERS.md).\n\n## CHANGELOG \n\nFor the history of releases and changes, please [see](release-notes.md).\n\n## Resources\n\n[Papers, talks, presentations and tutorials](resources.md)\n\n[Granite open source LLM models](https:\u002F\u002Fhuggingface.co\u002Fibm-granite) \n\n[GneissWeb](https:\u002F\u002Fresearch.ibm.com\u002Fblog\u002Fgneissweb-for-granite-training) \n\n## Citation \u003Ca name = \"citations\">\u003C\u002Fa>\n\nIf you use Data Prep Kit in your research, please cite our paper:\n\n```bash\n@misc{wood2024dataprepkitgettingdataready,\n      title={Data-Prep-Kit: getting your data ready for LLM application development}, \n      author={David Wood and Boris Lublinsky and Alexy Roytman and Shivdeep Singh \n      and Constantin Adam and Abdulhamid Adebayo and Sungeun An and Yuan Chi Chang \n      and Xuan-Hong Dang and Nirmit Desai and Michele Dolfi and Hajar Emami-Gohari \n      and Revital Eres and Takuya Goto and Dhiraj Joshi and Yan Koyfman \n      and Mohammad Nassar and Hima Patel and Paramesvaran Selvam and Yousaf Shah  \n      and Saptha Surendran and Daiki Tsuzuku and Petros Zerfos and Shahrokh Daijavad},\n      year={2024},\n      eprint={2409.18164},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.18164}, \n}\n```\n## License\n\nAll source files must include a Copyright and License header. If you would like to see the detailed LICENSE click [here](LICENSE).\n\n## LF AI & Data\n\nData Prep Kit is hosted as a project in the [LF AI & Data Foundation](https:\u002F\u002Flfaidata.foundation\u002Fprojects\u002F).\n\n### IBM ❤️ Open Source AI\n\nThe project was started by the Data for AI Models team at IBM Research. \n\nCopyright © Data Prep Kit Framework - a Series of LF Projects, LLC.\n","\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-prep-kit_data-prep-kit_readme_ed9d3891db58.png\" width=\"50%\" \u002F>\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-prep-kit_data-prep-kit_readme_db8616e92574.png\" width=\"50%\" \u002F>\n\u003C\u002Fp>\n\n\u003Cdiv align=\"center\">\n\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FarXiv-2409.18164-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.18164)\n[![Docs](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-live-brightgreen)](https:\u002F\u002Fdata-prep-kit.github.io\u002Fdata-prep-kit\u002F)\n[![PyPI version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fdata-prep-toolkit-transforms)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fdata-prep-toolkit-transforms\u002F)\n[![pre-commit](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpre--commit-enabled-brightgreen?logo=pre-commit&logoColor=white)](https:\u002F\u002Fgithub.com\u002Fpre-commit\u002Fpre-commit)\n[![Apache 2.0](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fdata-prep-kit\u002Fdata-prep-kit)](https:\u002F\u002Fopensource.org\u002Flicense\u002Fapache-2-0)\n[![GitHub Issues](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues\u002Fkylelobo\u002FThe-Documentation-Compendium.svg)](https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fissues)\n  [![GitHub Pull Requests](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fissues-pr\u002Fkylelobo\u002FThe-Documentation-Compendium.svg)](https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpulls)\n  [![LF AI & Data](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLF%20AI%20%26%20Data-003778?logo=linuxfoundation&logoColor=fff&color=0094ff&labelColor=003778)](https:\u002F\u002Flfaidata.foundation\u002Fprojects\u002F)\n  [![OpenSSF Best Practices](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-prep-kit_data-prep-kit_readme_0d6272b6e589.png)](https:\u002F\u002Fwww.bestpractices.dev\u002Fprojects\u002F10250)\n\n  \u003C\u002Fdiv>\n\n数据准备工具包可加速面向大语言模型应用开发者的非结构化数据准备工作。开发者可以使用该工具包对特定用例的非结构化数据进行清洗、转换和增强，以用于大语言模型的预训练、微调、指令微调，或构建基于检索增强生成（RAG）的大语言模型应用。\n\n数据准备工具包能够从普通笔记本电脑轻松扩展到数据中心级别的规模。\n\n## 功能特性 \u003Ca name = \"features\">\u003C\u002Fa>\n\n- 该工具包提供不断增长的一系列模块\u002F转换功能，适用于从笔记本电脑级别到数据中心级别的数据处理。\n- 目前支持的数据模态包括：自然语言、代码和图像。\n- 这些模块基于 Python 和 Ray 运行时的通用框架构建，以实现数据处理的水平扩展。\n- 工具包提供了一个框架，用于开发自定义转换功能，以处理 Parquet 文件以及 ZIP、NDJSON 和 JSONL 等文件格式。\n- 工具包还提供了示例，说明如何将单个转换作为 Python 或 Ray 作业部署到 Kubernetes 集群上。此外，当多个转换按顺序部署时，工具包会使用 Tekton 流水线。\n\n## 安装\n\n最新版本的数据准备工具包已在 PyPI 上发布，适用于 Python 3.10、3.11、3.12 和 3.13。可通过以下命令安装：\n\n```bash\npip install uv\nuv pip install 'data-prep-toolkit-transforms[all]'\n```\n\n这将安装所有可用的转换功能。\n\n有关创建用于安装数据准备工具包的虚拟环境的指导，请点击 [这里](doc\u002Fquick-start\u002Fquick-start.md)。\n\n## 🚀 开始使用 \u003Ca name = \"gettingstarted\">\u003C\u002Fa>\n\n### 体验数据准备工具包的最快方式\n\n无需任何设置，让我们使用一个适合 Google Colab 的笔记本尝试一下数据准备工具包。这是一个用于从 PDF 文件中提取内容的简单转换：[examples\u002Fnotebooks\u002FRun_your_first_transform_colab.ipynb](examples\u002Fnotebooks\u002FRun_your_first_transform_colab.ipynb) | [![在 Colab 中打开](https:\u002F\u002Fcolab.research.google.com\u002Fassets\u002Fcolab-badge.svg)](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fblob\u002Fdev\u002Fexamples\u002Fnotebooks\u002FRun_your_first_transform_colab.ipynb)。([在这里](doc\u002Fgoogle-colab.md)提供了一些关于在 Google Colab 上运行数据准备工具包转换的技巧。对于这个简单的示例，这些技巧要么已经考虑到了，要么并不需要。) 同样的笔记本也可以下载并在本地机器上运行，而无需克隆仓库或其他任何设置。\n\n### 示例\n\n现在您已经运行了一个单独的转换，下一步就是探索如何将这些转换组合起来，以针对端到端的真实企业用例（如模型微调或构建 RAG 应用程序）运行数据准备流水线。\n\n我们为这类用例提供了一整套完整的数据处理 [配方](examples)。\n\n此外，我们还有一个 [开发者教程](doc\u002Fquick-start\u002Fcontribute-your-own-transform.md)，介绍如何向工具包贡献新的转换功能。\n\n对于高级用户，[这里](ADVANCED.md)提供了更多关于添加自定义转换、从命令行运行转换、扩展与自动化等方面的信息。同时，仓库的结构和使用方法也在 [这里](doc\u002Frepo.md)进行了讨论。\n\n### 使用 HuggingFace 数据文件\n\n工具包中的所有转换都包含用于测试的小型示例数据文件，但希望从 HuggingFace 下载真实数据文件并用于测试的高级用户，可以参考 [此处](ADVANCED.md#using-data-from-huggingface)。\n\n## 支持的数据转换 \u003Ca name=\"table\">\u003C\u002Fa>\n\n\n下表展示了模块与支持运行时的组合。所有模块均可在[此处](transforms)访问，并可按[示例](examples)文件夹中的所示组合成数据处理流水线。\n\n| 模块                                                                              | 仅 Python |        Ray         |     \n|:-------------------------------------------------------------------------------------|:------------------:|:------------------:|\n| **数据摄取**                                                                   |                    |                    |                    |                    |\n| [代码（来自 zip）转 Parquet](transforms\u002Fcode\u002Fcode2parquet\u002FREADME.md) | :white_check_mark: | :white_check_mark: |\n| [Docling 转 Parquet](transforms\u002Flanguage\u002Fdocling2parquet\u002FREADME.md)                 | :white_check_mark: | :white_check_mark: |\n| [HTML 转 Parquet](transforms\u002Flanguage\u002Fhtml2parquet\u002FREADME.md)               | :white_check_mark: | :white_check_mark: |\n| [网页转 Parquet](transforms\u002Funiversal\u002Fweb2parquet\u002FREADME.md)                | :white_check_mark: |                    |       \n| **通用（代码与语言）**                                                      |                    |                    |\n| [精确去重过滤器](transforms\u002Funiversal\u002Fededup\u002FREADME.md)                      | :white_check_mark: | :white_check_mark: |\n| [模糊去重过滤器](transforms\u002Funiversal\u002Ffdedup\u002FREADME.md)                      | :white_check_mark: | :white_check_mark: | \n| [唯一 ID 注解](transforms\u002Funiversal\u002Fdoc_id\u002FREADME.md)                    | :white_check_mark: | :white_check_mark: | \n| [基于注解的过滤](transforms\u002Funiversal\u002Ffilter\u002FREADME.md)                   | :white_check_mark: | :white_check_mark: | \n| [性能分析器](transforms\u002Funiversal\u002Fprofiler\u002FREADME.md)                       | :white_check_mark: | :white_check_mark: |\n| [调整大小](transforms\u002Funiversal\u002Fresize\u002FREADME.md)                           | :white_check_mark: | :white_check_mark: |\n| [仇恨、辱骂、粗俗用语（HAP）](transforms\u002Funiversal\u002Fhap\u002FREADME.md)               | :white_check_mark: | :white_check_mark: |\n| [分词器](transforms\u002Funiversal\u002Ftokenization\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n| [分词转 Arrow](transforms\u002Funiversal\u002Ftokenization\u002FREADME-tkn2arrow.md)                         | :white_check_mark: | :white_check_mark: | \n| [去除重复内容](transforms\u002Funiversal\u002Frep_removal\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n| [布隆过滤器](transforms\u002Funiversal\u002Fbloom\u002FREADME.md)                         | :white_check_mark: |  |\n| [折叠（列拼接）](transforms\u002Funiversal\u002Fcollapse\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n| [黑名单](transforms\u002Funiversal\u002Fblocklist\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [C4 注释器](transforms\u002Funiversal\u002Fc4_annotator\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [Fineweb 质量注释器](transforms\u002Funiversal\u002Ffineweb_quality_annotator\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [Gopher 重复内容注释器](transforms\u002Funiversal\u002Fgopher_repetition_annotator\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [OpenSearch](transforms\u002Funiversal\u002Fopensearch\u002FREADME.md)                         | :white_check_mark: |  :white_check_mark: |\n| [文件夹转 Parquet](transforms\u002Funiversal\u002Ffolder2parquet\u002FREADME.md)                         | :white_check_mark: |  |\n**仅语言**                                                                    |                    |                    |                    |                    |\n| [语言识别](transforms\u002Flanguage\u002Flang_id\u002FREADME.md)              | :white_check_mark: | :white_check_mark: |\n| [文档质量](transforms\u002Flanguage\u002Fdoc_quality\u002FREADME.md)                 | :white_check_mark: | :white_check_mark: |\n| [用于 RAG 的文档分块](transforms\u002Flanguage\u002Fdoc_chunk\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [文本编码器](transforms\u002Flanguage\u002Ftext_encoder\u002FREADME.md)                    | :white_check_mark: | :white_check_mark: |\n| [PII 注释器\u002F脱敏器](transforms\u002Flanguage\u002Fpii_redactor\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [相似度](transforms\u002Flanguage\u002Fsimilarity\u002FREADME.md)                        | :white_check_mark: |                    |\n| [GneissWeb 分类](transforms\u002Flanguage\u002Fgneissweb_classification\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [可读性评分](transforms\u002Flanguage\u002Freadability\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [极端分词注解](transforms\u002Flanguage\u002Fextreme_tokenized\u002FREADME.md)          | :white_check_mark: | :white_check_mark: |\n| [机器学习过滤器](transforms\u002Flanguage\u002Fml_filter\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n| [机器学习增强（质量注解）](transforms\u002Flanguage\u002Fenrichment\u002FREADME.md)                         | :white_check_mark: | :white_check_mark: |\n**仅代码**                                                                         |                    |                     |             |                    |\n| [编程语言注解](transforms\u002Fcode\u002Fproglang_select\u002FREADME.md)  | :white_check_mark: | :white_check_mark: |\n| [代码质量注解](transforms\u002Fcode\u002Fcode_quality\u002FREADME.md)             | :white_check_mark: | :white_check_mark: |\n| [恶意软件注解](transforms\u002Fcode\u002Fmalware\u002Fpython\u002FREADME.md)                       | :white_check_mark: | :white_check_mark: |\n| [头部清理器](transforms\u002Fcode\u002Fheader_cleanser\u002Fpython\u002FREADME.md)                  | :white_check_mark: | :white_check_mark: |\n| [语义文件排序](transforms\u002Fcode\u002Frepo_level_ordering\u002Fray\u002FREADME.md)          |                    | :white_check_mark: |\n| [许可证选择注解](transforms\u002Fcode\u002Flicense_select\u002FREADME.md)         | :white_check_mark: | :white_check_mark: |\n| [代码性能分析器](transforms\u002Fcode\u002Fcode_profiler\u002FREADME.md)                             | :white_check_mark: | :white_check_mark: |\n**图像**                                                                         |                    |                     |             |                    |\n| [人脸](transforms\u002Fimages\u002FREADME.md)  | :white_check_mark: | :white_check_mark: |\n| [NSFW（不适合工作场所）](transforms\u002Fimages\u002FREADME.md)  | :white_check_mark: | :white_check_mark: |\n| [人物](transforms\u002Fimages\u002FREADME.md)  | :white_check_mark: | :white_check_mark: |\n\u003C\u002Fdetails>\n\n## 日志配置\nDPK 使用统一的日志记录器 - `dpk`。可以通过设置以下环境变量来配置它：\n\n| 变量名        | 默认值 | 描述                                                                                                                            |\n|----------------------|-----------|----------------------------------------------------------------------------------------------------------------------------------------|\n| DPK_LOG_LEVEL        | INFO      | 日志级别                                                                                                                      |\n| DPK_LOG_FILE         | 无      | 日志文件的路径，如果设置，则日志消息将被存储到该文件中                                                            |\n| DPK_LOG_JSON_HANDLER | \"\"        | 如果设置为 \"true\"、\"1\"、\"yes\" 或 \"on\"（不区分大小写），控制台日志将以 JSON 格式输出                          |\n| DPK_LOG_PROPAGATION  | \"\" | 如果设置为 \"true\"、\"1\"、\"yes\" 或 \"on\"（不区分大小写），日志记录器会将所有日志消息传递给其父级日志记录器 |\n\n\n## 贡献\n欢迎贡献者添加新模块以扩展对其他数据模态的支持，并为现有模块增加运行时支持！详情请阅读 [此文档](CONTRIBUTING.md)。\n\n## 获取帮助和支持\n请随时通过 [讨论区](https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fdiscussions) 与我们联系。\n\n## 维护者\n有关当前维护者的列表，请参阅 [MAINTAINERS.md](MAINTAINERS.md)。\n\n## 更改日志\n有关发布和更改的历史记录，请参阅 [release-notes.md](release-notes.md)。\n\n## 资源\n[论文、演讲、演示文稿和教程](resources.md)\n\n[Granite 开源 LLM 模型](https:\u002F\u002Fhuggingface.co\u002Fibm-granite) \n\n[GneissWeb](https:\u002F\u002Fresearch.ibm.com\u002Fblog\u002Fgneissweb-for-granite-training) \n\n## 引用 \u003Ca name = \"citations\">\u003C\u002Fa>\n如果您在研究中使用了 Data Prep Kit，请引用我们的论文：\n\n```bash\n@misc{wood2024dataprepkitgettingdataready,\n      title={Data-Prep-Kit: 为 LLM 应用开发准备数据}, \n      author={David Wood, Boris Lublinsky, Alexy Roytman, Shivdeep Singh, Constantin Adam, Abdulhamid Adebayo, Sungeun An, Yuan Chi Chang, Xuan-Hong Dang, Nirmit Desai, Michele Dolfi, Hajar Emami-Gohari, Revital Eres, Takuya Goto, Dhiraj Joshi, Yan Koyfman, Mohammad Nassar, Hima Patel, Paramesvaran Selvam, Yousaf Shah, Saptha Surendran, Daiki Tsuzuku, Petros Zerfos, Shahrokh Daijavad},\n      year={2024},\n      eprint={2409.18164},\n      archivePrefix={arXiv},\n      primaryClass={cs.AI},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.18164}, \n}\n```\n## 许可证\n所有源文件必须包含版权和许可证声明。如需查看详细的 LICENSE，请点击 [此处](LICENSE)。\n\n## LF AI & 数据\nData Prep Kit 是在 [LF AI & 数据基金会](https:\u002F\u002Flfaidata.foundation\u002Fprojects\u002F) 中托管的一个项目。\n\n### IBM ❤️ 开源人工智能\n该项目由 IBM 研究院的 AI 模型数据团队发起。\n\n版权所有 © Data Prep Kit 框架 - 一系列 LF 项目有限责任公司。","# Data Prep Kit 快速上手指南\n\nData Prep Kit 是一个加速非结构化数据处理的工具包，专为 LLM 应用开发者设计。它支持从笔记本电脑到数据中心规模的扩展，可用于数据清洗、转换和增强，适用于预训练、微调、指令微调及构建 RAG 应用。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**：Linux, macOS 或 Windows (推荐 Linux 以获得最佳兼容性)\n*   **Python 版本**：3.10, 3.11, 3.12 或 3.13\n*   **前置依赖**：\n    *   建议先安装 `uv` (一个极速的 Python 包安装器和管理器)，它将自动处理虚拟环境和依赖冲突。\n\n## 2. 安装步骤\n\n推荐使用 `uv` 进行安装，它可以快速创建隔离环境并安装所有可用的数据转换模块。\n\n### 第一步：安装 uv\n如果您尚未安装 `uv`，请使用以下命令安装：\n\n```bash\npip install uv\n```\n\n*(国内用户若遇网络问题，可尝试使用国内镜像源：`pip install uv -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`)*\n\n### 第二步：安装 Data Prep Kit\n运行以下命令安装包含所有转换模块的完整版本：\n\n```bash\nuv pip install 'data-prep-toolkit-transforms[all]'\n```\n\n该命令会自动创建虚拟环境（如果尚未存在）并安装所有依赖。\n\n## 3. 基本使用\n\n### 方式一：零配置体验 (Google Colab)\n这是体验 Data Prep Kit 最快的方式，无需本地安装任何依赖。您可以直接在浏览器中运行一个示例 Notebook，演示如何从 PDF 文件中提取内容。\n\n*   **在线运行**：点击 [Open In Colab](https:\u002F\u002Fcolab.research.google.com\u002Fgithub\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fblob\u002Fdev\u002Fexamples\u002Fnotebooks\u002FRun_your_first_transform_colab.ipynb) 直接启动。\n*   **本地运行**：您也可以下载该 `.ipynb` 文件，在本地 Jupyter 环境中直接运行，无需克隆整个仓库。\n\n### 方式二：本地构建数据处理流水线\n安装完成后，您可以组合不同的转换模块（Transforms）来构建端到端的数据处理流程。\n\n**核心概念：**\n*   **模块 (Modules)**：Kit 提供了丰富的内置模块，涵盖代码、自然语言和图像数据。\n*   **运行时 (Runtimes)**：支持纯 Python 运行（适合小规模数据）和 Ray 运行（适合大规模分布式处理）。\n*   **文件格式**：主要处理 Parquet 文件，同时也支持 ZIP, NDJSON, JSONL 等格式的输入输出。\n\n**常用转换模块示例：**\n您可以参考 `examples` 目录下的完整案例来构建如下流程：\n1.  **数据摄入**：例如将 HTML 或代码压缩包转换为 Parquet (`html2parquet`, `code2parquet`)。\n2.  **数据清洗**：执行精确去重 (`ededup`)、模糊去重 (`fdedup`) 或移除有害内容 (`hap`)。\n3.  **数据增强**：添加语言标识 (`lang_id`)、文档质量评分 (`doc_quality`) 或 PII 脱敏 (`pii_redactor`)。\n4.  **RAG 专用**：文档分块 (`doc_chunk`) 和文本编码 (`text_encoder`)。\n\n**进阶使用：**\n*   **命令行运行**：支持直接从命令行调用转换任务。\n*   **集群部署**：单个转换可作为 Python 或 Ray 任务部署在 Kubernetes 上；多个转换序列可通过 [Tekton](https:\u002F\u002Ftekton.dev\u002F) 流水线编排。\n*   **自定义开发**：框架允许开发者编写自定义转换逻辑来处理特定格式的数据。详细教程请参阅官方文档中的 [贡献指南](doc\u002Fquick-start\u002Fcontribute-your-own-transform.md)。\n\n> **提示**：所有内置模块均包含小型样本数据用于测试。如需使用 HuggingFace 上的真实数据集进行测试，请参考高级文档中的相关章节。","某金融科技公司的大模型团队正试图构建一个基于内部研报和合规文档的 RAG（检索增强生成）系统，以辅助分析师快速提取关键数据。\n\n### 没有 data-prep-kit 时\n- **格式解析繁琐**：团队需手动编写大量脚本处理 PDF、HTML 和 JSONL 等多种非结构化格式，解析表格和页脚经常出错，耗时数周。\n- **扩展能力受限**：本地脚本在处理 GB 级文档时内存溢出，若要迁移到集群环境，需彻底重构代码以适配 Ray 或 Kubernetes，开发门槛极高。\n- **清洗逻辑分散**：去重、隐私脱敏和内容过滤逻辑散落在不同文件中，缺乏统一标准，导致训练数据中混入噪声甚至敏感信息。\n- **迭代周期漫长**：每次调整数据清洗规则都需要重新运行整个流水线，缺乏模块化支持，验证新策略往往需要等待数小时。\n\n### 使用 data-prep-kit 后\n- **开箱即用的转换模块**：直接调用内置的 PDF 内容提取和 HTML 清洗模块，自动处理复杂排版，将数据准备时间从数周缩短至几天。\n- **无缝弹性伸缩**：依托其基于 Ray 的架构，同一套代码可先在笔记本调试，随后一键部署到 Kubernetes 集群处理 TB 级数据，无需重写逻辑。\n- **标准化流水线**：利用预置的 transforms 序列统一执行去重、PII 脱敏和质量评分，确保进入大模型的数据干净、合规且一致。\n- **高效敏捷迭代**：通过模块化设计灵活组合或替换单个清洗步骤，配合 Tekton 管道技术，大幅缩短实验反馈循环，加速模型优化。\n\ndata-prep-kit 通过将碎片化的数据工程任务转化为标准化、可扩展的流水线，让开发者能专注于大模型应用逻辑而非底层数据杂务。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fdata-prep-kit_data-prep-kit_010d35ae.png","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fdata-prep-kit_49cd76fb.png",null,"https:\u002F\u002Fgithub.com\u002Fdata-prep-kit",[78,82,86,90,94,98,102],{"name":79,"color":80,"percentage":81},"HTML","#e34c26",64.5,{"name":83,"color":84,"percentage":85},"Jupyter Notebook","#DA5B0B",25.8,{"name":87,"color":88,"percentage":89},"Python","#3572A5",8.9,{"name":91,"color":92,"percentage":93},"Makefile","#427819",0.5,{"name":95,"color":96,"percentage":97},"Rust","#dea584",0.2,{"name":99,"color":100,"percentage":101},"Shell","#89e051",0.1,{"name":103,"color":104,"percentage":105},"Dockerfile","#384d54",0,922,247,"2026-04-17T20:25:24","Apache-2.0","未说明",{"notes":112,"python":113,"dependencies":114},"该工具支持从普通笔记本电脑扩展到数据中心规模。基础安装仅需 Python 环境，若需大规模数据处理可配置 Ray 运行时。支持在 Google Colab 上直接运行示例，无需本地克隆仓库或复杂设置。主要处理非结构化数据（文本、代码、图像），输出格式通常为 Parquet。","3.10, 3.11, 3.12, 3.13",[115,116,117,118,119],"uv","data-prep-toolkit-transforms","Ray (可选，用于扩展)","Kubernetes (可选，用于部署)","Tekton (可选，用于流水线)",[45,14,35,16],[122,123,124,125,126,127,128,129,130,131,132,133,134,135,136,137,138,139],"data-preparation","finetuning","llm","llmapps","data","data-prep","data-preprocessing","data-preprocessing-pipelines","datacuration","large-language-models","large-scale-data-processing","python","ray","spark","datarecipes","code-quality","deduplication","malware","2026-03-27T02:49:30.150509","2026-04-20T04:04:12.465724",[143,148,153,157,162,167,172],{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},43206,"如何为新的数据转换（Transform）创建标准的示例 Notebook？","项目已确立了标准的 Notebook 模板。推荐参考 `pdf2parquet` 的 Notebook 作为模板：https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fblob\u002Fdev\u002Ftransforms\u002Flanguage\u002Fpdf2parquet\u002Fpdf2parquet.ipynb。该模板包含了输入和输出文件夹的设置，这是大多数转换组件都需要的结构。开发新示例时，应模仿此结构，尽量隐藏额外的导入和参数设置，让用户只需关注输入数据和调用 API 即可。","https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fissues\u002F754",{"id":149,"question_zh":150,"answer_zh":151,"source_url":152},43207,"是否有通用的分类器转换组件支持加载任意模型进行多类别标注？","是的，该功能已通过 PR #1046 合并。新的转换组件允许从多种来源（如 Hugging Face, S3 等）加载一个或多个分类器模型。用户可以配置标签名称和置信度分数的注释字段名。当使用多个模型时，需配置对应数量的标签 - 分数对名称。这解决了之前 `lang_id` 转换仅局限于语言识别模型的问题。","https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fissues\u002F924",{"id":154,"question_zh":155,"answer_zh":156,"source_url":152},43208,"如何优化分类器转换组件在处理大量数据时的运行速度？","可以通过引入多线程或多进程来加速处理。建议尝试以下几种方法：\n1. 使用 `concurrent.futures.ThreadPoolExecutor` 进行线程池映射。\n2. 如果使用的是 FastText 模型，可以使用 `fasttext_parallel` 库的 `batch` 方法。\n3. 使用 `multiprocessing` 模块创建进程池（注意在 Linux\u002FMac 上使用 'fork' 上下文）。\n例如：\n```python\nfrom concurrent.futures import ThreadPoolExecutor\nwith ThreadPoolExecutor() as executor:\n    results = executor.map(predict_text, [model] * len(texts), texts)\n```",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},43209,"在哪里可以找到 `html2parquet` 转换组件的使用示例代码？","官方文档中已补充了示例 Notebook。你可以查看以下链接获取完整的代码示例，展示了如何读取 HTML 输入并生成 Parquet 输出：https:\u002F\u002Fgithub.com\u002Ftouma-I\u002Fdata-prep-kit-pkg\u002Fblob\u002Fhtml2parquet-example\u002Ftransforms\u002Flanguage\u002Fhtml2parquet\u002Fnotebooks\u002Fhtml2parquet.ipynb。该 Notebook 已被链接到 `html2parquet` 的 README 文件中。","https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fissues\u002F788",{"id":163,"question_zh":164,"answer_zh":165,"source_url":166},43210,"如何创建一个串联运行多个 GneissWeb 转换组件的流水线 Notebook？","该任务已完成，相关代码已合并在 PR #1055 中。生成的 Notebook 展示了按顺序运行以下转换的流程：读取数据 -> 重复内容移除 -> 可读性\u002FFastText\u002FDCLM 标注 -> 极端令牌标注 -> 过滤。该 Notebook 已经过测试，可以使用来自 Hugging Face 的真实 Parquet 文件（约 2GB）运行。","https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fissues\u002F983",{"id":168,"question_zh":169,"answer_zh":170,"source_url":171},43211,"在 Mac M1 芯片环境下运行 Ray 管道时遇到错误怎么办？","目前在 Mac M1 (aarch64) 架构上运行包含 Ray 步骤的管道（如 noop pipeline）存在已知兼容性问题，短期内可能无法解决。建议在 RHEL VM 或其他支持的 Linux 环境中运行管道以规避此问题。维护者确认在 RHEL VM 上运行成功，但明确指出 Mac M1 的问题暂时搁置。","https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fissues\u002F27",{"id":173,"question_zh":174,"answer_zh":175,"source_url":176},43212,"所有转换组件的文档和示例 Notebook 是否有统一的标准？","是的，项目推行了统一的文档和示例标准。每个转换组件的所有者需要完成两项任务：1) 基于给定模板编写更完善的文档；2) 提供简化版的示例 Notebook。Notebook 的设计目标是让用户能轻松上手：只需提供用户数据、调用 API 并查看结果，其余代码（如额外导入、复杂参数设置）应尽量隐藏或自动化。","https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fissues\u002F753",[178,183,188,193,198,203,208,213,218,223,228,233,238,243,247,252],{"id":179,"version":180,"summary_zh":181,"released_at":182},342875,"v1.1.7","## 变更内容\n* @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1527 中为新版本发布做准备\n* @klwuibm 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1512 中用 lanceDB 集成替换现有的 text_encoder\n* @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1534 中修复了文档 ID 问题\n* @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1528 中更新了已部署模块的名称，并修复了 OpenSearch 的输入参数\n* @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1531 中更新了 docling2parquet，以在…时从 contents 字段中移除图像数据\n* @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1526 中对 README 文件进行了优化\n* @klwuibm 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1542 中将 embeddings_in_parquet 标志改为 embeddings_in_lanceDB，以修复 b…\n* @Mohammad-nassar10 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1544 中为 doc_quality 和 docling2parquet 添加了 Spark 支持\n* @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1543 中添加了批处理生成的 pytest 测试\n* @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1519 中添加了一个基于 Rich 的日志处理器\n* @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1539 中重构了 tkn2arrow 文件夹结构，并测试了 Ray 作业\n* @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1536 中修复了 Ededup 问题\n* @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1546 中修改了 data_processing 的 requirements.txt，以减轻 model_… 的负担\n* @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1548 中新增了 rayjob YAML 文件\n* @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1549 中新增了 resize 的 rayjob YAML 文件\n* @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1552 中移除了日志级别高于 Debug 时打印完整路径的功能\n* @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1553 中创建了 Pii 图像笔记本\n* @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1555 中对日志格式化器进行了一些小修复\n* @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1556 中删除了一行重复的内容\n* @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1507 中实现了文件夹到 Parquet 的转换\n* @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1560 中展示了部分选定的输出单元格\n* @klwuibm 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1564 中修复了 transform.py 在 GPU 可用时的一个 bug\n* @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1568 中添加了设置 dpw 日志处理器的选项\n* @revit13 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1567 中将 SinkHandler 移动到了 data_processing 库\n* @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1570 中更新了 data-processing-lib 的 requirements 中 boto3 的版本\n* 添加了使用 Python 安装的相关变更","2026-02-11T15:51:43",{"id":184,"version":185,"summary_zh":186,"released_at":187},342876,"v1.1.6","## 变更内容\n* Tekton 流水线 功能分支，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1454 中用于实验\n* Tekton 2，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1461 中实现\n* 为 OCP 上的流水线服务账户添加角色，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1463 中完成\n* 修复 docling 镜像访问被拒绝的问题，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1465 中解决\n* 构建并使用包含 kubectl 和 oc 命令的新镜像，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1473 中完成\n* 准备新版本发布，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1476 中进行\n* 重构文件夹结构，将任务与流水线分离，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1479 中完成\n* 在仓库任务中引用 feature\u002Ftekton 分支，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1482 中实现\n* 更新 rag_pdf_example 至 1.1.4 版本，并集成 docling2parquet，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1478 中完成\n* 文档：修正参数 `int_id_column` 的名称，由 @Raghav-Bell 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1475 中完成\n* 截断异常信息，由 @Raghav-Bell 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1480 中实现\n* 更新 doc_id-ray.ipynb，使用正确的整数列名，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1490 中完成\n* 更新黑名单，允许本地接受 blocked_domain_list 而无需 DAF，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1497 中完成\n* Hacktoberfest - 修复多个位置损坏的 dpk_docling2parquet 及其他笔记本中的导入问题 - 问题 1481，由 @maaleemkazmi-code 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1488 中解决\n* 向 PII 配方中添加加密示例，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1486 中完成\n* DocID：创建并测试新的 Python Dockerfile 和 Python 作业，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1498 中完成\n* DocId：测试以显示弃用警告，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1501 中完成\n* 将 easyocr 添加到依赖项中，因为最新版本已不再包含该库…，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1502 中完成\n* 启用 Tekton 流水线使用 Python 运行时，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1492 中实现\n* 新增 transform 黑名单功能的示例笔记本 #1315，由 @mahadevroy84 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1496 中完成\n* 将所有 DPK 日志合并为一个日志文件，由 @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1499 中完成\n* 添加关于 Hugging Face 封闭模型的说明，由 @Raghav-Bell 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1504 中完成\n* Docling2parquet 提供提取图像\u002F页面二进制文件的选项，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1505 中完成\n* Tekton 流水线在 K8s 上运行，由 @touma 完成","2025-11-14T16:11:57",{"id":189,"version":190,"summary_zh":191,"released_at":192},342877,"v1.1.5","## 变更内容\n* 治理人员变更，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1444 中完成\n* PII 去标识化工具：重构以使用新的运行时文件名，并由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1459 中进行了加密测试\n* Gneissweb：采用新的运行时文件名规范，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1458 中完成\n* 在 docling2parquet 中添加了 vlm granite docling 的选项，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1456 中完成\n* 修复 CONTRIBUTING.md 文件中的拼写错误，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1452 中完成\n* 文档更新——修正 PDF 文件链接，由 @Raghav-Bell 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1464 中完成\n* 添加 Python 多进程作业，并修复多进程 boto 序列化问题，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1457 中完成\n* 因发布 1.1.5.dev0 版本而对配方笔记本进行的更改，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1467 中完成\n* Gw 多进程及 rayjob 相关功能，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1445 中完成\n* 在 pii_r… 中为 flair 限制 requirements.txt 文件中 matplotlib 的版本，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1468 中完成\n* 检查 filter_criteria 是否为 None，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1470 中完成\n\n\n## 新贡献者\n* @Raghav-Bell 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1464 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fcompare\u002Fv1.1.4...v1.1.5","2025-10-02T15:20:44",{"id":194,"version":195,"summary_zh":196,"released_at":197},342878,"v1.1.4","## 变更内容\n* 由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1425 中为新版本发布做准备\n* [bug] 将分词功能扩展至处理字符串列表，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1433 中完成\n* 更新代码，在文本内容为空时填入 -1，由 @santoshborse 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1424 中完成\n* 修复额外的密钥问题，由 @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1431 中完成\n* 更新过滤转换逻辑，使其在条件不满足时返回具有原始模式的空表…，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1434 中完成\n* 避免使用会破坏代码的最新版 polars 1.33，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1439 中完成\n* 添加对二进制转换和链式数据的支持，并更新测试、README 等，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1429 中完成\n* 移除 boto3 依赖的下限版本约束。由 @revit13 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1437 中完成\n* 更新日志记录，从配置中移除访问密钥和秘密密钥，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1440 中完成\n* 添加 dev1 版本用于回归测试，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1441 中完成\n* 为新版本发布（1.1.4）做准备，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1442 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fcompare\u002Fv1.1.3...v1.1.4","2025-09-16T01:39:43",{"id":199,"version":200,"summary_zh":201,"released_at":202},342879,"v1.1.3","## 变更内容\n* 为下一次发布（1.1.2之后）做准备，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1358 中完成  \n* 交换了 code_quality 转换的两个笔记本，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1350 中完成  \n* 修复了 docling2parquet v2 将 MD 文件作为输入时的 bug，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1360 中完成  \n* 添加了用于 code_profile 转换的 kfp_ray 文件夹及文件，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1335 中完成  \n* 修复 README.md 中的 logo，由 @Ibrahim2595 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1364 中完成  \n* 修正发布说明文本中的拼写错误，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1373 中完成  \n* 更新 release-notes.md，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1374 中完成  \n* 将 Pyarrow 升级至 17.0.0，并解决与 Google Colab 的 pandas\u002Fnumpy 冲突，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1372 中完成  \n* 调整标记的依赖项以兼容 Google Colab，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1367 中完成  \n* 移除 removed_column，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1371 中完成  \n* 应用 v1.1.2 补丁，修复 filter 代码中的 bug，并放宽对较新版本 pydantic 的测试要求，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1385 中完成  \n* 将 ABC 类作为所有转换的基类添加，由 @roytman 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1383 中完成  \n* 准备发布前的补丁，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1386 中完成  \n* 使用最新版本和 filter 的新 API 更新 Gneissweb 笔记本，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1388 中完成  \n* 将补丁修复合并到 dev 分支，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1389 中完成  \n* 贡献 C4 注释器，由 @santoshborse 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1322 中完成  \n* 确保所有 requirements.txt 文件中 numpy 的版本不超过 1.26.4，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1390 中完成  \n* 放宽 xxhash 的要求，以支持 Haifa 正在进行的工作，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1395 中完成  \n* 在运行结束时解析 metadata.json，并标记异常情况，由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1396 中完成  \n* setuptools 的最新版本导致构建失败，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1403 中完成  \n* 更新 model_loader，使其利用 data_access_s3 进行 S3 加载，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1404 中完成  \n* 移除不必要的 torch 依赖，由 @santoshborse 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1411 中完成  \n* 内存测试，由 @swith005 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F1407 中完成  \n* 更新 data_access_local 的有效配置，由 @swith005 在 htt","2025-08-18T21:11:44",{"id":204,"version":205,"summary_zh":206,"released_at":207},342880,"v.1.1.2","## 变更内容\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F877 中修复了 Ededup kfp v1 在分叉中失败的调试问题。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F879 中重构了 Transforms 1.0.0a0 的语言转换模块。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F809 中将 Html2Parquet 重构为独立的 dpk_ 命名空间。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F813 中将 Pdf2Parquet 重构为独立的 dpk_ 命名空间。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F826 中将 text_encoder 重构为独立的 dpk_ 命名空间。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F854 中将文档质量转换重构为独立的模块，并使用独立的 dpk_ 命名空间。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F860 中将 doc_id 重构为独立的 dpk_ 模块名称。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F864 中首次尝试以独立的 dpk_lang_id 命名空间进行重构。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F866 中将 hap 转换重构为独立的 dpk_ 模块。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F869 中将分词转换重构为独立的 dpk_tokenization 模块。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F878 中将 ededup 重构为独立的 dpk_ededup 命名空间。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F892 中将分叉中的更改合并到主仓库。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F893 中将 FDedup 重构为独立的 dpk_ 模块。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F886 中将分词转换重构为具有独立名称的 dpk_ 模块。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F899 中修复了 transforms 1.0 alpha 版本，使其使用 docid 生成 fdedup 所需的整数 ID。\n* 由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F894 中在 README 中添加了代码规范的勾选标记。\n* 由 @AnLiGentile 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F897 中完成了相似度转换的初步实现。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F900 中将过滤转换重构为独立的 dpk_filter 命名模块。\n* 由 @PoojaHolkar 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F828 中提供了 PII 数据文件。\n* 由 @takuyagt 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F849 中通过多进程和超时机制增强了标题清理模块。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F901 中放宽了对 pandas 和 requests 的依赖要求。\n* 由 @revit13 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F915 中向 add_settings_to_comp 添加了 image_pull_secrets 参数，用于 kfp v2。\n* 由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F917 中修复了主 README 文件中的损坏链接。\n* 更新了相似度转换的 README.md。","2025-07-03T16:29:55",{"id":209,"version":210,"summary_zh":211,"released_at":212},342881,"v1.1.1","## 变更内容\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F877 中修复了 Ededup kfp v1 在分叉中失败的调试问题。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F879 中重构了 Transforms 1.0.0a0 的语言转换模块。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F809 中将 Html2Parquet 重构为独立的 dpk_ 命名空间。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F813 中将 Pdf2Parquet 重构为独立的 dpk_ 命名空间。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F826 中将 text_encoder 重构为独立的 dpk_ 命名空间。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F854 中将文档质量转换模块重构为独立的模块，并赋予其独立的 dpk_ 命名空间。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F860 中将 doc_id 重构为独立的 dpk_ 模块名称。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F864 中首次尝试以独立的 dpk_lang_id 命名空间进行重构。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F866 中将 hap 转换模块重构为独立的 dpk_ 模块。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F869 中将分词转换模块重构为独立的 dpk_tokenization 模块。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F878 中将 ededup 重构为独立的 dpk_ededup 命名空间。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F892 中将分叉中的更改合并到主仓库。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F893 中将 FDedup 重构为独立的 dpk_ 模块。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F886 中将分词转换模块重构为具有独立名称的 dpk_ 模块。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F899 中修复了 Transforms 1.0 Alpha 版本，使其使用 docid 生成 fdedup 所需的整数 ID。\n* 由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F894 中在 README 中添加了代码配置文件的勾选标记。\n* 由 @AnLiGentile 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F897 中完成了相似度转换的初步实现。\n* 由 @matouma 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F900 中将 filter 转换模块重构为独立的 dpk_filter 命名模块。\n* 由 @PoojaHolkar 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F828 中提供了 PII 数据文件。\n* 由 @takuyagt 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F849 中通过多进程和超时机制增强了标题清理模块的功能。\n* 由 @touma-I 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F901 中放宽了对 pandas 和 requests 的依赖要求。\n* 由 @revit13 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F915 中向 add_settings_to_comp 添加了 image_pull_secrets 参数，用于 kfp v2。\n* 由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002Fdata-prep-kit\u002Fdata-prep-kit\u002Fpull\u002F917 中修复了主 README 文件中的失效链接。\n* 更新了关于相似度转换的 README.md。","2025-05-09T17:44:34",{"id":214,"version":215,"summary_zh":216,"released_at":217},342882,"v1.1.0","## 变更内容\n* [agentic-exploration 分支] 对 dpk_intro_1_langchain 笔记本进行了小幅更新。由 @revit13 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F942 中完成。\n* 在 1.0.0 版本冻结后启动新的发布周期。由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F968 中完成。\n* 更新 CSV 文件中的语义规则。由 @pankajskku 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F963 中完成。\n* [KFP] 从用户处获取 Ray 集群运行 ID，用于 KFP v2。由 @revit13 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F956 中完成。\n* 按照时间倒序排列事件，并添加日期。由 @agoyal26 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F976 中完成。\n* 在 MkDocs 钩子中添加异常处理。由 @shivdeep-singh-ibm 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F984 中完成。\n* 添加快速补丁，禁用 Windows 下的 fcntl 函数。由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F987 中完成。\n* 更新 rag-html-1 示例。由 @sujee 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F949 中完成。\n* 更新维护人员信息。由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F986 中完成。\n* 为各类示例和教程使用的全部数据文件指定专用文件夹。由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F994 中完成。\n* 添加启用 KFP 的可选步骤。由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F992 中完成。\n* 添加极端分词和可读性转换功能。由 @cmadam 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F965 中完成。\n* 将列名改为小写，以使输出表结构与 Lakehouse 兼容。由 @pankajskku 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F979 中完成。\n* 文档调整。由 @cmadam 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F999 中完成。\n* 为支持原生 Windows 编写的 README 文件。由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F991 中完成。\n* gneissweb_classification 示例。由 @ran-iwamoto 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F974 中完成。\n* DPK 对文本数据进行预处理，用于微调模型。由 @PoojaHolkar 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F973 中完成。\n* 修复 contribute-your-own-transform.md 中的一些拼写错误。由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F1004 中完成。\n* 移除重复内容。由 @swith005 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F953 中完成。\n* 开发版本 1.0.1.dev1。由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F1006 中完成。\n* dedup 包的版本管理和 Windows 相关修复。由 @cmadam 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F1003 中完成。\n* 测试 dev1 版本。由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F1014 中完成。\n* 重新组织着陆页的 README 文件，并在示例文件夹中添加 README。由 @agoyal26 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F1001 中完成。\n* 更新 contribute-your-own-transform.md。由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F1019 中完成。\n* pdf-processing-1 示例更新。由 @sujee 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F998 中完成。\n* 更新 URL，使其指向主数据准备工具包仓库。由 @sujee 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F1022 中完成。\n* 将 Docling 升级至 v2.21。由 @dolfim-ibm 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F1031 中完成。\n* Cargo 修复。由 @swith005 在 https:\u002F\u002F","2025-03-09T19:24:43",{"id":219,"version":220,"summary_zh":221,"released_at":222},342883,"v1.0.0","## 变更内容\n* 修复了 Ededup kfp v1 在分叉中失败的调试问题，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F877 中完成。\n* 将 Transforms 1.0.0a0 中的语言转换重构为独立的模块，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F879 中完成。\n* 将 Html2Parquet 重构为其自身的 dpk_ 命名空间，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F809 中完成。\n* 将 Pdf2Parquet 重构为其自身的 dpk_ 命名空间，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F813 中完成。\n* 将 text_encoder 重构为其自身的 dpk_ 命名空间，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F826 中完成。\n* 将文档质量转换重构为独立的模块，并使用其自身的 dpk_ 命名空间，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F854 中完成。\n* 将 doc_id 重构为其自身的 dpk_ 模块名称，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F860 中完成。\n* 初步尝试使用独立的 dpk_lang_id 命名空间进行重构，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F864 中完成。\n* 将 hap 转换重构为其自身的 dpk_ 模块，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F866 中完成。\n* 将分词转换重构为其自身的 dpk_tokenization 模块，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F869 中完成。\n* 将 ededup 重构为其自身的 dpk_ededup 命名空间，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F878 中完成。\n* 将分叉中的更改合并到主仓库，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F892 中完成。\n* 将 FDedup 重构为其自身的 dpk_ 模块，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F893 中完成。\n* 将分词转换重构为其命名的 dpk_ 模块，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F886 中完成。\n* 修复了 transforms 1.0 alpha 版本，使其使用 docid 生成 fdedup 所需的整数 ID，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F899 中完成。\n* 在 README 中为 Code Profile 添加了复选标记，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F894 中完成。\n* 初步实现相似度转换，由 @AnLiGentile 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F897 中完成。\n* 将过滤转换重构为其自身的 dpk_filter 命名模块，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F900 中完成。\n* PII 数据文件，由 @PoojaHolkar 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F828 中完成。\n* 使用多进程和超时功能增强 Header Cleanser 模块，由 @takuyagt 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F849 中完成。\n* 放宽对 pandas 和 requests 的依赖要求，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F901 中完成。\n* 为 kfp v2 的 add_settings_to_comp 添加 image_pull_secrets 参数，由 @revit13 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F915 中完成。\n* 修复主 README 文件中的失效链接，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F917 中完成。\n* 更新相似度转换的 README.md，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F911 中完成。\n* 更新过滤转换的 README.md，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F919 中完成。\n* 对代码分析器转换进行重构，以","2025-03-09T16:28:02",{"id":224,"version":225,"summary_zh":226,"released_at":227},342884,"v0.2.3","## 变更内容\n* 模糊去重功能，由 @Kibnelson 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F699 中实现\n* 文档质量转换：更新 README 并添加示例笔记本，由 @dtsuzuku-ibm 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F790 中完成\n* 修复无法读取部分 Parquet 文件的问题（问题 #816），由 @daw3rd 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F817 中解决\n* 更新资源网页，添加最新演讲和链接，由 @agoyal26 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F846 中完成\n* HAP 转换：更新 README.md 并添加示例笔记本，由 @ian-cho 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F821 中实现\n* 将 transforms==0.2.3.dev0 预发布版本发布到 PyPI，并依赖 toolkit==0.2.2，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F837 中完成\n* 语义剖析器与报告生成模块的集成，由 @pankajskku 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F824 中实现\n* 更新 doc_id 和 ededup 的文档，使其遵循问题 #753 中的模板，由 @cmadam 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F836 中完成\n* 更新 README.md，为 fdedup 的 Python 和 Spark 版本表格添加勾选标记，由 @shahrokhDaijavad 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F855 中完成\n* 添加示例笔记本链接——修复问题 #848，由 @cmadam 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F861 中完成\n* Hap 分数——示例笔记本，由 @AishaDarga 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F840 中提供\n* 简化修复问题 803 的方案，由 @cmadam 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F839 中完成\n* HTML RAG 1——爬取网站、处理 HTML 并运行 RAG 查询，由 @sujee 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F838 中实现\n* 修复 pandas 2.1.x 的使用问题，由 @dolfim-ibm 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F867 中完成\n* 修复代码剖析器转换中 Agda 语言的错误，由 @pankajskku 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F865 中完成\n* 根据 Constantin 的要求发布 0.2.3.dev1 版本，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F875 中完成\n* 使用 transform 0.2.3.dev1 和 toolkit 0.2.3.dev0 创建 code_profiler 的预发布轮子包，由 @touma-I 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F857 中完成\n* 为非 root 用户授予 ray 目录的必要权限，由 @revit13 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F881 中完成\n* 开启以 1.0.0 为目标的新发布周期，由 @matouma 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F885 中启动\n\n## 新贡献者\n* @Kibnelson 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F699 中完成了首次贡献\n* @agoyal26 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F846 中完成了首次贡献\n* @AishaDarga 在 https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F840 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fcompare\u002Fv0.2.2...v0.2.3","2024-12-17T12:18:19",{"id":229,"version":230,"summary_zh":231,"released_at":232},342885,"v0.2.2","## What's Changed\r\n* Update all transforms to use single package library with [extra] by @touma-I in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F735\r\n* Fix metadata logging even when actors crash  by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F721\r\n* fix multilock with default parameters by @dolfim-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F757\r\n* Update resources.md by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F755\r\n* allow the user to customize crawler settings by @hmtbr in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F738\r\n* updating RAG example to use IBM granite model by @sujee in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F745\r\n* fixed URLs and fixed ray download error by @sujee in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F744\r\n* Update pdf2parquet to Docling v2 by @dolfim-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F756\r\n* Fixing code sample-notebook  by @santoshborse in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F749\r\n* Create new dev2 pre-releases for both tansforms and library with latest from docling 2.0 by @touma-I in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F765\r\n* small fixes by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F771\r\n* Bump streamlit from 1.36.0 to 1.37.0 in \u002Ftransforms\u002Fcode\u002Fcode_profiler\u002Fpython by @dependabot in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F766\r\n* bump connector version by @hmtbr in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F769\r\n* Fix License select kfp by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F781\r\n* Modify superpipeline params type. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F773\r\n* set kuberay apiserver version by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F713\r\n* add new talks to resources.md by @dtsuzuku-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F789\r\n* Bump certifi from 2024.6.2 to 2024.7.4 in \u002Ftransforms\u002Fcode\u002Fcode_profiler\u002Fpython by @dependabot in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F787\r\n* Bump tornado from 6.4 to 6.4.1 in \u002Ftransforms\u002Fcode\u002Fcode_profiler\u002Fpython by @dependabot in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F775\r\n* Increase recursion limit and add error handling for deep recursion of… by @pankajskku in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F747\r\n* fix uint64 hash to pyarrow by @dolfim-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F793\r\n* use str as document_hash by @dolfim-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F798\r\n* update doc_chunk md results by @dolfim-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F799\r\n* Crawler transform by @touma-I in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F797\r\n* Update Kuberay api server version in requirements.env. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F808\r\n* Fix set_s3_env_vars_to_component in kfp v2. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F806\r\n* A few changes in the root README by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F810\r\n* Update README.md by @Padarn in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F805\r\n* Update README docs for language transforms by @dolfim-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F800\r\n* Html2Parquet Updated README and Added Sample Notebook by @sungeunan-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F815\r\n* Update web2parquet.ipynb by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F823\r\n* relax hap denpendencies on torch to overcome error on MacOS I7 with python 3.11 by @matouma in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F830\r\n* Pending version change\u002F0.2.3 by @matouma in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F832\r\n\r\n## New Contributors\r\n* @dependabot made their first contribution in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F766\r\n* @Padarn made their first contribution in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F805\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fcompare\u002Fv0.2.2-connector...v0.2.2","2024-11-26T11:15:44",{"id":234,"version":235,"summary_zh":236,"released_at":237},342886,"v0.2.2-connector","## What's Changed\r\n* Restructure the repository to distinguish\u002Fseparate runtime libraries by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F140\r\n* Move transform code into ray subdirectory - towards splitting transform runtimes. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F143\r\n* restore lost transforms\u002Funiversal\u002Fnoop\u002Fray content by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F144\r\n* New Readme file created for memory and endurance tests by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F145\r\n* LAB to Kit by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F147\r\n* Update ray\u002FREADME.md by @eltociear in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F148\r\n* kfp multi jobs by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F142\r\n* small fix in the init file by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F150\r\n* rename make targets to be ray-specific by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F146\r\n* Naming, docs and fix for recent binary file processing changes by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F153\r\n* bug fixes by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F155\r\n* Binary by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F141\r\n* update kfp image version by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F159\r\n* Update README.md for Broken links by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F160\r\n* adding multi_launcher tests by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F164\r\n* Enable kfp in GH action for testing workflows  by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F149\r\n* Fix paths in examples scripts. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F180\r\n* Fail workflow if input size is empty. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F181\r\n* library versions update by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F186\r\n* Handle empty input parameter. by @Mohammad-nassar10 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F158\r\n* Moving kfp workflows transform_workflows to transform directory. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F151\r\n* update KFP docs by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F189\r\n* Dev2 by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F191\r\n* Modified ingress config (#130) by @D-Sai-Venkatesh in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F156\r\n* fixed flush in transform_file_processor.py by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F190\r\n* added PLI related language extensions by @jitendrasinghibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F177\r\n* more fixes to the transform file processor by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F195\r\n* Spark runtime by @cmadam in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F183\r\n* Fix white check marks in top readme. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F199\r\n* Minor fixes to kind\u002FREADME.md. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F208\r\n* Add utils functions to kfp support lib. by @Mohammad-nassar10 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F209\r\n* Add Super pipeline for code transforms. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F172\r\n* Tutorial README files fixes by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F214\r\n* Added copyright to the Spark files by @cmadam in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F207\r\n* Fix dependabot alert on tqdm in fdedup. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F218\r\n* Update filter_local.py by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F217\r\n* Split data-processing-lib\u002Fray into python and ray. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F213\r\n* Enhanced the default 'make clean' rule to delete python leftovers and… by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F219\r\n* small fixes by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F220\r\n* Fixes after testing. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F223\r\n* Change kfp_v1_workflow_support. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F227\r\n* Split noop ray transform into ray and python runtimes. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F221\r\n* Fix tqdm security issue in ededup by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F224\r\n* Tansform project conventions doc and makefile fix… by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F229\r\n* Fixes after testing. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F232\r\n* Runtime reorg by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F230\r\n* Auto generate kfp pipelines. by @Mohammad-nassar10 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F193\r\n* ingest to parquet rewrite by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F231\r\n* KFPv2 support step 1 by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F226\r\n* Rename of ingest_2_parquet file. by @daw3rd in https:\u002F\u002Fgithub.c","2024-10-23T23:32:34",{"id":239,"version":240,"summary_zh":241,"released_at":242},342887,"v0.2.1","Key capabilities added in this release:\r\n\r\n1. A number of new transforms\r\n2. RAG notebook and other examples\r\n3. Packaged transforms for pip install\r\n4. Improved CI\u002FCD\r\n\r\n\r\n## Details of What's Changed\r\n* Restructure the repository to distinguish\u002Fseparate runtime libraries by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F140\r\n* Move transform code into ray subdirectory - towards splitting transform runtimes. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F143\r\n* restore lost transforms\u002Funiversal\u002Fnoop\u002Fray content by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F144\r\n* New Readme file created for memory and endurance tests by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F145\r\n* LAB to Kit by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F147\r\n* Update ray\u002FREADME.md by @eltociear in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F148\r\n* kfp multi jobs by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F142\r\n* small fix in the init file by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F150\r\n* rename make targets to be ray-specific by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F146\r\n* Naming, docs and fix for recent binary file processing changes by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F153\r\n* bug fixes by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F155\r\n* Binary by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F141\r\n* update kfp image version by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F159\r\n* Update README.md for Broken links by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F160\r\n* adding multi_launcher tests by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F164\r\n* Enable kfp in GH action for testing workflows  by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F149\r\n* Fix paths in examples scripts. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F180\r\n* Fail workflow if input size is empty. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F181\r\n* library versions update by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F186\r\n* Handle empty input parameter. by @Mohammad-nassar10 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F158\r\n* Moving kfp workflows transform_workflows to transform directory. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F151\r\n* update KFP docs by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F189\r\n* Dev2 by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F191\r\n* Modified ingress config (#130) by @D-Sai-Venkatesh in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F156\r\n* fixed flush in transform_file_processor.py by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F190\r\n* added PLI related language extensions by @jitendrasinghibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F177\r\n* more fixes to the transform file processor by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F195\r\n* Spark runtime by @cmadam in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F183\r\n* Fix white check marks in top readme. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F199\r\n* Minor fixes to kind\u002FREADME.md. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F208\r\n* Add utils functions to kfp support lib. by @Mohammad-nassar10 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F209\r\n* Add Super pipeline for code transforms. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F172\r\n* Tutorial README files fixes by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F214\r\n* Added copyright to the Spark files by @cmadam in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F207\r\n* Fix dependabot alert on tqdm in fdedup. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F218\r\n* Update filter_local.py by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F217\r\n* Split data-processing-lib\u002Fray into python and ray. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F213\r\n* Enhanced the default 'make clean' rule to delete python leftovers and… by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F219\r\n* small fixes by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F220\r\n* Fixes after testing. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F223\r\n* Change kfp_v1_workflow_support. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F227\r\n* Split noop ray transform into ray and python runtimes. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F221\r\n* Fix tqdm security issue in ededup by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F224\r\n* Tansform project conventions doc and makefile fix… by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F229\r\n* Fixes after testing. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F232\r\n* Runtime reorg by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F230\r\n* Auto generate kfp pipelines. by @Mohammad-nassar10 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F193\r\n* ingest to parquet rewrite by @blublinsky in https:\u002F\u002Fgithu","2024-09-25T18:50:18",{"id":244,"version":245,"summary_zh":236,"released_at":246},342888,"v0.2.0","2024-07-01T18:22:52",{"id":248,"version":249,"summary_zh":250,"released_at":251},342889,"v0.1.0-dpk","## What's Changed\r\n* pure-python implementation by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F55\r\n* add mkdocs hook to update relative links by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F87\r\n* Add super pipeline sample by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F68\r\n* Fix malware and code_quality workflows. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F92\r\n* Change name to data prep kit by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F91\r\n* Misc. typos and suggested edits. by @deanwampler in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F97\r\n* Fix python definition by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F102\r\n* Core library refactorings and transform adjustments by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F100\r\n* moved binary\u002Farrow conversion to the utils for better reuse by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F104\r\n* Add RayTransformConfiguration to a capture runtime_class by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F105\r\n* rename launch package to runtime by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F106\r\n* Add instructions to deploy and execute the project on a real Kubernet… by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F103\r\n* Fix kfp_ray_components publish. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F99\r\n* run pre-commit on all files to pass by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F108\r\n* Update docs for refactoring by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F110\r\n* top readme, mac readme and transform readme launcher options by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F111\r\n* installation scripts and instructions for a real K8s installation by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F116\r\n* update RHEL requirements by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F118\r\n* Updated code quality readmes and docs by @Param-S in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F121\r\n* add new lines in markdown documents before lists\u002Fbullets by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F119\r\n* Documentation Changes to Demo notebook from Rebased notebook branch by @Bytes-Explorer in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F89\r\n* Doc fixes by @deanwampler in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F109\r\n* Add clarity to the Readme file for running on Apple silicon Macs  by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F122\r\n* Fixing a couple of Readme files by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F124\r\n* Update README.md by @Bytes-Explorer in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F125\r\n* update notebook with new api by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F126\r\n* removed unnecessary classes by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F112\r\n* Add helper-functions.sh file to kind\u002Fhack folder. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F117\r\n* Add missing functions to data_prep_toolkit_kfp lib by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F113\r\n* transform multi_launcher by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F131\r\n* Library refactoring\u002Frenaming for clarity by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F132\r\n* ingest2parquet updates by @sapthasurendran in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F74\r\n* fix make help target on gnu awk by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F135\r\n* Update README.md for Ingest2parquet tool by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F133\r\n* small fix by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F136\r\n* adding additional KubeRay support by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F120\r\n* Build kfp component image using libs from sources. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F137\r\n* updated PyPi versions by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F138\r\n\r\n## New Contributors\r\n* @deanwampler made their first contribution in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fpull\u002F97\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-kit\u002Fcompare\u002Fv0.1.6-dpl...v0.1.0-dpk","2024-05-16T12:19:49",{"id":253,"version":254,"summary_zh":255,"released_at":256},342890,"v0.1.6-dpl","## What's Changed\r\n* Various fixes to readmes and other mds. by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F2\r\n* readme and makefile fixes by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F3\r\n* Update the kfp part in the README file by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F4\r\n* Upgrade secrets file by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F5\r\n* adding minio info to readme by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F8\r\n* Secrets baseline again  by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F6\r\n* Remove super pipeline references by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F11\r\n* add ci workflows for github actions by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F14\r\n* Multiple doc fixes by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F10\r\n* Ingest2parquet fixes by @sapthasurendran in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F13\r\n* enable mkdocs based documentation by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F15\r\n* data factory fixes by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F9\r\n* fix docs by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F18\r\n* update mkdocs to include kfp tutorial by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F17\r\n* Updated code quality test data to include relevant columns by @Param-S in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F19\r\n* put readme cross-reference by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F21\r\n* Enable doc id test in ci by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F20\r\n* Remove references to missing transformers by @ykoyfman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F26\r\n* update gh-action workflows by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F22\r\n* Added references for Code Quality and fixed a typo  by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F24\r\n* boto version update by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F16\r\n* Updated license header for code_quality filter by @Param-S in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F30\r\n* add maintainer by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F29\r\n* Sample script for code quality local by @Param-S in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F37\r\n* fix mkdocs documentation links by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F36\r\n* updated docs to correspond to the code by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F31\r\n* fix link to overview.md in top readme by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F41\r\n* Make run samples by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F12\r\n* remove GUF porting references by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F48\r\n* readme changes for recent makefile sample runs by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F45\r\n* Readme updates nirmit by @nirmdesai in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F44\r\n* Minor grammatical changes to the root README.md by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F51\r\n* update tokenization readme to add recommended memory for demo running by @dangxuanhong in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F49\r\n* remove unused parameters by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F50\r\n* Update issue templates by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F42\r\n* enable emojis for mkdocs by @shivdeep-singh-ibm in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F54\r\n* Add feature request template and clean up pull request template by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F56\r\n* Update README.md for a broken link in GitHub Pages  by @shahrokhDaijavad in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F57\r\n* fix minio loading bug on input\u002F path by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F58\r\n* fix s3 sample data input path (again) by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F59\r\n* Update transformer version to address issue dependabot\u002F1 by @dangxuanhong in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F64\r\n* fix template's Python and OS options by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F69\r\n* more descriptive text in bug template by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F70\r\n* Removing issues and PR counters till we figure a better solution for it by @Bytes-Explorer in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F28\r\n* Automate workflow testing. by @revit13 in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F38\r\n* add EXTRA_INDEX_URL support to makefiles and fix issue with DOCKER_IM… by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F53\r\n* Preventing nginx controller errors by @roytman in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F81\r\n* fixed local files checkpointing by @blublinsky in https:\u002F\u002Fgithub.com\u002FIBM\u002Fdata-prep-lab\u002Fpull\u002F83\r\n* Data sets arg format and testing for DataAccessFactory local by @daw3rd in https:\u002F\u002Fgithub.com\u002FIBM\u002Fd","2024-05-08T18:50:16"]