[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-chonkie-inc--chonkie":3,"tool-chonkie-inc--chonkie":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",149489,2,"2026-04-10T11:32:46",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":94,"forks":95,"last_commit_at":96,"license":97,"difficulty_score":98,"env_os":99,"env_gpu":100,"env_ram":101,"env_deps":102,"category_tags":111,"github_topics":113,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":124,"updated_at":125,"faqs":126,"releases":155},6278,"chonkie-inc\u002Fchonkie","chonkie","🦛 CHONK docs with Chonkie ✨ — The lightweight ingestion library for fast, efficient and robust RAG pipelines","Chonkie 是一款专为构建高效检索增强生成（RAG）管道而设计的轻量级文本分块库。在 AI 应用开发中，将长文档切割为适合模型处理的片段（Chunking）往往是繁琐且容易出错的环节，开发者常受困于重型库的冗余依赖或自行编写分块逻辑的低效。Chonkie 旨在解决这一痛点，提供“开箱即用”的体验，让用户只需简单安装和导入，即可快速完成从文本获取、智能分块、内容优化到向量数据库写入的全流程。\n\n这款工具非常适合需要处理多语言数据、追求高性能的 AI 工程师、研究人员及后端开发者。其核心技术亮点在于极致的轻量化（安装包仅约 505KB）与卓越的处理速度，同时原生支持 56 种语言的分块需求。Chonkie 不仅提供了递归、语义等多种先进的分块策略，还内置了灵活的流水线（Pipeline）机制，允许用户像搭积木一样串联多个处理步骤。此外，它拥有超过 32 种主流工具和向量数据库的集成方案，无论是本地部署还是云端运行都能无缝衔接。如果你希望摆脱重复造轮子的困扰，用简洁的代码实现稳健的文本预处理，Chonkie 是一个值得尝试的专业选择。","\u003Cdiv align='center'>\n\n![Chonkie Logo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchonkie-inc_chonkie_readme_5f1f8afc07a3.png)\n\n# 🦛 Chonkie ✨\n\n[![PyPI version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fchonkie.svg)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fchonkie\u002F)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fchonkie-inc\u002Fchonkie.svg)](https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fblob\u002Fmain\u002FLICENSE)\n[![Documentation](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-chonkie.ai-blue.svg)](https:\u002F\u002Fdocs.chonkie.ai)\n[![Package size](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fsize-505KB-blue)](https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fblob\u002Fmain\u002FREADME.md#installation)\n[![codecov](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fchonkie-inc\u002Fchonkie\u002Fgraph\u002Fbadge.svg?token=V4EWIJWREZ)](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fchonkie-inc\u002Fchonkie)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchonkie-inc_chonkie_readme_150dfe653354.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fchonkie)\n[![Discord](https:\u002F\u002Fdcbadge.limes.pink\u002Fapi\u002Fserver\u002Fhttps:\u002F\u002Fdiscord.gg\u002FvH3SkRqmUz?style=flat)](https:\u002F\u002Fdiscord.gg\u002FvH3SkRqmUz)\n[![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fchonkie-inc\u002Fchonkie.svg)](https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fstargazers)\n\n_The lightweight ingestion library for fast, efficient and robust RAG pipelines_\n\n[Installation](#📦-installation) •\n[Usage](#🚀-usage) •\n[Chunkers](#✂️-chunkers) •\n[Integrations](#🔌-integrations) •\n[Benchmarks](#📊-benchmarks)\n\n\u003C\u002Fdiv>\n\nTired of making your gazillionth chunker? Sick of the overhead of large libraries? Want to chunk your texts quickly and efficiently? Chonkie the mighty hippo is here to help!\n\n**🚀 Feature-rich**: All the CHONKs you'd ever need \u003C\u002Fbr>\n**🔄 End-to-end**: Fetch, CHONK, refine, embed and ship straight to your vector DB! \u003C\u002Fbr>\n**✨ Easy to use**: Install, Import, CHONK \u003C\u002Fbr>\n**⚡ Fast**: CHONK at the speed of light! zooooom \u003C\u002Fbr>\n**🪶 Light-weight**: No bloat, just CHONK \u003C\u002Fbr>\n**🔌 32+ [integrations](#integrations)**: Works with your favorite tools and vector DBs out of the box! \u003C\u002Fbr>\n**💬 ️Multilingual**: Out-of-the-box support for 56 languages \u003C\u002Fbr>\n**☁️ Cloud-Friendly**: CHONK locally or in the [Cloud](https:\u002F\u002Flabs.chonkie.ai) \u003C\u002Fbr>\n**🦛 Cute CHONK mascot**: psst it's a pygmy hippo btw \u003C\u002Fbr>\n**❤️ [Moto Moto](#acknowledgements)'s favorite python library** \u003C\u002Fbr>\n\n**Chonkie** is a chunking library that \"**just works**\" ✨\n\n## 📦 Installation\n\n### Basic Installation\n\nUsing pip:\n\n```bash\npip install chonkie\n```\n\nOr using [uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F) (faster):\n\n```bash\nuv pip install chonkie\n```\n\n### Full Installation\n\nChonkie follows the rule of minimum installs.\nHave a favorite chunker? Read our [docs](https:\u002F\u002Fdocs.chonkie.ai) to install only what you need.\nDon't want to think about it? Simply install `all` (Not recommended for production environments).\n\nUsing pip:\n\n```bash\npip install \"chonkie[all]\"\n```\n\nOr using [uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F):\n\n```bash\nuv pip install \"chonkie[all]\"\n```\n\n## 🚀 Usage\n\n### Basic Usage\n\nHere's a basic example to get you started:\n\n```python\n# First import the chunker you want from Chonkie\nfrom chonkie import RecursiveChunker\n\n# Initialize the chunker\nchunker = RecursiveChunker()\n\n# Chunk some text\nchunks = chunker(\"Chonkie is the goodest boi! My favorite chunking hippo hehe.\")\n\n# Access chunks\nfor chunk in chunks:\n    print(f\"Chunk: {chunk.text}\")\n    print(f\"Tokens: {chunk.token_count}\")\n```\n\n### Pipeline Usage\n\nYou can also use the `chonkie.Pipeline` to chain components together and handle complex workflows. Read more about pipelines in the [docs](https:\u002F\u002Fdocs.chonkie.ai\u002Foss\u002Fpipelines)!\n\n```python\nfrom chonkie import Pipeline\n\n# Create a pipeline with multiple chunking and refinement steps\npipe = (\n    Pipeline()\n    .chunk_with(\"recursive\", tokenizer=\"gpt2\", chunk_size=2048, recipe=\"markdown\")\n    .chunk_with(\"semantic\", chunk_size=512)\n    .refine_with(\"overlap\", context_size=128)\n    .refine_with(\"embeddings\", embedding_model=\"sentence-transformers\u002Fall-MiniLM-L6-v2\")\n)\n\n# CHONK some Texts!\ndoc = pipe.run(texts=\"Chonkie is the goodest boi! My favorite chunking hippo hehe.\")\n\n# Access the processed chunks in the `doc` object\nfor chunk in doc.chunks:\n    print(chunk.text)\n\n# Run asynchronously for high-throughput applications\nimport asyncio\n\nasync def main():\n    doc = await pipe.arun(texts=\"Chonkie runs fast!\")\n    print(len(doc.chunks))\n\nasyncio.run(main())\n```\n\nCheck out more usage examples in the [docs](https:\u002F\u002Fdocs.chonkie.ai)!\n\n## 🌐 API Server\n\nRun Chonkie as a self-hosted REST API for easy integration into any application:\n\n```bash\n# Install with API dependencies (includes catsu for multi-provider embeddings)\npip install \"chonkie[api,semantic,code,catsu]\"\n\n# Start the server using the CLI\nchonkie serve\n\n# Or with custom options\nchonkie serve --port 3000 --reload --log-level debug\n\n# Or directly with uvicorn\nuvicorn chonkie.api.main:app --host 0.0.0.0 --port 8000\n```\n\nOr use Docker:\n\n```bash\ndocker compose up\n```\n\nThe API provides endpoints for all chunkers, refineries, and **pipelines** — reusable workflow configurations stored in a local SQLite database.\n\n```bash\n# Create a reusable pipeline\ncurl -X POST http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fpipelines \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -d '{\n    \"name\": \"rag-chunker\",\n    \"steps\": [\n      {\"type\": \"chunk\", \"chunker\": \"semantic\", \"config\": {\"chunk_size\": 512}},\n      {\"type\": \"refine\", \"refinery\": \"embeddings\", \"config\": {\"embedding_model\": \"text-embedding-3-small\"}}\n    ]\n  }'\n\n# List your pipelines\ncurl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fpipelines\n```\n\nInteractive documentation is available at `\u002Fdocs` when the server is running.\n\n## ✂️ Chunkers\n\nChonkie provides several chunkers to help you split your text efficiently for RAG applications. Here's a quick overview of the available chunkers:\n\n| Name               | Alias       | Description                                                                                                                |\n| ------------------ | ----------- | -------------------------------------------------------------------------------------------------------------------------- |\n| `TokenChunker`     | `token`     | Splits text into fixed-size token chunks.                                                                                  |\n| `FastChunker`      | `fast`      | SIMD-accelerated byte-based chunking at 100+ GB\u002Fs. Included in the default install.                                        |\n| `SentenceChunker`  | `sentence`  | Splits text into chunks based on sentences.                                                                                |\n| `RecursiveChunker` | `recursive` | Splits text hierarchically using customizable rules to create semantically meaningful chunks.                              |\n| `SemanticChunker`  | `semantic`  | Splits text into chunks based on semantic similarity. Inspired by the work of [Greg Kamradt](https:\u002F\u002Fgithub.com\u002Fgkamradt). |\n| `LateChunker`      | `late`      | Embeds text and then splits it to have better chunk embeddings.                                                            |\n| `CodeChunker`      | `code`      | Splits code into structurally meaningful chunks.                                                                           |\n| `NeuralChunker`    | `neural`    | Splits text using a neural model.                                                                                          |\n| `SlumberChunker`   | `slumber`   | Splits text using an LLM to find semantically meaningful chunks. Also known as _\"AgenticChunker\"_.                         |\n\nMore on these methods and the approaches taken inside the [docs](https:\u002F\u002Fdocs.chonkie.ai)\n\n## 🔌 Integrations\n\nChonkie boasts 32+ integrations across tokenizers, embedding providers, LLMs, refineries, porters, vector databases, and utilities, ensuring it fits seamlessly into your existing workflow.\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>👨‍🍳 Chefs & 📁 Fetchers! Text preprocessing and data loading!\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nChefs handle text preprocessing, while Fetchers load data from various sources.\n\n| Component | Class         | Description                           | Optional Install |\n| --------- | ------------- | ------------------------------------- | ---------------- |\n| `chef`    | `TextChef`    | Text preprocessing and cleaning.      | `default`        |\n| `fetcher` | `FileFetcher` | Load text from files and directories. | `default`        |\n\n\u003C\u002Fdetails>\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🏭 Refine your CHONKs with Context and Embeddings! Chonkie supports 2+ refineries!\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nRefineries help you post-process and enhance your chunks after initial chunking.\n\n| Refinery Name | Class                | Description                                   | Optional Install    |\n| ------------- | -------------------- | --------------------------------------------- | ------------------- |\n| `overlap`     | `OverlapRefinery`    | Merge overlapping chunks based on similarity. | `default`           |\n| `embeddings`  | `EmbeddingsRefinery` | Add embeddings to chunks using any provider.  | `chonkie[semantic]` |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🐴 Exporting CHONKs! Chonkie supports 2+ Porters!\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nPorters help you save your chunks easily.\n\n| Porter Name | Class            | Description                            | Optional Install    |\n| ----------- | ---------------- | -------------------------------------- | ------------------- |\n| `json`      | `JSONPorter`     | Export chunks to a JSON file.          | `default`           |\n| `datasets`  | `DatasetsPorter` | Export chunks to HuggingFace datasets. | `chonkie[datasets]` |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🤝 Shake hands with your DB! Chonkie connects with 8+ vector stores!\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nHandshakes provide a unified interface to ingest chunks directly into your favorite vector databases.\n\n| Handshake Name | Class                  | Description                                  | Optional Install    |\n| -------------- | ---------------------- | -------------------------------------------- | ------------------- |\n| `chroma`       | `ChromaHandshake`      | Ingest chunks into ChromaDB.                 | `chonkie[chroma]`   |\n| `elastic`      | `ElasticHandshake`     | Ingest chunks into Elasticsearch.            | `chonkie[elastic]`  |\n| `mongodb`      | `MongoDBHandshake`     | Ingest chunks into MongoDB.                  | `chonkie[mongodb]`  |\n| `pgvector`     | `PgvectorHandshake`    | Ingest chunks into PostgreSQL with pgvector. | `chonkie[pgvector]` |\n| `pinecone`     | `PineconeHandshake`    | Ingest chunks into Pinecone.                 | `chonkie[pinecone]` |\n| `qdrant`       | `QdrantHandshake`      | Ingest chunks into Qdrant.                   | `chonkie[qdrant]`   |\n| `turbopuffer`  | `TurbopufferHandshake` | Ingest chunks into Turbopuffer.              | `chonkie[tpuf]`     |\n| `weaviate`     | `WeaviateHandshake`    | Ingest chunks into Weaviate.                 | `chonkie[weaviate]` |\n\n\u003C\u002Fdetails>\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🪓 Slice 'n' Dice! Chonkie supports 5+ ways to tokenize! \u003C\u002Fstrong>\u003C\u002Fsummary>\n\nChoose from supported tokenizers or provide your own custom token counting function. Flexibility first!\n\n| Name           | Description                                                    | Optional Install      |\n| -------------- | -------------------------------------------------------------- | --------------------- |\n| `character`    | Basic character-level tokenizer. **Default tokenizer.**        | `default`             |\n| `word`         | Basic word-level tokenizer.                                    | `default`             |\n| `byte`         | Byte-level tokenizer operating on UTF-8 encoded bytes.         | `default`             |\n| `tokenizers`   | Load any tokenizer from the Hugging Face `tokenizers` library. | `chonkie[tokenizers]` |\n| `tiktoken`     | Use OpenAI's `tiktoken` library (e.g., for `gpt-4`).           | `chonkie[tiktoken]`   |\n| `transformers` | Load tokenizers via `AutoTokenizer` from HF `transformers`.    | `chonkie[neural]`     |\n\n`default` indicates that the feature is available with the default `pip install chonkie`.\n\nTo use a custom token counter, you can pass in any function that takes a string and returns an integer! Something like this:\n\n```python\ndef custom_token_counter(text: str) -> int:\n    return len(text)\n\nchunker = RecursiveChunker(tokenizer=custom_token_counter)\n```\n\nYou can use this to extend Chonkie to support any tokenization scheme you want!\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🧠 Embed like a boss! Chonkie links up with 9+ embedding pals!\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nSeamlessly works with various embedding model providers. Bring your favorite embeddings to the CHONK party! Use `AutoEmbeddings` to load models easily.\n\n| Provider \u002F Alias        | Class                           | Description                            | Optional Install        |\n| ----------------------- | ------------------------------- | -------------------------------------- | ----------------------- |\n| `model2vec`             | `Model2VecEmbeddings`           | Use `Model2Vec` models.                | `chonkie[model2vec]`    |\n| `sentence-transformers` | `SentenceTransformerEmbeddings` | Use any `sentence-transformers` model. | `chonkie[st]`           |\n| `openai`                | `OpenAIEmbeddings`              | Use OpenAI's embedding API.            | `chonkie[openai]`       |\n| `azure-openai`          | `AzureOpenAIEmbeddings`         | Use Azure OpenAI embedding service.    | `chonkie[azure-openai]` |\n| `cohere`                | `CohereEmbeddings`              | Use Cohere's embedding API.            | `chonkie[cohere]`       |\n| `gemini`                | `GeminiEmbeddings`              | Use Google's Gemini embedding API.     | `chonkie[gemini]`       |\n| `jina`                  | `JinaEmbeddings`                | Use Jina AI's embedding API.           | `chonkie[jina]`         |\n| `voyageai`              | `VoyageAIEmbeddings`            | Use Voyage AI's embedding API.         | `chonkie[voyageai]`     |\n| `litellm`               | `LiteLLMEmbeddings`             | Use LiteLLM for 100+ embedding models. | `chonkie[litellm]`      |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🧞‍♂️ Power Up with Genies! Chonkie supports 5+ LLM providers!\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nGenies provide interfaces to interact with Large Language Models (LLMs) for advanced chunking strategies or other tasks within the pipeline.\n\n| Genie Name     | Class              | Description                                | Optional Install        |\n| -------------- | ------------------ | ------------------------------------------ | ----------------------- |\n| `gemini`       | `GeminiGenie`      | Interact with Google Gemini APIs.          | `chonkie[gemini]`       |\n| `openai`       | `OpenAIGenie`      | Interact with OpenAI APIs.                 | `chonkie[openai]`       |\n| `azure-openai` | `AzureOpenAIGenie` | Interact with Azure OpenAI APIs.           | `chonkie[azure-openai]` |\n| `groq`         | `GroqGenie`        | Fast inference on Groq hardware.           | `chonkie[groq]`         |\n| `cerebras`     | `CerebrasGenie`    | Fastest inference on Cerebras hardware.    | `chonkie[cerebras]`     |\n\nYou can also use the `OpenAIGenie` to interact with any LLM provider that supports the OpenAI API format, by simply changing the `model`, `base_url`, and `api_key` parameters. For example, here's how to use the `OpenAIGenie` to interact with the `Llama-4-Maverick` model via OpenRouter:\n\n```python\nfrom chonkie import OpenAIGenie\n\ngenie = OpenAIGenie(model=\"meta-llama\u002Fllama-4-maverick\",\n                    base_url=\"https:\u002F\u002Fopenrouter.ai\u002Fapi\u002Fv1\",\n                    api_key=\"your_api_key\")\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🛠️ Utilities & Helpers! Chonkie includes handy tools!\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nAdditional utilities to enhance your chunking workflow.\n\n| Utility Name | Class        | Description                                    | Optional Install |\n| ------------ | ------------ | ---------------------------------------------- | ---------------- |\n| `hub`        | `Hubbie`     | Simple wrapper for HuggingFace Hub operations. | `chonkie[hub]`   |\n| `viz`        | `Visualizer` | Rich console visualizations for chunks.        | `chonkie[viz]`   |\n\n\u003C\u002Fdetails>\n\nWith Chonkie's wide range of integrations, you can easily plug it into your existing infrastructure and start CHONKING!\n\n## 📊 Benchmarks\n\n> \"I may be smol hippo, but I pack a big punch!\" 🦛\n\nChonkie is not just cute, it's also fast and efficient! Here's how it stacks up against the competition:\n\n**Size**📦\n\n- **Wheel Size:** 505KB (vs 1-12MB for alternatives)\n- **Installed Size:** 49MB (vs 80-171MB for alternatives)\n- **With Semantic:** Still 10x lighter than the closest competition!\n\n**Speed**⚡\n\n- **Token Chunking:** 33x faster than the slowest alternative\n- **Sentence Chunking:** Almost 2x faster than competitors\n- **Semantic Chunking:** Up to 2.5x faster than others\n\nCheck out our detailed [benchmarks](BENCHMARKS.md) to see how Chonkie races past the competition! 🏃‍♂️💨\n\n## 🤝 Contributing\n\nWant to help grow Chonkie? Check out [CONTRIBUTING.md](CONTRIBUTING.md) to get started! Whether you're fixing bugs, adding features, or improving docs, every contribution helps make Chonkie a better CHONK for everyone.\n\nRemember: No contribution is too small for this tiny hippo! 🦛\n\n## 🙏 Acknowledgements\n\nChonkie would like to CHONK its way through a special thanks to all the users and contributors who have helped make this library what it is today! Your feedback, issue reports, and improvements have helped make Chonkie the CHONKIEST it can be.\n\nAnd of course, special thanks to [Moto Moto](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=I0zZC4wtqDQ&t=5s) for endorsing Chonkie with his famous quote:\n\n> \"I like them big, I like them chonkie.\" ~ Moto Moto\n\n## 📝 Citation\n\nIf you use Chonkie in your research, please cite it as follows:\n\n```bibtex\n@software{chonkie2025,\n  author = {Minhas, Bhavnick AND Nigam, Shreyash},\n  title = {Chonkie: The lightweight ingestion library for fast, efficient and robust RAG pipelines},\n  year = {2025},\n  publisher = {GitHub},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie}},\n}\n```\n","\u003Cdiv align='center'>\n\n![Chonkie Logo](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchonkie-inc_chonkie_readme_5f1f8afc07a3.png)\n\n# 🦛 Chonkie ✨\n\n[![PyPI version](https:\u002F\u002Fimg.shields.io\u002Fpypi\u002Fv\u002Fchonkie.svg)](https:\u002F\u002Fpypi.org\u002Fproject\u002Fchonkie\u002F)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fchonkie-inc\u002Fchonkie.svg)](https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fblob\u002Fmain\u002FLICENSE)\n[![Documentation](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fdocs-chonkie.ai-blue.svg)](https:\u002F\u002Fdocs.chonkie.ai)\n[![Package size](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fsize-505KB-blue)](https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fblob\u002Fmain\u002FREADME.md#installation)\n[![codecov](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fchonkie-inc\u002Fchonkie\u002Fgraph\u002Fbadge.svg?token=V4EWIJWREZ)](https:\u002F\u002Fcodecov.io\u002Fgh\u002Fchonkie-inc\u002Fchonkie)\n[![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchonkie-inc_chonkie_readme_150dfe653354.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Fchonkie)\n[![Discord](https:\u002F\u002Fdcbadge.limes.pink\u002Fapi\u002Fserver\u002Fhttps:\u002F\u002Fdiscord.gg\u002FvH3SkRqmUz?style=flat)](https:\u002F\u002Fdiscord.gg\u002FvH3SkRqmUz)\n[![GitHub stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002Fchonkie-inc\u002Fchonkie.svg)](https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fstargazers)\n\n_专为快速、高效且稳健的 RAG 流程打造的轻量级数据摄取库_\n\n[安装](#📦-installation) •\n[使用](#🚀-usage) •\n[分块器](#✂️-chunkers) •\n[集成](#🔌-integrations) •\n[基准测试](#📊-benchmarks)\n\n\u003C\u002Fdiv>\n\n厌倦了反复编写自己的分块逻辑？受够了大型库带来的性能开销？想快速高效地对文本进行分块吗？强大的河马 Chonkie 来帮您解决问题！\n\n**🚀 功能丰富**：满足你所有分块需求 \u003C\u002Fbr>\n**🔄 端到端**：获取数据、分块、精炼、嵌入，直接送入你的向量数据库！ \u003C\u002Fbr>\n**✨ 易于使用**：安装、导入、分块 \u003C\u002Fbr>\n**⚡ 高速**：以光速分块！嗖的一下！ \u003C\u002Fbr>\n**🪶 轻量级**：无冗余，只做分块 \u003C\u002Fbr>\n**🔌 32+ 种 [集成]**：开箱即用，兼容你最喜爱的工具和向量数据库！ \u003C\u002Fbr>\n**💬 多语言支持**：原生支持56种语言 \u003C\u002Fbr>\n**☁️ 云友好**：可在本地或在 [云端](https:\u002F\u002Flabs.chonkie.ai) 进行分块 \u003C\u002Fbr>\n**🦛 可爱的分块吉祥物**：悄悄告诉你，它是一只侏儒河马哦 \u003C\u002Fbr>\n**❤️ [Moto Moto](#acknowledgements) 最喜欢的 Python 库** \u003C\u002Fbr>\n\n**Chonkie** 是一款“**开箱即用**”的分块库 ✨\n\n## 📦 安装\n\n### 基本安装\n\n使用 pip：\n\n```bash\npip install chonkie\n```\n\n或者使用 [uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F)（更快）：\n\n```bash\nuv pip install chonkie\n```\n\n### 完整安装\n\nChonkie 遵循最小化安装原则。如果你有偏好的分块器，可以参考我们的[文档](https:\u002F\u002Fdocs.chonkie.ai)，只安装你需要的部分。不想费心？那就直接安装 `all` 吧（不建议用于生产环境）。\n\n使用 pip：\n\n```bash\npip install \"chonkie[all]\"\n```\n\n或者使用 [uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F)：\n\n```bash\nuv pip install \"chonkie[all]\"\n```\n\n## 🚀 使用\n\n### 基本用法\n\n以下是一个简单的入门示例：\n\n```python\n# 首先从 Chonkie 中导入你想要使用的分块器\nfrom chonkie import RecursiveChunker\n\n# 初始化分块器\nchunker = RecursiveChunker()\n\n# 对一段文本进行分块\nchunks = chunker(\"Chonkie 是最棒的小伙伴！我最喜欢的分块河马嘿嘿。\")\n\n# 访问分块结果\nfor chunk in chunks:\n    print(f\"分块内容: {chunk.text}\")\n    print(f\"Token 数量: {chunk.token_count}\")\n```\n\n### 流水线用法\n\n你还可以使用 `chonkie.Pipeline` 将各个组件串联起来，处理复杂的流程。更多关于流水线的信息，请参阅[文档](https:\u002F\u002Fdocs.chonkie.ai\u002Foss\u002Fpipelines)！\n\n```python\nfrom chonkie import Pipeline\n\n# 创建一个包含多个分块和精炼步骤的流水线\npipe = (\n    Pipeline()\n    .chunk_with(\"recursive\", tokenizer=\"gpt2\", chunk_size=2048, recipe=\"markdown\")\n    .chunk_with(\"semantic\", chunk_size=512)\n    .refine_with(\"overlap\", context_size=128)\n    .refine_with(\"embeddings\", embedding_model=\"sentence-transformers\u002Fall-MiniLM-L6-v2\")\n)\n\n# 对文本进行分块！\ndoc = pipe.run(texts=\"Chonkie 是最棒的小伙伴！我最喜欢的分块河马嘿嘿。\")\n\n# 在 `doc` 对象中访问处理后的分块\nfor chunk in doc.chunks:\n    print(chunk.text)\n\n# 对于高吞吐量的应用，可以异步运行\nimport asyncio\n\nasync def main():\n    doc = await pipe.arun(texts=\"Chonkie 跑得真快！\")\n    print(len(doc.chunks))\n\nasyncio.run(main())\n```\n\n更多使用示例请查看[文档](https:\u002F\u002Fdocs.chonkie.ai)！\n\n## 🌐 API 服务器\n\n将 Chonkie 部署为自托管的 REST API，轻松集成到任何应用中：\n\n```bash\n# 安装时包含 API 相关依赖（包括 catsu，用于多提供商嵌入）\npip install \"chonkie[api,semantic,code,catsu]\"\n\n# 使用命令行启动服务器\nchonkie serve\n\n# 或者使用自定义选项\nchonkie serve --port 3000 --reload --log-level debug\n\n# 或者直接使用 uvicorn\nuvicorn chonkie.api.main:app --host 0.0.0.0 --port 8000\n```\n\n也可以使用 Docker：\n\n```bash\ndocker compose up\n```\n\n该 API 提供了所有分块器、精炼器以及 **流水线** 的端点——这些可重用的工作流配置存储在一个本地 SQLite 数据库中。\n\n```bash\n# 创建一个可重用的流水线\ncurl -X POST http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fpipelines \\\n  -H \"Content-Type: application\u002Fjson\" \\\n  -d '{\n    \"name\": \"rag-chunker\",\n    \"steps\": [\n      {\"type\": \"chunk\", \"chunker\": \"semantic\", \"config\": {\"chunk_size\": 512}},\n      {\"type\": \"refine\", \"refinery\": \"embeddings\", \"config\": {\"embedding_model\": \"text-embedding-3-small\"}}\n    ]\n  }'\n\n# 列出你的流水线\ncurl http:\u002F\u002Flocalhost:8000\u002Fv1\u002Fpipelines\n```\n\n当服务器运行时，交互式文档可在 `\u002Fdocs` 页面访问。\n\n## ✂️ 分块器\n\nChonkie 提供了多种分块器，帮助您为 RAG 应用高效地拆分文本。以下是可用分块器的简要概述：\n\n| 名称               | 别名       | 描述                                                                                                                |\n| ------------------ | ----------- | -------------------------------------------------------------------------------------------------------------------------- |\n| `TokenChunker`     | `token`     | 将文本拆分为固定大小的标记块。                                                                                  |\n| `FastChunker`      | `fast`      | 基于字节的 SIMD 加速分块，速度可达 100+ GB\u002Fs。包含在默认安装中。                                        |\n| `SentenceChunker`  | `sentence`  | 根据句子将文本拆分为块。                                                                                |\n| `RecursiveChunker` | `recursive` | 使用可自定义规则以层次化方式拆分文本，生成语义上有意义的块。                              |\n| `SemanticChunker`  | `semantic`  | 根据语义相似性将文本拆分为块。灵感来自 [Greg Kamradt](https:\u002F\u002Fgithub.com\u002Fgkamradt) 的工作。 |\n| `LateChunker`      | `late`      | 先对文本进行嵌入，再进行拆分，以获得更好的块嵌入。                                                            |\n| `CodeChunker`      | `code`      | 将代码拆分为结构上有意义的块。                                                                           |\n| `NeuralChunker`    | `neural`    | 使用神经网络模型拆分文本。                                                                                          |\n| `SlumberChunker`   | `slumber`   | 使用 LLM 查找语义上有意义的块来拆分文本。也称为 _\"AgenticChunker\"_。                         |\n\n有关这些方法及其内部实现的更多信息，请参阅 [文档](https:\u002F\u002Fdocs.chonkie.ai)。\n\n## 🔌 集成\n\nChonkie 拥有 32 多种集成，涵盖分词器、嵌入提供商、LLM、精炼器、搬运工、向量数据库和实用工具，确保其能够无缝融入您现有的工作流。\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>👨‍🍳 厨师 & 📁 获取器！文本预处理和数据加载！\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n厨师负责文本预处理，而获取器则从各种来源加载数据。\n\n| 组件 | 类         | 描述                           | 可选安装 |\n| --------- | ------------- | ------------------------------------- | ---------------- |\n| `chef`    | `TextChef`    | 文本预处理和清洗。      | `default`        |\n| `fetcher` | `FileFetcher` | 从文件和目录加载文本。 | `default`        |\n\n\u003C\u002Fdetails>\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🏭 使用上下文和嵌入优化您的 CHONK！Chonkie 支持 2 种以上的精炼器！\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n精炼器可在初始分块后对您的块进行后处理和增强。\n\n| 精炼器名称 | 类                | 描述                                   | 可选安装    |\n| ------------- | -------------------- | --------------------------------------------- | ------------------- |\n| `overlap`     | `OverlapRefinery`    | 根据相似性合并重叠的块。 | `default`           |\n| `embeddings`  | `EmbeddingsRefinery` | 使用任何提供商为块添加嵌入。  | `chonkie[semantic]` |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🐴 导出 CHONK！Chonkie 支持 2 种以上的搬运工！\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n搬运工可以帮助您轻松保存块。\n\n| 搬运工名称 | 类            | 描述                            | 可选安装    |\n| ----------- | ---------------- | -------------------------------------- | ------------------- |\n| `json`      | `JSONPorter`     | 将块导出为 JSON 文件。          | `default`           |\n| `datasets`  | `DatasetsPorter` | 将块导出到 HuggingFace 数据集。 | `chonkie[datasets]` |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🤝 与您的数据库握手！Chonkie 可连接 8 种以上的向量存储！\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n握手接口提供了一个统一的界面，可将块直接摄入您喜爱的向量数据库。\n\n| 握手名称 | 类                  | 描述                                  | 可选安装    |\n| -------------- | ---------------------- | -------------------------------------------- | ------------------- |\n| `chroma`       | `ChromaHandshake`      | 将块摄入 ChromaDB。                 | `chonkie[chroma]`   |\n| `elastic`      | `ElasticHandshake`     | 将块摄入 Elasticsearch。            | `chonkie[elastic]`  |\n| `mongodb`      | `MongoDBHandshake`     | 将块摄入 MongoDB。                  | `chonkie[mongodb]`  |\n| `pgvector`     | `PgvectorHandshake`    | 将块摄入带有 pgvector 扩展的 PostgreSQL。 | `chonkie[pgvector]` |\n| `pinecone`     | `PineconeHandshake`    | 将块摄入 Pinecone。                 | `chonkie[pinecone]` |\n| `qdrant`       | `QdrantHandshake`      | 将块摄入 Qdrant。                   | `chonkie[qdrant]`   |\n| `turbopuffer`  | `TurbopufferHandshake` | 将块摄入 Turbopuffer。              | `chonkie[tpuf]`     |\n| `weaviate`     | `WeaviateHandshake`    | 将块摄入 Weaviate。                 | `chonkie[weaviate]` |\n\n\u003C\u002Fdetails>\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🪓 切片与切丁！Chonkie 支持 5 种以上的分词方式！ \u003C\u002Fstrong>\u003C\u002Fsummary>\n\n您可以选择支持的分词器，也可以提供自己的自定义标记计数函数。灵活性至上！\n\n| 名称           | 描述                                                    | 可选安装      |\n| -------------- | -------------------------------------------------------------- | --------------------- |\n| `character`    | 基础的字符级分词器。**默认分词器。**        | `default`             |\n| `word`         | 基础的单词级分词器。                                    | `default`             |\n| `byte`         | 基于 UTF-8 编码字节操作的字节级分词器。         | `default`             |\n| `tokenizers`   | 从 Hugging Face 的 `tokenizers` 库加载任何分词器。 | `chonkie[tokenizers]` |\n| `tiktoken`     | 使用 OpenAI 的 `tiktoken` 库（例如用于 `gpt-4`）。           | `chonkie[tiktoken]`   |\n| `transformers` | 通过 HF `transformers` 中的 `AutoTokenizer` 加载分词器。    | `chonkie[neural]`     |\n\n`default` 表示该功能在默认的 `pip install chonkie` 中即可使用。\n\n要使用自定义标记计数器，您可以传入任何接受字符串并返回整数的函数！例如：\n\n```python\ndef custom_token_counter(text: str) -> int:\n    return len(text)\n\nchunker = RecursiveChunker(tokenizer=custom_token_counter)\n```\n\n您可以利用这一点扩展 Chonkie，以支持您所需的任何分词方案！\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🧠 像高手一样嵌入！Chonkie 与 9 多家嵌入伙伴无缝对接！\u003C\u002Fstrong>\u003C\u002Fsummary>\n\nChonkie 可以与多种嵌入模型提供商无缝协作。把你最喜欢的嵌入模型带到 CHONK 派对上来吧！只需使用 `AutoEmbeddings`，即可轻松加载模型。\n\n| 提供商 \u002F 别名        | 类                           | 描述                            | 可选安装        |\n| ----------------------- | ------------------------------- | -------------------------------------- | ----------------------- |\n| `model2vec`             | `Model2VecEmbeddings`           | 使用 `Model2Vec` 模型。                | `chonkie[model2vec]`    |\n| `sentence-transformers` | `SentenceTransformerEmbeddings` | 使用任何 `sentence-transformers` 模型。 | `chonkie[st]`           |\n| `openai`                | `OpenAIEmbeddings`              | 使用 OpenAI 的嵌入 API。            | `chonkie[openai]`       |\n| `azure-openai`          | `AzureOpenAIEmbeddings`         | 使用 Azure OpenAI 嵌入服务。    | `chonkie[azure-openai]` |\n| `cohere`                | `CohereEmbeddings`              | 使用 Cohere 的嵌入 API。            | `chonkie[cohere]`       |\n| `gemini`                | `GeminiEmbeddings`              | 使用 Google 的 Gemini 嵌入 API。     | `chonkie[gemini]`       |\n| `jina`                  | `JinaEmbeddings`                | 使用 Jina AI 的嵌入 API。           | `chonkie[jina]`         |\n| `voyageai`              | `VoyageAIEmbeddings`            | 使用 Voyage AI 的嵌入 API。         | `chonkie[voyageai]`     |\n| `litellm`               | `LiteLLMEmbeddings`             | 使用 LiteLLM 支持的 100 多种嵌入模型。 | `chonkie[litellm]`      |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🧞‍♂️ 靠精灵加持！Chonkie 支持 5 家以上的 LLM 提供商！\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n精灵为大型语言模型（LLMs）提供了交互接口，可用于高级分块策略或其他管道内的任务。\n\n| 精灵名称     | 类              | 描述                                | 可选安装        |\n| -------------- | ------------------ | ------------------------------------------ | ----------------------- |\n| `gemini`       | `GeminiGenie`      | 与 Google Gemini API 交互。          | `chonkie[gemini]`       |\n| `openai`       | `OpenAIGenie`      | 与 OpenAI API 交互。                 | `chonkie[openai]`       |\n| `azure-openai` | `AzureOpenAIGenie` | 与 Azure OpenAI API 交互。           | `chonkie[azure-openai]` |\n| `groq`         | `GroqGenie`        | 在 Groq 硬件上进行快速推理。           | `chonkie[groq]`         |\n| `cerebras`     | `CerebrasGenie`    | 在 Cerebras 硬件上实现最快的推理速度。 | `chonkie[cerebras]`     |\n\n你还可以使用 `OpenAIGenie` 与任何支持 OpenAI API 格式的 LLM 提供商进行交互，只需更改 `model`、`base_url` 和 `api_key` 参数即可。例如，以下是如何使用 `OpenAIGenie` 通过 OpenRouter 与 `Llama-4-Maverick` 模型交互：\n\n```python\nfrom chonkie import OpenAIGenie\n\ngenie = OpenAIGenie(model=\"meta-llama\u002Fllama-4-maverick\",\n                    base_url=\"https:\u002F\u002Fopenrouter.ai\u002Fapi\u002Fv1\",\n                    api_key=\"your_api_key\")\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n\u003Csummary>\u003Cstrong>🛠️ 工具与辅助功能！Chonkie 内置实用工具！\u003C\u002Fstrong>\u003C\u002Fsummary>\n\n额外的实用工具，可进一步提升你的分块工作流程。\n\n| 工具名称 | 类        | 描述                                    | 可选安装 |\n| ---------- | ---------- | ---------------------------------------- | ---------- |\n| `hub`      | `Hubbie`   | HuggingFace Hub 操作的简单封装。         | `chonkie[hub]`   |\n| `viz`      | `Visualizer` | 分块的丰富控制台可视化工具。           | `chonkie[viz]`   |\n\n\u003C\u002Fdetails>\n\n借助 Chonkie 丰富的集成选项，你可以轻松将其接入现有基础设施，立即开始 CHONKING！\n\n\n\n## 📊 基准测试\n\n> “我可能是一只小河马，但我能量十足！” 🦛\n\nChonkie 不仅可爱，还非常快速高效！以下是它与竞争对手的对比：\n\n**体积**📦\n\n- **Wheel 包大小：** 505KB（相比之下，其他方案为 1–12MB）\n- **安装后大小：** 49MB（相比之下，其他方案为 80–171MB）\n- **含语义功能时：** 仍比最接近的竞争产品轻 10 倍！\n\n**速度**⚡\n\n- **按标记分块：** 比最慢的替代方案快 33 倍\n- **按句子分块：** 几乎是竞争对手速度的 2 倍\n- **语义分块：** 最快可达其他方案的 2.5 倍\n\n查看我们的详细 [基准测试](BENCHMARKS.md)，了解 Chonkie 是如何超越竞争对手的！ 🏃‍♂️💨\n\n## 🤝 贡献\n\n想帮助 Chonkie 不断成长吗？请参阅 [CONTRIBUTING.md](CONTRIBUTING.md)，开始行动吧！无论是修复 bug、添加新功能，还是改进文档，每一份贡献都能让 Chonkie 成为更适合所有人的 CHONK 工具。\n\n记住：对于这只小河马来说，没有太小的贡献！ 🦛\n\n## 🙏 致谢\n\nChonkie 特别感谢所有用户和贡献者，正是你们的帮助才让这个库发展到今天的水平！你们的反馈、问题报告和改进建议，都让 Chonkie 变得更加 CHONKIEST。\n\n当然，还要特别感谢 [Moto Moto](https:\u002F\u002Fwww.youtube.com\u002Fwatch?v=I0zZC4wtqDQ&t=5s)，他用那句经典名言为 Chonkie 打了广告：\n\n> “我喜欢大的，我喜欢 CHONK 的。” ~ Moto Moto\n\n## 📝 引用\n\n如果你在研究中使用了 Chonkie，请按如下方式引用：\n\n```bibtex\n@software{chonkie2025,\n  author = {Minhas, Bhavnick AND Nigam, Shreyash},\n  title = {Chonkie: 轻量级数据摄取库，用于构建快速、高效且稳健的 RAG 流程},\n  year = {2025},\n  publisher = {GitHub},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie}},\n}\n```","# Chonkie 快速上手指南\n\nChonkie 是一款轻量级、高性能的文本分块（Chunking）库，专为构建快速、高效的 RAG（检索增强生成）管道而设计。它支持多种分块策略、多语言处理，并能无缝对接主流向量数据库。\n\n## 环境准备\n\n- **操作系统**：Linux, macOS, Windows\n- **Python 版本**：Python 3.8 及以上\n- **前置依赖**：无特殊系统级依赖，仅需标准的 Python 环境。\n- **网络要求**：首次运行若使用特定 Tokenizer（如 `tiktoken`）或嵌入模型，需下载相关资源，建议确保网络通畅或使用国内镜像加速。\n\n## 安装步骤\n\n### 基础安装\n仅安装核心分块功能（推荐用于生产环境，体积最小）：\n\n```bash\npip install chonkie -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n或使用更快的 `uv` 工具：\n\n```bash\nuv pip install chonkie\n```\n\n### 全量安装\n安装所有分块器、集成组件及依赖（适合本地测试，不推荐生产环境）：\n\n```bash\npip install \"chonkie[all]\" -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\n### 1. 简单分块示例\n使用内置的 `RecursiveChunker` 对文本进行递归分块：\n\n```python\n# 导入分块器\nfrom chonkie import RecursiveChunker\n\n# 初始化分块器\nchunker = RecursiveChunker()\n\n# 执行分块\ntext = \"Chonkie is the goodest boi! My favorite chunking hippo hehe.\"\nchunks = chunker(text)\n\n# 遍历结果\nfor chunk in chunks:\n    print(f\"内容：{chunk.text}\")\n    print(f\"Token 数：{chunk.token_count}\")\n```\n\n### 2. 构建处理管道 (Pipeline)\n通过 `Pipeline` 串联多个分块和优化步骤，实现复杂工作流：\n\n```python\nfrom chonkie import Pipeline\n\n# 构建管道：先递归分块，再语义分块，最后添加重叠上下文\npipe = (\n    Pipeline()\n    .chunk_with(\"recursive\", tokenizer=\"gpt2\", chunk_size=2048, recipe=\"markdown\")\n    .chunk_with(\"semantic\", chunk_size=512)\n    .refine_with(\"overlap\", context_size=128)\n)\n\n# 运行管道\ndoc = pipe.run(texts=\"Chonkie is the goodest boi! My favorite chunking hippo hehe.\")\n\n# 输出处理后的分块\nfor chunk in doc.chunks:\n    print(chunk.text)\n```\n\n### 3. 异步高并发处理\n适用于高吞吐量场景：\n\n```python\nimport asyncio\nfrom chonkie import Pipeline\n\nasync def main():\n    pipe = Pipeline().chunk_with(\"recursive\", chunk_size=512)\n    doc = await pipe.arun(texts=\"Chonkie runs fast!\")\n    print(f\"生成分块数量：{len(doc.chunks)}\")\n\nasyncio.run(main())\n```","某初创团队正在构建一个支持多语言的法律文档智能问答系统，需要将海量复杂的 PDF 合同和法规文本高效转化为 RAG（检索增强生成）可用的向量数据。\n\n### 没有 chonkie 时\n- **开发效率低下**：工程师需手动编写递归分割逻辑来处理 Markdown 和法律条文结构，反复调试“切分点”导致项目延期。\n- **语义断裂严重**：简单的固定长度切分经常切断完整的法律条款上下文，导致 AI 回答时断章取义，准确率大幅波动。\n- **资源开销巨大**：引入重型 NLP 库进行预处理，导致内存占用高企，在服务器端难以并发处理大量文档。\n- **多语言支持困难**：面对中英混合的合同文本，缺乏原生多语言支持，需额外集成翻译或分词工具，链路极其复杂。\n\n### 使用 chonkie 后\n- **开箱即用**：直接调用 `RecursiveChunker` 并指定 \"markdown\" 配方，自动识别文档结构，将原本数天的开发工作缩短至几分钟。\n- **语义完整保留**：利用 `SemanticChunker` 结合重叠优化（Overlap Refinement），确保每个法律条款的完整性，显著提升了检索相关性。\n- **轻量极速运行**：凭借仅 505KB 的超轻体积，chonkie 在低配服务器上也能实现高速并行处理，大幅降低了云资源成本。\n- **原生多语言能力**：无需额外配置即可流畅处理 56 种语言的混合文本，完美适配跨国法律文档的复杂场景。\n\nchonkie 通过极简的轻量级设计，将繁琐的文本分块工程转化为标准化的流水线，让团队能专注于核心业务逻辑而非底层数据处理。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fchonkie-inc_chonkie_5f1f8afc.png","chonkie-inc","Chonkie","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fchonkie-inc_7f82a8af.png","Bringing the chonkie (but fast!) vibes to your AI development 🦛💨",null,"support@chonkie.ai","ChonkieAI","https:\u002F\u002Fchonkie.ai","https:\u002F\u002Fgithub.com\u002Fchonkie-inc",[82,86,90],{"name":83,"color":84,"percentage":85},"Python","#3572A5",99.8,{"name":87,"color":88,"percentage":89},"Dockerfile","#384d54",0.2,{"name":91,"color":92,"percentage":93},"Mako","#7e858d",0,3912,261,"2026-04-09T15:43:09","MIT",1,"Linux, macOS, Windows","非必需。仅在使用 NeuralChunker、SemanticChunker (embeddings) 或 SlumberChunker (LLM) 等特定功能时可能需要，具体取决于所选的后端模型（如 sentence-transformers 或自定义 LLM）。","未说明（基础安装仅 505KB，内存需求取决于所选的分块策略和加载的模型大小）",{"notes":103,"python":104,"dependencies":105},"该库采用模块化设计，默认安装非常轻量（约 505KB），不包含重型依赖。用户需根据使用的具体分块器（Chunker）、精炼器（Refinery）或向量数据库集成，通过 pip extras（如 chonkie[semantic], chonkie[neural]）按需安装额外依赖。支持异步运行和高吞吐场景，可提供自托管 REST API 服务。","未说明（通常支持 Python 3.8+，因依赖 tiktoken 和 transformers 等库）",[106,107,108,109,110],"tiktoken (可选，用于 OpenAI 分词)","transformers (可选，用于神经分词和嵌入)","sentence-transformers (可选，用于语义分块和精炼)","chromadb, qdrant-client, pinecone-client 等 (可选，用于向量数据库集成)","uvicorn, fastapi (可选，用于 API 服务)",[112,14,35,13,15],"其他",[114,64,115,116,117,118,119,120,121,122,123],"rag","chunker","chunking-algorithm","retrieval-systems","semantic-chunker","similarity-search","text-splitter","ai","llms","splitting-algorithms","2026-03-27T02:49:30.150509","2026-04-10T22:40:36.213037",[127,132,137,142,147,151],{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},28410,"为什么某些分块（chunk）的实际 token 数量超过了配置的 chunk_size 限制？","这是预期行为，具体取决于使用的分块器类型：\n1. **SemanticChunker**：主要基于语义进行分块，不执行严格的 token 数量检查。虽然中位数会在限制范围内，但如果段落语义需要，可能会产生超过 chunk_size 的分块。\n2. **RecursiveChunker**：如果您需要严格的尺寸限制，这是最佳选择，它会严格执行大小检查。\n3. **解决方案**：如果必须严格限制大小，可以先用 SemanticChunker 分块，再对较大的分块使用 RecursiveChunker 进行二次分块；或者直接改用 RecursiveChunker。如果只是为了数据库存储限制，也可以考虑将数据库字段类型从 TEXT 改为 MEDIUMTEXT。","https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fissues\u002F170",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},28411,"导入 chonkie 后，原有的日志（如 loguru）为什么不显示了？","这是一个已知问题（已在 #363 修复）。原因是 chonkie 在导入时会自动配置 loguru，并移除了所有现有的处理器（handlers），导致用户预先配置的日志设置失效。\n**解决方案**：\n1. 升级到修复后的版本：运行 `uv pip install git+https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie.git` 安装主分支的最新代码。\n2. 等待官方发布包含此修复的新版本（通常在报告后的一周内发布）。","https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fissues\u002F359",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},28412,"如何处理中文文本分割效果不佳的问题？推荐使用什么模型？","中文分割效果不好通常是因为默认的分词器不适合中文。维护者推荐使用专门针对中文优化的模型作为 tokenizer。\n**推荐方案**：使用 `BAAI\u002Fbge-base-zh-v1.5` 作为分词器（tokenizer_or_token_counter 参数），这是一款优秀的中文分词模型，能显著提升中文文本的分块效果。","https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fissues\u002F66",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},28413,"SDPMChunker 在嵌入（embedding）时报错\"上下文长度超出限制\"怎么办？","该错误通常发生在处理没有适当分隔符（如标点符号）且长度极长（超过模型限制，如 8192 tokens）的文本时，导致分块器生成了过大的块并发送给嵌入模型。\n**建议排查步骤**：\n1. 检查输入文本是否缺乏标点符号或分隔符。\n2. 确认文本长度是否异常。\n3. 如果可能，提供具体的样本文本给维护者以便复现和修复，因为内部嵌入器应在发送前检查 token 长度。目前可以通过预处理文本增加分隔符来规避。","https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fissues\u002F239",{"id":148,"question_zh":149,"answer_zh":150,"source_url":131},28414,"如何在保持语义连贯性的同时强制实施严格的 Token 数量限制？","单一分块器很难同时完美兼顾语义连贯性和严格的尺寸限制。推荐的组合策略是：\n1. 首先使用 `SemanticChunker`、`NeuralChunker` 或 `SlumberChunker` 进行初步分块，以确保内容的语义完整性。\n2. 然后检测生成的分块，对于那些超过尺寸限制的块，使用 `RecursiveChunker` 进行二次分块（Re-chunking）。\n这种两阶段方法既能利用语义分块的优势，又能满足下游系统（如数据库字段大小）的严格限制。",{"id":152,"question_zh":153,"answer_zh":154,"source_url":131},28415,"不同分块器（Chunker）之间有什么主要区别，该如何选择？","根据维护者的说明，不同分块器的侧重点如下：\n- **RecursiveChunker**：最适合有严格大小限制（strict size limits）的场景，它会严格执行 token 数量检查。\n- **SemanticChunker \u002F NeuralChunker \u002F SlumberChunker**：主要关注内容的语义连贯性，对尺寸限制较宽松。它们的分块结果通常在中位数上符合大小要求，但允许个别分块超出限制以保全语义。适合用于下游嵌入（embeddings）和性能优化场景。\n**选择建议**：如果需要严格控制每个块的大小（例如为了数据库存储），选 RecursiveChunker；如果更看重检索质量和语义完整性，选 Semantic 系列。",[156,161,166,171,176,181,186,191,196,201,206,211,216,221,226,231,236,241,246,251],{"id":157,"version":158,"summary_zh":159,"released_at":160},189358,"v1.6.2","\u003Cp align=\"center\">\n\u003Cimg width=\"50%\" alt=\"图片\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fb70fab9e-dab4-497f-85fc-a0d5d7e5d309\" \u002F>\n\u003C\u002Fp>\n\n## TeraflopAI 分块器\n您的工具库中新增了一个分块器 🎉  \n您现在可以使用下方代码免费试用新加入的 [TeraflopAI](https:\u002F\u002Fwww.teraflopai.com\u002F) 分块器：\n```py\nfrom chonkie import TeraflopAIChunker\n\n\nchunker = TeraflopAIChunker(api_key=\"您的API密钥\")\n\ntext = \"您的文本内容\"\nchunker.chunk(text)\n```\n\n\n## 变更内容\n\n* 修复了按块计算重叠部分时，浮点型 `context_size` 的逻辑，由 @anaslimem 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F512 中完成\n* 新增 TeraflopAI 分块器，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F539 中完成\n* 在 CodeChunker 中验证 Tree-Sitter 的语言支持，由 @chimchim89 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F469 中完成\n* 杂项：版本号更新，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F541 中完成\n\n\n## 依赖项更新\n* 杂项（依赖）：将 requests 从 2.32.5 升级至 2.33.0，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F532 中完成\n* 杂项（依赖）：将 Pygments 从 2.19.2 升级至 2.20.0，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F535 中完成\n* 杂项（依赖）：将 cryptography 从 46.0.5 升级至 46.0.6，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F534 中完成\n* 杂项（依赖）：将 langchain-core 从 1.2.19 升级至 1.2.22，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F533 中完成\n* 杂项（依赖）：将 aiohttp 从 3.13.3 升级至 3.13.4，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F538 中完成\n* 杂项（依赖）：将 litellm 从 1.82.3 升级至 1.83.0，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F540 中完成\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.6.1...v1.6.2","2026-04-07T01:21:39",{"id":162,"version":163,"summary_zh":164,"released_at":165},189359,"v1.6.1","# Chonkie 1.6.1（补丁版本） 🔨\n\n此补丁版本主要修复了导入问题并更新了依赖项。\n\n## 变更内容\n* chore(deps): 将 pyjwt 从 2.10.1 升级至 2.12.0，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F521 中完成\n* chore(deps): 将 orjson 从 3.11.3 升级至 3.11.6，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F520 中完成\n* chore: 修复导入问题，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F525 中完成\n* chore: 添加 httpx 并更新 [all]，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F526 中完成\n* chore: 提升版本号，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F527 中完成\n* chore(deps): 将 authlib 从 1.6.7 升级至 1.6.9，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F524 中完成\n\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.6.0...v1.6.1","2026-03-18T17:05:24",{"id":167,"version":168,"summary_zh":169,"released_at":170},189360,"v1.6.0","# Chonkie 1.6.0 🎉🦛\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fblob\u002Fmain\u002Fdocs\u002Fassets\u002Flogo\u002Fchonkie_scientist.png?raw=true\" height=\"200\" alt=\"Chonkie logo\" \u002F>\n\u003C\u002Fp>\n\n本次发布带来了对 HTML 表格的支持、可自托管的分块 API、原生异步能力，以及迁移到 `ty` 以提升类型检查速度。此外，还进行了一系列内部重构和质量改进，使库更加精简且易于扩展。\n\n---\n\n### 🌾 HTML 表格支持 ✨\n\n在 HTML 文档中处理结构化数据一直是分块流程中的一个挑战。在 1.6.0 版本中，我们通过两个新组件 `TableChef` 和 `TableChunker`，为 HTML 表格提供了第一类支持。\n\n- **`TableChef`** 负责从 HTML 表格中提取并规范化数据，生成干净、结构化的表示形式，以便于后续处理。\n- **`TableChunker`** 则在此基础上进一步智能地对表格内容进行分块，保留行和列的语义，而不是简单地按标记边界进行分割。\n\n无论您是在处理 HTML 还是 Markdown，现在都可以在分块管道中轻松处理表格了。\n\n\n\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth>输入代码\u003C\u002Fth>\n\u003Cth>原始 HTML 表格\u003C\u002Fth>\n\u003Cth>分块后的输出\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\n\u003Ctbody>\n\u003Ctr>\n\n\u003Ctd>\n\u003Cp align=\"center\">\n\u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F251de10a-f97f-46cb-bddd-5f645c76e98e\" height=\"400\" alt=\"Chonkie 表格\"\u002F>\n\u003C\u002Fp>\n\n\u003C\u002Ftd>\n\n\u003Ctd>\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\u003Cth>ID\u003C\u002Fth>\u003Cth>状态\u003C\u002Fth>\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\u003Ctd>1\u003C\u002Ftd>\u003Ctd>活跃\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\u003Ctd>2\u003C\u002Ftd>\u003Ctd>待处理\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\u003Ctd>3\u003C\u002Ftd>\u003Ctd>未激活\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\u003Ctd>4\u003C\u002Ftd>\u003Ctd>活跃\u003C\u002Ftd>\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Ftd>\n\n\u003Ctd>\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\u003Cth>ID\u003C\u002Fth>\u003Cth>状态\u003C\u002Fth>\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\u003Ctd>1\u003C\u002Ftd>\u003Ctd>活跃\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\u003Ctd>2\u003C\u002Ftd>\u003Ctd>待处理\u003C\u002Ftd>\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003Cbr>\n\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\u003Cth>ID\u003C\u002Fth>\u003Cth>状态\u003C\u002Fth>\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\u003Ctd>3\u003C\u002Ftd>\u003Ctd>未激活\u003C\u002Ftd>\u003C\u002Ftr>\n\u003Ctr>\u003Ctd>4\u003C\u002Ftd>\u003Ctd>活跃\u003C\u002Ftd>\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n\u003C\u002Ftd>\n\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n---\n\n### 💻 Chonkie API：可自托管的分块服务器\n\nChonkie 现在可以作为一个完全自托管的 REST API 运行，从而轻松地将分块功能作为服务部署到您的基础设施中。基于 FastAPI 构建的 Chonkie 开源 API 只需一条命令即可启动，并可通过您网络中的任何机器访问。\n\n这对于希望集中管理分块逻辑、将 Chonkie 集成到多语言技术栈中，或避免在每个需要分块的服务中重复初始化模型的团队来说，是非常理想的解决方案。\n\n要启动服务器，请运行：\n```bash\nchonkie serve\n```\n\n服务器启动后，您网络中的任何客户端都可以通过消费者端点进行调用。完整的文档可以在 `http:\u002F\u002Flocalhost:8000\u002Fdocs` 中找到。\n\n\u003Cp align=\"center\">\n\n\u003Cimg alt=\"图片\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fd57a83e7-1aa3-4b9e-bcf2-db13522f5e92\" width=\"50%\" height=\"auto\" \u002F>\n\n\u003Cim","2026-03-11T04:54:09",{"id":172,"version":173,"summary_zh":174,"released_at":175},189361,"v1.5.6","## 通用可视化工具 👀\r\n现在，该可视化工具也支持字符串列表，使其能够扩展到当前库的范围之外。\n```python\nfrom chonkie import Visualizer, RecursiveChunker\nviz = Visualizer()\ntexts = [\"hello, \",\"world\"]\nviz(texts)\n```\n\u003Cimg width=\"100\" height=\"40\" alt=\"image\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F8bdbe433-c97f-4874-b997-a3d70167f8d7\" \u002F>\n\n\n\n## 变更内容\n* chore(deps): 将 protobuf 从 6.32.1 升级到 6.33.5，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F484 中完成\n* chore: 切换到调试模式，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F485 中完成\n* chore: 提升版本号，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F486 中完成\n* chore(deps): 将 pillow 从 11.3.0 升级到 12.1.1，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F494 中完成\n* chore(deps): 将 langchain-core 从 0.3.81 升级到 1.2.11，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F493 中完成\n* chore(deps): 将 langsmith 从 0.4.32 升级到 0.6.3，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F490 中完成\n* perf: 在测试运行期间缓存所有 HF Hub 请求，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F419 中完成\n* chore(deps): 将 cryptography 从 46.0.2 升级到 46.0.5，由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F492 中完成\n* docs: 改进代码分块器的语言支持文档，由 @samyak1729 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F451 中完成\n* 从 NeuralChunker 中移除已完成的 TODO 注释，由 @anaslimem 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F488 中完成\n* 修复自述文件中的锚点，使其指向正确的标题。由 @CKolkey 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F433 中完成\n* fix: 处理 Pipeline.run() 中的空列表输入（问题 #460），由 @hannibal-lee 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F496 中完成\n* 改进测试，移除分块索引中的空白字符清理，由 @anaslimem 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F489 中完成\n* fix: 移除 CohereEmbeddings 中的重复代码，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F414 中完成\n* feat(visulizer): 为可视化工具添加对字符串列表的支持，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F497 中完成\n\n## 新贡献者\n* @CKolkey 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F433 中做出了他们的首次贡献\n\n**完整变更日志**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.5.5...v1.5.6","2026-02-16T21:43:21",{"id":177,"version":178,"summary_zh":179,"released_at":180},189362,"v1.5.5","## Chonkie v1.5.5 🦛\n\n这是一个以稳定性提升和错误修复为重点的补丁版本。此版本使 Chonkie 在部分依赖和自定义实现的情况下更加健壮。\n\n### 🐛 错误修复\n\n* **OpenAI 懒加载** - 现在，未安装 `openai` 的用户也可以无错误地导入 Chonkie。此前，即使不使用 OpenAI 功能，导入 `chonkie` 也会因 `ModuleNotFoundError` 而失败。（#481）\n\n* **默认多进程安全** - 自定义分块器现在无需额外配置即可直接使用，不会出现 pickle 错误。`BaseChunker` 现已默认采用顺序处理方式，而并行处理则需显式启用。（#471）\n\n* **CodeChunker 叶节点处理** - 修复了一个边缘情况：语法树中的叶节点可能会产生空输出，导致有效代码在分块过程中被丢弃。（#473）\n\n* **SlumberChunker 安全分割** - 改进了 SlumberChunker 中的分割索引处理逻辑，提升了可靠性。（#479）\n\n### 🧹 代码质量\n\n* **CodeChunker 代码清理** - 移除了死代码，改进了变量命名一致性，并统一使用带错误处理的 UTF-8 解码。（#482）\n\n### 📚 文档\n\n* 更新了文档中配方仓库的链接。（#476）\n\n---\n\n## 变更内容\n\n* 修复：由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F481 中实现的 OpenAI 懒加载\n* 修复：由 @anaslimem 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F471 中实现的使 BaseChunker 默认多进程安全\n* 修复：由 @chimchim89 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F473 中实现的 CodeChunker 叶节点处理问题，防止遗漏分块\n* 杂项：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F482 中完成的 CodeChunker 叶节点处理清理\n* SlumberChunker 增加安全的 split_index 处理，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F479 中实现\n* 更新文档中的配方仓库链接，由 @bolzzzz 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F476 中完成\n* 杂项：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F483 中将版本号升级至 1.5.5\n\n## 新贡献者\n\n* @anaslimem 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F471 中完成了首次贡献\n* @bolzzzz 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F476 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.5.4...v1.5.5","2026-02-04T20:00:13",{"id":182,"version":183,"summary_zh":184,"released_at":185},189363,"v1.5.4","## Chonkie v1.5.4 🎉\n\n### Chonkie CLI 💻\n请查看[文档](https:\u002F\u002Fdocs.chonkie.ai\u002Foss\u002Fexperimental\u002Fchonkie-cli)，了解更多关于 CLI 命令和使用方法的详细信息。\n\n\n\u003Cimg width=\"1467\" height=\"353\" alt=\"image\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fa585f7ee-e30c-4c22-8868-9a356bec7172\" \u002F>\n\n### 从 Cython 迁移到 Rust ⚡\n我们已正式从 Cython 迁移到 Rust 🦀\n\n---\n\n## 变更内容\n* 功能：由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F401 中添加 Chonkie CLI\n* 注册 Milvus 握手协议：由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F436 中完成\n* 在 CLI 中使用组件注册表：由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F435 中实现\n* CI：加速并简化流程：由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F420 中完成\n* 性能优化：延迟 Hubbie 配方模式的下载和解析：由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F428 中完成\n* 修复 FastChunker 的 UTF-8 字节偏移不匹配问题：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F440 中修复\n* 功能：为 SlumberChunker 添加文本提取模式：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F443 中实现\n* 修复：当提取失败时，使用 group_end_index 作为备用方案：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F444 中修复\n* 修复：启用 Ruff B904 规则；在重新抛出异常时使用 `raise ... from ...`：由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F424 中完成\n* 依赖更新：将 aiohttp 从 3.13.0 升级至 3.13.3：由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F448 中完成\n* 依赖更新：将 pyasn1 从 0.6.1 升级至 0.6.2：由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F449 中完成\n* 依赖更新：将 langchain-core 从 0.3.78 升级至 0.3.81：由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F450 中完成\n* 依赖更新：将 urllib3 从 2.5.0 升级至 2.6.3：由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F446 中完成\n* 依赖更新：将 authlib 从 1.6.5 升级至 1.6.6：由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F447 中完成\n* 将 azure-core 从 1.35.1 升级至 1.38.0：由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F442 中完成\n* 将 filelock 从 3.19.1 升级至 3.20.3：由 @dependabot[bot] 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F441 中完成\n* 功能：添加 GroqGenie 和 CerebrasGenie 以实现快速推理：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F453 中实现\n* 文档：添加 GroqGenie 和 CerebrasGenie 的相关文档：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F454 中完成\n* 重构：用 chonkie-core（Rust）替换 Cython 的拆分\u002F合并功能：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F456 中完成\n* 重构：在 FastChunker 中用 chonkie-core 替换 memchunk：由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F457 中完成\n* 功能：注册官方 SentenceTransformer 模型以解决待办事项：由 @chimchim89 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F445 中完成\n* 使用 ruff 格式化 chunker 模块：由 @chimchim89 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F467 中完成\n* 将 lain 加入协作者列表：由 @chonk-lain 在 https:","2026-01-28T19:53:02",{"id":187,"version":188,"summary_zh":189,"released_at":190},189364,"v1.5.2","\u003Cp align=\"center\">\r\n  \u003Cimg width=\"500\" height=\"500\" alt=\"FastChonkie!\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F94cc864b-4013-4f9d-9cb0-d71a3c091a00\" \u002F>\r\n\u003C\u002Fp>\r\n\r\n## 变更内容\r\n* 功能：添加 `FastChunker`，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F430 中实现\r\n* 添加 `__all__` 以使 `pyright` 满意，由 @Kludex 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F429 中完成\r\n\r\n## 新贡献者\r\n* @Kludex 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F429 中完成了他们的首次贡献\r\n\r\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.5.1...v1.5.2","2026-01-05T20:21:33",{"id":192,"version":193,"summary_zh":194,"released_at":195},189365,"v1.5.1","## 变更内容\n* CI：由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F406 中为 Python 3.14 也构建轮子文件\n* 强制使用 ruff 格式化，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F410 中完成\n* 修复：为 protobuf 和 grpc 版本添加 uv 约束，以满足 Weaviate 测试需求，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F412 中完成\n* 修复：将 `._is_available()` 始终改为类方法，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F415 中完成\n* 修复：为简化代码移除延迟导入的 hack；使 mypy 满意，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F416 中完成\n* 依赖项：修复一些次要依赖版本，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F418 中完成\n* 杂项：修复了一些拼写错误，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F417 中完成\n* 文档：修复 docs\u002Fcommon\u002Fopen-source.mdx 中的拼写错误，由 @samyak1729 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F421 中完成\n* CI：在 main 分支及升级后运行测试，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F423 中完成\n* 杂项：解决依赖关系，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F411 中完成\n* 修复日志记录，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F426 中完成\n* 修复：重构 VoyageAIEmbeddings 测试用例，并将版本号提升至 1.5.1，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F427 中完成\n\n## 新贡献者\n* @samyak1729 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F421 中完成了首次贡献\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.5.0...v1.5.1","2025-12-26T07:02:28",{"id":197,"version":198,"summary_zh":199,"released_at":200},189366,"v1.5.0","## ✨ 亮点\n\n* 本版本移除了对 `Py3.9` 的支持，并新增了对 `Py3.13` 的支持。  \n* 新增了 `RowTokenizer`，可根据行值对表格进行分块，感谢 @chonk-lain 的贡献。  \n* 参数提示现在会从原始对象传递到流水线中，感谢 @akx 的贡献！  \n* 多项错误修复与补丁！\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F65fbfe3a-31d6-4459-b4bb-fe1908009e36\" width=\"50%\">\n\u003C\u002Fp>\n\n## 变更内容\n* 修复损坏的定价链接，由 @shreyash-chonkie 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F389 中完成。  \n* 功能：为云端客户端添加流水线功能，并新增文档页面，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F390 中完成。  \n* 修复：在 `run()` 方法中，若流水线已存在，则添加更新流程，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F391 中完成。  \n* 修复（slumber）：在分块拼接时保留空格，由 @kiendoantrung 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F381 中完成。  \n* 杂项：更新 geminie geinie 的默认参数，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F393 中完成。  \n* 添加对自定义 Chonkie 分词器实例的支持，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F396 中完成。  \n* 功能：新增 `ByteTokenizer`，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F397 中完成。  \n* 文档：将字节级分词器添加到文档中，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F398 中完成。  \n* 修复：增加将 `AutoTokenizer` 包装在另一个 `AutoTokenizer` 实例中的功能，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F399 中完成。  \n* 修复：弃用 `Py3.9`，并新增对 `Py3.13` 的支持！由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F320 中完成。  \n* 功能：新增基于行的表格分块器，由 @chonk-lain 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F392 中完成。  \n* 功能：为 Chonkie 添加 Catsu 嵌入支持，由 @chonknick 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F402 中完成。  \n* 修复：在流水线注册函数中透传原始对象类型，由 @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F394 中完成。\n\n## 新贡献者\n* @akx 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F394 中完成了他们的首次贡献。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.4.2...v1.5.0","2025-12-16T07:39:58",{"id":202,"version":203,"summary_zh":204,"released_at":205},189367,"v1.4.2","## 变更内容\n* 功能：@MODSetter 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F368 中修复了 Azure OpenAI 的 AutoEmbeddings。\n* 修复 Bug：@hannibal-lee 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F374 中修复了 FileFetcher() 在使用目录时仅获取一级文件的问题。\n* @chonk-lain 更新了 LateChunker 的文档，详见 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F379。\n* @chonk-lain 更新了品牌标识，详见 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F382。\n* 修复：移除 loguru 依赖，改用标准日志记录（#375），由 @chonknick 完成，详见 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F380。\n* @chonknick 为日志适配器添加了结构化日志支持，详见 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F385。\n\n## 新贡献者\n* @MODSetter 在 https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F368 中完成了首次贡献。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.4.1...v1.4.2","2025-11-14T18:16:40",{"id":207,"version":208,"summary_zh":209,"released_at":210},189368,"v1.4.1","\r\n\u003Cimg width=\"960\" height=\"540\" alt=\"Chonkie Logo (54)\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F251cc897-d8e0-4991-bd89-37d97d0624bd\" \u002F>\r\n\r\n## ✨ Highlights\r\n\r\n- Add support for `MilvusHandshake`! Now you can send your chunks `Milvus` through Chonkie~\r\n- Many bug fixes and documentation updates!\r\n\r\n## What's Changed\r\n* Fix: Update package size badge and enhance project description by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F344\r\n* Docs: Update README with more precise feature descriptions by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F345\r\n* Fix import statement for Pipeline in pipelines.mdx by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F346\r\n* Increase logo size in welcome page by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F348\r\n* Docs: Remove hardcoded height from logo images by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F349\r\n* chore: fix failing tests for none core contributors  by @not-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F353\r\n* Docs: Update chunker documentation with two-step file upload process by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F354\r\n* docs: update 'tokenizer' parameter name in __repr__ and relevant docs by @IvanMiao in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F351\r\n* Fix: Add ARM64 support to wheel builds by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F343\r\n* Fix: Move multiprocessing import inside methods to reduce default imports by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F362\r\n* Fix: Logger Configuration - loguru conflict with user handlers by @IvanMiao in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F363\r\n* Fix Bug:AzureOpenAIEmbeddings import issue by @hannibal-lee in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F366\r\n* Remove chunk overlap from Recursive Chunker API docs by @shreyash-chonkie in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F369\r\n* Update overlap refinery documentation by @shreyash-chonkie in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F370\r\n* Feat: Add MilvusHandshake by @AlanPonnachan in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F322\r\n* Update magika requirement from \u003C0.7.0,>=0.6.0 to >=0.6.0,\u003C1.1.0 by @dependabot[bot] in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F371\r\n* fix late chunker by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F367\r\n* feat: update default embedding model by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F372\r\n\r\n## New Contributors\r\n* @hannibal-lee made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F366\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.4.0...v1.4.1","2025-11-03T22:42:43",{"id":212,"version":213,"summary_zh":214,"released_at":215},189369,"v1.4.0","\r\n\u003Cimg width=\"960\" height=\"540\" alt=\"Chonkie Logo (49)\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Ffab18c49-0139-463d-bc66-1a326561ec75\" \u002F>\r\n\r\n## ✨ Highlights\r\n\r\n- Introduced `chonkie.Pipeline` for composable chunking + retrieval workflows\r\n- Added `TableChef` and `TableChunker` for smart table-aware chunking, plus `MarkdownChef.parse()` for quick Markdown ingestion\r\n- New search methods land on `ChromaHandshake`, `ElasticHandshake`, and `TurboPufferHandshake` for one-line vector-store checks\r\n- Two new visualizer themes—`ocean_breeze` and `midnight`—for prettier chunk inspection\r\n- File-handling helpers baked into every cloud chunker for drag-and-drop simplicity\r\n\r\n## 🔨 Breaking\r\n\r\n- `numpy` is now a core dependency—remove any pinned excludes in your env\r\n- The old `tokenizer_or_token_counter` kwarg is gone; use `tokenizer` everywhere (single, consistent name)\r\n\r\n## What's Changed\r\n* Feat: add table chef by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F297\r\n* Feat: add search method for chroma handshake by @AlanPonnachan in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F293\r\n* docs: update docs by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F307\r\n* Feat: Add `parse` method to the `MarkdownChef` + Enhance testing for chefs by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F310\r\n* Fix: Remove error for malformed\u002Fabsent tables in `Document` and more...  by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F308\r\n* Feat: Add ElasticHandshake by @AlanPonnachan in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F314\r\n* Docs: Update Cloud API docs by @shreyash-chonkie in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F318\r\n* Feat: Change `tokenizer_or_token_counter` to `tokenizer` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F311\r\n* docs: fix broken links in python-sdk docs by @IvanMiao in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F316\r\n* Fix: remove `legacy` chunkers for the next breaking change in `chonkie` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F286\r\n* feat(visualizer): Add ocean_breeze and midnight themes by @amithadityacp in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F328\r\n* Fix: Update `TableChef` to always return `MarkdownTable` + remove stale `sdpm` docs by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F332\r\n* Feat: Add `numpy` as a default install in `chonkie` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F333\r\n* Feat: Add logging by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F313\r\n* Feat: Add `chonkie.Pipeline` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F319\r\n* Feat: add search method for turbopuffer handshake by @AlanPonnachan in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F303\r\n* Update docs by @shreyash-chonkie in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F337\r\n* Fix typos by @shreyash-chonkie in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F338\r\n* A test was causing an error in a test. by @cappuch in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F334\r\n* Docs: Add Pipelines + FileFetcher Documentation  by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F339\r\n* Feat: Add pipeline tests + simplify some logic by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F340\r\n\r\n## New Contributors\r\n* @AlanPonnachan made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F293\r\n* @IvanMiao made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F316\r\n* @amithadityacp made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F328\r\n* @cappuch made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F334\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.3.1...v1.4.0","2025-10-11T09:31:48",{"id":217,"version":218,"summary_zh":219,"released_at":220},189370,"v1.3.1","## What's Changed\r\n* Feat: add pinecone source_tag  by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F294\r\n* Docs: Add Chonkie Parse by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F298\r\n* Feat: Add support for `MarkdownDocument` and `MarkdownChef`, rename `text`->`content` in `Document` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F299\r\n* Feat: Add `MarkdownImage` type + Handle hybrid chunking via `Document` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F301\r\n* Feat: Add support for wrapped `MarkdownImages` and filter empty text blocks in MarkdownChef by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F302\r\n* Feat: add table chunker by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F300\r\n* Fix: `TableChunker` failing edge case and indexing by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F304\r\n* Feat: Add `chunk_document` to the `TableChunker` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F305\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.3.0...v1.3.1","2025-09-27T08:17:11",{"id":222,"version":223,"summary_zh":224,"released_at":225},189371,"v1.3.0","\u003Cimg width=\"960\" height=\"540\" alt=\"Chonkie Logo (45)\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002Fe17a2d5d-0526-4ae1-9bd2-78f814ae798b\" \u002F>\r\n\r\n## ✨ Highlights\r\n\r\n- Added `search` methods to handshakes for quick retrieval checks! Now you can search things directly with `QdrantHandshake`, `WeaviateHandshake`, `PineconeHandshake`, `MongoDBHandshake` and `PgvectorHandshake`.\r\n- Added a `file` input for all the cloud chunkers for easier processing of the files directly!\r\n\r\n## 🔨 Breaking\r\n\r\n- All chunkers now return `Chunk` type, instead of `SemanticChunk`, `SentenceChunk` or `RecursiveChunk`, leader to stricter typing and more uniform structure. \r\n- Cloud `SemanticChunker` now matches the chonkie's `SemanticChunker`!\r\n\r\n## What's Changed\r\n* Feat: fix legacy import by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F268\r\n* fix: Added voyageai to chonkie[all] optional installation It  Fixes #… by @sahibpreetsingh12 in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F256\r\n* Docs: update readme to include the latest handshakes by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F266\r\n* Docs: Correct faulty import in LateChunker docs by @JoshuaKoopmans in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F269\r\n* Feat: fix the default parameter for the semantic chunker by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F252\r\n* Fixed the issue #51TokenChunker Visual was cutting when using overlapping chunks by @sahibpreetsingh12 in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F257\r\n* Chore: remove -O3 compiling parameter by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F276\r\n* Docs: update embedding documentation by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F270\r\n* Docs: correct late chunker docs by @JoshuaKoopmans in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F273\r\n* Add AzureOpenAIGenie to the __all__ export list by @kiendoantrung in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F272\r\n* Feat: add search methods for handshakes by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F275\r\n* Chore: fix workflows by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F278\r\n* Fix: `chonkie.cloud.SemanticChunker` has new parameters & add `file` to all the chunkers by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F279\r\n* Docs: update `chonkie` favicon image by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F282\r\n* Fix: Remove unused `friends` directory from the codebase by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F287\r\n* Fix: All chunkers now return `Chunk` type only by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F285\r\n* Feat: update [all] by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F288\r\n* Update version to 1.3.0 in pyproject.toml and __init__.py by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F290\r\n\r\n## New Contributors\r\n* @JoshuaKoopmans made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F269\r\n* @kiendoantrung made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F272\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.2.1...v1.3.0","2025-09-19T21:03:41",{"id":227,"version":228,"summary_zh":229,"released_at":230},189372,"v1.2.1","## 🛠️ Fixes\r\n- Removes `--ffast-math` from `setup.py`, since it's not supported on all platforms\u002Flinux distros!\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.2.0...v1.2.1","2025-08-28T19:02:13",{"id":232,"version":233,"summary_zh":234,"released_at":235},189373,"v1.2.0","\u003Cimg width=\"712\" height=\"499\" alt=\"image\" src=\"https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F0eb4c719-0048-4d41-9651-44c5fa7fb1be\" \u002F>\r\n\r\n\r\n## ✨ Highlights\r\n\r\n- New `SemanticChunker` with advance peak detection, `skip_window` support, group embedding support and better thresholding! The new semantic chunker requires much less tuning for consistently sized chunks.\r\n\r\n```python\r\n# Import the chunker\r\nfrom chonkie import SemanticChunker\r\n\r\n# Initialize the chunker\r\nchunker = SemanticChunker(chunk_size=512)\r\n\r\n# define the text\r\ntext = ...\r\n\r\n# CHONK!\r\nchunk = chunker(text)\r\n```\r\n\r\n- Support for MongoDB via `MongoDBHandshake`!\r\n\r\n```python\r\nfrom chonkie import MongoDBHandshake, SemanticChunker\r\n\r\n# Initialize the handshake\r\nhandshake = MongoDBHandshake(uri=\"mongodb:\u002F\u002Flocalhost:8080\", db_name=\"my_documents\")\r\n\r\n# Create some chunks\r\nchunker = SemanticChunker()\r\nchunks = chunker.chunk(\"Chonkie loves to chonk your texts!\")\r\n\r\n# Write chunks to MongoDB\r\nhandshake.write(chunks)\r\n```\r\n\r\n- Support for Pinecone via `PineconeHandshake`!\r\n\r\n```python\r\nfrom chonkie import PineconeHandshake, SemanticChunker\r\n\r\n# Initialize the handshake\r\nhandshake = PineconeHandshake(api_key=...)\r\n\r\n# Create some chunks\r\nchunker = SemanticChunker()\r\nchunks = chunker.chunk(\"Chonkie loves to chonk your texts!\")\r\n\r\n# Write chunks to Pinecone\r\nhandshake.write(chunks)\r\n```\r\n\r\n- Support for Weaviate via `WeaviateHandshake`!\r\n\r\n```python\r\nfrom chonkie import WeaviateHandshake, SemanticChunker\r\n\r\n# Initialize the handshake\r\nhandshake = WeaviateHandshake(url=url, api_key=...)\r\n\r\n# Create some chunks\r\nchunker = SemanticChunker()\r\nchunks = chunker.chunk(\"Chonkie loves to chonk your texts!\")\r\n\r\n# Write chunks to Weaviate\r\nhandshake.write(chunks)\r\n```\r\n\r\n\r\n## What's Changed\r\n* Fix: Update README — Absolute path for logo by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F235\r\n* Update README.md — Add recent integrations to the list by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F237\r\n* docs: fix url by @superpung in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F240\r\n* Support weaviate by @xucailiang in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F204\r\n* Fix: Remove failing weaviate cloud tests from CI\u002FCD by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F246\r\n* Fix: Add `_truncate` to the `OpenAIEmbddings` (#239) by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F247\r\n* Feat: Add `PineconeHandshake` by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F243\r\n* docs: updated handshakes overview and move changelog to Python SDK by @sahibpreetsingh12 in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F255\r\n* Feat: Add `MongoDBHandshake` by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F253\r\n* Feat: Add better `SemanticChunker` with peak finding, window similarities and more! by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F251\r\n* Migrate the cookbook to `chonkie-inc\u002Fcookbook` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F258\r\n* Docs: update mongodb docs by @chonk-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F259\r\n\r\n## New Contributors\r\n* @chonk-lain made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F235\r\n* @superpung made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F240\r\n* @xucailiang made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F204\r\n* @sahibpreetsingh12 made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F255\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.1.2...v1.2.0","2025-08-28T18:53:07",{"id":237,"version":238,"summary_zh":239,"released_at":240},189374,"v1.1.2","![chonkie x jina](https:\u002F\u002Fgithub.com\u002Fuser-attachments\u002Fassets\u002F9abfba5e-8844-4a46-807d-23a4c7197016)\r\n\r\n## ✨ Highlights\r\n\r\n* Added initial support for `FileFetcher` and `TextChef` classes — Classes to support fetching files and cleaning up basic text structures. \r\n* Added support for new `jina-embedding-4` embedding model (thanks to @real-jiakai 🙏) \r\n* Added initial support for `AzureOpenAIEmbeddings` and `AzureOpenAIGenie` (thanks to @TaylorN15 🙏)\r\n* Bug fixes and other minor patches. \r\n\r\n## What's Changed\r\n* Feat: Add support for `FileFetcher` and `TextChef` classes — for better input support in `chonkie` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F220\r\n* Fix: Add tokenizers to the required embedding optional install modules (#224) by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F225\r\n* Feat: Added jina embedding v4 model by @Harsha-Karimikonda in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F213\r\n* Add Azure OpenAI Support (Embeddings + Genie) by @TaylorN15 in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F191\r\n* fix: export EmbeddingsRegistry in embeddings module by @real-jiakai in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F227\r\n* Add `jina-embeddings-v4` + Support for `AzureOpenAIEmbeddings` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F226\r\n* Fix: Update pyproject.toml to include `chonkie.cloud.auth` and `chonkie.cloud.refineries` by @shreyash-chonkie in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F230\r\n* Chore: Bump version to `v1.1.2` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F232\r\n\r\n## New Contributors\r\n* @TaylorN15 made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F191\r\n* @real-jiakai made their first contribution in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F227\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.1.1...v1.1.2","2025-08-06T21:52:33",{"id":242,"version":243,"summary_zh":244,"released_at":245},189375,"v1.1.1","## ✨ Highlights\r\n\r\n* Chonkie imports properly on windows without Microsoft C++ Build Tools — solving #212!\r\n* Added `DatasetsPorter` to save chunks as a dataset. \r\n\r\n## What's Changed\r\n* Feat: Bump version and add pre-built wheels for windows to avoid #212 by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F216\r\n* add huggingface datasets to the list of porters by @not-lain in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F196\r\n* Feat: Bump version to `v1.1.1` and add `DatasetsPorter` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F217\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.1.0...v1.1.1","2025-07-18T05:03:51",{"id":247,"version":248,"summary_zh":249,"released_at":250},189376,"v1.1.1a0","## What's Changed\r\n* Feat: Bump version and add pre-built wheels for windows to avoid #212 by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F216\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.1.0...v1.1.1a0","2025-07-17T07:17:42",{"id":252,"version":253,"summary_zh":254,"released_at":255},189377,"v1.1.0","## What's Changed\r\n* Update docs with Cloud SDKs by @shreyash-chonkie in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F189\r\n* Update README.md by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F192\r\n* Add static typing to the cloud chunkers + Workflow for mypy testing on PRs by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F194\r\n* Fix: Remove the mypy_errors.txt file by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F201\r\n* Update all the chunkers to use \"character\" instead of \"gpt2\" by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F202\r\n* Feat: Shift the tokenizer to be `character` type to make the `tokenizers` optional by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F205\r\n* Fix: return_type is removed for returning only `chunks` to simplify mypy static typing by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F206\r\n* Fix: Remove `return_type='texts'` to increase type consistency and resolve complex mypy issues by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F207\r\n* Update version to 1.1.0 in `__init__.py` by @chonknick in https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fpull\u002F209\r\n\r\n\r\n**Full Changelog**: https:\u002F\u002Fgithub.com\u002Fchonkie-inc\u002Fchonkie\u002Fcompare\u002Fv1.0.10...v1.1.0","2025-07-02T20:55:20"]