refinery

1.5k 73 较难 1 次阅读 5天前Apache-2.0开发框架语言模型数据工具其他

AI 解读由 AI 自动生成，仅供参考

Refinery 是一款专为数据科学家打造的开源工具，旨在帮助用户高效地扩展、评估和维护自然语言处理（NLP）所需的训练数据。它的核心理念是将训练数据视为可版本化、可管理的“软件工件”，而不仅仅是静态文件。

在实际工作中，许多团队面临标注数据不足、数据散落在表格或文本文件中难以评估质量，或在资源有限的情况下不知如何优化标注效率等痛点。Refinery 正是为解决这些问题而生。它支持半自动化标注流程，帮助快速识别训练数据中的低质量子集，并提供统一的数据监控面板，让用户能以“数据为中心”的方式构建更优质的 NLP 模型。虽然 Refinery 不取代人工标注，但它能确保宝贵的人力时间花在刀刃上。此外，项目正积极开发与其他标注工具的集成，方便用户灵活切换工作流。

无论是独立开发者开展个人 NLP 项目，还是协作团队希望在有限预算和时间内最大化数据价值，Refinery 都是理想选择。其开源特性、对数据质量的深度洞察以及模块化设计，使其成为现代自然语言数据处理流程中不可或缺的一环。

使用场景

某电商公司的算法团队正致力于构建一个智能客服意图识别模型，但面临标注数据稀缺且质量参差不齐的困境。

没有 refinery 时

训练数据散落在多个 Excel 表格和文本文件中，缺乏统一版本管理，团队成员经常混淆最新数据集。
无法量化评估数据质量，模型效果不佳时，只能盲目重新标注大量数据，浪费宝贵的人力与预算。
标注工作完全依赖人工手动完成，效率低下，导致项目上线周期被迫延长数周。
难以发现数据中的偏差或低质量子集，模型在特定场景下频繁出现误判，却找不到根本原因。

使用 refinery 后

将训练数据视为软件工件进行统一管理，清晰追踪每一次数据迭代，彻底消除文件混乱问题。
利用内置评估功能快速定位低质量数据子集，针对性地清洗和补充样本，显著提升了模型准确率。
通过半自动化标注流程辅助人工，大幅减少重复劳动，让标注团队能专注于处理高难度的边缘案例。
在单一平台实时监控数据分布与质量指标，迅速发现并修正数据偏差，确保模型在各种场景下表现稳定。

refinery 帮助团队从“盲目堆砌数据”转向“以数据为中心”的精细化运营，用更少的资源构建了更强大的 NLP 模型。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该工具是一个多仓库项目，核心依赖 Hugging Face 和 spaCy 用于预训练语言模型，依赖 qdrant 用于神经搜索。安装方式支持 pip (kern-refinery) 或从源码克隆。开源版本目前主要为单用户模式。具体 Python 版本、操作系统及硬件资源需求在提供的 README 片段中未明确列出，通常此类 NLP 工具建议在使用 GPU 的环境下运行以获得最佳性能，但非强制要求。

python未说明

Hugging Face (transformers)

spaCy

qdrant

快速开始

数据科学家用于扩展、评估和维护自然语言数据的开源工具。

将训练数据视作软件构件。

这些场景中，有没有哪一个让你觉得似曾相识？

你正在独自进行一项自然语言处理相关的个人项目，但手头的标注数据不足以训练出一个效果良好的模型。
你在团队中工作，已经有一些标注数据，但它们只是简单地存储在电子表格或文本文件里，你根本不清楚这些数据的质量究竟如何。
你们团队即将启动一个新项目，但资源有限（标注人员、预算、时间），现在需要弄清楚如何最有效地利用这些资源。

如果是这样，那么refinery正是为你而生。refinery采用以数据为中心的方法，帮助你构建更优质的自然语言处理模型。它能够半自动化地完成标注任务，发现训练数据中的低质量子集，并在一个平台上对数据进行全面监控。

refinery并不会完全取代人工标注，但它能确保你宝贵的时间被高效利用。此外，refinery的开发者们目前正在与其他标注工具进行集成，方便你在不同方案之间灵活切换。

refinery展示动图

演示: 你可以在一个（大部分为只读）在线试用环境中与该应用互动。点击这里体验。

refinery是一个多仓库项目，所有集成的服务都可以在下方的架构图中找到。该应用基于🤗 Hugging Face和spaCy构建，以便为你的自然语言处理任务提供预训练的语言模型支持；同时，还使用了qdrant来进行神经网络搜索。

🧑‍💻 为什么选择refinery？
你的收益
如果refinery是开源的，Kern AI是如何盈利的？
🤓 功能特性
☕ 安装指南
📘 文档与教程
😵‍💫 需要帮助吗？
🪢 社区与联系方式
🙌 贡献
❓ 常见问题解答
🐍 Python SDK
🏠 架构
🏫 术语表
👩‍💻👨‍💻 团队与贡献者
🌟 星标历史
📃 许可证

🧑‍💻 为什么选择refinery？

目前市面上已经有许多用于构建训练数据的工具。那么，我们为何还要开发“又一个”这样的工具呢？

助力“单兵作战”的创意实现

我们相信，开发者们总能迸发出天马行空的想法，而我们的目标就是降低他们实现这些想法的门槛。refinery旨在大幅加速标注数据的构建过程，让你只需花费极少的时间就能完成一个想法的原型验证。正因为这一点，refinery受到了广泛的好评。不妨在下一个项目中亲自试一试吧。

扩展现有的标注方法

refinery 不仅仅是一个标注工具。它内置了标注编辑器，但其主要优势在于自动化和数据管理功能。你可以集成任何启发式规则，以自动标注尽可能多的内容，随后再专注于那些棘手的子集。无论你是在 refinery 中进行标注，还是使用其他工具（甚至是众包标注），这都无关紧要！

为非结构化数据赋予结构

refinery 是一款能为你的数据带来全新视角的工具。你在处理多语言的人工撰写文本吗？通过与 bricks 的集成，你可以轻松地为文本添加元数据，例如检测到的语言、句子复杂度等众多信息。这些元数据既可用于数据分析，也可用于编排你的标注工作流。

推动协作

在此过程中，我们的目标是提升工程师与领域专家（SME）之间的协作效率。过去，我们曾看到客户在会议中利用我们的应用讨论标注模式，形式包括标注函数和远程监督等。我们相信，以数据为中心的AI正是充分发挥协作优势的最佳途径。

开源，并将训练数据视为软件构件

我们不认同目前仍有许多场景中，训练数据仅仅是一份普通的CSV文件。如果你确实只是想快速用少量数据原型化一个想法，这样也无妨；但任何严肃的软件项目都应当具备可维护性。我们认为，解决这一问题的关键在于开源的训练数据管理方案。refinery 正是帮助你记录和管理数据的工具，从而将训练数据视作一种软件构件。

集成

最后，refinery 支持 SDK操作，例如数据的拉取和推送。以数据为中心的AI重新定义了标注流程，使其不再是一次性的任务，而是具有迭代性质的工作流。因此，我们致力于通过提供端到端的能力，不断提升你的工作效率，推动大规模高质量训练数据的可用性。你可以使用我们的SDK，与现有系统进行集成。

您的收益

你可以自动化大量重复性任务，更深入地洞察数据标注流程，获得关于训练数据的隐式文档，并最终在更短的时间内构建出更好的模型。

我们的目标是让训练数据的构建过程更像一项程序化且令人愉悦的任务，而非繁琐而重复的工作。refinery 正是我们为此做出的贡献。我们也始终致力于不断改进这一贡献。

如果你喜欢我们的工作，请为我们点亮一颗星⭐！

如果 refinery 是开源的，Kern AI 如何盈利呢？

这个问题我们经常被问到——而且确实是个合理的问题 🙂 简而言之，refinery 的开源版本目前仅支持单用户使用，而通过我们的商业版，你可以获得多用户环境的支持。此外，我们还在 refinery 的基础上推出了商业产品，例如将 refinery 的自动化能力作为实时预测API来使用。

总的来说，我们对开源充满热情，并希望尽最大努力做出贡献。

🤓 功能特性

如需了解详细的功能列表，请参阅我们的文档。

（半）自动化NLP任务标注工作流

支持分类和跨度标注的纯手动及程序化方式
与最先进的一系列库和框架无缝集成
可创建和管理查找表/知识库，以辅助标注
基于神经网络搜索的相似记录与异常值检索
标注会话可切片，便于深入分析特定子集
单个项目中可同时进行多项标注任务
在我们的开源 bricks 库中提供了丰富的现成自动化工具

丰富的数据管理和监控功能

通过我们的数据浏览器实现一流的数据管理能力。你可以按置信度、启发式重叠程度、用户、备注等条件对数据进行筛选、排序和搜索。
与 🤗 Hugging Face 集成，自动创建文档级和标记级嵌入。
基于JSON的数据模型，支持数据的上传和下载。
提供项目指标概览，包括置信度分布、标签分布以及混淆矩阵。
数据可通过我们的 Python SDK 进行访问和扩展。
支持就地修改属性，例如添加句子复杂度指标。
同样，你也可以使用 bricks 为数据添加更多元数据。

团队工作空间（托管版）

允许多个用户基于角色权限和精简的标注界面共同标注数据。
可集成众包标注流程。
自动计算标注者间一致性指标。

☕ 安装说明

通过pip安装

pip install kern-refinery

安装完成后，进入你希望存储数据的目录并运行 refinery start。如果尚未克隆仓库，该命令会先自动执行 git clone。要停止服务，只需运行 refinery stop。

从仓库直接安装

简要步骤：

$ git clone https://github.com/code-kern-ai/refinery.git
$ cd refinery

如果你使用的是Mac或Linux系统：

$ ./start

如果是Windows系统：

$ start.bat

要停止服务，输入 ./stop（Mac/Linux）或 stop.bat。

refinery 由多个服务组成，需要协同运行。为此，我们准备了一个启动脚本，它可以自动拉取并连接各个服务。该脚本包含在仓库中，你只需克隆仓库，然后在仓库目录下运行 ./start（Mac/Linux）或 start.bat（Windows）。等待几分钟后（不妨趁机泡杯咖啡☕），部署完成，你就可以在浏览器中访问 http://localhost:4455。要停止服务，运行 ./stop（Mac/Linux）或 ./stop.bat（Windows）。

现在你已经可以开始使用了！ 🙌 🎉

如果在安装过程中遇到任何问题，请随时联系我们（详见下方的社区部分）。

数据持久化

默认情况下，数据会存储在 refinery/postgres-data 目录下。如果你想更改存储路径，需要修改操作系统 start 脚本中的 LOCAL_VOLUME 变量。若需删除数据，只需直接删除该数据目录即可。请务必确认不再需要这些数据后再进行删除，因为此操作不可逆！

📘 文档与教程

开始使用 refinery 的最佳方式是我们的快速入门。

您可以在我们的文档以及 YouTube 频道上的教程中找到详尽的指南。我们还准备了一个包含示例项目的仓库，您可以直接克隆。

如果您在编写第一个标注函数时需要帮助，可以查看我们的开源内容库 bricks。

我们的变更日志可以在这里找到：changelog.kern.ai。

😵‍💫 需要帮助吗？

别担心，我们随时为您提供支持。如果您有任何疑问，请通过 Discord 联系我们，或者在我们的论坛“问答”分类下提交工单。

🪢 社区与联系方式

欢迎加入我们的 Discord，在那里我们将很乐意帮助您构建训练数据：

我们每周（大致）会发送一封关于以数据为中心的人工智能最新发现、产品开发亮点等内容的简报。您可以通过此链接订阅简报：www.kern.ai/newsletter。

此外，您还可以关注我们在 Twitter 和 LinkedIn 上的账号。

🙌 贡献

贡献使开源社区成为一个令人惊叹的学习、启发和创造之地。您的任何贡献都将受到高度赞赏。您可以通过提供关于可能发现的期望功能和 bug的反馈来参与其中。

如果您希望积极参与代码库的扩展，请联系我们。我们会向您解释架构的设置方式，以便您可以根据自己的需求自定义应用程序。

❓ 常见问题解答

概念相关问题

什么是启发式方法？

启发式方法是规模化数据标注的核心要素。它们不必达到 100% 的准确率，例如，简单的 Python 函数就可以表达领域知识。当您添加并运行多个启发式方法时，会生成所谓的“噪声标签矩阵”，该矩阵会与您手动标注的参考数据进行比对。这使我们能够分析相关性、冲突、重叠情况、数据集中的命中次数，以及每个启发式方法的准确度。

如何构建主动学习模型？

我们首先使用预训练模型来创建嵌入表示。一旦完成，这些嵌入就会在应用中可用（既可用于构建主动学习启发式方法，也用于神经搜索）。在我们的主动学习 IDE 中，您可以在嵌入之上构建一个简单的分类或抽取头，随后我们会在一个容器化环境中管理其执行。

我如何判断我的启发式方法是否有效？

启发式方法可以从覆盖度和精确度两个方面来评估其优劣。对于覆盖度而言，基本上没有限制；而对于精确度，我们通常建议保持在 70% 以上，具体数值取决于您拥有的启发式方法数量。启发式方法越多，重叠和冲突的情况就越明显，弱监督的效果也就越好。

我的数据量不足 1,000 条——还需要用这个工具吗？

当然，即使是较小的数据集也可以使用这套系统！它不仅在程序化标注方面表现出色，还拥有简洁美观的用户界面。不妨试试吧 😁

技术相关问题

救命！我忘记密码了！

别担心，即使在本地机器上也能发送重置链接。不过，该链接不会发送到您的邮箱，而是发送到 mailhog。您可以通过 http://localhost:4436 访问它。

我想为我的标注函数安装一个库

为此，我们需要修改用于标注函数容器化执行环境的 lf-exec-env 中的 requirements.txt 文件。请直接在 GitHub 上提交一个问题,我们会尽快将您的库集成进去。

支持哪些数据格式？

我们的数据格式以 JSON 为核心，因此您可以原生上传大多数文件类型。这包括电子表格、文本文件、CSV 数据、通用 JSON 等等。

如何上传数据？

内部我们使用 pandas 将您的数据与我们的基于 JSON 的数据模型进行匹配。您可以通过我们的 UI 或 Python SDK 上传数据。

如何下载数据？数据是什么格式？

您可以在我们的 UI 中或通过 Python SDK 下载数据。我们还提供了与 Rasa 等框架的适配器。导出的数据格式大致如下：

[
    {
        "running_id": "0",
        "headline": "T. Rowe Price (TROW) Dips More Than Broader Markets",
        "date": "Jun-30-22 06:00PM\u00a0\u00a0",
        "headline__sentiment__MANUAL": null,
        "headline__sentiment__WEAK_SUPERVISION": "NEGATIVE",
        "headline__sentiment__WEAK_SUPERVISION__confidence": 0.62,
        "headline__entities__MANUAL": null,
        "headline__entities__WEAK_SUPERVISION": [
            "STOCK", "STOCK", "STOCK", "STOCK", "STOCK", "STOCK", "O", "O", "O", "O", "O"
        ],
        "headline__entities__WEAK_SUPERVISION__confidence": [
            0.98, 0.98, 0.98, 0.98, 0.98, 0.98, 0.00, 0.00, 0.00, 0.00, 0.00
        ]
    }
]

服务与托管问题

是否有企业本地部署的解决方案选项？

如果您有兴趣在本地运行多用户版本，请联系我们。我们可以帮助您完成部署，并通过工作坊等方式为您的项目做好准备。

我不想亲自进行标注，我有哪些选择？

您是否希望将标注工作外包出去，让您的工程师使用 _refinery_ 作为训练数据的任务控制中心？请联系我们,以便我们讨论如何根据您的用例为您提供支持。

我该如何联系技术支持？

在我们的开源解决方案中，您可以透过Discord与我们取得联系。而对于我们的托管版本，则提供应用内聊天功能，方便您直接联系我们的支持团队。

🐍 Python SDK

您可以通过使用我们的Python SDK来扩展您的项目。借助它，您可以轻松地以编程方式或通过命令行（rsdk pull 和 rsdk push <file_name>）导出当前项目的已标注数据并导入新文件。此外，它还配备了适配器，例如用于Rasa的适配器。

🏠 架构

我们的架构遵循以下主要模式：

共享的服务数据库，用于高效传输大量数据。为了避免各服务中的代码冗余，我们使用子模块来共享数据模型。
容器化的函数执行环境，用于标注函数、主动学习和记录 IDE。
机器学习逻辑被实现为独立的库（例如sequence-learn）。

Architecture _refinery_

为简化起见，部分边线未显示。
边线的颜色并无特殊含义，仅是为了提高可读性。

服务概览（由 Kern AI 维护）

服务	描述
ml-exec-env	主动学习模块的执行环境。容器化的函数即服务，用于利用 scikit-learn 和 sequence-learn 构建主动学习模型。
embedder	refinery 的嵌入器。管理使用 embedders 库创建文档级和标记级嵌入的过程。
weak-supervisor	refinery 的弱监督模块。管理启发式方法的集成，如标注函数、主动学习器或零样本分类器。实际的集成逻辑和算法则由 weak-nlp 库负责。
record-ide-env	记录 IDE 的执行环境。容器化的函数即服务，用于构建针对特定记录的“快速且粗糙”的代码片段，以供探索和调试使用。
config	refinery 的配置服务。其中包括管理 spaCy 的端点及可用的语言模型等。
tokenizer	refinery 的分词器。管理基于文本的记录属性的 spaCy 分词结果的创建与存储，并支持多种语言模型。
gateway	refinery 的网关。负责管理传入请求并掌控工作流逻辑。可通过 UI 或 Python SDK 与网关交互。
authorizer	评估用户是否具有访问特定资源的权限。
websocket	refinery 的 WebSocket 模块。支持应用内的异步通知功能。
lf-exec-env	标注函数的执行环境。容器化的函数即服务，用于执行用户自定义的 Python 脚本。
ac-exec-env	属性计算的执行环境。容器化的函数即服务，用于通过 Python 脚本生成新的属性。
updater	refinery 的更新服务。必要时管理向新版本的迁移逻辑。
neural-search	refinery 的神经网络搜索模块。管理基于 Qdrant 的相似度搜索以及异常检测功能，两者均基于项目记录的向量表示。
zero-shot	refinery 的零样本模块。允许将 🤗 Hugging Face 的零样本分类器作为现成的无代码启发式方法集成进来。
entry	refinery 的登录与注册页面。由 Ory Kratos 实现。
ui	refinery 的用户界面。用于与整个系统交互；如需了解如何更好地使用该系统，请查阅我们的文档。
doc-ock	refinery 的使用统计收集模块。在用户允许的情况下，会收集产品洞察数据，用于优化用户体验。
gateway-proxy	refinery 的网关代理。管理传入请求并将它们转发至网关。由 Python SDK 使用。
parent-images	refinery 共享的镜像。用于减少 refinery 所需的存储空间。尚未列入架构图中
ac-exec-env	refinery 中属性计算的执行环境。容器化的函数即服务，用于从原始数据中派生自定义属性。尚未列入架构图中
alfred	控制 refinery 应用程序的启动流程。以蝙蝠侠的管家阿尔弗雷德命名。尚未列入架构图中

服务概览（开源第三方）

服务	描述
qdrant/qdrant	Qdrant - 面向下一代AI应用的向量搜索引擎
postgres/postgres	PostgreSQL：全球最先进的开源关系型数据库
minio/minio	多云 ☁️ 对象存储
mailhog/MailHog	基于Web和API的SMTP测试
ory/kratos	新一代身份认证服务器（类似Auth0、Okta、Firebase），具备Ory强化的身份验证、多因素认证、FIDO2、TOTP、WebAuthn、个人资料管理、身份模式、社交登录、注册、账户恢复及无密码登录等功能。采用Go语言开发，无前端界面，仅提供API接口，无需处理模板或主题问题。也可作为云服务使用。
ory/oathkeeper	一款云原生的身份与访问代理/IAP及访问控制决策API，能够对传入的HTTP(s)请求进行身份验证、授权和修改。灵感来源于BeyondCorp/零信任白皮书，使用Go语言编写。

集成概览（由Kern AI维护）

集成	描述
refinery-python	Kern AI refinery 的官方Python SDK。
sequence-learn	使用sequence-learn，您可以像构建sklearn分类器一样快速搭建命名实体识别模型。
embedders	通过embedders，您只需几行代码即可轻松将文本转换为句子级或词元级别的嵌入表示。应用场景包括文本间的相似性搜索、信息抽取（如命名实体识别）以及基础文本分类等。集成 🤗 Hugging Face 转换器模型。
weak-nlp	使用weak-nlp，您可以整合基于弱监督的启发式方法，例如标签函数和主动学习算法。实现数据标注自动化并提升标签质量。

集成概览（开源第三方）

集成	描述
huggingface/transformers	🤗 Transformers：面向PyTorch、TensorFlow和JAX的最先进机器学习框架。
scikit-learn/scikit-learn	scikit-learn：Python中的机器学习工具库。
explosion/spaCy	💫 Python中的工业级自然语言处理（NLP）。

子模块概览

未在架构图中列出，但为了内部代码管理，我们采用了Git子模块。

子模块	描述
submodule-model	refinery的数据模型。管理多个服务（例如网关）所需的实体及其访问权限。
submodule-s3	与S3相关的AWS和Minio逻辑。

🏫 术语表

术语	含义
弱监督	一种技术/方法论，用于整合各种噪声大、不完善的启发式规则，如标签函数。它不仅可以用来自动化数据标注，还可以作为一种通用的方法来提升现有标签的质量。
神经搜索	基于嵌入的检索方法；神经搜索不是向机器输入一组约束条件，而是分析数据的向量空间（通过预训练的神经网络编码）。可用于寻找最近邻等场景。
主动学习	在人工标注数据的同时，持续训练模型以辅助标注人员。既可独立使用，也可作为弱监督的一种启发式方法。
向量编码（嵌入）	利用来自🤗 Hugging Face的预训练模型（如Transformer），可以将文本转换为向量空间表示。这既有助于神经搜索，也有助于主动学习（在后一种情况下，可以在嵌入之上应用简单的分类器，从而实现基于向量表示的快速再训练）。

术语表中是否遗漏了某些内容？请在带有“enhancement”标签的议题中添加该术语。

👩‍💻👨‍💻 团队与贡献者

_{亨里克·文克}	_{约翰内斯·赫特尔}	_{安东·普勒姆}	_{莉娜·伦布罗夫斯卡}	_{莫里茨·费尔普法伊尔}	_{利奥·普特曼}	_{西蒙·德格拉夫}
_{菲利克斯·基尔希}	_{延斯·维特迈耶}	_{米哈伊尔·科奇科夫}	_{西蒙·维茨克}	_{沙曼斯·谢蒂}	_{迪万舒·卡蒂亚尔}

🌟 星标历史

📃 许可证

refinery 采用 Apache License, Version 2.0 许可证。请查看许可证文件。

Refinery 快速上手指南

Refinery 是一款开源的自然语言数据管理工具，旨在帮助数据科学家以“数据为中心”的方式扩展、评估和维护训练数据。它将训练数据视为软件工件，支持半自动标注、低质量数据子集发现以及统一的数据监控。

环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows (推荐 WSL2)
Python 版本：Python 3.8 或更高版本
包管理器：pip
网络环境：首次运行时需联网下载依赖及克隆仓库（国内用户若遇网络问题，建议配置全局代理或使用镜像源）

安装步骤

1. 安装核心库

使用 pip 安装 kern-refinery 包。国内用户推荐使用清华或阿里镜像源以加速下载：

pip install kern-refinery -i https://pypi.tuna.tsinghua.edu.cn/simple

2. 启动服务

安装完成后，进入您希望存储数据的目录，执行以下命令启动 Refinery 服务：

refinery start

注意：如果是首次运行，该命令会自动执行 git clone 克隆必要的仓库资源。请确保当前目录具有写入权限且网络连接正常。

3. 停止服务

如需停止本地服务器，请在终端运行：

refinery stop

基本使用

启动成功后，Refinery 将在本地运行一个 Web 应用。

访问界面：打开浏览器，访问默认地址： http://localhost:8080 (注：具体端口号请以终端启动日志输出为准)
创建项目：
- 在仪表盘点击 "Create Project"。
- 选择任务类型（如文本分类 Classification 或跨度标注 Span-labeling）。
- 上传您的数据集（支持 JSON 格式，或通过 Python SDK 导入）。
半自动标注工作流：
- 启发式标注：利用内置的 "Bricks" 库或编写简单的规则函数，对数据进行批量预标注。
- 人工修正：进入标注编辑器，系统会优先展示低置信度或存在冲突的样本，供您进行人工校验和修正。
- 数据监控：在 "Data Browser" 中通过置信度、标签分布等指标过滤和查看数据质量。
导出数据：标注完成后，可通过界面导出高质量的训练数据（JSON 格式），或使用 Python SDK 将数据推送到您的模型训练流水线中。

更多高级功能（如团队协作、自定义自动化脚本、API 集成）请参考官方文档：https://docs.kern.ai

版本历史

v1.15.02024/06/13

v1.14.02024/04/18

v1.13.12024/03/15

v1.12.02023/09/20

v1.11.02023/07/10

v1.10.12023/05/11

v1.10.02023/05/10

v1.9.22023/05/02

v1.9.12023/04/17

v1.9.02023/03/23

v1.8.02023/02/16

v1.7.12022/12/16

v1.7.02022/12/12

v1.6.02022/11/21

v1.5.02022/11/02

v1.4.02022/10/13

v1.3.32022/09/29

v1.3.22022/09/28

v1.3.12022/09/28

v1.3.02022/09/27

常见问题

在 Windows 上自托管部署时，创建新项目无法上传文件且无报错，可能是什么原因？

导出记录数据时卡在 "Prepare Download"（准备下载）状态不动怎么办？

分类任务的弱学习器（Weak Learners）是否支持同时使用多个输入特征？

如何将数据导出为 Label Studio 格式以便导入？

如何在执行环境（Execution Environments）中添加自定义的 Python 库（如 langdetect, spacy 等）？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 160.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架