Data-Labeling

GitHub
696 104 较难 1 次阅读 1周前GPL-3.0数据工具
AI 解读 由 AI 自动生成,仅供参考

Data-Labeling 是一款专注于文本数据处理与标注的开源工具,旨在解决传统人工标注成本高、效率低及标准不统一的痛点。它创新性地构建了“人工构建基础 - 算法自动反哺 - 人工纠偏校准”的闭环工作流:用户先通过快捷键和组合键高效完成初始标注,系统随即利用全局算法汇聚多组结果并自动预标注,最后由人员对偏差进行修正。这种人机协作模式不仅大幅减少了重复劳动,还通过持续迭代显著提升了标注精准度。

该工具特别适合需要构建高质量训练数据集的 AI 开发者、自然语言处理研究人员以及涉及政务、司法等垂直领域的数字化团队。其独特亮点在于支持动态的全局算法校准,能实时同步多人协作成果以避免重复工作;同时,项目定期释放经人工纠偏的行业词库(如专有词汇、司法条例等),帮助分词器更精准地识别中文新生词与组合词。基于 Spring Boot 与 Vue 3 构建,Data-Labeling 提供了从文章导入、智能验证到日志追溯的一站式解决方案,是提升数据资产价值的得力助手。

使用场景

某政务大数据中心正在构建“政策智能问答系统”,急需对数万份历史政务公开文章进行实体识别与关键词标注,以训练专属的 NLP 模型。

没有 Data-Labeling 时

  • 人工效率低下:标注员只能依靠肉眼逐字阅读文档,手动复制粘贴关键词,处理一份长文档耗时极长,项目周期严重滞后。
  • 标准难以统一:多名标注员对同一政策术语的理解存在偏差,导致标注结果不一致,后期需花费大量时间进行人工复核与清洗。
  • 重复劳动严重:不同小组间信息隔离,相同的词汇在不同文章中需重复标注,无法利用已有的标注成果,造成人力资源浪费。
  • 缺乏算法辅助:完全依赖纯人工操作,无法通过历史数据反哺新任务,随着数据量增加,边际成本不降反升。

使用 Data-Labeling 后

  • 快捷键大幅提升速度:利用自定义快捷键、右键菜单及组合键功能,标注员可秒级完成关键词框选,单篇文档处理时间缩短 70%。
  • 全局校准确保一致性:系统实时汇聚多组标注结果并展示全局综合视图,标注员仅需对算法推荐结果进行纠偏,确保了术语标准的统一性。
  • 智能反哺减少重复:基于已构建的行业词库和自动标注算法,系统能自动识别并预标注常见政务词汇,人工只需专注于新生词和复杂语境。
  • 闭环迭代持续优化:通过“人工构建基础 - 自动标注反哺 - 人工纠偏”的闭环流程,随着数据积累,算法精度持续提升,长期标注成本显著降低。

Data-Labeling 通过人机协同的动态反馈机制,将原本高成本、低效的文本标注工作转化为可自我进化的智能化生产流程。

运行环境要求

操作系统
  • 未说明 (信创兼容适配提及统信
  • 麒麟等国产操作系统,以及常规 Linux/Windows 环境所需的 Tomcat/JDK)
GPU

未说明

内存

未说明

依赖
notes该项目为 Java (Spring Boot) + Vue 前后端分离架构,非 Python AI 模型直接运行环境。核心依赖包括 JDK 11、Elasticsearch 7.9+ 和 Nacos。项目强调对国产信创环境(如达梦/人大金仓数据库、麒麟/统信操作系统、ARM/MIPS 芯片)的兼容适配。需依赖‘数字底座’(y9-core) 项目进行人员岗位管控。
python不适用 (后端基于 Java)
JDK 11
Spring Boot 2.7.10
Vue 3.3.2
Elasticsearch 7.9+
Nacos 2.2.1
Tomcat 9.0+
Element Plus 2.2.29
Vite 2.9.13
Data-Labeling hero image

快速开始

logo

star logo

简介

数据标注是一款专门对文本数据进行处理和标注的工具,通过简化快捷的文本标注流程和动态的算法反馈,支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构建基础,再由自动标注反哺人工标注,最后由人工标注进行纠偏,从而大幅度提高标注的精准度和高效性。数据标注需要依赖开源的数字底座进行人员岗位管控。

源码目录

vue -- 前端工程
 ├── y9vue-tokenizer -- 数据标注前端工程
webapp -- 系统模块
 ├── risenet-y9boot-webapp-tokenizer -- 数据标注后端工程

数据标注功能架构图

数据标注应用架构图

产品特点

高效标注

针对文章和文本,数据标注利用各种标识、快捷键、组合键、分类方法来提高标注的效率并减少标注错误率。

全局算法校准

在多组同时标注的情况下,数据标注会汇聚全部的标注结果,从而减少重复标注的工作量。通过全局校准的方法,标注人员可以看到全局当前对于文章的自动标注结果,从而只需要对结果纠偏即可。

行业词库

针对数据标注的结果,本项目会定期释放各类、各行业以txt形式存储的经过人工纠偏的标注结果,从而帮助AI和分词器更精准地识别中文词汇里面不断的新生词汇和组合词汇。

功能描述

序 号 特 点  名 称 特点描述
1 添加文章 通过本地导入或者批量导入的方式添加文章,同时可以根据文章类型进行必要的分类。
2 文章筛选 根据文章类型和顺序编号进行筛选。
3 导出分词 支持将全部已经完成的分词和标注进行一次性的导出。本功能以压txt的形式导出文件。
4 标注结果 通过红色方框显示最终的人工标注结果。此结果为全局的人工标注的综合结果,而非单人单文章的标注结果。
5 标注操作 支持以快捷键、右键、组合键等方式确认标注,同时支持在页面或者快捷键的方式删除已经标注的词汇。
6 标注状态 包含“全部标注”、“标注中”、“未标注”、“已标注”共计四种状态,可以根据状态、序号、文章分类进行筛选。
7 标注验证 利用分词器和已具备的全局综合分词能力进行一次标注验证,检查是否有遗漏的标注语料,也可以检验全局综合分词能力是否有偏颇。标注验证以下划线和波浪线的方式区别邻近的名词。
8 标注日志 在单个文章中查看已经完成的标注操作日志。

数据资产

1. 行业领域专有词汇

2. 政务公开文章词汇

3. 司法案件观点条例

4. 数据库分类题目库

5. 算法库(来自“山东国家应用数学中心”)

后端技术选型

序号 依赖 版本 官网
1 Spring Boot 2.7.10 官网
2 SpringDataJPA 2.7.10 官网
3 nacos 2.2.1 官网
4 druid 1.2.16 官网
5 Jackson 2.13.5 官网
6 javers 6.13.0 官网
7 lombok 1.18.26 官网
8 logback 1.2.11 官网

前端技术选型

序号 依赖 版本 官网
1 vue 3.3.2 官网
2 vite2 2.9.13 官网
3 vue-router 4.0.13 官网
4 pinia 2.0.11 官网
5 axios 0.24.0 官网
6 typescript 4.5.4 官网
7 core-js 3.20.1 官网
8 element-plus 2.2.29 官网
9 sass 1.58.0 官网
10 animate.css 4.1.1 官网
11 vxe-table 4.3.5 官网
12 echarts 5.3.2 官网
13 svgo 1.3.2 官网
14 lodash 4.17.21 官网

中间件选型

序号 工具 版本 官网
1 JDK 11 官网
2 Tomcat 9.0+ 官网

数据库选型

序号 工具 版本 官网
1 elasticsearch 7.9+ 官网

信创兼容适配

序号 类型 对象
1 浏览器 奇安信、火狐、谷歌、360等
2 插件 金山、永中、数科、福昕等
3 中间件 东方通、金蝶、宝兰德等
4 数据库 人大金仓、达梦、高斯等
5 操作系统 统信、麒麟、中科方德等
6 芯片 ARM体系、MIPS体系、X86体系

文档专区

开发文档:https://docs.youshengyun.com/

序号 名称
1 内部Java开发规范手册
2 日志组件使用文档
3 文件组件使用文档
4 代码生成器使用文档
5 配置文件说明文档
6 常用工具类使用示例文档
7 前端开发手册
8 前端开发规范
9 前端代码格式化
10 前端系统组件
11 前端通用方法
12 前端国际化
13 前端Icon图标
14 单点登录对接文档
15 分词器安装部署文档
16 分词器操作手册

数据标注截图

依赖开源项目

序 号 项 目  名 称 项目介绍 地 址
1 数字底座 数字底座是一款面向大型政府、企业数字化转型,基于身份认证、组织架构、岗位职务、应用系统、资源角色等功能构建的统一且安全的管理支撑平台。数字底座基于三员管理模式,具备微服务、多租户、容器化和国产化,支持用户利用代码生成器快速构建自己的业务应用,同时可关联诸多成熟且好用的内部生态应用 码云 GitHub

赞助与支持

中关村软件和信息服务产业创新联盟

官网:https://www.zgcsa.net

北京有生博大软件股份有限公司

官网:https://www.risesoft.net/

统一标识代码注册管理中心

官网:https://www.idcode.org.cn/

数字底座已经全面接入统一标识码(MA码),具体使用说明请查看:https://gitee.com/risesoft-y9/y9-core/tree/main/y9-digitalbase-idcode

中国城市发展研究会

官网:https://www.china-cfh.com/

济南亚跃信息技术有限公司

官网:https://www.yayueyun.com/yayueOwe

北京京畿法律咨询有限公司

联系人:邱先生

邮箱:bjbj7@qq.com

山东国家应用数学中心

官网:http://www.sdam.sdu.edu.cn/

咨询与合作

联系人:曲经理

微信号:qq349416828

备注:开源咨询-姓名

联系人:有生博大-咨询热线

座机号:010-86393151

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85.3k|★★☆☆☆|今天
图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理(NLP)打造的超级资源库,被誉为"NLP 民工的乐园”。它并非单一的软件工具,而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。 面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点,funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具,还独特地收录了丰富的垂直领域资源,如法律、医疗、金融行业的专用词库与数据集,甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性,从基础的字典词典到前沿的 BERT、GPT-2 模型代码,再到高质量的标注数据和竞赛方案,应有尽有。 无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师,还是从事人工智能研究的学者,都能在这里找到急需的“武器弹药”。对于开发者而言,它能大幅减少寻找数据和复现模型的时间;对于研究者,它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神,极大地降低了中文自然语言处理的开发与研究成本,是中文 AI 社区不可或缺的宝藏仓库。

79.9k|★☆☆☆☆|1周前
语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单,旨在为自学者提供系统化的学习路径。它汇集了全球知名高校(如加州大学伯克利分校、新南威尔士大学等)的完整课程录像,涵盖从编程基础、数据结构与算法,到操作系统、分布式系统、数据库等核心领域,并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。 面对网络上零散且质量参差不齐的教学资源,cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容,仅收录真正的大学层级课程,排除了碎片化的简短教程或商业广告,确保用户能接触到严谨的学术内容。 这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员,以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽,不仅包含传统的软件工程与网络安全,还细分了生成式 AI、大语言模型、计算生物学等新兴学科,并直接链接至官方视频播放列表,让用户能一站式获取高质量的教育资源,免费享受世界顶尖大学的课堂体验。

79.8k|★☆☆☆☆|1周前
其他图像数据工具

lobehub

LobeHub 是一个致力于工作与生活的智能体协作平台,旨在帮助用户发现、构建并与不断成长的 AI 智能体队友协同工作。它解决了当前 AI 应用中单点交互效率低、难以形成规模化协作网络的问题,将“智能体”确立为工作的基本单元,让人类与 AI 能够共同进化。 无论是开发者、研究人员还是普通用户,都能通过 LobeHub 轻松设计多智能体协作流程。平台支持一键安装 MCP 插件、访问丰富的智能体市场,并提供本地与云端数据库管理、多用户协作等高级功能。其独特的技术亮点包括对多种大模型服务商的兼容、本地大模型部署支持、视觉识别、语音对话(TTS/STT)、文生图以及思维链(Chain of Thought)等能力。此外,LobeHub 还具备分支对话、工件生成、文件上传与知识库集成等实用特性,并适配桌面端、移动端及 PWA 场景,支持自定义主题。 通过开源与自托管选项,LobeHub 为构建人机共演的未来协作网络提供了灵活、可扩展的基础设施。

75.1k|★★☆☆☆|5天前
语言模型数据工具Agent

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库,依托于 SciPy、NumPy 等科学计算生态,旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口,涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具,内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。 对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言,scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点,让用户无需重复造轮子,只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。 其核心技术亮点在于高度一致的 API 设计风格,所有估算器(Estimator)均遵循相同的调用逻辑,极大地降低了学习成本并提升了代码的可读性与可维护性。此外,它还提供了强大的模型选择与评估工具,如交叉验证和网格搜索,帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目,scikit-learn 以其稳定性、详尽的文档和活跃的社区支持,成为连接理论学习与工业级应用的最

65.9k|★☆☆☆☆|今天
开发框架其他数据工具