inltk

GitHub
839 160 简单 1 次阅读 2个月前MIT数据工具开发框架语言模型
AI 解读 由 AI 自动生成,仅供参考

inltk(Indic Languages Natural Language Toolkit)是一个专为印度语言设计的开源自然语言处理工具库。它致力于解决开发者在处理印地语、泰米尔语、孟加拉语等十余种印度本土语言,以及“印英混合语”(如 Hinglish、Tanglish)时面临的资源匮乏与技术门槛高的问题。

过去,针对这些语言的 NLP 任务往往需要研究人员从头训练模型或收集稀缺数据,而 inltk 提供了“开箱即用”的解决方案。用户只需几行代码,即可轻松实现文本分类、语言建模、词向量生成等常见任务,无需深入复杂的底层算法细节。该工具基于 ULMFiT 和 TransformerXL 等先进架构构建了预训练模型,并在 EMNLP-2020 学术会议上发表了相关论文,确保了技术的可靠性与前沿性。

inltk 非常适合应用开发者、数据科学家以及语言学研究人员使用。对于希望快速在产品中集成多语言功能的工程师,它是高效的加速器;对于专注于低资源语言研究的学者,它则提供了宝贵的基准模型与数据集支持。通过简化复杂流程,inltk 让印度语言的自然语言处理变得更加普及和便捷。

使用场景

一家初创电商公司希望分析印度各邦用户在社交媒体上留下的混合语言评论,以优化本地化营销策略。

没有 inltk 时

  • 开发团队需为印地语、泰米尔语等十几种印度语言分别寻找或训练独立的 NLP 模型,数据收集与清洗耗时数周。
  • 面对"Hinglish"(印地语 + 英语)或"Tanglish"(泰米尔语 + 英语)这类常见的代码混合文本,通用英文工具完全无法识别,导致大量用户反馈被误判或直接丢弃。
  • 缺乏统一的接口标准,工程师需要编写大量胶水代码来适配不同语言的预处理逻辑,维护成本极高且容易出错。
  • 情感分析准确率低下,因为预训练模型未能捕捉到印度本土语言的语境特征,导致营销决策基于错误的数据洞察。

使用 inltk 后

  • 通过 inltk 开箱即用的支持,团队一行代码即可加载涵盖印地语、孟加拉语等原生语言及多种混合语言的高质量预训练模型,项目启动时间从数周缩短至几天。
  • 针对 Hinglish 和 Manglish 等混合语言场景,inltk 提供了专门优化的模型,能够精准分词并理解语义,使原本无效的混合文本数据利用率提升至 100%。
  • 所有语言任务(如文本分类、嵌入生成)均通过统一的 API 调用,大幅简化了架构设计,开发人员可专注于业务逻辑而非底层模型适配。
  • 基于 EMNLP 论文验证的高精度模型,情感分析结果准确反映了各地用户的真实态度,帮助产品团队成功推出了针对性的区域促销活动。

inltk 通过提供专为印度语言生态设计的统一 NLP 基础设施,彻底消除了多语言处理的技术壁垒,让开发者能高效挖掘南亚市场的巨大数据价值。

运行环境要求

操作系统
  • 未说明
GPU

未说明

内存

未说明

依赖
notesREADME 提供的片段中未包含具体的运行环境需求(如操作系统、GPU、内存、Python 版本及依赖库)。文档指引用户访问 https://inltk.readthedocs.io 查看详细的安装说明。该工具主要支持多种印度语言(如印地语、孟加拉语等)及其混合语言的 NLP 任务,底层模型涉及 ULMFiT 和 TransformerXL。
python未说明
未说明
inltk hero image

快速开始

印度语言自然语言工具包(iNLTK)

Gitter 下载量

iNLTK 致力于为印度语言的应用开发者提供开箱即用的各种自然语言处理任务支持。iNLTK 库的相关论文已被 EMNLP-2020 的 NLP-OSS 工作坊接收。论文链接如下:link to the paper

文档

请访问 https://inltk.readthedocs.io 查看详细的文档及安装说明。

支持的语言

母语

语言 语言代码
印地语 hi
旁遮普语 pa
古吉拉特语 gu
卡纳达语 kn
马拉雅拉姆语 ml
奥里亚语 or
马拉地语 mr
孟加拉语 bn
泰米尔语 ta
乌尔都语 ur
尼泊尔语 ne
梵语 sa
英语 en
泰卢固语 te

混合语

语言 文字系统 语言代码
英印语(印地语+英语) 拉丁字母 hi-en
英泰语(泰米尔语+英语) 拉丁字母 ta-en
英马拉语(马拉雅拉姆语+英语) 拉丁字母 ml-en

iNLTK 中使用的模型仓库

语言 仓库 用于语言建模的数据集 ULMFiT LM 的困惑度
(在验证集上)
TransformerXL LM 的困惑度
(在验证集上)
用于分类的数据集 分类:
测试集准确率
分类:
测试集 MCC
分类:可复现的笔记本 ULMFiT 嵌入可视化 TransformerXL 嵌入可视化
印地语 印地语自然语言处理 印地语维基百科文章 - 17.2万篇


印地语维基百科文章 - 5.5万篇
34.06


35.87
26.09


34.78
BBC 新闻文章


IIT Patna 电影评论


IIT Patna 产品评论
78.75


57.74


75.71
0.71


0.37


0.59
笔记本


笔记本


笔记本
印地语嵌入投影 印地语嵌入投影
孟加拉语 孟加拉语自然语言处理 孟加拉语维基百科文章 41.2 39.3 孟加拉语新闻文章 (Soham 文章) 90.71 0.87 笔记本 孟加拉语嵌入投影 孟加拉语嵌入投影
古吉拉特语 古吉拉特语自然语言处理 古吉拉特语维基百科文章 34.12 28.12 iNLTK 标题语料库 - 古吉拉特语 91.05 0.86 笔记本 古吉拉特语嵌入投影 古吉拉特语嵌入投影
马拉雅拉姆语 马拉雅拉姆语自然语言处理 马拉雅拉姆语维基百科文章 26.39 25.79 iNLTK 标题语料库 - 马拉雅拉姆语 95.56 0.93 笔记本 马拉雅拉姆语嵌入投影 马拉雅拉姆语嵌入投影
马拉地语 马拉地语自然语言处理 马拉地语维基百科文章 18 17.42 iNLTK 标题语料库 - 马拉地语 92.40 0.85 笔记本 马拉地语嵌入投影 马拉地语嵌入投影
泰米尔语 泰米尔语自然语言处理 泰米尔语维基百科文章 19.80 17.22 iNLTK 标题语料库 - 泰米尔语 95.22 0.92 笔记本 泰米尔语嵌入投影 泰米尔语嵌入投影
旁遮普语 旁遮普语自然语言处理 旁遮普语维基百科文章 24.40 14.03 IndicNLP 新闻文章分类数据集 - 旁遮普语 97.12 0.96 笔记本 旁遮普语嵌入投影 旁遮普语嵌入投影
卡纳达语 卡纳达语自然语言处理 卡纳达语维基百科文章 70.10 61.97 IndicNLP 新闻文章分类数据集 - 卡纳达语 98.87 0.98 笔记本 卡纳达语嵌入投影 卡纳达语嵌入投影
奥里亚语 奥里亚语自然语言处理 奥里亚语维基百科文章 26.57 26.81 IndicNLP 新闻文章分类数据集 - 奥里亚语 98.83 0.98 笔记本 奥里亚语嵌入投影 奥里亚语嵌入投影
梵语 梵语自然语言处理 梵语维基百科文章 ~6 ~3 梵语颂歌数据集 84.3 (验证集) 梵语嵌入投影 梵语嵌入投影
尼泊尔语 尼泊尔语自然语言处理 尼泊尔语维基百科文章 31.5 29.3 尼泊尔语新闻数据集 98.5 (验证集) 尼泊尔语嵌入投影 尼泊尔语嵌入投影
乌尔都语 乌尔都语自然语言处理 乌尔都语维基百科文章 13.19 12.55 乌尔都语新闻数据集 95.28 (验证集) 乌尔都语嵌入投影 乌尔都语嵌入投影
泰卢固语 泰卢固语自然语言处理 泰卢固语维基百科文章 27.47 29.44 泰卢固语新闻数据集


泰卢固语 Andhra Jyoti 新闻
95.4


92.09
笔记本


笔记本
泰卢固语嵌入投影 泰卢固语嵌入投影
唐格利什 唐格利什自然语言处理 合成唐格利什数据集 37.50 - 德拉威混杂语 HASOC @ FIRE 2020

德拉威混杂语情感分析 @ FIRE 2020
F1 分数:0.88

F1 分数:0.62
- 笔记本

笔记本
唐格利什嵌入投影 -
曼格利什 曼格利什自然语言处理 合成曼格利什数据集 45.84 - 德拉威混杂语 HASOC @ FIRE 2020

德拉威混杂语情感分析 @ FIRE 2020
F1 分数:0.74

F1 分数:0.69
- 笔记本

笔记本
曼格利什嵌入投影 -
英印混合语 英印混合语自然语言处理 合成英印混合语数据集 86.48 - - - - - 英印混合语嵌入投影 -

注意:英文模型直接取自 fast.ai

使用迁移学习 + iNLTK 释义的效果

语言 仓库 用于分类的数据集 使用完整训练集的结果 训练集规模减少百分比 使用缩减后的训练集(无释义)结果 使用缩减后的训练集(有释义)结果
印地语 印地语自然语言处理 IIT帕特纳电影评论 准确率:57.74

MCC:37.23
80% (2480 -> 496) 准确率:47.74

MCC:20.50
准确率:56.13

MCC:34.39
孟加拉语 孟加拉语自然语言处理 孟加拉语新闻文章(Soham 文章) 准确率:90.71

MCC:87.92
99% (11284 -> 112) 准确率:69.88

MCC:61.56
准确率:74.06

MCC:65.08
古吉拉特语 古吉拉特语自然语言处理 iNLTK 标题语料库 - 古吉拉特语 准确率:91.05

MCC:86.09
90% (5269 -> 526) 准确率:80.88

MCC:70.18
准确率:81.03

MCC:70.44
马拉雅拉姆语 马拉雅拉姆语自然语言处理 iNLTK 标题语料库 - 马拉雅拉姆语 准确率:95.56

MCC:93.29
90% (5036 -> 503) 准确率:82.38

MCC:73.47
准确率:84.29

MCC:76.36
马拉地语 马拉地语自然语言处理 iNLTK 标题语料库 - 马拉地语 准确率:92.40

MCC:85.23
95% (9672 -> 483) 准确率:84.13

MCC:68.59
准确率:84.55

MCC:69.11
泰米尔语 泰米尔语自然语言处理 iNLTK 标题语料库 - 泰米尔语 准确率:95.22

MCC:92.70
95% (5346 -> 267) 准确率:86.25

MCC:79.42
准确率:89.84

MCC:84.63

如需了解更多实现细节或重现结果,请查看相应仓库。

贡献

添加新语言支持

如果您希望为 iNLTK 添加您选择的语言支持, 请先在此处查看或提交问题 这里 请参考我为泰卢固语所提到的步骤 此处 作为起点。这些步骤对于其他语言也几乎相同。

改进模型/将模型用于您的研究

如果您希望使用 iNLTK 的模型并结合您自己的数据集对其进行优化, 或者在其基础上构建您自己的定制模型,请查看上表中对应您所选语言的仓库。 上述仓库包含了数据集、预训练模型、分类器以及所有相关代码的链接。

添加新功能

如果您希望在 iNLTK 中添加某项特定功能,首先请在此处查看或提交问题 这里

下一步

..正在推进中

如果您想帮忙,请大声喊出来 :)

..尚未开始

如果您想牵头,请大声喊出来 :)

iNLTK 的赞誉

引用

如果您在研究中使用本库,请考虑引用以下文献:

@inproceedings{arora-2020-inltk,
    title = "i{NLTK}: 印度语系语言的自然语言处理工具包",
    author = "Arora, Gaurav",
    booktitle = "第二届自然语言处理开源软件研讨会(NLP-OSS)论文集",
    month = nov,
    year = "2020",
    address = "线上",
    publisher = "计算语言学协会",
    url = "https://www.aclweb.org/anthology/2020.nlposs-1.10",
    doi = "10.18653/v1/2020.nlposs-1.10",
    pages = "66--71",
    abstract = "我们提出了 iNLTK,这是一个开源的 NLP 工具库,包含预训练的语言模型,并开箱即用地支持数据增强、文本相似度计算、句子嵌入、词嵌入、分词以及 13 种印度语系语言的文本生成。通过在公开可用的数据集上使用 iNLTK 中的预训练模型进行文本分类,我们的性能显著优于此前报道的结果。在这些数据集上,我们还表明,借助 iNLTK 的预训练模型和数据增强技术,仅需不到 10% 的训练数据,即可达到先前最佳性能的 95% 以上。iNLTK 目前已被社区广泛使用,在 GitHub 上已累计超过 4 万次下载、600 多颗星标和 100 多次叉库。该库的地址为 https://github.com/goru001/inltk。",
}

版本历史

0.92020/10/11
v0.8.12020/01/18
v0.7.22019/12/14
v0.62019/11/10
v0.52019/05/26
v0.42019/05/17
v0.3.02019/05/17

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2周前
Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。

184.7k|★★☆☆☆|今天
数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。

183.6k|★★★☆☆|今天
Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

161.1k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|2天前
开发框架图像Agent