[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-goru001--inltk":3,"tool-goru001--inltk":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161147,"2026-04-19T23:31:47",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":77,"owner_email":78,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":24,"env_os":91,"env_gpu":91,"env_ram":91,"env_deps":92,"category_tags":95,"github_topics":96,"view_count":24,"oss_zip_url":106,"oss_zip_packed_at":106,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":143},10116,"goru001\u002Finltk","inltk","Natural Language Toolkit for Indic Languages aims to provide out of the box support for various NLP tasks that an application developer might need","inltk（Indic Languages Natural Language Toolkit）是一个专为印度语言设计的开源自然语言处理工具库。它致力于解决开发者在处理印地语、泰米尔语、孟加拉语等十余种印度本土语言，以及“印英混合语”（如 Hinglish、Tanglish）时面临的资源匮乏与技术门槛高的问题。\n\n过去，针对这些语言的 NLP 任务往往需要研究人员从头训练模型或收集稀缺数据，而 inltk 提供了“开箱即用”的解决方案。用户只需几行代码，即可轻松实现文本分类、语言建模、词向量生成等常见任务，无需深入复杂的底层算法细节。该工具基于 ULMFiT 和 TransformerXL 等先进架构构建了预训练模型，并在 EMNLP-2020 学术会议上发表了相关论文，确保了技术的可靠性与前沿性。\n\ninltk 非常适合应用开发者、数据科学家以及语言学研究人员使用。对于希望快速在产品中集成多语言功能的工程师，它是高效的加速器；对于专注于低资源语言研究的学者，它则提供了宝贵的基准模型与数据集支持。通过简化复杂流程，inltk 让印度语言的自然语言处理变得更加普及和便捷。","## Natural Language Toolkit for Indic Languages (iNLTK)\n\n[![Gitter](https:\u002F\u002Fbadges.gitter.im\u002Finltk\u002Fcommunity.svg)](https:\u002F\u002Fgitter.im\u002Finltk\u002Fcommunity?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge) [![Downloads](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoru001_inltk_readme_5a1d21d6ce56.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Finltk)\n\niNLTK aims to provide out of the box support for various NLP tasks \nthat an application developer might need for Indic languages. Paper for iNLTK library has been accepted at EMNLP-2020's NLP-OSS workshop. Here's the [link to the paper](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.nlposs-1.10\u002F)\n\n\n### Documentation\n\nCheckout detailed docs along with Installation instructions\n at https:\u002F\u002Finltk.readthedocs.io\n\n\n### Supported languages\n\n#### Native languages\n\n| Language | Code \u003Ccode-of-language> |\n|:--------:|:----:|\n|   Hindi  |  hi  |\n|  Punjabi |  pa  |\n| Gujarati |  gu  |\n|  Kannada |  kn  |\n| Malayalam |  ml  |\n|   Oriya   |  or  |\n|  Marathi |  mr  |\n|  Bengali |  bn  |\n|   Tamil  |  ta  |\n|   Urdu  |  ur  |\n|  Nepali  |  ne  |\n| Sanskrit |  sa  |\n|   English  |  en  |\n|   Telugu  |  te  |\n\n#### Code Mixed languages\n\n| Language | Script |Code \u003Ccode-of-language> |\n|:--------:|:----:|:----:|\n| Hinglish (Hindi+English)  |  Latin  |  hi-en  |\n| Tanglish (Tamil+English) |  Latin  |  ta-en  |\n| Manglish (Malayalam+English) |  Latin  |  ml-en  |\n\n#### Repositories containing models used in iNLTK\n\n|  Language |                            Repository                            |                                                                                     Dataset used for Language modeling                                                                                     | Perplexity of ULMFiT LM\u003Cbr>(on validation set) | Perplexity of TransformerXL LM\u003Cbr>(on validation set) |                                                                                                                                                                                    Dataset used for Classification                                                                                                                                                                                    |  Classification:\u003Cbr> Test set Accuracy  |   Classification: \u003Cbr>Test set MCC   |                                                                                                                                                                                                  Classification: Notebook\u003Cbr>for Reproducibility                                                                                                                                                                                                 |                                                                                      ULMFiT Embeddings visualization                                                                                     |                                                                                  TransformerXL Embeddings visualization                                                                                  |\n|:---------:|:----------------------------------------------------------------:|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:----------------------------------------------:|:-----------------------------------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:---------------------------------------:|:------------------------------------:|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|\n|   Hindi   |     [NLP for Hindi](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi)    | [Hindi Wikipedia Articles - 172k](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fhindi-wikipedia-articles-172k)\u003Cbr>\u003Cbr>\u003Cbr>[Hindi Wikipedia Articles - 55k](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fhindi-wikipedia-articles-55k) |             34.06\u003Cbr>\u003Cbr>\u003Cbr>35.87             |                 26.09\u003Cbr>\u003Cbr>\u003Cbr>34.78                | [BBC News Articles](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)\u003Cbr>\u003Cbr>\u003Cbr>[IIT Patna Movie Reviews](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)\u003Cbr>\u003Cbr>\u003Cbr>[IIT Patna Product Reviews](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets) | 78.75\u003Cbr>\u003Cbr>\u003Cbr>57.74\u003Cbr>\u003Cbr>\u003Cbr>75.71 | 0.71\u003Cbr>\u003Cbr>\u003Cbr>0.37\u003Cbr>\u003Cbr>\u003Cbr>0.59 | [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fblob\u002Fmaster\u002Fclassification-benchmarks\u002FHindi_Classification_Model_BBC_Articles.ipynb)\u003Cbr>\u003Cbr>\u003Cbr>[Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fblob\u002Fmaster\u002Fclassification-benchmarks\u002FHindi_Classification_Model_IITP%2BMovie.ipynb)\u003Cbr>\u003Cbr>\u003Cbr>[Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fblob\u002Fmaster\u002Fclassification-benchmarks\u002FHindi_Classification_Model_IITP_Product.ipynb) |         [Hindi Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config_30k.json)        |    [Hindi Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config_transformerxl.json)   |\n|  Bengali  |   [NLP for Bengali](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-bengali)  |                                                          [Bengali Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fbengali-wikipedia-articles)                                                          |                      41.2                      |                          39.3                         |                                                                                                                               [Bengali News Articles (Soham Articles)](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                              |                  90.71                  |                 0.87                 |                                                                                                                                                               [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-bengali\u002Fblob\u002Fmaster\u002Fclassification\u002FBengali_Classification_Model.ipynb)                                                                                                                                                               |         [Bengali Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-bengali\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)        |   [Bengali Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-bengali\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)  |\n|  Gujarati |  [NLP for Gujarati](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-gujarati) |                                                         [Gujarati Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fgujarati-wikipedia-articles)                                                         |                      34.12                     |                         28.12                         |                                                                                                                                 [iNLTK Headlines Corpus - Gujarati](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                                 |                  91.05                  |                 0.86                 |                                                                                                                                                              [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-gujarati\u002Fblob\u002Fmaster\u002Fclassification\u002FGujarati_Classification_Model.ipynb)                                                                                                                                                              |        [Gujarati Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-gujarati\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)       |  [Gujarati Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-gujarati\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json) |\n| Malayalam | [NLP for Malayalam](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-malyalam) |                                                        [Malayalam Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fmalayalam-wikipedia-articles)                                                        |                      26.39                     |                         25.79                         |                                                                                                                                 [iNLTK Headlines Corpus - Malayalam](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                                |                  95.56                  |                 0.93                 |                                                                                                                                                              [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-malyalam\u002Fblob\u002Fmaster\u002Fclassification\u002FMalyalam_Classification_Model.ipynb)                                                                                                                                                              |       [Malayalam Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-malyalam\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)       | [Malayalam Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-malyalam\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json) |\n|  Marathi  |   [NLP for Marathi](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-marathi)  |                                                          [Marathi Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fmarathi-wikipedia-articles)                                                          |                       18                       |                         17.42                         |                                                                                                                                  [iNLTK Headlines Corpus - Marathi](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                                 |                  92.40                  |                 0.85                 |                                                                                                                                                               [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-marathi\u002Fblob\u002Fmaster\u002Fclassification\u002FMarathi_Classification_Model.ipynb)                                                                                                                                                               |         [Marathi Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-marathi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)        |   [Marathi Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-marathi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)  |\n|   Tamil   |     [NLP for Tamil](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tamil)    |                                                            [Tamil Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Ftamil-wikipedia-articles)                                                            |                      19.80                     |                         17.22                         |                                                                                                                                   [iNLTK Headlines Corpus - Tamil](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                                  |                  95.22                  |                 0.92                 |                                                                                                                                                                      [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tamil\u002Fblob\u002Fmaster\u002Fclassification\u002FTamil_Classifier.ipynb)                                                                                                                                                                      |           [Tamil Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-tamil\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)          |     [Tamil Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-tamil\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)    |\n|  Punjabi  |   [NLP for Punjabi](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-punjabi)  |                                                          [Punjabi Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fpunjabi-wikipedia-articles)                                                          |                      24.40                     |                         14.03                         |                                                                                                                      [IndicNLP News Article Classification Dataset - Punjabi](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#indicnlp-news-article-classification-dataset)                                                                                                                     |                  97.12                  |                 0.96                 |                                                                                                                                                               [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-punjabi\u002Fblob\u002Fmaster\u002Fclassification\u002FPanjabi_Classification_Model.ipynb)                                                                                                                                                               |         [Punjabi Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-punjabi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)        |   [Punjabi Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-punjabi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)  |\n|  Kannada  |   [NLP for Kannada](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-kannada)  |                                                          [Kannada Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fkannada-wikipedia-articles)                                                          |                      70.10                     |                         61.97                         |                                                                                                                      [IndicNLP News Article Classification Dataset - Kannada](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#indicnlp-news-article-classification-dataset)                                                                                                                     |                  98.87                  |                 0.98                 |                                                                                                                                                               [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-kannada\u002Fblob\u002Fmaster\u002Fclassification\u002FKannada_Classification_Model.ipynb)                                                                                                                                                               |         [Kannada Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-kannada\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)        |   [Kannada Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-kannada\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)  |\n|   Oriya   |     [NLP for Oriya](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-odia)     |                                                             [Oriya Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fodia-wikipedia-articles)                                                            |                      26.57                     |                         26.81                         |                                                                                                                       [IndicNLP News Article Classification Dataset - Oriya](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#indicnlp-news-article-classification-dataset)                                                                                                                      |                  98.83                  |                 0.98                 |                                                                                                                                                                  [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-odia\u002Fblob\u002Fmaster\u002Fclassification\u002FOriya_Classification_Model.ipynb)                                                                                                                                                                 |           [Oriya Embeddings Projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-odia\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)           |     [Oriya Embeddings Projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-odia\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)     |\n|  Sanskrit |  [NLP for Sanskrit](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-sanskrit) |                                                         [Sanskrit Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fsanskrit-wikipedia-articles)                                                         |                       ~6                       |                           ~3                          |                                                                                                                                                          [Sanskrit Shlokas Dataset](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fsanskrit-shlokas-dataset)                                                                                                                                                         |             84.3 (valid set)            |                                      |                                                                                                                                                                                                                                                                                                                                                                                                                                                  |        [Sanskrit Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-sanskrit\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)       |  [Sanskrit Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-sanskrit\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json) |\n|   Nepali  |    [NLP for Nepali](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-nepali)   |                                                           [Nepali Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fnepali-wikipedia-articles)                                                           |                      31.5                      |                          29.3                         |                                                                                                                                                               [Nepali News Dataset](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fnepali-news-dataset)                                                                                                                                                              |             98.5 (valid set)            |                                      |                                                                                                                                                                                                                                                                                                                                                                                                                                                  |          [Nepali Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-nepali\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)         |    [Nepali Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-nepali\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)   |\n|    Urdu   |    [NLP for Urdu](https:\u002F\u002Fgithub.com\u002Fanuragshas\u002Fnlp-for-urdu)    |                                                             [Urdu Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Furdu-wikipedia-articles)                                                             |                      13.19                     |                         12.55                         |                                                                                                                                                                 [Urdu News Dataset](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Furdu-news-dataset)                                                                                                                                                                |            95.28 (valid set)            |                                      |                                                                                                                                                                                                                                                                                                                                                                                                                                                  |          [Urdu Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fanuragshas\u002Fnlp-for-urdu\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)          |    [Urdu Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fanuragshas\u002Fnlp-for-urdu\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)    |\n|   Telugu  | [NLP for Telugu](https:\u002F\u002Fgithub.com\u002FShubhamjain27\u002Fnlp-for-telugu)    |                                                             [Telugu Wikipedia Articles](https:\u002F\u002Fwww.kaggle.com\u002Fshubhamjain27\u002Ftelugu-wikipedia-articles)                                                |                       27.47                    |                         29.44                         |                                                                                                                                              [Telugu News Dataset](https:\u002F\u002Fwww.kaggle.com\u002Fshubhamjain27\u002Ftelugu-news-articles)\u003Cbr>\u003Cbr>\u003Cbr>[Telugu News Andhra Jyoti](https:\u002F\u002Fwww.kaggle.com\u002Fshubhamjain27\u002Ftelugu-newspaperdata)                                                                                                                                                                         |              95.4\u003Cbr>\u003Cbr>\u003Cbr>92.09                       |                                     | [Notebook](https:\u002F\u002Fgithub.com\u002FShubhamjain27\u002Fnlp-for-telugu\u002Ftree\u002Fmaster\u002Fclassification\u002FTelugu_Classification_Model.ipynb) \u003Cbr>\u003Cbr>\u003Cbr>[Notebook](https:\u002F\u002Fgithub.com\u002FShubhamjain27\u002Fnlp-for-telugu\u002Ftree\u002Fmaster\u002Fclassification\u002FTelugu_news_classification_Andhra_Jyoti.ipynb)                                                                                                                                                                                                                                                                                                    |                        [Telugu Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002FShubhamjain27\u002Fnlp-for-telugu\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)    |    [Telugu Embeddings projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002FShubhamjain27\u002Fnlp-for-telugu\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)    |\n|  Tanglish |  [NLP for Tanglish](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tanglish) |                                             [Synthetic Tanglish Dataset](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1M4Sx_clF0iP1y-JG3OhfacFKTDoHXCR1?usp=sharing)                                             |                      37.50                     |                           -                           |                                                                                                                                                      Dravidian Codemix HASOC @ FIRE 2020\u003Cbr>\u003Cbr>Dravidian Codemix Sentiment Analysis @ FIRE 2020                                                                                                                                                      |   F1 Score: 0.88\u003Cbr>\u003Cbr>F1 Score: 0.62  |                   -                  |                                                                                                 [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tanglish\u002Fblob\u002Fmaster\u002Fclassification\u002Fclassification_model_hasoc.ipynb)\u003Cbr>\u003Cbr>[Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tanglish\u002Fblob\u002Fmaster\u002Fclassification\u002Fclassification_model_dc_fire.ipynb)                                                                                                 |        [Tanglish Embeddings Projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-tanglish\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)       |                                                                                                     -                                                                                                    |\n|  Manglish |  [NLP for Manglish](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-manglish) |                                             [Synthetic Manglish Dataset](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1M4Sx_clF0iP1y-JG3OhfacFKTDoHXCR1?usp=sharing)                                             |                      45.84                     |                           -                           |                                                                                                                                                      Dravidian Codemix HASOC @ FIRE 2020\u003Cbr>\u003Cbr>Dravidian Codemix Sentiment Analysis @ FIRE 2020                                                                                                                                                      |   F1 Score: 0.74\u003Cbr>\u003Cbr>F1 Score: 0.69  |                   -                  |                                                                                                 [Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-manglish\u002Fblob\u002Fmaster\u002Fclassification\u002Fclassification_model_hasoc.ipynb)\u003Cbr>\u003Cbr>[Notebook](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-manglish\u002Fblob\u002Fmaster\u002Fclassification\u002Fclassification_model_dc_fire.ipynb)                                                                                                 | [Manglish Embeddings Projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-manglish\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config_latin_script.json) |                                                                                                     -                                                                                                    |\n| Hinglish  | [NLP for Hinglish](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hinglish)  | [Synthetic Hinglish Dataset](https:\u002F\u002Fwww.dropbox.com\u002Fsh\u002Fas5fg8jsrljt6k7\u002FAADnSLlSNJPeAndFycJGurOUa?dl=0)                                                                                                    | 86.48                                          | -                                                     | -                                                                                                                                                                                                                                                                                                                                                                                                     | -                                       | -                                    | -                                                                                                                                                                                                                                                                                                                                                                                                                                                | [Hinglish Embeddings Projection](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-hinglish\u002Fmain\u002Flanguage_model\u002Fembedding_projector_config.json)                | -                                                                                                                                                                                                        |\n\n\nNote: English model has been directly taken from [fast.ai](https:\u002F\u002Fgithub.com\u002Ffastai\u002Ffastai)\n\n#### Effect of using Transfer Learning + Paraphrases from iNLTK\n\n|  Language |                            Repository                            |                                                       Dataset used for Classification                                                      | Results on using\u003Cbr>complete training set | Percentage Decrease \u003Cbr>in Training set size | Results on using\u003Cbr>reduced training set\u003Cbr>without Paraphrases | Results on using\u003Cbr>reduced training set\u003Cbr>with Paraphrases |\n|:---------:|:----------------------------------------------------------------:|:------------------------------------------------------------------------------------------------------------------------------------------:|:-----------------------------------------:|:--------------------------------------------:|:------------------------------------------------------------:|:---------------------------------------------------------:|\n|   Hindi   |     [NLP for Hindi](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi)    |         [IIT Patna Movie Reviews](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)        |     Accuracy: 57.74\u003Cbr>\u003Cbr>MCC: 37.23     |               80% (2480 -> 496)              |               Accuracy: 47.74\u003Cbr>\u003Cbr>MCC: 20.50              |             Accuracy: 56.13\u003Cbr>\u003Cbr>MCC: 34.39             |\n|  Bengali  |   [NLP for Bengali](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-bengali)  | [Bengali News Articles (Soham Articles)](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets) |     Accuracy: 90.71\u003Cbr>\u003Cbr>MCC: 87.92     |              99% (11284 -> 112)              |               Accuracy: 69.88\u003Cbr>\u003Cbr>MCC: 61.56              |             Accuracy: 74.06\u003Cbr>\u003Cbr>MCC: 65.08             |\n|  Gujarati |  [NLP for Gujarati](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-gujarati) |    [iNLTK Headlines Corpus - Gujarati](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)   |     Accuracy: 91.05\u003Cbr>\u003Cbr>MCC: 86.09     |               90% (5269 -> 526)              |               Accuracy: 80.88\u003Cbr>\u003Cbr>MCC: 70.18              |             Accuracy: 81.03\u003Cbr>\u003Cbr>MCC: 70.44             |\n| Malayalam | [NLP for Malayalam](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-malyalam) |   [iNLTK Headlines Corpus - Malayalam](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)   |     Accuracy: 95.56\u003Cbr>\u003Cbr>MCC: 93.29     |               90% (5036 -> 503)              |               Accuracy: 82.38\u003Cbr>\u003Cbr>MCC: 73.47              |             Accuracy: 84.29\u003Cbr>\u003Cbr>MCC: 76.36             |\n|  Marathi  |   [NLP for Marathi](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-marathi)  |    [iNLTK Headlines Corpus - Marathi](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)    |     Accuracy: 92.40\u003Cbr>\u003Cbr>MCC: 85.23     |               95% (9672 -> 483)              |               Accuracy: 84.13\u003Cbr>\u003Cbr>MCC: 68.59              |             Accuracy: 84.55\u003Cbr>\u003Cbr>MCC: 69.11             |\n|   Tamil   |     [NLP for Tamil](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tamil)    |     [iNLTK Headlines Corpus - Tamil](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)     |     Accuracy: 95.22\u003Cbr>\u003Cbr>MCC: 92.70     |               95% (5346 -> 267)              |               Accuracy: 86.25\u003Cbr>\u003Cbr>MCC: 79.42              |             Accuracy: 89.84\u003Cbr>\u003Cbr>MCC: 84.63             |\n\nFor more details around implementation or to reproduce results, checkout respective repositories. \n\n### Contributing\n\n##### Add a new language support\n\nIf you would like to add support for language of your own choice to iNLTK,\n please start with checking\u002Fraising a issue [here](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues)\n \nPlease checkout the steps I'd [mentioned here for Telugu](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F1)\nto begin with. They should be almost similar for other languages as well.\n\n##### Improving models\u002Fusing models for your own research\n\nIf you would like to take iNLTK's models and refine them with your own \ndataset or build your own custom models on top of it, please check out the \nrepositories in the above table for the language of your choice. The repositories above \ncontain links to datasets, pretrained models, classifiers and all of the code for that.\n\n##### Add new functionality\n\nIf you wish for a particular functionality in iNLTK - Start by checking\u002Fraising a issue [here](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues)\n\n\n### What's next\n\n\n#### ..and being worked upon\n`Shout out if you want to help :)`\n\n* Add [Maithili](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F10) support\n\n\n#### ..and NOT being worked upon\n\n`Shout out if you want to lead :)`\n\n* Add NER support for all languages\n* Add Textual Entailment support for all languages\n* Work on a [unified model for all the languages](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F14)\n* [POS support](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F13) in iNLTK\n* Add translations - to and from languages in iNLTK + English\n\n\n\n### iNLTK's Appreciation\n\n* [By Jeremy Howard on Twitter](https:\u002F\u002Ftwitter.com\u002Fjeremyphoward\u002Fstatus\u002F1111318198891110402)\n* [By Sebastian Ruder on Twitter](https:\u002F\u002Ftwitter.com\u002Fseb_ruder\u002Fstatus\u002F1207074241830674438)\n* [By Vincent Boucher](https:\u002F\u002Fwww.linkedin.com\u002Ffeed\u002Fupdate\u002Furn:li:activity:6517137647310241792\u002F), [By Philip Vollet](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fphilipvollet_machinelearning-datascience-nlp-activity-6698220942910468096-phA-), [By Steve Nouri](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fstevenouri_india-artificialintelligence-technology-activity-6698815315498868736-vYmZ) on [LinkedIn](https:\u002F\u002Fwww.linkedin.com\u002Fsearch\u002Fresults\u002Fcontent\u002F?keywords=inltk)\n* [By Kanimozhi](https:\u002F\u002Fwww.linkedin.com\u002Ffeed\u002Fupdate\u002Furn:li:activity:6517277916030701568), [By Soham](https:\u002F\u002Fwww.linkedin.com\u002Ffeed\u002Fupdate\u002Furn:li:activity:6513084638955696128), [By Imaad](https:\u002F\u002Fwww.linkedin.com\u002Ffeed\u002Fupdate\u002Furn:li:activity:6536258026687557632\u002F) on [LinkedIn](https:\u002F\u002Fwww.linkedin.com\u002Fsearch\u002Fresults\u002Fcontent\u002F?keywords=inltk)\n* iNLTK was [trending on GitHub](https:\u002F\u002Fgithub.motakasoft.com\u002Ftrending\u002Franking\u002Fmonthly\u002F?d=2019-05-01&l=python&page=2) in May 2019\n\n\n### Citation\n\nIf you use this library in your research, please consider citing:\n\n```latex\n@inproceedings{arora-2020-inltk,\n    title = \"i{NLTK}: Natural Language Toolkit for Indic Languages\",\n    author = \"Arora, Gaurav\",\n    booktitle = \"Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)\",\n    month = nov,\n    year = \"2020\",\n    address = \"Online\",\n    publisher = \"Association for Computational Linguistics\",\n    url = \"https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.nlposs-1.10\",\n    doi = \"10.18653\u002Fv1\u002F2020.nlposs-1.10\",\n    pages = \"66--71\",\n    abstract = \"We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{\\%} of the previous best performance by using less than 10{\\%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk.\",\n}\n```\n","## 印度语言自然语言工具包（iNLTK）\n\n[![Gitter](https:\u002F\u002Fbadges.gitter.im\u002Finltk\u002Fcommunity.svg)](https:\u002F\u002Fgitter.im\u002Finltk\u002Fcommunity?utm_source=badge&utm_medium=badge&utm_campaign=pr-badge) [![下载量](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoru001_inltk_readme_5a1d21d6ce56.png)](https:\u002F\u002Fpepy.tech\u002Fproject\u002Finltk)\n\niNLTK 致力于为印度语言的应用开发者提供开箱即用的各种自然语言处理任务支持。iNLTK 库的相关论文已被 EMNLP-2020 的 NLP-OSS 工作坊接收。论文链接如下：[link to the paper](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.nlposs-1.10\u002F)\n\n\n### 文档\n\n请访问 https:\u002F\u002Finltk.readthedocs.io 查看详细的文档及安装说明。\n\n\n### 支持的语言\n\n#### 母语\n\n| 语言 | 语言代码 |\n|:--------:|:----:|\n|   印地语  |  hi  |\n|  旁遮普语 |  pa  |\n| 古吉拉特语 |  gu  |\n|  卡纳达语 |  kn  |\n| 马拉雅拉姆语 |  ml  |\n|   奥里亚语   |  or  |\n|  马拉地语 |  mr  |\n|  孟加拉语 |  bn  |\n|   泰米尔语  |  ta  |\n|   乌尔都语  |  ur  |\n|  尼泊尔语  |  ne  |\n| 梵语 |  sa  |\n|   英语  |  en  |\n|   泰卢固语  |  te  |\n\n#### 混合语\n\n| 语言 | 文字系统 | 语言代码 |\n|:--------:|:----:|:----:|\n| 英印语（印地语+英语）  |  拉丁字母  |  hi-en  |\n| 英泰语（泰米尔语+英语） |  拉丁字母  |  ta-en  |\n| 英马拉语（马拉雅拉姆语+英语） |  拉丁字母  |  ml-en  |\n\n#### iNLTK 中使用的模型仓库\n\n| 语言 |                            仓库                            |                                                                                     用于语言建模的数据集                                                                                     | ULMFiT LM 的困惑度\u003Cbr>(在验证集上) | TransformerXL LM 的困惑度\u003Cbr>(在验证集上) |                                                                                                                                                                                    用于分类的数据集                                                                                                                                                                                    |  分类：\u003Cbr>测试集准确率  |   分类： \u003Cbr>测试集 MCC   |                                                                                                                                                                                                  分类：可复现的笔记本                                                                                                                                                                                                 |                                                                                      ULMFiT 嵌入可视化                                                                                     |                                                                                  TransformerXL 嵌入可视化                                                                                  |\n|:---------:|:----------------------------------------------------------------:|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:----------------------------------------------:|:-----------------------------------------------------:|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:---------------------------------------:|:------------------------------------:|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------:|\n|   印地语   |     [印地语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi)    | [印地语维基百科文章 - 17.2万篇](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fhindi-wikipedia-articles-172k)\u003Cbr>\u003Cbr>\u003Cbr>[印地语维基百科文章 - 5.5万篇](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fhindi-wikipedia-articles-55k) |             34.06\u003Cbr>\u003Cbr>\u003Cbr>35.87             |                 26.09\u003Cbr>\u003Cbr>\u003Cbr>34.78                | [BBC 新闻文章](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)\u003Cbr>\u003Cbr>\u003Cbr>[IIT Patna 电影评论](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)\u003Cbr>\u003Cbr>\u003Cbr>[IIT Patna 产品评论](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets) | 78.75\u003Cbr>\u003Cbr>\u003Cbr>57.74\u003Cbr>\u003Cbr>\u003Cbr>75.71 | 0.71\u003Cbr>\u003Cbr>\u003Cbr>0.37\u003Cbr>\u003Cbr>\u003Cbr>0.59 | [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fblob\u002Fmaster\u002Fclassification-benchmarks\u002FHindi_Classification_Model_BBC_Articles.ipynb)\u003Cbr>\u003Cbr>\u003Cbr>[笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fblob\u002Fmaster\u002Fclassification-benchmarks\u002FHindi_Classification_Model_IITP%2BMovie.ipynb)\u003Cbr>\u003Cbr>\u003Cbr>[笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fblob\u002Fmaster\u002Fclassification-benchmarks\u002FHindi_Classification_Model_IITP_Product.ipynb) |         [印地语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config_30k.json)        |    [印地语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-hindi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config_transformerxl.json)   |\n|  孟加拉语  |   [孟加拉语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-bengali)  |                                                          [孟加拉语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fbengali-wikipedia-articles)                                                          |                      41.2                      |                          39.3                         |                                                                                                                               [孟加拉语新闻文章 (Soham 文章)](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                              |                  90.71                  |                 0.87                 |                                                                                                                                                               [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-bengali\u002Fblob\u002Fmaster\u002Fclassification\u002FBengali_Classification_Model.ipynb)                                                                                                                                                               |         [孟加拉语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-bengali\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)        |   [孟加拉语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-bengali\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)  |\n|  古吉拉特语 |  [古吉拉特语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-gujarati) |                                                         [古吉拉特语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fgujarati-wikipedia-articles)                                                         |                      34.12                     |                         28.12                         |                                                                                                                                 [iNLTK 标题语料库 - 古吉拉特语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                                 |                  91.05                  |                 0.86                 |                                                                                                                                                              [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-gujarati\u002Fblob\u002Fmaster\u002Fclassification\u002FGujarati_Classification_Model.ipynb)                                                                                                                                                              |        [古吉拉特语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-gujarati\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)       |  [古吉拉特语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-gujarati\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json) |\n| 马拉雅拉姆语 | [马拉雅拉姆语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-malyalam) |                                                        [马拉雅拉姆语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fmalayalam-wikipedia-articles)                                                        |                      26.39                     |                         25.79                         |                                                                                                                                 [iNLTK 标题语料库 - 马拉雅拉姆语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                                |                  95.56                  |                 0.93                 |                                                                                                                                                              [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-malyalam\u002Fblob\u002Fmaster\u002Fclassification\u002FMalyalam_Classification_Model.ipynb)                                                                                                                                                              |       [马拉雅拉姆语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-malyalam\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)       | [马拉雅拉姆语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-malyalam\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json) |\n|  马拉地语  |   [马拉地语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-marathi)  |                                                          [马拉地语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fmarathi-wikipedia-articles)                                                          |                       18                       |                         17.42                         |                                                                                                                                  [iNLTK 标题语料库 - 马拉地语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                                 |                  92.40                  |                 0.85                 |                                                                                                                                                               [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-marathi\u002Fblob\u002Fmaster\u002Fclassification\u002FMarathi_Classification_Model.ipynb)                                                                                                                                                               |         [马拉地语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-marathi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)        |   [马拉地语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-marathi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)  |\n|   泰米尔语   |     [泰米尔语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tamil)    |                                                            [泰米尔语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Ftamil-wikipedia-articles)                                                            |                      19.80                     |                         17.22                         |                                                                                                                                   [iNLTK 标题语料库 - 泰米尔语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)                                                                                                                                  |                  95.22                  |                 0.92                 |                                                                                                                                                                      [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tamil\u002Fblob\u002Fmaster\u002Fclassification\u002FTamil_Classifier.ipynb)                                                                                                                                                                      |           [泰米尔语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-tamil\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)          |     [泰米尔语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-tamil\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)    |\n|  旁遮普语  |   [旁遮普语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-punjabi)  |                                                          [旁遮普语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fpunjabi-wikipedia-articles)                                                          |                      24.40                     |                         14.03                         |                                                                                                                      [IndicNLP 新闻文章分类数据集 - 旁遮普语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#indicnlp-news-article-classification-dataset)                                                                                                                     |                  97.12                  |                 0.96                 |                                                                                                                                                               [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-punjabi\u002Fblob\u002Fmaster\u002Fclassification\u002FPanjabi_Classification_Model.ipynb)                                                                                                                                                               |         [旁遮普语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-punjabi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)        |   [旁遮普语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-punjabi\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)  |\n|  卡纳达语  |   [卡纳达语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-kannada)  |                                                          [卡纳达语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fkannada-wikipedia-articles)                                                          |                      70.10                     |                         61.97                         |                                                                                                                      [IndicNLP 新闻文章分类数据集 - 卡纳达语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#indicnlp-news-article-classification-dataset)                                                                                                                     |                  98.87                  |                 0.98                 |                                                                                                                                                               [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-kannada\u002Fblob\u002Fmaster\u002Fclassification\u002FKannada_Classification_Model.ipynb)                                                                                                                                                               |         [卡纳达语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-kannada\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)        |   [卡纳达语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-kannada\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)  |\n|   奥里亚语   |     [奥里亚语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-odia)     |                                                             [奥里亚语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fodia-wikipedia-articles)                                                            |                      26.57                     |                         26.81                         |                                                                                                                       [IndicNLP 新闻文章分类数据集 - 奥里亚语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#indicnlp-news-article-classification-dataset)                                                                                                                      |                  98.83                  |                 0.98                 |                                                                                                                                                                  [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-odia\u002Fblob\u002Fmaster\u002Fclassification\u002FOriya_Classification_Model.ipynb)                                                                                                                                                                 |           [奥里亚语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-odia\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)           |     [奥里亚语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-odia\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)     |\n|  梵语   |  [梵语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-sanskrit) |                                                         [梵语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fsanskrit-wikipedia-articles)                                                         |                       ~6                       |                           ~3                          |                                                                                                                                                          [梵语颂歌数据集](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fsanskrit-shlokas-dataset)                                                                                                                                                         |             84.3 (验证集)            |                                      |                                                                                                                                                                                                                                                                                                                                                                                                                                                  |        [梵语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-sanskrit\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)       |  [梵语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-sanskrit\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json) |\n|   尼泊尔语  |    [尼泊尔语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-nepali)   |                                                           [尼泊尔语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fnepali-wikipedia-articles)                                                           |                      31.5                      |                          29.3                         |                                                                                                                                                               [尼泊尔语新闻数据集](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Fnepali-news-dataset)                                                                                                                                                              |             98.5 (验证集)            |                                      |                                                                                                                                                                                                                                                                                                                                                                                                                                                  |          [尼泊尔语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-nepali\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)         |    [尼泊尔语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-nepali\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)   |\n|    乌尔都语   |    [乌尔都语自然语言处理](https:\u002F\u002Fgithub.com\u002Fanuragshas\u002Fnlp-for-urdu)    |                                                             [乌尔都语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Furdu-wikipedia-articles)                                                             |                      13.19                     |                         12.55                         |                                                                                                                                                                 [乌尔都语新闻数据集](https:\u002F\u002Fwww.kaggle.com\u002Fdisisbig\u002Furdu-news-dataset)                                                                                                                                                                |            95.28 (验证集)            |                                      |                                                                                                                                                                                                                                                                                                                                                                                                                                                  |          [乌尔都语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fanuragshas\u002Fnlp-for-urdu\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)          |    [乌尔都语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fanuragshas\u002Fnlp-for-urdu\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)    |\n|   泰卢固语   | [泰卢固语自然语言处理](https:\u002F\u002Fgithub.com\u002FShubhamjain27\u002Fnlp-for-telugu)    |                                                             [泰卢固语维基百科文章](https:\u002F\u002Fwww.kaggle.com\u002Fshubhamjain27\u002Ftelugu-wikipedia-articles)                                                |                       27.47                    |                         29.44                         |                                                                                                                                              [泰卢固语新闻数据集](https:\u002F\u002Fwww.kaggle.com\u002Fshubhamjain27\u002Ftelugu-news-articles)\u003Cbr>\u003Cbr>\u003Cbr>[泰卢固语 Andhra Jyoti 新闻](https:\u002F\u002Fwww.kaggle.com\u002Fshubhamjain27\u002Ftelugu-newspaperdata)                                                                                                                                                                         |              95.4\u003Cbr>\u003Cbr>\u003Cbr>92.09                       |                                     | [笔记本](https:\u002F\u002Fgithub.com\u002FShubhamjain27\u002Fnlp-for-telugu\u002Ftree\u002Fmaster\u002Fclassification\u002FTelugu_Classification_Model.ipynb) \u003Cbr>\u003Cbr>\u003Cbr>[笔记本](https:\u002F\u002Fgithub.com\u002FShubhamjain27\u002Fnlp-for-telugu\u002Ftree\u002Fmaster\u002Fclassification\u002FTelugu_news_classification_Andhra_Jyoti.ipynb)                                                                                                                                                                                                                                                                                                    |                        [泰卢固语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002FShubhamjain27\u002Fnlp-for-telugu\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)    |    [泰卢固语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002FShubhamjain27\u002Fnlp-for-telugu\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_transformer_config.json)    |\n|  唐格利什  |  [唐格利什自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tanglish) |                                             [合成唐格利什数据集](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1M4Sx_clF0iP1y-JG3OhfacFKTDoHXCR1?usp=sharing)                                             |                      37.50                     |                           -                           |                                                                                                                                                      德拉威混杂语 HASOC @ FIRE 2020\u003Cbr>\u003Cbr>德拉威混杂语情感分析 @ FIRE 2020                                                                                                                                                      |   F1 分数：0.88\u003Cbr>\u003Cbr>F1 分数：0.62  |                   -                  |                                                                                                 [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tanglish\u002Fblob\u002Fmaster\u002Fclassification\u002Fclassification_model_hasoc.ipynb)\u003Cbr>\u003Cbr>[笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tanglish\u002Fblob\u002Fmaster\u002Fclassification\u002Fclassification_model_dc_fire.ipynb)                                                                                                 |        [唐格利什嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-tanglish\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config.json)       |                                                                                                     -                                                                                                    |\n|  曼格利什  |  [曼格利什自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-manglish) |                                             [合成曼格利什数据集](https:\u002F\u002Fdrive.google.com\u002Fdrive\u002Ffolders\u002F1M4Sx_clF0iP1y-JG3OhfacFKTDoHXCR1?usp=sharing)                                             |                      45.84                     |                           -                           |                                                                                                                                                      德拉威混杂语 HASOC @ FIRE 2020\u003Cbr>\u003Cbr>德拉威混杂语情感分析 @ FIRE 2020                                                                                                                                                      |   F1 分数：0.74\u003Cbr>\u003Cbr>F1 分数：0.69  |                   -                  |                                                                                                 [笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-manglish\u002Fblob\u002Fmaster\u002Fclassification\u002Fclassification_model_hasoc.ipynb)\u003Cbr>\u003Cbr>[笔记本](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-manglish\u002Fblob\u002Fmaster\u002Fclassification\u002Fclassification_model_dc_fire.ipynb)                                                                                                 | [曼格利什嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-manglish\u002Fmaster\u002Flanguage-model\u002Fembedding_projector_config_latin_script.json) |                                                                                                     -                                                                                                    |\n| 英印混合语  | [英印混合语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hinglish)  | [合成英印混合语数据集](https:\u002F\u002Fwww.dropbox.com\u002Fsh\u002Fas5fg8jsrljt6k7\u002FAADnSLlSNJPeAndFycJGurOUa?dl=0)                                                                                                    | 86.48                                          | -                                                     | -                                                                                                                                                                                                                                                                                                                                                                                                     | -                                       | -                                    | -                                                                                                                                                                                                                                                                                                                                                                                                                                                | [英印混合语嵌入投影](https:\u002F\u002Fprojector.tensorflow.org\u002F?config=https:\u002F\u002Fraw.githubusercontent.com\u002Fgoru001\u002Fnlp-for-hinglish\u002Fmain\u002Flanguage_model\u002Fembedding_projector_config.json)                | -                                                                                                                                                                                                        |\n\n注意：英文模型直接取自 [fast.ai](https:\u002F\u002Fgithub.com\u002Ffastai\u002Ffastai)\n\n#### 使用迁移学习 + iNLTK 释义的效果\n\n| 语言 |                            仓库                            |                                                       用于分类的数据集                                                      | 使用完整训练集的结果 | 训练集规模减少百分比 | 使用缩减后的训练集（无释义）结果 | 使用缩减后的训练集（有释义）结果 |\n|:---------:|:----------------------------------------------------------------:|:------------------------------------------------------------------------------------------------------------------------------------------:|:-----------------------------------------:|:--------------------------------------------:|:------------------------------------------------------------:|:---------------------------------------------------------:|\n|   印地语   |     [印地语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-hindi)    |         [IIT帕特纳电影评论](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)        |     准确率：57.74\u003Cbr>\u003Cbr>MCC：37.23     |               80% (2480 -> 496)              |               准确率：47.74\u003Cbr>\u003Cbr>MCC：20.50              |             准确率：56.13\u003Cbr>\u003Cbr>MCC：34.39             |\n|  孟加拉语  |   [孟加拉语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-bengali)  | [孟加拉语新闻文章（Soham 文章）](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets) |     准确率：90.71\u003Cbr>\u003Cbr>MCC：87.92     |              99% (11284 -> 112)              |               准确率：69.88\u003Cbr>\u003Cbr>MCC：61.56              |             准确率：74.06\u003Cbr>\u003Cbr>MCC：65.08             |\n|  古吉拉特语 |  [古吉拉特语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-gujarati) |    [iNLTK 标题语料库 - 古吉拉特语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)   |     准确率：91.05\u003Cbr>\u003Cbr>MCC：86.09     |               90% (5269 -> 526)              |               准确率：80.88\u003Cbr>\u003Cbr>MCC：70.18              |             准确率：81.03\u003Cbr>\u003Cbr>MCC：70.44             |\n| 马拉雅拉姆语 | [马拉雅拉姆语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-malyalam) |   [iNLTK 标题语料库 - 马拉雅拉姆语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)   |     准确率：95.56\u003Cbr>\u003Cbr>MCC：93.29     |               90% (5036 -> 503)              |               准确率：82.38\u003Cbr>\u003Cbr>MCC：73.47              |             准确率：84.29\u003Cbr>\u003Cbr>MCC：76.36             |\n|  马拉地语  |   [马拉地语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-marathi)  |    [iNLTK 标题语料库 - 马拉地语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)    |     准确率：92.40\u003Cbr>\u003Cbr>MCC：85.23     |               95% (9672 -> 483)              |               准确率：84.13\u003Cbr>\u003Cbr>MCC：68.59              |             准确率：84.55\u003Cbr>\u003Cbr>MCC：69.11             |\n|   泰米尔语   |     [泰米尔语自然语言处理](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Fnlp-for-tamil)    |     [iNLTK 标题语料库 - 泰米尔语](https:\u002F\u002Fgithub.com\u002Fai4bharat-indicnlp\u002Findicnlp_corpus#publicly-available-classification-datasets)     |     准确率：95.22\u003Cbr>\u003Cbr>MCC：92.70     |               95% (5346 -> 267)              |               准确率：86.25\u003Cbr>\u003Cbr>MCC：79.42              |             准确率：89.84\u003Cbr>\u003Cbr>MCC：84.63             |\n\n如需了解更多实现细节或重现结果，请查看相应仓库。\n\n\n\n### 贡献\n\n##### 添加新语言支持\n\n如果您希望为 iNLTK 添加您选择的语言支持，\n请先在此处查看或提交问题 [这里](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues)\n请参考我为泰卢固语所提到的步骤 [此处](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F1)\n作为起点。这些步骤对于其他语言也几乎相同。\n\n##### 改进模型\u002F将模型用于您的研究\n\n如果您希望使用 iNLTK 的模型并结合您自己的数据集对其进行优化，\n或者在其基础上构建您自己的定制模型，请查看上表中对应您所选语言的仓库。\n上述仓库包含了数据集、预训练模型、分类器以及所有相关代码的链接。\n\n##### 添加新功能\n\n如果您希望在 iNLTK 中添加某项特定功能，首先请在此处查看或提交问题 [这里](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues)\n\n\n### 下一步\n\n#### ..正在推进中\n`如果您想帮忙，请大声喊出来 :)`\n\n* 添加 [迈蒂利语](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F10) 支持\n\n\n#### ..尚未开始\n\n`如果您想牵头，请大声喊出来 :)`\n\n* 为所有语言添加命名实体识别支持\n* 为所有语言添加文本蕴涵支持\n* 研究一个 [适用于所有语言的统一模型](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F14)\n* 在 iNLTK 中添加 [词性标注支持](https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F13)\n* 在 iNLTK 中添加语言之间的互译功能，包括与英语的互译\n\n\n\n### iNLTK 的赞誉\n\n* [杰里米·霍华德在推特上的评价](https:\u002F\u002Ftwitter.com\u002Fjeremyphoward\u002Fstatus\u002F1111318198891110402)\n* [塞巴斯蒂安·鲁德尔在推特上的评价](https:\u002F\u002Ftwitter.com\u002Fseb_ruder\u002Fstatus\u002F1207074241830674438)\n* [文森特·布歇](https:\u002F\u002Fwww.linkedin.com\u002Ffeed\u002Fupdate\u002Furn:li:activity:6517137647310241792\u002F)、[菲利普·沃莱](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fphilipvollet_machinelearning-datascience-nlp-activity-6698220942910468096-phA-)、[史蒂夫·努里](https:\u002F\u002Fwww.linkedin.com\u002Fposts\u002Fstevenouri_india-artificialintelligence-technology-activity-6698815315498868736-vYmZ) 在 [领英](https:\u002F\u002Fwww.linkedin.com\u002Fsearch\u002Fresults\u002Fcontent\u002F?keywords=inltk) 上的评价\n* [卡尼莫日](https:\u002F\u002Fwww.linkedin.com\u002Ffeed\u002Fupdate\u002Furn:li:activity:6517277916030701568)、[索哈姆](https:\u002F\u002Fwww.linkedin.com\u002Ffeed\u002Fupdate\u002Furn:li:activity:6513084638955696128)、[伊马德](https:\u002F\u002Fwww.linkedin.com\u002Ffeed\u002Fupdate\u002Furn:li:activity:6536258026687557632\u002F) 在 [领英](https:\u002F\u002Fwww.linkedin.com\u002Fsearch\u002Fresults\u002Fcontent\u002F?keywords=inltk) 上的评价\n* iNLTK 曾于 2019 年 5 月在 [GitHub 趋势榜](https:\u002F\u002Fgithub.motakasoft.com\u002Ftrending\u002Franking\u002Fmonthly\u002F?d=2019-05-01&l=python&page=2) 上名列前茅\n\n### 引用\n\n如果您在研究中使用本库，请考虑引用以下文献：\n\n```latex\n@inproceedings{arora-2020-inltk,\n    title = \"i{NLTK}: 印度语系语言的自然语言处理工具包\",\n    author = \"Arora, Gaurav\",\n    booktitle = \"第二届自然语言处理开源软件研讨会（NLP-OSS）论文集\",\n    month = nov,\n    year = \"2020\",\n    address = \"线上\",\n    publisher = \"计算语言学协会\",\n    url = \"https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.nlposs-1.10\",\n    doi = \"10.18653\u002Fv1\u002F2020.nlposs-1.10\",\n    pages = \"66--71\",\n    abstract = \"我们提出了 iNLTK，这是一个开源的 NLP 工具库，包含预训练的语言模型，并开箱即用地支持数据增强、文本相似度计算、句子嵌入、词嵌入、分词以及 13 种印度语系语言的文本生成。通过在公开可用的数据集上使用 iNLTK 中的预训练模型进行文本分类，我们的性能显著优于此前报道的结果。在这些数据集上，我们还表明，借助 iNLTK 的预训练模型和数据增强技术，仅需不到 10% 的训练数据，即可达到先前最佳性能的 95% 以上。iNLTK 目前已被社区广泛使用，在 GitHub 上已累计超过 4 万次下载、600 多颗星标和 100 多次叉库。该库的地址为 https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk。\",\n}\n```","# iNLTK 快速上手指南\n\niNLTK (Natural Language Toolkit for Indic Languages) 是一个专为印度语言（及英语）设计的自然语言处理工具库，提供开箱即用的 NLP 任务支持，包括文本分类、语言模型和嵌入可视化等。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux, macOS 或 Windows\n*   **Python 版本**: Python 3.6 或更高版本\n*   **前置依赖**: 建议先更新 `pip` 和 `setuptools`\n\n```bash\npython -m pip install --upgrade pip setuptools\n```\n\n> **注意**：iNLTK 底层依赖 PyTorch 和 fastai。首次运行时，库会自动下载预训练模型（约几百 MB），请确保网络连接畅通。国内用户若遇到下载缓慢问题，可尝试配置 PyTorch 国内镜像源。\n\n## 安装步骤\n\n使用 pip 直接安装最新稳定版：\n\n```bash\npip install inltk\n```\n\n如果需要指定国内镜像源加速安装（推荐中国开发者使用）：\n\n```bash\npip install inltk -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\niNLTK 的使用非常直观。以下是一个最简单的示例，展示如何提取文本特征向量（Embeddings）。\n\n### 示例：获取文本嵌入向量\n\n本示例以印地语（Hindi）为例，演示如何将句子转换为数值向量。\n\n```python\nfrom inltk.inltk import setup\n\n# 1. 初始化设置（首次运行时会下载对应语言的模型）\n# 支持的语言代码见下文列表，例如 'hi' (印地语), 'bn' (孟加拉语), 'en' (英语)\nsetup('hi')\n\nfrom inltk.inltk import get_vector\n\n# 2. 输入文本\ntext = \"नमस्ते दुनिया\"  # \"Hello World\" in Hindi\n\n# 3. 获取向量表示\nvector = get_vector(text, 'hi')\n\nprint(f\"向量维度：{len(vector)}\")\nprint(f\"前 5 个数值：{vector[:5]}\")\n```\n\n### 支持的语言代码\n\n在使用 `setup()` 和 `get_vector()` 时，请使用以下语言代码：\n\n| 语言 | 代码 | 语言 | 代码 |\n| :--- | :--- | :--- | :--- |\n| 印地语 (Hindi) | `hi` | 马拉地语 (Marathi) | `mr` |\n| 旁遮普语 (Punjabi) | `pa` | 孟加拉语 (Bengali) | `bn` |\n| 古吉拉特语 (Gujarati) | `gu` | 泰米尔语 (Tamil) | `ta` |\n| 卡纳达语 (Kannada) | `kn` | 乌尔都语 (Urdu) | `ur` |\n| 马拉雅拉姆语 (Malayalam) | `ml` | 尼泊尔语 (Nepali) | `ne` |\n| 奥里亚语 (Oriya) | `or` | 梵语 (Sanskrit) | `sa` |\n| 泰卢固语 (Telugu) | `te` | 英语 (English) | `en` |\n\n**混合语言支持**（拉丁字母脚本）：\n*   印地语 + 英语 (Hinglish): `hi-en`\n*   泰米尔语 + 英语 (Tanglish): `ta-en`\n*   马拉雅拉姆语 + 英语 (Manglish): `ml-en`\n\n### 其他常用功能\n\n除了获取向量，iNLTK 还支持以下常见任务（函数名保持英文）：\n\n*   **文本分类**: `predict_sentiment(text, language_code)`\n*   **生成相似句子**: `get_similar_sentences(text, language_code)`\n*   **提取关键词**: `extract_keywords(text, language_code)`\n\n详细 API 文档请访问：https:\u002F\u002Finltk.readthedocs.io","一家初创电商公司希望分析印度各邦用户在社交媒体上留下的混合语言评论，以优化本地化营销策略。\n\n### 没有 inltk 时\n- 开发团队需为印地语、泰米尔语等十几种印度语言分别寻找或训练独立的 NLP 模型，数据收集与清洗耗时数周。\n- 面对\"Hinglish\"（印地语 + 英语）或\"Tanglish\"（泰米尔语 + 英语）这类常见的代码混合文本，通用英文工具完全无法识别，导致大量用户反馈被误判或直接丢弃。\n- 缺乏统一的接口标准，工程师需要编写大量胶水代码来适配不同语言的预处理逻辑，维护成本极高且容易出错。\n- 情感分析准确率低下，因为预训练模型未能捕捉到印度本土语言的语境特征，导致营销决策基于错误的数据洞察。\n\n### 使用 inltk 后\n- 通过 inltk 开箱即用的支持，团队一行代码即可加载涵盖印地语、孟加拉语等原生语言及多种混合语言的高质量预训练模型，项目启动时间从数周缩短至几天。\n- 针对 Hinglish 和 Manglish 等混合语言场景，inltk 提供了专门优化的模型，能够精准分词并理解语义，使原本无效的混合文本数据利用率提升至 100%。\n- 所有语言任务（如文本分类、嵌入生成）均通过统一的 API 调用，大幅简化了架构设计，开发人员可专注于业务逻辑而非底层模型适配。\n- 基于 EMNLP 论文验证的高精度模型，情感分析结果准确反映了各地用户的真实态度，帮助产品团队成功推出了针对性的区域促销活动。\n\ninltk 通过提供专为印度语言生态设计的统一 NLP 基础设施，彻底消除了多语言处理的技术壁垒，让开发者能高效挖掘南亚市场的巨大数据价值。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fgoru001_inltk_bb4368be.png","goru001","Gaurav Arora","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fgoru001_0e9f28de.jpg","Senior Applied Scientist @ Amazon","Amazon","Bengaluru, India","giganticgemmic@gmail.com","arggaurav","www.arggaurav.com","https:\u002F\u002Fgithub.com\u002Fgoru001",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,839,160,"2026-02-07T22:10:04","MIT","未说明",{"notes":93,"python":91,"dependencies":94},"README 提供的片段中未包含具体的运行环境需求（如操作系统、GPU、内存、Python 版本及依赖库）。文档指引用户访问 https:\u002F\u002Finltk.readthedocs.io 查看详细的安装说明。该工具主要支持多种印度语言（如印地语、孟加拉语等）及其混合语言的 NLP 任务，底层模型涉及 ULMFiT 和 TransformerXL。",[91],[16,14,36],[97,98,99,100,101,102,103,104,105],"nlp","deep-learning","indic-languages","pytorch","data-augmentation","sentence-similarity","sentence-encoding","word-embeddings","sentence-embeddings",null,"2026-03-27T02:49:30.150509","2026-04-20T19:32:37.052475",[110,115,120,125,130,135,139],{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},45408,"在 Google Colab 中调用 setup() 时出现 'RuntimeError: This event loop is already running' 错误怎么办？","这是 Google Colab 环境下的已知现象。虽然会显示运行时错误，但通常不会影响后续使用。请等待 4-5 分钟让模型下载完成，然后继续调用 iNLTK 的其他功能（如获取嵌入向量）即可正常使用。该错误目前主要影响用户体验，但不阻碍核心功能。","https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F3",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},45409,"运行 get_embedding_vectors 或其他功能时遇到与 Python 版本相关的错误或会话崩溃（seg_fault）如何解决？","该问题可能与 Python 版本兼容性有关。建议尝试切换到 Python 3.6.3 或 3.6.8 版本。维护者在测试中发现 Python 3.6.9 及更高版本（如 3.7+ 在某些环境下）可能会复现此错误，而 3.6.8 表现稳定。如果在 Colab 中遇到崩溃，请检查并切换运行时类型为 Python 3.6。","https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F58",{"id":121,"question_zh":122,"answer_zh":123,"source_url":124},45410,"安装 iNLTK 时遇到 LSTM 错误或 torch 版本冲突，正确的安装顺序是什么？","官方文档中的安装顺序曾有误，导致 torch 版本被覆盖从而引发错误。正确的安装步骤如下：\n1. 先安装 iNLTK：`pip install inltk`\n2. 卸载当前 torch：`pip uninstall torch`\n3. 安装指定版本的 torch（例如 1.3.1）：`pip install torch==1.3.1+cpu -f https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Ftorch_stable.html`\n请严格按照此顺序操作以避免依赖冲突。","https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F85",{"id":126,"question_zh":127,"answer_zh":128,"source_url":129},45411,"如何为 iNLTK 添加新的语言支持（如泰卢固语、泰米尔语等）？","iNLTK 欢迎社区贡献新语言支持。对于泰卢固语（Telugu），v0.9 版本已正式加入支持。如果您想添加其他语言或混合语言支持（如 Tenglish），可以参考现有代码框架，下载对应语言的维基百科数据进行训练，并提交 Pull Request (PR)。目前代码混合支持已涵盖 Hinglish, Tanglish 和 Manglish。","https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F1",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},45412,"使用 get_similar_sentences 处理大数据集时控制台输出大量警告（SourceChangeWarnings）导致运行缓慢，如何屏蔽这些警告？","这是由于 PyTorch 源变更警告导致的。虽然尝试过标准的 Python 警告禁用方法可能无效，但根本解决通常需要更新 PyTorch 版本或等待库的修复。目前建议关注 GPU 支持相关的进展（见 Issue #5），或者在代码中尝试更强制的警告过滤设置。如果问题持续，建议检查是否使用了推荐的 torch 版本（如 1.3.1）。","https:\u002F\u002Fgithub.com\u002Fgoru001\u002Finltk\u002Fissues\u002F69",{"id":136,"question_zh":137,"answer_zh":138,"source_url":129},45413,"在哪里可以找到泰卢固语情感词典（Telugu SentiWordNet）？","目前在公共网站上较难直接找到泰卢固语情感词典。建议关注 iNLTK 项目的更新，因为项目正在积极扩展印度语言支持（如 v0.9 已增加泰卢固语支持）。您也可以考虑参与项目贡献，利用 iNLTK 的框架自行训练或构建相关资源并提交 PR。",{"id":140,"question_zh":141,"answer_zh":142,"source_url":114},45414,"iNLTK 是否支持代码混合语言（Code-mixed languages）的语言识别？","截至当前主分支版本，尚未完全支持代码混合语言的自动语言识别功能。不过，针对 Hinglish、Tanglish 和 Manglish 的代码混合支持已在 v0.9 中添加。关于通用的语言识别功能，社区正在通过 PR #77 进行开发，您可以关注该进度或参与贡献。",[144,149,154,159,164,169,174],{"id":145,"version":146,"summary_zh":147,"released_at":148},360337,"0.9","- 增加对拉丁字母书写的印英混杂语、泰米尔英语混杂语和马来亚拉姆英语混杂语的支持\r\n- 增加对泰卢固语的支持","2020-10-11T17:16:39",{"id":150,"version":151,"summary_zh":152,"released_at":153},360338,"v0.8.1","1. 已添加英文支持  \n2. 已优化 get_similar_sentences 的运行时性能","2020-01-18T08:36:48",{"id":155,"version":156,"summary_zh":157,"released_at":158},360339,"v0.7.2","此版本新增了 get_similar_sentences 功能，您可利用该功能在支持的语言中扩充和增大量化您的数据。","2019-12-14T11:30:27",{"id":160,"version":161,"summary_zh":162,"released_at":163},360340,"v0.6","新功能：\n\n* 现在可以使用 `get_sentence_encoding` 获取句子的 400 维编码——iNLTK 支持的所有语言均适用。\n* 现在可以使用 `get_sentence_similarity` 计算两句话之间的相似度分数（余弦相似度）——iNLTK 支持的所有语言均适用。\n\n新模型：\n* 使用旧模型时，上述功能对旁遮普语无效。请在使用这些功能之前执行以下代码片段：\n```python\nfrom inltk.inltk import reset_models\n\n>> reset_models('pa')\n>> setup('pa')\n```","2019-11-10T18:03:57",{"id":165,"version":166,"summary_zh":167,"released_at":168},360341,"v0.5","为 iNLTK 新增了乌尔都语支持，感谢 @anuragsha 的贡献。  \n新增了对 Windows 10 的支持，感谢 @ibrahiminfinite 的贡献。","2019-05-26T09:03:02",{"id":170,"version":171,"summary_zh":172,"released_at":173},360342,"v0.4","新增了 `get_embedding_vectors` 函数，允许用户获取其单词\u002F句子\u002F文档的嵌入向量。","2019-05-17T17:11:26",{"id":175,"version":176,"summary_zh":177,"released_at":178},360343,"v0.3.0","新增泰米尔语支持","2019-05-17T02:17:56"]