awesome-japanese-nlp-resources

945 39 非常简单 1 次阅读 3天前CC0-1.0开发框架语言模型

AI 解读由 AI 自动生成，仅供参考

awesome-japanese-nlp-resources 是一个专为日语自然语言处理（NLP）打造的精选资源库。它系统地整理了涵盖 Python、C++、Rust、Java 等多种编程语言的库，以及大语言模型（LLMs）、专业词典和各类语料库。

针对日语独特的语言结构（如复杂的形态变化和缺乏空格分词），开发者在进行文本分析时往往面临工具分散、标准不一的难题。这份资源库通过人工筛选与分类，一站式解决了寻找高质量日语 NLP 工具的痛点。它不仅收录了 850 多个 GitHub 项目和 278 个 Hugging Face 模型与数据集，还细致地按功能划分为形态素分析、句法解析、情感分析、机器翻译及命名实体识别等类别，甚至包含了最新的预训练模型和教程。

无论是正在构建日语聊天机器人的 AI 工程师、需要处理大规模日文数据的研究人员，还是希望快速上手日语 NLP 的学生，都能从中高效找到所需资源。其独特的亮点在于跨语言支持的广度以及对前沿大模型资源的及时更新，同时提供多语言文档支持，极大地降低了全球开发者进入日语 NLP 领域的门槛。作为一个开放协作的项目，它持续社区贡献，确保所列资源始终保持前沿与实用。

使用场景

某跨境电商团队急需构建一套日语用户评论自动分析系统，以快速提取产品反馈并优化运营策略。

没有 awesome-japanese-nlp-resources 时

资源检索如大海捞针：开发人员需在 GitHub、Hugging Face 及各类论文中盲目搜索，难以区分哪些库支持最新的日语分词或情感分析，耗时数周仍无法确定技术选型。
模型兼容性风险高：随意下载的预训练模型往往缺乏详细的日语语料说明，导致在处理敬语、方言或特定行业术语时准确率极低，且难以找到对应的修正方案。
生态工具链断裂：找到了分词库却找不到配套的词典或数据清洗工具，不同组件间的数据格式不统一，需要编写大量胶水代码进行转换，严重拖慢开发进度。
重复造轮子现象严重：因不了解社区已有的开源成果（如特定的 OCR 后处理或句法解析器），团队花费宝贵精力重新实现基础功能，造成人力资源的巨大浪费。

使用 awesome-japanese-nlp-resources 后

一站式精准选型：直接查阅分类清晰的清单，几分钟内即可锁定适合电商场景的 Python 分词库（如 SudachiPy）和专用的日语情感分析模型，将技术调研时间从数周压缩至半天。
经过验证的高质量资源：依托列表中 curated（精选）的 278+ Hugging Face 模型与数据集，团队直接选用针对日语商业文本微调过的模型，显著提升了对复杂句式和隐含情感的识别精度。
完整闭环的工具生态：按图索骥获取从预处理、形态素分析到命名实体识别的全套兼容工具，确保数据流转顺畅，无需额外开发格式转换接口，系统搭建效率提升 300%。
站在巨人肩膀上创新：充分利用列表中收录的现成语料库和教程，团队跳过基础基建阶段，直接将精力集中在业务逻辑优化上，提前两周完成系统上线。

awesome-japanese-nlp-resources 通过整合分散的日语 NLP 生态资源，将原本混乱的技术探索过程转化为高效的标准作业流程，极大降低了日语人工智能应用的落地门槛。

运行环境要求

操作系统

Linux
macOS
Windows

GPU

未说明

内存

未说明

依赖

notes该仓库是一个日语 NLP 资源列表（Awesome List），本身不是一个单一的 AI 模型或工具，因此没有统一的运行环境需求。它收录了多种不同语言（Python, C++, Rust, Go, Java, JavaScript）编写的库、预训练模型和数据集。具体的环境需求（如 Python 版本、GPU 要求、依赖库等）需参考列表中各个独立项目的文档。部分基于深度学习的模型（如 BERT, SudachiPy 等）可能需要特定的深度学习框架支持。

python未说明

awesome-japanese-nlp-resources hero image

快速开始

令人惊叹的日本自然语言处理资源

一个精心整理的列表，专门收录用于日语自然语言处理的 Python 库、大模型、词典和语料库。

列出了 850 个 GitHub 仓库的相关信息
列出了 278 个 Hugging Face 仓库的相关信息（模型和数据集）
🎉 我们很高兴地宣布于 2026 年 3 月 1 日发布 awesome-japanese-nlp-survey！

English | 日本語 (Japanese) | 繁體中文 (Chinese) | 简体中文 (Chinese)

🎉 最新添加的内容

语料库

kamuskita - 马来语学习会正在制作的开放性马来语-日语词典《大家的马来语词典》

更新于 2026 年 4 月 6 日

Python 库

形态分析

将日语文本切分为词或语素，并标注词性及词干形式的库

sudachi.rs - SudachiPy 0.6 及以上版本基于 Sudachi.rs 开发。
Janome - 纯 Python 编写的日语形态分析引擎。
mecab-python3 - mecab-python。原始版本可在 http://taku910.github.io/mecab/ 找到。
mecab - 该仓库用于构建 Windows 64 位 MeCab 二进制文件并改进 MeCab 的 Python 绑定。
fugashi - 一个使用 Cython 封装的 MeCab 工具，用于快速、Python 风格的日语文本分词和形态分析。
nagisa - 基于循环神经网络的日语分词器。
pyknp - 用于 JUMAN++/KNP 的 Python 模块。
Mykytea-python - KyTea 的 Python 封装。
konoha - Konoha：简单的日语分词器封装。
natto-py - natto-py 将 Python 编程语言与日语词性及形态分析工具 MeCab 结合起来。
rakutenma-python - 拉克坦 MA（Python 版）。
python-vaporetto - Vaporetto 是一种基于点预测的快速轻量级分词器。这是 Vaporetto 的 Python 封装。
dango - 一款易于使用的日语文本分词器，面向语言学习者和非语言学专业人士。
rhoknp - 另一个用于 Juman++/KNP 的 Python 绑定。
python-vibrato - 基于维特比算法的加速分词器（Python 封装）。
jagger-python - Jagger（基于规则的日语形态分析器的 C++ 实现）的 Python 绑定。
Mecari - Mecari（基于图神经网络的日语形态分析）

名称	每周下载量	总下载量	星标数	最近提交
🔗 SudachiPy	📥 37.5万	📦 6300万	⭐ 429	🔴 2022年10月
🔗 Janome	📥 5万	📦 1200万	⭐ 909	🟡 2025年10月
🔗 mecab-python3	📥 20.6万	📦 3600万	⭐ 581	🟡 2025年11月
🔗 mecab	📥 2.4万	📦 72.4万	⭐ 271	🔴 2024年10月
🔗 fugashi	📥 12万	📦 1400万	⭐ 518	🟡 2025年10月
🔗 nagisa	📥 4.9万	📦 800万	⭐ 416	🟢 2月
🔗 pyknp	📥 1千	📦 300万	⭐ 93	🟢 1月
🔗 Mykytea-python	📥 2千	📦 56.2万	⭐ 36	🟢 上周一
🔗 konoha	📥 5万	📦 600万	⭐ 261	🟢 3月
🔗 natto-py	📥 3.8万	📦 3400万	⭐ 95	🔴 2023年11月
🔗 rakutenma-python	📥 14	📦 2.7万	⭐ 23	🔴 2017年5月
🔗 python-vaporetto	📥 229	📦 17.5万	⭐ 21	🟡 2025年6月
🔗 dango	📥 42	📦 2.6万	⭐ 25	🔴 2021年11月
🔗 rhoknp	📥 2万	📦 100万	⭐ 38	🟢 3月
🔗 python-vibrato	📥 138	📦 11.7万	⭐ 43	🔴 2024年9月
🔗 jagger-python	📥 631	📦 30万	⭐ 13	🔴 2024年3月
🔗 Mecari	-	-	⭐ 39	🟡 2025年9月

语法分析

用于分析日语句子句法结构和依存关系的库

ginza - 基于 Universal Dependencies 并以 spaCy 为框架的日语 NLP 库
cabocha - 另一个日语依存结构分析器
UniDic2UD - 面向现代及当代日语的分词、词性标注、词元还原与依存句法分析工具
camphr - Camphr - 用于构建流水线组件的 NLP 库
SuPar-UniDic - 结合 BERT 模型的现代及当代日语分词、词性标注、词元还原与依存句法分析工具
depccg - 基于超标记和依存关系因子化模型的 A* CCG 解析器
bertknp - 基于 BERT 的日语依存句法分析器
esupar - 使用 BERT/RoBERTa/DeBERTa 模型的日语及其他语言的分词、词性标注与依存句法分析工具
yomikata - 利用微调后的 BERT 模型进行同音异义词消歧的库
jdepp-python - J.DepP（C++ 实现的日语依存句法分析器）的 Python 绑定
lightblue - 基于 DTS 表示的日语 CCG 解析器
natsume-simple - natsume-simple 是一个日语助词依存关系检索系统
jdeppy - J.DepP 的 Python 封装，一款快速的日语依存句法分析器

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 ginza	📥 1.2万	📦 200万	⭐ 841	🔴 2024年3月
🔗 cabocha	📥 98	📦 5.4万	⭐ 7	🔴 2022年8月
🔗 UniDic2UD	📥 256	📦 33万	⭐ 38	🟡 2025年12月
🔗 camphr	📥 580	📦 27.1万	⭐ 337	🔴 2021年8月
🔗 SuPar-UniDic	📥 32	📦 11.9万	⭐ 21	🔴 仓库未找到
🔗 depccg	📥 60	📦 4.6万	⭐ 98	🔴 2023年8月
🔗 bertknp	-	-	⭐ 23	🔴 2021年10月
🔗 esupar	📥 516	📦 17.1万	⭐ 55	🟢 2月
🔗 yomikata	📥 33	📦 5万	⭐ 32	🔴 2023年10月
🔗 jdepp-python	📥 647	📦 28.5万	⭐ 4	🔴 2024年2月
🔗 lightblue	-	-	⭐ 28	🟢 3月
🔗 natsume-simple	-	-	⭐ 5	🔴 2025年2月
🔗 jdeppy	📥 10	📦 1.1万	⭐ 3	🔴 2022年2月

转换器

用于在假名、罗马字以及全角/半角形式之间进行转换的库

pykakasi - 轻量级的日本假名-汉字句子到假名-罗马字的转换工具。
cutlet - Python实现的日语到罗马字转换工具。
alphabet2kana - 将英文字母转换为片假名。
Convert-Numbers-to-Japanese - 将阿拉伯数字（西式数字）转换为符合日语语境的表达方式。
mozcpy - Mozc for Python：假名-汉字转换工具。
jamorasep - 日语文本解析器，用于将平假名/片假名字符串分割成音节。
text2phoneme - 将日语文本转换为音素序列的脚本。
jntajis-python - 基于日本国税厅定义的方案构建的快速字符转换与转写库。
wiredify - 将日语假名中的“ba-bi-bu-be-bo”转换为“va-vi-vu-ve-vo”。
mecab-text-cleaner - 使用Mecab获取日语读音（よみがな）和重音的简单Python包（CLI/Python API）。
pynormalizenumexp - 用于提取和规范化数量及时间表达的NormalizeNumexp的Python实现。
Jusho - 简单封装日本邮政编码数据的工具。
yurenizer - 解决日语书写不一致问题的日语文本归一化工具。
e2k - 自动将英语转换为片假名的工具。
alkana.py - 用于获取字母字符串对应的片假名读音的工具。
englishtokanaconverter - 将英语字符串转换为片假名的程序。
kanjiconv - 汉字转换为平假名、片假名或罗马字母的工具。
kanjize - Kanjize（カンジャイズ）：汉字-数字与整数之间的简易转换工具。

名称	每周下载量	总下载量	星标数	最近提交
🔗 pykakasi	📥 29.8万	📦 3000万	⭐ 445	🔴 2022年7月
🔗 cutlet	📥 1.8万	📦 200万	⭐ 374	🟡 2025年6月
🔗 alphabet2kana	📥 215	📦 5.8万	⭐ 14	🟢 2月
🔗 Convert-Numbers-to-Japanese	-	-	⭐ 50	🔴 2020年11月
🔗 mozcpy	📥 11.4万	📦 1.3万	⭐ 47	🔴 2025年2月
🔗 jamorasep	📥 8.9万	📦 9千	⭐ 11	🟢 2月
🔗 text2phoneme	-	-	⭐ 13	🔴 2023年5月
🔗 jntajis-python	📥 1千	📦 11.7万	⭐ 21	🟢 3月
🔗 wiredify	📥 2.7万	📦 6千	⭐ 3	🟡 2025年12月
🔗 mecab-text-cleaner	📥 1万	📦 4千	⭐ 7	🟢 2月
🔗 pynormalizenumexp	📥 3万	📦 1.4万	⭐ 8	🔴 2024年4月
🔗 Jusho	📥 21.7万	📦 5.5万	⭐ 11	🔴 2024年6月
🔗 yurenizer	📥 5.1万	📦 1.8万	⭐ 5	🔴 2025年3月
🔗 e2k	📥 3.68万	📦 2.6万	⭐ 16	🟢 3月
🔗 alkana.py	-	-	⭐ 34	🔴 2021年10月
🔗 englishtokanaconverter	-	-	⭐ 4	🟢 昨天
🔗 kanjiconv	📥 13.3万	📦 1.2万	⭐ 17	🟡 2025年10月
🔗 kanjize	📥 1.2万	📦 100万	⭐ 68	🟡 2025年6月

预处理工具

用于在文本分析之前对其进行归一化和清理的库

neologdn - 针对mecab-neologd的日语文本归一化工具。
jaconv - 纯Python实现的平假名、片假名、半角及全角字符之间的相互转换工具。
mojimoji - 快速转换日语半角与全角字符的工具。
text-cleaning - 功能强大的日语文本网页文本清理工具。
HojiChar - 用于配置和管理多种预处理步骤的文本预处理工具。
utsuho - Utsuho是一个Python模块，可方便地实现日语中半角片假名与全角片假名之间的双向转换。
python-habachen - 又一款快速的日语字符串转换工具。
kairyou - 利用SpaCy的NLP/NER技术快速预处理日语文本，适用于日语翻译或其他NLP任务。

名称	每周下载量	总下载量	星标数	最近提交
🔗 neologdn	📥 8千	📦 100万	⭐ 287	🟡 2025年12月
🔗 jaconv	📥 56.7万	📦 6400万	⭐ 344	🟢 2月
🔗 mojimoji	📥 7万	📦 1100万	⭐ 152	🔴 2024年1月
🔗 text-cleaning	-	-	⭐ 12	🔴 2022年11月
🔗 HojiChar	📥 1.9万	📦 91.9万	⭐ 125	🟡 2025年11月
🔗 utsuho	📥 29.1万	📦 2.1万	⭐ 4	🟢 3月
🔗 python-habachen	📥 2.6万	📦 200万	⭐ 6	🟡 2025年10月
🔗 kairyou	📥 5.8万	📦 3.1万	⭐ 6	🟡 2025年6月

句子分割器

能够自动检测句子边界并分割文本的库

Bunkai - 日语文本的句子边界判定工具
japanese-sentence-breaker - 日语句子分割器
sengiri - 又一款用于日语文本的句子级分词工具
budoux - 独立、小巧、语言中立。BudouX 是 Budou 的继任者，后者是一款基于机器学习的换行组织工具。
ja_sentence_segmenter - 用于 Python 的日语句子分割库
hasami - 用于对日语文本进行句子分割的工具
kuzukiri - 用 Rust 编写的 Python 日语文本分割器
ja-senter-benchmark - 日语句子分割工具比较
fast-bunkai - 日语句子分割（日本語文境界判定器），通过 Rust 加速的 Python 库实现，速度比 megagonlabs/bunkai 快 40–250 倍，且 API 兼容性几乎完全一致。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 bunkai	📥 571	📦 109k	⭐ 199	🔴 2023年8月
🔗 japanese-sentence-breaker	📥 4	📦 5k	⭐ 14	🔴 2021年2月
🔗 sengiri	📥 100	📦 136k	⭐ 24	🟡 2025年11月
🔗 budoux	📥 9k	📦 451k	⭐ 1.6k	🟢 上周四
🔗 ja_sentence_segmenter	📥 2k	📦 193k	⭐ 74	🔴 2023年4月
🔗 hasami	📥 158	📦 39k	⭐ 6	🔴 2021年2月
🔗 kuzukiri	📥 183	📦 27k	⭐ 6	🟡 2025年6月
🔗 ja-senter-benchmark	-	-	⭐ 9	🔴 2023年2月
🔗 fast-bunkai	📥 71	📦 4k	⭐ 71	🟡 2025年10月

情感分析

能够检测文本中情感或极性的库

oseti - 基于词典的日语情感分析工具
negapoji - 日语文本的正负情感分类。日本語文書のネガポジを判定。
pymlask - 日语文本的情感分析器
asari - 用 Python 实现的日语情感分析器。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 oseti	📥 379	📦 167k	⭐ 97	🟡 2025年8月
🔗 negapoji	-	-	⭐ 151	🔴 2017年8月
🔗 pymlask	📥 40	📦 66k	⭐ 116	🔴 2024年7月
🔗 asari	📥 91	📦 80k	⭐ 152	🔴 2022年10月

机器翻译

能够自动将文本从一种语言翻译成另一种语言的库

jparacrawl-finetune - JParaCrawl 预训练神经机器翻译（NMT）模型的示例用法。
JASS - JASS：针对日语的序列到序列预训练，用于神经机器翻译（LREC2020）；以及面向低资源神经机器翻译的语言学驱动多任务预训练（ACM TALLIP）。
PheMT - 一个基于现象的日英机器翻译鲁棒性评估数据集。该数据集基于 MTNT 数据集，并额外标注了四种语言现象：专有名词、缩略名词、口语表达和变体。COLING 2020。
VISA - 一个用于视觉场景感知机器翻译的歧义字幕数据集
plamo-translate-cli - 使用 plamo-2-translate 模型进行本地执行的命令行翻译接口。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 jparacrawl-finetune	-	-	⭐ 105	🔴 2021年4月
🔗 JASS	-	-	⭐ 16	🔴 2022年1月
🔗 PheMT	-	-	⭐ 19	🔴 2021年2月
🔗 VISA	-	-	⭐ 14	🔴 2022年10月
🔗 plamo-translate-cli	-	-	⭐ 339	🟡 2025年10月

命名实体识别

从文本中提取人名、地名和组织名称的库

namaco - 基于字符的命名实体识别。
entitypedia - Entitypedia 是一个基于维基百科的扩展命名实体词典。
noyaki - 将字符跨度标签信息转换为基于分词文本的标签信息。
bert-japanese-ner-finetuning - 用于对 BERT 模型进行微调的代码。Bertモデルのファインチューニングで固有表現抽出用タスクのモデルを作成・使用するサンプルです
joint-information-extraction-hs - 基于详细标注标准的病例报告语料库，用于推断命名实体及关系抽取精度的代码
pygeonlp - pygeonlp，一个用于日语文本地理标记的 Python 模块。
bert-ner-japanese - 使用 BERT 进行日语命名实体抽取的微调程序
huggingface-finetune-japanese - 针对日语语言的仅编码器和编码器-解码器 Transformer 进行微调的示例（Hugging Face 资源）
novelanalysisbyner - 通过 BERT 微调进行命名实体抽取

名称	每周下载量	总下载量	星标数	最近提交
🔗 namaco	-	-	⭐ 40	🔴 2018年2月
🔗 entitypedia	-	-	⭐ 13	🔴 2018年12月
🔗 noyaki	📥 131	📦 2万	⭐ 5	🔴 2022年8月
🔗 bert-japanese-ner-finetuning	-	-	⭐ 11	🔴 2022年6月
🔗 joint-information-extraction-hs	-	-	⭐ 1	🔴 2021年11月
🔗 pygeonlp	📥 70	📦 2.2万	⭐ 22	🟢 3月
🔗 bert-ner-japanese	-	-	⭐ 5	🔴 2022年9月
🔗 huggingface-finetune-japanese	-	-	⭐ 16	🔴 2023年10月
🔗 novelanalysisbyner	-	-	⭐ 2	🔴 2024年6月

OCR

从图像中识别并提取文本的库

Manga OCR - 关于日语文本的光学字符识别，主要针对日本漫画
mokuro - 在浏览器中阅读日语漫画，并可选择文本。
handwritten-japanese-ocr - 使用触摸屏绘制输入文本，结合 Intel OpenVINO 工具包实现的手写日语 OCR 演示
OCR_Japanease - 日本語OCR
ndlocr_cli - NDLOCR 的应用程序
donut - ECCV 2022 上提出的无 OCR 文档理解 Transformer（Donut）及合成文档生成器（SynthDoG）的官方实现
JMTrans - 漫画翻译工具 - 从 URL 获取日语漫画并翻译漫画图像
Kindai-OCR - 用于识别现代日语杂志的 OCR 系统
text_recognition - NDLOCR 用文本识别模块
Poricom - 漫画图像中的光学字符识别。漫画 OCR 桌面应用程序
owocr - 针对日语文本的光学字符识别
yomitoku - Yomitoku 是一款专为日语设计的 AI 驱动文档图像分析软件包。
findtextcenternet - 基于 CenterNet 的日语 OCR
simple-ocr-for-manga - 一种简单的 OCR 工具，适用于传统日语和竖排日语漫画
jp-ocr-evaluation - 对日语文本图像的 OCR 性能进行评估
paddleocr-vl-sft-for-japanese-manga-on-rtx-3060 - 在 Manga109s 数据集上对 PaddleOCR-VL 进行微调，以识别日语漫画中的文字。基础模型在处理漫画中竖排日语文字的阅读顺序时存在困难。经过微调后，该模型能够正确处理漫画特有的文本布局。
MangaOCR - 一款轻量级的 OCR 模型，特别适用于漫画中的日语文本
meikiocr - 高速、高精度的日语视频游戏本地 OCR
meikipop - 适用于 Windows、Linux 和 macOS 的通用日语 OCR 弹出式词典

名称	每周下载量	总下载量	星标数	最近提交
🔗 manga-ocr	📥 4千	📦 26.7万	⭐ 2.6千	🟡 2025年6月
🔗 mokuro	📥 1千	📦 9.4万	⭐ 1.6千	🟢 2月
🔗 handwritten-japanese-ocr	-	-	⭐ 38	🔴 2022年4月
🔗 OCR_Japanease	-	-	⭐ 246	🔴 2021年4月
🔗 ndlocr_cli	-	-	⭐ 654	🟡 2025年9月
🔗 donut	📥 291	📦 19.8万	⭐ 6.8千	🔴 2023年7月
🔗 JMTrans	-	-	⭐ 90	🔴 2021年1月
🔗 Kindai-OCR	-	-	⭐ 153	🔴 2023年7月
🔗 text_recognition	-	-	⭐ 8	🔴 2023年7月
🔗 Poricom	-	-	⭐ 421	🔴 2023年6月
🔗 owocr	-	-	⭐ 223	🟢 上周一
🔗 yomitoku	📥 1千	📦 8.6万	⭐ 1.4千	🟢 3月
🔗 findtextcenternet	-	-	⭐ 59	🟡 2025年8月
🔗 simple-ocr-for-manga	-	-	⭐ 7	🔴 仓库未找到
🔗 jp-ocr-evaluation	-	-	⭐ 1	🔴 2024年3月
🔗 paddleocr-vl-sft-for-japanese-manga-on-rtx-3060	-	-	⭐ 11	🟡 2025年12月
🔗 MangaOCR	-	-	⭐ 35	🔴 2024年5月
🔗 meikiocr	📥 1千	📦 2.3万	⭐ 69	🟢 上周三
🔗 meikipop	-	-	⭐ 257	🔴 无效

预训练模型工具

利用预训练模型提升准确率和效率的库

JGLUE - JGLUE：日语通用语言理解评估
ginza-transformers - 在spacy-transformers中使用自定义分词器
t5_japanese_dialogue_generation - 使用T5进行对话生成
japanese_text_classification - 用于研究包括MLP、CNN、RNN、BERT在内的多种深度神经网络文本分类器。
Japanese-BERT-Sentiment-Analyzer - 使用FastAPI和BERT部署情感分析服务端
jmlm_scoring - 基于掩码语言模型的日语和越南语评分
allennlp-shiba-model - AllenNLP与Shiba的集成：日语CANINE模型
evaluate_japanese_w2v - 用于在日语相似度数据集上评估预训练日语word2vec模型的脚本
gector-ja - 基于BERT的日语语法错误检测与修正
Japanese-BPEEncoder - 日语BPE编码器
Japanese-BPEEncoder_V2 - 日语BPE编码器版本2
transformer-copy - 日语文法错误修正工具
japanese-stable-diffusion - 日文Stable Diffusion是一种特定于日语的潜在文本到图像扩散模型，能够根据任意文本输入生成照片级逼真的图像。
nagisa_bert - 用于nagisa的BERT模型
prefix-tuning-gpt - GPT/GPT-NeoX模型前缀调优示例代码及使用训练好的前缀进行推理的代码
JGLUE-benchmark - JGLUE日语语言理解基准的训练与评估脚本
jptranstokenizer - 适用于transformers库的日语分词器
jp-stable - JP语言模型评估框架
compare-ja-tokenizer - 在连续书写语言中，不同分词器在下游任务上的表现如何？——以日语为例，ACL SRW 2023
lm-evaluation-harness-jp-stable - 用于自回归语言模型少样本评估的框架。
llm-lora-classification - llm-lora分类
jp-stable - JP语言模型评估框架
rinna_gpt-neox_ggml-lora - 该仓库包含脚本及合并脚本，经过修改后可将Alpaca-Lora适配器应用于LoRA微调，假设使用“rinna/japanese-gpt-neox...”[gpt-neox]模型并将其转换为ggml格式。
japanese-llm-roleplay-benchmark - 此仓库旨在评估日语大模型在角色扮演场景中的性能。
japanese-llm-ranking - 该仓库支持YuzuAI的日语大模型排行榜，这是LMSYS Vicuna评测的日语版。
llm-jp-eval - 该工具可跨多个数据集自动评估日语大型语言模型。
llm-jp-sft - 该仓库包含LLM-jp模型监督微调的代码。
llm-jp-tokenizer - 这是LLM学习会（LLM-jp）开发的LLM用分词器相关代码汇总仓库。
japanese-lm-fin-harness - 日语语言模型财务评估框架
ja-vicuna-qa-benchmark - 日语Vicuna问答基准
swallow-evaluation - Swallow项目大型语言模型评估脚本
swallow-evaluation-instruct - Swallow项目事后学习过的大型语言模型评估框架
pretrained_doc2vec_ja - 日语维基百科上的预训练doc2vec模型
pl-bert-ja - 日语音素级BERT模型仓库

名称	每周下载量	总下载量	星数	最近一次提交
🔗 JGLUE	-	-	⭐ 338	🔴 2025年3月
🔗 ginza-transformers	📥 1千	📦 18.6万	⭐ 无效	🔴 2022年8月
🔗 t5_japanese_dialogue_generation	-	-	⭐ 3	🔴 2021年11月
🔗 japanese_text_classification	-	-	⭐ 9	🔴 2020年1月
🔗 Japanese-BERT-Sentiment-Analyzer	-	-	⭐ 无效	🔴 2021年4月
🔗 jmlm_scoring	-	-	⭐ 5	🔴 2022年2月
🔗 allennlp-shiba-model	📥 32	📦 2万	⭐ 12	🔴 2021年6月
🔗 evaluate_japanese_w2v	-	-	⭐ 12	🔴 2024年11月
🔗 gector-ja	-	-	⭐ 19	🔴 2021年6月
🔗 Japanese-BPEEncoder	-	-	⭐ 41	🔴 2021年9月
🔗 Japanese-BPEEncoder_V2	-	-	⭐ 41	🔴 2023年1月
🔗 transformer-copy	-	-	⭐ 29	🔴 2020年9月
🔗 japanese-stable-diffusion	-	-	⭐ 仓库未找到	🔴 仓库未找到
🔗 nagisa_bert	📥 40	📦 5.7万	⭐ 5	🟢 2月
🔗 prefix-tuning-gpt	-	-	⭐ 仓库未找到	🔴 仓库未找到
🔗 JGLUE-benchmark	-	-	⭐ 18	🟢 上周四
🔗 jptranstokenizer	📥 83	📦 2.8万	⭐ 5	🔴 2024年2月
🔗 jp-stable	-	-	⭐ 154	🔴 2023年11月
🔗 compare-ja-tokenizer	-	-	⭐ 6	🔴 2023年6月
🔗 lm-evaluation-harness-jp-stable	-	-	⭐ 1	🔴 2023年6月
🔗 llm-lora-classification	-	-	⭐ 98	🔴 2023年7月
🔗 jp-stable	-	-	⭐ 154	🔴 2023年11月
🔗 rinna_gpt-neox_ggml-lora	-	-	⭐ 19	🔴 2023年5月
🔗 japanese-llm-roleplay-benchmark	-	-	⭐ 40	🔴 2023年11月
🔗 japanese-llm-ranking	-	-	⭐ 50	🔴 2024年3月
🔗 llm-jp-eval	-	-	⭐ 150	🟢 上周一
🔗 llm-jp-sft	-	-	⭐ 62	🔴 2024年6月
🔗 llm-jp-tokenizer	-	-	⭐ 46	🟢 上周一
🔗 japanese-lm-fin-harness	-	-	⭐ 77	🟢 1月
🔗 ja-vicuna-qa-benchmark	-	-	⭐ 33	🔴 2024年6月
🔗 swallow-evaluation	-	-	⭐ 24	🟡 2025年9月
🔗 swallow-evaluation-instruct	-	-	⭐ 27	🟡 2025年10月
🔗 pretrained_doc2vec_ja	-	-	⭐ 25	🔴 2019年1月
🔗 pl-bert-ja	-	-	⭐ 24	🔴 2023年12月

其他

支持日语处理的通用工具

namedivider-python - 一个用于将日本全名拆分为姓氏和名字的工具。
asa-python - 一个精选的、专注于日语自然语言处理Python库的资源列表。
python_asa - 日语语义角色标注系统（ASA）的Python实现。
toiro - 一个比较日本分词器的工具。
ja-timex - 基于规则的解析器，用于从自然语言文本中提取并规范化时间信息表达。
JapaneseTokenizers - 一套用于从文本数据中进行特征选择的指标集合。
daaja - 此仓库包含针对日语NLP的数据增强实现。
accel-brain-code - 该仓库旨在为我在个人网站上撰写的概念验证（PoC）及研发（R&D）案例制作原型。主要研究方向包括与表示学习相关的自编码器、基于能量模型的统计机器学习、对抗生成网络等。
kyoto-reader - 京都语料库、KWDLC和带标注的FKCC语料库的处理器。
nlplot - 自然语言处理可视化模块。
rake-ja - 面向日语的快速自动关键词提取算法。
jel - 日语文本实体链接工具。
MedNER-J - MedEX/J（日语疾病名称抽取器）的最新版本。
zunda-python - Zunda：面向Python的日语增强模态分析客户端。
AIO2_DPR_baseline - https://www.nlp.ecei.tohoku.ac.jp/projects/aio/
showcase - Matsubayashi & Inui (2018)论文中提出的日语谓词-论元结构（PAS）分析器的PyTorch实现，并做了一些改进。
darts-clone-python - Darts克隆的Python绑定。
jrte-corpus_example - 日语真实文本蕴含语料库的示例代码。
desuwa - 基于KNP规则文件对词素和短语进行特征标注的工具（纯Python实现）。
HotPepperGourmetDialogue - 通过日语对话进行餐厅搜索系统。
nlp-recipes-ja - 日语自然语言处理的示例代码。
Japanese_nlp_scripts - 一些用于在Python中处理日语文本的小型示例脚本。
DNorm-J - DNorm的日语版本。
pyknp-eventgraph - EventGraph是用于开发高级日语NLP应用的平台。
ishi - Ishi：日语意志分类器。
python-npylm - 基于贝叶斯层次语言模型的无监督形态分析。
python-npycrf - 结合条件随机场与贝叶斯层次语言模型的半监督形态分析。
unsupervised-pos-tagging - 无监督词性标注。
negima - Negima是一个Python包，可根据用户定义的词性规则从日语文本中提取短语。
YouyakuMan - 使用BertSum作为摘要模型的抽取式摘要器。
japanese-numbers-python - 用于解析自然语言中的日语数字（汉字、阿拉伯数字）的解析器。
kantan - 通过部首模式查找日语单词。
make-meidai-dialogue - 获取日语对话语料库。
japanese_summarizer - 日语文章摘要器。
chirptext - ChirpText是一系列用于Python的文本处理工具。
yubin - 日本地址清洗工具。
jawiki-cleaner - 日语维基百科清理工具。
japanese2phoneme - 一个将日语转换为音素的Python库。
anlp_nlp2021_d3-1 - 该仓库包含与“基于情感的文本分类中日语分词器的实验评估”相关实验的代码。
aozora_classification - 该项目旨在将日语句子分类为与夏目漱石、森鸥外、芥川龙之介等日本古典作家的相似程度。
aozora-corpus-generator - 从青空文库生成纯文本或分词后的文本文件。
JLM - 适用于日语、汉语等大词汇量语言的快速LSTM语言模型。
NTM - 对日语文章进行神经主题建模的测试。
EN-JP-ML-Lexicon - 这是一本关于机器学习和深度学习术语的英日词典。
text-generation - 易于使用的脚本，可用于用您自己的文本微调GPT-2-JA，生成句子，并自动推送到Twitter。
chainer_nic - 在Chainer上实现的神经图像字幕（NIC），以及其在英语和日语图像字幕数据集上的预训练模型。
unihan-lm - “UnihanLM：利用Unihan数据库进行粗粒度到细粒度的中日语言模型预训练”，AACL-IJCNLP 2020官方仓库。
mbart-finetuning - 用于对mBART模型进行微调的代码。
xvector_jtubespeech - xvector模型在jtubespeech上的应用。
TinySegmenterMaker - 用于自制TinySegmenter训练模型的工具。
Grongish - 日语与格隆吉语互转脚本。
WordCloud-Japanese - 使用WordCloud实现无需Mecab（形态分析引擎）即可对日语文本进行类似形态分析的显示效果的脚本。
snark - 基于日语WordNet的数据库访问库。
toEmoji - 将日语句子转换为仅由表情符号组成的句子的工具。
termextract - 专业术语提取算法实现练习。
JDT-with-KenLM-scoring - 对日语对话变换器的回答候选使用KenLM的N-gram语言模型进行打分、过滤或重新排序。
mixture-of-unigram-model - Python中的单字模型混合与无限单字模型混合。（混合单字模型与无限混合单字模型）
hidden-markov-model - Python中的隐马尔可夫模型（HMM）与无限隐马尔可夫模型（iHMM）。（隐藏马尔可夫模型与无限隐藏马尔可夫模型）
Ngram-language-model - Python中的N-gram语言模型。（N-gram语言模型）
ASRDeepSpeech - 使用Zakuro AI支持的PyTorch框架下的deepspeech2模型进行自动语音识别。
neural_ime - 神经输入法引擎。
neural_japanese_transliterator - 神经网络能否正确地将罗马字转写成日语？
tinysegmenter - 专为日语设计的分词器。
AugLy-jp - AugLy上的日语文本数据增强。
furigana4epub - 使用Mecab和Unidic为日语ePub书籍添加假名的Python脚本。
PyKatsuyou - 日语动词/形容词变位工具。
jageocoder - 纯Python实现的日语地址地理编码器。
pygeonlp - pygeonlp，一个用于给日语文本添加地理标签的Python模块。
nksnd - 新的假名-汉字转换引擎。
JaMIE - 日本医学信息抽取工具包。
fasttext-vs-word2vec-on-twitter-data - FastText与Word2Vec的比较、执行脚本及训练脚本。
minimal-search-engine - 最小的搜索引擎/PageRank/tf-idf。
5ch-analysis - 抓取5ch的历史日志，追踪过去流行的词汇（如“香具师”、“orz”等）。
tweet_extructor - 用于日本推特舆情分析数据集的推文下载工具。
japanese-word-aggregation - 基于Juman++和ConceptNet5.5聚合日语词汇。
jinf - 日语屈折形式转换器。
kwja - 日语统一语言分析器。
mlm-scoring-transformers - 基于掩码语言模型评分（ACL2020）的复现包。
ClipCap-for-Japanese - [PyTorch] 日语版ClipCap。
SAT-for-Japanese - [PyTorch] 日语版“展示、关注与讲述”。
cihai - 用于CJK（中文、日语、韩语）语言词典的Python库。
marine - MARINE：基于多任务学习的日语重音估计。
whisper-asr-finetune - 微调Whisper ASR模型。
japanese_chatbot - 使用BERT和Transformer解码器实现的日语聊天机器人。
radicalchar - 部首字符标准化库。
akaza - 又一款用于IBus/Linux的日语输入法。
posuto - 日本邮政编码数据。
tacotron2-japanese - Tacotron2的日语实现。
ibus-hiragana - IBus的平假名输入法。
furiganapad - 注音板。
chikkarpy - 日语同义词库。
ja-tokenizer-docker-py - Mecab + NEologd + Docker + Python3。
JapaneseEmbeddingEval - 日语嵌入评估。
gptuber-by-langchain - GPT将担任YouTuber。
shuwa - 扩展GNOME屏幕键盘以支持输入法。
japanese-nli-model - 该仓库提供了日语NLI模型的代码，这是一个经过微调的掩码语言模型。
tra-fugu - 使用FuguMT进行日英、英日翻译的工具。
fugumt - 这是一个利用“ぷるーふおぶこんせぷと”公开的机器翻译引擎的翻译环境。可以翻译表单中输入的字符串以及PDF文件。
JaSPICE - JaSPICE：基于谓词-论元结构的图像字幕模型自动评价指标。
Retrieval-based-Voice-Conversion-WebUI-JP-localization - 日语本地化。
pyopenjtalk - OpenJTalk的Python封装。
yomigana-ebook - 通过为电子书中每个汉字添加注音，使学习日语更加容易。
N46Whisper - 基于Whisper的日语字幕生成器。
japanese_llm_simple_webui - 这是Rinna-3.6B、OpenCALM等日语LLM（大规模语言模型）的简易Web界面。
pdf-translator - pdf-translator可以将英文PDF文件翻译成日语，同时保留原始布局。
japanese_qa_demo_with_haystack_and_es - 使用Haystack + Elasticsearch + 维基百科（日语）的日本问答系统示例。
mozc-devices - 自动从code.google.com/p/mozc-morse导出。
natsume - 一个日语文本前端处理工具包。
vits-japros-webui - 日语TTS（VITS）的学习与语音合成的Gradio WebUI。
ja-law-parser - 一个日语法律解析器。
dictation-kit - 使用Julius的日语听写工具。
julius4seg - 使用Julius辅助分段的工具。
voicevox_engine - 免费可用的中等质量文本朗读软件VOICEVOX的语音合成引擎。
LLaVA-JP - LLaVA-JP是使用LLaVA方法训练的日语视觉语言模型。
RAG-Japanese - 在低资源环境下为日语LLM提供的开源RAG，使用Llama Index。
bertjsc - 使用BERT（掩码语言模型）的日语拼写错误纠正器。基于BERT进行日语校正。
llm-leaderboard - 针对日语任务的LLM评估项目。
jglue-evaluation-scripts - JGLUE日语语言理解基准的训练与评估脚本。
BLIP2-Japanese - 使用预先在日语数据集上训练好的模型修改LAVIS的BLIP2 Q-former。
wikipedia-passages-jawiki-embeddings-utils - 将维基百科日语文章转换为各种日语嵌入或faiss索引的脚本等。
simple-simcse-ja - 探索日语SimCSE。
wikipedia-japanese-open-rag - 基于维基百科日语文章，构建一个回答用户问题的Gradio基础RAG示例。
gpt4-autoeval - 使用GPT-4自动评估语言模型响应的脚本。
t5-japanese - 日语T5模型。
japanese_llm_eval - 一个用于评估日语LLM的仓库。
jmteb - JMTEB（日语大规模文本嵌入基准）的评估脚本。
pydomino - 用于对日语语音进行音素标签对齐的工具。
easynovelassistant - 使用轻量且无监管、无审查的日语本地LLM《LightChatAssistant-TypeB》的简单小说生成助手。具备永久生成能力，不断累积好运。也支持朗读功能。
clip-japanese - 日语数据集上的qlora指令调整学习示例代码。
rime-jaroomaji - Rime IME的日语罗马字输入方案。
deep-question-generation - 使用深度学习自动生成测验题目（日语T5模型）。
magpie-nemotron - 使用Magpie方法和Nemotron-4-340B-Instruct生成合成对话数据集的代码。
qlora_ja - 日语数据集上的qlora指令调整学习示例代码。
mozcdic-ut-jawiki - Mozc UT Jawiki词典是由日语维基百科为Mozc生成的词典。
shisa-v2 - 日英双语LLM。
llm-translator - 基于Mixtral的日英（英日）翻译模型。
llm-jp-asr - 用于训练将Whisper解码器替换为llm-jp-1.3b-v1.0的语音识别模型的代码。
rag-japanese - 在低资源环境下为日语LLM提供的开源RAG，使用Llama Index。
monaka - 一个日语语法分析器（包括历史日语）。
jp-translate.cloud - 基于最新NMT研究的先进开源日英双向机器翻译系统。
substring-word-finder - 判断连续子字符串是否为单词。
heron-vlm-leaderboard - 该项目是一个用于评估和比较各类视觉语言模型（VLM）性能的基准测试工具。它使用两个数据集：LLaVA-Bench-In-the-Wild和日本HERON Bench来衡量模型性能。
text2dataset - 使用开放的LLM轻松将大型英文语料库转化为日语语料库。
mecab-web-api - 基于Mecab的日语形态分析WebAPI。
mecab_controller - Mecab封装器，用于生成假名注音。
vits - VITS文本朗读器兼变声器。
akari_chatgpt_bot - 使用语音识别、文本生成和语音合成进行对话的聊天机器人应用。
kudasai - 通过先进的预处理和集成翻译技术简化日英翻译流程。
mecab-visualizer - 用于可视化Mecab形态分析结果的工具。
add-dictionary - 一个通过GUI为OpenJTalk用户词典添加条目的应用程序。
j-moshi - J-Moshi：一个日语全双工语音对话系统。
jatts - JATTS：日语TTS（用于研究）。
tsukasa-speech - 一个前沿的日语语音生成网络。
symptom-expression-search - 尝试使用Elasticsearch、GiNZA和患者表达词典进行患者表达波动吸收的意义结构检索。
llm-jp-judge - 用于自动评估生成内容的Python工具。
asagi-vlm-colaboratory-sample - 在Colaboratory上试用Asagi（利用合成数据集的大规模日语VLM）的示例。
llm-jp-eval-mm - 该工具可自动跨多个数据集评估日语多模态大型语言模型。
llm-jp-judge - 用于自动评估生成内容的Python工具。
manga109api - 一个简单的Python API，用于读取Manga109的标注数据。
fastrtc-jp - fastrtc的日语TTS和STT附加套件。
whisper-transcription - 使用Python的Whisper模型进行语音转文字的工具。
pocket-researcher - 利用LLM的自主研究代理。方便地收集信息、掌握概要。
jtransbench - 一个轻松评估日语翻译技能的工具。
easyllasa - EasyLlasa是一种TSTS（TextSpeechToSpeech），它根据5至15秒的日语语音和日语文本生成日语语音。
kanjikana-model - 姓名汉字-假名匹配模型。
deep-openreview-research-ja - 一个能够自动发现并分析OpenReview论文的对应日语AI代理。
pitchbench - 实验性的基于日语发音重音的LLM基准测试。
mini-transformer-from-scratch - 从头开始构建英日Transformer。
vv_core_inference - VOICEVOX核心中使用的深度学习模型的推理代码。
pyopenjtalk-plus - pyopenjtalk-plus：一个带有额外改进的OpenJTalk Python封装。
japanese_spelling_correction - 日语拼写纠正。
py-kaomoji - Python版颜文字。
llm-jp-vila - 该仓库包含训练llm-jp/llm-jp-3-vila-14b的代码，该模型是从VILA仓库修改而来。
kanjivg-radical - kanjivg-radical。
japanese-wordnet-visualization - 该项目使用Django构建的Web应用对日语WordNet（日本語ワードネット）进行可视化。
piper-plus - 增强版Piper TTS，支持日语、WebAssembly、多GPU训练及质量改进。
Japanera - 轻松使用日本年号系统的工具。
bert-abstractive-text-summarization - 使用BERT进行日语句子摘要。
kyujipy - 一个Python库，用于将日语文本在新字体与旧字体之间相互转换。
jitenbot - 用于创建个人日语词典副本的网页爬虫。
ja-icd10 - 一个用于处理ICD-10国际疾病分类日语信息的Python包。
pl-bert-vits2 - 使用音素级日语BERT的VITS2。
ndc_predictor - NDC预测器的机器学习模型（基于书目信息预测日本十进分类的fastText已训练模型）。
pfmt-bench-fin-ja - pfmt-bench-fin-ja：日语金融领域首选的多轮对话基准。
marine-plus - MARINE：基于多任务学习的日语重音估计（也支持Windows）。
ja-tokenizer-benchmark - 比较不同日语分词器在Python中的速度。
yat - yat：又一个用于日语NLP的分词器。
igakuqa119 - 在第119次日本医学执照考试中评估LLM。
japanese-luw-tokenizer - 日语长单元词分词器，结合了Transformers的RemBertTokenizerFast。
ibus-jig - ibus-jig：使用GPT-4的日语输入法。
jp-stopword-filter - 一个轻量级的Python库，旨在根据可定制规则过滤掉日语文本中的停用词。
yasumail - 用于ML训练数据的合成日语商务邮件生成器。
himotoki - 一个基于Python的日语分词器、词典、形态分析器和罗马字转写工具。基于JMDict用于语言学习。
diafill-toolkit - 一个用于合成富含填充语、短句的日语对话脚本的工具包，适用于基于大型语言模型（LLMs）的语音交互。该项目旨在分两个阶段生成数据：种子生成（元数据创建）和对话生成（脚本创作）。
eval_vertical_ja - 在竖排日语文本上评估多模态大型语言模型。
jp-llm-corpus-pii-filter - 本代码旨在从大型语言模型（LLM）的训练语料库中过滤出个人信息中特别需要关注的“需关注个人信息”。
eval_vertical_ja - 在竖排日语文本上评估多模态大型语言模型。
Novel2DialCorpus - 从小说文本中构建闲聊对话语料库的方法。

Name	downloads/week	total downloads	stars	last commit
🔗 namedivider-python	📥 730	📦 82k	⭐ 251	🟡 november 2025
🔗 asa-python	📥 36	📦 31k	⭐ 11	🔴 february 2019
🔗 python_asa	-	-	⭐ 22	🔴 january 2020
🔗 toiro	📥 13	📦 27k	⭐ 121	🟡 november 2025
🔗 ja-timex	📥 551	📦 93k	⭐ 140	🔴 november 2023
🔗 JapaneseTokenizers	-	-	⭐ 137	🔴 march 2019
🔗 daaja	📥 66	📦 25k	⭐ 64	🔴 february 2023
🔗 accel-brain-code	📥 251	📦 150k	⭐ 323	🔴 december 2023
🔗 JGLUE	-	-	⭐ 338	🔴 march 2025
🔗 kyoto-reader	📥 64	📦 52k	⭐ 10	🔴 june 2024
🔗 nlplot	📥 212	📦 109k	⭐ 238	🔴 september 2022
🔗 rake-ja	-	-	⭐ 21	🔴 october 2018
🔗 jel	📥 13	📦 8k	⭐ 11	🔴 july 2021
🔗 MedNER-J	-	-	⭐ 18	🔴 may 2022
🔗 zunda-python	📥 10	📦 6k	⭐ 10	🔴 november 2019
🔗 AIO2_DPR_baseline	-	-	⭐ 16	🔴 january 2022
🔗 showcase	📥 4	📦 7k	⭐ 6	🔴 june 2018
🔗 darts-clone-python	📥 3k	📦 9M	⭐ 20	🔴 april 2022
🔗 jrte-corpus_example	-	-	⭐ 3	🔴 november 2021
🔗 desuwa	📥 18	📦 10k	⭐ 6	🔴 may 2022
🔗 HotPepperGourmetDialogue	-	-	⭐ 277	🔴 may 2016
🔗 nlp-recipes-ja	-	-	⭐ 66	🔴 april 2021
🔗 Japanese_nlp_scripts	-	-	⭐ 26	🔴 june 2019
🔗 DNorm-J	-	-	⭐ 9	🔴 june 2022
🔗 pyknp-eventgraph	📥 86	📦 66k	⭐ 9	🔴 september 2022
🔗 ishi	📥 6	📦 6k	⭐ 2	🔴 may 2020
🔗 python-npylm	-	-	⭐ 34	🔴 january 2019
🔗 python-npycrf	-	-	⭐ 11	🔴 march 2018
🔗 unsupervised-pos-tagging	-	-	⭐ 16	🔴 october 2017
🔗 negima	📥 17	📦 16k	⭐ 14	🔴 august 2018
🔗 YouyakuMan	-	-	⭐ 52	🔴 september 2020
🔗 japanese-numbers-python	📥 1k	📦 2M	⭐ 21	🔴 april 2020
🔗 kantan	-	-	⭐ 8	🔴 october 2024
🔗 make-meidai-dialogue	-	-	⭐ 40	🔴 september 2017
🔗 japanese_summarizer	-	-	⭐ 10	🔴 august 2022
🔗 chirptext	📥 6k	📦 212k	⭐ 7	🔴 october 2022
🔗 yubin	📥 7	📦 3k	⭐ 3	🔴 october 2019
🔗 jawiki-cleaner	📥 34	📦 24k	⭐ 6	🔴 february 2021
🔗 japanese2phoneme	📥 5	📦 4k	⭐ 1	🔴 february 2022
🔗 anlp_nlp2021_d3-1	-	-	⭐ 1	🔴 march 2022
🔗 aozora_classification	-	-	⭐ 11	🔴 september 2017
🔗 aozora-corpus-generator	-	-	⭐ 8	🟡 june 2025
🔗 JLM	-	-	⭐ 111	🔴 june 2019
🔗 NTM	-	-	⭐ 13	🔴 july 2019
🔗 EN-JP-ML-Lexicon	-	-	⭐ 40	🔴 march 2021
🔗 text-generation	-	-	⭐ invalid	🟡 august 2025
🔗 chainer_nic	-	-	⭐ 17	🔴 december 2018
🔗 unihan-lm	-	-	⭐ 2	🔴 november 2020
🔗 mbart-finetuning	-	-	⭐ 3	🔴 october 2021
🔗 xvector_jtubespeech	-	-	⭐ 47	🔴 november 2023
🔗 TinySegmenterMaker	-	-	⭐ 72	🔴 september 2022
🔗 Grongish	-	-	⭐ 25	🟡 december 2025
🔗 WordCloud-Japanese	-	-	⭐ 9	🔴 january 2020
🔗 snark	-	-	⭐ 11	🔴 march 2020
🔗 toEmoji	-	-	⭐ 4	🔴 april 2018
🔗 termextract	-	-	⭐ 18	🔴 september 2018
🔗 JDT-with-KenLM-scoring	-	-	⭐ 1	🔴 july 2022
🔗 mixture-of-unigram-model	-	-	⭐ 6	🔴 june 2017
🔗 hidden-markov-model	-	-	⭐ 5	🔴 june 2017
🔗 Ngram-language-model	-	-	⭐ 5	🔴 december 2017
🔗 ASRDeepSpeech	-	-	⭐ 69	🔴 september 2022
🔗 neural_ime	-	-	⭐ 67	🔴 december 2016
🔗 neural_japanese_transliterator	-	-	⭐ 178	🔴 september 2017
🔗 tinysegmenter	📥 112k	📦 173k	⭐ repo not found	🔴 november 2015
🔗 AugLy-jp	📥 85	📦 30k	⭐ 7	🔴 september 2021
🔗 furigana4epub	📥 22	📦 12k	⭐ 29	🔴 september 2021
🔗 PyKatsuyou	📥 93	📦 20k	⭐ 12	🔴 march 2025
🔗 jageocoder	📥 4k	📦 354k	⭐ 95	🟢 last tuesday
🔗 pygeonlp	📥 70	📦 22k	⭐ 22	🟢 march
🔗 nksnd	-	-	⭐ 26	🔴 may 2018
🔗 JaMIE	-	-	⭐ 9	🟢 march
🔗 fasttext-vs-word2vec-on-twitter-data	-	-	⭐ 48	🔴 august 2017
🔗 minimal-search-engine	-	-	⭐ 19	🔴 july 2019
🔗 5ch-analysis	-	-	⭐ 75	🔴 november 2018
🔗 tweet_extructor	-	-	⭐ 3	🔴 august 2022
🔗 japanese-word-aggregation	-	-	⭐ 2	🔴 august 2018
🔗 jinf	📥 619	📦 56k	⭐ 4	🔴 december 2022
🔗 kwja	📥 340	📦 57k	⭐ 141	🟡 august 2025
🔗 mlm-scoring-transformers	-	-	⭐ 6	🔴 december 2022
🔗 ClipCap-for-Japanese	-	-	⭐ 12	🔴 october 2022
🔗 SAT-for-Japanese	-	-	⭐ 2	🔴 october 2022
🔗 cihai	📥 833	📦 213k	⭐ 93	🟢 today
🔗 marine	📥 43	📦 15k	⭐ 36	🔴 september 2022
🔗 whisper-asr-finetune	-	-	⭐ 32	🔴 december 2022
🔗 japanese_chatbot	-	-	⭐ repo not found	🔴 repo not found
🔗 radicalchar	-	-	⭐ 9	🔴 december 2022
🔗 akaza	-	-	⭐ 249	🟢 yesterday
🔗 posuto	📥 6k	📦 696k	⭐ 226	🟢 last wednesday
🔗 tacotron2-japanese	-	-	⭐ 269	🔴 september 2022
🔗 ibus-hiragana	-	-	⭐ 78	🟢 march
🔗 furiganapad	-	-	⭐ 19	🟡 april 2025
🔗 chikkarpy	📥 418	📦 60k	⭐ 55	🔴 february 2022
🔗 ja-tokenizer-docker-py	-	-	⭐ 36	🔴 may 2022
🔗 JapaneseEmbeddingEval	-	-	⭐ 183	🔴 october 2024
🔗 gptuber-by-langchain	-	-	⭐ 63	🔴 january 2023
🔗 shuwa	-	-	⭐ 146	🔴 december 2022
🔗 japanese-nli-model	-	-	⭐ 6	🔴 october 2022
🔗 tra-fugu	-	-	⭐ 6	🔴 march 2023
🔗 fugumt	-	-	⭐ 64	🔴 february 2021
🔗 JaSPICE	📥 4	📦 2k	⭐ 9	🔴 november 2023
🔗 Retrieval-based-Voice-Conversion-WebUI-JP-localization	-	-	⭐ 48	🔴 april 2023
🔗 pyopenjtalk	📥 19k	📦 1M	⭐ 249	🟡 april 2025
🔗 yomigana-ebook	📥 22	📦 7k	⭐ 26	🔴 february 2024
🔗 N46Whisper	-	-	⭐ 1.7k	🔴 february 2025
🔗 japanese_llm_simple_webui	-	-	⭐ 17	🔴 may 2024
🔗 pdf-translator	-	-	⭐ 339	🔴 may 2024
🔗 japanese_qa_demo_with_haystack_and_es	-	-	⭐ 1	🔴 december 2022
🔗 mozc-devices	-	-	⭐ 2.7k	🟡 november 2025
🔗 natsume	📥 0	📦 3k	⭐ repo not found	🔴 repo not found
🔗 vits-japros-webui	-	-	⭐ 42	🔴 january 2024
🔗 ja-law-parser	-	-	⭐ 25	🔴 january 2024
🔗 dictation-kit	-	-	⭐ 164	🔴 april 2019
🔗 julius4seg	-	-	⭐ 7	🔴 august 2021
🔗 voicevox_engine	-	-	⭐ 1.7k	🟢 last wednesday
🔗 LLaVA-JP	-	-	⭐ 64	🔴 june 2024
🔗 RAG-Japanese	-	-	⭐ 10	🟡 may 2025
🔗 bertjsc	-	-	⭐ 14	🔴 august 2024
🔗 llm-leaderboard	-	-	⭐ 92	🟡 september 2025
🔗 jglue-evaluation-scripts	-	-	⭐ 18	🟢 last thursday
🔗 BLIP2-Japanese	-	-	⭐ 13	🟡 september 2025
🔗 wikipedia-passages-jawiki-embeddings-utils	-	-	⭐ 11	🔴 march 2024
🔗 simple-simcse-ja	-	-	⭐ 69	🔴 october 2023
🔗 wikipedia-japanese-open-rag	-	-	⭐ repo not found	🔴 repo not found
🔗 gpt4-autoeval	-	-	⭐ 16	🔴 june 2024
🔗 t5-japanese	-	-	⭐ 118	🟡 september 2025
🔗 japanese_llm_eval	-	-	⭐ 5	🔴 invalid
🔗 jmteb	-	-	⭐ 89	🟢 march
🔗 pydomino	-	-	⭐ 39	🟡 august 2025
🔗 easynovelassistant	-	-	⭐ 222	🔴 july 2024
🔗 clip-japanese	-	-	⭐ 13	🟡 september 2025
🔗 rime-jaroomaji	-	-	⭐ 48	🟢 last thursday
🔗 deep-question-generation	-	-	⭐ 12	🔴 march 2023
🔗 magpie-nemotron	-	-	⭐ 9	🔴 july 2024
🔗 qlora_ja	-	-	⭐ 1	🔴 july 2024
🔗 mozcdic-ut-jawiki	-	-	⭐ 28	🟢 last thursday
🔗 shisa-v2	-	-	⭐ 28	🟡 december 2025
🔗 llm-translator	-	-	⭐ 20	🔴 january 2025
🔗 llm-jp-asr	-	-	⭐ 9	🔴 september 2024
🔗 rag-japanese	-	-	⭐ 10	🟡 may 2025
🔗 monaka	-	-	⭐ 5	🔴 january 2025
🔗 jp-translate.cloud	-	-	⭐ 3	🔴 september 2024
🔗 substring-word-finder	-	-	⭐ 4	🟡 november 2025
🔗 heron-vlm-leaderboard	-	-	⭐ 6	🔴 december 2024
🔗 text2dataset	-	-	⭐ 28	🔴 january 2025
🔗 mecab-web-api	-	-	⭐ 40	🔴 july 2022
🔗 mecab_controller	-	-	⭐ 19	🟢 march
🔗 vits	-	-	⭐ 92	🔴 february 2023
🔗 akari_chatgpt_bot	-	-	⭐ 48	🟡 october 2025
🔗 kudasai	-	-	⭐ 26	🟡 june 2025
🔗 mecab-visualizer	-	-	⭐ 2	🔴 september 2023
🔗 add-dictionary	-	-	⭐ 3	🟡 october 2025
🔗 j-moshi	-	-	⭐ 305	🟡 june 2025
🔗 jatts	-	-	⭐ 44	🟢 march
🔗 tsukasa-speech	-	-	⭐ 63	🟡 may 2025
🔗 symptom-expression-search	-	-	⭐ 2	🔴 february 2021
🔗 llm-jp-judge	-	-	⭐ 40	🟡 december 2025
🔗 asagi-vlm-colaboratory-sample	-	-	⭐ 1	🔴 march 2025
🔗 llm-jp-eval-mm	-	-	⭐ 41	🟢 january
🔗 llm-jp-judge	-	-	⭐ 40	🟡 december 2025
🔗 manga109api	📥 190	📦 46k	⭐ 129	🔴 march 2022
🔗 fastrtc-jp	-	-	⭐ 5	🟡 may 2025
🔗 whisper-transcription	-	-	⭐ 17	🟢 january
🔗 pocket-researcher	-	-	⭐ 10	🟡 april 2025
🔗 jtransbench	-	-	⭐ 13	🟡 october 2025
🔗 easyllasa	-	-	⭐ 25	🟡 september 2025
🔗 kanjikana-model	-	-	⭐ 114	🟡 december 2025
🔗 deep-openreview-research-ja	-	-	⭐ 13	🟡 november 2025
🔗 pitchbench	-	-	⭐ 1	🟢 february
🔗 mini-transformer-from-scratch	-	-	⭐ 2	🟡 november 2025
🔗 vv_core_inference	-	-	⭐ 31	🟡 december 2025
🔗 pyopenjtalk-plus	📥 24k	📦 456k	⭐ 56	🔴 invalid
🔗 japanese_spelling_correction	-	-	⭐ 14	🔴 september 2023
🔗 py-kaomoji	📥 28	📦 37k	⭐ 6	🔴 december 2018
🔗 llm-jp-vila	-	-	⭐ 10	🟡 august 2025
🔗 kanjivg-radical	-	-	⭐ 106	🔴 august 2018
🔗 japanese-wordnet-visualization	-	-	⭐ 3	🔴 november 2022
🔗 piper-plus	-	-	⭐ 106	🟢 today
🔗 Japanera	📥 3k	📦 366k	⭐ 35	🟡 june 2025
🔗 bert-abstractive-text-summarization	-	-	⭐ 49	🔴 december 2019
🔗 kyujipy	📥 25	📦 23k	⭐ 22	🟢 january
🔗 jitenbot	-	-	⭐ 4	🔴 december 2024
🔗 ja-icd10	-	-	⭐ 5	🔴 july 2021
🔗 pl-bert-vits2	-	-	⭐ 14	🔴 december 2023
🔗 ndc_predictor	-	-	⭐ 11	🔴 august 2021
🔗 pfmt-bench-fin-ja	-	-	⭐ 9	🔴 march 2025
🔗 marine-plus	📥 299	📦 12k	⭐ 8	🟢 march
🔗 ja-tokenizer-benchmark	-	-	⭐ 7	🔴 february 2022
🔗 yat	-	-	⭐ 7	🔴 june 2018
🔗 igakuqa119	-	-	⭐ 8	🟢 january
🔗 japanese-luw-tokenizer	-	-	⭐ 6	🔴 december 2021
🔗 ibus-jig	-	-	⭐ 4	🔴 december 2023
🔗 jp-stopword-filter	📥 8	📦 5k	⭐ 4	🔴 november 2024
🔗 yasumail	-	-	⭐ 2	🟢 january
🔗 himotoki	📥 73	📦 4k	⭐ 3	🟢 february
🔗 diafill-toolkit	-	-	⭐ 0	🟢 january
🔗 eval_vertical_ja	-	-	⭐ 1	🟡 november 2025
🔗 jp-llm-corpus-pii-filter	-	-	⭐ 7	🔴 march 2025
🔗 eval_vertical_ja	-	-	⭐ 1	🟡 november 2025
🔗 Novel2DialCorpus	-	-	⭐ 0	🟢 february

C++

词法分析

用于日语词法分析的高性能库

mecab - 又一个日语词法分析器
jumanpp - Juman++（词法分析工具包）
kytea - 京都文本分析工具包，用于分词、发音估计等
juman - 日语词法分析系统JUMAN

名称	每周下载量	总下载量	星标数	最近提交
🔗 mecab	-	-	⭐ 1.1k	🔴 2025年2月
🔗 jumanpp	-	-	⭐ 411	🔴 2023年3月
🔗 kytea	-	-	⭐ 212	🔴 2020年4月
🔗 juman	-	-	⭐ 12	🔴 2021年12月

句法分析

用于日语句子依存句法和语法分析的库

cabocha - 又一个日语依存结构分析器
knp - 日语句法分析器

名称	每周下载量	总下载量	星标数	最近提交
🔗 cabocha	-	-	⭐ 121	🔴 2025年2月
🔗 knp	-	-	⭐ 34	🔴 2023年11月

其他

其他日语NLP和文本处理库

jsc - 用于日语假名汉字转换、中文拼音输入及中日混用输入的联合信道模型。
aquaskk - 无需词法分析的输入法。
mozc - Mozc：一款跨平台的日语输入法编辑器
trimatch - Trimatch：精确/前缀/近似字符串匹配库
resembla - Resembla：基于单词的日语相似句子搜索库
corvusskk - ▽▼ 类SKK的日语输入法编辑器，适用于Windows
mozuku - 用于日语文章解析与校对的LSP服务器。

名称	每周下载量	总下载量	星标数	最近提交
🔗 jsc	-	-	⭐ 15	🔴 2012年12月
🔗 aquaskk	-	-	⭐ 369	🔴 2023年7月
🔗 mozc	-	-	⭐ 2.9k	🟢 昨天
🔗 trimatch	-	-	⭐ 2	🟢 2月
🔗 resembla	-	-	⭐ 73	🟡 2025年8月
🔗 corvusskk	-	-	⭐ 362	🟢 3月
🔗 mozuku	-	-	⭐ 411	🟢 上周五

Rust crate

词法分析

用Rust编写的快速日语词法分析库

lindera - 词法分析库。
vaporetto - Vaporetto：基于逐点预测的超高速分词器
goya - 用Rust编写的日语词法分析器
vibrato - vibrato：基于维特比算法的加速分词器
yoin - 纯Rust编写的日语词法分析器
mecab-rs - mecab词性标注和词法分析库的安全Rust绑定
awabi - 使用mecab词典的词法分析器
kanpyo - 用Rust编写的日语词法分析器

名称	每周下载量	总下载量	星标数	最近提交
🔗 lindera	-	📦 100万	⭐ 610	🟢 今天
🔗 vaporetto	-	📦 19.6万	⭐ 255	🟢 2月
🔗 goya	-	📦 1.1万	⭐ 83	🔴 2021年12月
🔗 vibrato	-	📦 6万	⭐ 404	🟢 2月
🔗 yoin	-	📦 3千	⭐ 26	🔴 2017年10月
🔗 mecab-rs	-	📦 4万	⭐ 71	🔴 2023年9月
🔗 awabi	-	📦 2.4万	⭐ 10	🟡 2025年11月
🔗 kanpyo	-	📦 2.5千	⭐ 109	🟢 2月

转换器

用于日语文本中文字和字符转换的库

wana_kana_rust - 用于检查和转换日语字符——平假名、片假名——与罗马字之间的实用库
unicode-jp-rs - 一个将日本半角假名[半角ｶﾅ]和全角英数字[全角英数]转换为标准形式的Rust库
kana - [镜像]CLI程序，用于将罗马字文本转写为平假名或片假名
kanaria - 该库提供平假名、片假名以及半角、全角之间的相互转换和识别等功能。
japanese-address-parser - 用于将日本地址拆分为都道府县/市区町村/町名/其他部分的库
yosina - Yosina是一个处理日语书写中使用的字母和符号的转写库。
mojimoji-rs - 一种快速实现日语半角与全角字符互换的Rust实现，即“mojimoji”。

名称	每周下载量	总下载量	星标数	最近提交
🔗 wana_kana_rust	-	📦 36万	⭐ 90	🔴 2025年3月
🔗 unicode-jp-rs	-	📦 6.4万	⭐ 19	🔴 2020年4月
🔗 kana	-	-	⭐ 12	🔴 2023年1月
🔗 kanaria	-	-	⭐ 21	🟢 2月
🔗 japanese-address-parser	-	-	⭐ 10	🟢 3月
🔗 yosina	-	-	⭐ 24	🟢 3月
🔗 mojimoji-rs	-	-	⭐ 4	🔴 2022年11月

搜索引擎库

用于日语全文检索和索引的库

lindera-tantivy - Lindera分词器，用于Tantivy。
tantivy-vibrato - 使用Vibrato的Tantivy分词器。

名称	每周下载量	总下载量	星标数	最近提交
🔗 lindera-tantivy	-	📦 17.8万	⭐ 69	🟢 1月
🔗 tantivy-vibrato	-	📦 1.5千	⭐ 3	🔴 2023年1月

其他

用于日语文本和输入法处理的补充工具箱

daachorse - 使用 Rust 语言中的紧凑双数组数据结构实现的快速 Aho-Corasick 算法。
find-simdoc - 以高效的时间和内存方式查找所有相似文档对。
crawdad - 基于字符级双数组字典树的自然语言词典 Rust 库。
tokenizer-speed-bench - 各种分词器的性能对比代码。
stringmatch-bench - 提供用于比较字符串匹配相关数据结构性能的基准测试工具。
vime - 将 Vim 用作 X11 应用程序的输入法。
voicevox_core - 免费且中等质量的文本转语音软件 VOICEVOX 的核心部分。
akaza - 另一个适用于 IBus/Linux 的日语输入法。
Jotoba - 一款免费的在线、可自托管的多语言日语词典。
dvorakjp-romantable - 用于 Google 日语输入法的 DvorakJP 拼音表。
niinii - 使用 Ichiran 辅助阅读文本的日语词汇标注工具。
cskk - SKK（简单假名汉字转换）库。
japanki - 通过命令行问答学习日语词汇 🇯🇵！
jpreprocess - 面向文本转语音应用的日语文本预处理器（基于 Rust 语言重写的 OpenJTalk）。
listup_precedent - 通过爬取日本法院官网 (https://www.courts.go.jp/index.html) 生成裁判案例数据列表的软件。
jisho - Jisho 是一个提供日英词典功能的命令行工具及 Rust 库。
kanalizer - 从英文单词推测日语读音的库。
koharu - 使用大语言模型的自动化漫画翻译工具，由 Rust 编写。
yomine - 专为语言学习者设计的日本语词汇挖掘工具，帮助用户发现新单词和表达。
matsuba - 轻量级的日语输入法，使用 Rust 编写。
hujiang_dictionary - 由 Rust 实现的日语词典，支持 Telegram 机器人、AWS Lambda 和 Cloudflare Workers。同时支持大语言模型和检索增强生成技术。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 daachorse	-	📦 78.1万	⭐ 249	🟢 今天
🔗 find-simdoc	-	📦 2.9万	⭐ 62	🔴 2025年3月
🔗 crawdad	-	📦 6.5万	⭐ 37	🔴 2025年1月
🔗 tokenizer-speed-bench	-	-	⭐ 4	🔴 2023年3月
🔗 stringmatch-bench	-	-	⭐ 3	🔴 2022年9月
🔗 vime	-	-	⭐ 230	🔴 2022年11月
🔗 voicevox_core	-	-	⭐ 1.1千	🟢 3月
🔗 akaza	-	-	⭐ 249	🟢 昨天
🔗 Jotoba	-	-	⭐ 200	🔴 2024年1月
🔗 dvorakjp-romantable	-	-	⭐ 56	🟢 2月
🔗 niinii	-	-	⭐ 14	🟢 3月
🔗 cskk	-	-	⭐ 80	🟢 3月
🔗 japanki	-	-	⭐ 3	🔴 2023年10月
🔗 jpreprocess	-	-	⭐ 54	🟢 2月
🔗 listup_precedent	-	-	⭐ 6	🟢 上周四
🔗 jisho	-	-	⭐ 18	🟢 上周四
🔗 kanalizer	-	-	⭐ 27	🟢 3月
🔗 koharu	-	-	⭐ 1.8千	🟢 今天
🔗 yomine	-	-	⭐ 49	🟢 2月
🔗 matsuba	-	-	⭐ 18	🔴 2023年3月
🔗 hujiang_dictionary	-	-	⭐ 70	🟢 今天

JavaScript

形态分析

适用于浏览器和 Node.js 的日语形态分析库

kuromoji.js - 日语形态分析器的 JavaScript 实现。
rakutenma - 拉克坦 MA - 纯 JavaScript 编写的中日文形态分析器（分词器 + 词性标注器）。
node-mecab-ya - 又一个用于 Node.js 的 MeCab 封装库。
juman-bin - 一种可扩展的日语形态分析系统。
node-mecab-async - 使用 MeCab 的异步日语形态分析器。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 kuromoji.js	📥 18.1万/周	📦 860万	⭐ 971	🔴 2018年11月
🔗 rakutenma	📥 36/周	📦 906	⭐ 472	🔴 2015年1月
🔗 node-mecab-ya	📥 9.5万/周	📦 7.4千	⭐ 110	🔴 仓库未找到
🔗 juman-bin	📥 1万/周	📦 305	⭐ 3	🔴 2017年5月
🔗 node-mecab-async	📥 5千/周	📦 34万	⭐ 104	🔴 2017年10月

转换器

用于转换日语文字和读音的库

kuroshiro - 日语语言库，支持将日语句子转换为平假名、片假名或罗马字，并提供振假名和送假名模式。
kuroshiro-analyzer-kuromoji - 适用于 kuroshiro 的 Kuromoji 词法分析器。
hepburn - 使用赫本式罗马字转写法，在 Node.js 中实现日语平假名和片假名与罗马字之间的相互转换。
japanese-numerals-to-number - 将日本数字转换为阿拉伯数字。
jslingua - 用于处理文本的 JavaScript 库，支持阿拉伯语、日语等多种语言。
WanaKana - 用于检测并进行平假名 ↔ 片假名 ↔ 罗马字之间相互转写的 JavaScript 库。
node-romaji-name - 规范化并修复基于罗马字的日语姓名中常见的问题。
kyujitai.js - 用于使日语文本呈现旧式风格的实用工具集合。
normalize-japanese-addresses - 开源地址标准化库。
jaconv - 日语字符转换库（JavaScript）。
romaji-conv - 将罗马字转换为平假名。
japanese-addresses-v2 - 全国地址数据 API。
jptext-to-emoji - 将文本中的单词转换为表情符号。
japanese.js - 用于日语文本处理的实用工具集合。包括平假名化、片假名化和罗马字化等功能。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 kuroshiro	📥 1.2万/周	📦 43.5万	⭐ 963	🔴 2021年6月
🔗 kuroshiro-analyzer-kuromoji	📥 1.2万/周	📦 41万	⭐ 68	🔴 2018年8月
🔗 hepburn	📥 15.4万/周	📦 370万	⭐ 137	🟡 2025年9月
🔗 japanese-numerals-to-number	📥 4.1万/周	📦 230万	⭐ 59	🔴 2023年2月
🔗 jslingua	📥 71/周	📦 8,300	⭐ 53	🔴 2023年10月
🔗 WanaKana	📥 受上游服务速率限制	📦 220万	⭐ 912	🟡 2025年9月
🔗 node-romaji-name	📥 440/周	📦 1.4万	⭐ 41	🔴 2023年12月
🔗 kyujitai.js	📥 受上游服务速率限制	📦 1,100	⭐ 23	🔴 2020年8月
🔗 normalize-japanese-addresses	-	-	⭐ 946	🟡 2025年7月
🔗 jaconv	-	-	⭐ 87	🟡 2025年6月
🔗 romaji-conv	-	-	⭐ 26	🟢 2月
🔗 japanese-addresses-v2	-	-	⭐ 71	🔴 2025年1月
🔗 jptext-to-emoji	-	-	⭐ 2	🟢 2月
🔗 japanese.js	-	-	⭐ 167	🔴 2020年8月

其他

JavaScript 中用于日语 NLP 的其他库

bangumi-data - 日本动漫的原始数据
yomichan - 适用于 Chrome 和 Firefox 的日语弹出式词典扩展程序。
proofreading-tool - 基于 GUI 的文档校对工具，用于文本校验。
kanjigrid - 一个 Web 应用，展示了詹姆斯·海西格《记住汉字》第六版中教授的 2200 个汉字。
japanese-toolkit - 包含汉字、假名注音、日语数据库等的 Monorepo
analyze-desumasu-dearu - 用于解析日语敬体（ですます调）和常体（である调）的 JavaScript 库
hatsuon - 日语声调工具
sentiment_ja_js - 日语情感分析。使用 JavaScript 实现的日语情感分析
mecab-ipadic-seed - MeCab-ipadic 种子词典读取器
Japanese-Word-Of-The-Day - 每天学习一个不同的日语单词。
oskim - 扩展 GNOME 屏幕键盘以支持输入法
tweetMapping - 这是东日本大地震发生后 24 小时内发布的带地理标签推文的数字档案。
pitch-accent - 预测日语声调
kana2ipa - 将“平假名”或“片假名”转换为日语发音时使用的国际音标 (IPA) 的命令行工具
voicevox - 可免费使用的中等质量文本转语音软件 VOICEVOX 的编辑器
kamiya-codec - 基于神谷妙子的《日语动词手册》和《日语形容词与副词手册》作品的日语动词变位及还原工具
closewords - 从一组词语中搜索最相似单词的对应日语（包括汉字）的库
japanese-analyzer - 日语句子分析器
japanese-furigana-normalize - 规范化日语假名注音
yama - 在任何网站上获取日语词汇
kaitai - 使用 AI 分析日语句子结构的应用程序。该工具通过交互式图表可视化单词和短语之间的关系，展示语法关系。
tsukeru-furigana-converter - 浏览器扩展程序（Chrome/Edge/Firefox），可按需将假名注音注入日语网页；包含词典提示框、JLPT 过滤以及词汇表/Anki 导出功能。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 bangumi-data	📥 830/周	📦 5.8万	⭐ 598	🟢 上周三
🔗 yomichan	-	-	⭐ 1.1千	🔴 2023年2月
🔗 proofreading-tool	-	-	⭐ 87	🟡 2025年10月
🔗 kanjigrid	-	-	⭐ 44	🔴 2018年11月
🔗 japanese-toolkit	-	-	⭐ 63	🔴 2023年1月
🔗 analyze-desumasu-dearu	📥 9万/周	📦 受上游服务速率限制	⭐ 18	🔴 2025年1月
🔗 hatsuon	📥 16/周	📦 911	⭐ 38	🔴 2022年3月
🔗 sentiment_ja_js	-	-	⭐ 10	🔴 2021年12月
🔗 mecab-ipadic-seed	📥 127/周	📦 6.1万	⭐ 8	🔴 2016年7月
🔗 Japanese-Word-Of-The-Day	📥 1/周	📦 受上游服务速率限制	⭐ 未找到仓库	🔴 未找到仓库
🔗 oskim	-	-	⭐ 2	🔴 2023年2月
🔗 tweetMapping	-	-	⭐ 26	🟢 3月
🔗 pitch-accent	📥 9/周	📦 102	⭐ 2	🔴 2023年9月
🔗 kana2ipa	-	-	⭐ 17	🔴 2020年10月
🔗 voicevox	-	-	⭐ 3.1千	🟢 今天
🔗 kamiya-codec	-	-	⭐ 22	🟡 2025年5月
🔗 closewords	-	-	⭐ 4	🟢 3月
🔗 japanese-analyzer	-	-	⭐ 714	🟡 2025年12月
🔗 japanese-furigana-normalize	-	-	⭐ 6	🔴 2024年7月
🔗 yama	-	-	⭐ 8	🟢 2月
🔗 kaitai	-	-	⭐ 1	🟢 昨天
🔗 tsukeru-furigana-converter	-	-	⭐ 1	🟢 3月

Go

形态分析

Go 语言中的轻量级日语形态分析库

kagome - 完全由 Go 编写的自包含日语形态分析器

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 kagome	-	-	⭐ 959	🟢 上周五

其他

基于 Go 的日语文本处理库

ojosama - 将文本转换为一百满天原萨洛梅小姐风格的口吻
nihongo - 日语词典
yomichan-import - Yomichan 的外部词典导入工具。
imas-ime-dic - 用于日语输入法的偶像大师词汇词典（由 imas-db.jp 提供）
go-kakasi - 使用 Go 实现的汉字到平假名/片假名/罗马字的转写工具
go-moji - 用于全角与半角字符转换的 Go 库
ojichat - 生成类似于大叔在 LINE 或邮件中发送的句子
name - 日语姓名搜索工具

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 ojosama	-	-	⭐ 387	🟢 三月
🔗 nihongo	-	-	⭐ 83	🔴 2024年2月
🔗 yomichan-import	-	-	⭐ 86	🔴 2023年2月
🔗 imas-ime-dic	-	-	⭐ 32	🟢 一月
🔗 go-kakasi	-	-	⭐ 6	🟢 上周四
🔗 go-moji	-	-	⭐ 20	🔴 2019年4月
🔗 ojichat	-	-	⭐ 1.3k	🔴 2024年10月
🔗 name	-	-	⭐ 11	🔴 2025年1月

Java

形态分析

日语形态分析及词典管理库

kuromoji - Kuromoji 是一个自包含且易于使用的日语形态分析器，专为搜索设计
Sudachi - 面向商业的日语分词工具
SudachiDict - Sudachi 的词典
meval - 形态分析器性能评估系统 MevAL

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 kuromoji	-	-	⭐ 1k	🔴 2019年9月
🔗 Sudachi	-	-	⭐ 953	🔴 2024年11月
🔗 SudachiDict	-	-	⭐ 285	🟢 一月
🔗 meval	-	-	⭐ 7	🔴 2019年8月

其他

用于日语 NLP 和 OCR 的 Java 库

kanjitomo-ocr - 用于从图像中识别日语字符的 Java 库
jakaroma - 将日语汉字转写为罗马字的 Java 库及命令行工具
kakasi-java - 使用 Java 实现的汉字到平假名/片假名/罗马字的转写工具
Kamite - 面向日语学习者的桌面语言沉浸伴侣
react-native-japanese-tokenizer - 适用于 iOS 和 Android 的 React Native 异步日语分词原生插件
elasticsearch-analysis-japanese - 基于 kuromoji 日语分词器的 Elasticsearch 日语分析器
moji4j - 可在日语平假名、片假名和罗马字之间相互转换的 Java 库
neologdn-java - 用于 mecab-neologd 的日语文本归一化工具
elasticsearch-sudachi - Elasticsearch 的日语分析插件

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 kanjitomo-ocr	-	-	⭐ 205	🔴 2021年5月
🔗 jakaroma	-	-	⭐ 68	🟡 2025年6月
🔗 kakasi-java	-	-	⭐ 55	🔴 2016年4月
🔗 Kamite	-	-	⭐ 133	🔴 2025年3月
🔗 react-native-japanese-tokenizer	-	-	⭐ 38	🔴 2023年6月
🔗 elasticsearch-analysis-japanese	-	-	⭐ 29	🔴 2012年3月
🔗 moji4j	-	-	⭐ 33	🔴 2022年6月
🔗 neologdn-java	-	-	⭐ 5	🟢 二月
🔗 elasticsearch-sudachi	-	-	⭐ 220	🟢 上周三

预训练模型

Word2Vec

将单词转换为数值向量以捕捉语义相似性的模型

japanese-words-to-vectors - 使用 Gensim 和 Mecab 的 Word2Vec 方法构建的日语词向量模型
chiVe - 基于 Sudachi 和 NWJC 的日语词嵌入
elmo-japanese - elmo 日语版本
embedrank - EmbedRank 的 Python 实现
aovec - 简易青空文库 Word2Vec 构建工具 - 包含青空文库所有书籍的 Word2Vec 构建脚本及预训练模型
dependency-based-japanese-word-embeddings - 此仓库对应 AI LAB 文章“基于依存关系的日语词嵌入”（文章链接：https://ai-lab.lapras.com/nlp/japanese-word-embedding/）
jawikivec - 又一个日本维基百科实体向量
jawiki_word_vector_updater - 利用最新版日语维基百科的转储数据，结合 MeCab 分别使用 IPA 词典和最新的 Neologd 词典进行形态分析，并基于结果训练 word2vec、fastText 和 GloVe 的词向量表示模型的脚本

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 japanese-words-to-vectors	-	-	⭐ 87	🔴 2020年8月
🔗 chiVe	-	-	⭐ 172	🔴 2024年3月
🔗 elmo-japanese	-	-	⭐ 4	🔴 2019年10月
🔗 embedrank	-	-	⭐ 48	🔴 2019年3月
🔗 aovec	📥 111	📦 82k	⭐ 3	🔴 2023年1月
🔗 dependency-based-japanese-word-embeddings	-	-	⭐ 8	🔴 2019年8月
🔗 jawikivec	-	-	⭐ 2	🔴 2018年11月
🔗 jawiki_word_vector_updater	-	-	⭐ 11	🔴 2020年5月

基于Transformer的模型

利用自注意力机制理解上下文并执行高级语言任务的模型

bert-japanese - 用于日语文本的BERT模型。
japanese-pretrained-models - 由rinna公司提供的日语预训练模型生成代码。
bert-japanese - 使用SentencePiece的日语BERT模型。
SudachiTra - 面向Transformers的日语分词器。
japanese-dialog-transformers - NTT实验室提供的日语预训练模型评估代码。
shiba - CANINE高效字符级Transformer的PyTorch实现及预训练日语模型。
Dialog - 使用BERT和Transformer解码器的日语聊天机器人PyTorch实现。
language-pretraining - 日语文本的PyTorch实现BERT和ELECTRA模型。
medbertjp - 日语医学领域预训练BERT模型的尝试。
ILYS-aoba-chatbot - ILYS-aoba聊天机器人。
t5-japanese - 日语T5模型预训练代码。
pytorch_bert_japanese - 使用PyTorch调用BERT日语预训练模型。
Laboro-BERT-Japanese - Laboro BERT日语版：基于网络语料库预训练的日语BERT模型。
RoBERTa-japanese - 日语BERT预训练模型。
aMLP-japanese - 面向日语的aMLP Transformer模型。
bert-japanese-aozora - 在青空文库和维基百科上训练的日语BERT，使用MeCab结合UniDic与SudachiPy进行预分词。
sbert-ja - 为Hugging Face Model Hub训练句子级BERT日语模型的代码。
BERT-Japan-vaccination - “日本推文情感分析与疫苗接种情况对比”的官方微调代码。
gpt2-japanese - 日语GPT2生成模型。
text2text-japanese - 基于GPT-2的文本到文本转换模型。
gpt-ja - HuggingFace transformers中的GPT-2日语模型。
friendly_JA-Model - 使用friendly_JA语料库训练的机器翻译模型，旨在通过采用源自拉丁语/英语的片假名字汇替代标准汉日词汇，使日语对西方人更加易懂、易于接触。
albert-japanese - 使用SentencePiece的日语ALBERT模型。
ja_text_bert - 用于基于日本维基百科语料库生成BERT预训练模型的仓库。
DistilBERT-base-jp - 基于维基百科训练的日语DistilBERT预训练模型。
bert - 该仓库提供使用日语语料库预训练的RoBERTa模型的片段。我们的数据集包括日本维基百科和网络爬取的文章，总计25GB。发布的模型基于HuggingFace的版本构建。
Laboro-DistilBERT-Japanese - Laboro DistilBERT日语版。
luke - LUKE——基于知识嵌入的语言理解模型。
GPTSAN - 通用开关Transformer架构的日语语言模型。
japanese-clip - rinna公司提供的日语CLIP模型。
AcademicBART - 我们在学术数据库CiNii Articles的论文摘要上预训练了一个基于BART的日语掩码语言模型。
AcademicRoBERTa - 我们在学术数据库CiNii Articles的论文摘要上预训练了一个基于RoBERTa的日语掩码语言模型。
LINE-DistilBERT-Japanese - 基于131GB日语网络文本预训练的DistilBERT模型。其教师模型是LINE内部构建的BERT-base。
Japanese-Alpaca-LoRA - 使用翻译成日语的Stanford Alpaca数据集对LLaMA进行微调后生成的低秩适配器链接及生成示例代码。
albert-japanese-tinysegmenter - 预训练模型、代码及指南，用于在日本维基百科资源上预训练官方ALBERT模型（https://github.com/google-research/albert）。
japanese-llama-experiment - 日语LLaMa实验。
easylightchatassistant - EasyLightChatAssistant是一个轻量级、无审查无限制的本地日语模型LightChatAssistant，可通过KoboldCpp轻松试用的环境。

名称	每周下载量	总下载量	星数	最后提交
🔗 bert-japanese	-	-	⭐ 544	🔴 2024年3月
🔗 japanese-pretrained-models	-	-	⭐ 未找到仓库	🔴 未找到仓库
🔗 bert-japanese	-	-	⭐ 498	🔴 2021年2月
🔗 SudachiTra	📥 445	📦 16.4万	⭐ 79	🔴 2023年12月
🔗 japanese-dialog-transformers	-	-	⭐ 245	🔴 2023年6月
🔗 shiba	📥 8	📦 7千	⭐ 89	🔴 2023年11月
🔗 Dialog	-	-	⭐ 72	🔴 2020年10月
🔗 language-pretraining	-	-	⭐ 50	🔴 2023年5月
🔗 medbertjp	-	-	⭐ 12	🔴 2020年11月
🔗 ILYS-aoba-chatbot	-	-	⭐ 23	🔴 2021年10月
🔗 t5-japanese	-	-	⭐ 40	🔴 2021年9月
🔗 pytorch_bert_japanese	-	-	⭐ 35	🔴 2019年6月
🔗 Laboro-BERT-Japanese	-	-	⭐ 73	🔴 2022年5月
🔗 RoBERTa-japanese	-	-	⭐ 23	🔴 2021年11月
🔗 aMLP-japanese	-	-	⭐ 16	🔴 2022年5月
🔗 bert-japanese-aozora	-	-	⭐ 40	🔴 2020年8月
🔗 sbert-ja	-	-	⭐ 11	🔴 2021年8月
🔗 BERT-Japan-vaccination	-	-	⭐ 7	🔴 2022年5月
🔗 gpt2-japanese	-	-	⭐ 324	🔴 2023年9月
🔗 text2text-japanese	-	-	⭐ 33	🔴 2021年7月
🔗 gpt-ja	-	-	⭐ 3	🔴 2021年9月
🔗 friendly_JA-Model	-	-	⭐ 1	🔴 2022年5月
🔗 albert-japanese	-	-	⭐ 33	🔴 2021年10月
🔗 ja_text_bert	-	-	⭐ 115	🔴 2018年11月
🔗 DistilBERT-base-jp	-	-	⭐ 161	🔴 2020年4月
🔗 bert	-	-	⭐ 28	🔴 2022年4月
🔗 Laboro-DistilBERT-Japanese	-	-	⭐ 16	🔴 2020年12月
🔗 luke	-	-	⭐ 727	🔴 2023年6月
🔗 GPTSAN	-	-	⭐ 118	🔴 2023年9月
🔗 japanese-clip	-	-	⭐ 未找到仓库	🔴 未找到仓库
🔗 AcademicBART	-	-	⭐ 2	🔴 2024年7月
🔗 AcademicRoBERTa	-	-	⭐ 9	🔴 2024年9月
🔗 LINE-DistilBERT-Japanese	-	-	⭐ 46	🔴 2023年3月
🔗 Japanese-Alpaca-LoRA	-	-	⭐ 141	🔴 2023年4月
🔗 albert-japanese-tinysegmenter	-	-	⭐ 13	🔴 2023年9月
🔗 japanese-llama-experiment	-	-	⭐ 54	🟡 2025年12月
🔗 easylightchatassistant	-	-	⭐ 44	🔴 2024年4月

ChatGPT

用于日语对话和文本生成的ChatGPT及API资源

VRChatGPT - 使用ChatGPT在VRChat中实现聊天功能的程序。
AITuberDegikkoMirii - 开发AITuber的基础部分。
wanna - 通过自然语言启动Shell命令的工具。
ChatdollKit - ChatdollKit可以让您的3D模型变成聊天机器人。
ChuanhuChatGPTJapanese - 面向日语用户的ChatGPT API图形界面。
AISisterAIChan - 搭载ChatGPT3.5的伺か幽灵“AI妹妹艾酱”。使用时需另行获取ChatGPT的API密钥。
vrchatbot - 用于在VRChat中创建AI机器人的代码库。
gptuber-by-langchain - GPT将担任YouTuber。
openai-chatfriend - 基于Nuxt 3构建的聊天应用，由OpenAI文本补全接口驱动。您可以选择不同性格的AI朋友。默认以日语回应。您可以用这个应用练习日语技能！
chrome-ext-translate-to-hiragana-with-chatgpt - 这款Chrome扩展程序可以利用ChatGPT将选中的日语文本翻译成平假名。
azure-search-openai-demo - 本示例展示了如何使用检索增强生成模式，针对自有数据打造类似ChatGPT的体验。
chatvrm - ChatVRM是一个演示应用程序，可在浏览器中轻松与3D角色进行对话。
sftly-replace - 一款轻柔替换选中文本的Chrome扩展。
summarize_arxv - 使用图表总结arXiv论文。
aiavatarkit - 快速构建基于AI的对话型虚拟形象。
pva-aoai-integration-solution - 该仓库旨在将神户市政府为试用ChatGPT而制定的工作流程等解决方案公开。
jp-azureopenai-samples - 为了提供Azure OpenAI应用实现的参考，免费提供应用程序样本（参考架构、示例代码和部署步骤）。
character_chat - 利用OpenAI API，与设定的角色用日语对话的聊天脚本。
chatgpt-slackbot - 在Slack上使用OpenAI ChatGPT API的Slack机器人脚本（以日语使用为前提）。
chatgpt-prompt-sample-japanese - ChatGPT提示词的示例。
kanji-flashcard-app-gpt4 - 使用Python和Langchain构建的日语汉字抽认卡应用，并结合GPT-4的强大智能。
IgakuQA - 评估GPT-4和ChatGPT在日本医学执照考试中的表现。
japagen - 探讨在日语任务中使用大语言模型生成伪学习数据。
generativeai-prompt-sample-japanese - 面向ChatGPT、Copilot等各种生成式AI的“日语”提示词示例。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 VRChatGPT	-	-	⭐ 15	🔴 2023年3月
🔗 AITuberDegikkoMirii	-	-	⭐ 5	🔴 2023年3月
🔗 wanna	📥 68	📦 2万	⭐ 142	🔴 2023年4月
🔗 ChatdollKit	-	-	⭐ 1.1千	🟢 3月
🔗 ChuanhuChatGPTJapanese	-	-	⭐ 1	🔴 2023年3月
🔗 AISisterAIChan	-	-	⭐ 26	🔴 2023年5月
🔗 vrchatbot	-	-	⭐ 29	🔴 2022年12月
🔗 gptuber-by-langchain	-	-	⭐ 63	🔴 2023年1月
🔗 openai-chatfriend	-	-	⭐ 16	🔴 2023年4月
🔗 chrome-ext-translate-to-hiragana-with-chatgpt	-	-	⭐ 1	🔴 2023年4月
🔗 azure-search-openai-demo	-	-	⭐ 46	🔴 2023年12月
🔗 chatvrm	-	-	⭐ 834	🟡 2025年5月
🔗 sftly-replace	-	-	⭐ 4	🔴 2023年5月
🔗 summarize_arxv	-	-	⭐ 173	🔴 2023年5月
🔗 aiavatarkit	-	-	⭐ 573	🟢 昨天
🔗 pva-aoai-integration-solution	-	-	⭐ 未找到仓库	🔴 未找到仓库
🔗 jp-azureopenai-samples	-	-	⭐ 280	🟢 3月
🔗 character_chat	-	-	⭐ 16	🔴 2023年6月
🔗 chatgpt-slackbot	-	-	⭐ 64	🔴 2024年7月
🔗 chatgpt-prompt-sample-japanese	-	-	⭐ 428	🟢 上周四
🔗 kanji-flashcard-app-gpt4	-	-	⭐ 6	🔴 2023年10月
🔗 IgakuQA	-	-	⭐ 49	🔴 2023年3月
🔗 japagen	-	-	⭐ 1	🔴 2024年10月
🔗 generativeai-prompt-sample-japanese	-	-	⭐ 428	🟢 上周四

字典与输入法

日语词典和输入法编辑器（IME）相关资源

mecab-ipadic-neologd - 基于网络语言资源的、适用于 mecab-ipadic 的新词词典
tdmelodic - 日语口音词典生成器
jamdict - 用于操作 Jim Breen 的 JMdict、KanjiDic2、JMnedict 及汉字部首映射的 Python 3 库
unidic-py - 将 Unidic 打包为可通过 pip 安装的格式。
Japanese-Company-Lexicon - 日本公司词典（JCLdic）
manbyo-sudachi - 面向 Sudachi 的万病词典
jawiki-kana-kanji-dict - 从维基百科（日文版）生成 SKK/MeCab 词典
JIWC-Dictionary - 用于查找与文本相关情感的词典
JumanDIC - 该仓库包含用于构建 JUMAN 和 Juman++ 词典的源词典文件。
ipadic-py - 将 IPAdic 打包以便于从 Python 中使用。
unidic-lite - 便于通过 pip 安装的 UniDic 精简版。
emoji-ime-dictionary - 用于日语中输入表情符号的 IME 扩展词典，可在 orange_book、Google 日语输入等工具中实现日语到表情符号的转换。
google-ime-dictionary - 用于日英互译及英语缩略语展开的 IME 扩展词典，可在 Google 日语输入、ATOK 等工具中实现日语到英语的翻译以及英语缩略语的展开。
dic-nico-intersection-pixiv - 尼古尼古大百科与 Pixiv 百科事典共有的 IME 词典
google-ime-user-dictionary-ja-en - Google IME 用户词典项目的归档，内容为片假名词汇（日语外来语）到英语的映射。
emoticon - Google 日本语输入的表情符号词典∩(,,Ò‿Ó,,)∩
mecab-mozcdic - 将开源 Mozc 词典转换为 MeCab 词典格式。
denonbu-ime-dic - 电音 IME：面向 Microsoft IME 等工具设计的“电音部”相关术语词典
nijisanji-ime-dic - 面向 Microsoft IME 等工具设计的“彩虹社”相关术语词典。
pokemon-ime-dic - 面向 Microsoft IME 等工具设计的、涵盖目前已知所有宝可梦名称的术语词典。
EJDict - 英日词典数据（公共领域）EJDict-hand
Ayashiy-Nipongo-Dic - 使用贵样ばこゐ辞畫可以正确使用日语。
genshin-dict - 适用于 Windows/macOS 的原神单词词典。
jmdict-simplified - 以 JSON 格式提供的 JMdict 和 JMnedict 数据
mozcdict-ext - 将外部词汇转换为 Mozc 系统词典
mh-dict-jp - 想制作怪物猎人用户词典…
jitenbot - 将日本词典网站和应用中的数据转换为便携式文件格式
mecab-unidic-neologd - 基于网络语言资源的、适用于 mecab-unidic 的新词词典
hololive-dictionary - 关于 Hololive（Hololive Production）的词典文件。可使用 ./dictionary 文件夹内的文本文件将词汇添加到 IME 中。详情请参阅 README.md。
jmdict-yomitan - 为 Yomitan/Yomichan 提供的 JMdict、JMnedict 和 KANJIDIC 数据。
yomichan-jlpt-vocab - 为 Yomichan 中的词汇添加 JLPT 等级标签
Jitendex - 免费且开放许可的日英词典，兼容多种词典客户端
jiten - 基于 jmdict/kanjidic 的日语 Android/CLI/Web 词典 — 日本語　辞典　和英辞典　漢英字典　和独辞典　和蘭辞典
pixiv-yomitan - 为 Yomitan 准备的 Pixiv 百科事典词典
uchinaaguchi_dict - 冲绳方言词典
yomitan-dictionaries - 为 Yomitan 准备的日语和中文词典。
mouse_over_dictionary - 自动读取鼠标悬停单词的通用词典工具
jisyo - 为假名汉字转换引擎 SKK 设计的新词典格式
skk-jisyo.emoji-ja - 用于将日语读音转换为 Emoji 的 SKK 词典 😂
anthy - Anthy 是一款日语假名汉字转换引擎。它能将罗马字转换为假名，并进一步将假名文本混合成假名和汉字。
aws_dic_for_google_ime - 适用于 Google 日语输入的 AWS 服务名称词典
cl-skkserv - 用 Common Lisp 编写的 SKK 词典服务器及其扩展
anthy - Anthy 维护
anthy-unicode - Anthy Unicode - 另一个 Anthy
azooKey - azooKey：完全用 Swift 开发的日语键盘 iOS 应用程序
azookey-desktop - 支持 macOS 的桌面端日语输入法“azooKey”
fcitx5-hazkey - 基于 azooKey 引擎的 fcitx5 日语输入法
mozcdic-ut-place-names - Mozc UT 地名词典是由日本邮政的 ZIP 码数据转换而来的 Mozc 词典。
azookeykanakanjiconverter - 用 Swift 编写的假名-汉字转换模块
libkkc - 日语假名汉字转换输入法库
libskk - 日语 SKK 输入法库
kanayomi-dict - openjtalk 格式的用户词典
cjkvi-dict - 汉字数据库相关的词典数据
wlsp-classical - 古典日语分类词汇表数据
kanji-dict - 这是一本用于查询汉字笔顺、读音、笔画数、部首、例句及字源的汉字词典。收录了 Unicode 15.1 中的所有 98,682 个汉字。
Kaomoji_proj - (๑ ᴖ ᴑ ᴖ ๑)みょんかおもじ（旧 Kaomoji_proj）是一个为微软公司的输入软件 Microsoft IME 制作表情符号词典的项目。
kotlin-kana-kanji-converter - Kotlin 假名汉字转换程序
alfred-japanese-dictionary - 使用 jisho.org 的日英词典，附带音频、条目 CSV 导出及词典网站预览功能。
ichiran - 用于日语文本的语言学工具
mikan - 一种日语输入法。
colloquial-kansai-dictionary - 用于快速参考口语关西方言课程所学内容的词典。
jisho-open - JMdict 日英词典项目的网页前端，支持学习列表功能！
macskk - 又一款 macOS 版 SKK 输入法
nandoku - 这是一本按年级整理的难读汉字词典。
japanese_android_ime - 一款面向 Android 的 FOSS 日语 IME
anthywl - 使用 libanthy 的 Sway 日语输入法
sekka - 另一款受 SKK 启发的日语输入法。
sumibi - 基于 ChatGPT API 的日语输入法
jinmei-dict - 从词典数据中提取人名，并以假名（片假名）为键，将候选书写形式以列表形式整理成 JSON 格式。
japanesekeyboard - スミレ完全离线的日语键盘应用
japanesearabic - 日阿词典（日语・阿拉伯语辞书） قاموس اللغة اليابانية والعربية (Yomitan)
o-dic - 冲绳词典
skk-emoji-jisyo - SKK 表情符号词典
mozcdic-ut-personal-names - 用于 Mozc 的个人姓名词典。
mozcdic-ut-sudachidict - 由 SudachiDict 转换而来的 Mozc 词典。
nihongo - 日语语言数据和词典
kagome-dict - Kagome v2 的词典库
canna - Canna 日语输入系统
kansai-accent-dictionary - 京阪式口音（关西方言）词典 - 收录了 4,615 个词汇的日语方言口音词典
jitendex - 一款免费、离线且开放许可的日英词典。每月更新！
karukan - 面向 Linux 的日语输入法系统，结合神经网络假名-汉字转换引擎和 fcitx5 IME
shitto-mania-dic - 嫉妒词典（Shitto-Mania / Jealousy Dictionary）

名称	每周下载量	总下载量	星标数	最近提交
🔗 mecab-ipadic-neologd	-	-	⭐ 2.8k	🔴 2020年9月
🔗 tdmelodic	-	-	⭐ 124	🔴 2024年3月
🔗 jamdict	📥 337	📦 5.4万	⭐ 168	🔴 2021年6月
🔗 unidic-py	📥 7.2万	📦 1000万	⭐ 109	🔴 2025年2月
🔗 Japanese-Company-Lexicon	-	-	⭐ 100	🔴 2023年1月
🔗 manbyo-sudachi	-	-	⭐ 7	🔴 2021年4月
🔗 jawiki-kana-kanji-dict	-	-	⭐ 61	🟢 上周二
🔗 JIWC-Dictionary	-	-	⭐ 40	🔴 2021年1月
🔗 JumanDIC	-	-	⭐ 4	🔴 2022年8月
🔗 ipadic-py	📥 3.2万	📦 700万	⭐ 24	🔴 2021年10月
🔗 unidic-lite	📥 7.8万	📦 1000万	⭐ 49	🔴 2020年9月
🔗 emoji-ime-dictionary	-	-	⭐ 366	🔴 2023年1月
🔗 google-ime-dictionary	-	-	⭐ 104	🔴 2023年1月
🔗 dic-nico-intersection-pixiv	-	-	⭐ 83	🔴 2024年9月
🔗 google-ime-user-dictionary-ja-en	-	-	⭐ 58	🔴 2016年12月
🔗 emoticon	-	-	⭐ 44	🔴 2020年5月
🔗 mecab-mozcdic	-	-	⭐ 10	🔴 2018年1月
🔗 denonbu-ime-dic	-	-	⭐ 2	🔴 2022年11月
🔗 nijisanji-ime-dic	-	-	⭐ 38	🟢 3月
🔗 pokemon-ime-dic	-	-	⭐ 0	🔴 2020年1月
🔗 EJDict	-	-	⭐ 254	🟡 2025年11月
🔗 Ayashiy-Nipongo-Dic	-	-	⭐ 26	🔴 2024年5月
🔗 genshin-dict	-	-	⭐ 126	🟢 2月
🔗 jmdict-simplified	-	-	⭐ 349	🟢 上周一
🔗 mozcdict-ext	-	-	⭐ 69	🟡 2025年9月
🔗 mh-dict-jp	-	-	⭐ 5	🟡 2025年4月
🔗 jitenbot	-	-	⭐ 仓库未找到	🔴 仓库未找到
🔗 mecab-unidic-neologd	-	-	⭐ 87	🔴 2020年9月
🔗 hololive-dictionary	-	-	⭐ 24	🔴 2024年12月
🔗 jmdict-yomitan	-	-	⭐ 259	🟢 2月
🔗 yomichan-jlpt-vocab	-	-	⭐ 126	🟡 2025年8月
🔗 Jitendex	-	-	⭐ 466	🟢 今天
🔗 jiten	-	-	⭐ 129	🔴 2023年12月
🔗 pixiv-yomitan	-	-	⭐ 55	🟢 3月
🔗 uchinaaguchi_dict	-	-	⭐ 4	🟢 上周一
🔗 yomitan-dictionaries	-	-	⭐ 755	🟢 3月
🔗 mouse_over_dictionary	-	-	⭐ 72	🔴 2020年1月
🔗 jisyo	-	-	⭐ 28	🔴 2023年9月
🔗 skk-jisyo.emoji-ja	-	-	⭐ 30	🔴 2018年3月
🔗 aws_dic_for_google_ime	-	-	⭐ 7	🔴 2019年11月
🔗 cl-skkserv	-	-	⭐ 31	🔴 2024年10月
🔗 anthy	-	-	⭐ 3	🔴 2013年7月
🔗 anthy-unicode	-	-	⭐ 42	🟢 3月
🔗 azooKey	-	-	⭐ 684	🟢 昨天
🔗 azookey-desktop	-	-	⭐ 876	🟢 上周一
🔗 fcitx5-hazkey	-	-	⭐ 183	🟢 2月
🔗 mozcdic-ut-place-names	-	-	⭐ 22	🟢 上周四
🔗 azookeykanakanjiconverter	-	-	⭐ 139	🟢 上周二
🔗 libkkc	-	-	⭐ 112	🔴 2024年8月
🔗 libskk	-	-	⭐ 100	🟢 3月
🔗 kanayomi-dict	-	-	⭐ 仓库未找到	🔴 仓库未找到
🔗 cjkvi-dict	-	-	⭐ 110	🔴 2017年9月
🔗 wlsp-classical	-	-	⭐ 2	🟡 2025年11月
🔗 kanji-dict	-	-	⭐ 6	🟢 3月
🔗 Kaomoji_proj	-	-	⭐ 11	🟡 2025年10月
🔗 kotlin-kana-kanji-converter	-	-	⭐ 5	🟢 上周三
🔗 alfred-japanese-dictionary	-	-	⭐ 6	🟢 2月
🔗 ichiran	-	-	⭐ 390	🟢 1月
🔗 mikan	-	-	⭐ 24	🟡 2025年6月
🔗 colloquial-kansai-dictionary	-	-	⭐ 9	🟢 2月
🔗 jisho-open	-	-	⭐ 57	🟢 2月
🔗 macskk	-	-	⭐ 287	🟢 今天
🔗 nandoku	-	-	⭐ 1	🟢 2月
🔗 japanese_android_ime	-	-	⭐ 2	🟡 2025年9月
🔗 anthywl	-	-	⭐ 34	🟡 2025年4月
🔗 sekka	-	-	⭐ 24	🟡 2025年7月
🔗 sumibi	-	-	⭐ 43	🟢 3月
🔗 jinmei-dict	-	-	⭐ 7	🔴 2020年4月
🔗 japanesekeyboard	-	-	⭐ 226	🟢 上周五
🔗 japanesearabic	-	-	⭐ 19	🟡 2025年5月
🔗 o-dic	-	-	⭐ 6	🔴 无效
🔗 skk-emoji-jisyo	-	-	⭐ 140	🔴 2025年1月
🔗 mozcdic-ut-personal-names	-	-	⭐ 26	🟢 上周四
🔗 mozcdic-ut-sudachidict	-	-	⭐ 22	🟢 2月
🔗 nihongo	-	-	⭐ 20	🔴 2025年1月
🔗 kagome-dict	-	-	⭐ 15	🟢 3月
🔗 canna	-	-	⭐ 4	🟡 2025年8月
🔗 kansai-accent-dictionary	-	-	⭐ 1	🟡 2025年12月
🔗 jitendex	-	-	⭐ 466	🟢 今天
🔗 karukan	-	-	⭐ 262	🟢 2月
🔗 shitto-mania-dic	-	-	⭐ 0	🟢 3月

语料库

词性标注 / 命名实体识别

带有词性标注和命名实体标注的语料库

ner-wikipedia-dataset - 基于维基百科的日语命名实体抽取数据集
IOB2Corpus - 用于命名实体识别的日语IOB2标注语料库。
TwitterCorpus - 首都大学日语Twitter语料库
UD_Japanese-PUD - 平行通用依存关系树库。
UD_Japanese-GSD - 来自Google UDT 2.0的日语数据。
KWDLC - 京都大学网络文档线索语料库
AnnotatedFKCCorpus - 注释富山买卖中心语料库
UD_Japanese-GSDLUW - UD_Japanese-GSD的长单位词版本
ud_japanese-bccwj - 这个通用依存关系（UD）日语树库基于UD文档中描述的UD日语规范定义。

名称	每周下载量	总下载量	星标数	最后提交
🔗 ner-wikipedia-dataset	-	-	⭐ 142	🔴 2023年9月
🔗 IOB2Corpus	-	-	⭐ 61	🔴 2020年2月
🔗 TwitterCorpus	-	-	⭐ 21	🔴 2016年3月
🔗 UD_Japanese-PUD	-	-	⭐ 0	🔴 2020年5月
🔗 UD_Japanese-GSD	-	-	⭐ 28	🔴 2022年5月
🔗 KWDLC	-	-	⭐ 83	🔴 2023年12月
🔗 AnnotatedFKCCorpus	-	-	⭐ 18	🔴 2023年12月
🔗 anthy	-	-	⭐ 16	🔴 2023年2月
🔗 UD_Japanese-GSDLUW	-	-	⭐ 3	🟡 2025年11月
🔗 ud_japanese-bccwj	-	-	⭐ 26	🟡 2025年11月

平行语料库

包含用于翻译任务的对齐句子的双语语料库

small_parallel_enja - 用于机器翻译基准测试的5万句英日平行语料库。
Web-Crawled-Corpus-for-Japanese-Chinese-NMT - 用于日中NMT的网络爬取语料库
CourseraParallelCorpusMining - Coursera语料挖掘及多阶段微调以提升讲座翻译质量
JESC - 大型英日平行语料库
AMI-Meeting-Parallel-Corpus - AMI会议平行语料库
giant_ja-en_parallel_corpus - 本目录包含一个巨大的日英字幕语料库。原始数据来源于斯坦福大学的JESC项目。
jesc_small - 小型日英字幕语料库
graded-enja-corpus - 考虑禁忌用语和词汇级别的日英对照语料库。
cjk-compsci-terms - 中日韩计算机科学术语对照 / 中日韩电脑科学术语对照 / 日中韩的计算机科学术语对照 / 한·중·일 전산학 용어 대조
Laboro-ParaCorpus - 用于创建日英平行语料库和训练NMT模型的脚本
google-vs-deepl-je - google-vs-deepl-je
matcha - 从面向访日游客的媒体MATCHA的文章中，构建了用于简化日语文本的数据集。
en-ja-el - EnJaEL：英日平行实体链接数据集（版本1.0）

名称	每周下载量	总下载量	星标数	最后提交
🔗 small_parallel_enja	-	-	⭐ 98	🔴 2019年9月
🔗 Web-Crawled-Corpus-for-Japanese-Chinese-NMT	-	-	⭐ 15	🔴 2023年9月
🔗 CourseraParallelCorpusMining	-	-	⭐ 15	🔴 2024年8月
🔗 JESC	-	-	⭐ 89	🔴 2017年11月
🔗 AMI-Meeting-Parallel-Corpus	-	-	⭐ 11	🔴 2020年12月
🔗 giant_ja-en_parallel_corpus	-	-	⭐ 5	🔴 2019年8月
🔗 jesc_small	-	-	⭐ 3	🔴 2019年7月
🔗 graded-enja-corpus	-	-	⭐ 6	🟡 2025年8月
🔗 cjk-compsci-terms	-	-	⭐ 150	🟢 2月
🔗 Laboro-ParaCorpus	-	-	⭐ 18	🔴 2021年11月
🔗 google-vs-deepl-je	-	-	⭐ 4	🔴 2020年3月
🔗 matcha	-	-	⭐ 6	🔴 2025年1月
🔗 en-ja-el	-	-	⭐ 2	🔴 2025年1月

对话语料库

用于训练对话系统的对话数据集合

JMRD - 日本电影推荐对话数据集
open2ch-dialogue-corpus - 通过爬取“开放2ch”论坛创建的对话语料库
BSD - 商务场景对话语料库
asdc - 宿泊设施搜索对话语料库
japanese-corpus - 用于序列到序列等任务的日语对话数据
BPersona-chat - 该仓库包含日英双语聊天语料库 BPersona-chat，该语料库发表于 AACL-IJCNLP 2022 的 Workshop Eval4NLP 2022 上的论文《Chat Translation Error Detection for Assisting Cross-lingual Communications》中。
japanese-daily-dialogue - 日本日常对话语料库，或日语中的“日本語日常対話コーパス”，是一个高质量的多轮对话数据集，包含关于五个主题的日常对话：日常生活、学校、旅行、健康和娱乐。
llm-japanese-dataset - 用于构建大型语言模型的日语聊天数据集
kokorochat - 通过角色扮演收集的日语咨询对话数据集
JMultiWOZ-TC - 多轮对话中智能体函数调用能力的评估
HOTATE - 包含真实想法与表面客套话的日语对话数据集
ETCDataset - 对话情感转录数据集是由约1,000段对话组成的日语对话数据集，每段对话都包含了说话者自己对每个话语的情感描述。

名称	每周下载量	总下载量	星标数	最近一次提交
🔗 JMRD	-	-	⭐ 29	🔴 2022年7月
🔗 open2ch-dialogue-corpus	-	-	⭐ 99	🔴 2021年6月
🔗 BSD	-	-	⭐ 73	🔴 2021年11月
🔗 asdc	-	-	⭐ 25	🔴 2023年8月
🔗 japanese-corpus	-	-	⭐ 3	🔴 2018年10月
🔗 BPersona-chat	-	-	⭐ 5	🔴 2023年1月
🔗 japanese-daily-dialogue	-	-	⭐ 56	🔴 2023年3月
🔗 llm-japanese-dataset	-	-	⭐ 88	🔴 2024年1月
🔗 kokorochat	-	-	⭐ 20	🟡 2025年8月
🔗 JMultiWOZ-TC	-	-	⭐ 0	🟢 3月
🔗 HOTATE	-	-	⭐ 1	🟢 2月
🔗 ETCDataset	-	-	⭐ 12	🟢 1月

其他

用于问答或蕴含识别等任务的语料库

jrte-corpus - 日语真实文本蕴含语料库（NLP 2020, LREC 2020）
kanji-data - 包含更新后的JLPT等级和WaniKani信息的JSON格式汉字数据集
JapaneseWordSimilarityDataset - 日语词语相似度数据集
simple-jppdb - 用于日语文本简化任务的释义数据库
chABSA-dataset - chakki的基于方面的情感分析数据集
JaQuAD - JaQuAD：面向机器阅读理解的日语问答数据集（2022年，Skelter Labs）
JaNLI - 日语对抗性自然语言推理数据集
ebe-dataset - 基于证据的解释数据集（AACL-IJCNLP 2020）
emoji-ja - UNICODE表情符号的日语读音/关键词/分类词典
nayose-wikipedia-ja - 由维基百科构建的日语名称归一化数据集
ja.text8 - 用于词嵌入的日语文本8语料库。
ThreeLineSummaryDataset - 三行摘要数据集
japanese - 该仓库包含由利兹大学语料库统计出的44,998个最常见日语词汇，按出现频率排序。
kanji-frequency - 从各种来源收集的汉字使用频率数据
TEDxJP-10K - TEDxJP-10K ASR评估数据集
CoARiJ - 日本年度报告语料库
technological-book-corpus-ja - 收集的日语技术书籍原始语料库/工具
ita-corpus-chuwa - ITA语料库的分块词汇标注
wikipedia-utils - 用于NLP预处理维基百科文本的实用脚本
inappropriate-words-ja - 收集日语中的不当表达。可用于自然语言处理时的数据清洗等。
house-of-councillors - 整理了日本参议院官方网站上的党派、议员、议案及质询书的相关数据。
house-of-representatives - 国会议案数据库：众议院
STAIR-captions - STAIR captions：大规模日语图像描述数据集
Winograd-Schema-Challenge-Ja - 日语版维诺格拉德模式挑战
speechBSD - 扩展版BSD语料库，包含音频及说话人属性信息
ita-corpus - ITA语料库的文章列表
rohan4600 - 摩拉平衡型日语语料库
anlp-jp-history - 日本语言处理学会年会演讲的完整列表及其机器可读版本等
keigo_transfer_task - 敬语转换任务的评估数据集
loanwords_gairaigo - 日语中的英语外来词
jawikicorpus - 日语维基百科维基化语料库
GeneralPolicySpeechOfPrimeMinisterOfJapan - 这是日本首相施政演说的日语文本语料库
wrime - WRIME：主客观情感分析数据集
jtubespeech - JTubeSpeech：从YouTube收集的日语音频语料库
WikipediaWordFrequencyList - 日语维基百科中高频词汇列表
kokkosho_data - 车辆故障信息相关数据集
pdmocrdataset-part1 - 在数字化资料OCR文本化项目中创建的OCR学习用数据集
huriganacorpus-ndlbib - 由全国书目数据生成的假名标注数据集
jvs_hiho - 自制的JVS（日语多用途语音）语料库标签
hirakanadic - 允许Sudachi从任何复合词列表中将平假名规范化为片假名
animedb - 约100年来动画作品列表数据库
security_words - 与网络安全相关的官方机构的英日对照词汇
Data-on-Japanese-Diet-Members - 日本国会议员数据
honkoku-data - 这是历史资料市民参与型转录平台“大家一起转录”的文本数据存放处。/ 在“大家一起转录”（https://honkoku.org）平台上创建的历史日文文献转录文本。
wikihow_japanese - wikiHow数据集（日语版）
engineer-vocabulary-list - 日英双语工程师词汇表
JSICK - 涉及组合知识的日语文本数据集/JSICK压力测试集
phishurl-list - 来自JPCERT/CC的网络钓鱼URL数据集
jcms - 多领域专业日语语料库（JCMS）
aozorabunko_text - www.aozora.gr.jp的纯文本档案
friendly_JA-Corpus - friendly_JA是一个平行的日语-日语语料库，旨在通过使用源自拉丁语/英语的片假名词汇而非传统的汉日词汇来使日语更易懂
topokanji - 按拓扑顺序排列的汉字列表，便于高效学习
isbn4groups - 关于ISBN-13中日本出版物（978-4-XXXXXXXXX）的数据等
NMeCab - NMeCab：关于.NET平台上的日语形态分析器
ndlngramdata - 由数字化资料生成的OCR文本数据的n元组频率统计信息数据集
ndlngramviewer_v2 - 2023年1月更新的NDL Ngram Viewer源代码等全套文件
data_set - 法律和判例相关数据集
huggingface-datasets_wrime - Hugging Face数据集中的WRIME
ndl-minhon-ocrdataset - NDL古籍OCR学习用数据集（大家转录加工数据）
PAX_SAPIENTICA - GIS & 考古模拟器。2023年开发中。
j-liwc2015 - 日语版LIWC2015
huggingface-datasets_livedoor-news-corpus - Hugging Face数据集中日语Livedoor新闻语料库
huggingface-datasets_JGLUE - JGLUE：Hugging Face数据集中的日语通用语言理解评估
commonsense-moral-ja - JCommonsenseMorality是一个通过众包创建的数据集，反映了日本标注者的常识性道德观。
comet-atomic-ja - COMET-ATOMIC ja
dcsg-ja - 日语对话常识图谱
japanese-toxic-dataset - “日语毒性模式的提出与评估”提供了一个针对日语中毒性的模式和数据集。
camera - CAMERA（CyberAgent广告文案生成多模态评估）是日语广告文案生成数据集。
Japanese-Fakenews-Dataset - 日语虚假新闻数据集
jpn_explainable_qa_dataset - jpn_explainable_qa_dataset
copa-japanese - 日语COPA数据集
WLSP-familiarity - “语义原则词汇表（WLSP）”的单词熟悉度
ProSub - 一项关于代词替代词和称谓的跨语言研究
commonsense-moral-ja - JCommonsenseMorality是一个通过众包创建的数据集，反映了日本标注者的常识性道德观。
ramendb - 从某个数据库（ https://supleks.jp/ ）抓取的工具和收集的数据
huggingface-datasets_CAMERA - Hugging Face数据集中的CAMERA（CyberAgent广告文案生成多模态评估）
FactCheckSentenceNLI-FCSNLI- - FactCheckSentenceNLI数据集
databricks-dolly-15k-ja - 这是将用于训练databricks/dolly-v2-12b的学习数据databricks-dolly-15k.jsonl翻译成日语后的数据集。
EaST-MELD - EaST-MELD是一个基于MELD的情感感知语音翻译的英日数据集。
meconaudio - Mecon Audio（医学会议音频）是厚生劳动省主办的先进医疗会议记录的朗读数据集。
japanese-addresses - 全国町丁目级别的地址数据开放数据
aozorasearch - Groonga实现的青空文库全文检索系统。青空文库全文检索库兼Web应用。
llm-jp-corpus - 该仓库包含用于重现LLM-jp语料库的脚本。
alpaca_ja - 将Alpaca数据集翻译成日语
instruction_ja - 日语指令数据
japanese-family-names - 日本前5000个姓氏，附带读音，按出现频率排序。
kanji-data-media - Kanji alive提供的关于汉字、部首、媒体文件、字体及相关资源的日语语言数据
reazonspeech - 在家构建大规模日语音频语料库
huriganacorpus-aozora - 由青空文库及Sapie盲文数据生成的假名标注数据集
koniwa - 一个开放的日语标注语音集合
JMMLU - 日语多任务语言理解基准
hurigana-speech-corpus-aozora - 青空文库带假名注释的语音语料库数据集
jqara - JQaRA：带有检索增强的日语问答——用于检索增强（RAG）评估的日语问答数据集
jemhopqa - JEMHopQA（日语可解释多跳问答）是一个可以评估内部推理过程的日语多跳问答数据集。
jacred - 日本文档级关系抽取数据集的存储库（计划于三月发布）。
jades - JADES是一个用于日语文本简化的目标数据集，在“JADES：面向非母语者的新型日语文本简化数据集”一文中有所介绍（论文即将发表）。
do-not-answer-ja - 将2023年8月由墨尔本大学发布的安全评估数据集《Do-Not-Answer》自动翻译成日语，并结合日本文化进行了修改，以便在日语LLM的评估中也能使用。
oasst1-89k-ja - 这是将OpenAssistant的开源数据OASST1翻译成日语后的数据集。
jacwir - JaCWIR：日语休闲网络信息检索——用于日语信息检索评估的小规模、休闲式网页标题和摘要数据集
japanese-technical-dict - 为日语学习者准备的科学技术行业中常用片假名与其原词对照表
j-unimorph - 日语Unimorph数据集
GazeVQA - 为LREC-COLING 2024论文“一种基于视线的视觉问答数据集，用于澄清模糊的日语问题”准备的数据集
J-CRe3 - J-CRe3实验的代码（Ueda等人，LREC-COLING，2024）
jmed-llm - JMED-LLM：大型语言模型的日本医疗评估数据集
lawtext - 日语法律的纯文本格式
pdmocrdataset-part2 - 在OCR处理程序研发项目中创建的OCR学习用数据集
japanesetopicwsd - 基于话题的语义歧义消解评估套装
temporalNLI_dataset - Jamp：控制型日语时间推理数据集，用于评估语言模型的泛化能力
JSeM - 日语语义测试套件（FraCaS的对应物及扩展）
niilc-qa - NIILC QA数据
chain-of-thought-ja-dataset - 论文“日语思维链提示验证”的数据集
WikipediaAnnotatedCorpus - 这是一个由带有各种语言学标注的维基百科文章组成的日语文本语料库。
elaws-history - 定期下载并存档e-Gov法令搜索中发布的“所有法令数据”
Japanese-RP-Bench - 日语RP基准是用来衡量LLM日语角色扮演能力的基准。
hdic - HDIC：早期日本汉字字典综合数据库
awesome-japan-opendata - 优秀日本开放数据——日本开放数据信息一览及汇总
kanji-data - 常用汉字表及其他与汉字相关的数据
openchj-genji - 《源氏物语》形态学信息数据
AdParaphrase - 该仓库包含我们论文“AdParaphrase：用于分析生成吸引人广告文案的语言特征的释义数据集”的数据。
Jamp_sp - 构建考虑方面的日语时间推理数据集（Jamp_sp：控制型日语时间推理数据集，同时考虑方面因素）
jnli-neg - 这是用于公开的否定理解能力评估日语语言推理数据集JNLI-Neg的存储库。
swallow-corpus - 该仓库提供了Python实现，用于从Common Crawl档案中构建Swallow语料库第1版，这是一个大型日语网络语料库（Okazaki等人，2024）。
jalecon - 面向非母语读者的日语词汇复杂性数据集
multils-japanese - 日语多维度词汇复杂性预测及词汇简化数据集：标注者简介、未聚合的标注以及标注指南。
nwjc - NINJAL网络日语语料库
open-mantra-dataset - 该数据集在AAAI21上发表的论文“迈向全自动漫画翻译”中被介绍
public-annotations - Manga109数据集的各种标注
gimei - 随机生成的日语姓名和地址
safety-boundary-test - 用于评估日语语言模型安全性行为的测试集
j-ono-data - 一个简单、开源的日语拟声词和拟态词合集，以JSON格式呈现。附有漫画示例。
kanji - 学习日语汉字部首的列表
jethics - 日语道德理解度评估用数据集JETHICS的概述页面（待更新）
waon - WAON：面向视觉-语言模型的大规模高质量日语图文数据集
kuci - 京都大学常识推理数据集（KUCI）
japanese-address-testdata - 难以解析的日本地址测试数据集
jlpt-word-list - JLPT词汇中的日语单词列表
hiragana_mojigazo - 字符图像数据集（平假名73字符版）
lawqa_jp - 日本法令相关的多项选择题QA数据集
yjcaptions - YJ Captions 26k Dataset
ja-vg-vqa - 日本视觉基因组VQA数据集
lawhub - 用于跟踪日语法律文本格式的存储库
japanese-subtitles-word-kanji-frequency-lists - 根据日剧、动漫和电影字幕得出的单词频率列表。
jconj - 一个基于表格的日语动词变位工具
extract_jawp_names - 提取维基百科日语版中的个人姓名。
cejc_yomichan_freq_dict - 基于日常日语对话数据集的Yomichan频率词典
wikidict-ja - 维基百科双语参考数据（日语）
ajimee-bench - AJIMEE-Bench（高级日语IME评估基准）
j-spaw - J-SpAW：用于说话人验证和防欺骗的日语语音语料库
camera3 - CAMERA3：用于可控日语广告文案生成的评估数据集
jgpqa - GPQA数据集的日语译本
tanaka-corpus-plus - 正在去除田中语料库中的噪声。
emotioncorpusjapanesetokushimaa2lab - 日本情绪语料库德岛大学A-2实验室。
osworld-jp - 考虑语言因素的评估用，日语版计算机使用基准
quasi_japanese_reviews - 类似日语评论（伪评论数据）
psychiatry-clinical-notes - 精神科初诊病历制作问卷数据集
merged-town-names - 因市町村合并等原因而消失的旧地名与新地名对照表
japanesetextemoticondata - 日语文本表情符号数据。
mishearing-corpus - 听错语料库︱CSV＋Table Schema管理约1万条记录，利用VS Code＋pre-commit＋Frictionless＋GitHub Actions进行自动化验证的日语数据集
kotowaza - 结构化的JSON数据集，包含印尼语、英语释义、例句、JLPT等级和标签的日语谚语（kotowaza）。
selective-rag-kasensabo - 这是一个实用的代理型RAG系统MVP，能够以96%的准确率自动判定建筑技术标准相关问题的专业性粒度（精细/粗糙），并据此选择最佳的RAG系统（ColBERT/Naive）。以2025年11月公布的河川砂防大坝技术标准为例，构建了四个RAG系统，并对200道专业性粒度不同的问题进行了精度和速度的比较。
jmle2026-bench - 第120次日本医师资格考试的LLM基准测试（2026年2月7-8日）
JSTS-Neg - 这是用于公开的否定理解能力评估日语语义相似度计算数据集JSTS-Neg的存储库。JSTS-Neg是在JGLUE包含的语言推理数据集JSTS基础上扩展而成的。
business-slide-questions - 该仓库提供了一项针对商业资料（幻灯片）的视觉问答（VQA）基准测试“BusinessSlideVQA”。
WLSP-antonym - “语义原则词汇表（WLSP）”的反义关系
YouCook2-JP - YouCook2数据集的日语译本。
E2U - 关于传播的数据
annotation-2025 - 该仓库旨在公开一种数据，允许将文本的“解读”与人工标注和LLM输出进行比较。
jhpt - 这是一个将历史日语资料原文文本与现代日语译文（参考译文）按段落一一对应的双语对照数据集。详细内容请参阅论文。
JBE-QA - 日本律师资格考试QA
j-spaw - J-SpAW：用于说话人验证和防欺骗的日语语音语料库
JMedWiC - 使用掩码语言模型自动提取同义与非同义词对，并通过人工同义性标注确定标签，从而构建了日本医疗领域中语义同一性判定的数据集。
jhpt - 历史日语资料双语对照数据集
Doppelganger-JC - 这是一个评估LLM中中日跨语言同形异义词误用情况的数据集基准。
modelvista-3lang - 用于软件图纸理解的VLM评估基准（支持日语、英语和韩语）
japanese-hr-niah - 日本人事劳务领域的长上下文LLM性能评估基准
nijl-manyoshutei - 本仓库在CC-BY许可下公开了关西大学所藏广濑本万叶集的TEI/XML数据等。
kamuskita - 在马来语学习会上制作的开放马来语-日语词典《大家的马来语词典》

名称	每周下载量	总下载量	星标数	最近提交
🔗 jrte-corpus	-	-	⭐ 77	🔴 2023年6月
🔗 kanji-data	-	-	⭐ 215	🟢 2月
🔗 JapaneseWordSimilarityDataset	-	-	⭐ 102	🔴 2021年12月
🔗 simple-jppdb	-	-	⭐ 32	🔴 2017年3月
🔗 chABSA-dataset	-	-	⭐ 140	🔴 2018年9月
🔗 JaQuAD	-	-	⭐ 110	🔴 2022年1月
🔗 JaNLI	-	-	⭐ 17	🔴 2023年5月
🔗 ebe-dataset	-	-	⭐ 18	🔴 2020年12月
🔗 emoji-ja	-	-	⭐ 83	🔴 2025年3月
🔗 nayose-wikipedia-ja	-	-	⭐ 35	🔴 2020年3月
🔗 ja.text8	-	-	⭐ 无效	🔴 2017年10月
🔗 ThreeLineSummaryDataset	-	-	⭐ 31	🔴 2018年4月
🔗 japanese	-	-	⭐ 87	🔴 2018年9月
🔗 kanji-frequency	-	-	⭐ 156	🟢 3月
🔗 TEDxJP-10K	-	-	⭐ 24	🔴 2021年1月
🔗 CoARiJ	-	-	⭐ 94	🔴 2020年12月
🔗 technological-book-corpus-ja	-	-	⭐ 26	🔴 2023年7月
🔗 ita-corpus-chuwa	-	-	⭐ 5	🔴 2021年8月
🔗 wikipedia-utils	-	-	⭐ 78	🔴 2024年4月
🔗 inappropriate-words-ja	-	-	⭐ 202	🔴 2021年12月
🔗 house-of-councillors	-	-	⭐ 107	🟢 昨天
🔗 house-of-representatives	-	-	⭐ 178	🟢 昨天
🔗 STAIR-captions	-	-	⭐ 90	🔴 2018年7月
🔗 Winograd-Schema-Challenge-Ja	-	-	⭐ 6	🔴 2019年1月
🔗 speechBSD	-	-	⭐ 3	🔴 2024年2月
🔗 ita-corpus	-	-	⭐ 229	🟢 3月
🔗 rohan4600	-	-	⭐ 70	🟢 3月
🔗 anlp-jp-history	-	-	⭐ 3	🔴 2024年4月
🔗 keigo_transfer_task	-	-	⭐ 21	🔴 2022年11月
🔗 loanwords_gairaigo	-	-	⭐ 19	🔴 2021年1月
🔗 jawikicorpus	-	-	⭐ 4	🔴 2018年11月
🔗 GeneralPolicySpeechOfPrimeMinisterOfJapan	-	-	⭐ 6	🔴 2020年1月
🔗 wrime	-	-	⭐ 174	🟡 2025年9月
🔗 jtubespeech	-	-	⭐ 229	🔴 2023年3月
🔗 WikipediaWordFrequencyList	-	-	⭐ 2	🔴 2022年4月
🔗 kokkosho_data	-	-	⭐ 1	🔴 2019年7月
🔗 pdmocrdataset-part1	-	-	⭐ 83	🔴 2024年6月
🔗 huriganacorpus-ndlbib	-	-	⭐ 31	🔴 2021年9月
🔗 jvs_hiho	-	-	⭐ 31	🔴 2021年2月
🔗 hirakanadic	📥 28	📦 14k	⭐ 7	🔴 2023年7月
🔗 animedb	-	-	⭐ 330	🔴 2023年1月
🔗 security_words	-	-	⭐ 27	🔴 2023年8月
🔗 Data-on-Japanese-Diet-Members	-	-	⭐ 3	🔴 2022年9月
🔗 honkoku-data	-	-	⭐ 18	🟢 3月
🔗 wikihow_japanese	-	-	⭐ 35	🔴 2020年12月
🔗 engineer-vocabulary-list	-	-	⭐ 1.9k	🔴 2020年11月
🔗 JSICK	-	-	⭐ 45	🔴 2023年5月
🔗 phishurl-list	-	-	⭐ 205	🟢 3月
🔗 jcms	-	-	⭐ 9	🟢 上周五
🔗 aozorabunko_text	-	-	⭐ 91	🔴 2023年3月
🔗 friendly_JA-Corpus	-	-	⭐ 仓库未找到	🔴 仓库未找到
🔗 topokanji	-	-	⭐ 200	🔴 2016年1月
🔗 isbn4groups	-	-	⭐ 1	🔴 2024年6月
🔗 NMeCab	-	-	⭐ 99	🔴 2024年3月
🔗 ndlngramdata	-	-	⭐ 15	🔴 2023年1月
🔗 ndlngramviewer_v2	-	-	⭐ 3	🔴 2023年7月
🔗 data_set	-	-	⭐ 51	🔴 2025年1月
🔗 huggingface-datasets_wrime	-	-	⭐ 4	🔴 2023年1月
🔗 ndl-minhon-ocrdataset	-	-	⭐ 20	🟢 3月
🔗 PAX_SAPIENTICA	-	-	⭐ 181	🟡 2025年12月
🔗 j-liwc2015	-	-	⭐ 13	🔴 2024年11月
🔗 huggingface-datasets_livedoor-news-corpus	-	-	⭐ 2	🔴 2023年10月
🔗 huggingface-datasets_JGLUE	-	-	⭐ 12	🔴 2025年3月
🔗 commonsense-moral-ja	-	-	⭐ 15	🟡 2025年11月
🔗 comet-atomic-ja	-	-	⭐ 31	🔴 2024年3月
🔗 dcsg-ja	-	-	⭐ 6	🔴 2023年3月
🔗 japanese-toxic-dataset	-	-	⭐ 21	🔴 2023年1月
🔗 camera	-	-	⭐ 26	🔴 2024年8月
🔗 Japanese-Fakenews-Dataset	-	-	⭐ 20	🔴 2021年5月
🔗 jpn_explainable_qa_dataset	-	-	⭐ 仓库未找到	🔴 仓库未找到
🔗 copa-japanese	-	-	⭐ 1	🔴 2023年2月
🔗 WLSP-familiarity	-	-	⭐ 12	🔴 2025年1月
🔗 ProSub	-	-	⭐ 5	🟡 2025年4月
🔗 commonsense-moral-ja	-	-	⭐ 15	🟡 2025年11月
🔗 ramendb	-	-	⭐ 7	🟢 上周五
🔗 huggingface-datasets_CAMERA	-	-	⭐ 3	🔴 2023年3月
🔗 FactCheckSentenceNLI-FCSNLI-	-	-	⭐ 0	🔴 2021年3月
🔗 databricks-dolly-15k-ja	-	-	⭐ 89	🔴 2023年7月
🔗 EaST-MELD	-	-	⭐ 0	🔴 2023年6月
🔗 meconaudio	-	-	⭐ 10	🔴 2023年10月
🔗 japanese-addresses	-	-	⭐ 761	🟡 2025年12月
🔗 aozorasearch	-	-	⭐ 22	🟢 3月
🔗 llm-jp-corpus	-	-	⭐ 44	🔴 2023年10月
🔗 alpaca_ja	-	-	⭐ 86	🔴 2023年5月
🔗 instruction_ja	-	-	⭐ 24	🔴 2023年7月
🔗 japanese-family-names	-	-	⭐ 18	🔴 2017年6月
🔗 kanji-data-media	-	-	⭐ 409	🔴 2023年11月
🔗 reazonspeech	-	-	⭐ 380	🟢 1月
🔗 huriganacorpus-aozora	-	-	⭐ 22	🔴 2024年1月
🔗 koniwa	-	-	⭐ 60	🟡 2025年4月
🔗 JMMLU	-	-	⭐ 38	🟡 2025年10月
🔗 hurigana-speech-corpus-aozora	-	-	⭐ 48	🔴 2025年3月
🔗 jqara	-	-	⭐ 43	🟡 2025年9月
🔗 jemhopqa	-	-	⭐ 30	🟡 2025年4月
🔗 jacred	-	-	⭐ 8	🔴 2024年3月
🔗 jades	-	-	⭐ 0	🔴 2022年12月
🔗 do-not-answer-ja	-	-	⭐ 24	🔴 2023年12月
🔗 oasst1-89k-ja	-	-	⭐ 16	🔴 2023年11月
🔗 jacwir	-	-	⭐ 8	🟡 2025年9月
🔗 japanese-technical-dict	-	-	⭐ 3	🔴 2024年11月
🔗 j-unimorph	-	-	⭐ 9	🟢 1月
🔗 GazeVQA	-	-	⭐ 0	🔴 2024年9月
🔗 J-CRe3	-	-	⭐ 10	🔴 2025年1月
🔗 jmed-llm	-	-	⭐ 56	🔴 2024年9月
🔗 lawtext	-	-	⭐ 94	🟢 1月
🔗 pdmocrdataset-part2	-	-	⭐ 15	🔴 2024年6月
🔗 japanesetopicwsd	-	-	⭐ 2	🔴 2018年9月
🔗 temporalNLI_dataset	-	-	⭐ 1	🔴 2023年7月
🔗 JSeM	-	-	⭐ 13	🔴 2024年11月
🔗 niilc-qa	-	-	⭐ 18	🔴 2015年11月
🔗 chain-of-thought-ja-dataset	-	-	⭐ 5	🔴 2023年9月
🔗 WikipediaAnnotatedCorpus	-	-	⭐ 29	🟢 2月
🔗 elaws-history	-	-	⭐ 5	🟢 昨天
🔗 Japanese-RP-Bench	-	-	⭐ 18	🔴 2024年9月
🔗 hdic	-	-	⭐ 41	🟢 3月
🔗 awesome-japan-opendata	-	-	⭐ 159	🟢 3月
🔗 kanji-data	-	-	⭐ 18	🟢 2月
🔗 openchj-genji	-	-	⭐ 2	🔴 2025年3月
🔗 AdParaphrase	-	-	⭐ 1	🟡 2025年5月
🔗 Jamp_sp	-	-	⭐ 0	🔴 2024年6月
🔗 jnli-neg	-	-	⭐ 0	🟡 2025年12月
🔗 swallow-corpus	-	-	⭐ 6	🔴 2024年11月
🔗 jalecon	-	-	⭐ 5	🔴 2023年7月
🔗 multils-japanese	-	-	⭐ 0	🔴 无效
🔗 nwjc	-	-	⭐ 10	🔴 2022年4月
🔗 open-mantra-dataset	-	-	⭐ 199	🔴 2023年3月
🔗 gimei	-	-	⭐ 424	🟢 1月
🔗 safety-boundary-test	-	-	⭐ 9	🟡 2025年7月
🔗 j-ono-data	-	-	⭐ 7	🟢 上周四
🔗 kanji	-	-	⭐ 28	🟢 上周五
🔗 jethics	-	-	⭐ 2	🟡 2025年6月
🔗 waon	-	-	⭐ 6	🟡 2025年11月
🔗 kuci	-	-	⭐ 5	🔴 2024年2月
🔗 japanese-address-testdata	-	-	⭐ 14	🔴 2023年9月
🔗 jlpt-word-list	-	-	⭐ 66	🔴 2022年2月
🔗 hiragana_mojigazo	-	-	⭐ 18	🔴 2020年4月
🔗 lawqa_jp	-	-	⭐ 267	🟢 2月
🔗 yjcaptions	-	-	⭐ 60	🔴 2016年11月
🔗 ja-vg-vqa	-	-	⭐ 30	🔴 2018年11月
🔗 lawhub	-	-	⭐ 152	🔴 2020年11月
🔗 japanese-subtitles-word-kanji-frequency-lists	-	-	⭐ 40	🔴 2023年12月
🔗 jconj	-	-	⭐ 35	🔴 2020年5月
🔗 extract_jawp_names	-	-	⭐ 21	🔴 2022年12月
🔗 cejc_yomichan_freq_dict	-	-	⭐ 11	🔴 2023年6月
🔗 wikidict-ja	-	-	⭐ 5	🔴 2016年6月
🔗 ajimee-bench	-	-	⭐ 20	🔴 2025年1月
🔗 j-spaw	-	-	⭐ 5	🟡 2025年8月
🔗 camera3	-	-	⭐ 4	🔴 2024年5月
🔗 jgpqa	-	-	⭐ 2	🟡 2025年9月
🔗 tanaka-corpus-plus	-	-	⭐ 2	🔴 2021年6月
🔗 emotioncorpusjapanesetokushimaa2lab	-	-	⭐ 2	🔴 2024年9月
🔗 osworld-jp	-	-	⭐ 2	🟢 上周五
🔗 quasi_japanese_reviews	-	-	⭐ 1	🔴 2023年7月
🔗 psychiatry-clinical-notes	-	-	⭐ 1	🟡 2025年10月
🔗 merged-town-names	-	-	⭐ 1	🔴 2022年5月
🔗 japanesetextemoticondata	-	-	⭐ 1	🔴 2021年3月
🔗 mishearing-corpus	-	-	⭐ 1	🟢 1月
🔗 kotowaza	-	-	⭐ 2	🟢 2月
🔗 selective-rag-kasensabo	-	-	⭐ 1	🟡 2025年11月
🔗 jmle2026-bench	-	-	⭐ 10	🟢 3月
🔗 JSTS-Neg	-	-	⭐ 1	🟢 2月
🔗 business-slide-questions	-	-	⭐ 2	🟡 2025年5月
🔗 WLSP-antonym	-	-	⭐ 0	🔴 2021年3月
🔗 YouCook2-JP	-	-	⭐ 0	🟡 2025年8月
🔗 E2U	-	-	⭐ 0	🟢 3月
🔗 annotation-2025	-	-	⭐ 0	🟢 1月
🔗 jhpt	-	-	⭐ 3	🟢 3月
🔗 JBE-QA	-	-	⭐ 0	🟡 2025年11月
🔗 j-spaw	-	-	⭐ 5	🟡 2025年8月
🔗 JMedWiC	-	-	⭐ 3	🟢 3月
🔗 jhpt	-	-	⭐ 3	🟢 3月
🔗 Doppelganger-JC	-	-	⭐ 1	🟢 1月
🔗 modelvista-3lang	-	-	⭐ 2	🟢 3月
🔗 japanese-hr-niah	-	-	⭐ 1	🟢 1月
🔗 nijl-manyoshutei	-	-	⭐ 2	🟢 3月
🔗 kamuskita	-	-	⭐ 2	🟢 上周四

教程

学习日语自然语言处理工具和技巧的指南与教程

spacy_tutorial - spaCy 英文和日文教程。包含 spacy-transformers、BERT、GiNZA。
fastTextJapaneseTutorial - 使用日语文本语料训练 fastText 的教程。
allennlp-NER-ja - AllenNLP-NER-ja：使用 AllenNLP 进行日语命名实体识别。
chariot-PyTorch-Japanese-text-classification - 使用 chariot 和 PyTorch 进行日语文本分类的实验。
ginza-examples - 日语 NLP 库 GiNZA 推荐。
DocumentClassificationUsingBERT-Japanese - 使用 BERT 进行日语文档分类。
BERT_Japanese_Google_Colaboratory - 在 Google Colab 上运行日语 BERT 的方法。
bert-book - 《BERT 自然语言处理入门：基于 Transformers 的实战编程》支持页面。
janome-tutorial - 使用 Janome 进行文本挖掘入门教程。
handson-language-models - 日语语言模型动手实践资料。
JapaneseNLI - 在 Google Colab 上尝试日语文本推理。
deep-learning-with-pytorch-ja - 深度学习与 PyTorch 的日语版仓库。
bert-classification-tutorial - 【2023 年版】使用 BERT 进行文本分类。
python-nlp-book - 《深度学习自然语言处理》（共立出版）的支持页面。
llm-book - 《大规模语言模型入门》（技术评论社，2023 年）的 GitHub 仓库。
nlp2024-tutorial-3 - NLP2024 教程 3：亲手构建并学习日语大规模语言模型——环境搭建步骤及源代码。
japanese-ir-tutorial - 日语文本信息检索教程。
nlpbook - 《自然语言处理教科书》支持网站。
kantan-regex-book - 通过实践学习正则表达式引擎。
bert-classification-tutorial-2024 - 【2024 年版】使用 BERT 进行文本分类。
Gemma2_2b_Japanese_finetuning_colab.ipynb - 针对日语指令对 Google Gemma 进行微调。
nlp100v2020 - 使用 Python 解答《语言处理 100 题 2020》。
textmining-ja - 使用 R 进行自然语言处理和文本分析练习。
nlp2025-tutorial-2 - NLP2025 教程《地理信息与语言处理实践入门》的资料和源代码。
nlp100v2025 - 使用 Python 解答《语言处理 100 题 2025》。
topic-models-ao - 《主题模型》（机器学习专业系列）的笔记。
slp2025 - 2025 年音学研讨会教程《多模态大规模语言模型入门》资料。
book_impress_it-basic-education-ai - Impress 出版社《IT 基础素养：自然语言处理与图像分析》。
genai-agent-advanced-book - 书籍《现场活用生成式 AI 代理实践入门》（讲谈社科学社）中使用的源代码。
course2024-nlp - 2024 年立教大学研究生院人工智能科学研究科自然语言处理专题讲座。
support-genai-book - 从原始论文解析生成式 AI（技术评论社）的支持页面。
ir100 - 信息检索 100 题。
kaggle_llm_book - 《Kaggle 入门大规模语言模型——自然语言处理〈实战〉编程》的支持网站。

名称	每周下载量	总下载量	星数	最后提交
🔗 spacy_tutorial	-	-	⭐ 65	🔴 2020年1月
🔗 fastTextJapaneseTutorial	-	-	⭐ 205	🔴 2016年9月
🔗 allennlp-NER-ja	-	-	⭐ 5	🔴 2022年5月
🔗 chariot-PyTorch-Japanese-text-classification	-	-	⭐ 5	🔴 2019年3月
🔗 ginza-examples	-	-	⭐ 15	🔴 2021年1月
🔗 DocumentClassificationUsingBERT-Japanese	-	-	⭐ 0	🟡 2025年8月
🔗 BERT_Japanese_Google_Colaboratory	-	-	⭐ 29	🔴 2022年1月
🔗 bert-book	-	-	⭐ 264	🔴 2024年2月
🔗 janome-tutorial	-	-	⭐ 31	🔴 2019年3月
🔗 handson-language-models	-	-	⭐ 3	🔴 2021年3月
🔗 JapaneseNLI	-	-	⭐ 6	🔴 2021年6月
🔗 deep-learning-with-pytorch-ja	-	-	⭐ 143	🔴 2021年5月
🔗 bert-classification-tutorial	-	-	⭐ 234	🔴 2024年5月
🔗 python-nlp-book	-	-	⭐ 10	🔴 2023年5月
🔗 llm-book	-	-	⭐ 467	🟡 2025年12月
🔗 nlp2024-tutorial-3	-	-	⭐ 113	🔴 2024年4月
🔗 japanese-ir-tutorial	-	-	⭐ 3	🔴 2024年6月
🔗 nlpbook	-	-	⭐ 14	🟡 2025年4月
🔗 kantan-regex-book	-	-	⭐ 22	🔴 2024年3月
🔗 bert-classification-tutorial-2024	-	-	⭐ 30	🔴 2024年7月
🔗 Gemma2_2b_Japanese_finetuning_colab.ipynb	-	-	⭐ 仓库未找到	🔴 2024年8月
🔗 nlp100v2020	-	-	⭐ 90	🟡 2025年4月
🔗 textmining-ja	-	-	⭐ 3	🟢 3月
🔗 nlp2025-tutorial-2	-	-	⭐ 17	🟢 2月
🔗 nlp100v2025	-	-	⭐ 90	🟡 2025年4月
🔗 public-annotations	-	-	⭐ 13	🟡 2025年4月
🔗 topic-models-ao	-	-	⭐ 4	🟡 2025年5月
🔗 slp2025	-	-	⭐ 64	🟢 上周三
🔗 book_impress_it-basic-education-ai	-	-	⭐ 4	🟡 2025年6月
🔗 genai-agent-advanced-book	-	-	⭐ 194	🟡 2025年9月
🔗 course2024-nlp	-	-	⭐ 仓库未找到	🔴 仓库未找到
🔗 support-genai-book	-	-	⭐ 91	🟢 1月
🔗 ir100	-	-	⭐ 93	🟡 2025年12月
🔗 kaggle_llm_book	-	-	⭐ 31	🟢 3月

研究总结

日本自然语言处理研究中的各类研究与论文摘要

awesome-bert-japanese - 包含日语预训练 BERT 模型的列表，附带词/子词分词及词汇构建算法信息
GEC-Info-ja - 收集并分类有关日语文法错误修正相关文献的仓库
dataset-list - 文本语料库等列表（主要为日语）
tuning_playbook_ja - 用于系统性地最大化深度学习模型性能的指南
japanese-pitch-accent-resources - 旨在将日语音韵资源，尤其是重音资源整合到一个列表中
awesome-japanese-llm - 开源日语大语言模型汇总

名称	每周下载量	总下载量	星数	最后提交
🔗 awesome-bert-japanese	-	-	⭐ 132	🔴 2023年3月
🔗 GEC-Info-ja	-	-	⭐ 13	🟡 2025年4月
🔗 dataset-list	-	-	⭐ 118	🔴 2024年7月
🔗 tuning_playbook_ja	-	-	⭐ 190	🔴 2023年1月
🔗 japanese-pitch-accent-resources	-	-	⭐ 126	🔴 2024年2月
🔗 awesome-japanese-llm	-	-	⭐ 1.4k	🟢 3月

参考资料

贡献者

awesome-japanese-nlp-resources 快速上手指南

awesome-japanese-nlp-resources 并非单一的软件库，而是一个精选的日语自然语言处理（NLP）资源列表，涵盖了 Python 库、大模型、词典、语料库等。本指南将指导你如何快速搭建环境，并使用列表中几个最主流的工具进行日语分词、词性标注和句法分析。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

操作系统: Linux, macOS 或 Windows (Windows 用户建议安装 WSL2 以获得最佳兼容性)。
Python 版本: 推荐 Python 3.8 及以上版本。
包管理器: 已安装 pip 或 conda。
系统依赖:
- 部分底层库（如 MeCab, Sudachi）可能需要编译环境。
- Ubuntu/Debian: sudo apt-get install build-essential cmake
- macOS: 确保已安装 Xcode Command Line Tools (xcode-select --install)。
- Windows: 建议安装 Visual Studio Build Tools。

提示：国内开发者建议使用清华源或阿里源加速 Python 包下载。
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

安装步骤

由于该列表包含众多工具，这里演示安装三个最具代表性的库：SudachiPy (工业级分词), Janome (纯 Python 实现，无需额外依赖), 和 Ginza (基于 spaCy 的句法分析)。

1. 安装 SudachiPy (推荐用于生产环境)

Sudachi 是 Works Applications 开发的高性能分词器，支持多种分词模式。

pip install sudachipy sudachidict_core

注：sudachidict_core 是核心词典，必须安装才能使用。

2. 安装 Janome (推荐用于快速原型或无编译环境)

Janome 是完全用 Python 编写的分词器，安装最简单，无需系统级依赖。

pip install janome

3. 安装 Ginza (推荐用于句法分析和依存关系)

Ginza 基于 spaCy 框架，提供高精度的日语依存句法分析。

pip install ginza

注：首次运行时，Ginza 会自动下载对应的模型文件。

基本使用

以下是各库的最简使用示例。

1. 使用 SudachiPy 进行分词

from sudachipy import tokenizer
from sudachipy import dictionary

# 创建分词器实例
tokenizer_obj = dictionary.Dictionary().create()

# 待处理的日语文本
text = "日本語の自然言語処理は面白いです。"

# 执行分词 (Mode.C 为标准模式)
tokens = tokenizer_obj.tokenize(text, tokenizer.Tokenizer.SplitMode.C)

for token in tokens:
    # 获取表面形式 (单词本身)
    surface = token.surface()
    # 获取词性 (Part of Speech)
    pos = token.part_of_speech()
    print(f"{surface}\t{pos}")

2. 使用 Janome 进行分词与词性标注

from janome.tokenizer import Tokenizer

# 初始化分词器
t = Tokenizer()

text = "日本語の自然言語処理は面白いです。"

# 分词并遍历结果
for token in t.tokenize(text):
    # surface: 单词，part_of_speech: 词性大类，detailed_part_of_speech: 词性细节
    print(f"{token.surface}\t{token.part_of_speech}\t{token.detailed_part_of_speech}")

3. 使用 Ginza 进行依存句法分析

import spacy

# 加载日语模型 (首次运行会自动下载)
nlp = spacy.load("ja_ginza")

text = "猫がマットの上で寝ています。"

# 处理文本
doc = nlp(text)

# 打印依存关系分析结果
for token in doc:
    # text: 单词，dep_: 依存关系，head.text: 支配词
    print(f"{token.text}\t{token.dep_}\t{token.head.text}")

常见问题

是否有用于日语文本自动添加标点的机器学习模型或工具？

有哪些高效的工具可以为电子书（ePub）中的汉字添加读音（振假名）？

有哪些适用于搜索场景且易于使用的日语形态素分析器？

有哪些基于 BERT 的日语依存句法分析器或分词工具？

是否有针对日语医疗领域的预训练 BERT 模型或疾病名称提取工具？

.NET 环境下有什么推荐的日语形态素分析引擎吗？

有哪些用于日语对话系统或聊天机器人的预训练模型和代码实现？

如何为这个资源列表贡献新的工具或成为贡献者？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|5天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|6天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 150.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|昨天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|2天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|5天前

插件开发框架

使用场景

没有 awesome-japanese-nlp-resources 时

使用 awesome-japanese-nlp-resources 后

运行环境要求

快速开始

令人惊叹的日本自然语言处理资源

🎉 最新添加的内容

目录

Python 库

形态分析

语法分析

转换器

预处理工具

句子分割器

情感分析

机器翻译

命名实体识别

OCR

预训练模型工具

其他

C++

词法分析

句法分析

其他

Rust crate

词法分析

转换器

搜索引擎库

其他

JavaScript

形态分析

转换器

其他

Go

形态分析

其他

Java

形态分析

其他

预训练模型

Word2Vec

基于Transformer的模型

ChatGPT

字典与输入法

语料库

词性标注 / 命名实体识别

平行语料库

对话语料库

其他

教程

研究总结

参考资料

贡献者

awesome-japanese-nlp-resources 快速上手指南

环境准备

安装步骤

1. 安装 SudachiPy (推荐用于生产环境)

2. 安装 Janome (推荐用于快速原型或无编译环境)

3. 安装 Ginza (推荐用于句法分析和依存关系)

基本使用

1. 使用 SudachiPy 进行分词

2. 使用 Janome 进行分词与词性标注

3. 使用 Ginza 进行依存句法分析

更多资源探索

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown