awesome-japanese-llm
awesome-japanese-llm 是一个专注于汇总日语大语言模型(LLM)及相关评估基准的开源知识库。它系统地整理了目前公开可用的、以日语为核心训练数据的各类模型信息,涵盖了从基础架构、参数量、训练数据规模到具体的许可协议等关键细节。
在日语 AI 生态中,模型种类繁多且授权条款复杂,开发者往往难以快速甄别适合自身项目的资源。awesome-japanese-llm 有效解决了这一信息分散与筛选困难的痛点,提供了一份经过社区维护的“导航图”,帮助用户清晰了解不同模型的技术特点及使用限制,特别是明确区分了完全开源与非商业限定授权的模型,规避了潜在的合规风险。
这份资源特别适合 AI 研究人员、自然语言处理开发者以及希望将日语大模型集成到产品中的技术团队使用。无论是需要从头训练的研究者,还是寻找特定微调模型的应用开发者,都能从中获得极具价值的参考。其独特的亮点在于不仅罗列了如 LLM-jp-3 172B、Sarashina2 等前沿模型的具体技术参数,还持续追踪最新的评估基准,并以多语言版本(含中文友好链接)呈现,极大地降低了日语大模型技术的探索门槛。
使用场景
某日本金融科技公司的算法团队正急需为内部合规系统部署一个高精度日语大模型,以自动审核复杂的金融合同条款。
没有 awesome-japanese-llm 时
- 选型如大海捞针:团队需在 Hugging Face、GitHub 及各大学术论文中手动搜寻,难以区分哪些模型是真正针对日语原生优化,哪些仅是翻译微调。
- 许可风险隐蔽:容易忽略部分模型虽开源代码但限制商用(如 CC BY-NC-SA),导致项目后期面临法律合规隐患。
- 性能评估缺失:缺乏统一的日语基准测试数据,无法客观对比 Sarashina2 与 LLM-jp-3 等模型在长文本理解上的真实差距。
- 技术细节分散:架构参数(如 MoE 结构)、训练语料规模(2.1T tokens)等关键信息散落在不同页面,整理耗时数周。
使用 awesome-japanese-llm 后
- 一站式精准筛选:直接查阅分类清晰的列表,快速锁定适合金融场景的“从头训练”通用模型,大幅缩短调研周期。
- 授权一目了然:表格明确标注每个模型的许可证类型(如 MIT 或非商业限制),帮助团队瞬间排除不符合企业商用要求的选项。
- 数据驱动决策:参考收录的日语评估基准和详细训练数据来源,科学选定在长文档处理上表现最优的 LLM-jp-3 172B 模型。
- 核心参数聚合:直接获取上下文窗口大小、架构类型及指令微调数据集详情,技术人员半天内即可完成可行性验证。
awesome-japanese-llm 将原本数周的碎片化调研工作压缩至数小时,为日语大模型的落地提供了权威、透明且高效的决策依据。
运行环境要求
未说明 (具体需求取决于所选模型的参数量,例如运行 172B 模型通常需要多张高显存 GPU 或量化版本)
未说明

快速开始
日语大型语言模型汇总
📖 请使用更易读的网页版
本README的内容可在**llm-jp.github.io/awesome-japanese-llm**以更清晰的格式查看。为避免表格显示错乱或布局问题,建议您访问网页版。
本文汇总了公开可用的日语大型语言模型(以日语为主要训练语言的LLM)以及日语LLM评估基准的相关信息。这些信息由志愿者收集整理,部分内容引用自论文及公开资源等。
::: warning 请事先理解并同意以下几点
- 本文内容不保证完整性或准确性。相关信息可能会在未通知的情况下变更,且不一定能始终提供最新信息。
- 部分信息可能基于推测或个别用户的解读,因此未必对所有读者都准确。
- 本文中列出的许多模型采用MIT许可证或Apache-2.0等开源许可证。然而,请注意,部分模型适用非商业用途限定的许可证(如CC BY-NC-SA 4.0)或开发者特有的许可证,这些并不一定属于开源范畴。
- 对于个人开发的模型,文中省略了作者的敬称。 :::
本文由GitHub进行管理。若您发现文章中的错误,或希望提出新增模型的建议,请通过GitHub Issues提交反馈,我们将不胜感激。
::: details 目录 {open} [[toc]] :::
主要用于文本生成的模型
包含图像的文本生成模型请见此处
从零开始训练的模型
通用
| 公開年 | アーキテクチャ | 入出力で扱える トークン数 |
学習テキスト | 開発元 | ライセンス / 利用規約 | |
|---|---|---|---|---|---|---|
| Sarashina2-8x70B | 2024 | MoE (8x70b (465b)) |
8,192 | Sarashina2 (70B) に対して Sparse Upcycling で学習 | SB Intuitions | Sarashina Model NonCommercial License |
| LLM-jp-3 172B | 2024 | Llama (172b, 172b-instruct2, 172b-instruct3) |
4,096 | 事前学習: llm-jp-corpus-v3 (計 2.1T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst |
大規模言語モデル研究開発センター | 事前学習済みモデル: LLM-jp-3 172B Terms of Use 事後学習済みモデル: llm-jp-3-172b-instruct3利用許諾契約 |
| LLM-jp-3 172B beta2 | 2024 | Llama (172b-beta2, 172b-beta2-instruct2) |
4,096 | 事前学習: llm-jp-corpus-v3の一部 (計 1.4T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k |
大規模言語モデル研究開発センター | LLM-jp-3 172B beta2 Terms of Use |
| LLM-jp-3 172B beta1 | 2024 | Llama (172b-beta1, 172b-beta1-instruct) |
4,096 | 事前学習: llm-jp-corpus-v3の一部 (計 0.7T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN |
大規模言語モデル研究開発センター | LLM-jp-3 172B beta1 Terms of Use |
| LLM-jp-3 172B alpha | 2024 | Llama (172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct) |
4,096 | 事前学習: llm-jp-corpus-v3の一部 (alpha1: 計 0.7T トークン, alpha2: 計 1.4T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN |
大規模言語モデル研究開発センター | Apache 2.0 |
| Stockmark-2-100B-Instruct-beta | 2025 | Llama (100B-Instruct-beta, 100B-Instruct-beta-AWQ) |
4,096 | 事前学習: 計 1.5T トークン Instruction Tuning DPO |
ストックマーク | MIT |
| Stockmark-100b | 2024 | Llama (100b, 100b-instruct-v0.1) |
4,096 | 事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus (計 910B トークン) Instruction Tuning (LoRA): ichikara-instruction |
ストックマーク | MIT |
| PLaMo-100B-Pretrained | 2024 | Llama^22 (100b) |
4,096 | 事前学習: Japanese CommonCrawl, RefinedWeb, 独自のデータセット (計: 2.0T トークン) |
Preferred Elements (Preferred Networks) | PLaMo Non-Commercial License |
| LLM-jp-3.1 | 2025 | Llama/MoE (8x13b (73b), 8x13b (73b)-instruct4, 13b, 13b-instruct4, 1.8b, 1.8b-instruct4) |
4,096 | 事前学習: llm-jp-corpus-v3 (計 2.5T トークン) 継続事前学習: インストラクション・レスポンスペア (計 90B トークン) SFT + DPO |
大規模言語モデル研究開発センター | Apache 2.0 |
| LLM-jp-3 MoE | 2025 | MoE (8x1.8b (9.3b), 8x1.8b (9.3b)-instruct2, 8x1.8b (9.3b)-instruct3, 8x13b (73b), 8x13b (73b)-instruct2, 8x13b (73b)-instruct3) |
4,096 | LLM-jp-3 (1.8b, 13b) に対して Drop-Upcycling で学習 | 大規模言語モデル研究開発センター | Apache 2.0 |
| Sarashina2 | 2024 | Llama (7b, 13b, 70b) |
7b, 13b: 4,096 70b: 8,192 |
事前学習: Japanese Common Crawl, SlimPajama, StarCoder (計 2.1T トークン) |
SB Intuitions | MIT |
| Sarashina1 | 2024 | GPT-NeoX (7b, 13b, 65b) |
2,048 | 事前学習: Japanese Common Crawl (計 1T トークン) |
SB Intuitions | MIT |
| Tanuki-8×8B | 2024 | MoE (47b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF) |
4,096 | 事前学習: 様々な Web 上のデータ, 合成データ(計 1.7T トークン) SFT, DPO: 様々な合成データ ^19 |
松尾研LLM開発プロジェクト | Apache 2.0 |
| LLM-jp-4 32B-A3B | 2026 | Qwen3 MoE (32b-a3b-base, 32b-a3b-thinking) |
65,536 | 事前学習 + 中間学習: llm-jp-corpus-v4.1, llm-jp-corpus-midtraining-v2 (計 11.7T トークン) SFT: llm-jp-4-thinking-sft-data DPO: llm-jp-4-32b-a3b-thinking-dpo-data |
大規模言語モデル研究開発センター | Apache 2.0 |
| PLaMo 3 | 2025 | Gemma ベースのアーキテクチャ (2b-base, 8b-base, 31b-base) |
4,096 | 事前学習: 英語、日本語、コード、多言語 (2b: 200B トークン, 8b: 1T トークン, 31b: 3T トークン) |
Preferred Networks | PLaMo community license |
| Way-PLaMo-3-8b-chat | 2025 | PLaMo 3ベース (8b-chat) | 4,096 | Instruction Following SFT: Alpaca (51.7K), Dolly-15k-ja (15K) | 個人 (WayBob) | PLaMo community license |
| CyberAgentLM3 (CALM3) | 2024 | Llama (22b-chat, 22b-chat-selfimprove-experimental) |
16,384 | 不明 (計 2.0T トークン) |
サイバーエージェント | Apache 2.0 |
| LLM-jp-3 13B instruct3 | 2025 | Llama (150m, 150m-instruct2, 150m-instruct3, 440m, 440m-instruct2, 440m-instruct3, 980m, 980m-instruct2, 980m-instruct3, 1.8b-instrcut2, 1.8b-instruct3, 3.7b-instruct2, 3.7b-instruct3, 7.2b-instruct2, 7.2b-instruct3, 13b-instruct2, 13b-instruct3) |
4,096 | 事前学習: llm-jp-corpus-v3 (計 2.1T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst |
大規模言語モデル研究開発センター | Apache 2.0 |
| LLM-jp-3 13B | 2024 | Llama (1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 7.2b, 7.2b-instruct, 13b, 13b-instruct) |
4,096 | 事前学習: llm-jp-corpus-v3 (計 2.1T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k |
大規模言語モデル研究開発センター | Apache 2.0 |
| llm-jp-3-3.7b-instruct-EZO | 2024 | Llama (3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities) |
4,096 | LLM-jp-3 (3.7B) に対して追加学習 | Axcxept | Apache 2.0 |
| LLM-jp-13B v2.0 | 2024 | Llama (13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0) |
4,096 | 事前学習: llm-jp-corpus-v2 (計 260B トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2 |
LLM-jp | Apache 2.0 |
| Fugaku-LLM | 2024 | GPT (13B, 13B-instruct, 13B-instruct-gguf) |
2,048 | 事前学習: 独自 Instruction Tuning: OASST1, Dolly Dataset, GSM8K |
東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba Technologies | Fugaku-LLM Terms of Use |
| LLM-jp-13B v1.1 | 2024 | GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1) |
2,048 | Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF |
LLM-jp | Apache 2.0 |
| LLM-jp-13B | 2023 | GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0) |
2,048 | 事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン) Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1 |
LLM-jp | Apache 2.0 |
| PLaMo-13B | 2023 | Llama^1 (13b, 13b-instruct, 13b-instruct-nc) |
base: 4,096 instruct, instruct-nc: 8,192 |
事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4 (計 1.5T トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習) |
Preferred Networks | Apache 2.0 (NC モデルは CC BY-NC 4.0) |
| Stockmark-13b | 2023 | Llama (13b, 13b-instruct) |
2,048 | 事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus (計 220B トークン) Instruction Tuning (LoRA): ichikara-instruction |
ストックマーク | baseモデル: MIT instructモデル: CC BY-NC-SA 4.0 |
| Weblab-10B | 2023 | GPT-NeoX (10b, 10b-instruction-sft) |
2,048 | Japanese mC4 + The Pile(計 600B トークン) *instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング |
東大 松尾研 | CC BY-NC 4.0 |
| LLM-jp-4 8B | 2026 | Llama (8b-base, 8b-instruct, 8b-thinking) |
65,536 | 事前学習 + 中間学習: llm-jp-corpus-v4.1, llm-jp-corpus-midtraining-v2 (計 11.7T トークン) SFT: llm-jp-4-thinking-sft-data DPO (thinking のみ): llm-jp-4-8b-thinking-dpo-data |
大規模言語モデル研究開発センター | Apache 2.0 |
| PLaMo 2.1 8B | 2025 | Samba ベースのアーキテクチャ (8b-cpt) |
32,768 | 訓練詳細不明 | Preferred Networks | PLaMo community license |
| PLaMo 2 8B | 2025 | Samba ベースのアーキテクチャ (8b) |
日本語、英語等のデータ (計 6T トークン) |
Preferred Networks | PLaMo community license | |
| Tanuki-8B | 2024 | Tanuki (8b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF) |
4,096 | 事前学習: 様々な Web 上のデータ, 合成データ(計 1.3T トークン) SFT, DPO: 様々な合成データ ^19 |
松尾研LLM開発プロジェクト | Apache 2.0 |
| Japanese StableLM Alpha | 2023 | GPT-NeoX (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2) |
2,048 | Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama (+ 独自のデータセット)[^2] (計 750B トークン) *instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング (v2では商用利用不可の Alpaca Dataset を除外) |
Stability AI | baseモデル: Apache 2.0 instruct モデル (v1): 独自のライセンス instruct モデル (v2): Apache 2.0 |
| CyberAgentLM2 (CALM2) | 2023 | Llama (7b, 7b-chat, 7b-chat-dpo-experimental) |
base: 4,096 chat: 32,768 |
一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン) *dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習 |
サイバーエージェント | Apache 2.0 (dpo モデルのみ CC BY 4.0) |
| OpenCALM | 2023 | GPT-NeoX (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b)) |
2,048 | 日本語 Wikipedia + Jpanese mC4 + Japanese CC-100 |
サイバーエージェント | CC BY-SA 4.0 |
| Stormy | 2023 | GPT-NeoX (7b(6.8b)) |
2,048 | OpenCALM (6.8b) に対して llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング |
東大 和泉研 | CC BY-SA 4.0 |
| ByGPT-JP | 2025 | Llama ベース (multi-lm-head-6.5b-alpha) |
5,760 | llm-jp-corpus-v3 のサブセット (ja_cc, ja_warp_html, ja_warp_pdf, ja_wiki, kaken) | 東北大 自然言語処理研究グループ |
Apache 2.0 |
| rinna GPT (英語やコードも含めて学習されたモデル) |
2023 | GPT-NeoX (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo) |
8kモデル: 8,192 他: 2,048 |
Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile (計 524B トークン) *8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング *instruction-sft モデルでは HH RLHF、FLAN でファインチューニング *instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習 |
rinna | MIT |
| japanese-large-lm | 2023 | GPT-NeoX (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft) |
2,048 | 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど (計 650GB) *instruction-sft モデルでは OASST1 でファインチューニング |
LINE | Apache 2.0 |
| rinna GPT (日本語のみで学習されたモデル) |
2023 | GPT または GPT-NeoX (xsmall, small, medium, 1b, neox-small, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo) |
≤ 2,048 | 日本語 Wikipedia + Japanese CC-100 (1b 以降のモデルでは さらに Japanese mC4 を追加) *instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング *instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習 |
rinna | MIT |
| Sarashina2.2 | 2025 | Llama (0.5b, 0.5b-instruct-v0.1, 1b, 1b-instruct-v0.1, 3b, 3b-instruct-v0.1) |
8,192 | SB Intuitions | MIT | |
| レトリバT5 | 2023 | T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b)) |
日本語 Wikipedia + Japanese mC4 | レトリバ | CC BY-SA 4.0 | |
| Spiral-RetNet-3b-base | 2024 | RetNet (3b) |
2,048 | Wikipedia, Japanese CC-100, CulturaX | Spiral.AI | MIT |
| kotomamba-2.8B | 2024 | Mamba (2.8B-v1.0) |
2,048 | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
| ABEJA GPT | 2022 | GPT または GPT-NeoX (large, neox-2.7b) |
日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR |
ABEJA | MIT | |
| PLaMo 2.1 2B | 2025 | Causal decoder-only transformer (2b-cpt) |
32,768 | 訓練詳細不明 | Preferred Networks | PLaMo community license |
| Rakuten AI 2.0 mini | 2025 | Mistral (mini(1.5b), mini(1.5b)-instruct) |
131,072 | 楽天 | Apache 2.0 | |
| 早大GPT | 2022 | GPT (small, xl(1.5b)) |
日本語 Wikipedia + Japanese CC-100 |
早大 河原研 | CC BY-SA 4.0 | |
| ストックマークGPT | 2023 | GPT-NeoX (1.4b) |
日本語 Wikipedia (0.88B トークン) + Japanese CC-100 (10.5B トークン) + 独自のWebデータ (8.6B トークン) |
ストックマーク | MIT | |
| イエローバックGPT | 2021 | GPT-NeoX (1.3b) |
日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR |
イエローバック | Apache 2.0 | |
| PLaMo 2 1B | 2025 | Samba ベースのアーキテクチャ (1b) |
日本語、英語等のデータ (計 4T トークン) |
Preferred Elements (Preferred Networks) | Apache 2.0 | |
| Sarashina2.1-1B | 2024 | Llama (1b) |
8,192 | Web 上などの日本語・英語データ(計 10T トークン) | SB Intuitions | Sarashina Model NonCommercial License |
| colorfulscoop GPT | 2021 | GPT (small) |
日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 | |
| 東工大GPT | 2023 | GPT (medium, medium (逆方向)) ^3 |
日本語 Wikipedia + Japanese CC-100 | 東工大 岡崎研 | CC BY-SA 4.0 | |
| 京大GPT | 2022 | GPT (small (文字レベル), medium (文字レベル), large (文字レベル)) |
日本語 Wikipedia (約2,700万文 (3.2GB)) + Japanese CC-100 (約6億1,900万文 (85GB)) + Japanese OSCAR (約3億2,600万文 (54GB)) |
京大 言語メディア研究室 | CC BY-SA 4.0 | |
| 日本語BART | 2023 | BART (base, large) |
日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | CC BY-SA 4.0 | |
| Megagon Labs T5 | 2021 | T5 (base) |
Japanese mC4 (87,425,304 ページ (782 GB)) + Japanese wiki40b (828,236 記事 (2 GB)) |
Megagon Labs (リクルート) |
Apache 2.0 |
领域专用
| 领域 | 架构 | 学习文本 | 开发方 | 许可证 | |
|---|---|---|---|---|---|
| SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct | 医疗 | MoE | 医疗系语料库 (44.2B 个token) 上对 LLM-jp-3 MoE (8x13b) 进行额外预训练,随后进行指令微调 | 战略性创新创造计划(SIP)第3期课题“在构建集成型医疗保健系统中利用生成式AI”主题1“开发并社会实施具有安全性与可靠性之开放式医疗LLM”研究小组 | Apache 2.0 |
| 日语对话Transformer | 对话 | Transformer | Twitter 上的日语回复配对 | NTT | 自定义许可证 |
| 日语新闻BART | 商业 | BART (base) | 日本商业新闻文章(约2,100万篇 (2.9亿句)) | StockMark | MIT |
| AcademicBART | 学术 | BART (base) | CiNii 的日语论文 | 爱媛大学人工智能研究室 | Apache 2.0 |
在海外模型基础上进行日语持续预训练的模型
※也包括在持续预训练后进行了后续学习(如SFT、DPO、RL等)的模型
泛用
| 公開年 | ベースのLLM | 学習テキスト | 開発元 | ライセンス / 利用規約 | |
|---|---|---|---|---|---|
| GPT-OSS Swallow 120B (120B-SFT-v0.1, 120B-RL-v0.1) |
2026 | GPT-OSS (120b) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 419.4B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset) |
Swallowプロジェクト | Apache 2.0 |
| Llama 3.3 Swallow 70B (70B-v0.4, 70B-Instruct-v0.4) |
2025 | Llama 3.3 (70b) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1, Swallow-Code-v0.3-Instruct-style |
Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |
| Llama 3.1 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1, 70B-Instruct-v0.3) |
2024 | Llama 3.1 (70b) | 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie |
Swallowプロジェクト | Llama 3.1 Community License (Instructモデルは Gemma Terms of Use も適用) |
| cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 | 2024 | Llama 3.1 (70b) | 不明 | サイバーエージェント | Llama 3.1 Community License |
| Llama 3 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1) |
2024 | Llama 3 (70b) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [^17] |
Swallowプロジェクト | Llama 3 Community License |
| turing-motors/Llama-3-heron-brain-70B-v0.3 | 2024 | Llama 3 (70b) | Llama 3 Swallow 70B に対して追加学習(詳細不明) | Turing | Llama 3 Community License |
| Llama 3 Youko 70B (70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq) |
2024 | Llama 3 (70b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 5B トークン) Instruction Tuning: 独自のデータセット[^11] |
rinna | Llama 3 Community License |
| Swallow 70B (70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf) |
2023 | Llama 2 (70b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用 |
Swallowプロジェクト | Llama 2 Community License |
| KARAKURI LM (70b-v0.1, 70b-chat-v0.1) |
2024 | Llama 2 (70b) | 事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット (計 16B トークン) SteerLM: OASST2, 独自のデータセット |
カラクリ | Llama 2 Community License[^13] |
| Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b) |
2023 | Llama 2 (70b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 |
Stability AI | Llama 2 Community License |
| Fujitsu-LLM-KG (8x7B_cpt, 8x7B_inst-infer_v1, 8x7B_inst-infer_v2, 8x7B_inst-gen_ja, 8x7B_inst-gen_en) |
2025 | Mixtral-8x7B-Instruct-v0.1 (46.7b) | 事前学習: 知識グラフ並列コーパス(森羅プロジェクト、Wikipedia等から合成) 2.1Bトークンを含む計約300Bトークン Instruction Tuning: 知識グラフ推論・生成タスク用データセット |
富士通 | Apache 2.0 |
| Swallow-MX 8x7B (8x7b-NVE-v0.1) |
2024 | Mixtral-8x7B-Instruct-v0.1 (46.7b) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault | Swallowプロジェクト | Apache 2.0 |
| KARAKURI LM 8x7B Instruct v0.1 (8x7b-instruct-v0.1) |
2024 | Mixtral-8x7B-Instruct-v0.1 (46.7b) | Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセット | カラクリ | Apache 2.0 (?)^12 |
| KARAKURI LM 8x7B Chat v0.1 (8x7b-chat-v0.1) |
2024 | Mixtral-8x7B-Instruct-v0.1 (46.7b) | Swallow-MX 8x7B に対して SteerLM: OASST2, HelpSteer, 独自のデータセット |
カラクリ | Apache 2.0 |
| ABEJA-Mixtral-8x7B-japanese (8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged) |
2024 | Mixtral-8x7B-Instruct-v0.1 (46.7b) *Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース |
事前学習: Japanese CC, Redpajama, 独自 (計 450B トークン) |
ABEJA | Apache 2.0 |
| Qwen3 Swallow 32B (32B-CPT-v0.2, 32B-SFT-v0.2, 32B-RL-v0.2) |
2026 | Qwen3 (32b) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 209.7B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset) |
Swallowプロジェクト | Apache 2.0 |
| ELYZA-Thinking-1.0-Qwen-32B (32B) |
2025 | Qwen 2.5 (32b) | 事前学習 + SFT (Reasoning) | ELYZA | Apache 2.0 |
| ELYZA-Shortcut-1.0-Qwen-32B (32B) |
2025 | Qwen 2.5 (32b) | 事前学習 + SFT | ELYZA | Apache 2.0 |
| ABEJA-Qwen2.5-32b-Japanese-v1.0 (v1.0) |
2025 | Qwen2.5-32B-Instruct (32b) | 継続事前学習 + SFT + DPO: 約2万件の合成データ・人手アノテーションデータセット(抽出・推論能力に特化) | ABEJA | Apache 2.0 |
| Qwen2.5 Bakeneko 32B (qwen2.5-bakeneko-32b, qwen2.5-bakeneko-32b-instruct, deepseek-r1-distill-qwen2.5-bakeneko-32b, qwq-bakeneko-32b) |
2025 | Qwen 2.5 (32b) | rinna | Apache 2.0 | |
| ABEJA-QwQ32b-Reasoning-Japanese-v1.0 (v1.0) |
2025 | Qwen 2.5 (32b) | ABEJA-Qwen2.5-32b-Japanese-v0.1 に QwQ 32b の Chat Vector をマージした上で追加学習 | ABEJA | Apache 2.0 |
| ABEJA-Qwen2.5-32b-Japanese-v0.1 (32b-Japanese-v0.1) |
2025 | Qwen 2.5 (32b) | 事前学習: Common Crawl, Cosmopedia, 独自 (計 100B トークン) + Chat Vector |
ABEJA | Apache 2.0 |
| neoAI-JP-QwQ-32B (32B) |
2025 | Qwen 2.5 (32b) | 継続事前学習: llm-jp-corpus v3から約4Bトークン + QwQ-32BのChat Vector |
neoAI | Apache 2.0 |
| neoAI-JP-DeepSeek-Qwen-32B (32B) |
2025 | Qwen 2.5 (32b) | 継続事前学習: llm-jp-corpus v3から約4Bトークン + DeepSeek-R1-Distill-Qwen-32BのChat Vector |
neoAI | Apache 2.0 |
| Qwen3 Swallow 30B-A3B (30B-A3B-CPT-v0.2, 30B-A3B-SFT-v0.2, 30B-A3B-RL-v0.2) |
2026 | Qwen3 (30b-A3B) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 209.7B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset) |
Swallowプロジェクト | Apache 2.0 |
| Gemma-2-Llama Swallow 27B (27b-pt-v0.1, 27b-it-v0.1) |
2025 | Gemma 2 (27b) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 |
Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |
| GPT-OSS Swallow 20B (20B-SFT-v0.1, 20B-RL-v0.1) |
2026 | GPT-OSS (20b) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 419.4B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset) |
Swallowプロジェクト | Apache 2.0 |
| Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf) |
2023 | Qwen (14b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 |
rinna | Tongyi Qianwen LICENSE |
| Swallow 13B (13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf) |
2023 | Llama 2 (13b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用 |
Swallowプロジェクト | Llama 2 Community License |
| LEIA-Swallow-13B (13b) |
2024 | Llama 2 (13b) | Swallow 13B に対して LEIA で追加学習 | 個人 (山田育矢, 李凌寒) | Llama 2 Community License |
| ELYZA-japanese-Llama-2-13b (13b, 13b-instruct, 13b-fast, 13b-fast-instruct) |
2023 | Llama 2 (13b) | 事前学翕: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット |
ELYZA | Llama 2 Community License |
| cyberagent/Mistral-Nemo-Japanese-Instruct-2408 | 2024 | Mistral NeMo (12b) | 不明 | サイバーエージェント | Apache 2.0 |
| NVIDIA-Nemotron-Nano-9B-v2-Japanese (9B) |
2026 | Nemotron-Nano (9b) | 継続事前学習: Wikipedia, fineweb-2 Japanese, aozorabunko, sip3-ja-general-web-corpus, Nemotron-CC-v2.1, Nemotron-Pretraining-Specialized-v1 SFT: Nemotron-Personas-Japan をシードセットとした Tool Calling データセット, Nemotron-Post-Training-v3 |
NVIDIA | NVIDIA Nemotron Open Model License Agreement |
| Gemma-2-Llama Swallow 9B (9b-pt-v0.1, 9b-it-v0.1) |
2025 | Gemma 2 (9b) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 |
Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |
| Qwen3 Swallow 8B (8B-CPT-v0.2, 8B-SFT-v0.2, 8B-RL-v0.2) |
2026 | Qwen3 (8b) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 209.7B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset) |
Swallowプロジェクト | Apache 2.0 |
| Llama 3.1 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2, 8B-Instruct-v0.3, 8B-Instruct-v0.5) |
2025 | Llama 3.1 (8b) | 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie, Gemma-3-LMSYS-Chat-1M-Synth |
Swallowプロジェクト | Llama 3.1 Community License (Instructモデルは Gemma Terms of Use も適用) |
| Llama 3 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1) |
2023 | Llama 3 (8b) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [^17] |
Swallowプロジェクト | Llama 3 Community License |
| turing-motors/Llama-3-heron-brain-8B-v0.3 | 2024 | Llama 3 (8b) | Llama 3 Swallow 8B に対して追加学習(詳細不明) | Turing | Llama 3 Community License |
| Llama 3 Youko 8B (8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq) |
2024 | Llama 3 (8b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 22B トークン) Instruction Tuning[^11]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット DPO: HelpSteer, HelpSteer2, 独自のデータセット |
rinna | Llama 3 Community License |
| Llama 3 ELYZA JP 8B (8B, 8B-GGUF, 8B-AWQ) |
2024 | Llama 3 (8b) | 不明 | ELYZA | Llama 3 Community License |
| Llama 3 neoAI 8B Chat v0.1 (8B-Chat-v0.1) |
2024 | Llama 3 (8b) | 不明 | neoAI | Llama 3 Community License |
| Llama 3 tedllm (v0) |
2024 | Llama 3 (8b) | 事前学習: 日本語の一般コーパス | 東京エレクトロン デバイス | Llama 3 Community License |
| ELYZA-Shortcut-1.0-Qwen-7B (7B) |
2025 | Qwen 2.5 (7b) | 事前学習 + SFT | ELYZA | Apache 2.0 |
| ELYZA-Diffusion-1.0-Dream-7B (Base-7B, Instruct-7B) |
2026 | Dream (7b) | 事前学習: 日本語テキスト (約 62B トークン) Instruction Tuning: 日本語の指示データ (約 0.18B トークン) |
ELYZA | Apache 2.0 |
| Swallow 7B (7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf) |
2023 | Llama 2 (7b) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用 |
Swallowプロジェクト | Llama 2 Community License |
| LEIA-Swallow-7B (7b) |
2024 | Llama 2 (7b) | Swallow 7B に対して LEIA で追加学習 | 個人 (山田育矢, 李凌寒) | Llama 2 Community License |
| ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct) |
2023 | Llama 2 (7b) | 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット |
ELYZA | Llama 2 Community License |
| Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq) |
2023 | Llama 2 (7b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 40B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 |
rinna | Llama 2 Community License |
| houou-7b (instruction-7b-v1, instruction-7b-v2, instruction-7b-v3) |
2023 | Llama 2 (7b) | Youri 7B (base) に対して Instruction Tuning: ichikara-instruction | マネーフォワード | Llama 2 Community License |
| Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b) |
2023 | Llama 2 (7b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 |
Stability AI | Llama 2 Community License |
| SambaLingo-Japanese (Base, Chat) |
2024 | Llama 2 (7b) | 事前学習: CulturaX Instruction Tuning: ultrachat_200k DPO: ultrafeedback, cai-conversation-harmless |
SambaNova Systems | Llama 2 Community License (?)^12 |
| blue-lizard (blue-lizard) |
2024 | Llama 2 (7b) | 不明 | Deepreneur | Llama 2 Community License |
| Swallow-MS 7B (7b-v0.1, 7b-instruct-v0.1) |
2024 | Mistral-7B-v0.1 (7b) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, OASST1 |
Swallowプロジェクト | Apache 2.0 |
| Rakuten AI 2.0 (8x7B, 8x7B-instruct) |
2025 | Mistral-7B-v0.1 (7b) | 楽天 | Apache 2.0 | |
| RakutenAI-7B (7B, 7B-instruct, 7B-chat) |
2024 | Mistral-7B-v0.1 (7b) | 事前学習: 不明 Instruction Tuning: Dolly Dataset, OASST1, (jasterと同様に)言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット |
楽天 | Apache 2.0 |
| Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b) |
2023 | Mistral-7B-v0.1 (7b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-dataSetのwikinews subset |
Stability AI | Apache 2.0 |
| ChatNTQ JA 7B (7b-v1.0) |
2024 | Mistral-7B-v0.1 (7b) | Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning | NTQ Solution | Apache 2.0 |
| Shisa Gamma 7B (7b-v1) |
2023 | Mistral-7B-v0.1 (7b) | Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning | AUGMXNT | Apache 2.0 (?)^12 |
| Shisa 7B (base-7b-v1, 7b-v1) |
2023 | Mistral-7B-v0.1 (7b) | 事前学習: shisa-pretrain-en-ja-v1 (8B トークン) Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1 |
AUGMXNT | Apache 2.0 (?)^12 |
| Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed) |
2024 | Mistral-7B-v0.1 (7b) | Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット |
Lightblue | Apache 2.0 (?)^12 |
| Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf) |
2023 | Qwen (7b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 |
rinna | Tongyi Qianwen LICENSE |
| lightblue/japanese-mpt-7b | 2023 | MPT (7b) | Japanese mC4 | Lightblue | Apache 2.0 |
| Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct) |
2024 | StableLM-3B-4E1T (3b) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset |
Stability AI | Apache 2.0 |
| kotomamba-2.8B-CL | 2024 | mamba-2.8b-slimpj (2.8b) |
日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |
| Gemma-2-Llama Swallow 2B (2b-pt-v0.1, 2b-it-v0.1) |
2025 | Gemma 2 (2b) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 |
Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |
| Gemma 2 Baku 2B (2b, 2b-it) |
2024 | Gemma 2 (2b) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 80B トークン) OPRO: 独自のデータセット [^20] |
rinna | Gemma Terms of Use |
| Japanese Stable LM 2 1.6B (base, instruct) |
2024 | Stable LM 2 1.6B (1.6b) | 事前学習: Wikipedia, CulturaX Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1 |
Stability AI | STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE |
| TinySwallow-1.5B (1.5B, 1.5B-Instruct, 1.5B-Instruct-q4f32_1-MLC, 1.5B-Insturct-GGUF) |
2025 | Qwen2.5 (1.5b) | 事前学習: Qwen2.5 (32b) を教師として TAID で学習 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, swallow-magpie-ultra-v0.1, swallow-gemma-magpie-v0.1 |
Sakana AI, Swallowプロジェクト | Apache 2.0 |
| EQUES/OpenRS3-GRPO-ja | 2025 | Qwen2.5 (1.5b) | TinySwallow-1.5B-Instruct に対して kunishou/OpenMathInstruct-1-1.8m-ja でGRPO学習 | EQUES Inc. | ? |
| EQUES/TinyDeepSeek-JP-1.5B | 2025 | Qwen2.5 (1.5b) | TinySwallow-1.5B-Instruct に対して EQUES/japanese_ultrachat_6.6k でTAID蒸留 | EQUES Inc. | Apache 2.0 |
| EQUES/TinySwallow-Stratos-1.5B | 2025 | Qwen2.5 (1.5b) | TinySwallow-1.5B-Instruct に対して Bespoke-Stratos-35k で推論能力強化 | EQUES Inc. | Apache 2.0 |
| karasu-1.1B | 2023 | TinyLlama (1.1b) | 事前学習: Japanese OSCAR, Japanese mC4 (計 3B トークン) |
Lightblue | Apache 2.0 |
领域专用
| 领域 | 基础大模型 | 开发方 | 许可协议 | |
|---|---|---|---|---|
| pfnet/Preferred-MedLLM-Qwen-72B | 医疗 | Qwen2.5 (72b) | Preferred Networks | Qwen LICENSE |
| Llama3-Preferred-MedSwallow-70B (70B) |
医疗 | Llama 3 (70b) | Preferred Networks | Llama 3 Community License |
| AIgroup-CVM-utokyohospital/MedSwallow-70b | 医疗 | Llama 2 (70b) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC-SA 4.0 |
| gpt-oss-20b-Ja-Fin (CPT, Thinking) |
金融 | GPT-OSS (20b) | 野村総合研究所 | Apache 2.0 |
| nekomata-14b-pfn-qfin (qfin, qfin-inst-merge) |
金融 | Qwen (14b) | Preferred Networks | Tongyi Qianwen LICENSE |
| Qwen3-14B-Ja-Fin (CPT, Thinking) |
金融 | Qwen3 (14b) | 野村総合研究所 | Apache 2.0 |
| Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron) |
大喜利 | Llama 2 (13b) | わたしは | Llama 2 Community License |
| MedExamDoc-Llama-3.1-Swallow-8B-Instruct-v0.5 | 医疗 | Llama 3.1 (8b) | Ingenta | Llama 3.1 Community License |
| からまる (Karamaru-v1) |
江戸時代の古文 | Llama 3 (8b) | Sakana AI | Llama 3 Community License |
| Llama 3.1 Future Code Ja 8B | コーディング | Llama 3.1 (8b) |
フューチャー | Llama 3.1 Community License |
| JPharmatron (7B-base, 7B) |
薬学 | Qwen2.5 (7b) | EQUES Inc. | CC BY-SA 4.0 |
| ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct) |
コーディング | Code Llama (7b) |
ELYZA | Llama 2 Community License |
| AIBunCho/japanese-novel-gpt-j-6b | 物語生成 | GPT-J (6b) | 個人 (大曽根宏幸) | CreativeML OpenRAIL-M License |
| NovelAI/genji-jp | 物語生成 | GPT-J (6b) | NovelAI | ? |
海外モデルに日本語で事後学習を行ったモデル(継続事前学習なし、または詳細不明)
普遍
| 基础大模型 | 训练文本 | 开发方 | 许可证 / 使用条款 | |
|---|---|---|---|---|
| Rakuten AI 3.0 (RakutenAI-3.0) |
DeepSeek-V3 (671b) ^24 | 不明 | 楽天 | Apache 2.0 |
| Llama 3.1 Shisa V2 405B (405b) |
Llama 3.1 (405b) | 高质量的日语数据集进行SFT/DPO | Shisa.AI | Llama 3.1 Community License |
| AXCXEPT/EZO-Qwen2.5-72B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4 |
Qwen2.5 (72b) | Axcxept | Qwen License | |
| ao-Karasu (72B) |
Qwen1.5 (72b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本的公开技术博客, 新闻文章, QA网站的回答, 自有的数据集 | Lightblue | Tongyi Qianwen LICENSE (?)^12 |
| Shisa V2.1 70B (70b) |
Llama 3.3 (70b) | 结合SFT/DPO/强化学习/模型融合的训练 | Shisa.AI | Llama 3.3 Community License |
| shisa-ai/shisa-v2-llama3.3-70b | Llama 3.3 (70b) | Shisa.AI | Llama 3.3 Community License | |
| AXCXEPT/Llama-3.1-70B-EZO-1.1-it | Llama 3.1 (70b) | Axcxept | Llama 3.1 Community License | |
| Llama 3 shisa-v1-llama3-70b (70b) |
Llama 3 (70b) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)^12 |
| AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese | Llama 2 (70b) | 东京大学医学部附属医院 循环内科 AI小组 | Llama 2 Community License | |
| doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 | Llama 2 (70b) | 同志社大学 媒体信息学研究室 | ? | |
| cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese | DeepSeek-R1-Distill-Qwen (32b) | サイバーエージェント | MIT | |
| Flux-Japanese-Qwen2.5-32B-Instruct-V1.0 (V1.0) |
Qwen2.5-32B-Instruct (32b) | 精准调优:精准定位日语知识、推理及语言能力相关参数,仅对其中5%的参数进行调整。随后创建三个专业模型,并通过精准合并整合为一个整体 | FLUX | Apache 2.0 |
| karakuri-ai/karakuri-lm-32b-thinking-2501-exp | QwQ (32b) | カラクリ | Apache 2.0 | |
| shisa-ai/shisa-v2-qwen2.5-32b | Qwen2.5 (32b) | Shisa.AI | Apache 2.0 | |
| AXCXEPT/EZO-Qwen2.5-32B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct |
Qwen2.5 (32b) | Axcxept | Apache 2.0 | |
| cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese | DeepSeek-R1-Distill-Qwen (14b) | サイバーエージェント | MIT | |
| Shisa V2.1 14B (14b) |
Phi-4 (14b) | 结合SFT/DPO/强化学习/模型融合的训练 | Shisa.AI | MIT |
| shisa-ai/shisa-v2-unphi4-14b | Phi-4 (14b) | Shisa.AI | MIT | |
| EZO-Phi-4 (phi-4-open-R1-Distill-EZOv1, phi-4-deepseek-R1K-RL-EZO) |
Phi-4 (14b) | Axcxept | MIT | |
| Qarasu (14B-chat-plus-unleashed) |
Qwen (14b) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 自有数据集 | Lightblue | Tongyi Qianwen LICENSE (?)^12 |
| Sparticle/llama-2-13b-chat-japanese-lora | Llama 2 (13b) | Sparticle | ? | |
| izumi-lab/llama-13b-japanese-lora-v0-1ep | Llama (13b) | 东大 和泉研 | ? | |
| shisa-ai/shisa-v2-mistral-nemo-12b | Mistral NeMo (12b) | Shisa.AI | Apache 2.0 | |
| AXCXEPT/EZO-Common-9B-gemma-2-it | Gemma 2 (9b) | Axcxept | Gemma Terms of Use | |
| AXCXEPT/EZO-Humanities-9B-gemma-2-it | Gemma 2 (9b) | Axcxept | Gemma Terms of Use | |
| Shisa V2.1 8B (8b) |
Qwen3 (8b) | 结合SFT/DPO/强化学习/模型融合的训练 | Shisa.AI | Apache 2.0 |
| AXCXEPT/Qwen3-EZO-8B-beta | Qwen3 (8b) | 采用Deep-Think技术实现高性能推理 | Axcxept | Apache 2.0 |
| shisa-ai/shisa-v2-llama3.1-8b | Llama 3.1 (8b) | Shisa.AI | Llama 3.1 Community License | |
| AXCXEPT/Llama-3.1-8B-EZO-1.1-it | Llama 3.1 (8b) | Axcxept | Llama 3.1 Community License | |
| Llama 3 Suzume 8B (8B-japanese, 8B-japanese-gguf) |
Llama 3 (8b) | megagonlabs/instruction_ja, ShareGPT, 自有数据集 | Lightblue | Llama 3 Community License (?)^12 |
| Llama 3 shisa-v1-llama3-8b (8b) |
Llama 3 (8b) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)^12 |
| AXCXEPT/Llama-3-EZO-8b-Common-it | Llama 3 (8b) | Axcxept | Llama 3 Community License | |
| lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese | DeepSeek-R1-Distill-Qwen (7b) | Lightblue | Apache 2.0 | |
| ABEJA-Qwen2.5-7b-Japanese-v0.1 (v0.1) |
Qwen 2.5 (7b) | ABEJA | Apache 2.0 | |
| shisa-ai/shisa-v2-qwen2.5-7b | Qwen 2.5 (7b) | Shisa.AI | Apache 2.0 | |
| Karasu DPO (7B) |
Qwen 2.5 (7b) | Lightblue | Apache 2.0 | |
| ganchengguang/Yoko-7B-Japanese-v1 | Llama 2 (7b) | 横滨国立大学 森研 | ? | |
| Sparticle/llama-2-7b-chat-japanese-lora | Llama 2 (7b) | Sparticle | ? | |
| izumi-lab/llama-7b-japanese-lora-v0-5ep | Llama (7b) | 东大 和泉研 | ? | |
| lightblue/jod | Mistral-7B-SlimOrca (7b) | Lightblue | Apache 2.0 | |
| NTQAI/chatntq-7b-jpntuned | RWKV-4 World (7b) | NTQ Solution | ? | |
| Qwen3.5-FT-Japanese-CoT-4B | Qwen3.5 (4b) | 不明 | 个人 (Aname-Tommy) | MIT |
| Borea (Jp, Common, Coding) |
Phi-3.5 (3.8b) | Axcxept | MIT | |
| Shisa V2.1 3B (3b) |
Llama 3.2 (3b) | 结合SFT/DPO/强化学习/模型融合的训练 | Shisa.AI | Llama 3.2 Community License |
| AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE | Llama 3.2 (3b) | Axcxept | Llama 3.2 Community License | |
| 日本語版 Gemma 2 2B (2b-jpn-it) |
Gemma 2 (2b) | Gemma Terms of Use | ||
| AXCXEPT/EZO-gemma-2-2b-jpn-it | Gemma 2 (2b) | Axcxept | Gemma Terms of Use | |
| AXCXEPT/EZO-Common-T2-2B-gemma-2-it | Gemma 2 (2b) | Axcxept | Gemma Terms of Use | |
| Shisa V2.1 1.2B (1.2b) |
LFM2 (1.2b) | 结合SFT/DPO/强化学习/模型融合的训练 | Shisa.AI | LFM Open License v1.0 |
| LFM2.5-1.2B-JP (1.2B-JP) |
LFM2.5 (1.2b) | 不明 | Liquid AI | LFM Open License v1.0 |
| Qwen3.5-FT-Japanese-CoT-0.8B | Qwen3.5 (0.8b) | 不明 | 个人 (Aname-Tommy) | MIT |
领域专用型
| 领域 | 基础LLM | 开发方 | 许可证 | |
|---|---|---|---|---|
| JMedLoRA (llama2-jmedlora-6.89ep) |
医疗 | Llama 2 (70b) | 东京大学医学部附属医院 循环器内科 AI小组 | CC BY-NC 4.0 |
| pfnet/Qwen3-1.7B-pfn-qfin | 金融 | Qwen3 (1.72b) | Preferred Networks | PLaMo Community License |
| pfnet/Qwen2.5-1.5B-pfn-qfin | 金融 | Qwen2.5 (1.54b) | Preferred Networks | PLaMo Community License |
多个LLM合并创建的模型
| 合并前的LLM(加粗为日语LLM) | 开发方 | 许可证 | |
|---|---|---|---|
| EQUES/MedLLama3-JP-v2 | Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B | EQUES | Llama 3 Community License |
| EvoLLM-JP-A (v1-7B) |
Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002 | Sakana AI | Apache 2.0 |
| EvoLLM-JP (v1-7B, v1-10B) |
Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002 | Sakana AI | MICROSOFT RESEARCH LICENSE |
| EQUES/TinyQwens-Merge-1.5B | SakanaAI/TinySwallow-1.5B-Instruct, EQUES/TinySwallow-Stratos-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, Qwen/Qwen2.5-1.5B-Instruct | EQUES Inc. | Apache 2.0 |
作为API提供的模型
| 输入输出可处理的 标记数 |
开发方 | 平台 | |
|---|---|---|---|
| PLaMo API | 32,768 | Preferred Networks | 自有 |
| AIのべりすと | 2,400 ~ 8,192 | Bit192 | 自有 |
| LHTM-OPT | オルツ | AWS Marketplace (SageMaker) | |
| Syn (Syn, Syn Pro) |
32,768 | カラクリ, Upstage | AWS Marketplace (SageMaker) |
| tsuzumi (tsuzumi-7b) |
NTT | Microsoft Foundry |
主要用于处理输入文本的模型
通用
| 架构 | 输入可处理的标记数 | 训练文本 | 开发方 | 许可证 | 是否可在HuggingFace上直接使用? [^4] | |
|---|---|---|---|---|---|---|
| ModernBERT-Ja | ModernBERT | 8,192 | 日语·英语数据 | SB Intuitions | MIT | ◯ (30m, 70m, 130m, 310m) |
| llm-jp-modernbert | ModernBERT | 8,192 | llm-jp-corpus-v4 的日语子集(约0.69T标记) | 大规模语言模型研发中心 | Apache 2.0 | ◯ |
| 京大BERT | BERT (base, large) | 512 | 日本维基百科(约1,800万句) | 京都大学语言媒体研究室 | Apache 2.0 | △ |
| 东北大学BERT | BERT (base, large) | 512 | base (v1): 日本维基百科约1,700万句 (2.6GB) base (v2) & large: 日本维基百科约3,000万句 (4.0GB) base (v3) & large (v2): 日本维基百科约3,400万句 (4.9GB) + 日语 CC-100 约3亿9,200万句 (74.3GB) |
东北大学 自然语言处理研究小组 |
base (v1, v2) & large: CC BY-SA 3.0 base (v3) & large (v2): Apache 2.0 |
◯ (base (v1), base (v1, 文字级别), base (v2), base (v2, 文字级别), large, large (文字级别), base (v3), base (v3, 文字级别), large (v2), large (v2, 文字级别)) |
| TohokuNLP BERT-alpha 500M | Llama 基础的编码器^23 | 4,096 或 8,192 |
llm-jp-corpus-v3 的日语子集 | 东北大学 自然语言处理研究小组 |
Apache 2.0 | ◯ (sq4096-alpha, sq8192-alpha) |
| ByBERT-JP | Llama 基础的编码器^23 | 100m, 200m, 400m: 3,072 v2-100m: 4,096 |
llm-jp-corpus-v3 的子集 100m: 623B 标记 200m: 637B 标记 400m: 1.23T 标记 v2-100m: 2.76T 标记 |
东北大学 自然语言处理研究小组 |
Apache 2.0 | ◯ (100m, 200m, 400m, v2-100m) |
| NICT BERT | BERT (base) | 512 | 日本维基百科 | NICT | CC BY 4.0 | △ |
| Laboro BERT | BERT (base, large) | 512 | 日本网络语料库 (新闻网站、博客等 共4,307个网站,2,605,280页 (12GB)) |
Laboro.AI | CC BY-NC 4.0 | ✕ |
| colorfulscoop BERT | BERT (base) | 512 | 日本维基百科 | Colorful Scoop | CC BY-SA 3.0 | ◯ |
| 东大BERT | BERT (small) | 512 | 日本维基百科(约2,000万句 (2.9GB)) | 东京大学和泉实验室 | CC BY-SA 4.0 | ◯ |
| chiTra (Sudachi Transformers) | BERT (base) | 512 | 国语研日语网络语料库 (NWJC) (148GB) | NINJAL、WorkS 德岛人工智能NLP研究所 | Apache 2.0 | △ |
| ACCMS BERT | BERT (base) | 512 | 日本维基百科 (3.3GB) | 京都大学 ACCMS | CC BY-SA 4.0 | ◯ |
| 日立BERT | BERT (base) | 512 | 日本维基百科 + 日本CC-100 |
日立制作所 | CC BY-NC-SA 4.0 | ◯ [^6] |
| RetrievaBERT | BERT ^5 | 2,048 | Japanese CommonCrawl、RefinedWeb、中文维基百科、韩文维基百科、The Stack | Retrieva | Apache 2.0 | ◯ |
| 万代南梦宫 DistilBERT | DistilBERT | 512 | - (以东北大学BERT(base)为教师模型进行知识蒸馏) | Bandai Namco Research | MIT | ◯ |
| Laboro DistilBERT | DistilBERT | 512 | - (以Laboro BERT(base)为教师模型进行知识蒸馏) | Laboro.AI | CC BY-NC 4.0 | ◯ |
| LINE DistilBERT | DistilBERT | 512 | - (以LINE公司内部的BERT为教师模型进行知识蒸馏) | LINE | Apache 2.0 | ◯ |
| rinna RoBERTa | RoBERTa (base) | 512 | 日本维基百科 + 日本CC-100 |
rinna | MIT | ◯ |
| 早稻田RoBERTa | RoBERTa (base, large) | 512 | 日本维基百科 + 日本CC-100 |
早稻田大学河原实验室 | CC BY-SA 4.0 | ◯ (base, large, large (seq512)) ^7 |
| インフォマティクスRoBERTa | RoBERTa (base) | 512 | 日本维基百科 + 网络文章 (共25GB) |
インフォマティクス | Apache 2.0 | △ |
| 京大RoBERTa | RoBERTa (base, large) | 512 | 日本维基百科 + 日本CC-100 |
京都大学语言媒体研究室 | CC BY-SA 4.0 | ◯ (base (文字级别), large (文字级别)) |
| 横滨国立大学RoBERTa | RoBERTa (base) | 512 | 日本维基百科 (3.45GB) | 横滨国立大学森实验室 | Apache 2.0 | ◯ |
| Megagon Labs RoBERTa | RoBERTa (base) ^8 | 1,282 | 日本mC4(约2亿句) | Megagon Labs (里库特) |
MIT | ◯ |
| ACCMS RoBERTa | RoBERTa (base) | 512 | 日本维基百科 (3.3GB) + 日本CC-100 (70GB) | 京都大学 ACCMS | CC BY-SA 4.0 | ◯ |
| シナモンELECTRA | ELECTRA (small) | 512 | 日本维基百科 | シナモン | Apache 2.0 | ◯ |
| Megagon Labs ELECTRA | ELECTRA (base) | 512 | 日本mC4(约2亿句) | Megagon Labs (里库特) |
MIT | ◯ |
| 东大ELECTRA | ELECTRA (small, base) | 512 | 日本维基百科(约2,000万句 (2.9GB)) | 东京大学和泉实验室 | CC BY-SA 4.0 | ◯ (small, base) |
| 日本RoFormer | RoFormer (base) | 512 | 日本维基百科 (3.45GB) | 横滨国立大学森实验室 | Apache 2.0 | ◯ |
| 日本LUKE | LUKE (base, large) | 512 | 日本维基百科 | Studio Ousia | Apache 2.0 | ◯ (base, large) |
| 京大DeBERTaV2 | DeBERTaV2 (tiny, base, large) | 512 | 日本维基百科 + 日本CC-100 + 日本OSCAR (共171GB) |
京都大学语言媒体研究室 | CC BY-SA 4.0 | ◯ (tiny, tiny (文字级别), base, large) |
| 京大DeBERTaV3 | DeBERTaV3 (base) | 512 | llm-jp-corpus | 京都大学语言媒体研究室 | Apache 2.0 | ◯ |
| 东大DeBERTaV2 | DeBERTaV2 (small, base) | 512 | 日本维基百科、日本维基新闻、日本CC-100、日本mC4、日本OSCAR | 东京大学和泉实验室 | CC BY-SA 4.0 | ◯ (small, base) |
| GLOBIS DeBERTaV3 | DeBERTaV3 (xsmall, base, large) | 512 | 维基百科、维基教科书、青空文库、日本CC-100、日本mC4、日本OSCAR | GLOBIS | CC BY-SA 4.0 | ◯ (xsmall, base, large) |
| 日本BigBird | BigBird (base) | 4,096 | 日本维基百科 + 日本CC-100 + 日本OSCAR |
早稻田大学河原实验室 | CC BY-SA 4.0 | ◯ |
| 日本LayoutLM | LayoutLM (base) | 512 | 在以东北大学BERT (base, v2) 的权重进行初始化后,利用日本维基百科的文本和布局进行预训练 | 日本综合研究所 | CC BY-SA 3.0 | ◯ |
领域专用
| 领域 | 架构 | 训练文本 | 开发者 | 许可协议 | HuggingFace 是否可直接使用? | |
|---|---|---|---|---|---|---|
| 日语博客ELECTRA | 口语 | ELECTRA (small) | 日语博客语料库(3.54亿句) | 北见工业大学 桝井·普塔辛斯基研究组 | CC BY-SA 4.0 | ◯ |
| 日语口语BERT | 口语 | BERT (base) | 在东北大学BERT的基础上,使用日语口语语料库(CSJ)进行额外训练 (DAPT模型还使用了国会会议记录数据) |
Retrieva | Apache 2.0 | ◯ |
| AcademicRoBERTa | 学术 | RoBERTa (base) | CiNii 的日语论文 (约628万句) | 爱媛大学人工智能研究室 | Apache 2.0 | ◯ |
| local-politics-BERT | 政治 | BERT (base) | Wikipedia、国会会议记录、地方议会会议记录 | 地方议会会议记录语料库项目 | CC BY-SA 4.0 | ◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) ^18 |
| UBKE-LUKE | 经济 | LUKE (base) | 日本语Wikipedia、有价证券报告书、经济新闻文章 | UZABASE | CC BY-NC | ◯ |
| 日语金融BERT | 金融 | BERT (small, base) ^9 | 日本语Wikipedia + 日本语金融语料库(约2,700万句 (5.2GB)) |
东京大学和泉研究组 | CC BY-SA 4.0 | ◯ (small, base) |
| 日语金融ELECTRA | 金融 | ELECTRA (small) | 日本语Wikipedia(约2,000万句 (2.9GB)) + 日本语金融语料库(约2,700万句 (5.2GB)) |
东京大学和泉研究组 | CC BY-SA 4.0 | ◯ |
| 日语新闻BERT | 商业 | BERT (base) | 日本语商业新闻文章(300万篇) | StockMark | CC BY 4.0 | △ |
| 日语新闻XLNet | 商业 | XLNet (base) | 日本语商业新闻文章(300万篇) | StockMark | ? | ※ 有非官方的HuggingFace适配模型已发布 |
| 日语新闻ALBERT | 商业 | ALBERT (base) | 日本语商业新闻文章(300万篇) | StockMark | ? | △ |
| 民博BERT | 文化遗产 | BERT (base) | 在东北大学BERT的基础上,使用国立民族学博物馆的文化遗产数据进行额外训练 | 兵库县立大学 大岛研究组 | MIT | ◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token) |
| JPharmaBERT | 药学 | BERT (base, large) | 日本语药学文献 (2B tokens) + PubMed英文摘要 (8B tokens) + 药学相关多语言数据 (1.2B tokens) |
EQUES | 不明 | ◯ (base, large) |
| medBERTjp | 医疗 | BERT (base) | 日本语Wikipedia + 日本语医疗语料库(《今日的诊疗Premium》网络版) |
大阪大学医院 医疗信息学研究室 |
CC BY-NC-SA 4.0 | △ |
| JMedRoBERTa | 医疗 | RoBERTa (base) | 日本语医学论文 (约1,100万句 (1.8GB)) | NII 相泽研究组 | CC BY-NC-SA 4.0 | ◯ (万病WordPiece, SentencePiece) ^10 |
专注于嵌入(Embeddings)生成的模型 [^21]
双编码器
单表示双编码器
多表示双编码器
| 开发方 | 许可证 | |
|---|---|---|
| JaColBERTv2.5 (JaColBERTv2.4, JaColBERTv2.5) |
Answer.AI | MIT |
| JaColBERTv2 (JaColBERTv2) |
個人 (Benjamin Clavié) | MIT |
| JaColBERT (JaColBERT) |
個人 (Benjamin Clavié) | MIT |
交叉编码器
视觉语言模型
图片+文本生成文本
从零开始训练的模型
通用
| 公開年 | 架构 | 学习图像/文本 | 开发方 | 许可证 / 使用条款 | |
|---|---|---|---|---|---|
| Stockmark-2-VL-100B-beta (100B-beta) |
2025 | LLaVA-OneVision | 三阶段学习:对齐预训练、字幕扩展、指令推理微调 合成数据:由Qwen2.5-VL-72B生成 |
斯托克马克 | Qwen许可证 |
| Llama-3.1-70B-Instruct-multimodal-JP-Graph (v0.1) |
2025 | LLaVA(Llama-3.1-Swallow-70B-Instruct-v0.3 + Qwen2-VL-7B-Instruct) | 专注于图表和图形理解的超过600万张合成视觉数据(文字、饼图、柱状图、流程图等),以及真实数据(与FastLabel合作) | 理光 | Llama 3.1社区许可证 & Gemma使用条款 & Qwen许可证 & MIT & Apache 2.0 |
| KARAKURI VL (32b-instruct-2507, 32b-thinking-2507-exp) |
2025 | 视觉语言模型(基于Qwen2.5-VL-32B) | 针对日语计算机用途的定制数据集:日语计算机操作记录、日语文档图像问答、视觉信息解读、日语OCR、流程图理解 三阶段学习:监督微调(SFT) + 模型融合 + 强化学习 *thinking模型通过思维链(CoT)方法明确推理过程 |
卡拉库里 | Apache 2.0 |
| Heron-NVILA (1B, 2B, 15B, 33B) |
2025 | NVILA | 三阶段学习:对齐(558k日语图像文本对 + 595k LLaVA预训练数据)、预训练(MOMIJI 13M、日语图像文本对6M、日语交错数据2M、coyo-700m 6M、mmc4-core 4M、Wikipedia-ja、LLaVA-Pretrain-JA、STAIR字幕)、有监督微调(LLaVA-instruct-v1.5-en、LLaVA-instruct-ja、日语照片对话、JA-VG-VQA对话、SynthDog-ja、AI2D、SynthDog-en、Sherlock) | 图灵 | Apache 2.0 & OpenAI使用条款 |
| NABLA-VL (15B) |
2025 | microsoft/phi-4 + HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit | 支持单张图片、多张图片及视频输入。训练细节不明 | NABLAS | Apache 2.0 |
| Sarashina2-Vision (8b, 14b) |
2025 | Sarashina2 + Qwen2-VL + 两层MLP | 三阶段学习:投影仪预热(LLaVA-Pretrain 78M英语token)、视觉编码器预训练(CC3M、CC12M、llm-jp-日语图像文本对、内部OCR数据集、内部图表字幕合成数据集 3.8B日语+7.7B英语token)、视觉指令微调(Japanese Visual Genome VQA、OCR-VQA、TextVQA、PlotQA、CLEVR翻译版、DOCCI翻译版、内部数据集 2.5B日语+1.0B英语token) | SB Intuitions | MIT |
| Asagi (2B, 4B, 8B, 14B) |
2025 | LLaVA | 新爬取的日语网站图片、现有日语数据集以及英语数据集的日语翻译约2000万条(使用English VLM Phi-3.5-vision-instruct和Japanese LLM CALM3-22B-Chat进行数据合成) | 东大原田研究组 | Apache 2.0 |
| llava-calm2-siglip (llava-calm2-siglip) |
2024 | LLaVA | 由MS-COCO和VisualGenome生成的对话数据 | 赛博艾杰特 | Apache 2.0 |
| LLM-jp-3 VILA 14B (14b) |
2024 | LLaVA | 日语图像文本对、LLaVA-Pretrain、日语交错数据、coyo(子集)、mmc4-core(子集)、llava-instruct-ja、日语照片对话、ja-vg-vqa、synthdog-ja、LLaVA-1.5指令数据(子集) | 大规模语言模型研发中心 | Apache 2.0 & OpenAI使用条款 |
| Heron (blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1) |
2023 | BLIP-2或GIT | v1:LLaVA-Instruct-150K-JA或LLaVA-Instruct-620K-JA v0:LLaVA-Instruct-150K-JA、日本STAIR字幕、日本Visual Genome VQA数据集 |
图灵 | CC BY-NC 4.0 |
| Japanese Stable VLM (japanese-stable-vlm) |
2023 | LLaVA | 日本CC12M、STAIR字幕、日本Visual Genome VQA数据集 | Stability AI | STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE |
| Japanese InstructBLIP Alpha (japanese-instructblip-alpha) |
2023 | InstructBLIP | 日本CC12M、STAIR字幕、日本Visual Genome VQA数据集 | Stability AI | JAPANESE STABLELM RESEARCH LICENSE |
| rinna MiniGPT-4 (bilingual-gpt-neox-4b-minigpt4) |
2023 | MiniGPT-4 | CC12M、COCO 2014、Visual Genome、STAIR字幕、日本Visual Genome VQA数据集 | rinna | MIT |
| Sarashina2.2-Vision-3B (3.8b) |
2025 | Sarashina2.2-3B-Instruct + SigLIP + 两层MLP | 四阶段学习 + 后训练:投影仪预热(英语图像字幕)、视觉编码器预训练(日语图表、OCR、字幕)、全模型预训练(图像文本交错数据)、有监督微调 后训练:混合偏好优化 (总计日语103B + 英语157.1B token) |
SB Intuitions | MIT |
领域专用
| 架构 | 领域 | 开发方 | 许可证 | |
|---|---|---|---|---|
| Med-Asagi (14b-reasoning_beta) |
LLaVA | 医疗 | 东大原田研究组 | CC BY-SA 4.0 |
| watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm | LLaVA | 大喜利 | わたしは | Llama 2社区许可证 |
在海外模型基础上用日语进行额外训练的模型
| 基础VLM | 训练图像/文本 | 开发方 | 许可证 | |
|---|---|---|---|---|
| AXCXEPT/EZO-InternVL2-26B | InternVL2 | - | Axcxept | MIT |
| KARAKURI VL 2 (8b-thinking-2603) |
Qwen3-VL-8B-Thinking | 不明 | カラクリ | Apache 2.0 |
多个VLM·LLM合并创建的模型
| 合并前的LLM·VLM(加粗为日语LLM) | 开发方 | 许可证 | |
|---|---|---|---|
| Llama-3-EvoVLM-JP-v2 (v2) |
Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V | Sakana AI | Llama 3 Community License |
| AXCXEPT/Llama-3-EZO-VLM-1 | - (针对Llama-3-EvoVLM-JP-v2进行额外训练) | Axcxept | Llama 3 Community License |
| EvoVLM-JP (v1-7B) |
Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B | Sakana AI | Apache 2.0 |
文本生成图像
通用型
| 架构 | 训练图像/文本 | 开发方 | 许可证 | |
|---|---|---|---|---|
| CommonArt β (commonart-beta) |
PixArt-Σ | CommonCatalog-cc-by、Megalith-10M、Smithsonian Open Access、ArtBench(仅CC-0) | AI Picasso | Apache 2.0 |
| EvoSDXL-JP (v1) |
Stable Diffusion | - (包含Japanese Stable Diffusion XL在内的多个图像生成模型合并) | Sakana AI | Apache 2.0[^14] |
| Japanese Stable Diffusion XL (japanese-stable-diffusion-xl) |
Stable Diffusion | 不明 | Stability AI | STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE |
| 东北大学Stable Diffusion (base, refiner) |
Stable Diffusion | WMT2023共享任务的日英双语语料库,以及laion2B-multi约1300万条图片描述 | 东北大学 自然语言处理研究小组 |
CreativeML OpenRAIL-M License |
| rinna Stable Diffusion (japanese-stable-diffusion) |
Stable Diffusion | LAION-5B数据集中带有日语描述的部分(约1亿张图片) | rinna | CreativeML OpenRAIL-M License |
领域专用型
| 架构 | 领域 | 开发方 | 许可证 | |
|---|---|---|---|---|
| Evo-Nishikie (v1) |
Stable Diffusion (ControlNet) | 浮世绘 | Sakana AI | Apache 2.0[^14] |
| Evo-Ukiyoe (v1) |
Stable Diffusion | 浮世绘 | Sakana AI | Apache 2.0[^14] |
文本生成视频
| 架构 | 训练数据 | 开发方 | 许可证 | |
|---|---|---|---|---|
| AIdeaLab VideoJP (AIdeaLab-VideoJP) |
CogVideoX | Pixabay、FineVideo | AIdeaLab | Apache 2.0 |
其他
| 架构 | 训练图像/文本 | 开发方 | 许可证 | |
|---|---|---|---|---|
| llm-jp-clip (llm-jp-clip-vit-base-patch16, llm-jp-clip-vit-large-patch14) |
CLIP | 翻译了ReLAION-5B英语子集约15亿条描述 | 大规模语言模型研发中心 | Apache 2.0 |
| LINE雅虎CLIP (clip-japanese-base, v2) |
CLIP | CommonCrawl、CC12M、YFCC100M (v2:约20亿对Common Crawl图像-文本 + 知识蒸馏) |
LINE雅虎 | Apache 2.0 |
| Recruit CLIP (japanese-clip-vit-b-32-roberta-base) |
CLIP | 翻译了laion2B-multi约1.2亿条描述 | Recruit | CC BY-4.0 |
| Japanese Stable CLIP (japanese-stable-clip-vit-l-16) |
SigLIP | 将CC12M的描述翻译成日语,STAIR Captions | Stability AI | STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE |
| rinna CLIP (japanese-clip-vit-b-16) |
CLIP | 翻译了CC12M的描述 | rinna | Apache 2.0 |
| rinna CLOOB (japanese-cloob-vit-b-16) |
CLOOB | 翻译了CC12M的描述 | rinna | Apache 2.0 |
| 博报堂技术CLIP (base, deeper, wider) |
CLIP | 翻译了laion2B-multi约1.2亿条描述 | 博报堂技术 | CC BY-NC-SA 4.0 |
语音语言模型 (Speech-Language Models)
语音识别
| 架构 | 训练语料 | 开发方 | 许可证 | |
|---|---|---|---|---|
| Nue ASR (nue-asr) |
Nue ASR (HuBERT + LLM) |
ReazonSpeech | rinna | Apache 2.0 |
| Kotoba-Whisper (v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2) |
Distil-Whisper | ReazonSpeech (+ 多语言LibriSpeech) |
Kotoba Technologies | Apache 2.0 |
| ReazonSpeech (espnet-v1, espnet-next, espnet-v2, nemo-v2) |
ESPnet (Conformer-Transducer) 或者 NeMo (FastConformer-RNNT) | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |
| Reazon HuBERT ASR (rs35kh, rs35kh-bpe) |
HuBERT | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |
| Reazon Zipformer ASR (rs35kh, rs35kh-bpe) |
Zipformer | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |
| Reazon wav2vec 2.0 ASR (base-rs35kh, large-rs35kh) |
wav2vec 2.0 | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |
特征提取
| 架构 | 训练语料 | 开发方 | 许可证 | |
|---|---|---|---|---|
| NEST-Ja (0.1b, 0.6b) |
NEST (FastConformer) | ReazonSpeech v2.0 | SB Intuitions | MIT |
| くしなだ (base, large) |
HuBERT | 约6万小时的日语电视广播音频 | 产综研 智能媒体处理研究团队 | Apache 2.0 |
| Reazon HuBERT (base-k2) |
HuBERT | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |
| 东大HuBERT (base-jtube) |
HuBERT | JTubeSpeech | 东大 猿渡・高道研 | MIT |
| rinna HuBERT (base, large) |
HuBERT | ReazonSpeech | rinna | Apache 2.0 |
| いざなみ (base, large) |
wav2vec 2.0 | 约6万小时的日语电视广播音频 | 产综研 智能媒体处理研究团队 | Apache 2.0 |
| Reazon wav2vec 2.0 (base, large) |
wav2vec 2.0 | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |
| rinna wav2vec 2.0 (base) |
wav2vec 2.0 | ReazonSpeech | rinna | Apache 2.0 |
| rinna data2vec Audio (base) |
data2vec Audio | ReazonSpeech | rinna | Apache 2.0 |
| Reazon Zipformer (base-k2) |
Zipformer | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |
其他
| 架构 | 训练语料 | 开发方 | 许可证 | |
|---|---|---|---|---|
| LLM-jp-Moshi-v1 (llm-jp-moshi-v1) |
Transformer基础的文本-语音基础模型 (Moshi) | J-CHAT(约69,000小时), LLM-jp-Zoom1(约1,000小时) | 大规模语言模型研发中心 | Apache 2.0 |
| J-Moshi (j-moshi, j-moshi-ext) |
Transformer基础的文本-语音基础模型 (Moshi) | 语音对话语料库(J-CHAT, 日本语Callhome, CSJ, 旅行代理店对话语料库, 自有闲聊对话语料库, 自有咨询对话语料库), 文本对话语料库(日本语PersonaChat, 日本语EmpatheticDialogues, 日本语日常对话语料库, RealPersonaChat) | 名大 东中研 | CC BY-NC 4.0 |
| Kotoba-Speech (v0.1) |
Transformer | 不明 | Kotoba Technologies | Apache 2.0 |
音乐语言模型 (Music-Language Models)
音乐-文本间转换
| 架构 | 训练语料 | 开发方 | 许可证 | |
|---|---|---|---|---|
| Japanese MULAN (japanese-mulan-base) |
MULAN (AST + GLuCoSE) | 约2万个公司内部音乐-文本配对 | LINEヤフー | Apache 2.0 |
日语LLM评估基准/数据集汇总
复合型基准测试
| 说明 | 开发方 | |
|---|---|---|
| Nejumi LLM排行榜4 | 从应用程序开发(编码·函数调用)、推理能力(数学、逻辑与抽象推理)、专业知识、安全性评估(指令遵循·幻觉抑制)等多个角度综合评估大型语言模型的日语能力。通过引入高难度基准测试,进一步明确了顶级模型之间的性能差异。详情请参阅这篇文章 | Weights & Biases |
| Swallow LLM排行榜v2 | 综合评估各类LLM在日语理解与生成任务、日语多轮对话任务以及英语理解与生成任务这三类任务中的表现。v2版本为适应推理专用模型,采用了零样本推理和思维链提示,并以更高难度的基准测试(共12项任务:日语6项、英语6项)进行评估。此外,除了整合并改进了现有的LLM评估工具——swallow-evaluation之外,还新发布了专门针对推理型模型的swallow-evaluation-instruct。 | Swallow项目 |
测量基础自然语言处理任务性能的基准测试/数据集
| 说明 | 开发方 | |
|---|---|---|
| 开放日语LLM排行榜 | 利用llm-jp-eval,在14个类别、71个以上的任务中对日语大型语言模型进行评估。 | LLM-jp, Hugging Face |
| llm-jp-eval | 这是一个跨多个数据集自动评估日语LLM的工具。 支持的所有数据集列表可在此处查看(其中也包括JGLUE中的JNLI和JCommonsenseQA等任务)。 |
LLM-jp |
| JP语言模型评估框架 | Stability AI基于EleutherAI/lm-evaluation-harness分叉而来。这是一个跨多个数据集自动评估日语LLM的工具。 支持的所有数据集列表可在此处查看(其中也包括JGLUE中的JNLI和JCommonsenseQA等任务)。 |
Stability AI |
| JGLUE | 作为GLUE基准测试的日语版构建的基准测试。包含MARC-ja、JCoLA、JSTS、JNLI、JSQuAD、JCommonsenseQA六个任务(JCoLA由东京大学大关研究组创建)。各任务的详细信息可参考这里和这里 | 早稻田大学河原研究组,雅虎 |
| JMMLU | 作为MMLU基准测试的日语版构建的基准测试。题目涵盖自然科学、人文科学和社会科学等广泛学术领域,采用四选一形式。其特点不仅在于翻译了原始的MMLU,还新增了基于日本独特文化背景的问题(日本问题)。 | 早稻田大学河原研究组 |
测量文本生成能力的基准测试/数据集
| 说明 | 开发方 | |
|---|---|---|
| llm-jp-judge | 基于“LLM即法官”理念的日语LLM综合评估工具。从日语质量(准确性、流畅性、细节性、相关性等,按1至5级评分)、日语安全性、MT-Bench(英语)、MT-Bench(日语)四个维度进行评估。将生成阶段与评估阶段分离,兼容vLLM、OpenAI API、Azure OpenAI、AWS Bedrock等推理客户端。详情请参阅这里 | 大规模语言模型研发中心 |
| 日语MT-bench | 这是针对多轮对话能力的MT-bench的日语版。包含写作、角色扮演、推理、数学、编码、提取、STEM、人文八个类别,每个类别10题,共计80题。在制作日语版时,对部分问题的内容进行了调整,以更贴合日本文化。 同时包含使用GPT-4进行10级绝对评分的脚本。 |
Stability AI |
| ELYZA-tasks-100 | 包含100条复杂指示和任务的日语数据,所有数据均已标注评估视角。 其中包括修改摘要并解释修改之处的任务、从具体事例中提炼抽象教训的任务、根据用户意图扮演有益的AI助手的任务、需要分类讨论的复杂算术任务、从未知语言中提取模式并翻译成日语的高度推理任务、结合多项指示生成YouTube对话的任务,以及关于虚构生物或成语的创作和搞笑段子等需要丰富想象力的任务。 |
ELYZA |
| 首选生成基准 (pfgen-bench) |
基于50道日本特有的常识问题,从流畅性、真实性、有用性三个维度衡量LLM的日语生成能力。该基准的特点是通过n-gram和基于规则的指标计算来进行评估,无需采用“LLM即法官”的方式。 | Preferred Elements (Preferred Networks) |
| Rakuda基准 | 要求模型针对关于日本地理、历史、政治和社会的40道自由提问作出回答。GPT-4会比较两款模型对相同问题的回答,判断哪一方的答案更优,从而对模型进行排名。 | YuzuAI |
| 日语Vicuna QA基准 | 这是MT-Bench的前身vicuna-blog-eval的日语版。收录了通用、知识、角色扮演、常识、费米估算、反事实假设、编码、数学、写作等方面的80道问题。同时还包含使用GPT-4进行自动评估(胜率计算)的脚本。排行榜请见这里 | 京都大学语言媒体研究室 |
| Tengu基准 | 收录了来自不同类别的120道自由问题。问题类别如下:表格阅读、逻辑谜题、创意生成、函数调用、长文档摘要(超过千词)、对话摘要、千词以上长文档的封闭式问答、敬语、项目策划、数学、翻译、抽取、伦理控制、成本估算、日本、闲聊、双关语、格式、建筑、商业、法律判断、政治、虚构问题等。 | Lightblue |
| Shaberi | 这是一个可以将日语MT-bench、Rakuda基准、ELYZA-tasks-100、Tengu基准的评估整合在一起的框架。此外,还有由Shisa.AI分叉的Shaberi | Lightblue |
针对特定领域的性能评估基准/数据集
| 说明 | 开发方 | |
|---|---|---|
| 日语语言模型金融评估框架 | 针对金融领域日语大语言模型的基准测试。包含金融领域的情感分析任务(chabsa)、证券分析中的基础知识任务(cma_basics)、注册会计师考试中的审计相关任务(cpa_audit)、理财规划师考试的选择题任务(fp2)以及证券外务员考试的模拟试题任务(security_sales_1)。详情请参阅此处 | Preferred Networks |
| pfmt-bench-fin-ja | 用于衡量金融领域日语大语言模型生成能力的基准测试。 | Preferred Networks |
| jfinqa | 日语金融数值推理问答基准。收录了从68家公司的有价证券报告中提取的1,000道数值推理题目,用于评估四则运算、比率计算、杜邦分析等财务推理能力。已在PyPI和HuggingFace上发布。 | 个人 (ajtgjmdjp) |
| Stockmark商业问题 | 收录了50道关于市场动态、时事问题、社会议题及商业趋势等方面知识的问题。 | Stockmark |
| JMED-LLM | 用于评估日语医疗领域大语言模型的数据集。将此前开发的日语医疗自然语言处理任务整合为大语言模型基准测试。 | NAIST社会计算研究室 |
| JMedBench | 日语医疗领域的大语言模型基准测试。包含选择题、机器翻译、命名实体识别、文本分类和句子相似度计算共5类,总计20个数据集(部分数据集借用了JMMLU中的医疗领域问题以及JMED-LLM中的内容)。此外,还开发了用于简化JMedBench评估的工具med-eval。 | NII相泽研究组 |
| 日语医学语言模型评估框架 | 一个可通过单条命令运行的、专门针对医疗领域的日英双语能力评估程序。 | 个人 (助田一晟) |
| YakugakuQA | 基于日本药师国家考试的日语制药领域知识评估数据集。用于衡量基于事实的药学知识。 | EQUES Inc. |
| NayoseQA | 用于评估日语制药领域多语言术语对应与规范化能力的数据集。考察对同义词及专业术语的理解程度。 | EQUES Inc. |
| SogoCheck | 一项全新的任务,用于评估成对句子之间的一致性推理。即使在GPT-4o上表现也较差的高难度推理任务。 | EQUES Inc. |
| MedRECT | 用于评估临床记录中检测并纠正医学错误能力的基准测试。由错误检测、错误句子定位和错误修正三个阶段的任务组成。设有日语版(663个样本)和英语版(458个样本),其中日语版基于医师国家考试构建。 | Preferred Networks |
| karakuri-bench | 用于衡量日语大语言模型在客服场景下性能的数据集。 | Karakuri |
用于衡量事实性和安全性的基准/数据集
| 说明 | 开发方 | |
|---|---|---|
| JTruthfulQA | 大语言模型事实性评估数据集TruthfulQA的日语版本。从头开始收集了关于迷信等虽被部分人相信但并非事实的现象的相关问题,以及有关日本本土知识的问题。 | 早稻田大学河原研究组 |
| JCommonsenseMorality | 日语常识道德相关数据集。针对描述行为的句子,标注其是否在道德上错误或可接受的二元标签。 | 北海道大学语言媒体学研究室 |
| JBBQ | 社会偏见问答数据集BBQ的日语版。根据日本文化与习俗进行了翻译、修改,并新增了问题。 | 东京大学谷中研究组 |
用于衡量逻辑推理能力的基准/数据集
| 说明 | 开发方 | |
|---|---|---|
| JFLD(日语形式逻辑演绎) | 询问日语大语言模型演绎推理能力的数据集(由同一作者团队提出的FLD(形式逻辑演绎)的日语版本)。其特点在于采用反事实样本来进行评估,以区分大语言模型所掌握的知识。 | 日立制作所 |
| JHumanEval | 英语指令下Python代码生成能力评估基准HumanEval的日语版本。创建日语版时,先通过机器翻译,再由人工进行修正。 | 日本女子大学仓光研究组 |
| JMultiPL-E | 基于OpenAI HumanEval,涵盖17种编程语言(C++、C#、Go、Java、JavaScript、PHP、Ruby、Rust、Scala、Swift、TypeScript等)的代码生成能力评估数据集。用于衡量多语言代码理解和生成性能。 | 东北大学自然语言处理研究小组 |
用于衡量指令遵循能力的基准/数据集
| 说明 | 开发方 | |
|---|---|---|
| LCTG Bench | 日语大语言模型可控性基准测试。从输出格式、字数限制、关键词以及禁用词四个方面评估大语言模型是否能够遵守约束条件并正确输出内容。同时也会评估生成文本的质量。 | CyberAgent |
| JFBench | 用于评估日语大语言模型指令遵循能力的基准测试。在翻译IFBench的6个组别基础上,又新设了10个针对日语特有约束条件(敬体/常体、平假名/片假名/汉字混用、数字书写方式等)的组别。共计16个约束组别、174种约束类型,结合1/2/4/8种约束数量组合,总共评估1,600个样本。 | Preferred Networks |
嵌入模型的基准/数据集
| 说明 | 开发方 | |
|---|---|---|
| JMTEB | 作为MTEB的日语版而创建的基准测试。 由文档聚类、文档分类、句子间相似度、句子对标签预测以及文档抽取5种任务构成(随后又新增了重排序任务)。 |
SB Intuitions |
| JQaRA | 用于评估日语文档抽取与重排序精度的数据集。为1,667个问题分别指定了100份候选文档,其中至少有一份能够回答该问题。问题来源于JAQKET,候选文档则使用日语维基百科。 | 个人 (馆野祐一) |
| JaCWIR | 旨在能够在维基百科以外的领域评估文档抽取与重排序能力而创建的数据集。为5,000个问题分别指定了1个源自该问题的原始网页,以及99个与问题无关的其他网页。 | 个人 (馆野祐一) |
视觉语言模型(Vision-Language Models)的基准测试/数据集
| 说明 | 开发方 | |
|---|---|---|
| llm-jp-eval-mm | 用于在多个基准任务上评估日语VLM性能的工具 | 大规模语言模型研发中心 |
| BusinessSlideVQA | 包含220道关于复杂日语商务幻灯片图像的问答数据集。旨在评估文档理解能力。 | StockMark |
| JMMMU | 作为[MMLU基准]的日语版本构建的基准测试。由720道MMLU翻译版题目和600道具有日本文化特色的全新题目组成。 | 东京大学相泽研究组 |
| JDocQA | 基于日语文档(宣传册、幻灯片、报告、网站)构建的问答数据集,共包含11,600道问题。涵盖多种提问形式,并包括无法解答的问题。 | NAIST渡边研究组 |
| Heron VLM排行榜 powered by nejumi@WandB | 汇总了[Japanese-Heron-Bench]和[LLaVA-Bench-In-the-Wild(日语版)]的评估结果。 | Turing, Weights & Biases |
| Japanese-Heron-Bench | 为21张图片分配了共计102道问题。其特点是图片和问题均要求具备有关日本的知识。 | Turing |
| JA-VLM-Bench-In-the-Wild | Sakana AI为评估EvoVLM-JP-v1-7B而自行准备的数据集。为42张图片分配了共计50道问题。其特点是图片和问题均要求具备有关日本的知识。 | Sakana AI |
| JA-Multi-Image-VQA | 用于评估多张图片下日语问答能力的数据集。 | Sakana AI |
| LLaVA-Bench-In-the-Wild(日语版) | 将LLaVA-Bench-In-the-Wild通过DeepL翻译成日语而成。为24张图片分配了共计60道问题。 | Turing |
| LLaVA-Bench(COCO)日语版 | 将用于LLaVA评估的LLaVA-Bench(COCO)数据集通过DeepL翻译成日语而成。为30张图片分别分配了3种类型的问题。 | Turing |
| Japanese Visual Genome VQA数据集 | 基于[Visual Genome数据集]的图片标注而成的问答数据集。该数据集中截取的500条记录[JA-VG-VQA-500]有时也被用作VLM评估基准。 | 雅虎 |
| japanese-bizform-table-kie | 用于评估从非结构化表格中提取信息精度的基准测试。由50种表格、共计2,500张文档图像组成。 | AI inside |
各模型·架构的原始论文
LLM训练方法的原始论文
贡献者
以下是为本项目做出贡献的各位!
引用
本仓库的摘要也以预印本形式发布: 探索面向日语的开源大型语言模型:实用指南
如需引用本仓库,请按以下方式注明:
@article{awesomeJapanese2024,
title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
author={Kaito Sugimoto},
doi={10.51094/jxiv.682},
journal={Jxiv preprint},
year={2024}
}
[^2]: 虽然未详细说明,但新闻稿中提到:“训练数据除了开放数据集外,还包括Stability AI Japan创建的自有数据集,以及EleutherAI Polyglot项目日语团队和Stable Community Japan成员合作制作的数据。”
[^4]: ○:模型已上传至HuggingFace Model Hub,可通过AutoModel.from_pretrained()等方法直接加载。△:模型未上传至Model Hub,但兼容HuggingFace(transformers,旧pytorch-transformers)格式。✕:模型不兼容HuggingFace格式。
[^6]: 这项研究尝试了多种分词器与子词分割方法的组合。由于难以列出所有组合的模型,此处仅以实验中平均任务性能最高的Juman++ + BPE模型为代表进行展示。
[^11]: 在进行指令微调后,加入了Llama 3 Instruct与Llama 3 Base之间的聊天向量差异。
[^13]: 不过,如果希望将KARAKURI LM用于商业用途,则需要直接联系开发方——卡拉库里株式会社。
[^14]: 不过,强调应以研究和教育为目的使用。此外,还需注意合并源模型的部分许可证并非Apache 2.0许可。
[^15]: 详细内容已在以下视频中公布:松尾研GENIAC LLM开发项目第一阶段成果发布会 2024.06.01 @ 东京大学福武厅 @ 58:22
[^17]: 在进行指令微调之前,加入了Llama 3 Instruct与Llama 3 Base之间的聊天向量差异。
[^20]: 在进行ORPO之前,加入了Gemma 2 Instruct与Gemma 2 Base之间的聊天向量差异。
[^21]: 对嵌入模型的分类参考了基于预训练语言模型的密集文本检索:综述(Zhao+, 2022)。Bi-Encoder是将两个输入分别输入模型,各自转化为向量后,再通过内积或余弦相似度来衡量输入的接近程度的架构。相比之下,Cross-Encoder则是将两个输入组合在一起输入模型,在模型内部直接计算它们的相似度。在信息抽取领域,Cross-Encoder虽然计算成本较高,但有望更精细地计算输入的接近程度,因此常被用作重新排序抽取结果的重排序器。另外,Bi-Encoder中还有一种将输入表示为多个向量(例如按词元划分)而非单一向量的类型(如ColBERT),因此进一步细分为单表征Bi-Encoder和多表征Bi-Encoder。
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
n8n
n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。
AutoGPT
AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。