awesome-japanese-llm

1.4k 44 困难 1 次阅读今天Apache-2.0语言模型开发框架其他

AI 解读由 AI 自动生成，仅供参考

awesome-japanese-llm 是一个专注于汇总日语大语言模型（LLM）及相关评估基准的开源知识库。它系统地整理了目前公开可用的、以日语为核心训练数据的各类模型信息，涵盖了从基础架构、参数量、训练数据规模到具体的许可协议等关键细节。

在日语 AI 生态中，模型种类繁多且授权条款复杂，开发者往往难以快速甄别适合自身项目的资源。awesome-japanese-llm 有效解决了这一信息分散与筛选困难的痛点，提供了一份经过社区维护的“导航图”，帮助用户清晰了解不同模型的技术特点及使用限制，特别是明确区分了完全开源与非商业限定授权的模型，规避了潜在的合规风险。

这份资源特别适合 AI 研究人员、自然语言处理开发者以及希望将日语大模型集成到产品中的技术团队使用。无论是需要从头训练的研究者，还是寻找特定微调模型的应用开发者，都能从中获得极具价值的参考。其独特的亮点在于不仅罗列了如 LLM-jp-3 172B、Sarashina2 等前沿模型的具体技术参数，还持续追踪最新的评估基准，并以多语言版本（含中文友好链接）呈现，极大地降低了日语大模型技术的探索门槛。

使用场景

某日本金融科技公司的算法团队正急需为内部合规系统部署一个高精度日语大模型，以自动审核复杂的金融合同条款。

没有 awesome-japanese-llm 时

选型如大海捞针：团队需在 Hugging Face、GitHub 及各大学术论文中手动搜寻，难以区分哪些模型是真正针对日语原生优化，哪些仅是翻译微调。
许可风险隐蔽：容易忽略部分模型虽开源代码但限制商用（如 CC BY-NC-SA），导致项目后期面临法律合规隐患。
性能评估缺失：缺乏统一的日语基准测试数据，无法客观对比 Sarashina2 与 LLM-jp-3 等模型在长文本理解上的真实差距。
技术细节分散：架构参数（如 MoE 结构）、训练语料规模（2.1T tokens）等关键信息散落在不同页面，整理耗时数周。

使用 awesome-japanese-llm 后

一站式精准筛选：直接查阅分类清晰的列表，快速锁定适合金融场景的“从头训练”通用模型，大幅缩短调研周期。
授权一目了然：表格明确标注每个模型的许可证类型（如 MIT 或非商业限制），帮助团队瞬间排除不符合企业商用要求的选项。
数据驱动决策：参考收录的日语评估基准和详细训练数据来源，科学选定在长文档处理上表现最优的 LLM-jp-3 172B 模型。
核心参数聚合：直接获取上下文窗口大小、架构类型及指令微调数据集详情，技术人员半天内即可完成可行性验证。

awesome-japanese-llm 将原本数周的碎片化调研工作压缩至数小时，为日语大模型的落地提供了权威、透明且高效的决策依据。

运行环境要求

GPU

未说明 (具体需求取决于所选模型的参数量，例如运行 172B 模型通常需要多张高显存 GPU 或量化版本)

内存

未说明

依赖

notes该仓库是一个日语大语言模型（LLM）的列表和综述，而非单一的可执行软件工具，因此没有统一的运行环境要求。具体的硬件和软件需求完全取决于用户选择下载和运行的特定模型（如 LLM-jp-3 172B, Sarashina2, CALM3 等）。部分模型提供 AWQ、GPTQ 或 GGUF 等量化版本以降低显存需求。此外，需注意不同模型适用不同的许可证（如 MIT, Apache 2.0, 或非商业许可），使用前请务必查阅各模型的具体条款。

python未说明

快速开始

日语大型语言模型汇总

[ 英语 | French | 日语 ]

📖 请使用更易读的网页版

本README的内容可在**llm-jp.github.io/awesome-japanese-llm**以更清晰的格式查看。为避免表格显示错乱或布局问题，建议您访问网页版。

本文汇总了公开可用的日语大型语言模型（以日语为主要训练语言的LLM）以及日语LLM评估基准的相关信息。这些信息由志愿者收集整理，部分内容引用自论文及公开资源等。

::: warning 请事先理解并同意以下几点

本文内容不保证完整性或准确性。相关信息可能会在未通知的情况下变更，且不一定能始终提供最新信息。
部分信息可能基于推测或个别用户的解读，因此未必对所有读者都准确。
本文中列出的许多模型采用MIT许可证或Apache-2.0等开源许可证。然而，请注意，部分模型适用非商业用途限定的许可证（如CC BY-NC-SA 4.0）或开发者特有的许可证，这些并不一定属于开源范畴。
对于个人开发的模型，文中省略了作者的敬称。 :::

本文由GitHub进行管理。若您发现文章中的错误，或希望提出新增模型的建议，请通过GitHub Issues提交反馈，我们将不胜感激。

::: details 目录 {open} [[toc]] :::

主要用于文本生成的模型

包含图像的文本生成模型请见此处

从零开始训练的模型

通用

	公開年	アーキテクチャ	入出力で扱えるトークン数	学習テキスト	開発元	ライセンス / 利用規約
Sarashina2-8x70B	2024	MoE (8x70b (465b))	8,192	Sarashina2 (70B) に対して Sparse Upcycling で学習	SB Intuitions	Sarashina Model NonCommercial License
LLM-jp-3 172B	2024	Llama (172b, 172b-instruct2, 172b-instruct3)	4,096	事前学習: llm-jp-corpus-v3 (計 2.1T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst	大規模言語モデル研究開発センター	事前学習済みモデル: LLM-jp-3 172B Terms of Use 事後学習済みモデル: llm-jp-3-172b-instruct3利用許諾契約
LLM-jp-3 172B beta2	2024	Llama (172b-beta2, 172b-beta2-instruct2)	4,096	事前学習: llm-jp-corpus-v3の一部 (計 1.4T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k	大規模言語モデル研究開発センター	LLM-jp-3 172B beta2 Terms of Use
LLM-jp-3 172B beta1	2024	Llama (172b-beta1, 172b-beta1-instruct)	4,096	事前学習: llm-jp-corpus-v3の一部 (計 0.7T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN	大規模言語モデル研究開発センター	LLM-jp-3 172B beta1 Terms of Use
LLM-jp-3 172B alpha	2024	Llama (172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct)	4,096	事前学習: llm-jp-corpus-v3の一部 (alpha1: 計 0.7T トークン, alpha2: 計 1.4T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN	大規模言語モデル研究開発センター	Apache 2.0
Stockmark-2-100B-Instruct-beta	2025	Llama (100B-Instruct-beta, 100B-Instruct-beta-AWQ)	4,096	事前学習: 計 1.5T トークン Instruction Tuning DPO	ストックマーク	MIT
Stockmark-100b	2024	Llama (100b, 100b-instruct-v0.1)	4,096	事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus (計 910B トークン) Instruction Tuning (LoRA): ichikara-instruction	ストックマーク	MIT
PLaMo-100B-Pretrained	2024	Llama^22 (100b)	4,096	事前学習: Japanese CommonCrawl, RefinedWeb, 独自のデータセット (計: 2.0T トークン)	Preferred Elements (Preferred Networks)	PLaMo Non-Commercial License
LLM-jp-3.1	2025	Llama/MoE (8x13b (73b), 8x13b (73b)-instruct4, 13b, 13b-instruct4, 1.8b, 1.8b-instruct4)	4,096	事前学習: llm-jp-corpus-v3 (計 2.5T トークン) 継続事前学習: インストラクション・レスポンスペア (計 90B トークン) SFT + DPO	大規模言語モデル研究開発センター	Apache 2.0
LLM-jp-3 MoE	2025	MoE (8x1.8b (9.3b), 8x1.8b (9.3b)-instruct2, 8x1.8b (9.3b)-instruct3, 8x13b (73b), 8x13b (73b)-instruct2, 8x13b (73b)-instruct3)	4,096	LLM-jp-3 (1.8b, 13b) に対して Drop-Upcycling で学習	大規模言語モデル研究開発センター	Apache 2.0
Sarashina2	2024	Llama (7b, 13b, 70b)	7b, 13b: 4,096 70b: 8,192	事前学習: Japanese Common Crawl, SlimPajama, StarCoder (計 2.1T トークン)	SB Intuitions	MIT
Sarashina1	2024	GPT-NeoX (7b, 13b, 65b)	2,048	事前学習: Japanese Common Crawl (計 1T トークン)	SB Intuitions	MIT
Tanuki-8×8B	2024	MoE (47b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)	4,096	事前学習: 様々な Web 上のデータ, 合成データ（計 1.7T トークン） SFT, DPO: 様々な合成データ ^19	松尾研LLM開発プロジェクト	Apache 2.0
LLM-jp-4 32B-A3B	2026	Qwen3 MoE (32b-a3b-base, 32b-a3b-thinking)	65,536	事前学習 + 中間学習: llm-jp-corpus-v4.1, llm-jp-corpus-midtraining-v2 (計 11.7T トークン) SFT: llm-jp-4-thinking-sft-data DPO: llm-jp-4-32b-a3b-thinking-dpo-data	大規模言語モデル研究開発センター	Apache 2.0
PLaMo 3	2025	Gemma ベースのアーキテクチャ (2b-base, 8b-base, 31b-base)	4,096	事前学習: 英語、日本語、コード、多言語 (2b: 200B トークン, 8b: 1T トークン, 31b: 3T トークン)	Preferred Networks	PLaMo community license
Way-PLaMo-3-8b-chat	2025	PLaMo 3ベース (8b-chat)	4,096	Instruction Following SFT: Alpaca (51.7K), Dolly-15k-ja (15K)	個人 (WayBob)	PLaMo community license
CyberAgentLM3 (CALM3)	2024	Llama (22b-chat, 22b-chat-selfimprove-experimental)	16,384	不明 (計 2.0T トークン)	サイバーエージェント	Apache 2.0
LLM-jp-3 13B instruct3	2025	Llama (150m, 150m-instruct2, 150m-instruct3, 440m, 440m-instruct2, 440m-instruct3, 980m, 980m-instruct2, 980m-instruct3, 1.8b-instrcut2, 1.8b-instruct3, 3.7b-instruct2, 3.7b-instruct3, 7.2b-instruct2, 7.2b-instruct3, 13b-instruct2, 13b-instruct3)	4,096	事前学習: llm-jp-corpus-v3 (計 2.1T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, Synthetic-JP-EN-Coding-Dataset-567k DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst	大規模言語モデル研究開発センター	Apache 2.0
LLM-jp-3 13B	2024	Llama (1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 7.2b, 7.2b-instruct, 13b, 13b-instruct)	4,096	事前学習: llm-jp-corpus-v3 (計 2.1T トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k	大規模言語モデル研究開発センター	Apache 2.0
llm-jp-3-3.7b-instruct-EZO	2024	Llama (3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities)	4,096	LLM-jp-3 (3.7B) に対して追加学習	Axcxept	Apache 2.0
LLM-jp-13B v2.0	2024	Llama (13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)	4,096	事前学習: llm-jp-corpus-v2 (計 260B トークン) Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2	LLM-jp	Apache 2.0
Fugaku-LLM	2024	GPT (13B, 13B-instruct, 13B-instruct-gguf)	2,048	事前学習: 独自 Instruction Tuning: OASST1, Dolly Dataset, GSM8K	東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba Technologies	Fugaku-LLM Terms of Use
LLM-jp-13B v1.1	2024	GPT (13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)	2,048	Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction DPO (LoRA): HH RLHF	LLM-jp	Apache 2.0
LLM-jp-13B	2023	GPT (1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)	2,048	事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン) Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1	LLM-jp	Apache 2.0
PLaMo-13B	2023	Llama^1 (13b, 13b-instruct, 13b-instruct-nc)	base: 4,096 instruct, instruct-nc: 8,192	事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4 (計 1.5T トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習)	Preferred Networks	Apache 2.0 (NC モデルは CC BY-NC 4.0)
Stockmark-13b	2023	Llama (13b, 13b-instruct)	2,048	事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus (計 220B トークン) Instruction Tuning (LoRA): ichikara-instruction	ストックマーク	baseモデル: MIT instructモデル: CC BY-NC-SA 4.0
Weblab-10B	2023	GPT-NeoX (10b, 10b-instruction-sft)	2,048	Japanese mC4 + The Pile（計 600B トークン） *instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング	東大松尾研	CC BY-NC 4.0
LLM-jp-4 8B	2026	Llama (8b-base, 8b-instruct, 8b-thinking)	65,536	事前学習 + 中間学習: llm-jp-corpus-v4.1, llm-jp-corpus-midtraining-v2 (計 11.7T トークン) SFT: llm-jp-4-thinking-sft-data DPO (thinking のみ): llm-jp-4-8b-thinking-dpo-data	大規模言語モデル研究開発センター	Apache 2.0
PLaMo 2.1 8B	2025	Samba ベースのアーキテクチャ (8b-cpt)	32,768	訓練詳細不明	Preferred Networks	PLaMo community license
PLaMo 2 8B	2025	Samba ベースのアーキテクチャ (8b)		日本語、英語等のデータ（計 6T トークン）	Preferred Networks	PLaMo community license
Tanuki-8B	2024	Tanuki (8b) (v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)	4,096	事前学習: 様々な Web 上のデータ, 合成データ（計 1.3T トークン） SFT, DPO: 様々な合成データ ^19	松尾研LLM開発プロジェクト	Apache 2.0
Japanese StableLM Alpha	2023	GPT-NeoX (base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)	2,048	Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama (+ 独自のデータセット)[^2] (計 750B トークン) *instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング (v2では商用利用不可の Alpaca Dataset を除外)	Stability AI	baseモデル: Apache 2.0 instruct モデル (v1): 独自のライセンス instruct モデル (v2): Apache 2.0
CyberAgentLM2 (CALM2)	2023	Llama (7b, 7b-chat, 7b-chat-dpo-experimental)	base: 4,096 chat: 32,768	一般公開されている日本語・英語のデータセット（詳細不明） (計 1.3T トークン) *dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習	サイバーエージェント	Apache 2.0 (dpo モデルのみ CC BY 4.0)
OpenCALM	2023	GPT-NeoX (small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))	2,048	日本語 Wikipedia + Jpanese mC4 + Japanese CC-100	サイバーエージェント	CC BY-SA 4.0
Stormy	2023	GPT-NeoX (7b(6.8b))	2,048	OpenCALM (6.8b) に対して llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング	東大和泉研	CC BY-SA 4.0
ByGPT-JP	2025	Llama ベース (multi-lm-head-6.5b-alpha)	5,760	llm-jp-corpus-v3 のサブセット (ja_cc, ja_warp_html, ja_warp_pdf, ja_wiki, kaken)	東北大自然言語処理研究グループ	Apache 2.0
rinna GPT (英語やコードも含めて学習されたモデル)	2023	GPT-NeoX (4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)	8kモデル: 8,192 他: 2,048	Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile (計 524B トークン) 8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング instruction-sft モデルでは HH RLHF、FLAN でファインチューニング *instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習	rinna	MIT
japanese-large-lm	2023	GPT-NeoX (1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)	2,048	日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど (計 650GB) *instruction-sft モデルでは OASST1 でファインチューニング	LINE	Apache 2.0
rinna GPT (日本語のみで学習されたモデル)	2023	GPT または GPT-NeoX (xsmall, small, medium, 1b, neox-small, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)	≤ 2,048	日本語 Wikipedia + Japanese CC-100 (1b 以降のモデルではさらに Japanese mC4 を追加) instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習	rinna	MIT
Sarashina2.2	2025	Llama (0.5b, 0.5b-instruct-v0.1, 1b, 1b-instruct-v0.1, 3b, 3b-instruct-v0.1)	8,192		SB Intuitions	MIT
レトリバT5	2023	T5 (small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))		日本語 Wikipedia + Japanese mC4	レトリバ	CC BY-SA 4.0
Spiral-RetNet-3b-base	2024	RetNet (3b)	2,048	Wikipedia, Japanese CC-100, CulturaX	Spiral.AI	MIT
kotomamba-2.8B	2024	Mamba (2.8B-v1.0)	2,048	日本語 Wikipedia, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
ABEJA GPT	2022	GPT または GPT-NeoX (large, neox-2.7b)		日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR	ABEJA	MIT
PLaMo 2.1 2B	2025	Causal decoder-only transformer (2b-cpt)	32,768	訓練詳細不明	Preferred Networks	PLaMo community license
Rakuten AI 2.0 mini	2025	Mistral (mini(1.5b), mini(1.5b)-instruct)	131,072		楽天	Apache 2.0
早大GPT	2022	GPT (small, xl(1.5b))		日本語 Wikipedia + Japanese CC-100	早大河原研	CC BY-SA 4.0
ストックマークGPT	2023	GPT-NeoX (1.4b)		日本語 Wikipedia (0.88B トークン) + Japanese CC-100 (10.5B トークン) + 独自のWebデータ (8.6B トークン)	ストックマーク	MIT
イエローバックGPT	2021	GPT-NeoX (1.3b)		日本語 Wikipedia + Japanese CC-100 + Japanese OSCAR	イエローバック	Apache 2.0
PLaMo 2 1B	2025	Samba ベースのアーキテクチャ (1b)		日本語、英語等のデータ（計 4T トークン）	Preferred Elements (Preferred Networks)	Apache 2.0
Sarashina2.1-1B	2024	Llama (1b)	8,192	Web 上などの日本語・英語データ（計 10T トークン）	SB Intuitions	Sarashina Model NonCommercial License
colorfulscoop GPT	2021	GPT (small)		日本語 Wikipedia	Colorful Scoop	CC BY-SA 3.0
東工大GPT	2023	GPT (medium, medium (逆方向)) ^3		日本語 Wikipedia + Japanese CC-100	東工大岡崎研	CC BY-SA 4.0
京大GPT	2022	GPT (small (文字レベル), medium (文字レベル), large (文字レベル))		日本語 Wikipedia (約2,700万文 (3.2GB)) + Japanese CC-100 (約6億1,900万文 (85GB)) + Japanese OSCAR (約3億2,600万文 (54GB))	京大言語メディア研究室	CC BY-SA 4.0
日本語BART	2023	BART (base, large)		日本語 Wikipedia (約1,800万文)	京大言語メディア研究室	CC BY-SA 4.0
Megagon Labs T5	2021	T5 (base)		Japanese mC4 (87,425,304 ページ (782 GB)) + Japanese wiki40b (828,236 記事 (2 GB))	Megagon Labs (リクルート)	Apache 2.0

领域专用

	领域	架构	学习文本	开发方	许可证
SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct	医疗	MoE	医疗系语料库 (44.2B 个token) 上对 LLM-jp-3 MoE (8x13b) 进行额外预训练，随后进行指令微调	战略性创新创造计划（SIP）第3期课题“在构建集成型医疗保健系统中利用生成式AI”主题1“开发并社会实施具有安全性与可靠性之开放式医疗LLM”研究小组	Apache 2.0
日语对话Transformer	对话	Transformer	Twitter 上的日语回复配对	NTT	自定义许可证
日语新闻BART	商业	BART (base)	日本商业新闻文章（约2,100万篇 (2.9亿句)）	StockMark	MIT
AcademicBART	学术	BART (base)	CiNii 的日语论文	爱媛大学人工智能研究室	Apache 2.0

在海外模型基础上进行日语持续预训练的模型

※也包括在持续预训练后进行了后续学习（如SFT、DPO、RL等）的模型

泛用

	公開年	ベースのLLM	学習テキスト	開発元	ライセンス / 利用規約
GPT-OSS Swallow 120B (120B-SFT-v0.1, 120B-RL-v0.1)	2026	GPT-OSS (120b)	事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 419.4B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset)	Swallowプロジェクト	Apache 2.0
Llama 3.3 Swallow 70B (70B-v0.4, 70B-Instruct-v0.4)	2025	Llama 3.3 (70b)	事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1, Swallow-Code-v0.3-Instruct-style	Swallowプロジェクト	Llama 3.3 Community License & Gemma Terms of Use
Llama 3.1 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1, 70B-Instruct-v0.3)	2024	Llama 3.1 (70b)	事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie	Swallowプロジェクト	Llama 3.1 Community License (Instructモデルは Gemma Terms of Use も適用)
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407	2024	Llama 3.1 (70b)	不明	サイバーエージェント	Llama 3.1 Community License
Llama 3 Swallow 70B (70B-v0.1, 70B-Instruct-v0.1)	2024	Llama 3 (70b)	事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [^17]	Swallowプロジェクト	Llama 3 Community License
turing-motors/Llama-3-heron-brain-70B-v0.3	2024	Llama 3 (70b)	Llama 3 Swallow 70B に対して追加学習（詳細不明）	Turing	Llama 3 Community License
Llama 3 Youko 70B (70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)	2024	Llama 3 (70b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 5B トークン) Instruction Tuning: 独自のデータセット[^11]	rinna	Llama 3 Community License
Swallow 70B (70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)	2023	Llama 2 (70b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用	Swallowプロジェクト	Llama 2 Community License
KARAKURI LM (70b-v0.1, 70b-chat-v0.1)	2024	Llama 2 (70b)	事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット (計 16B トークン) SteerLM: OASST2, 独自のデータセット	カラクリ	Llama 2 Community License[^13]
Japanese Stable LM Beta 70B (base-beta-70b, instruct-beta-70b)	2023	Llama 2 (70b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
Fujitsu-LLM-KG (8x7B_cpt, 8x7B_inst-infer_v1, 8x7B_inst-infer_v2, 8x7B_inst-gen_ja, 8x7B_inst-gen_en)	2025	Mixtral-8x7B-Instruct-v0.1 (46.7b)	事前学習: 知識グラフ並列コーパス(森羅プロジェクト、Wikipedia等から合成) 2.1Bトークンを含む計約300Bトークン Instruction Tuning: 知識グラフ推論・生成タスク用データセット	富士通	Apache 2.0
Swallow-MX 8x7B (8x7b-NVE-v0.1)	2024	Mixtral-8x7B-Instruct-v0.1 (46.7b)	事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault	Swallowプロジェクト	Apache 2.0
KARAKURI LM 8x7B Instruct v0.1 (8x7b-instruct-v0.1)	2024	Mixtral-8x7B-Instruct-v0.1 (46.7b)	Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセット	カラクリ	Apache 2.0 (?)^12
KARAKURI LM 8x7B Chat v0.1 (8x7b-chat-v0.1)	2024	Mixtral-8x7B-Instruct-v0.1 (46.7b)	Swallow-MX 8x7B に対して SteerLM: OASST2, HelpSteer, 独自のデータセット	カラクリ	Apache 2.0
ABEJA-Mixtral-8x7B-japanese (8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)	2024	Mixtral-8x7B-Instruct-v0.1 (46.7b) *Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース	事前学習: Japanese CC, Redpajama, 独自（計 450B トークン）	ABEJA	Apache 2.0
Qwen3 Swallow 32B (32B-CPT-v0.2, 32B-SFT-v0.2, 32B-RL-v0.2)	2026	Qwen3 (32b)	事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 209.7B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset)	Swallowプロジェクト	Apache 2.0
ELYZA-Thinking-1.0-Qwen-32B (32B)	2025	Qwen 2.5 (32b)	事前学習 + SFT (Reasoning)	ELYZA	Apache 2.0
ELYZA-Shortcut-1.0-Qwen-32B (32B)	2025	Qwen 2.5 (32b)	事前学習 + SFT	ELYZA	Apache 2.0
ABEJA-Qwen2.5-32b-Japanese-v1.0 (v1.0)	2025	Qwen2.5-32B-Instruct (32b)	継続事前学習 + SFT + DPO: 約2万件の合成データ・人手アノテーションデータセット（抽出・推論能力に特化）	ABEJA	Apache 2.0
Qwen2.5 Bakeneko 32B (qwen2.5-bakeneko-32b, qwen2.5-bakeneko-32b-instruct, deepseek-r1-distill-qwen2.5-bakeneko-32b, qwq-bakeneko-32b)	2025	Qwen 2.5 (32b)		rinna	Apache 2.0
ABEJA-QwQ32b-Reasoning-Japanese-v1.0 (v1.0)	2025	Qwen 2.5 (32b)	ABEJA-Qwen2.5-32b-Japanese-v0.1 に QwQ 32b の Chat Vector をマージした上で追加学習	ABEJA	Apache 2.0
ABEJA-Qwen2.5-32b-Japanese-v0.1 (32b-Japanese-v0.1)	2025	Qwen 2.5 (32b)	事前学習: Common Crawl, Cosmopedia, 独自（計 100B トークン） + Chat Vector	ABEJA	Apache 2.0
neoAI-JP-QwQ-32B (32B)	2025	Qwen 2.5 (32b)	継続事前学習: llm-jp-corpus v3から約4Bトークン + QwQ-32BのChat Vector	neoAI	Apache 2.0
neoAI-JP-DeepSeek-Qwen-32B (32B)	2025	Qwen 2.5 (32b)	継続事前学習: llm-jp-corpus v3から約4Bトークン + DeepSeek-R1-Distill-Qwen-32BのChat Vector	neoAI	Apache 2.0
Qwen3 Swallow 30B-A3B (30B-A3B-CPT-v0.2, 30B-A3B-SFT-v0.2, 30B-A3B-RL-v0.2)	2026	Qwen3 (30b-A3B)	事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 209.7B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset)	Swallowプロジェクト	Apache 2.0
Gemma-2-Llama Swallow 27B (27b-pt-v0.1, 27b-it-v0.1)	2025	Gemma 2 (27b)	事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1	Swallowプロジェクト	Llama 3.3 Community License & Gemma Terms of Use
GPT-OSS Swallow 20B (20B-SFT-v0.1, 20B-RL-v0.1)	2026	GPT-OSS (20b)	事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 419.4B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset)	Swallowプロジェクト	Apache 2.0
Nekomata 14B (14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)	2023	Qwen (14b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Tongyi Qianwen LICENSE
Swallow 13B (13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)	2023	Llama 2 (13b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用	Swallowプロジェクト	Llama 2 Community License
LEIA-Swallow-13B (13b)	2024	Llama 2 (13b)	Swallow 13B に対して LEIA で追加学習	個人 (山田育矢, 李凌寒)	Llama 2 Community License
ELYZA-japanese-Llama-2-13b (13b, 13b-instruct, 13b-fast, 13b-fast-instruct)	2023	Llama 2 (13b)	事前学翕: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット	ELYZA	Llama 2 Community License
cyberagent/Mistral-Nemo-Japanese-Instruct-2408	2024	Mistral NeMo (12b)	不明	サイバーエージェント	Apache 2.0
NVIDIA-Nemotron-Nano-9B-v2-Japanese (9B)	2026	Nemotron-Nano (9b)	継続事前学習: Wikipedia, fineweb-2 Japanese, aozorabunko, sip3-ja-general-web-corpus, Nemotron-CC-v2.1, Nemotron-Pretraining-Specialized-v1 SFT: Nemotron-Personas-Japan をシードセットとした Tool Calling データセット, Nemotron-Post-Training-v3	NVIDIA	NVIDIA Nemotron Open Model License Agreement
Gemma-2-Llama Swallow 9B (9b-pt-v0.1, 9b-it-v0.1)	2025	Gemma 2 (9b)	事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1	Swallowプロジェクト	Llama 3.3 Community License & Gemma Terms of Use
Qwen3 Swallow 8B (8B-CPT-v0.2, 8B-SFT-v0.2, 8B-RL-v0.2)	2026	Qwen3 (8b)	事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2 (計 209.7B トークン) SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1 RL: allenai/Dolci-Think-RL-7B (Math subset)	Swallowプロジェクト	Apache 2.0
Llama 3.1 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2, 8B-Instruct-v0.3, 8B-Instruct-v0.5)	2025	Llama 3.1 (8b)	事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie, Gemma-3-LMSYS-Chat-1M-Synth	Swallowプロジェクト	Llama 3.1 Community License (Instructモデルは Gemma Terms of Use も適用)
Llama 3 Swallow 8B (8B-v0.1, 8B-Instruct-v0.1)	2023	Llama 3 (8b)	事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath Instruction Tuning: OASST1 [^17]	Swallowプロジェクト	Llama 3 Community License
turing-motors/Llama-3-heron-brain-8B-v0.3	2024	Llama 3 (8b)	Llama 3 Swallow 8B に対して追加学習（詳細不明）	Turing	Llama 3 Community License
Llama 3 Youko 8B (8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)	2024	Llama 3 (8b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 22B トークン) Instruction Tuning[^11]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット DPO: HelpSteer, HelpSteer2, 独自のデータセット	rinna	Llama 3 Community License
Llama 3 ELYZA JP 8B (8B, 8B-GGUF, 8B-AWQ)	2024	Llama 3 (8b)	不明	ELYZA	Llama 3 Community License
Llama 3 neoAI 8B Chat v0.1 (8B-Chat-v0.1)	2024	Llama 3 (8b)	不明	neoAI	Llama 3 Community License
Llama 3 tedllm (v0)	2024	Llama 3 (8b)	事前学習: 日本語の一般コーパス	東京エレクトロンデバイス	Llama 3 Community License
ELYZA-Shortcut-1.0-Qwen-7B (7B)	2025	Qwen 2.5 (7b)	事前学習 + SFT	ELYZA	Apache 2.0
ELYZA-Diffusion-1.0-Dream-7B (Base-7B, Instruct-7B)	2026	Dream (7b)	事前学習: 日本語テキスト (約 62B トークン) Instruction Tuning: 日本語の指示データ (約 0.18B トークン)	ELYZA	Apache 2.0
Swallow 7B (7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)	2023	Llama 2 (7b)	事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 *v0.1モデルでは OASST1, OASST2 を使用	Swallowプロジェクト	Llama 2 Community License
LEIA-Swallow-7B (7b)	2024	Llama 2 (7b)	Swallow 7B に対して LEIA で追加学習	個人 (山田育矢, 李凌寒)	Llama 2 Community License
ELYZA-japanese-Llama-2-7b (7b, 7b-instruct, 7b-fast, 7b-fast-instruct)	2023	Llama 2 (7b)	事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど (計 18B トークン) Instruction Tuning: 独自のデータセット	ELYZA	Llama 2 Community License
Youri 7B (7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)	2023	Llama 2 (7b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 40B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Llama 2 Community License
houou-7b (instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)	2023	Llama 2 (7b)	Youri 7B (base) に対して Instruction Tuning: ichikara-instruction	マネーフォワード	Llama 2 Community License
Japanese Stable LM Beta 7B (base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)	2023	Llama 2 (7b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, OASST1	Stability AI	Llama 2 Community License
SambaLingo-Japanese (Base, Chat)	2024	Llama 2 (7b)	事前学習: CulturaX Instruction Tuning: ultrachat_200k DPO: ultrafeedback, cai-conversation-harmless	SambaNova Systems	Llama 2 Community License (?)^12
blue-lizard (blue-lizard)	2024	Llama 2 (7b)	不明	Deepreneur	Llama 2 Community License
Swallow-MS 7B (7b-v0.1, 7b-instruct-v0.1)	2024	Mistral-7B-v0.1 (7b)	事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile Instruction Tuning: Dolly Dataset, OASST1	Swallowプロジェクト	Apache 2.0
Rakuten AI 2.0 (8x7B, 8x7B-instruct)	2025	Mistral-7B-v0.1 (7b)		楽天	Apache 2.0
RakutenAI-7B (7B, 7B-instruct, 7B-chat)	2024	Mistral-7B-v0.1 (7b)	事前学習: 不明 Instruction Tuning: Dolly Dataset, OASST1, （jasterと同様に）言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット	楽天	Apache 2.0
Japanese Stable LM Gamma 7B (base-gamma-7b, instruct-gamma-7b)	2023	Mistral-7B-v0.1 (7b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-dataSetのwikinews subset	Stability AI	Apache 2.0
ChatNTQ JA 7B (7b-v1.0)	2024	Mistral-7B-v0.1 (7b)	Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning	NTQ Solution	Apache 2.0
Shisa Gamma 7B (7b-v1)	2023	Mistral-7B-v0.1 (7b)	Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning	AUGMXNT	Apache 2.0 (?)^12
Shisa 7B (base-7b-v1, 7b-v1)	2023	Mistral-7B-v0.1 (7b)	事前学習: shisa-pretrain-en-ja-v1 (8B トークン) Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1	AUGMXNT	Apache 2.0 (?)^12
Karasu (7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)	2024	Mistral-7B-v0.1 (7b)	Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン) Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット	Lightblue	Apache 2.0 (?)^12
Nekomata 7B (7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)	2023	Qwen (7b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 66B トークン) Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部	rinna	Tongyi Qianwen LICENSE
lightblue/japanese-mpt-7b	2023	MPT (7b)	Japanese mC4	Lightblue	Apache 2.0
Japanese Stable LM 3B-4E1T (3b-4e1t-base, 3b-4e1t-instruct)	2024	StableLM-3B-4E1T (3b)	事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外) (計 100B トークン) Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset	Stability AI	Apache 2.0
kotomamba-2.8B-CL	2024	mamba-2.8b-slimpj (2.8b)	日本語 Wikipedia, Swallow Corpus, SlimPajama	Kotoba Technologies	Apache 2.0
Gemma-2-Llama Swallow 2B (2b-pt-v0.1, 2b-it-v0.1)	2025	Gemma 2 (2b)	事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1	Swallowプロジェクト	Llama 3.3 Community License & Gemma Terms of Use
Gemma 2 Baku 2B (2b, 2b-it)	2024	Gemma 2 (2b)	事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット (計 80B トークン) OPRO: 独自のデータセット [^20]	rinna	Gemma Terms of Use
Japanese Stable LM 2 1.6B (base, instruct)	2024	Stable LM 2 1.6B (1.6b)	事前学習: Wikipedia, CulturaX Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1	Stability AI	STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
TinySwallow-1.5B (1.5B, 1.5B-Instruct, 1.5B-Instruct-q4f32_1-MLC, 1.5B-Insturct-GGUF)	2025	Qwen2.5 (1.5b)	事前学習: Qwen2.5 (32b) を教師として TAID で学習 Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, swallow-magpie-ultra-v0.1, swallow-gemma-magpie-v0.1	Sakana AI, Swallowプロジェクト	Apache 2.0
EQUES/OpenRS3-GRPO-ja	2025	Qwen2.5 (1.5b)	TinySwallow-1.5B-Instruct に対して kunishou/OpenMathInstruct-1-1.8m-ja でGRPO学習	EQUES Inc.	？
EQUES/TinyDeepSeek-JP-1.5B	2025	Qwen2.5 (1.5b)	TinySwallow-1.5B-Instruct に対して EQUES/japanese_ultrachat_6.6k でTAID蒸留	EQUES Inc.	Apache 2.0
EQUES/TinySwallow-Stratos-1.5B	2025	Qwen2.5 (1.5b)	TinySwallow-1.5B-Instruct に対して Bespoke-Stratos-35k で推論能力強化	EQUES Inc.	Apache 2.0
karasu-1.1B	2023	TinyLlama (1.1b)	事前学習: Japanese OSCAR, Japanese mC4 (計 3B トークン)	Lightblue	Apache 2.0

领域专用

	领域	基础大模型	开发方	许可协议
pfnet/Preferred-MedLLM-Qwen-72B	医疗	Qwen2.5 (72b)	Preferred Networks	Qwen LICENSE
Llama3-Preferred-MedSwallow-70B (70B)	医疗	Llama 3 (70b)	Preferred Networks	Llama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70b	医疗	Llama 2 (70b)	東京大学医学部附属病院循環器内科 AIグループ	CC BY-NC-SA 4.0
gpt-oss-20b-Ja-Fin (CPT, Thinking)	金融	GPT-OSS (20b)	野村総合研究所	Apache 2.0
nekomata-14b-pfn-qfin (qfin, qfin-inst-merge)	金融	Qwen (14b)	Preferred Networks	Tongyi Qianwen LICENSE
Qwen3-14B-Ja-Fin (CPT, Thinking)	金融	Qwen3 (14b)	野村総合研究所	Apache 2.0
Watashiha-Llama-2-13B-Ogiri-sft (sft, sft-neuron)	大喜利	Llama 2 (13b)	わたしは	Llama 2 Community License
MedExamDoc-Llama-3.1-Swallow-8B-Instruct-v0.5	医疗	Llama 3.1 (8b)	Ingenta	Llama 3.1 Community License
からまる (Karamaru-v1)	江戸時代の古文	Llama 3 (8b)	Sakana AI	Llama 3 Community License
Llama 3.1 Future Code Ja 8B	コーディング	Llama 3.1 (8b)	フューチャー	Llama 3.1 Community License
JPharmatron (7B-base, 7B)	薬学	Qwen2.5 (7b)	EQUES Inc.	CC BY-SA 4.0
ELYZA-japanese-CodeLlama-7b (7b, 7b-instruct)	コーディング	Code Llama (7b)	ELYZA	Llama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b	物語生成	GPT-J (6b)	個人 (大曽根宏幸)	CreativeML OpenRAIL-M License
NovelAI/genji-jp	物語生成	GPT-J (6b)	NovelAI	？

海外モデルに日本語で事後学習を行ったモデル（継続事前学習なし、または詳細不明）

普遍

	基础大模型	训练文本	开发方	许可证 / 使用条款
Rakuten AI 3.0 (RakutenAI-3.0)	DeepSeek-V3 (671b) ^24	不明	楽天	Apache 2.0
Llama 3.1 Shisa V2 405B (405b)	Llama 3.1 (405b)	高质量的日语数据集进行SFT/DPO	Shisa.AI	Llama 3.1 Community License
AXCXEPT/EZO-Qwen2.5-72B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4	Qwen2.5 (72b)		Axcxept	Qwen License
ao-Karasu (72B)	Qwen1.5 (72b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本的公开技术博客, 新闻文章, QA网站的回答, 自有的数据集	Lightblue	Tongyi Qianwen LICENSE (?)^12
Shisa V2.1 70B (70b)	Llama 3.3 (70b)	结合SFT/DPO/强化学习/模型融合的训练	Shisa.AI	Llama 3.3 Community License
shisa-ai/shisa-v2-llama3.3-70b	Llama 3.3 (70b)		Shisa.AI	Llama 3.3 Community License
AXCXEPT/Llama-3.1-70B-EZO-1.1-it	Llama 3.1 (70b)		Axcxept	Llama 3.1 Community License
Llama 3 shisa-v1-llama3-70b (70b)	Llama 3 (70b)	ultra-orca-boros-en-ja-v1	Shisa.AI	Llama 3 Community License (?)^12
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese	Llama 2 (70b)		东京大学医学部附属医院循环内科 AI小组	Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1	Llama 2 (70b)		同志社大学媒体信息学研究室	？
cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese	DeepSeek-R1-Distill-Qwen (32b)		サイバーエージェント	MIT
Flux-Japanese-Qwen2.5-32B-Instruct-V1.0 (V1.0)	Qwen2.5-32B-Instruct (32b)	精准调优：精准定位日语知识、推理及语言能力相关参数，仅对其中5%的参数进行调整。随后创建三个专业模型，并通过精准合并整合为一个整体	FLUX	Apache 2.0
karakuri-ai/karakuri-lm-32b-thinking-2501-exp	QwQ (32b)		カラクリ	Apache 2.0
shisa-ai/shisa-v2-qwen2.5-32b	Qwen2.5 (32b)		Shisa.AI	Apache 2.0
AXCXEPT/EZO-Qwen2.5-32B-Instruct AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct	Qwen2.5 (32b)		Axcxept	Apache 2.0
cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese	DeepSeek-R1-Distill-Qwen (14b)		サイバーエージェント	MIT
Shisa V2.1 14B (14b)	Phi-4 (14b)	结合SFT/DPO/强化学习/模型融合的训练	Shisa.AI	MIT
shisa-ai/shisa-v2-unphi4-14b	Phi-4 (14b)		Shisa.AI	MIT
EZO-Phi-4 (phi-4-open-R1-Distill-EZOv1, phi-4-deepseek-R1K-RL-EZO)	Phi-4 (14b)		Axcxept	MIT
Qarasu (14B-chat-plus-unleashed)	Qwen (14b)	ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 自有数据集	Lightblue	Tongyi Qianwen LICENSE (?)^12
Sparticle/llama-2-13b-chat-japanese-lora	Llama 2 (13b)		Sparticle	？
izumi-lab/llama-13b-japanese-lora-v0-1ep	Llama (13b)		东大和泉研	？
shisa-ai/shisa-v2-mistral-nemo-12b	Mistral NeMo (12b)		Shisa.AI	Apache 2.0
AXCXEPT/EZO-Common-9B-gemma-2-it	Gemma 2 (9b)		Axcxept	Gemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-it	Gemma 2 (9b)		Axcxept	Gemma Terms of Use
Shisa V2.1 8B (8b)	Qwen3 (8b)	结合SFT/DPO/强化学习/模型融合的训练	Shisa.AI	Apache 2.0
AXCXEPT/Qwen3-EZO-8B-beta	Qwen3 (8b)	采用Deep-Think技术实现高性能推理	Axcxept	Apache 2.0
shisa-ai/shisa-v2-llama3.1-8b	Llama 3.1 (8b)		Shisa.AI	Llama 3.1 Community License
AXCXEPT/Llama-3.1-8B-EZO-1.1-it	Llama 3.1 (8b)		Axcxept	Llama 3.1 Community License
Llama 3 Suzume 8B (8B-japanese, 8B-japanese-gguf)	Llama 3 (8b)	megagonlabs/instruction_ja, ShareGPT, 自有数据集	Lightblue	Llama 3 Community License (?)^12
Llama 3 shisa-v1-llama3-8b (8b)	Llama 3 (8b)	ultra-orca-boros-en-ja-v1	Shisa.AI	Llama 3 Community License (?)^12
AXCXEPT/Llama-3-EZO-8b-Common-it	Llama 3 (8b)		Axcxept	Llama 3 Community License
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese	DeepSeek-R1-Distill-Qwen (7b)		Lightblue	Apache 2.0
ABEJA-Qwen2.5-7b-Japanese-v0.1 (v0.1)	Qwen 2.5 (7b)		ABEJA	Apache 2.0
shisa-ai/shisa-v2-qwen2.5-7b	Qwen 2.5 (7b)		Shisa.AI	Apache 2.0
Karasu DPO (7B)	Qwen 2.5 (7b)		Lightblue	Apache 2.0
ganchengguang/Yoko-7B-Japanese-v1	Llama 2 (7b)		横滨国立大学森研	？
Sparticle/llama-2-7b-chat-japanese-lora	Llama 2 (7b)		Sparticle	？
izumi-lab/llama-7b-japanese-lora-v0-5ep	Llama (7b)		东大和泉研	？
lightblue/jod	Mistral-7B-SlimOrca (7b)		Lightblue	Apache 2.0
NTQAI/chatntq-7b-jpntuned	RWKV-4 World (7b)		NTQ Solution	？
Qwen3.5-FT-Japanese-CoT-4B	Qwen3.5 (4b)	不明	个人 (Aname-Tommy)	MIT
Borea (Jp, Common, Coding)	Phi-3.5 (3.8b)		Axcxept	MIT
Shisa V2.1 3B (3b)	Llama 3.2 (3b)	结合SFT/DPO/强化学习/模型融合的训练	Shisa.AI	Llama 3.2 Community License
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE	Llama 3.2 (3b)		Axcxept	Llama 3.2 Community License
日本語版 Gemma 2 2B (2b-jpn-it)	Gemma 2 (2b)		Google	Gemma Terms of Use
AXCXEPT/EZO-gemma-2-2b-jpn-it	Gemma 2 (2b)		Axcxept	Gemma Terms of Use
AXCXEPT/EZO-Common-T2-2B-gemma-2-it	Gemma 2 (2b)		Axcxept	Gemma Terms of Use
Shisa V2.1 1.2B (1.2b)	LFM2 (1.2b)	结合SFT/DPO/强化学习/模型融合的训练	Shisa.AI	LFM Open License v1.0
LFM2.5-1.2B-JP (1.2B-JP)	LFM2.5 (1.2b)	不明	Liquid AI	LFM Open License v1.0
Qwen3.5-FT-Japanese-CoT-0.8B	Qwen3.5 (0.8b)	不明	个人 (Aname-Tommy)	MIT

领域专用型

	领域	基础LLM	开发方	许可证
JMedLoRA (llama2-jmedlora-6.89ep)	医疗	Llama 2 (70b)	东京大学医学部附属医院循环器内科 AI小组	CC BY-NC 4.0
pfnet/Qwen3-1.7B-pfn-qfin	金融	Qwen3 (1.72b)	Preferred Networks	PLaMo Community License
pfnet/Qwen2.5-1.5B-pfn-qfin	金融	Qwen2.5 (1.54b)	Preferred Networks	PLaMo Community License

多个LLM合并创建的模型

	合并前的LLM（加粗为日语LLM）	开发方	许可证
EQUES/MedLLama3-JP-v2	Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B	EQUES	Llama 3 Community License
EvoLLM-JP-A (v1-7B)	Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002	Sakana AI	Apache 2.0
EvoLLM-JP (v1-7B, v1-10B)	Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002	Sakana AI	MICROSOFT RESEARCH LICENSE
EQUES/TinyQwens-Merge-1.5B	SakanaAI/TinySwallow-1.5B-Instruct, EQUES/TinySwallow-Stratos-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, Qwen/Qwen2.5-1.5B-Instruct	EQUES Inc.	Apache 2.0

作为API提供的模型

	输入输出可处理的标记数	开发方	平台
PLaMo API	32,768	Preferred Networks	自有
AIのべりすと	2,400 ~ 8,192	Bit192	自有
LHTM-OPT		オルツ	AWS Marketplace (SageMaker)
Syn (Syn, Syn Pro)	32,768	カラクリ, Upstage	AWS Marketplace (SageMaker)
tsuzumi (tsuzumi-7b)		NTT	Microsoft Foundry

主要用于处理输入文本的模型

通用

	架构	输入可处理的标记数	训练文本	开发方	许可证	是否可在HuggingFace上直接使用？ [^4]
ModernBERT-Ja	ModernBERT	8,192	日语·英语数据	SB Intuitions	MIT	◯ (30m, 70m, 130m, 310m)
llm-jp-modernbert	ModernBERT	8,192	llm-jp-corpus-v4 的日语子集（约0.69T标记）	大规模语言模型研发中心	Apache 2.0	◯
京大BERT	BERT (base, large)	512	日本维基百科（约1,800万句）	京都大学语言媒体研究室	Apache 2.0	△
东北大学BERT	BERT (base, large)	512	base (v1): 日本维基百科约1,700万句 (2.6GB) base (v2) & large: 日本维基百科约3,000万句 (4.0GB) base (v3) & large (v2): 日本维基百科约3,400万句 (4.9GB) + 日语 CC-100 约3亿9,200万句 (74.3GB)	东北大学自然语言处理研究小组	base (v1, v2) & large: CC BY-SA 3.0 base (v3) & large (v2): Apache 2.0	◯ (base (v1), base (v1, 文字级别), base (v2), base (v2, 文字级别), large, large (文字级别), base (v3), base (v3, 文字级别), large (v2), large (v2, 文字级别))
TohokuNLP BERT-alpha 500M	Llama 基础的编码器^23	4,096 或 8,192	llm-jp-corpus-v3 的日语子集	东北大学自然语言处理研究小组	Apache 2.0	◯ (sq4096-alpha, sq8192-alpha)
ByBERT-JP	Llama 基础的编码器^23	100m, 200m, 400m: 3,072 v2-100m: 4,096	llm-jp-corpus-v3 的子集 100m: 623B 标记 200m: 637B 标记 400m: 1.23T 标记 v2-100m: 2.76T 标记	东北大学自然语言处理研究小组	Apache 2.0	◯ (100m, 200m, 400m, v2-100m)
NICT BERT	BERT (base)	512	日本维基百科	NICT	CC BY 4.0	△
Laboro BERT	BERT (base, large)	512	日本网络语料库 (新闻网站、博客等共4,307个网站，2,605,280页 (12GB))	Laboro.AI	CC BY-NC 4.0	✕
colorfulscoop BERT	BERT (base)	512	日本维基百科	Colorful Scoop	CC BY-SA 3.0	◯
东大BERT	BERT (small)	512	日本维基百科（约2,000万句 (2.9GB)）	东京大学和泉实验室	CC BY-SA 4.0	◯
chiTra (Sudachi Transformers)	BERT (base)	512	国语研日语网络语料库 (NWJC) (148GB)	NINJAL、WorkS 德岛人工智能NLP研究所	Apache 2.0	△
ACCMS BERT	BERT (base)	512	日本维基百科 (3.3GB)	京都大学 ACCMS	CC BY-SA 4.0	◯
日立BERT	BERT (base)	512	日本维基百科 + 日本CC-100	日立制作所	CC BY-NC-SA 4.0	◯ [^6]
RetrievaBERT	BERT ^5	2,048	Japanese CommonCrawl、RefinedWeb、中文维基百科、韩文维基百科、The Stack	Retrieva	Apache 2.0	◯
万代南梦宫 DistilBERT	DistilBERT	512	- （以东北大学BERT(base)为教师模型进行知识蒸馏）	Bandai Namco Research	MIT	◯
Laboro DistilBERT	DistilBERT	512	- （以Laboro BERT(base)为教师模型进行知识蒸馏）	Laboro.AI	CC BY-NC 4.0	◯
LINE DistilBERT	DistilBERT	512	- （以LINE公司内部的BERT为教师模型进行知识蒸馏）	LINE	Apache 2.0	◯
rinna RoBERTa	RoBERTa (base)	512	日本维基百科 + 日本CC-100	rinna	MIT	◯
早稻田RoBERTa	RoBERTa (base, large)	512	日本维基百科 + 日本CC-100	早稻田大学河原实验室	CC BY-SA 4.0	◯ (base, large, large (seq512)) ^7
インフォマティクスRoBERTa	RoBERTa (base)	512	日本维基百科 + 网络文章 (共25GB)	インフォマティクス	Apache 2.0	△
京大RoBERTa	RoBERTa (base, large)	512	日本维基百科 + 日本CC-100	京都大学语言媒体研究室	CC BY-SA 4.0	◯ (base (文字级别), large (文字级别))
横滨国立大学RoBERTa	RoBERTa (base)	512	日本维基百科 (3.45GB)	横滨国立大学森实验室	Apache 2.0	◯
Megagon Labs RoBERTa	RoBERTa (base) ^8	1,282	日本mC4（约2亿句）	Megagon Labs (里库特)	MIT	◯
ACCMS RoBERTa	RoBERTa (base)	512	日本维基百科 (3.3GB) + 日本CC-100 (70GB)	京都大学 ACCMS	CC BY-SA 4.0	◯
シナモンELECTRA	ELECTRA (small)	512	日本维基百科	シナモン	Apache 2.0	◯
Megagon Labs ELECTRA	ELECTRA (base)	512	日本mC4（约2亿句）	Megagon Labs (里库特)	MIT	◯
东大ELECTRA	ELECTRA (small, base)	512	日本维基百科（约2,000万句 (2.9GB)）	东京大学和泉实验室	CC BY-SA 4.0	◯ (small, base)
日本RoFormer	RoFormer (base)	512	日本维基百科 (3.45GB)	横滨国立大学森实验室	Apache 2.0	◯
日本LUKE	LUKE (base, large)	512	日本维基百科	Studio Ousia	Apache 2.0	◯ (base, large)
京大DeBERTaV2	DeBERTaV2 (tiny, base, large)	512	日本维基百科 + 日本CC-100 + 日本OSCAR （共171GB）	京都大学语言媒体研究室	CC BY-SA 4.0	◯ (tiny, tiny (文字级别), base, large)
京大DeBERTaV3	DeBERTaV3 (base)	512	llm-jp-corpus	京都大学语言媒体研究室	Apache 2.0	◯
东大DeBERTaV2	DeBERTaV2 (small, base)	512	日本维基百科、日本维基新闻、日本CC-100、日本mC4、日本OSCAR	东京大学和泉实验室	CC BY-SA 4.0	◯ (small, base)
GLOBIS DeBERTaV3	DeBERTaV3 (xsmall, base, large)	512	维基百科、维基教科书、青空文库、日本CC-100、日本mC4、日本OSCAR	GLOBIS	CC BY-SA 4.0	◯ (xsmall, base, large)
日本BigBird	BigBird (base)	4,096	日本维基百科 + 日本CC-100 + 日本OSCAR	早稻田大学河原实验室	CC BY-SA 4.0	◯
日本LayoutLM	LayoutLM (base)	512	在以东北大学BERT (base, v2) 的权重进行初始化后，利用日本维基百科的文本和布局进行预训练	日本综合研究所	CC BY-SA 3.0	◯

领域专用

	领域	架构	训练文本	开发者	许可协议	HuggingFace 是否可直接使用？
日语博客ELECTRA	口语	ELECTRA (small)	日语博客语料库（3.54亿句）	北见工业大学桝井·普塔辛斯基研究组	CC BY-SA 4.0	◯
日语口语BERT	口语	BERT (base)	在东北大学BERT的基础上，使用日语口语语料库（CSJ）进行额外训练（DAPT模型还使用了国会会议记录数据）	Retrieva	Apache 2.0	◯
AcademicRoBERTa	学术	RoBERTa (base)	CiNii 的日语论文 (约628万句)	爱媛大学人工智能研究室	Apache 2.0	◯
local-politics-BERT	政治	BERT (base)	Wikipedia、国会会议记录、地方议会会议记录	地方议会会议记录语料库项目	CC BY-SA 4.0	◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) ^18
UBKE-LUKE	经济	LUKE (base)	日本语Wikipedia、有价证券报告书、经济新闻文章	UZABASE	CC BY-NC	◯
日语金融BERT	金融	BERT (small, base) ^9	日本语Wikipedia + 日本语金融语料库（约2,700万句 (5.2GB)）	东京大学和泉研究组	CC BY-SA 4.0	◯ (small, base)
日语金融ELECTRA	金融	ELECTRA (small)	日本语Wikipedia（约2,000万句 (2.9GB)) + 日本语金融语料库（约2,700万句 (5.2GB)）	东京大学和泉研究组	CC BY-SA 4.0	◯
日语新闻BERT	商业	BERT (base)	日本语商业新闻文章(300万篇)	StockMark	CC BY 4.0	△
日语新闻XLNet	商业	XLNet (base)	日本语商业新闻文章(300万篇)	StockMark	？	※ 有非官方的HuggingFace适配模型已发布
日语新闻ALBERT	商业	ALBERT (base)	日本语商业新闻文章(300万篇)	StockMark	？	△
民博BERT	文化遗产	BERT (base)	在东北大学BERT的基础上，使用国立民族学博物馆的文化遗产数据进行额外训练	兵库县立大学大岛研究组	MIT	◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
JPharmaBERT	药学	BERT (base, large)	日本语药学文献 (2B tokens) + PubMed英文摘要 (8B tokens) + 药学相关多语言数据 (1.2B tokens)	EQUES	不明	◯ (base, large)
medBERTjp	医疗	BERT (base)	日本语Wikipedia + 日本语医疗语料库（《今日的诊疗Premium》网络版）	大阪大学医院医疗信息学研究室	CC BY-NC-SA 4.0	△
JMedRoBERTa	医疗	RoBERTa (base)	日本语医学论文 (约1,100万句 (1.8GB))	NII 相泽研究组	CC BY-NC-SA 4.0	◯ (万病WordPiece, SentencePiece) ^10

专注于嵌入（Embeddings）生成的模型 [^21]

双编码器

单表示双编码器

	输入可处理的标记数	开发方	许可证
Ruri-v3 (v3-30m, v3-70m, v3-130m, v3-310m)	8,192	名大笹野研	Apache 2.0
PLaMo-Embedding-1B (1b)	4,096	Preferred Networks	Apache 2.0
Sarashina-Embedding-v2 (v2-1b)	8,192	SB Intuitions	Sarashina Model NonCommercial License
sbintuitions/sarashina-embedding-v1-1b	8,192	SB Intuitions	Sarashina Model NonCommercial License
AMBER (base, large)	512	レトリバ	Apache 2.0
RoSEtta (base-ja)	1,024	PKSHA Technology	Apache 2.0
GLuCoSE v2 (base-ja-v2)	512	PKSHA Technology	Apache 2.0
Ruri (small, base, large, small-v2, base-v2, large-v2)	512	名大笹野研	Apache 2.0
Japanese SimCSE (unsup-simcse-ja-base, unsup-simcse-ja-large, sup-simcse-ja-base, sup-simcse-ja-large)	512	名大笹野研	CC BY-SA 4.0
GLuCoSE (base-ja)	512	PKSHA Technology	Apache 2.0
colorfulscoop/sbert-base-ja		Colorful Scoop	CC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base MU-Kindai/SBERT-JSNLI-large		近畿大学 (研究室不明)	？
MU-Kindai/Japanese-SimCSE-BERT-base-unsup MU-Kindai/Japanese-SimCSE-BERT-large-unsup MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup MU-Kindai/Japanese-SimCSE-BERT-base-sup MU-Kindai/Japanese-SimCSE-BERT-large-sup		近畿大学 (研究室不明)	MIT
pkshatech/simcse-ja-bert-base-clcmlp		PKSHA Technology	CC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base MU-Kindai/Japanese-MixCSE-BERT-large		近畿大学 (研究室不明)	MIT
MU-Kindai/Japanese-DiffCSE-BERT-base		近畿大学 (研究室不明)	MIT
bclavie/fio-base-japanese-v0.1		個人 (Benjamin Clavié)
cl-nagoya/shioriha-large-pt		名大笹野研

多表示双编码器

	开发方	许可证
JaColBERTv2.5 (JaColBERTv2.4, JaColBERTv2.5)	Answer.AI	MIT
JaColBERTv2 (JaColBERTv2)	個人 (Benjamin Clavié)	MIT
JaColBERT (JaColBERT)	個人 (Benjamin Clavié)	MIT

交叉编码器

	开发方	许可证
Ruri-v3 Reranker (310m)	名大笹野研	Apache 2.0
Ruri-Reranker (stage1-small, stage1-base, stage1-large, small, base, large)	名大笹野研	Apache 2.0
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1 hotchpotch/japanese-reranker-cross-encoder-small-v1 hotchpotch/japanese-reranker-cross-encoder-base-v1 hotchpotch/japanese-reranker-cross-encoder-large-v1 hotchpotch/japanese-bge-reranker-v2-m3-v1	個人 (舘野祐一)	MIT

视觉语言模型

图片+文本生成文本

从零开始训练的模型

通用

	公開年	架构	学习图像/文本	开发方	许可证 / 使用条款
Stockmark-2-VL-100B-beta (100B-beta)	2025	LLaVA-OneVision	三阶段学习：对齐预训练、字幕扩展、指令推理微调合成数据：由Qwen2.5-VL-72B生成	斯托克马克	Qwen许可证
Llama-3.1-70B-Instruct-multimodal-JP-Graph (v0.1)	2025	LLaVA（Llama-3.1-Swallow-70B-Instruct-v0.3 + Qwen2-VL-7B-Instruct）	专注于图表和图形理解的超过600万张合成视觉数据（文字、饼图、柱状图、流程图等），以及真实数据（与FastLabel合作）	理光	Llama 3.1社区许可证 & Gemma使用条款 & Qwen许可证 & MIT & Apache 2.0
KARAKURI VL (32b-instruct-2507, 32b-thinking-2507-exp)	2025	视觉语言模型（基于Qwen2.5-VL-32B）	针对日语计算机用途的定制数据集：日语计算机操作记录、日语文档图像问答、视觉信息解读、日语OCR、流程图理解三阶段学习：监督微调(SFT) + 模型融合 + 强化学习 *thinking模型通过思维链(CoT)方法明确推理过程	卡拉库里	Apache 2.0
Heron-NVILA (1B, 2B, 15B, 33B)	2025	NVILA	三阶段学习：对齐（558k日语图像文本对 + 595k LLaVA预训练数据）、预训练（MOMIJI 13M、日语图像文本对6M、日语交错数据2M、coyo-700m 6M、mmc4-core 4M、Wikipedia-ja、LLaVA-Pretrain-JA、STAIR字幕）、有监督微调（LLaVA-instruct-v1.5-en、LLaVA-instruct-ja、日语照片对话、JA-VG-VQA对话、SynthDog-ja、AI2D、SynthDog-en、Sherlock）	图灵	Apache 2.0 & OpenAI使用条款
NABLA-VL (15B)	2025	microsoft/phi-4 + HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit	支持单张图片、多张图片及视频输入。训练细节不明	NABLAS	Apache 2.0
Sarashina2-Vision (8b, 14b)	2025	Sarashina2 + Qwen2-VL + 两层MLP	三阶段学习：投影仪预热（LLaVA-Pretrain 78M英语token）、视觉编码器预训练（CC3M、CC12M、llm-jp-日语图像文本对、内部OCR数据集、内部图表字幕合成数据集 3.8B日语+7.7B英语token）、视觉指令微调（Japanese Visual Genome VQA、OCR-VQA、TextVQA、PlotQA、CLEVR翻译版、DOCCI翻译版、内部数据集 2.5B日语+1.0B英语token）	SB Intuitions	MIT
Asagi (2B, 4B, 8B, 14B)	2025	LLaVA	新爬取的日语网站图片、现有日语数据集以及英语数据集的日语翻译约2000万条（使用English VLM Phi-3.5-vision-instruct和Japanese LLM CALM3-22B-Chat进行数据合成）	东大原田研究组	Apache 2.0
llava-calm2-siglip (llava-calm2-siglip)	2024	LLaVA	由MS-COCO和VisualGenome生成的对话数据	赛博艾杰特	Apache 2.0
LLM-jp-3 VILA 14B (14b)	2024	LLaVA	日语图像文本对、LLaVA-Pretrain、日语交错数据、coyo（子集）、mmc4-core（子集）、llava-instruct-ja、日语照片对话、ja-vg-vqa、synthdog-ja、LLaVA-1.5指令数据（子集）	大规模语言模型研发中心	Apache 2.0 & OpenAI使用条款
Heron (blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)	2023	BLIP-2或GIT	v1：LLaVA-Instruct-150K-JA或LLaVA-Instruct-620K-JA v0：LLaVA-Instruct-150K-JA、日本STAIR字幕、日本Visual Genome VQA数据集	图灵	CC BY-NC 4.0
Japanese Stable VLM (japanese-stable-vlm)	2023	LLaVA	日本CC12M、STAIR字幕、日本Visual Genome VQA数据集	Stability AI	STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha (japanese-instructblip-alpha)	2023	InstructBLIP	日本CC12M、STAIR字幕、日本Visual Genome VQA数据集	Stability AI	JAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4 (bilingual-gpt-neox-4b-minigpt4)	2023	MiniGPT-4	CC12M、COCO 2014、Visual Genome、STAIR字幕、日本Visual Genome VQA数据集	rinna	MIT
Sarashina2.2-Vision-3B (3.8b)	2025	Sarashina2.2-3B-Instruct + SigLIP + 两层MLP	四阶段学习 + 后训练：投影仪预热（英语图像字幕）、视觉编码器预训练（日语图表、OCR、字幕）、全模型预训练（图像文本交错数据）、有监督微调后训练：混合偏好优化（总计日语103B + 英语157.1B token）	SB Intuitions	MIT

领域专用

	架构	领域	开发方	许可证
Med-Asagi (14b-reasoning_beta)	LLaVA	医疗	东大原田研究组	CC BY-SA 4.0
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm	LLaVA	大喜利	わたしは	Llama 2社区许可证

在海外模型基础上用日语进行额外训练的模型

	基础VLM	训练图像/文本	开发方	许可证
AXCXEPT/EZO-InternVL2-26B	InternVL2	-	Axcxept	MIT
KARAKURI VL 2 (8b-thinking-2603)	Qwen3-VL-8B-Thinking	不明	カラクリ	Apache 2.0

多个VLM·LLM合并创建的模型

	合并前的LLM·VLM（加粗为日语LLM）	开发方	许可证
Llama-3-EvoVLM-JP-v2 (v2)	Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V	Sakana AI	Llama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1	- (针对Llama-3-EvoVLM-JP-v2进行额外训练)	Axcxept	Llama 3 Community License
EvoVLM-JP (v1-7B)	Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B	Sakana AI	Apache 2.0

文本生成图像

通用型

	架构	训练图像/文本	开发方	许可证
CommonArt β (commonart-beta)	PixArt-Σ	CommonCatalog-cc-by、Megalith-10M、Smithsonian Open Access、ArtBench（仅CC-0）	AI Picasso	Apache 2.0
EvoSDXL-JP (v1)	Stable Diffusion	- （包含Japanese Stable Diffusion XL在内的多个图像生成模型合并）	Sakana AI	Apache 2.0[^14]
Japanese Stable Diffusion XL (japanese-stable-diffusion-xl)	Stable Diffusion	不明	Stability AI	STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
东北大学Stable Diffusion (base, refiner)	Stable Diffusion	WMT2023共享任务的日英双语语料库，以及laion2B-multi约1300万条图片描述	东北大学自然语言处理研究小组	CreativeML OpenRAIL-M License
rinna Stable Diffusion (japanese-stable-diffusion)	Stable Diffusion	LAION-5B数据集中带有日语描述的部分（约1亿张图片）	rinna	CreativeML OpenRAIL-M License

领域专用型

	架构	领域	开发方	许可证
Evo-Nishikie (v1)	Stable Diffusion (ControlNet)	浮世绘	Sakana AI	Apache 2.0[^14]
Evo-Ukiyoe (v1)	Stable Diffusion	浮世绘	Sakana AI	Apache 2.0[^14]

文本生成视频

	架构	训练数据	开发方	许可证
AIdeaLab VideoJP (AIdeaLab-VideoJP)	CogVideoX	Pixabay、FineVideo	AIdeaLab	Apache 2.0

其他

	架构	训练图像/文本	开发方	许可证
llm-jp-clip (llm-jp-clip-vit-base-patch16, llm-jp-clip-vit-large-patch14)	CLIP	翻译了ReLAION-5B英语子集约15亿条描述	大规模语言模型研发中心	Apache 2.0
LINE雅虎CLIP (clip-japanese-base, v2)	CLIP	CommonCrawl、CC12M、YFCC100M (v2：约20亿对Common Crawl图像-文本 + 知识蒸馏)	LINE雅虎	Apache 2.0
Recruit CLIP (japanese-clip-vit-b-32-roberta-base)	CLIP	翻译了laion2B-multi约1.2亿条描述	Recruit	CC BY-4.0
Japanese Stable CLIP (japanese-stable-clip-vit-l-16)	SigLIP	将CC12M的描述翻译成日语，STAIR Captions	Stability AI	STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP (japanese-clip-vit-b-16)	CLIP	翻译了CC12M的描述	rinna	Apache 2.0
rinna CLOOB (japanese-cloob-vit-b-16)	CLOOB	翻译了CC12M的描述	rinna	Apache 2.0
博报堂技术CLIP (base, deeper, wider)	CLIP	翻译了laion2B-multi约1.2亿条描述	博报堂技术	CC BY-NC-SA 4.0

语音语言模型 (Speech-Language Models)

语音识别

	架构	训练语料	开发方	许可证
Nue ASR (nue-asr)	Nue ASR (HuBERT + LLM)	ReazonSpeech	rinna	Apache 2.0
Kotoba-Whisper (v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2)	Distil-Whisper	ReazonSpeech (+ 多语言LibriSpeech)	Kotoba Technologies	Apache 2.0
ReazonSpeech (espnet-v1, espnet-next, espnet-v2, nemo-v2)	ESPnet (Conformer-Transducer) 或者 NeMo (FastConformer-RNNT)	ReazonSpeech	レアゾン・ホールディングス	Apache 2.0
Reazon HuBERT ASR (rs35kh, rs35kh-bpe)	HuBERT	ReazonSpeech v2.0	レアゾン・ホールディングス	Apache 2.0
Reazon Zipformer ASR (rs35kh, rs35kh-bpe)	Zipformer	ReazonSpeech v2.0	レアゾン・ホールディングス	Apache 2.0
Reazon wav2vec 2.0 ASR (base-rs35kh, large-rs35kh)	wav2vec 2.0	ReazonSpeech v2.0	レアゾン・ホールディングス	Apache 2.0

特征提取

	架构	训练语料	开发方	许可证
NEST-Ja (0.1b, 0.6b)	NEST (FastConformer)	ReazonSpeech v2.0	SB Intuitions	MIT
くしなだ (base, large)	HuBERT	约6万小时的日语电视广播音频	产综研智能媒体处理研究团队	Apache 2.0
Reazon HuBERT (base-k2)	HuBERT	ReazonSpeech	レアゾン・ホールディングス	Apache 2.0
东大HuBERT (base-jtube)	HuBERT	JTubeSpeech	东大猿渡・高道研	MIT
rinna HuBERT (base, large)	HuBERT	ReazonSpeech	rinna	Apache 2.0
いざなみ (base, large)	wav2vec 2.0	约6万小时的日语电视广播音频	产综研智能媒体处理研究团队	Apache 2.0
Reazon wav2vec 2.0 (base, large)	wav2vec 2.0	ReazonSpeech	レアゾン・ホールディングス	Apache 2.0
rinna wav2vec 2.0 (base)	wav2vec 2.0	ReazonSpeech	rinna	Apache 2.0
rinna data2vec Audio (base)	data2vec Audio	ReazonSpeech	rinna	Apache 2.0
Reazon Zipformer (base-k2)	Zipformer	ReazonSpeech	レアゾン・ホールディングス	Apache 2.0

其他

	架构	训练语料	开发方	许可证
LLM-jp-Moshi-v1 (llm-jp-moshi-v1)	Transformer基础的文本-语音基础模型 (Moshi)	J-CHAT（约69,000小时）, LLM-jp-Zoom1（约1,000小时）	大规模语言模型研发中心	Apache 2.0
J-Moshi (j-moshi, j-moshi-ext)	Transformer基础的文本-语音基础模型 (Moshi)	语音对话语料库（J-CHAT, 日本语Callhome, CSJ, 旅行代理店对话语料库, 自有闲聊对话语料库, 自有咨询对话语料库）, 文本对话语料库（日本语PersonaChat, 日本语EmpatheticDialogues, 日本语日常对话语料库, RealPersonaChat）	名大东中研	CC BY-NC 4.0
Kotoba-Speech (v0.1)	Transformer	不明	Kotoba Technologies	Apache 2.0

音乐语言模型 (Music-Language Models)

音乐-文本间转换

	架构	训练语料	开发方	许可证
Japanese MULAN (japanese-mulan-base)	MULAN (AST + GLuCoSE)	约2万个公司内部音乐-文本配对	LINEヤフー	Apache 2.0

日语LLM评估基准/数据集汇总

复合型基准测试

	说明	开发方
Nejumi LLM排行榜4	从应用程序开发（编码·函数调用）、推理能力（数学、逻辑与抽象推理）、专业知识、安全性评估（指令遵循·幻觉抑制）等多个角度综合评估大型语言模型的日语能力。通过引入高难度基准测试，进一步明确了顶级模型之间的性能差异。详情请参阅这篇文章	Weights & Biases
Swallow LLM排行榜v2	综合评估各类LLM在日语理解与生成任务、日语多轮对话任务以及英语理解与生成任务这三类任务中的表现。v2版本为适应推理专用模型，采用了零样本推理和思维链提示，并以更高难度的基准测试（共12项任务：日语6项、英语6项）进行评估。此外，除了整合并改进了现有的LLM评估工具——swallow-evaluation之外，还新发布了专门针对推理型模型的swallow-evaluation-instruct。	Swallow项目

测量基础自然语言处理任务性能的基准测试/数据集

	说明	开发方
开放日语LLM排行榜	利用llm-jp-eval，在14个类别、71个以上的任务中对日语大型语言模型进行评估。	LLM-jp, Hugging Face
llm-jp-eval	这是一个跨多个数据集自动评估日语LLM的工具。支持的所有数据集列表可在此处查看（其中也包括JGLUE中的JNLI和JCommonsenseQA等任务）。	LLM-jp
JP语言模型评估框架	Stability AI基于EleutherAI/lm-evaluation-harness分叉而来。这是一个跨多个数据集自动评估日语LLM的工具。支持的所有数据集列表可在此处查看（其中也包括JGLUE中的JNLI和JCommonsenseQA等任务）。	Stability AI
JGLUE	作为GLUE基准测试的日语版构建的基准测试。包含MARC-ja、JCoLA、JSTS、JNLI、JSQuAD、JCommonsenseQA六个任务（JCoLA由东京大学大关研究组创建）。各任务的详细信息可参考这里和这里	早稻田大学河原研究组，雅虎
JMMLU	作为MMLU基准测试的日语版构建的基准测试。题目涵盖自然科学、人文科学和社会科学等广泛学术领域，采用四选一形式。其特点不仅在于翻译了原始的MMLU，还新增了基于日本独特文化背景的问题（日本问题）。	早稻田大学河原研究组

测量文本生成能力的基准测试/数据集

	说明	开发方
llm-jp-judge	基于“LLM即法官”理念的日语LLM综合评估工具。从日语质量（准确性、流畅性、细节性、相关性等，按1至5级评分）、日语安全性、MT-Bench（英语）、MT-Bench（日语）四个维度进行评估。将生成阶段与评估阶段分离，兼容vLLM、OpenAI API、Azure OpenAI、AWS Bedrock等推理客户端。详情请参阅这里	大规模语言模型研发中心
日语MT-bench	这是针对多轮对话能力的MT-bench的日语版。包含写作、角色扮演、推理、数学、编码、提取、STEM、人文八个类别，每个类别10题，共计80题。在制作日语版时，对部分问题的内容进行了调整，以更贴合日本文化。同时包含使用GPT-4进行10级绝对评分的脚本。	Stability AI
ELYZA-tasks-100	包含100条复杂指示和任务的日语数据，所有数据均已标注评估视角。其中包括修改摘要并解释修改之处的任务、从具体事例中提炼抽象教训的任务、根据用户意图扮演有益的AI助手的任务、需要分类讨论的复杂算术任务、从未知语言中提取模式并翻译成日语的高度推理任务、结合多项指示生成YouTube对话的任务，以及关于虚构生物或成语的创作和搞笑段子等需要丰富想象力的任务。	ELYZA
首选生成基准 (pfgen-bench)	基于50道日本特有的常识问题，从流畅性、真实性、有用性三个维度衡量LLM的日语生成能力。该基准的特点是通过n-gram和基于规则的指标计算来进行评估，无需采用“LLM即法官”的方式。	Preferred Elements (Preferred Networks)
Rakuda基准	要求模型针对关于日本地理、历史、政治和社会的40道自由提问作出回答。GPT-4会比较两款模型对相同问题的回答，判断哪一方的答案更优，从而对模型进行排名。	YuzuAI
日语Vicuna QA基准	这是MT-Bench的前身vicuna-blog-eval的日语版。收录了通用、知识、角色扮演、常识、费米估算、反事实假设、编码、数学、写作等方面的80道问题。同时还包含使用GPT-4进行自动评估（胜率计算）的脚本。排行榜请见这里	京都大学语言媒体研究室
Tengu基准	收录了来自不同类别的120道自由问题。问题类别如下：表格阅读、逻辑谜题、创意生成、函数调用、长文档摘要（超过千词）、对话摘要、千词以上长文档的封闭式问答、敬语、项目策划、数学、翻译、抽取、伦理控制、成本估算、日本、闲聊、双关语、格式、建筑、商业、法律判断、政治、虚构问题等。	Lightblue
Shaberi	这是一个可以将日语MT-bench、Rakuda基准、ELYZA-tasks-100、Tengu基准的评估整合在一起的框架。此外，还有由Shisa.AI分叉的Shaberi	Lightblue

针对特定领域的性能评估基准/数据集

	说明	开发方
日语语言模型金融评估框架	针对金融领域日语大语言模型的基准测试。包含金融领域的情感分析任务（chabsa）、证券分析中的基础知识任务（cma_basics）、注册会计师考试中的审计相关任务（cpa_audit）、理财规划师考试的选择题任务（fp2）以及证券外务员考试的模拟试题任务（security_sales_1）。详情请参阅此处	Preferred Networks
pfmt-bench-fin-ja	用于衡量金融领域日语大语言模型生成能力的基准测试。	Preferred Networks
jfinqa	日语金融数值推理问答基准。收录了从68家公司的有价证券报告中提取的1,000道数值推理题目，用于评估四则运算、比率计算、杜邦分析等财务推理能力。已在PyPI和HuggingFace上发布。	个人 (ajtgjmdjp)
Stockmark商业问题	收录了50道关于市场动态、时事问题、社会议题及商业趋势等方面知识的问题。	Stockmark
JMED-LLM	用于评估日语医疗领域大语言模型的数据集。将此前开发的日语医疗自然语言处理任务整合为大语言模型基准测试。	NAIST社会计算研究室
JMedBench	日语医疗领域的大语言模型基准测试。包含选择题、机器翻译、命名实体识别、文本分类和句子相似度计算共5类，总计20个数据集（部分数据集借用了JMMLU中的医疗领域问题以及JMED-LLM中的内容）。此外，还开发了用于简化JMedBench评估的工具med-eval。	NII相泽研究组
日语医学语言模型评估框架	一个可通过单条命令运行的、专门针对医疗领域的日英双语能力评估程序。	个人 (助田一晟)
YakugakuQA	基于日本药师国家考试的日语制药领域知识评估数据集。用于衡量基于事实的药学知识。	EQUES Inc.
NayoseQA	用于评估日语制药领域多语言术语对应与规范化能力的数据集。考察对同义词及专业术语的理解程度。	EQUES Inc.
SogoCheck	一项全新的任务，用于评估成对句子之间的一致性推理。即使在GPT-4o上表现也较差的高难度推理任务。	EQUES Inc.
MedRECT	用于评估临床记录中检测并纠正医学错误能力的基准测试。由错误检测、错误句子定位和错误修正三个阶段的任务组成。设有日语版（663个样本）和英语版（458个样本），其中日语版基于医师国家考试构建。	Preferred Networks
karakuri-bench	用于衡量日语大语言模型在客服场景下性能的数据集。	Karakuri

用于衡量事实性和安全性的基准/数据集

	说明	开发方
JTruthfulQA	大语言模型事实性评估数据集TruthfulQA的日语版本。从头开始收集了关于迷信等虽被部分人相信但并非事实的现象的相关问题，以及有关日本本土知识的问题。	早稻田大学河原研究组
JCommonsenseMorality	日语常识道德相关数据集。针对描述行为的句子，标注其是否在道德上错误或可接受的二元标签。	北海道大学语言媒体学研究室
JBBQ	社会偏见问答数据集BBQ的日语版。根据日本文化与习俗进行了翻译、修改，并新增了问题。	东京大学谷中研究组

用于衡量逻辑推理能力的基准/数据集

	说明	开发方
JFLD（日语形式逻辑演绎）	询问日语大语言模型演绎推理能力的数据集（由同一作者团队提出的FLD（形式逻辑演绎）的日语版本）。其特点在于采用反事实样本来进行评估，以区分大语言模型所掌握的知识。	日立制作所
JHumanEval	英语指令下Python代码生成能力评估基准HumanEval的日语版本。创建日语版时，先通过机器翻译，再由人工进行修正。	日本女子大学仓光研究组
JMultiPL-E	基于OpenAI HumanEval，涵盖17种编程语言（C++、C#、Go、Java、JavaScript、PHP、Ruby、Rust、Scala、Swift、TypeScript等）的代码生成能力评估数据集。用于衡量多语言代码理解和生成性能。	东北大学自然语言处理研究小组

用于衡量指令遵循能力的基准/数据集

	说明	开发方
LCTG Bench	日语大语言模型可控性基准测试。从输出格式、字数限制、关键词以及禁用词四个方面评估大语言模型是否能够遵守约束条件并正确输出内容。同时也会评估生成文本的质量。	CyberAgent
JFBench	用于评估日语大语言模型指令遵循能力的基准测试。在翻译IFBench的6个组别基础上，又新设了10个针对日语特有约束条件（敬体/常体、平假名/片假名/汉字混用、数字书写方式等）的组别。共计16个约束组别、174种约束类型，结合1/2/4/8种约束数量组合，总共评估1,600个样本。	Preferred Networks

嵌入模型的基准/数据集

	说明	开发方
JMTEB	作为MTEB的日语版而创建的基准测试。由文档聚类、文档分类、句子间相似度、句子对标签预测以及文档抽取5种任务构成（随后又新增了重排序任务）。	SB Intuitions
JQaRA	用于评估日语文档抽取与重排序精度的数据集。为1,667个问题分别指定了100份候选文档，其中至少有一份能够回答该问题。问题来源于JAQKET，候选文档则使用日语维基百科。	个人 (馆野祐一)
JaCWIR	旨在能够在维基百科以外的领域评估文档抽取与重排序能力而创建的数据集。为5,000个问题分别指定了1个源自该问题的原始网页，以及99个与问题无关的其他网页。	个人 (馆野祐一)

视觉语言模型（Vision-Language Models）的基准测试/数据集

	说明	开发方
llm-jp-eval-mm	用于在多个基准任务上评估日语VLM性能的工具	大规模语言模型研发中心
BusinessSlideVQA	包含220道关于复杂日语商务幻灯片图像的问答数据集。旨在评估文档理解能力。	StockMark
JMMMU	作为[MMLU基准]的日语版本构建的基准测试。由720道MMLU翻译版题目和600道具有日本文化特色的全新题目组成。	东京大学相泽研究组
JDocQA	基于日语文档（宣传册、幻灯片、报告、网站）构建的问答数据集，共包含11,600道问题。涵盖多种提问形式，并包括无法解答的问题。	NAIST渡边研究组
Heron VLM排行榜 powered by nejumi@WandB	汇总了[Japanese-Heron-Bench]和[LLaVA-Bench-In-the-Wild（日语版）]的评估结果。	Turing, Weights & Biases
Japanese-Heron-Bench	为21张图片分配了共计102道问题。其特点是图片和问题均要求具备有关日本的知识。	Turing
JA-VLM-Bench-In-the-Wild	Sakana AI为评估EvoVLM-JP-v1-7B而自行准备的数据集。为42张图片分配了共计50道问题。其特点是图片和问题均要求具备有关日本的知识。	Sakana AI
JA-Multi-Image-VQA	用于评估多张图片下日语问答能力的数据集。	Sakana AI
LLaVA-Bench-In-the-Wild（日语版）	将LLaVA-Bench-In-the-Wild通过DeepL翻译成日语而成。为24张图片分配了共计60道问题。	Turing
LLaVA-Bench（COCO）日语版	将用于LLaVA评估的LLaVA-Bench（COCO）数据集通过DeepL翻译成日语而成。为30张图片分别分配了3种类型的问题。	Turing
Japanese Visual Genome VQA数据集	基于[Visual Genome数据集]的图片标注而成的问答数据集。该数据集中截取的500条记录[JA-VG-VQA-500]有时也被用作VLM评估基准。	雅虎
japanese-bizform-table-kie	用于评估从非结构化表格中提取信息精度的基准测试。由50种表格、共计2,500张文档图像组成。	AI inside

各模型·架构的原始论文

LLM训练方法的原始论文

贡献者

以下是为本项目做出贡献的各位！

引用

本仓库的摘要也以预印本形式发布：探索面向日语的开源大型语言模型：实用指南

如需引用本仓库，请按以下方式注明：

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

[^2]: 虽然未详细说明，但新闻稿中提到：“训练数据除了开放数据集外，还包括Stability AI Japan创建的自有数据集，以及EleutherAI Polyglot项目日语团队和Stable Community Japan成员合作制作的数据。”

[^4]: ○：模型已上传至HuggingFace Model Hub，可通过AutoModel.from_pretrained()等方法直接加载。△：模型未上传至Model Hub，但兼容HuggingFace（transformers，旧pytorch-transformers）格式。✕：模型不兼容HuggingFace格式。

[^6]: 这项研究尝试了多种分词器与子词分割方法的组合。由于难以列出所有组合的模型，此处仅以实验中平均任务性能最高的Juman++ + BPE模型为代表进行展示。

[^11]: 在进行指令微调后，加入了Llama 3 Instruct与Llama 3 Base之间的聊天向量差异。

[^13]: 不过，如果希望将KARAKURI LM用于商业用途，则需要直接联系开发方——卡拉库里株式会社。

[^14]: 不过，强调应以研究和教育为目的使用。此外，还需注意合并源模型的部分许可证并非Apache 2.0许可。

[^15]: 详细内容已在以下视频中公布：松尾研GENIAC LLM开发项目第一阶段成果发布会 2024.06.01 @ 东京大学福武厅 @ 58:22

[^17]: 在进行指令微调之前，加入了Llama 3 Instruct与Llama 3 Base之间的聊天向量差异。

[^20]: 在进行ORPO之前，加入了Gemma 2 Instruct与Gemma 2 Base之间的聊天向量差异。

[^21]: 对嵌入模型的分类参考了基于预训练语言模型的密集文本检索：综述（Zhao+, 2022）。Bi-Encoder是将两个输入分别输入模型，各自转化为向量后，再通过内积或余弦相似度来衡量输入的接近程度的架构。相比之下，Cross-Encoder则是将两个输入组合在一起输入模型，在模型内部直接计算它们的相似度。在信息抽取领域，Cross-Encoder虽然计算成本较高，但有望更精细地计算输入的接近程度，因此常被用作重新排序抽取结果的重排序器。另外，Bi-Encoder中还有一种将输入表示为多个向量（例如按词元划分）而非单一向量的类型（如ColBERT），因此进一步细分为单表征Bi-Encoder和多表征Bi-Encoder。

awesome-japanese-llm 快速上手指南

awesome-japanese-llm 并非一个单一的 Python 包或可执行工具，而是一个开源日语大语言模型（LLM）及评估基准的精选列表。本指南将指导开发者如何从该列表中选取模型，并在本地环境中快速加载和运行。

环境准备

在运行日语 LLM 之前，请确保您的开发环境满足以下要求：

系统要求

操作系统: Linux (推荐), macOS, 或 Windows (需 WSL2)
GPU: 推荐使用 NVIDIA GPU。
- 运行 7B-13B 参数模型：建议显存 ≥ 16GB (量化后可降低至 8-10GB)
- 运行 70B+ 参数模型：建议多卡环境或高显存单卡 (≥ 48GB)，或使用重度量化版本。
Python: 3.9 或更高版本

前置依赖

推荐使用 transformers、accelerate 和 torch 进行模型加载。

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate sentencepiece protobuf

提示：国内开发者如遇下载缓慢，可配置 Hugging Face 镜像源：
export HF_ENDPOINT=https://hf-mirror.com

安装与模型获取

由于这是一个模型列表，您无需安装 "awesome-japanese-llm" 本身，而是需要根据需求从列表中选择一个模型（例如 llm-jp/llm-jp-3-13b-instruct4 或 sbintuitions/sarashina2-7b），并通过 Hugging Face transformers 库自动下载。

以下以 LLM-jp-3.1 13B Instruct 为例（Apache 2.0 许可，适合通用场景）：

创建项目目录并初始化：

mkdir jp-llm-demo && cd jp-llm-demo
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

安装依赖（同上）：

pip install transformers accelerate torch sentencepiece

基本使用

以下是最简单的 Python 脚本示例，用于加载模型并生成日语文本。

代码示例 (`run.py`)

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

# 1. 配置模型 ID (可从 awesome-japanese-llm 列表中替换为其他模型)
model_id = "llm-jp/llm-jp-3.1-13b-instruct4"

# 2. 加载分词器和模型
# 使用 device_map="auto" 自动分配 GPU
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

# 3. 构建输入提示 (Prompt)
# 注意：不同模型可能需要特定的 Prompt 格式，此处为通用示例
input_text = "日本の首都はどこですか？"  # "日本的首都是哪里？"
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)

# 4. 生成文本
outputs = model.generate(
    **inputs,
    max_new_tokens=256,
    do_sample=True,
    temperature=0.7,
    top_p=0.95
)

# 5. 输出结果
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

运行命令

python run.py

预期输出

模型将返回类似以下的日语回答：

日本の首都はどこですか？日本の首都は東京です。

注意事项：

许可证检查：在使用前，请务必查阅 awesome-japanese-llm 原文档中对应模型的许可证列。部分模型（如 Sarashina2-8x70B 或 PLaMo 系列）可能仅限非商业用途。
显存优化：如果显存不足，可在加载模型时添加 load_in_8bit=True 或 load_in_4bit=True (需安装 bitsandbytes) 进行量化加载。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2周前

Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。

★ 184.7k|★★☆☆☆|今天

数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。

★ 183.6k|★★★☆☆|今天

Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 161.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 109.2k|★★☆☆☆|2天前

开发框架图像Agent

使用场景

没有 awesome-japanese-llm 时

使用 awesome-japanese-llm 后

运行环境要求

快速开始

日语大型语言模型汇总

主要用于文本生成的模型

从零开始训练的模型

通用

领域专用

在海外模型基础上进行日语持续预训练的模型

泛用

领域专用

海外モデルに日本語で事後学習を行ったモデル（継続事前学習なし、または詳細不明）

普遍

领域专用型

多个LLM合并创建的模型

作为API提供的模型

主要用于处理输入文本的模型

通用

领域专用

专注于嵌入（Embeddings）生成的模型 [^21]

双编码器

单表示双编码器

多表示双编码器

交叉编码器

视觉语言模型

图片+文本生成文本

从零开始训练的模型

通用

领域专用

在海外模型基础上用日语进行额外训练的模型

多个VLM·LLM合并创建的模型

文本生成图像

通用型

领域专用型

文本生成视频

其他

语音语言模型 (Speech-Language Models)

语音识别

特征提取

其他

音乐语言模型 (Music-Language Models)

音乐-文本间转换

日语LLM评估基准/数据集汇总

复合型基准测试

测量基础自然语言处理任务性能的基准测试/数据集

测量文本生成能力的基准测试/数据集

针对特定领域的性能评估基准/数据集

用于衡量事实性和安全性的基准/数据集

用于衡量逻辑推理能力的基准/数据集

用于衡量指令遵循能力的基准/数据集

嵌入模型的基准/数据集

视觉语言模型（Vision-Language Models）的基准测试/数据集

各模型·架构的原始论文

LLM训练方法的原始论文

贡献者

引用

awesome-japanese-llm 快速上手指南

环境准备

系统要求

前置依赖

安装与模型获取

基本使用

代码示例 (run.py)

运行命令

预期输出

相似工具推荐

openclaw

n8n

AutoGPT

stable-diffusion-webui

everything-claude-code

ComfyUI

代码示例 (`run.py`)