awesome-japanese-llm

GitHub
1.4k 44 困难 1 次阅读 今天Apache-2.0语言模型开发框架其他
AI 解读 由 AI 自动生成,仅供参考

awesome-japanese-llm 是一个专注于汇总日语大语言模型(LLM)及相关评估基准的开源知识库。它系统地整理了目前公开可用的、以日语为核心训练数据的各类模型信息,涵盖了从基础架构、参数量、训练数据规模到具体的许可协议等关键细节。

在日语 AI 生态中,模型种类繁多且授权条款复杂,开发者往往难以快速甄别适合自身项目的资源。awesome-japanese-llm 有效解决了这一信息分散与筛选困难的痛点,提供了一份经过社区维护的“导航图”,帮助用户清晰了解不同模型的技术特点及使用限制,特别是明确区分了完全开源与非商业限定授权的模型,规避了潜在的合规风险。

这份资源特别适合 AI 研究人员、自然语言处理开发者以及希望将日语大模型集成到产品中的技术团队使用。无论是需要从头训练的研究者,还是寻找特定微调模型的应用开发者,都能从中获得极具价值的参考。其独特的亮点在于不仅罗列了如 LLM-jp-3 172B、Sarashina2 等前沿模型的具体技术参数,还持续追踪最新的评估基准,并以多语言版本(含中文友好链接)呈现,极大地降低了日语大模型技术的探索门槛。

使用场景

某日本金融科技公司的算法团队正急需为内部合规系统部署一个高精度日语大模型,以自动审核复杂的金融合同条款。

没有 awesome-japanese-llm 时

  • 选型如大海捞针:团队需在 Hugging Face、GitHub 及各大学术论文中手动搜寻,难以区分哪些模型是真正针对日语原生优化,哪些仅是翻译微调。
  • 许可风险隐蔽:容易忽略部分模型虽开源代码但限制商用(如 CC BY-NC-SA),导致项目后期面临法律合规隐患。
  • 性能评估缺失:缺乏统一的日语基准测试数据,无法客观对比 Sarashina2 与 LLM-jp-3 等模型在长文本理解上的真实差距。
  • 技术细节分散:架构参数(如 MoE 结构)、训练语料规模(2.1T tokens)等关键信息散落在不同页面,整理耗时数周。

使用 awesome-japanese-llm 后

  • 一站式精准筛选:直接查阅分类清晰的列表,快速锁定适合金融场景的“从头训练”通用模型,大幅缩短调研周期。
  • 授权一目了然:表格明确标注每个模型的许可证类型(如 MIT 或非商业限制),帮助团队瞬间排除不符合企业商用要求的选项。
  • 数据驱动决策:参考收录的日语评估基准和详细训练数据来源,科学选定在长文档处理上表现最优的 LLM-jp-3 172B 模型。
  • 核心参数聚合:直接获取上下文窗口大小、架构类型及指令微调数据集详情,技术人员半天内即可完成可行性验证。

awesome-japanese-llm 将原本数周的碎片化调研工作压缩至数小时,为日语大模型的落地提供了权威、透明且高效的决策依据。

运行环境要求

GPU

未说明 (具体需求取决于所选模型的参数量,例如运行 172B 模型通常需要多张高显存 GPU 或量化版本)

内存

未说明

依赖
notes该仓库是一个日语大语言模型(LLM)的列表和综述,而非单一的可执行软件工具,因此没有统一的运行环境要求。具体的硬件和软件需求完全取决于用户选择下载和运行的特定模型(如 LLM-jp-3 172B, Sarashina2, CALM3 等)。部分模型提供 AWQ、GPTQ 或 GGUF 等量化版本以降低显存需求。此外,需注意不同模型适用不同的许可证(如 MIT, Apache 2.0, 或非商业许可),使用前请务必查阅各模型的具体条款。
python未说明
awesome-japanese-llm hero image

快速开始

日语大型语言模型汇总

[ 英语 | French | 日语 ]

📖 请使用更易读的网页版

本README的内容可在**llm-jp.github.io/awesome-japanese-llm**以更清晰的格式查看。为避免表格显示错乱或布局问题,建议您访问网页版。

本文汇总了公开可用的日语大型语言模型(以日语为主要训练语言的LLM)以及日语LLM评估基准的相关信息。这些信息由志愿者收集整理,部分内容引用自论文及公开资源等。

::: warning 请事先理解并同意以下几点

  1. 本文内容不保证完整性或准确性。相关信息可能会在未通知的情况下变更,且不一定能始终提供最新信息。
  2. 部分信息可能基于推测或个别用户的解读,因此未必对所有读者都准确。
  3. 本文中列出的许多模型采用MIT许可证或Apache-2.0等开源许可证。然而,请注意,部分模型适用非商业用途限定的许可证(如CC BY-NC-SA 4.0)或开发者特有的许可证,这些并不一定属于开源范畴
  4. 对于个人开发的模型,文中省略了作者的敬称。 :::

本文由GitHub进行管理。若您发现文章中的错误,或希望提出新增模型的建议,请通过GitHub Issues提交反馈,我们将不胜感激。

::: details 目录 {open} [[toc]] :::

主要用于文本生成的模型

包含图像的文本生成模型请见此处

从零开始训练的模型

通用

公開年 アーキテクチャ 入出力で扱える
トークン数
学習テキスト 開発元 ライセンス / 利用規約
Sarashina2-8x70B 2024 MoE
(8x70b (465b))
8,192 Sarashina2 (70B) に対して Sparse Upcycling で学習 SB Intuitions Sarashina Model NonCommercial License
LLM-jp-3 172B 2024 Llama
(172b, 172b-instruct2, 172b-instruct3)
4,096 事前学習: llm-jp-corpus-v3
(計 2.1T トークン)
Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k
DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst
大規模言語モデル研究開発センター 事前学習済みモデル: LLM-jp-3 172B Terms of Use
事後学習済みモデル: llm-jp-3-172b-instruct3利用許諾契約
LLM-jp-3 172B beta2 2024 Llama
(172b-beta2, 172b-beta2-instruct2)
4,096 事前学習: llm-jp-corpus-v3の一部
(計 1.4T トークン)
Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k
大規模言語モデル研究開発センター LLM-jp-3 172B beta2 Terms of Use
LLM-jp-3 172B beta1 2024 Llama
(172b-beta1, 172b-beta1-instruct)
4,096 事前学習: llm-jp-corpus-v3の一部
(計 0.7T トークン)
Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN
大規模言語モデル研究開発センター LLM-jp-3 172B beta1 Terms of Use
LLM-jp-3 172B alpha 2024 Llama
(172b-alpha1, 172b-alpha1-instruct, 172b-alpha2, 172b-alpha2-instruct)
4,096 事前学習: llm-jp-corpus-v3の一部
(alpha1: 計 0.7T トークン, alpha2: 計 1.4T トークン)
Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2, Aya Dataset, ichikara-instruction-format, Daring-Anteater, FLAN
大規模言語モデル研究開発センター Apache 2.0
Stockmark-2-100B-Instruct-beta 2025 Llama
(100B-Instruct-beta, 100B-Instruct-beta-AWQ)
4,096 事前学習: 計 1.5T トークン
Instruction Tuning
DPO
ストックマーク MIT
Stockmark-100b 2024 Llama
(100b, 100b-instruct-v0.1)
4,096 事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus
(計 910B トークン)
Instruction Tuning (LoRA): ichikara-instruction
ストックマーク MIT
PLaMo-100B-Pretrained 2024 Llama^22
(100b)
4,096 事前学習: Japanese CommonCrawl, RefinedWeb, 独自のデータセット
(計: 2.0T トークン)
Preferred Elements (Preferred Networks) PLaMo Non-Commercial License
LLM-jp-3.1 2025 Llama/MoE
(8x13b (73b), 8x13b (73b)-instruct4, 13b, 13b-instruct4, 1.8b, 1.8b-instruct4)
4,096 事前学習: llm-jp-corpus-v3
(計 2.5T トークン)
継続事前学習: インストラクション・レスポンスペア
(計 90B トークン)
SFT + DPO
大規模言語モデル研究開発センター Apache 2.0
LLM-jp-3 MoE 2025 MoE
(8x1.8b (9.3b), 8x1.8b (9.3b)-instruct2, 8x1.8b (9.3b)-instruct3, 8x13b (73b), 8x13b (73b)-instruct2, 8x13b (73b)-instruct3)
4,096 LLM-jp-3 (1.8b, 13b) に対して Drop-Upcycling で学習 大規模言語モデル研究開発センター Apache 2.0
Sarashina2 2024 Llama
(7b, 13b, 70b)
7b, 13b: 4,096
70b: 8,192
事前学習: Japanese Common Crawl, SlimPajama, StarCoder
(計 2.1T トークン)
SB Intuitions MIT
Sarashina1 2024 GPT-NeoX
(7b, 13b, 65b)
2,048 事前学習: Japanese Common Crawl
(計 1T トークン)
SB Intuitions MIT
Tanuki-8×8B 2024 MoE (47b)
(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)
4,096 事前学習: 様々な Web 上のデータ, 合成データ(計 1.7T トークン)
SFT, DPO: 様々な合成データ ^19
松尾研LLM開発プロジェクト Apache 2.0
LLM-jp-4 32B-A3B 2026 Qwen3 MoE
(32b-a3b-base, 32b-a3b-thinking)
65,536 事前学習 + 中間学習: llm-jp-corpus-v4.1, llm-jp-corpus-midtraining-v2
(計 11.7T トークン)
SFT: llm-jp-4-thinking-sft-data
DPO: llm-jp-4-32b-a3b-thinking-dpo-data
大規模言語モデル研究開発センター Apache 2.0
PLaMo 3 2025 Gemma ベースのアーキテクチャ
(2b-base, 8b-base, 31b-base)
4,096 事前学習: 英語、日本語、コード、多言語
(2b: 200B トークン, 8b: 1T トークン, 31b: 3T トークン)
Preferred Networks PLaMo community license
Way-PLaMo-3-8b-chat 2025 PLaMo 3ベース (8b-chat) 4,096 Instruction Following SFT: Alpaca (51.7K), Dolly-15k-ja (15K) 個人 (WayBob) PLaMo community license
CyberAgentLM3 (CALM3) 2024 Llama
(22b-chat, 22b-chat-selfimprove-experimental)
16,384 不明
(計 2.0T トークン)
サイバーエージェント Apache 2.0
LLM-jp-3 13B instruct3 2025 Llama
(150m, 150m-instruct2, 150m-instruct3, 440m, 440m-instruct2, 440m-instruct3, 980m, 980m-instruct2, 980m-instruct3, 1.8b-instrcut2, 1.8b-instruct3, 3.7b-instruct2, 3.7b-instruct3, 7.2b-instruct2, 7.2b-instruct3, 13b-instruct2, 13b-instruct3)
4,096 事前学習: llm-jp-corpus-v3
(計 2.1T トークン)
Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, magpie-sft-v1.0, Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, Synthetic-JP-EN-Coding-Dataset-567k
DPO (instruct3 only): aya-ja-evol-inst, ac-self-inst
大規模言語モデル研究開発センター Apache 2.0
LLM-jp-3 13B 2024 Llama
(1.8b, 1.8b-instruct, 3.7b, 3.7b-instruct, 7.2b, 7.2b-instruct, 13b, 13b-instruct)
4,096 事前学習: llm-jp-corpus-v3
(計 2.1T トークン)
Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k
大規模言語モデル研究開発センター Apache 2.0
llm-jp-3-3.7b-instruct-EZO 2024 Llama
(3.7b-instruct-EZO-Common, 3.7b-instruct-EZO-Humanities)
4,096 LLM-jp-3 (3.7B) に対して追加学習 Axcxept Apache 2.0
LLM-jp-13B v2.0 2024 Llama
(13b-v2.0, 13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0, 13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)
4,096 事前学習: llm-jp-corpus-v2
(計 260B トークン)
Instruction Tuning: ichikara-instruction, AnswerCarefully Dataset, Dolly Dataset, OASST1, OASST2
LLM-jp Apache 2.0
Fugaku-LLM 2024 GPT
(13B, 13B-instruct, 13B-instruct-gguf)
2,048 事前学習: 独自
Instruction Tuning: OASST1, Dolly Dataset, GSM8K
東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba Technologies Fugaku-LLM Terms of Use
LLM-jp-13B v1.1 2024 GPT
(13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1, 13b-dpo-lora-hh_rlhf_ja-v1.1)
2,048 Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, ichikara-instruction
DPO (LoRA): HH RLHF
LLM-jp Apache 2.0
LLM-jp-13B 2023 GPT
(1.3b-v1.0, 13b-v1.0, 13b-instruct-full-jaster-v1.0, 13b-instruct-full-jaster-dolly-oasst-v1.0, 13b-instruct-full-dolly-oasst-v1.0, 13b-instruct-lora-jaster-v1.0, 13b-instruct-lora-jaster-dolly-oasst-v1.0, 13b-instruct-lora-dolly-oasst-v1.0)
2,048 事前学習: llm-jp-corpus (Wikipedia, Japanese mC4, The Pile, Stack) (計 300B トークン)
Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1
LLM-jp Apache 2.0
PLaMo-13B 2023 Llama^1
(13b, 13b-instruct, 13b-instruct-nc)
base: 4,096
instruct, instruct-nc: 8,192
事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4
(計 1.5T トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習)
Preferred Networks Apache 2.0
(NC モデルは CC BY-NC 4.0)
Stockmark-13b 2023 Llama
(13b, 13b-instruct)
2,048 事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus
(計 220B トークン)
Instruction Tuning (LoRA): ichikara-instruction
ストックマーク baseモデル: MIT
instructモデル: CC BY-NC-SA 4.0
Weblab-10B 2023 GPT-NeoX
(10b, 10b-instruction-sft)
2,048 Japanese mC4 + The Pile(計 600B トークン)
*instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング
東大 松尾研 CC BY-NC 4.0
LLM-jp-4 8B 2026 Llama
(8b-base, 8b-instruct, 8b-thinking)
65,536 事前学習 + 中間学習: llm-jp-corpus-v4.1, llm-jp-corpus-midtraining-v2
(計 11.7T トークン)
SFT: llm-jp-4-thinking-sft-data
DPO (thinking のみ): llm-jp-4-8b-thinking-dpo-data
大規模言語モデル研究開発センター Apache 2.0
PLaMo 2.1 8B 2025 Samba ベースのアーキテクチャ
(8b-cpt)
32,768 訓練詳細不明 Preferred Networks PLaMo community license
PLaMo 2 8B 2025 Samba ベースのアーキテクチャ
(8b)
日本語、英語等のデータ
(計 6T トークン)
Preferred Networks PLaMo community license
Tanuki-8B 2024 Tanuki (8b)
(v1.0, v1.0-AWQ, v1.0-GPTQ-4bit, v1.0-GPTQ-8bit, v1.0-GGUF)
4,096 事前学習: 様々な Web 上のデータ, 合成データ(計 1.3T トークン)
SFT, DPO: 様々な合成データ ^19
松尾研LLM開発プロジェクト Apache 2.0
Japanese StableLM Alpha 2023 GPT-NeoX
(base-alpha-7b, instruct-alpha-7b, instruct-alpha-7b-v2)
2,048 Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama
(+ 独自のデータセット)[^2]
(計 750B トークン)
*instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング
(v2では商用利用不可の Alpaca Dataset を除外)
Stability AI baseモデル: Apache 2.0
instruct モデル (v1): 独自のライセンス
instruct モデル (v2): Apache 2.0
CyberAgentLM2 (CALM2) 2023 Llama
(7b, 7b-chat, 7b-chat-dpo-experimental)
base: 4,096
chat: 32,768
一般公開されている日本語・英語のデータセット(詳細不明) (計 1.3T トークン)
*dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習
サイバーエージェント Apache 2.0
(dpo モデルのみ CC BY 4.0)
OpenCALM 2023 GPT-NeoX
(small, medium, large, 1b(1.4b), 3b(2.7b), 7b(6.8b))
2,048 日本語 Wikipedia
+ Jpanese mC4
+ Japanese CC-100
サイバーエージェント CC BY-SA 4.0
Stormy 2023 GPT-NeoX
(7b(6.8b))
2,048 OpenCALM (6.8b) に対して
llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング
東大 和泉研 CC BY-SA 4.0
ByGPT-JP 2025 Llama ベース
(multi-lm-head-6.5b-alpha)
5,760 llm-jp-corpus-v3 のサブセット (ja_cc, ja_warp_html, ja_warp_pdf, ja_wiki, kaken) 東北大
自然言語処理研究グループ
Apache 2.0
rinna GPT
(英語やコードも含めて学習されたモデル)
2023 GPT-NeoX
(4b(3.8b), 4b(3.8b)-8k, 4b(3.8b)-instruction-sft, 4b(3.8b)-instruction-ppo)
8kモデル: 8,192
他: 2,048
Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile
(計 524B トークン)
*8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング
*instruction-sft モデルでは HH RLHF、FLAN でファインチューニング
*instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習
rinna MIT
japanese-large-lm 2023 GPT-NeoX
(1.7b, 3.6b, 1.7b-instruction-sft, 3.6b-instruction-sft)
2,048 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど
(計 650GB)
*instruction-sft モデルでは OASST1 でファインチューニング
LINE Apache 2.0
rinna GPT
(日本語のみで学習されたモデル)
2023 GPT または GPT-NeoX
(xsmall, small, medium, 1b, neox-small, neox-3.6b-instruction-sft-v2, neox-3.6b-instruction-ppo)
≤ 2,048 日本語 Wikipedia
+ Japanese CC-100
(1b 以降のモデルでは
さらに Japanese mC4 を追加)
*instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング
*instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習
rinna MIT
Sarashina2.2 2025 Llama
(0.5b, 0.5b-instruct-v0.1, 1b, 1b-instruct-v0.1, 3b, 3b-instruct-v0.1)
8,192 SB Intuitions MIT
レトリバT5 2023 T5
(small (short), small (medium), small (long), base (short), base (medium), base (long), large (short), large (medium), large (long), xl(3b))
日本語 Wikipedia + Japanese mC4 レトリバ CC BY-SA 4.0
Spiral-RetNet-3b-base 2024 RetNet
(3b)
2,048 Wikipedia, Japanese CC-100, CulturaX Spiral.AI MIT
kotomamba-2.8B 2024 Mamba
(2.8B-v1.0)
2,048 日本語 Wikipedia, Swallow Corpus, SlimPajama Kotoba Technologies Apache 2.0
ABEJA GPT 2022 GPT または GPT-NeoX
(large, neox-2.7b)
日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
ABEJA MIT
PLaMo 2.1 2B 2025 Causal decoder-only transformer
(2b-cpt)
32,768 訓練詳細不明 Preferred Networks PLaMo community license
Rakuten AI 2.0 mini 2025 Mistral
(mini(1.5b), mini(1.5b)-instruct)
131,072 楽天 Apache 2.0
早大GPT 2022 GPT
(small, xl(1.5b))
日本語 Wikipedia
+ Japanese CC-100
早大 河原研 CC BY-SA 4.0
ストックマークGPT 2023 GPT-NeoX
(1.4b)
日本語 Wikipedia (0.88B トークン)
+ Japanese CC-100 (10.5B トークン)
+ 独自のWebデータ (8.6B トークン)
ストックマーク MIT
イエローバックGPT 2021 GPT-NeoX
(1.3b)
日本語 Wikipedia
+ Japanese CC-100
+ Japanese OSCAR
イエローバック Apache 2.0
PLaMo 2 1B 2025 Samba ベースのアーキテクチャ
(1b)
日本語、英語等のデータ
(計 4T トークン)
Preferred Elements (Preferred Networks) Apache 2.0
Sarashina2.1-1B 2024 Llama
(1b)
8,192 Web 上などの日本語・英語データ(計 10T トークン) SB Intuitions Sarashina Model NonCommercial License
colorfulscoop GPT 2021 GPT
(small)
日本語 Wikipedia Colorful Scoop CC BY-SA 3.0
東工大GPT 2023 GPT
(medium, medium (逆方向)) ^3
日本語 Wikipedia + Japanese CC-100 東工大 岡崎研 CC BY-SA 4.0
京大GPT 2022 GPT
(small (文字レベル), medium (文字レベル), large (文字レベル))
日本語 Wikipedia (約2,700万文 (3.2GB))
+ Japanese CC-100 (約6億1,900万文 (85GB))
+ Japanese OSCAR (約3億2,600万文 (54GB))
京大 言語メディア研究室 CC BY-SA 4.0
日本語BART 2023 BART
(base, large)
日本語 Wikipedia (約1,800万文) 京大 言語メディア研究室 CC BY-SA 4.0
Megagon Labs T5 2021 T5
(base)
Japanese mC4 (87,425,304 ページ (782 GB))
+ Japanese wiki40b (828,236 記事 (2 GB))
Megagon Labs
(リクルート)
Apache 2.0

领域专用

领域 架构 学习文本 开发方 许可证
SIP-med-LLM/SIP-jmed-llm-2-8x13b-OP-instruct 医疗 MoE 医疗系语料库 (44.2B 个token) 上对 LLM-jp-3 MoE (8x13b) 进行额外预训练,随后进行指令微调 战略性创新创造计划(SIP)第3期课题“在构建集成型医疗保健系统中利用生成式AI”主题1“开发并社会实施具有安全性与可靠性之开放式医疗LLM”研究小组 Apache 2.0
日语对话Transformer 对话 Transformer Twitter 上的日语回复配对 NTT 自定义许可证
日语新闻BART 商业 BART (base) 日本商业新闻文章(约2,100万篇 (2.9亿句)) StockMark MIT
AcademicBART 学术 BART (base) CiNii 的日语论文 爱媛大学人工智能研究室 Apache 2.0

在海外模型基础上进行日语持续预训练的模型

※也包括在持续预训练后进行了后续学习(如SFT、DPO、RL等)的模型

泛用

公開年 ベースのLLM 学習テキスト 開発元 ライセンス / 利用規約
GPT-OSS Swallow 120B
(120B-SFT-v0.1, 120B-RL-v0.1)
2026 GPT-OSS (120b) 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2
(計 419.4B トークン)
SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1
RL: allenai/Dolci-Think-RL-7B (Math subset)
Swallowプロジェクト Apache 2.0
Llama 3.3 Swallow 70B
(70B-v0.4, 70B-Instruct-v0.4)
2025 Llama 3.3 (70b) 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3
Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1, Swallow-Code-v0.3-Instruct-style
Swallowプロジェクト Llama 3.3 Community License & Gemma Terms of Use
Llama 3.1 Swallow 70B
(70B-v0.1, 70B-Instruct-v0.1, 70B-Instruct-v0.3)
2024 Llama 3.1 (70b) 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus
Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie
Swallowプロジェクト Llama 3.1 Community License
(Instructモデルは Gemma Terms of Use も適用)
cyberagent/Llama-3.1-70B-Japanese-Instruct-2407 2024 Llama 3.1 (70b) 不明 サイバーエージェント Llama 3.1 Community License
Llama 3 Swallow 70B
(70B-v0.1, 70B-Instruct-v0.1)
2024 Llama 3 (70b) 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath
Instruction Tuning: OASST1 [^17]
Swallowプロジェクト Llama 3 Community License
turing-motors/Llama-3-heron-brain-70B-v0.3 2024 Llama 3 (70b) Llama 3 Swallow 70B に対して追加学習(詳細不明) Turing Llama 3 Community License
Llama 3 Youko 70B
(70b, 70b-instruct, 70b-gptq, 70b-instruct-gptq)
2024 Llama 3 (70b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 5B トークン)
Instruction Tuning: 独自のデータセット[^11]
rinna Llama 3 Community License
Swallow 70B
(70b-hf, 70b-instruct-hf, 70b-instruct-v0.1, 70b-NVE-hf, 70b-NVE-instruct-hf)
2023 Llama 2 (70b) 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1モデルでは OASST1, OASST2 を使用
Swallowプロジェクト Llama 2 Community License
KARAKURI LM
(70b-v0.1, 70b-chat-v0.1)
2024 Llama 2 (70b) 事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット
(計 16B トークン)
SteerLM: OASST2, 独自のデータセット
カラクリ Llama 2 Community License[^13]
Japanese Stable LM Beta 70B
(base-beta-70b, instruct-beta-70b)
2023 Llama 2 (70b) 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
Stability AI Llama 2 Community License
Fujitsu-LLM-KG
(8x7B_cpt, 8x7B_inst-infer_v1, 8x7B_inst-infer_v2, 8x7B_inst-gen_ja, 8x7B_inst-gen_en)
2025 Mixtral-8x7B-Instruct-v0.1 (46.7b) 事前学習: 知識グラフ並列コーパス(森羅プロジェクト、Wikipedia等から合成) 2.1Bトークンを含む計約300Bトークン
Instruction Tuning: 知識グラフ推論・生成タスク用データセット
富士通 Apache 2.0
Swallow-MX 8x7B
(8x7b-NVE-v0.1)
2024 Mixtral-8x7B-Instruct-v0.1 (46.7b) 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault Swallowプロジェクト Apache 2.0
KARAKURI LM 8x7B Instruct v0.1
(8x7b-instruct-v0.1)
2024 Mixtral-8x7B-Instruct-v0.1 (46.7b) Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセット カラクリ Apache 2.0 (?)^12
KARAKURI LM 8x7B Chat v0.1
(8x7b-chat-v0.1)
2024 Mixtral-8x7B-Instruct-v0.1 (46.7b) Swallow-MX 8x7B に対して
SteerLM: OASST2, HelpSteer, 独自のデータセット
カラクリ Apache 2.0
ABEJA-Mixtral-8x7B-japanese
(8x7B-v0.1-japanese, 8x7B-Instruct-v0.1-japanese, 8x7B-Instruct-v0.1-japanese-alpha, 8x7B-Instruct-v0.1-japanese-alpha-merged)
2024 Mixtral-8x7B-Instruct-v0.1 (46.7b)
*Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース
事前学習: Japanese CC, Redpajama, 独自
(計 450B トークン)
ABEJA Apache 2.0
Qwen3 Swallow 32B
(32B-CPT-v0.2, 32B-SFT-v0.2, 32B-RL-v0.2)
2026 Qwen3 (32b) 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2
(計 209.7B トークン)
SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1
RL: allenai/Dolci-Think-RL-7B (Math subset)
Swallowプロジェクト Apache 2.0
ELYZA-Thinking-1.0-Qwen-32B
(32B)
2025 Qwen 2.5 (32b) 事前学習 + SFT (Reasoning) ELYZA Apache 2.0
ELYZA-Shortcut-1.0-Qwen-32B
(32B)
2025 Qwen 2.5 (32b) 事前学習 + SFT ELYZA Apache 2.0
ABEJA-Qwen2.5-32b-Japanese-v1.0
(v1.0)
2025 Qwen2.5-32B-Instruct (32b) 継続事前学習 + SFT + DPO: 約2万件の合成データ・人手アノテーションデータセット(抽出・推論能力に特化) ABEJA Apache 2.0
Qwen2.5 Bakeneko 32B
(qwen2.5-bakeneko-32b, qwen2.5-bakeneko-32b-instruct, deepseek-r1-distill-qwen2.5-bakeneko-32b, qwq-bakeneko-32b)
2025 Qwen 2.5 (32b) rinna Apache 2.0
ABEJA-QwQ32b-Reasoning-Japanese-v1.0
(v1.0)
2025 Qwen 2.5 (32b) ABEJA-Qwen2.5-32b-Japanese-v0.1 に QwQ 32b の Chat Vector をマージした上で追加学習 ABEJA Apache 2.0
ABEJA-Qwen2.5-32b-Japanese-v0.1
(32b-Japanese-v0.1)
2025 Qwen 2.5 (32b) 事前学習: Common Crawl, Cosmopedia, 独自
(計 100B トークン)
+ Chat Vector
ABEJA Apache 2.0
neoAI-JP-QwQ-32B
(32B)
2025 Qwen 2.5 (32b) 継続事前学習: llm-jp-corpus v3から約4Bトークン
+ QwQ-32BのChat Vector
neoAI Apache 2.0
neoAI-JP-DeepSeek-Qwen-32B
(32B)
2025 Qwen 2.5 (32b) 継続事前学習: llm-jp-corpus v3から約4Bトークン
+ DeepSeek-R1-Distill-Qwen-32BのChat Vector
neoAI Apache 2.0
Qwen3 Swallow 30B-A3B
(30B-A3B-CPT-v0.2, 30B-A3B-SFT-v0.2, 30B-A3B-RL-v0.2)
2026 Qwen3 (30b-A3B) 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2
(計 209.7B トークン)
SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1
RL: allenai/Dolci-Think-RL-7B (Math subset)
Swallowプロジェクト Apache 2.0
Gemma-2-Llama Swallow 27B
(27b-pt-v0.1, 27b-it-v0.1)
2025 Gemma 2 (27b) 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3
Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1
Swallowプロジェクト Llama 3.3 Community License & Gemma Terms of Use
GPT-OSS Swallow 20B
(20B-SFT-v0.1, 20B-RL-v0.1)
2026 GPT-OSS (20b) 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2
(計 419.4B トークン)
SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1
RL: allenai/Dolci-Think-RL-7B (Math subset)
Swallowプロジェクト Apache 2.0
Nekomata 14B
(14b, 14b-instruction, 14b-gguf, 14b-instruction-gguf)
2023 Qwen (14b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 66B トークン)
Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinna Tongyi Qianwen LICENSE
Swallow 13B
(13b-hf, 13b-instruct-hf, 13b-instruct-v0.1, 13b-NVE-hf)
2023 Llama 2 (13b) 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1モデルでは OASST1, OASST2 を使用
Swallowプロジェクト Llama 2 Community License
LEIA-Swallow-13B
(13b)
2024 Llama 2 (13b) Swallow 13B に対して LEIA で追加学習 個人 (山田育矢, 李凌寒) Llama 2 Community License
ELYZA-japanese-Llama-2-13b
(13b, 13b-instruct, 13b-fast, 13b-fast-instruct)
2023 Llama 2 (13b) 事前学翕: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど
(計 18B トークン)
Instruction Tuning: 独自のデータセット
ELYZA Llama 2 Community License
cyberagent/Mistral-Nemo-Japanese-Instruct-2408 2024 Mistral NeMo (12b) 不明 サイバーエージェント Apache 2.0
NVIDIA-Nemotron-Nano-9B-v2-Japanese
(9B)
2026 Nemotron-Nano (9b) 継続事前学習: Wikipedia, fineweb-2 Japanese, aozorabunko, sip3-ja-general-web-corpus, Nemotron-CC-v2.1, Nemotron-Pretraining-Specialized-v1
SFT: Nemotron-Personas-Japan をシードセットとした Tool Calling データセット, Nemotron-Post-Training-v3
NVIDIA NVIDIA Nemotron Open Model License Agreement
Gemma-2-Llama Swallow 9B
(9b-pt-v0.1, 9b-it-v0.1)
2025 Gemma 2 (9b) 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3
Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1
Swallowプロジェクト Llama 3.3 Community License & Gemma Terms of Use
Qwen3 Swallow 8B
(8B-CPT-v0.2, 8B-SFT-v0.2, 8B-RL-v0.2)
2026 Qwen3 (8b) 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2
(計 209.7B トークン)
SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1
RL: allenai/Dolci-Think-RL-7B (Math subset)
Swallowプロジェクト Apache 2.0
Llama 3.1 Swallow 8B
(8B-v0.1, 8B-Instruct-v0.1, 8B-v0.2, 8B-Instruct-v0.2, 8B-Instruct-v0.3, 8B-Instruct-v0.5)
2025 Llama 3.1 (8b) 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus
Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie, Gemma-3-LMSYS-Chat-1M-Synth
Swallowプロジェクト Llama 3.1 Community License
(Instructモデルは Gemma Terms of Use も適用)
Llama 3 Swallow 8B
(8B-v0.1, 8B-Instruct-v0.1)
2023 Llama 3 (8b) 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath
Instruction Tuning: OASST1 [^17]
Swallowプロジェクト Llama 3 Community License
turing-motors/Llama-3-heron-brain-8B-v0.3 2024 Llama 3 (8b) Llama 3 Swallow 8B に対して追加学習(詳細不明) Turing Llama 3 Community License
Llama 3 Youko 8B
(8b, 8b-instruct, 8b-gptq, 8b-instruct-gptq)
2024 Llama 3 (8b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 22B トークン)
Instruction Tuning[^11]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット
DPO: HelpSteer, HelpSteer2, 独自のデータセット
rinna Llama 3 Community License
Llama 3 ELYZA JP 8B
(8B, 8B-GGUF, 8B-AWQ)
2024 Llama 3 (8b) 不明 ELYZA Llama 3 Community License
Llama 3 neoAI 8B Chat v0.1
(8B-Chat-v0.1)
2024 Llama 3 (8b) 不明 neoAI Llama 3 Community License
Llama 3 tedllm
(v0)
2024 Llama 3 (8b) 事前学習: 日本語の一般コーパス 東京エレクトロン デバイス Llama 3 Community License
ELYZA-Shortcut-1.0-Qwen-7B
(7B)
2025 Qwen 2.5 (7b) 事前学習 + SFT ELYZA Apache 2.0
ELYZA-Diffusion-1.0-Dream-7B
(Base-7B, Instruct-7B)
2026 Dream (7b) 事前学習: 日本語テキスト (約 62B トークン)
Instruction Tuning: 日本語の指示データ (約 0.18B トークン)
ELYZA Apache 2.0
Swallow 7B
(7b-hf, 7b-instruct-hf, 7b-instruct-v0.1, 7b-NVE-hf, 7b-NVE-instruct-hf, 7b-plus-hf)
2023 Llama 2 (7b) 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
*v0.1モデルでは OASST1, OASST2 を使用
Swallowプロジェクト Llama 2 Community License
LEIA-Swallow-7B
(7b)
2024 Llama 2 (7b) Swallow 7B に対して LEIA で追加学習 個人 (山田育矢, 李凌寒) Llama 2 Community License
ELYZA-japanese-Llama-2-7b
(7b, 7b-instruct, 7b-fast, 7b-fast-instruct)
2023 Llama 2 (7b) 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど
(計 18B トークン)
Instruction Tuning: 独自のデータセット
ELYZA Llama 2 Community License
Youri 7B
(7b, 7b-instruction, 7b-chat, 7b-gptq, 7b-instruction-gptq, 7b-chat-gptq)
2023 Llama 2 (7b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 40B トークン)
Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinna Llama 2 Community License
houou-7b
(instruction-7b-v1, instruction-7b-v2, instruction-7b-v3)
2023 Llama 2 (7b) Youri 7B (base) に対して Instruction Tuning: ichikara-instruction マネーフォワード Llama 2 Community License
Japanese Stable LM Beta 7B
(base-beta-7b, base-ja_vocab-beta-7b, instruct-beta-7b, instruct-ja_vocab-beta-7b)
2023 Llama 2 (7b) 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, OASST1
Stability AI Llama 2 Community License
SambaLingo-Japanese
(Base, Chat)
2024 Llama 2 (7b) 事前学習: CulturaX
Instruction Tuning: ultrachat_200k
DPO: ultrafeedback, cai-conversation-harmless
SambaNova Systems Llama 2 Community License (?)^12
blue-lizard
(blue-lizard)
2024 Llama 2 (7b) 不明 Deepreneur Llama 2 Community License
Swallow-MS 7B
(7b-v0.1, 7b-instruct-v0.1)
2024 Mistral-7B-v0.1 (7b) 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile
Instruction Tuning: Dolly Dataset, OASST1
Swallowプロジェクト Apache 2.0
Rakuten AI 2.0
(8x7B, 8x7B-instruct)
2025 Mistral-7B-v0.1 (7b) 楽天 Apache 2.0
RakutenAI-7B
(7B, 7B-instruct, 7B-chat)
2024 Mistral-7B-v0.1 (7b) 事前学習: 不明
Instruction Tuning: Dolly Dataset, OASST1, (jasterと同様に)言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット
楽天 Apache 2.0
Japanese Stable LM Gamma 7B
(base-gamma-7b, instruct-gamma-7b)
2023 Mistral-7B-v0.1 (7b) 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-dataSetのwikinews subset
Stability AI Apache 2.0
ChatNTQ JA 7B
(7b-v1.0)
2024 Mistral-7B-v0.1 (7b) Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning NTQ Solution Apache 2.0
Shisa Gamma 7B
(7b-v1)
2023 Mistral-7B-v0.1 (7b) Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning AUGMXNT Apache 2.0 (?)^12
Shisa 7B
(base-7b-v1, 7b-v1)
2023 Mistral-7B-v0.1 (7b) 事前学習: shisa-pretrain-en-ja-v1 (8B トークン)
Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1
AUGMXNT Apache 2.0 (?)^12
Karasu
(7B, 7B-chat, 7B-chat-plus, 7B-chat-plus-unleashed)
2024 Mistral-7B-v0.1 (7b) Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 7B トークン)
Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット
Lightblue Apache 2.0 (?)^12
Nekomata 7B
(7b, 7b-instruction, 7b-gguf, 7b-instruction-gguf)
2023 Qwen (7b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 66B トークン)
Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部
rinna Tongyi Qianwen LICENSE
lightblue/japanese-mpt-7b 2023 MPT (7b) Japanese mC4 Lightblue Apache 2.0
Japanese Stable LM 3B-4E1T
(3b-4e1t-base, 3b-4e1t-instruct)
2024 StableLM-3B-4E1T (3b) 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)
(計 100B トークン)
Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset
Stability AI Apache 2.0
kotomamba-2.8B-CL 2024 mamba-2.8b-slimpj
(2.8b)
日本語 Wikipedia, Swallow Corpus, SlimPajama Kotoba Technologies Apache 2.0
Gemma-2-Llama Swallow 2B
(2b-pt-v0.1, 2b-it-v0.1)
2025 Gemma 2 (2b) 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3
Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1
Swallowプロジェクト Llama 3.3 Community License & Gemma Terms of Use
Gemma 2 Baku 2B
(2b, 2b-it)
2024 Gemma 2 (2b) 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット
(計 80B トークン)
OPRO: 独自のデータセット [^20]
rinna Gemma Terms of Use
Japanese Stable LM 2 1.6B
(base, instruct)
2024 Stable LM 2 1.6B (1.6b) 事前学習: Wikipedia, CulturaX
Instruction Tuning: jaster, ichikara-instruction, alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1
Stability AI STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE
TinySwallow-1.5B
(1.5B, 1.5B-Instruct, 1.5B-Instruct-q4f32_1-MLC, 1.5B-Insturct-GGUF)
2025 Qwen2.5 (1.5b) 事前学習: Qwen2.5 (32b) を教師として TAID で学習
Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, swallow-magpie-ultra-v0.1, swallow-gemma-magpie-v0.1
Sakana AI, Swallowプロジェクト Apache 2.0
EQUES/OpenRS3-GRPO-ja 2025 Qwen2.5 (1.5b) TinySwallow-1.5B-Instruct に対して kunishou/OpenMathInstruct-1-1.8m-ja でGRPO学習 EQUES Inc.
EQUES/TinyDeepSeek-JP-1.5B 2025 Qwen2.5 (1.5b) TinySwallow-1.5B-Instruct に対して EQUES/japanese_ultrachat_6.6k でTAID蒸留 EQUES Inc. Apache 2.0
EQUES/TinySwallow-Stratos-1.5B 2025 Qwen2.5 (1.5b) TinySwallow-1.5B-Instruct に対して Bespoke-Stratos-35k で推論能力強化 EQUES Inc. Apache 2.0
karasu-1.1B 2023 TinyLlama (1.1b) 事前学習: Japanese OSCAR, Japanese mC4
(計 3B トークン)
Lightblue Apache 2.0

领域专用

领域 基础大模型 开发方 许可协议
pfnet/Preferred-MedLLM-Qwen-72B 医疗 Qwen2.5 (72b) Preferred Networks Qwen LICENSE
Llama3-Preferred-MedSwallow-70B
(70B)
医疗 Llama 3 (70b) Preferred Networks Llama 3 Community License
AIgroup-CVM-utokyohospital/MedSwallow-70b 医疗 Llama 2 (70b) 東京大学医学部附属病院 循環器内科 AIグループ CC BY-NC-SA 4.0
gpt-oss-20b-Ja-Fin
(CPT, Thinking)
金融 GPT-OSS (20b) 野村総合研究所 Apache 2.0
nekomata-14b-pfn-qfin
(qfin, qfin-inst-merge)
金融 Qwen (14b) Preferred Networks Tongyi Qianwen LICENSE
Qwen3-14B-Ja-Fin
(CPT, Thinking)
金融 Qwen3 (14b) 野村総合研究所 Apache 2.0
Watashiha-Llama-2-13B-Ogiri-sft
(sft, sft-neuron)
大喜利 Llama 2 (13b) わたしは Llama 2 Community License
MedExamDoc-Llama-3.1-Swallow-8B-Instruct-v0.5 医疗 Llama 3.1 (8b) Ingenta Llama 3.1 Community License
からまる
(Karamaru-v1)
江戸時代の古文 Llama 3 (8b) Sakana AI Llama 3 Community License
Llama 3.1 Future Code Ja 8B コーディング Llama 3.1
(8b)
フューチャー Llama 3.1 Community License
JPharmatron
(7B-base, 7B)
薬学 Qwen2.5 (7b) EQUES Inc. CC BY-SA 4.0
ELYZA-japanese-CodeLlama-7b
(7b, 7b-instruct)
コーディング Code Llama
(7b)
ELYZA Llama 2 Community License
AIBunCho/japanese-novel-gpt-j-6b 物語生成 GPT-J (6b) 個人 (大曽根宏幸) CreativeML OpenRAIL-M License
NovelAI/genji-jp 物語生成 GPT-J (6b) NovelAI

海外モデルに日本語で事後学習を行ったモデル(継続事前学習なし、または詳細不明)

普遍

基础大模型 训练文本 开发方 许可证 / 使用条款
Rakuten AI 3.0
(RakutenAI-3.0)
DeepSeek-V3 (671b) ^24 不明 楽天 Apache 2.0
Llama 3.1 Shisa V2 405B
(405b)
Llama 3.1 (405b) 高质量的日语数据集进行SFT/DPO Shisa.AI Llama 3.1 Community License
AXCXEPT/EZO-Qwen2.5-72B-Instruct
AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4
Qwen2.5 (72b) Axcxept Qwen License
ao-Karasu
(72B)
Qwen1.5 (72b) ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本的公开技术博客, 新闻文章, QA网站的回答, 自有的数据集 Lightblue Tongyi Qianwen LICENSE (?)^12
Shisa V2.1 70B
(70b)
Llama 3.3 (70b) 结合SFT/DPO/强化学习/模型融合的训练 Shisa.AI Llama 3.3 Community License
shisa-ai/shisa-v2-llama3.3-70b Llama 3.3 (70b) Shisa.AI Llama 3.3 Community License
AXCXEPT/Llama-3.1-70B-EZO-1.1-it Llama 3.1 (70b) Axcxept Llama 3.1 Community License
Llama 3 shisa-v1-llama3-70b
(70b)
Llama 3 (70b) ultra-orca-boros-en-ja-v1 Shisa.AI Llama 3 Community License (?)^12
AIgroup-CVM-utokyohospital/Llama-2-70b-chat-4bit-japanese Llama 2 (70b) 东京大学医学部附属医院 循环内科 AI小组 Llama 2 Community License
doshisha-mil/llama-2-70b-chat-4bit-japanese-v1 Llama 2 (70b) 同志社大学 媒体信息学研究室
cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese DeepSeek-R1-Distill-Qwen (32b) サイバーエージェント MIT
Flux-Japanese-Qwen2.5-32B-Instruct-V1.0
(V1.0)
Qwen2.5-32B-Instruct (32b) 精准调优:精准定位日语知识、推理及语言能力相关参数,仅对其中5%的参数进行调整。随后创建三个专业模型,并通过精准合并整合为一个整体 FLUX Apache 2.0
karakuri-ai/karakuri-lm-32b-thinking-2501-exp QwQ (32b) カラクリ Apache 2.0
shisa-ai/shisa-v2-qwen2.5-32b Qwen2.5 (32b) Shisa.AI Apache 2.0
AXCXEPT/EZO-Qwen2.5-32B-Instruct
AXCXEPT/EZO-AutoCoTRAG-Qwen2.5-32B-Instruct
Qwen2.5 (32b) Axcxept Apache 2.0
cyberagent/DeepSeek-R1-Distill-Qwen-14B-Japanese DeepSeek-R1-Distill-Qwen (14b) サイバーエージェント MIT
Shisa V2.1 14B
(14b)
Phi-4 (14b) 结合SFT/DPO/强化学习/模型融合的训练 Shisa.AI MIT
shisa-ai/shisa-v2-unphi4-14b Phi-4 (14b) Shisa.AI MIT
EZO-Phi-4
(phi-4-open-R1-Distill-EZOv1, phi-4-deepseek-R1K-RL-EZO)
Phi-4 (14b) Axcxept MIT
Qarasu
(14B-chat-plus-unleashed)
Qwen (14b) ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 自有数据集 Lightblue Tongyi Qianwen LICENSE (?)^12
Sparticle/llama-2-13b-chat-japanese-lora Llama 2 (13b) Sparticle
izumi-lab/llama-13b-japanese-lora-v0-1ep Llama (13b) 东大 和泉研
shisa-ai/shisa-v2-mistral-nemo-12b Mistral NeMo (12b) Shisa.AI Apache 2.0
AXCXEPT/EZO-Common-9B-gemma-2-it Gemma 2 (9b) Axcxept Gemma Terms of Use
AXCXEPT/EZO-Humanities-9B-gemma-2-it Gemma 2 (9b) Axcxept Gemma Terms of Use
Shisa V2.1 8B
(8b)
Qwen3 (8b) 结合SFT/DPO/强化学习/模型融合的训练 Shisa.AI Apache 2.0
AXCXEPT/Qwen3-EZO-8B-beta Qwen3 (8b) 采用Deep-Think技术实现高性能推理 Axcxept Apache 2.0
shisa-ai/shisa-v2-llama3.1-8b Llama 3.1 (8b) Shisa.AI Llama 3.1 Community License
AXCXEPT/Llama-3.1-8B-EZO-1.1-it Llama 3.1 (8b) Axcxept Llama 3.1 Community License
Llama 3 Suzume 8B
(8B-japanese, 8B-japanese-gguf)
Llama 3 (8b) megagonlabs/instruction_ja, ShareGPT, 自有数据集 Lightblue Llama 3 Community License (?)^12
Llama 3 shisa-v1-llama3-8b
(8b)
Llama 3 (8b) ultra-orca-boros-en-ja-v1 Shisa.AI Llama 3 Community License (?)^12
AXCXEPT/Llama-3-EZO-8b-Common-it Llama 3 (8b) Axcxept Llama 3 Community License
lightblue/DeepSeek-R1-Distill-Qwen-7B-Japanese DeepSeek-R1-Distill-Qwen (7b) Lightblue Apache 2.0
ABEJA-Qwen2.5-7b-Japanese-v0.1
(v0.1)
Qwen 2.5 (7b) ABEJA Apache 2.0
shisa-ai/shisa-v2-qwen2.5-7b Qwen 2.5 (7b) Shisa.AI Apache 2.0
Karasu DPO
(7B)
Qwen 2.5 (7b) Lightblue Apache 2.0
ganchengguang/Yoko-7B-Japanese-v1 Llama 2 (7b) 横滨国立大学 森研
Sparticle/llama-2-7b-chat-japanese-lora Llama 2 (7b) Sparticle
izumi-lab/llama-7b-japanese-lora-v0-5ep Llama (7b) 东大 和泉研
lightblue/jod Mistral-7B-SlimOrca (7b) Lightblue Apache 2.0
NTQAI/chatntq-7b-jpntuned RWKV-4 World (7b) NTQ Solution
Qwen3.5-FT-Japanese-CoT-4B Qwen3.5 (4b) 不明 个人 (Aname-Tommy) MIT
Borea
(Jp, Common, Coding)
Phi-3.5 (3.8b) Axcxept MIT
Shisa V2.1 3B
(3b)
Llama 3.2 (3b) 结合SFT/DPO/强化学习/模型融合的训练 Shisa.AI Llama 3.2 Community License
AXCXEPT/EZO-Llama-3.2-3B-Instruct-dpoE Llama 3.2 (3b) Axcxept Llama 3.2 Community License
日本語版 Gemma 2 2B
(2b-jpn-it)
Gemma 2 (2b) Google Gemma Terms of Use
AXCXEPT/EZO-gemma-2-2b-jpn-it Gemma 2 (2b) Axcxept Gemma Terms of Use
AXCXEPT/EZO-Common-T2-2B-gemma-2-it Gemma 2 (2b) Axcxept Gemma Terms of Use
Shisa V2.1 1.2B
(1.2b)
LFM2 (1.2b) 结合SFT/DPO/强化学习/模型融合的训练 Shisa.AI LFM Open License v1.0
LFM2.5-1.2B-JP
(1.2B-JP)
LFM2.5 (1.2b) 不明 Liquid AI LFM Open License v1.0
Qwen3.5-FT-Japanese-CoT-0.8B Qwen3.5 (0.8b) 不明 个人 (Aname-Tommy) MIT

领域专用型

领域 基础LLM 开发方 许可证
JMedLoRA
(llama2-jmedlora-6.89ep)
医疗 Llama 2 (70b) 东京大学医学部附属医院 循环器内科 AI小组 CC BY-NC 4.0
pfnet/Qwen3-1.7B-pfn-qfin 金融 Qwen3 (1.72b) Preferred Networks PLaMo Community License
pfnet/Qwen2.5-1.5B-pfn-qfin 金融 Qwen2.5 (1.54b) Preferred Networks PLaMo Community License

多个LLM合并创建的模型

合并前的LLM(加粗为日语LLM) 开发方 许可证
EQUES/MedLLama3-JP-v2 Llama 3 Swallow 8B (Instruct), OpenBioLLM-8B, MMed-Llama 3 8B, Llama 3 ELYZA JP 8B EQUES Llama 3 Community License
EvoLLM-JP-A
(v1-7B)
Shisa Gamma 7B (v1), Arithmo2 Mistral 7B, Abel 7B 002 Sakana AI Apache 2.0
EvoLLM-JP
(v1-7B, v1-10B)
Shisa Gamma 7B (v1), WizardMath-7B-V1.1, Abel 7B 002 Sakana AI MICROSOFT RESEARCH LICENSE
EQUES/TinyQwens-Merge-1.5B SakanaAI/TinySwallow-1.5B-Instruct, EQUES/TinySwallow-Stratos-1.5B, deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B, Qwen/Qwen2.5-1.5B-Instruct EQUES Inc. Apache 2.0

作为API提供的模型

输入输出可处理的
标记数
开发方 平台
PLaMo API 32,768 Preferred Networks 自有
AIのべりすと 2,400 ~ 8,192 Bit192 自有
LHTM-OPT オルツ AWS Marketplace (SageMaker)
Syn
(Syn, Syn Pro)
32,768 カラクリ, Upstage AWS Marketplace (SageMaker)
tsuzumi
(tsuzumi-7b)
NTT Microsoft Foundry

主要用于处理输入文本的模型

通用

架构 输入可处理的标记数 训练文本 开发方 许可证 是否可在HuggingFace上直接使用? [^4]
ModernBERT-Ja ModernBERT 8,192 日语·英语数据 SB Intuitions MIT ◯ (30m, 70m, 130m, 310m)
llm-jp-modernbert ModernBERT 8,192 llm-jp-corpus-v4 的日语子集(约0.69T标记) 大规模语言模型研发中心 Apache 2.0
京大BERT BERT (base, large) 512 日本维基百科(约1,800万句) 京都大学语言媒体研究室 Apache 2.0
东北大学BERT BERT (base, large) 512 base (v1):
日本维基百科约1,700万句 (2.6GB)
base (v2) & large:
日本维基百科约3,000万句 (4.0GB)
base (v3) & large (v2):
日本维基百科约3,400万句 (4.9GB)
+ 日语 CC-100 约3亿9,200万句 (74.3GB)
东北大学
自然语言处理研究小组
base (v1, v2) & large: CC BY-SA 3.0
base (v3) & large (v2): Apache 2.0
◯ (base (v1), base (v1, 文字级别), base (v2), base (v2, 文字级别), large, large (文字级别), base (v3), base (v3, 文字级别), large (v2), large (v2, 文字级别))
TohokuNLP BERT-alpha 500M Llama 基础的编码器^23 4,096

8,192
llm-jp-corpus-v3 的日语子集 东北大学
自然语言处理研究小组
Apache 2.0 ◯ (sq4096-alpha, sq8192-alpha)
ByBERT-JP Llama 基础的编码器^23 100m, 200m, 400m: 3,072
v2-100m: 4,096
llm-jp-corpus-v3 的子集
100m: 623B 标记
200m: 637B 标记
400m: 1.23T 标记
v2-100m: 2.76T 标记
东北大学
自然语言处理研究小组
Apache 2.0 ◯ (100m, 200m, 400m, v2-100m)
NICT BERT BERT (base) 512 日本维基百科 NICT CC BY 4.0
Laboro BERT BERT (base, large) 512 日本网络语料库
(新闻网站、博客等
共4,307个网站,2,605,280页 (12GB))
Laboro.AI CC BY-NC 4.0
colorfulscoop BERT BERT (base) 512 日本维基百科 Colorful Scoop CC BY-SA 3.0
东大BERT BERT (small) 512 日本维基百科(约2,000万句 (2.9GB)) 东京大学和泉实验室 CC BY-SA 4.0
chiTra (Sudachi Transformers) BERT (base) 512 国语研日语网络语料库 (NWJC) (148GB) NINJAL、WorkS 德岛人工智能NLP研究所 Apache 2.0
ACCMS BERT BERT (base) 512 日本维基百科 (3.3GB) 京都大学 ACCMS CC BY-SA 4.0
日立BERT BERT (base) 512 日本维基百科
+ 日本CC-100
日立制作所 CC BY-NC-SA 4.0 [^6]
RetrievaBERT BERT ^5 2,048 Japanese CommonCrawl、RefinedWeb、中文维基百科、韩文维基百科、The Stack Retrieva Apache 2.0
万代南梦宫 DistilBERT DistilBERT 512 - (以东北大学BERT(base)为教师模型进行知识蒸馏) Bandai Namco Research MIT
Laboro DistilBERT DistilBERT 512 - (以Laboro BERT(base)为教师模型进行知识蒸馏) Laboro.AI CC BY-NC 4.0
LINE DistilBERT DistilBERT 512 - (以LINE公司内部的BERT为教师模型进行知识蒸馏) LINE Apache 2.0
rinna RoBERTa RoBERTa (base) 512 日本维基百科
+ 日本CC-100
rinna MIT
早稻田RoBERTa RoBERTa (base, large) 512 日本维基百科
+ 日本CC-100
早稻田大学河原实验室 CC BY-SA 4.0 ◯ (base, large, large (seq512)) ^7
インフォマティクスRoBERTa RoBERTa (base) 512 日本维基百科
+ 网络文章 (共25GB)
インフォマティクス Apache 2.0
京大RoBERTa RoBERTa (base, large) 512 日本维基百科
+ 日本CC-100
京都大学语言媒体研究室 CC BY-SA 4.0 ◯ (base (文字级别), large (文字级别))
横滨国立大学RoBERTa RoBERTa (base) 512 日本维基百科 (3.45GB) 横滨国立大学森实验室 Apache 2.0
Megagon Labs RoBERTa RoBERTa (base) ^8 1,282 日本mC4(约2亿句) Megagon Labs
(里库特)
MIT
ACCMS RoBERTa RoBERTa (base) 512 日本维基百科 (3.3GB) + 日本CC-100 (70GB) 京都大学 ACCMS CC BY-SA 4.0
シナモンELECTRA ELECTRA (small) 512 日本维基百科 シナモン Apache 2.0
Megagon Labs ELECTRA ELECTRA (base) 512 日本mC4(约2亿句) Megagon Labs
(里库特)
MIT
东大ELECTRA ELECTRA (small, base) 512 日本维基百科(约2,000万句 (2.9GB)) 东京大学和泉实验室 CC BY-SA 4.0 ◯ (small, base)
日本RoFormer RoFormer (base) 512 日本维基百科 (3.45GB) 横滨国立大学森实验室 Apache 2.0
日本LUKE LUKE (base, large) 512 日本维基百科 Studio Ousia Apache 2.0 ◯ (base, large)
京大DeBERTaV2 DeBERTaV2 (tiny, base, large) 512 日本维基百科
+ 日本CC-100
+ 日本OSCAR
(共171GB)
京都大学语言媒体研究室 CC BY-SA 4.0 ◯ (tiny, tiny (文字级别), base, large)
京大DeBERTaV3 DeBERTaV3 (base) 512 llm-jp-corpus 京都大学语言媒体研究室 Apache 2.0
东大DeBERTaV2 DeBERTaV2 (small, base) 512 日本维基百科、日本维基新闻、日本CC-100、日本mC4、日本OSCAR 东京大学和泉实验室 CC BY-SA 4.0 ◯ (small, base)
GLOBIS DeBERTaV3 DeBERTaV3 (xsmall, base, large) 512 维基百科、维基教科书、青空文库、日本CC-100、日本mC4、日本OSCAR GLOBIS CC BY-SA 4.0 ◯ (xsmall, base, large)
日本BigBird BigBird (base) 4,096 日本维基百科
+ 日本CC-100
+ 日本OSCAR
早稻田大学河原实验室 CC BY-SA 4.0
日本LayoutLM LayoutLM (base) 512 在以东北大学BERT (base, v2) 的权重进行初始化后,利用日本维基百科的文本和布局进行预训练 日本综合研究所 CC BY-SA 3.0

领域专用

领域 架构 训练文本 开发者 许可协议 HuggingFace 是否可直接使用?
日语博客ELECTRA 口语 ELECTRA (small) 日语博客语料库(3.54亿句) 北见工业大学 桝井·普塔辛斯基研究组 CC BY-SA 4.0
日语口语BERT 口语 BERT (base) 在东北大学BERT的基础上,使用日语口语语料库(CSJ)进行额外训练
(DAPT模型还使用了国会会议记录数据)
Retrieva Apache 2.0
AcademicRoBERTa 学术 RoBERTa (base) CiNii 的日语论文 (约628万句) 爱媛大学人工智能研究室 Apache 2.0
local-politics-BERT 政治 BERT (base) Wikipedia、国会会议记录、地方议会会议记录 地方议会会议记录语料库项目 CC BY-SA 4.0 ◯ (SC-min, SC-minwiki, SC-2M-wiki, SC-2M-min, SC-2M-minwiki, FP-min, FP-minwiki) ^18
UBKE-LUKE 经济 LUKE (base) 日本语Wikipedia、有价证券报告书、经济新闻文章 UZABASE CC BY-NC
日语金融BERT 金融 BERT (small, base) ^9 日本语Wikipedia
+ 日本语金融语料库(约2,700万句 (5.2GB))
东京大学和泉研究组 CC BY-SA 4.0 ◯ (small, base)
日语金融ELECTRA 金融 ELECTRA (small) 日本语Wikipedia(约2,000万句 (2.9GB))
+ 日本语金融语料库(约2,700万句 (5.2GB))
东京大学和泉研究组 CC BY-SA 4.0
日语新闻BERT 商业 BERT (base) 日本语商业新闻文章(300万篇) StockMark CC BY 4.0
日语新闻XLNet 商业 XLNet (base) 日本语商业新闻文章(300万篇) StockMark ※ 有非官方的HuggingFace适配模型已发布
日语新闻ALBERT 商业 ALBERT (base) 日本语商业新闻文章(300万篇) StockMark
民博BERT 文化遗产 BERT (base) 在东北大学BERT的基础上,使用国立民族学博物馆的文化遗产数据进行额外训练 兵库县立大学 大岛研究组 MIT ◯ (minpaku-v1, minpaku-v3, minpaku-v3-no-additional-token)
JPharmaBERT 药学 BERT (base, large) 日本语药学文献 (2B tokens)
+ PubMed英文摘要 (8B tokens)
+ 药学相关多语言数据 (1.2B tokens)
EQUES 不明 ◯ (base, large)
medBERTjp 医疗 BERT (base) 日本语Wikipedia
+ 日本语医疗语料库(《今日的诊疗Premium》网络版)
大阪大学医院
医疗信息学研究室
CC BY-NC-SA 4.0
JMedRoBERTa 医疗 RoBERTa (base) 日本语医学论文 (约1,100万句 (1.8GB)) NII 相泽研究组 CC BY-NC-SA 4.0 ◯ (万病WordPiece, SentencePiece) ^10

专注于嵌入(Embeddings)生成的模型 [^21]

双编码器

单表示双编码器

输入可处理的标记数 开发方 许可证
Ruri-v3
(v3-30m, v3-70m, v3-130m, v3-310m)
8,192 名大 笹野研 Apache 2.0
PLaMo-Embedding-1B
(1b)
4,096 Preferred Networks Apache 2.0
Sarashina-Embedding-v2
(v2-1b)
8,192 SB Intuitions Sarashina Model NonCommercial License
sbintuitions/sarashina-embedding-v1-1b 8,192 SB Intuitions Sarashina Model NonCommercial License
AMBER
(base, large)
512 レトリバ Apache 2.0
RoSEtta
(base-ja)
1,024 PKSHA Technology Apache 2.0
GLuCoSE v2
(base-ja-v2)
512 PKSHA Technology Apache 2.0
Ruri
(small, base, large, small-v2, base-v2, large-v2)
512 名大 笹野研 Apache 2.0
Japanese SimCSE
(unsup-simcse-ja-base, unsup-simcse-ja-large, sup-simcse-ja-base, sup-simcse-ja-large)
512 名大 笹野研 CC BY-SA 4.0
GLuCoSE
(base-ja)
512 PKSHA Technology Apache 2.0
colorfulscoop/sbert-base-ja Colorful Scoop CC BY-SA 4.0
MU-Kindai/SBERT-JSNLI-base
MU-Kindai/SBERT-JSNLI-large
近畿大学 (研究室不明)
MU-Kindai/Japanese-SimCSE-BERT-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-large-unsup
MU-Kindai/Japanese-SimCSE-RoBERTa-base-unsup
MU-Kindai/Japanese-SimCSE-BERT-base-sup
MU-Kindai/Japanese-SimCSE-BERT-large-sup
近畿大学 (研究室不明) MIT
pkshatech/simcse-ja-bert-base-clcmlp PKSHA Technology CC BY-SA 4.0
MU-Kindai/Japanese-MixCSE-BERT-base
MU-Kindai/Japanese-MixCSE-BERT-large
近畿大学 (研究室不明) MIT
MU-Kindai/Japanese-DiffCSE-BERT-base 近畿大学 (研究室不明) MIT
bclavie/fio-base-japanese-v0.1 個人 (Benjamin Clavié)
cl-nagoya/shioriha-large-pt 名大 笹野研

多表示双编码器

开发方 许可证
JaColBERTv2.5
(JaColBERTv2.4, JaColBERTv2.5)
Answer.AI MIT
JaColBERTv2
(JaColBERTv2)
個人 (Benjamin Clavié) MIT
JaColBERT
(JaColBERT)
個人 (Benjamin Clavié) MIT

交叉编码器

开发方 许可证
Ruri-v3 Reranker
(310m)
名大 笹野研 Apache 2.0
Ruri-Reranker
(stage1-small, stage1-base, stage1-large, small, base, large)
名大 笹野研 Apache 2.0
hotchpotch/japanese-reranker-cross-encoder-xsmall-v1
hotchpotch/japanese-reranker-cross-encoder-small-v1
hotchpotch/japanese-reranker-cross-encoder-base-v1
hotchpotch/japanese-reranker-cross-encoder-large-v1
hotchpotch/japanese-bge-reranker-v2-m3-v1
個人 (舘野祐一) MIT

视觉语言模型

图片+文本生成文本

从零开始训练的模型

通用
公開年 架构 学习图像/文本 开发方 许可证 / 使用条款
Stockmark-2-VL-100B-beta
(100B-beta)
2025 LLaVA-OneVision 三阶段学习:对齐预训练、字幕扩展、指令推理微调
合成数据:由Qwen2.5-VL-72B生成
斯托克马克 Qwen许可证
Llama-3.1-70B-Instruct-multimodal-JP-Graph
(v0.1)
2025 LLaVA(Llama-3.1-Swallow-70B-Instruct-v0.3 + Qwen2-VL-7B-Instruct) 专注于图表和图形理解的超过600万张合成视觉数据(文字、饼图、柱状图、流程图等),以及真实数据(与FastLabel合作) 理光 Llama 3.1社区许可证 & Gemma使用条款 & Qwen许可证 & MIT & Apache 2.0
KARAKURI VL
(32b-instruct-2507, 32b-thinking-2507-exp)
2025 视觉语言模型(基于Qwen2.5-VL-32B) 针对日语计算机用途的定制数据集:日语计算机操作记录、日语文档图像问答、视觉信息解读、日语OCR、流程图理解
三阶段学习:监督微调(SFT) + 模型融合 + 强化学习
*thinking模型通过思维链(CoT)方法明确推理过程
卡拉库里 Apache 2.0
Heron-NVILA
(1B, 2B, 15B, 33B)
2025 NVILA 三阶段学习:对齐(558k日语图像文本对 + 595k LLaVA预训练数据)、预训练(MOMIJI 13M、日语图像文本对6M、日语交错数据2M、coyo-700m 6M、mmc4-core 4M、Wikipedia-ja、LLaVA-Pretrain-JA、STAIR字幕)、有监督微调(LLaVA-instruct-v1.5-en、LLaVA-instruct-ja、日语照片对话、JA-VG-VQA对话、SynthDog-ja、AI2D、SynthDog-en、Sherlock) 图灵 Apache 2.0 & OpenAI使用条款
NABLA-VL
(15B)
2025 microsoft/phi-4 + HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit 支持单张图片、多张图片及视频输入。训练细节不明 NABLAS Apache 2.0
Sarashina2-Vision
(8b, 14b)
2025 Sarashina2 + Qwen2-VL + 两层MLP 三阶段学习:投影仪预热(LLaVA-Pretrain 78M英语token)、视觉编码器预训练(CC3M、CC12M、llm-jp-日语图像文本对、内部OCR数据集、内部图表字幕合成数据集 3.8B日语+7.7B英语token)、视觉指令微调(Japanese Visual Genome VQA、OCR-VQA、TextVQA、PlotQA、CLEVR翻译版、DOCCI翻译版、内部数据集 2.5B日语+1.0B英语token) SB Intuitions MIT
Asagi
(2B, 4B, 8B, 14B)
2025 LLaVA 新爬取的日语网站图片、现有日语数据集以及英语数据集的日语翻译约2000万条(使用English VLM Phi-3.5-vision-instruct和Japanese LLM CALM3-22B-Chat进行数据合成) 东大原田研究组 Apache 2.0
llava-calm2-siglip
(llava-calm2-siglip)
2024 LLaVA 由MS-COCO和VisualGenome生成的对话数据 赛博艾杰特 Apache 2.0
LLM-jp-3 VILA 14B
(14b)
2024 LLaVA 日语图像文本对、LLaVA-Pretrain、日语交错数据、coyo(子集)、mmc4-core(子集)、llava-instruct-ja日语照片对话、ja-vg-vqa、synthdog-ja、LLaVA-1.5指令数据(子集) 大规模语言模型研发中心 Apache 2.0 & OpenAI使用条款
Heron
(blip-ja-stablelm-base-7b-v0, blip-ja-stablelm-base-7b-v1, blip-ja-stablelm-base-7b-v1-llava-620k, git-ja-stablelm-base-7b-v0, git-ELYZA-fast-7b-v0, git-ja-stablelm-base-7b-v1)
2023 BLIP-2或GIT v1:LLaVA-Instruct-150K-JA或LLaVA-Instruct-620K-JA
v0:LLaVA-Instruct-150K-JA、日本STAIR字幕、日本Visual Genome VQA数据集
图灵 CC BY-NC 4.0
Japanese Stable VLM
(japanese-stable-vlm)
2023 LLaVA 日本CC12M、STAIR字幕、日本Visual Genome VQA数据集 Stability AI STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE
Japanese InstructBLIP Alpha
(japanese-instructblip-alpha)
2023 InstructBLIP 日本CC12M、STAIR字幕、日本Visual Genome VQA数据集 Stability AI JAPANESE STABLELM RESEARCH LICENSE
rinna MiniGPT-4
(bilingual-gpt-neox-4b-minigpt4)
2023 MiniGPT-4 CC12M、COCO 2014、Visual Genome、STAIR字幕、日本Visual Genome VQA数据集 rinna MIT
Sarashina2.2-Vision-3B
(3.8b)
2025 Sarashina2.2-3B-Instruct + SigLIP + 两层MLP 四阶段学习 + 后训练:投影仪预热(英语图像字幕)、视觉编码器预训练(日语图表、OCR、字幕)、全模型预训练(图像文本交错数据)、有监督微调
后训练:混合偏好优化
(总计日语103B + 英语157.1B token)
SB Intuitions MIT
领域专用
架构 领域 开发方 许可证
Med-Asagi
(14b-reasoning_beta)
LLaVA 医疗 东大原田研究组 CC BY-SA 4.0
watashiha/Watashiha-Llama-2-13B-Ogiri-sft-vlm LLaVA 大喜利 わたしは Llama 2社区许可证

在海外模型基础上用日语进行额外训练的模型

基础VLM 训练图像/文本 开发方 许可证
AXCXEPT/EZO-InternVL2-26B InternVL2 - Axcxept MIT
KARAKURI VL 2
(8b-thinking-2603)
Qwen3-VL-8B-Thinking 不明 カラクリ Apache 2.0

多个VLM·LLM合并创建的模型

合并前的LLM·VLM(加粗为日语LLM) 开发方 许可证
Llama-3-EvoVLM-JP-v2
(v2)
Mantis-8B-SigLIP-Llama-3, Llama-3-ELYZA-JP-8B, Bunny-v1.1-Llama-3-8B-V Sakana AI Llama 3 Community License
AXCXEPT/Llama-3-EZO-VLM-1 - (针对Llama-3-EvoVLM-JP-v2进行额外训练) Axcxept Llama 3 Community License
EvoVLM-JP
(v1-7B)
Shisa Gamma 7B (v1), LLaVA-1.6-Mistral-7B Sakana AI Apache 2.0

文本生成图像

通用型

架构 训练图像/文本 开发方 许可证
CommonArt β
(commonart-beta)
PixArt-Σ CommonCatalog-cc-by、Megalith-10M、Smithsonian Open Access、ArtBench(仅CC-0) AI Picasso Apache 2.0
EvoSDXL-JP
(v1)
Stable Diffusion - (包含Japanese Stable Diffusion XL在内的多个图像生成模型合并) Sakana AI Apache 2.0[^14]
Japanese Stable Diffusion XL
(japanese-stable-diffusion-xl)
Stable Diffusion 不明 Stability AI STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE
东北大学Stable Diffusion
(base, refiner)
Stable Diffusion WMT2023共享任务的日英双语语料库,以及laion2B-multi约1300万条图片描述 东北大学
自然语言处理研究小组
CreativeML OpenRAIL-M License
rinna Stable Diffusion
(japanese-stable-diffusion)
Stable Diffusion LAION-5B数据集中带有日语描述的部分(约1亿张图片) rinna CreativeML OpenRAIL-M License

领域专用型

架构 领域 开发方 许可证
Evo-Nishikie
(v1)
Stable Diffusion (ControlNet) 浮世绘 Sakana AI Apache 2.0[^14]
Evo-Ukiyoe
(v1)
Stable Diffusion 浮世绘 Sakana AI Apache 2.0[^14]

文本生成视频

架构 训练数据 开发方 许可证
AIdeaLab VideoJP
(AIdeaLab-VideoJP)
CogVideoX Pixabay、FineVideo AIdeaLab Apache 2.0

其他

架构 训练图像/文本 开发方 许可证
llm-jp-clip
(llm-jp-clip-vit-base-patch16, llm-jp-clip-vit-large-patch14)
CLIP 翻译了ReLAION-5B英语子集约15亿条描述 大规模语言模型研发中心 Apache 2.0
LINE雅虎CLIP
(clip-japanese-base, v2)
CLIP CommonCrawl、CC12M、YFCC100M
(v2:约20亿对Common Crawl图像-文本 + 知识蒸馏)
LINE雅虎 Apache 2.0
Recruit CLIP
(japanese-clip-vit-b-32-roberta-base)
CLIP 翻译了laion2B-multi约1.2亿条描述 Recruit CC BY-4.0
Japanese Stable CLIP
(japanese-stable-clip-vit-l-16)
SigLIP 将CC12M的描述翻译成日语,STAIR Captions Stability AI STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE
rinna CLIP
(japanese-clip-vit-b-16)
CLIP 翻译了CC12M的描述 rinna Apache 2.0
rinna CLOOB
(japanese-cloob-vit-b-16)
CLOOB 翻译了CC12M的描述 rinna Apache 2.0
博报堂技术CLIP
(base, deeper, wider)
CLIP 翻译了laion2B-multi约1.2亿条描述 博报堂技术 CC BY-NC-SA 4.0

语音语言模型 (Speech-Language Models)

语音识别

架构 训练语料 开发方 许可证
Nue ASR
(nue-asr)
Nue ASR
(HuBERT + LLM)
ReazonSpeech rinna Apache 2.0
Kotoba-Whisper
(v1.0, v1.0-ggml, v1.0-faster, v1.1, bilingual-v1.0, bilingual-v1.0-ggml, bilingual-v1.0-faster, v2.0, v2.0-ggml, v2.0-faster, v2.1, v2.2)
Distil-Whisper ReazonSpeech
(+ 多语言LibriSpeech)
Kotoba Technologies Apache 2.0
ReazonSpeech
(espnet-v1, espnet-next, espnet-v2, nemo-v2)
ESPnet (Conformer-Transducer) 或者 NeMo (FastConformer-RNNT) ReazonSpeech レアゾン・ホールディングス Apache 2.0
Reazon HuBERT ASR
(rs35kh, rs35kh-bpe)
HuBERT ReazonSpeech v2.0 レアゾン・ホールディングス Apache 2.0
Reazon Zipformer ASR
(rs35kh, rs35kh-bpe)
Zipformer ReazonSpeech v2.0 レアゾン・ホールディングス Apache 2.0
Reazon wav2vec 2.0 ASR
(base-rs35kh, large-rs35kh)
wav2vec 2.0 ReazonSpeech v2.0 レアゾン・ホールディングス Apache 2.0

特征提取

架构 训练语料 开发方 许可证
NEST-Ja
(0.1b, 0.6b)
NEST (FastConformer) ReazonSpeech v2.0 SB Intuitions MIT
くしなだ
(base, large)
HuBERT 约6万小时的日语电视广播音频 产综研 智能媒体处理研究团队 Apache 2.0
Reazon HuBERT
(base-k2)
HuBERT ReazonSpeech レアゾン・ホールディングス Apache 2.0
东大HuBERT
(base-jtube)
HuBERT JTubeSpeech 东大 猿渡・高道研 MIT
rinna HuBERT
(base, large)
HuBERT ReazonSpeech rinna Apache 2.0
いざなみ
(base, large)
wav2vec 2.0 约6万小时的日语电视广播音频 产综研 智能媒体处理研究团队 Apache 2.0
Reazon wav2vec 2.0
(base, large)
wav2vec 2.0 ReazonSpeech レアゾン・ホールディングス Apache 2.0
rinna wav2vec 2.0
(base)
wav2vec 2.0 ReazonSpeech rinna Apache 2.0
rinna data2vec Audio
(base)
data2vec Audio ReazonSpeech rinna Apache 2.0
Reazon Zipformer
(base-k2)
Zipformer ReazonSpeech レアゾン・ホールディングス Apache 2.0

其他

架构 训练语料 开发方 许可证
LLM-jp-Moshi-v1
(llm-jp-moshi-v1)
Transformer基础的文本-语音基础模型 (Moshi) J-CHAT(约69,000小时), LLM-jp-Zoom1(约1,000小时) 大规模语言模型研发中心 Apache 2.0
J-Moshi
(j-moshi, j-moshi-ext)
Transformer基础的文本-语音基础模型 (Moshi) 语音对话语料库(J-CHAT, 日本语Callhome, CSJ, 旅行代理店对话语料库, 自有闲聊对话语料库, 自有咨询对话语料库), 文本对话语料库(日本语PersonaChat, 日本语EmpatheticDialogues, 日本语日常对话语料库, RealPersonaChat) 名大 东中研 CC BY-NC 4.0
Kotoba-Speech
(v0.1)
Transformer 不明 Kotoba Technologies Apache 2.0

音乐语言模型 (Music-Language Models)

音乐-文本间转换

架构 训练语料 开发方 许可证
Japanese MULAN
(japanese-mulan-base)
MULAN (AST + GLuCoSE) 约2万个公司内部音乐-文本配对 LINEヤフー Apache 2.0

日语LLM评估基准/数据集汇总

复合型基准测试

说明 开发方
Nejumi LLM排行榜4 从应用程序开发(编码·函数调用)、推理能力(数学、逻辑与抽象推理)、专业知识、安全性评估(指令遵循·幻觉抑制)等多个角度综合评估大型语言模型的日语能力。通过引入高难度基准测试,进一步明确了顶级模型之间的性能差异。详情请参阅这篇文章 Weights & Biases
Swallow LLM排行榜v2 综合评估各类LLM在日语理解与生成任务、日语多轮对话任务以及英语理解与生成任务这三类任务中的表现。v2版本为适应推理专用模型,采用了零样本推理和思维链提示,并以更高难度的基准测试(共12项任务:日语6项、英语6项)进行评估。此外,除了整合并改进了现有的LLM评估工具——swallow-evaluation之外,还新发布了专门针对推理型模型的swallow-evaluation-instruct Swallow项目

测量基础自然语言处理任务性能的基准测试/数据集

说明 开发方
开放日语LLM排行榜 利用llm-jp-eval,在14个类别、71个以上的任务中对日语大型语言模型进行评估。 LLM-jp, Hugging Face
llm-jp-eval 这是一个跨多个数据集自动评估日语LLM的工具。
支持的所有数据集列表可在此处查看(其中也包括JGLUE中的JNLI和JCommonsenseQA等任务)。
LLM-jp
JP语言模型评估框架 Stability AI基于EleutherAI/lm-evaluation-harness分叉而来。这是一个跨多个数据集自动评估日语LLM的工具。
支持的所有数据集列表可在此处查看(其中也包括JGLUE中的JNLI和JCommonsenseQA等任务)。
Stability AI
JGLUE 作为GLUE基准测试的日语版构建的基准测试。包含MARC-ja、JCoLA、JSTS、JNLI、JSQuAD、JCommonsenseQA六个任务(JCoLA由东京大学大关研究组创建)。各任务的详细信息可参考这里这里 早稻田大学河原研究组,雅虎
JMMLU 作为MMLU基准测试的日语版构建的基准测试。题目涵盖自然科学、人文科学和社会科学等广泛学术领域,采用四选一形式。其特点不仅在于翻译了原始的MMLU,还新增了基于日本独特文化背景的问题(日本问题)。 早稻田大学河原研究组

测量文本生成能力的基准测试/数据集

说明 开发方
llm-jp-judge 基于“LLM即法官”理念的日语LLM综合评估工具。从日语质量(准确性、流畅性、细节性、相关性等,按1至5级评分)、日语安全性、MT-Bench(英语)、MT-Bench(日语)四个维度进行评估。将生成阶段与评估阶段分离,兼容vLLM、OpenAI API、Azure OpenAI、AWS Bedrock等推理客户端。详情请参阅这里 大规模语言模型研发中心
日语MT-bench 这是针对多轮对话能力的MT-bench的日语版。包含写作、角色扮演、推理、数学、编码、提取、STEM、人文八个类别,每个类别10题,共计80题。在制作日语版时,对部分问题的内容进行了调整,以更贴合日本文化。
同时包含使用GPT-4进行10级绝对评分的脚本。
Stability AI
ELYZA-tasks-100 包含100条复杂指示和任务的日语数据,所有数据均已标注评估视角。
其中包括修改摘要并解释修改之处的任务、从具体事例中提炼抽象教训的任务、根据用户意图扮演有益的AI助手的任务、需要分类讨论的复杂算术任务、从未知语言中提取模式并翻译成日语的高度推理任务、结合多项指示生成YouTube对话的任务,以及关于虚构生物或成语的创作和搞笑段子等需要丰富想象力的任务。
ELYZA
首选生成基准
(pfgen-bench)
基于50道日本特有的常识问题,从流畅性、真实性、有用性三个维度衡量LLM的日语生成能力。该基准的特点是通过n-gram和基于规则的指标计算来进行评估,无需采用“LLM即法官”的方式。 Preferred Elements (Preferred Networks)
Rakuda基准 要求模型针对关于日本地理、历史、政治和社会的40道自由提问作出回答。GPT-4会比较两款模型对相同问题的回答,判断哪一方的答案更优,从而对模型进行排名。 YuzuAI
日语Vicuna QA基准 这是MT-Bench的前身vicuna-blog-eval的日语版。收录了通用、知识、角色扮演、常识、费米估算、反事实假设、编码、数学、写作等方面的80道问题。同时还包含使用GPT-4进行自动评估(胜率计算)的脚本。排行榜请见这里 京都大学语言媒体研究室
Tengu基准 收录了来自不同类别的120道自由问题。问题类别如下:表格阅读、逻辑谜题、创意生成、函数调用、长文档摘要(超过千词)、对话摘要、千词以上长文档的封闭式问答、敬语、项目策划、数学、翻译、抽取、伦理控制、成本估算、日本、闲聊、双关语、格式、建筑、商业、法律判断、政治、虚构问题等。 Lightblue
Shaberi 这是一个可以将日语MT-benchRakuda基准ELYZA-tasks-100Tengu基准的评估整合在一起的框架。此外,还有由Shisa.AI分叉的Shaberi Lightblue

针对特定领域的性能评估基准/数据集

说明 开发方
日语语言模型金融评估框架 针对金融领域日语大语言模型的基准测试。包含金融领域的情感分析任务(chabsa)、证券分析中的基础知识任务(cma_basics)、注册会计师考试中的审计相关任务(cpa_audit)、理财规划师考试的选择题任务(fp2)以及证券外务员考试的模拟试题任务(security_sales_1)。详情请参阅此处 Preferred Networks
pfmt-bench-fin-ja 用于衡量金融领域日语大语言模型生成能力的基准测试。 Preferred Networks
jfinqa 日语金融数值推理问答基准。收录了从68家公司的有价证券报告中提取的1,000道数值推理题目,用于评估四则运算、比率计算、杜邦分析等财务推理能力。已在PyPIHuggingFace上发布。 个人 (ajtgjmdjp)
Stockmark商业问题 收录了50道关于市场动态、时事问题、社会议题及商业趋势等方面知识的问题。 Stockmark
JMED-LLM 用于评估日语医疗领域大语言模型的数据集。将此前开发的日语医疗自然语言处理任务整合为大语言模型基准测试。 NAIST社会计算研究室
JMedBench 日语医疗领域的大语言模型基准测试。包含选择题、机器翻译、命名实体识别、文本分类和句子相似度计算共5类,总计20个数据集(部分数据集借用了JMMLU中的医疗领域问题以及JMED-LLM中的内容)。此外,还开发了用于简化JMedBench评估的工具med-eval NII相泽研究组
日语医学语言模型评估框架 一个可通过单条命令运行的、专门针对医疗领域的日英双语能力评估程序。 个人 (助田一晟)
YakugakuQA 基于日本药师国家考试的日语制药领域知识评估数据集。用于衡量基于事实的药学知识。 EQUES Inc.
NayoseQA 用于评估日语制药领域多语言术语对应与规范化能力的数据集。考察对同义词及专业术语的理解程度。 EQUES Inc.
SogoCheck 一项全新的任务,用于评估成对句子之间的一致性推理。即使在GPT-4o上表现也较差的高难度推理任务。 EQUES Inc.
MedRECT 用于评估临床记录中检测并纠正医学错误能力的基准测试。由错误检测、错误句子定位和错误修正三个阶段的任务组成。设有日语版(663个样本)和英语版(458个样本),其中日语版基于医师国家考试构建。 Preferred Networks
karakuri-bench 用于衡量日语大语言模型在客服场景下性能的数据集。 Karakuri

用于衡量事实性和安全性的基准/数据集

说明 开发方
JTruthfulQA 大语言模型事实性评估数据集TruthfulQA的日语版本。从头开始收集了关于迷信等虽被部分人相信但并非事实的现象的相关问题,以及有关日本本土知识的问题。 早稻田大学河原研究组
JCommonsenseMorality 日语常识道德相关数据集。针对描述行为的句子,标注其是否在道德上错误或可接受的二元标签。 北海道大学语言媒体学研究室
JBBQ 社会偏见问答数据集BBQ的日语版。根据日本文化与习俗进行了翻译、修改,并新增了问题。 东京大学谷中研究组

用于衡量逻辑推理能力的基准/数据集

说明 开发方
JFLD(日语形式逻辑演绎) 询问日语大语言模型演绎推理能力的数据集(由同一作者团队提出的FLD(形式逻辑演绎)的日语版本)。其特点在于采用反事实样本来进行评估,以区分大语言模型所掌握的知识。 日立制作所
JHumanEval 英语指令下Python代码生成能力评估基准HumanEval的日语版本。创建日语版时,先通过机器翻译,再由人工进行修正。 日本女子大学仓光研究组
JMultiPL-E 基于OpenAI HumanEval,涵盖17种编程语言(C++、C#、Go、Java、JavaScript、PHP、Ruby、Rust、Scala、Swift、TypeScript等)的代码生成能力评估数据集。用于衡量多语言代码理解和生成性能。 东北大学自然语言处理研究小组

用于衡量指令遵循能力的基准/数据集

说明 开发方
LCTG Bench 日语大语言模型可控性基准测试。从输出格式、字数限制、关键词以及禁用词四个方面评估大语言模型是否能够遵守约束条件并正确输出内容。同时也会评估生成文本的质量。 CyberAgent
JFBench 用于评估日语大语言模型指令遵循能力的基准测试。在翻译IFBench的6个组别基础上,又新设了10个针对日语特有约束条件(敬体/常体、平假名/片假名/汉字混用、数字书写方式等)的组别。共计16个约束组别、174种约束类型,结合1/2/4/8种约束数量组合,总共评估1,600个样本。 Preferred Networks

嵌入模型的基准/数据集

说明 开发方
JMTEB 作为MTEB的日语版而创建的基准测试。
由文档聚类、文档分类、句子间相似度、句子对标签预测以及文档抽取5种任务构成(随后又新增了重排序任务)。
SB Intuitions
JQaRA 用于评估日语文档抽取与重排序精度的数据集。为1,667个问题分别指定了100份候选文档,其中至少有一份能够回答该问题。问题来源于JAQKET,候选文档则使用日语维基百科。 个人 (馆野祐一)
JaCWIR 旨在能够在维基百科以外的领域评估文档抽取与重排序能力而创建的数据集。为5,000个问题分别指定了1个源自该问题的原始网页,以及99个与问题无关的其他网页。 个人 (馆野祐一)

视觉语言模型(Vision-Language Models)的基准测试/数据集

说明 开发方
llm-jp-eval-mm 用于在多个基准任务上评估日语VLM性能的工具 大规模语言模型研发中心
BusinessSlideVQA 包含220道关于复杂日语商务幻灯片图像的问答数据集。旨在评估文档理解能力。 StockMark
JMMMU 作为[MMLU基准]的日语版本构建的基准测试。由720道MMLU翻译版题目和600道具有日本文化特色的全新题目组成。 东京大学相泽研究组
JDocQA 基于日语文档(宣传册、幻灯片、报告、网站)构建的问答数据集,共包含11,600道问题。涵盖多种提问形式,并包括无法解答的问题。 NAIST渡边研究组
Heron VLM排行榜 powered by nejumi@WandB 汇总了[Japanese-Heron-Bench]和[LLaVA-Bench-In-the-Wild(日语版)]的评估结果。 Turing, Weights & Biases
Japanese-Heron-Bench 为21张图片分配了共计102道问题。其特点是图片和问题均要求具备有关日本的知识。 Turing
JA-VLM-Bench-In-the-Wild Sakana AI为评估EvoVLM-JP-v1-7B而自行准备的数据集。为42张图片分配了共计50道问题。其特点是图片和问题均要求具备有关日本的知识。 Sakana AI
JA-Multi-Image-VQA 用于评估多张图片下日语问答能力的数据集。 Sakana AI
LLaVA-Bench-In-the-Wild(日语版) LLaVA-Bench-In-the-Wild通过DeepL翻译成日语而成。为24张图片分配了共计60道问题。 Turing
LLaVA-Bench(COCO)日语版 将用于LLaVA评估的LLaVA-Bench(COCO)数据集通过DeepL翻译成日语而成。为30张图片分别分配了3种类型的问题。 Turing
Japanese Visual Genome VQA数据集 基于[Visual Genome数据集]的图片标注而成的问答数据集。该数据集中截取的500条记录[JA-VG-VQA-500]有时也被用作VLM评估基准。 雅虎
japanese-bizform-table-kie 用于评估从非结构化表格中提取信息精度的基准测试。由50种表格、共计2,500张文档图像组成。 AI inside

各模型·架构的原始论文

LLM训练方法的原始论文

贡献者

以下是为本项目做出贡献的各位!

贡献者

引用

本仓库的摘要也以预印本形式发布: 探索面向日语的开源大型语言模型:实用指南

如需引用本仓库,请按以下方式注明:

@article{awesomeJapanese2024,
    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},
    author={Kaito Sugimoto},
    doi={10.51094/jxiv.682},
    journal={Jxiv preprint},
    year={2024}
}

[^2]: 虽然未详细说明,但新闻稿中提到:“训练数据除了开放数据集外,还包括Stability AI Japan创建的自有数据集,以及EleutherAI Polyglot项目日语团队和Stable Community Japan成员合作制作的数据。”

[^4]: ○:模型已上传至HuggingFace Model Hub,可通过AutoModel.from_pretrained()等方法直接加载。△:模型未上传至Model Hub,但兼容HuggingFace(transformers,旧pytorch-transformers)格式。✕:模型不兼容HuggingFace格式。

[^6]: 这项研究尝试了多种分词器与子词分割方法的组合。由于难以列出所有组合的模型,此处仅以实验中平均任务性能最高的Juman++ + BPE模型为代表进行展示。

[^11]: 在进行指令微调后,加入了Llama 3 Instruct与Llama 3 Base之间的聊天向量差异。

[^13]: 不过,如果希望将KARAKURI LM用于商业用途,则需要直接联系开发方——卡拉库里株式会社。

[^14]: 不过,强调应以研究和教育为目的使用。此外,还需注意合并源模型的部分许可证并非Apache 2.0许可。

[^15]: 详细内容已在以下视频中公布:松尾研GENIAC LLM开发项目第一阶段成果发布会 2024.06.01 @ 东京大学福武厅 @ 58:22

[^17]: 在进行指令微调之前,加入了Llama 3 Instruct与Llama 3 Base之间的聊天向量差异。

[^20]: 在进行ORPO之前,加入了Gemma 2 Instruct与Gemma 2 Base之间的聊天向量差异。

[^21]: 对嵌入模型的分类参考了基于预训练语言模型的密集文本检索:综述(Zhao+, 2022)。Bi-Encoder是将两个输入分别输入模型,各自转化为向量后,再通过内积或余弦相似度来衡量输入的接近程度的架构。相比之下,Cross-Encoder则是将两个输入组合在一起输入模型,在模型内部直接计算它们的相似度。在信息抽取领域,Cross-Encoder虽然计算成本较高,但有望更精细地计算输入的接近程度,因此常被用作重新排序抽取结果的重排序器。另外,Bi-Encoder中还有一种将输入表示为多个向量(例如按词元划分)而非单一向量的类型(如ColBERT),因此进一步细分为单表征Bi-Encoder和多表征Bi-Encoder。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|2周前
Agent开发框架图像

n8n

n8n 是一款面向技术团队的公平代码(fair-code)工作流自动化平台,旨在让用户在享受低代码快速构建便利的同时,保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点,帮助用户轻松连接 400 多种应用与服务,实现复杂业务流程的自动化。 n8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”:既可以通过直观的可视化界面拖拽节点搭建流程,也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外,n8n 原生集成了基于 LangChain 的 AI 能力,支持用户利用自有数据和模型构建智能体工作流。在部署方面,n8n 提供极高的自由度,支持完全自托管以保障数据隐私和控制权,也提供云端服务选项。凭借活跃的社区生态和数百个现成模板,n8n 让构建强大且可控的自动化系统变得简单高效。

184.7k|★★☆☆☆|今天
数据工具开发框架Agent

AutoGPT

AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台,核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点,让用户只需设定目标,AI 即可自主规划步骤、调用工具并持续运行直至完成任务。 无论是开发者、研究人员,还是希望提升工作效率的普通用户,都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体;研究人员能基于开源架构探索多智能体协作机制;而非技术背景用户也可直接选用预置的智能体模板,立即投入实际工作场景。 AutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑,每个块负责单一动作,灵活且易于调试。同时,平台支持本地自托管与云端部署两种模式,兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本,即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛,让人人都能成为 AI 的创造者与受益者。

183.6k|★★★☆☆|今天
Agent语言模型插件

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

161.7k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

109.2k|★★☆☆☆|2天前
开发框架图像Agent