[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-llm-jp--awesome-japanese-llm":3,"tool-llm-jp--awesome-japanese-llm":61},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161692,"2026-04-20T11:33:57",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":24,"last_commit_at":59,"category_tags":60,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",109154,"2026-04-18T11:18:24",[14,15,13],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":75,"owner_email":76,"owner_twitter":75,"owner_website":77,"owner_url":78,"languages":79,"stars":46,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":95,"env_os":74,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":101,"github_topics":103,"view_count":24,"oss_zip_url":75,"oss_zip_packed_at":75,"status":17,"created_at":123,"updated_at":124,"faqs":125,"releases":126},10213,"llm-jp\u002Fawesome-japanese-llm","awesome-japanese-llm","日本語LLMまとめ - Overview of Japanese LLMs","awesome-japanese-llm 是一个专注于汇总日语大语言模型（LLM）及相关评估基准的开源知识库。它系统地整理了目前公开可用的、以日语为核心训练数据的各类模型信息，涵盖了从基础架构、参数量、训练数据规模到具体的许可协议等关键细节。\n\n在日语 AI 生态中，模型种类繁多且授权条款复杂，开发者往往难以快速甄别适合自身项目的资源。awesome-japanese-llm 有效解决了这一信息分散与筛选困难的痛点，提供了一份经过社区维护的“导航图”，帮助用户清晰了解不同模型的技术特点及使用限制，特别是明确区分了完全开源与非商业限定授权的模型，规避了潜在的合规风险。\n\n这份资源特别适合 AI 研究人员、自然语言处理开发者以及希望将日语大模型集成到产品中的技术团队使用。无论是需要从头训练的研究者，还是寻找特定微调模型的应用开发者，都能从中获得极具价值的参考。其独特的亮点在于不仅罗列了如 LLM-jp-3 172B、Sarashina2 等前沿模型的具体技术参数，还持续追踪最新的评估基准，并以多语言版本（含中文友好链接）呈现，极大地降低了日语大模型技术的探索门槛。","# 日本語LLMまとめ\n[ [**English**](.\u002Fen\u002F) | [**Français**](.\u002Ffr\u002F) | 日本語 ]\n\n\u003Cdiv class=\"github-only\">\n\n> **📖 より読みやすいWeb版をご利用ください**\n> \n> このREADMEの内容は、**[llm-jp.github.io\u002Fawesome-japanese-llm](https:\u002F\u002Fllm-jp.github.io\u002Fawesome-japanese-llm)** でより見やすい形式でご覧いただけます。表の表示崩れやレイアウトの問題を防ぐため、Web版の閲覧を推奨いたします。\n\n\u003C\u002Fdiv>\n\nこの記事は、一般公開されている日本語LLM（日本語を中心に学習されたLLM）および日本語LLM評価ベンチマークに関する情報をまとめたものです。情報は、有志により収集されており、その一部は論文や公開されているリソースなどから引用しています。\n\n::: warning 以下の点について、あらかじめご理解とご了承をお願いいたします\n1. 本記事の内容は、完全性や正確性を保証するものではありません。これらの情報は予告なく変更されることがあり、また最新の情報を常に提供できるとは限りません。\n2. 一部の情報は、推測や個々の利用者の解釈にもとづくものである場合があります。そのため、全ての読者にとって必ずしも正確であるとは限りません。\n3. 本記事に記載されているモデルの多くは、MIT や Apache-2.0 といったオープンソースライセンスが適用されています。しかしながら、**一部のモデルには、非営利限定のライセンス（例：CC BY-NC-SA 4.0）や開発元特有のライセンスが適応されており、これらは必ずしもオープンソースとは言えない可能性がある**点にご注意ください。\n4. 個人が開発したモデルに関する記述では、作成者の敬称は省略させていただいております。\n:::\n\nこの記事の管理は GitHub で行っています。記事の間違いを発見した場合、あるいはモデルの追加提案を行いたい場合は、[GitHub Issues](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fawesome-japanese-llm\u002Fissues) 経由で報告していただけますと幸いです。\n\n::: details 目次 {open}\n[[toc]]\n:::\n\n\u003Ca id=\"generative\">\u003C\u002Fa>\n## テキスト生成に主に使うモデル\n\n*画像を含むテキスト生成モデルは[こちら](#multimodal-text-generation)*\n\n\u003Ca id=\"full-scratch-models\">\u003C\u002Fa>\n### スクラッチ学習モデル\n\n\u003Ca id=\"generative-scratch-general\">\u003C\u002Fa>\n#### 汎用\n\n|    | 公開年 |  アーキテクチャ  |  入出力で扱える\u003Cbr>トークン数  |  学習テキスト  |  開発元  | ライセンス \u002F 利用規約 |\n|:---|:---:|:---:|:---:|:---:|:---:|:---:|\n| [Sarashina2-8x70B](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fnews\u002Fpress\u002F20241108_01\u002F) | 2024 | MoE\u003Cbr>([8x70b (**465b**)](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-8x70b)) | 8,192 | Sarashina2 (70B) に対して Sparse Upcycling で学習 | SB Intuitions | Sarashina Model NonCommercial License |\n| [LLM-jp-3 172B](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2024\u002F1224.html) | 2024 | Llama\u003Cbr>([**172b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b), [**172b**-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-instruct2), [**172b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-instruct3)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)\u003Cbr>(計 **2.1T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), [magpie-sft-v1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fmagpie-sft-v1.0), Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k\u003Cbr>DPO (instruct3 only): [aya-ja-evol-inst](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Faya-ja-evol-inst), [ac-self-inst](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fac-self-inst) | 大規模言語モデル研究開発センター | 事前学習済みモデル: LLM-jp-3 172B Terms of Use\u003Cbr>事後学習済みモデル: llm-jp-3-172b-instruct3利用許諾契約 |\n| [LLM-jp-3 172B beta2](https:\u002F\u002Fllmc.nii.ac.jp\u002Ftopics\u002Fllm-jp-3-172b-beta2\u002F) | 2024 | Llama\u003Cbr>([**172b**-beta2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-beta2), [**172b**-beta2-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-beta2-instruct2)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)の一部\u003Cbr>(計 **1.4T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), [magpie-sft-v1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fmagpie-sft-v1.0), Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k | 大規模言語モデル研究開発センター | LLM-jp-3 172B beta2 Terms of Use |\n| [LLM-jp-3 172B beta1](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2024\u002F0917.html) | 2024 | Llama\u003Cbr>([**172b**-beta1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-beta1), [**172b**-beta1-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-beta1-instruct)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)の一部\u003Cbr>(計 **0.7T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), Dolly Dataset, OASST1, OASST2, Aya Dataset, \tichikara-instruction-format, Daring-Anteater, FLAN | 大規模言語モデル研究開発センター | LLM-jp-3 172B beta1 Terms of Use |\n| [LLM-jp-3 172B alpha](https:\u002F\u002Fllmc.nii.ac.jp\u002Ftopics\u002Fllm-jp-3-172b-alpha1-alpha2\u002F) | 2024 | Llama\u003Cbr>([**172b**-alpha1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-alpha1), [**172b**-alpha1-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-alpha1-instruct), [**172b**-alpha2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-alpha2), [**172b**-alpha2-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-alpha2-instruct)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)の一部\u003Cbr>(alpha1: 計 **0.7T** トークン, alpha2: 計 **1.4T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), Dolly Dataset, OASST1, OASST2, Aya Dataset, \tichikara-instruction-format, Daring-Anteater, FLAN | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [Stockmark-2-100B-Instruct-beta](https:\u002F\u002Fstockmark.co.jp\u002Fnews\u002F20250318) | 2025 | Llama\u003Cbr>([**100B**-Instruct-beta](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002FStockmark-2-100B-Instruct-beta), [**100B**-Instruct-beta-AWQ](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002FStockmark-2-100B-Instruct-beta-AWQ)) | 4,096 | 事前学習: 計 **1.5T** トークン\u003Cbr>Instruction Tuning\u003Cbr>DPO | ストックマーク | MIT |\n| [Stockmark-100b](https:\u002F\u002Fstockmark.co.jp\u002Fnews\u002F20240516) | 2024 | Llama\u003Cbr>([**100b**](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fstockmark-100b), [**100b**-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fstockmark-100b-instruct-v0.1)) | 4,096 | 事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus\u003Cbr>(計 **910B** トークン)\u003Cbr>Instruction Tuning (LoRA): [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F) | ストックマーク | MIT |\n| [PLaMo-100B-Pretrained](https:\u002F\u002Fwww.preferred.jp\u002Fja\u002Fnews\u002Fpr20241015\u002F) | 2024 | Llama[^22]\u003Cbr>([**100b**](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-100b)) | 4,096 | 事前学習: Japanese CommonCrawl, RefinedWeb, 独自のデータセット\u003Cbr>(計: **2.0T** トークン) | Preferred Elements (Preferred Networks) | PLaMo Non-Commercial License |\n| [LLM-jp-3.1](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fja\u002Fblog\u002Fblog-887\u002F) | 2025 | Llama\u002FMoE\u003Cbr>([8x13b (**73b**)](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-8x13b), [8x13b (**73b**)-instruct4](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-8x13b-instruct4), [**13b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-13b), [**13b**-instruct4](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-13b-instruct4), [**1.8b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-1.8b), [**1.8b**-instruct4](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-1.8b-instruct4)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)\u003Cbr>(計 **2.5T** トークン)\u003Cbr>継続事前学習: インストラクション・レスポンスペア\u003Cbr>(計 **90B** トークン)\u003Cbr>SFT + DPO | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [LLM-jp-3 MoE](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fja\u002Fblog\u002Fblog-603\u002F) | 2025 | MoE\u003Cbr>([8x1.8b (**9.3b**)](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x1.8b), [8x1.8b (**9.3b**)-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x1.8b-instruct2), [8x1.8b (**9.3b**)-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x1.8b-instruct3), [8x13b (**73b**)](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x13b), [8x13b (**73b**)-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x13b-instruct2), [8x13b (**73b**)-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x13b-instruct3)) | 4,096 | LLM-jp-3 (1.8b, 13b) に対して Drop-Upcycling で学習 | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [Sarashina2](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fnews\u002Fpress\u002F20240614_01\u002F) | 2024 | Llama\u003Cbr>([**7b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-7b), [**13b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-13b), [**70b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-70b)) | 7b, 13b: 4,096\u003Cbr>70b: 8,192 | 事前学習: Japanese Common Crawl, SlimPajama, StarCoder\u003Cbr>(計 **2.1T** トークン) | SB Intuitions | MIT |\n| [Sarashina1](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fnews\u002Fpress\u002F20240614_01\u002F) | 2024 | GPT-NeoX\u003Cbr>([**7b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina1-7b), [**13b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina1-13b), [**65b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina1-65b)) | 2,048 | 事前学習: Japanese Common Crawl\u003Cbr>(計 **1T** トークン) | SB Intuitions | MIT |\n| [Tanuki-8×8B](https:\u002F\u002Fweblab.t.u-tokyo.ac.jp\u002F2024-08-30\u002F) | 2024 | MoE (**47b**)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fweblab-GENIAC\u002FTanuki-8x8B-dpo-v1.0), [v1.0-AWQ](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8x8B-dpo-v1.0-AWQ), [v1.0-GPTQ-4bit](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8x8B-dpo-v1.0-GPTQ-4bit), [v1.0-GPTQ-8bit](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8x8B-dpo-v1.0-GPTQ-8bit), [v1.0-GGUF](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8x8B-dpo-v1.0-GGUF)) | 4,096 | 事前学習: 様々な Web 上のデータ, 合成データ（計 **1.7T** トークン）\u003Cbr>SFT, DPO: 様々な合成データ [^19] | 松尾研LLM開発プロジェクト | Apache 2.0 |\n| [LLM-jp-4 32B-A3B](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2026\u002F0403.html) | **2026** | Qwen3 MoE\u003Cbr>([**32b-a3b**-base](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-32b-a3b-base), [**32b-a3b**-thinking](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-32b-a3b-thinking)) | **65,536** | 事前学習 + 中間学習: [llm-jp-corpus-v4.1](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v4.1), [llm-jp-corpus-midtraining-v2](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-midtraining-v2)\u003Cbr>(計 **11.7T** トークン)\u003Cbr>SFT: [llm-jp-4-thinking-sft-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllm-jp-4-thinking-sft-data)\u003Cbr>DPO: [llm-jp-4-32b-a3b-thinking-dpo-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllm-jp-4-32b-a3b-thinking-dpo-data) | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [PLaMo 3](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo_3_8b_31b\u002F) | 2025 | Gemma ベースのアーキテクチャ\u003Cbr>([**2b**-base](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-3-nict-2b-base), [**8b**-base](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-3-nict-8b-base), [**31b**-base](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-3-nict-31b-base)) | 4,096 | 事前学習: 英語、日本語、コード、多言語\u003Cbr>(2b: **200B** トークン, 8b: **1T** トークン, 31b: **3T** トークン) | Preferred Networks | PLaMo community license |\n| [Way-PLaMo-3-8b-chat](https:\u002F\u002Fhuggingface.co\u002FWayBob\u002FWay-sft-plamo-3-8b-chat) | 2025 | PLaMo 3ベース ([**8b**-chat](https:\u002F\u002Fhuggingface.co\u002FWayBob\u002FWay-sft-plamo-3-8b-chat)) | 4,096 | Instruction Following SFT: [Alpaca](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyahma\u002Falpaca-cleaned) (51.7K), [Dolly-15k-ja](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkunishou\u002Fdatabricks-dolly-15k-ja) (15K) | 個人 (WayBob) | PLaMo community license |\n| [CyberAgentLM3 (CALM3)](https:\u002F\u002Fwww.cyberagent.co.jp\u002Fnews\u002Fdetail\u002Fid=30463) | 2024 | Llama\u003Cbr>([**22b**-chat](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm3-22b-chat), [**22b**-chat-selfimprove-experimental](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm3-22b-chat-selfimprove-experimental)) | **16,384** | 不明\u003Cbr>(計 **2.0T** トークン) | サイバーエージェント | Apache 2.0 |\n| [LLM-jp-3 13B instruct3](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fnews\u002Fpost-513\u002F) | 2025 | Llama\u003Cbr>([150m](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-150m), [150m-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-150m-instruct2), [150m-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-150m-instruct3), [440m](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-440m), [440m-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-440m-instruct2), [440m-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-440m-instruct3), [980m](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-980m), [980m-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-980m-instruct2), [980m-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-980m-instruct3), [**1.8b**-instrcut2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-1.8b-instruct2), [**1.8b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-1.8b-instruct3), [**3.7b**-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-3.7b-instruct2), [**3.7b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-3.7b-instruct3), [**7.2b**-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-7.2b-instruct2), [**7.2b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-7.2b-instruct3), [**13b**-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-13b-instruct2), [**13b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-13b-instruct3)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)\u003Cbr>(計 **2.1T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), [magpie-sft-v1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fmagpie-sft-v1.0), Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, Synthetic-JP-EN-Coding-Dataset-567k\u003Cbr>DPO (instruct3 only): [aya-ja-evol-inst](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Faya-ja-evol-inst), [ac-self-inst](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fac-self-inst) | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [LLM-jp-3 13B](https:\u002F\u002Fllmc.nii.ac.jp\u002Ftopics\u002Fpost-707\u002F) | 2024 | Llama\u003Cbr>([**1.8b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-1.8b), [**1.8b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-1.8b-instruct), [**3.7b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-3.7b), [**3.7b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-3.7b-instruct), [**7.2b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-7.2b), [**7.2b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-7.2b-instruct), [**13b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-13b), [**13b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-13b-instruct)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)\u003Cbr>(計 **2.1T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), FLAN, \tichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [llm-jp-3-3.7b-instruct-EZO](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fllm-jp-3-3.7b-instruct-EZO-Common) | 2024 | Llama\u003Cbr>([**3.7b**-instruct-EZO-Common](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fllm-jp-3-3.7b-instruct-EZO-Common), [**3.7b**-instruct-EZO-Humanities](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fllm-jp-3-3.7b-instruct-EZO-Humanities)) | 4,096 | LLM-jp-3 (3.7B) に対して追加学習 | Axcxept | Apache 2.0 |\n| [LLM-jp-13B v2.0](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2024\u002F0430.html) | 2024 | Llama\u003Cbr>([**13b**-v2.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-v2.0), [**13b**-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0), [**13b**-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0), [**13b**-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)) | 4,096 | 事前学習: [llm-jp-corpus-v2](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v2)\u003Cbr>(計 **260B** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), Dolly Dataset, OASST1, OASST2 | LLM-jp | Apache 2.0 |\n| [Fugaku-LLM](https:\u002F\u002Fpr.fujitsu.com\u002Fjp\u002Fnews\u002F2024\u002F05\u002F10.html) | 2024 | GPT\u003Cbr>([**13B**](https:\u002F\u002Fhuggingface.co\u002FFugaku-LLM\u002FFugaku-LLM-13B), [**13B**-instruct](https:\u002F\u002Fhuggingface.co\u002FFugaku-LLM\u002FFugaku-LLM-13B-instruct), [**13B**-instruct-gguf](https:\u002F\u002Fhuggingface.co\u002FFugaku-LLM\u002FFugaku-LLM-13B-instruct-gguf)) | 2,048 | 事前学習: 独自\u003Cbr>Instruction Tuning: OASST1, Dolly Dataset, GSM8K | 東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba Technologies | Fugaku-LLM Terms of Use |\n| [LLM-jp-13B v1.1](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fnews\u002Fpost-521\u002F) | 2024 | GPT\u003Cbr>([**13b**-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1), [**13b**-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1), [**13b**-dpo-lora-hh_rlhf_ja-v1.1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-dpo-lora-hh_rlhf_ja-v1.1)) | 2,048 | Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F)\u003Cbr>DPO (LoRA): HH RLHF | LLM-jp | Apache 2.0 |\n| [LLM-jp-13B](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2023\u002F1020.html) | 2023 | GPT\u003Cbr>([1.3b-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-1.3b-v1.0), [**13b**-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-v1.0), [**13b**-instruct-full-jaster-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-jaster-v1.0), [**13b**-instruct-full-jaster-dolly-oasst-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0), [**13b**-instruct-full-dolly-oasst-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-dolly-oasst-v1.0), [**13b**-instruct-lora-jaster-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-lora-jaster-v1.0), [**13b**-instruct-lora-jaster-dolly-oasst-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0), [**13b**-instruct-lora-dolly-oasst-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-lora-dolly-oasst-v1.0)) | 2,048 | 事前学習: [llm-jp-corpus](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-corpus) (Wikipedia, Japanese mC4, The Pile, Stack) (計 **300B** トークン)\u003Cbr>Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1 | LLM-jp | Apache 2.0 |\n| [PLaMo-13B](https:\u002F\u002Fwww.preferred.jp\u002Fja\u002Fnews\u002Fpr20230928\u002F) | 2023 | Llama[^1]\u003Cbr>([**13b**](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-13b), [**13b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-13b-instruct), [**13b**-instruct-nc](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-13b-instruct-nc)) | base: 4,096\u003Cbr>instruct, instruct-nc: 8,192 | 事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4\u003Cbr>(計 **1.5T** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習) | Preferred Networks | Apache 2.0\u003Cbr>(NC モデルは CC BY-NC 4.0) |\n| [Stockmark-13b](https:\u002F\u002Fstockmark.co.jp\u002Fnews\u002F20231027) | 2023 | Llama\u003Cbr>([**13b**](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fstockmark-13b), [**13b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fstockmark-13b-instruct)) | 2,048 | 事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus\u003Cbr>(計 **220B** トークン)\u003Cbr>Instruction Tuning (LoRA): [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F) | ストックマーク | baseモデル: MIT\u003Cbr>instructモデル: CC BY-NC-SA 4.0 |\n| [Weblab-10B](https:\u002F\u002Fwww.t.u-tokyo.ac.jp\u002Fpress\u002Fpr2023-08-18-001) | 2023 | GPT-NeoX\u003Cbr>([**10b**](https:\u002F\u002Fhuggingface.co\u002Fmatsuo-lab\u002Fweblab-10b), [**10b**-instruction-sft](https:\u002F\u002Fhuggingface.co\u002Fmatsuo-lab\u002Fweblab-10b-instruction-sft)) | 2,048 | Japanese mC4 + The Pile（計 **600B** トークン）\u003Cbr>\\*instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング | 東大 松尾研 | CC BY-NC 4.0 |\n| [LLM-jp-4 8B](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2026\u002F0403.html) | **2026** | Llama\u003Cbr>([**8b**-base](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-8b-base), [**8b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-8b-instruct), [**8b**-thinking](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-8b-thinking)) | **65,536** | 事前学習 + 中間学習: [llm-jp-corpus-v4.1](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v4.1), [llm-jp-corpus-midtraining-v2](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-midtraining-v2)\u003Cbr>(計 **11.7T** トークン)\u003Cbr>SFT: [llm-jp-4-thinking-sft-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllm-jp-4-thinking-sft-data)\u003Cbr>DPO (thinking のみ): [llm-jp-4-8b-thinking-dpo-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllm-jp-4-8b-thinking-dpo-data) | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [PLaMo 2.1 8B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-2-1-8b\u002F) | 2025 | Samba ベースのアーキテクチャ\u003Cbr>([**8b**-cpt](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-2.1-8b-cpt)) | **32,768** | 訓練詳細不明 | Preferred Networks | PLaMo community license |\n| [PLaMo 2 8B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-2-8b\u002F) | 2025 | Samba ベースのアーキテクチャ\u003Cbr>([**8b**](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-2-8b)) | | 日本語、英語等のデータ\u003Cbr>（計 **6T** トークン） | Preferred Networks | PLaMo community license |\n| [Tanuki-8B](https:\u002F\u002Fweblab.t.u-tokyo.ac.jp\u002F2024-08-30\u002F) | 2024 | Tanuki (**8b**)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fweblab-GENIAC\u002FTanuki-8B-dpo-v1.0), [v1.0-AWQ](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8B-dpo-v1.0-AWQ), [v1.0-GPTQ-4bit](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8B-dpo-v1.0-GPTQ-4bit), [v1.0-GPTQ-8bit](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8B-dpo-v1.0-GPTQ-8bit), [v1.0-GGUF](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8B-dpo-v1.0-GGUF)) | 4,096 | 事前学習: 様々な Web 上のデータ, 合成データ（計 **1.3T** トークン）\u003Cbr>SFT, DPO: 様々な合成データ [^19] | 松尾研LLM開発プロジェクト | Apache 2.0 |\n| [Japanese StableLM Alpha](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-alpha-7b) | 2023 | GPT-NeoX\u003Cbr>([base-alpha-**7b**](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-alpha-7b), [instruct-alpha-**7b**](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-alpha-7b), [instruct-alpha-**7b**-v2](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-alpha-7b-v2)) | 2,048 | Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama\u003Cbr>(+ 独自のデータセット)[^2]\u003Cbr>(計 **750B** トークン)\u003Cbr>\\*instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング\u003Cbr>(v2では商用利用不可の Alpaca Dataset を除外) | Stability AI | baseモデル: Apache 2.0\u003Cbr>instruct モデル (v1): [独自のライセンス](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-alpha-7b\u002Ftree\u002Fmain)\u003Cbr>instruct モデル (v2): Apache 2.0 |\n| [CyberAgentLM2 (CALM2)](https:\u002F\u002Fwww.cyberagent.co.jp\u002Fnews\u002Fdetail\u002Fid=29479) | 2023 | Llama\u003Cbr>([**7b**](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm2-7b), [**7b**-chat](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm2-7b-chat), [**7b**-chat-dpo-experimental](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm2-7b-chat-dpo-experimental)) | base: 4,096\u003Cbr>chat: **32,768** |一般公開されている日本語・英語のデータセット（詳細不明） (計 **1.3T** トークン)\u003Cbr>*dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習 | サイバーエージェント | Apache 2.0\u003Cbr>(dpo モデルのみ CC BY 4.0) |\n| [OpenCALM](https:\u002F\u002Fwww.cyberagent.co.jp\u002Fnews\u002Fdetail\u002Fid=28817) | 2023 | GPT-NeoX\u003Cbr>([small](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-small), [medium](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-medium), [large](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-large), [**1b(1.4b)**](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-1b), [**3b(2.7b)**](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-3b), [**7b(6.8b)**](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-7b)) | 2,048 | 日本語 Wikipedia \u003Cbr>+ Jpanese mC4\u003Cbr>+ Japanese CC-100 | サイバーエージェント | CC BY-SA 4.0 |\n| [Stormy](https:\u002F\u002Fjxiv.jst.go.jp\u002Findex.php\u002Fjxiv\u002Fpreprint\u002Fview\u002F422\u002F1350) | 2023 | GPT-NeoX\u003Cbr>([**7b(6.8b)**](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fstormy-7b-10ep)) | 2,048 | OpenCALM (6.8b) に対して\u003Cbr>llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング | 東大 和泉研 | CC BY-SA 4.0 |\n| [ByGPT-JP](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbygpt-jp-multi-lm-head-6.5B-alpha) | 2025 | Llama ベース\u003Cbr>([multi-lm-head-**6.5b**-alpha](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbygpt-jp-multi-lm-head-6.5B-alpha)) | 5,760 | [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3) のサブセット (ja_cc, ja_warp_html, ja_warp_pdf, ja_wiki, kaken) | 東北大\u003Cbr>自然言語処理研究グループ | Apache 2.0 |\n| [rinna GPT \u003Cbr> (英語やコードも含めて学習されたモデル)](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b) | 2023 | GPT-NeoX\u003Cbr>([**4b(3.8b)**](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b), [**4b(3.8b)**-8k](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-8k), [**4b(3.8b)**-instruction-sft](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-instruction-sft), [**4b(3.8b)**-instruction-ppo](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-instruction-ppo)) | 8kモデル: 8,192\u003Cbr>他: 2,048 | Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile\u003Cbr>(計 **524B** トークン)\u003Cbr>\\*8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング\u003Cbr>\\*instruction-sft モデルでは HH RLHF、FLAN でファインチューニング\u003Cbr>\\*instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習 | rinna | MIT |\n| [japanese-large-lm](https:\u002F\u002Fengineering.linecorp.com\u002Fja\u002Fblog\u002F3.6b-japanese-language-model-with-improved-dialog-performance-by-instruction-tuning) | 2023 | GPT-NeoX\u003Cbr>([**1.7b**](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-large-lm-1.7b), [**3.6b**](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-large-lm-3.6b), [**1.7b**-instruction-sft](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-large-lm-1.7b-instruction-sft), [**3.6b**-instruction-sft](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-large-lm-3.6b-instruction-sft)) | 2,048 | 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど\u003Cbr>(計 **650GB**)\u003Cbr>\\*instruction-sft モデルでは OASST1 でファインチューニング | LINE | Apache 2.0 |\n| [rinna GPT \u003Cbr> (日本語のみで学習されたモデル)](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt2-xsmall) | 2023 | GPT または GPT-NeoX\u003Cbr>([xsmall](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt2-xsmall), [small](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt2-small), [medium](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt2-medium), [**1b**](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt-1b), [neox-small](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt-neox-small), [neox-**3.6b**-instruction-sft-v2](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt-neox-3.6b-instruction-sft-v2), [neox-**3.6b**-instruction-ppo](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt-neox-3.6b-instruction-ppo)) | ≤ 2,048 | 日本語 Wikipedia \u003Cbr> + Japanese CC-100 \u003Cbr> (1b 以降のモデルでは\u003Cbr>さらに Japanese mC4 を追加)\u003Cbr>\\*instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング\u003Cbr>\\*instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習 | rinna | MIT |\n| [Sarashina2.2](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2025\u002F03\u002F07\u002F093143) | 2025 | Llama\u003Cbr>([0.5b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-0.5b), [0.5b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-0.5b-instruct-v0.1), [**1b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-1b), [**1b**-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-1b-instruct-v0.1), [**3b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-3b), [**3b**-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-3b-instruct-v0.1)) | 8,192 || SB Intuitions | MIT |\n| [レトリバT5](https:\u002F\u002Fnote.com\u002Fretrieva\u002Fn\u002Fn7b4186dc5ada) | 2023 | T5\u003Cbr>([small (short)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-small-short), [small (medium)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-small-medium), [small (long)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-small-long), [base (short)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-base-short), [base (medium)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-base-medium), [base (long)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-base-long), [large (short)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-large-short), [large (medium)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-large-medium), [large (long)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-large-long), [**xl(3b)**](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-xl)) | | 日本語 Wikipedia + Japanese mC4 | レトリバ | CC BY-SA 4.0 |\n| [Spiral-RetNet-3b-base](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000014.000120221.html) | 2024 | RetNet\u003Cbr>([**3b**](https:\u002F\u002Fhuggingface.co\u002FSpiral-AI\u002FSpiral-RetNet-3b-base)) | 2,048 |  Wikipedia, Japanese CC-100, CulturaX | Spiral.AI | MIT |\n| [kotomamba-2.8B](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotomamba-2.8B-v1.0) | 2024 | Mamba\u003Cbr>([**2.8B**-v1.0](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotomamba-2.8B-v1.0)) | 2,048 | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |\n| [ABEJA GPT](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fabeja-gpt-project-202207) | 2022 | GPT または GPT-NeoX\u003Cbr>([large](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002Fgpt2-large-japanese), [neox-**2.7b**](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002Fgpt-neox-japanese-2.7b)) | | 日本語 Wikipedia \u003Cbr> + Japanese CC-100 \u003Cbr> + Japanese OSCAR | ABEJA | MIT |\n| [PLaMo 2.1 2B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-2-1-8b\u002F) | 2025 | Causal decoder-only transformer\u003Cbr>([**2b**-cpt](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-2.1-2b-cpt)) | **32,768** | 訓練詳細不明 | Preferred Networks | PLaMo community license |\n| [Rakuten AI 2.0 mini](https:\u002F\u002Fcorp.rakuten.co.jp\u002Fnews\u002Fpress\u002F2025\u002F0212_02.html) | 2025 | Mistral\u003Cbr>([mini(**1.5b**)](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-2.0-mini), [mini(**1.5b**)-instruct](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-2.0-mini-instruct)) | **131,072** ||楽天|Apache 2.0|\n| [早大GPT](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fgpt2-xl-japanese) | 2022 | GPT\u003Cbr>([small](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fgpt2-small-japanese), [**xl(1.5b)**](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fgpt2-xl-japanese)) | |  日本語 Wikipedia\u003Cbr> + Japanese CC-100 | 早大 河原研 | CC BY-SA 4.0 |\n| [ストックマークGPT](https:\u002F\u002Fstockmark.co.jp\u002Fnews\u002F20230808) | 2023 | GPT-NeoX\u003Cbr>([**1.4b**](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fgpt-neox-japanese-1.4b)) |  | 日本語 Wikipedia (0.88B トークン)\u003Cbr>+ Japanese CC-100 (10.5B トークン)\u003Cbr>+ 独自のWebデータ (8.6B トークン) | ストックマーク | MIT |\n| [イエローバックGPT](https:\u002F\u002Ftech.yellowback.net\u002Fposts\u002Fgpt-neo-japanese) | 2021 | GPT-NeoX\u003Cbr>([**1.3b**](https:\u002F\u002Fhuggingface.co\u002Fyellowback\u002Fgpt-neo-japanese-1.3B)) |  | 日本語 Wikipedia \u003Cbr> + Japanese CC-100 \u003Cbr> + Japanese OSCAR | イエローバック | Apache 2.0 |\n| [PLaMo 2 1B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-2\u002F) | 2025 | Samba ベースのアーキテクチャ\u003Cbr>([**1b**](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-2-1b)) | | 日本語、英語等のデータ\u003Cbr>（計 **4T** トークン） | Preferred Elements (Preferred Networks) | Apache 2.0 |\n| [Sarashina2.1-1B](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.1-1b) | 2024 | Llama\u003Cbr>([**1b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.1-1b)) | 8,192 | Web 上などの日本語・英語データ（計 **10T** トークン） | SB Intuitions | Sarashina Model NonCommercial License |\n| [colorfulscoop GPT](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fgpt2-small-ja) | 2021 | GPT\u003Cbr>([small](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fgpt2-small-ja)) | |  日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 |\n| [東工大GPT](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2023\u002Fpdf_dir\u002FH9-1.pdf) | 2023 | GPT\u003Cbr>([medium](https:\u002F\u002Fhuggingface.co\u002Fokazaki-lab\u002Fjapanese-gpt2-medium-unidic), [medium (逆方向)](https:\u002F\u002Fhuggingface.co\u002Fokazaki-lab\u002Fjapanese-reversed-gpt2-medium-unidic)) [^3] | |  日本語 Wikipedia + Japanese CC-100 | 東工大 岡崎研 | CC BY-SA 4.0 |\n| [京大GPT](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fgpt2-medium-japanese-char) | 2022 | GPT\u003Cbr>([small (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fgpt2-small-japanese-char), [medium (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fgpt2-medium-japanese-char), [large (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fgpt2-large-japanese-char)) | | 日本語 Wikipedia (約2,700万文 (3.2GB)) \u003Cbr>+ Japanese CC-100 (約6億1,900万文 (85GB)) \u003Cbr>+ Japanese OSCAR (約3億2,600万文 (54GB)) | 京大 言語メディア研究室 | CC BY-SA 4.0 |\n| [日本語BART](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fbart-base-japanese) | 2023 | BART\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fbart-base-japanese), [large](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fbart-large-japanese)) | |  日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | CC BY-SA 4.0 |\n| [Megagon Labs T5](https:\u002F\u002Fgithub.com\u002Fmegagonlabs\u002Ft5-japanese) | 2021 | T5\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fmegagonlabs\u002Ft5-base-japanese-web)) | |  Japanese mC4 (87,425,304 ページ (782 GB))\u003Cbr>+ Japanese wiki40b (828,236 記事 (2 GB)) | Megagon Labs \u003Cbr> (リクルート) | Apache 2.0 |\n\n\u003Ca id=\"generative-scratch-domain-specific\">\u003C\u002Fa>\n#### ドメイン特化型\n\n|    | ドメイン | アーキテクチャ  |  学習テキスト  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|:---:|\n| [SIP-med-LLM\u002FSIP-jmed-llm-2-8x13b-OP-instruct](https:\u002F\u002Fhuggingface.co\u002FSIP-med-LLM\u002FSIP-jmed-llm-2-8x13b-OP-instruct) | 医療 | MoE | 医療系コーパス (**44.2B** トークン) で LLM-jp-3 MoE (8x13b) に追加事前学習、その後 Instruction Tuning | 戦略的イノベーション創造プログラム（SIP）第3期課題「統合型ヘルスケアシステムの構築における生成 AI 活用」テーマ1「安全性・信頼性を持つオープンな医療 LLM の開発・社会実装」 研究グループ | Apache 2.0 |\n| [日本語対話Transformer](https:\u002F\u002Fgroup.ntt\u002Fjp\u002Ftopics\u002F2021\u002F09\u002F30\u002Ftransformer.html) | 対話 |Transformer | Twitter 上の日本語リプライのペア | NTT | [独自のライセンス](https:\u002F\u002Fgithub.com\u002Fnttcslab\u002Fjapanese-dialog-transformers\u002Fblob\u002Fmain\u002FLICENSE.md) |\n| [日本語ニュースBART](https:\u002F\u002Ftech.stockmark.co.jp\u002Fblog\u002Fbart-japanese-base-news\u002F) | ビジネス | BART ([base](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fbart-base-japanese-news)) | 日本語ビジネスニュース記事（約2,100万記事 (2.9億文)） | ストックマーク | MIT |\n| [AcademicBART](https:\u002F\u002Fgithub.com\u002FEhimeNLP\u002FAcademicBART) | 学術 | BART ([base](https:\u002F\u002Fhuggingface.co\u002FEhimeNLP\u002FAcademicBART)) | CiNii の日本語論文 | 愛媛大 人工知能研究室 | Apache 2.0 |\n\n\u003Ca id=\"english-based-models\">\u003C\u002Fa>\n### 海外モデルに日本語で継続事前学習を行ったモデル\n\n※継続事前学習後に事後学習（SFT, DPO, RLなど）を行ったモデルも含みます\n\n\u003Ca id=\"generative-continual-general\">\u003C\u002Fa>\n#### 汎用\n\n|    | 公開年 | ベースのLLM  | 学習テキスト | 開発元  | ライセンス \u002F 利用規約 |\n|:---|:---:|:---:|:---:|:---:|:---:|\n| [GPT-OSS Swallow 120B](https:\u002F\u002Fswallow-llm.github.io\u002Fgptoss-swallow.ja.html)\u003Cbr>([120B-SFT-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGPT-OSS-Swallow-120B-SFT-v0.1), [120B-RL-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGPT-OSS-Swallow-120B-RL-v0.1)) | **2026** | GPT-OSS (**120b**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **419.4B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [Llama 3.3 Swallow 70B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3.3-swallow.ja.html)\u003Cbr>([70B-v0.4](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.3-Swallow-70B-v0.4), [70B-Instruct-v0.4](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.3-Swallow-70B-Instruct-v0.4)) | 2025 | Llama 3.3 (**70b**) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1, Swallow-Code-v0.3-Instruct-style | Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |\n| [Llama 3.1 Swallow 70B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3.1-swallow.ja.html)\u003Cbr>([70B-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-70B-v0.1), [70B-Instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-70B-Instruct-v0.1), [70B-Instruct-v0.3](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-70B-Instruct-v0.3)) | 2024 | Llama 3.1 (**70b**) | 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus\u003Cbr>Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie | Swallowプロジェクト | Llama 3.1 Community License\u003Cbr>(Instructモデルは Gemma Terms of Use も適用) |\n| [cyberagent\u002FLlama-3.1-70B-Japanese-Instruct-2407](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002FLlama-3.1-70B-Japanese-Instruct-2407) | 2024 | Llama 3.1 (**70b**) | 不明 | サイバーエージェント | Llama 3.1 Community License |\n| [Llama 3 Swallow 70B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3-swallow.ja.html)\u003Cbr>([70B-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3-Swallow-70B-v0.1), [70B-Instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3-Swallow-70B-Instruct-v0.1)) | 2024 | Llama 3 (**70b**) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath\u003Cbr>Instruction Tuning: OASST1 [^17] | Swallowプロジェクト | Llama 3 Community License |\n| [turing-motors\u002FLlama-3-heron-brain-70B-v0.3](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FLlama-3-heron-brain-70B-v0.3) | 2024 | Llama 3 (**70b**) | Llama 3 Swallow 70B に対して追加学習（詳細不明） | Turing | Llama 3 Community License |\n| [Llama 3 Youko 70B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b)\u003Cbr>([70b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b), [70b-instruct](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b-instruct), [70b-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b-gptq), [70b-instruct-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b-instruct-gptq)) | 2024 | Llama 3 (**70b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **5B** トークン)\u003Cbr>Instruction Tuning: 独自のデータセット[^11] | rinna | Llama 3 Community License |\n| [Swallow 70B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-llama.ja.html)\u003Cbr>([70b-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-hf), [70b-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-instruct-hf), [70b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-instruct-v0.1), [70b-NVE-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-NVE-hf), [70b-NVE-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-NVE-instruct-hf)) | 2023 | Llama 2 (**70b**) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1\u003Cbr>*v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |\n| [KARAKURI LM](https:\u002F\u002Fkarakuri.ai\u002Fseminar\u002Fnews\u002Fkarakuri-lm\u002F)\u003Cbr>([70b-v0.1](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-70b-v0.1), [70b-chat-v0.1](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-70b-chat-v0.1)) | 2024 | Llama 2 (**70b**) | 事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット\u003Cbr>(計 **16B** トークン)\u003Cbr>SteerLM: OASST2, 独自のデータセット | カラクリ | Llama 2 Community License[^13] |\n| [Japanese Stable LM Beta 70B](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-beta-70b)\u003Cbr>([base-beta-70b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-beta-70b), [instruct-beta-70b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-beta-70b)) | 2023 | Llama 2 (**70b**) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)\u003Cbr>(計 **100B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 | Stability AI | Llama 2 Community License |\n| [Fujitsu-LLM-KG](https:\u002F\u002Fblog.fltech.dev\u002Fentry\u002F2024\u002F10\u002F15\u002FFujitsu-LLM-KG-ja)\u003Cbr>([8x7B_cpt](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_cpt), [8x7B_inst-infer_v1](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_inst-infer_v1), [8x7B_inst-infer_v2](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_inst-infer_v2), [8x7B_inst-gen_ja](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_inst-gen_ja), [8x7B_inst-gen_en](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_inst-gen_en)) | 2025 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**) | 事前学習: 知識グラフ並列コーパス(森羅プロジェクト、Wikipedia等から合成) **2.1B**トークンを含む計約**300B**トークン\u003Cbr>Instruction Tuning: 知識グラフ推論・生成タスク用データセット | 富士通 | Apache 2.0 |\n| [Swallow-MX 8x7B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-mistral.ja.html)\u003Cbr>([8x7b-NVE-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-MX-8x7b-NVE-v0.1)) | 2024 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault | Swallowプロジェクト | Apache 2.0 |\n| [KARAKURI LM 8x7B Instruct v0.1](https:\u002F\u002Fkarakuri.ai\u002Fseminar\u002Fnews\u002Fkarakuri-lm-8x7b-instruct-v0-1\u002F)\u003Cbr>([8x7b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-8x7b-instruct-v0.1)) | 2024 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**) | Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセット | カラクリ | Apache 2.0 (?)[^12] |\n| [KARAKURI LM 8x7B Chat v0.1](https:\u002F\u002Fkarakuri.ai\u002Fseminar\u002Fnews\u002Faws_trainium_moe\u002F)\u003Cbr>([8x7b-chat-v0.1](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-8x7b-chat-v0.1)) | 2024 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**) | Swallow-MX 8x7B に対して\u003Cbr>SteerLM: OASST2, HelpSteer, 独自のデータセット | カラクリ | Apache 2.0 |\n| [ABEJA-Mixtral-8x7B-japanese](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fabeja-nedo-project-part1-202404)\u003Cbr>([8x7B-v0.1-japanese](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FMixtral-8x7B-v0.1-japanese), [8x7B-Instruct-v0.1-japanese](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FMixtral-8x7B-Instruct-v0.1-japanese), [8x7B-Instruct-v0.1-japanese-alpha](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FMixtral-8x7B-Instruct-v0.1-japanese-alpha), [8x7B-Instruct-v0.1-japanese-alpha-merged](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FMixtral-8x7B-Instruct-v0.1-japanese-alpha-merged)) | 2024 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**)\u003Cbr>\\*Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース |  事前学習: Japanese CC,\tRedpajama, 独自\u003Cbr>（計 **450B** トークン） | ABEJA | Apache 2.0 |\n| [Qwen3 Swallow 32B](https:\u002F\u002Fswallow-llm.github.io\u002Fqwen3-swallow.ja.html)\u003Cbr>([32B-CPT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-32B-CPT-v0.2), [32B-SFT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-32B-SFT-v0.2), [32B-RL-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-32B-RL-v0.2)) | **2026** | Qwen3 (**32b**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **209.7B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [ELYZA-Thinking-1.0-Qwen-32B](https:\u002F\u002Fzenn.dev\u002Felyza\u002Farticles\u002Fbc68f53fc0a83b)\u003Cbr>([32B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Thinking-1.0-Qwen-32B)) | 2025 | Qwen 2.5 (**32b**) | 事前学習 + SFT (Reasoning) | ELYZA | Apache 2.0 |\n| [ELYZA-Shortcut-1.0-Qwen-32B](https:\u002F\u002Fzenn.dev\u002Felyza\u002Farticles\u002Fbc68f53fc0a83b)\u003Cbr>([32B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Shortcut-1.0-Qwen-32B)) | 2025 | Qwen 2.5 (**32b**) | 事前学習 + SFT | ELYZA | Apache 2.0 |\n| [ABEJA-Qwen2.5-32b-Japanese-v1.0](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fgeniac2-qwen25-32b-v1.0)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FABEJA-Qwen2.5-32b-Japanese-v1.0)) | 2025 | Qwen2.5-32B-Instruct (**32b**) | 継続事前学習 + SFT + DPO: 約2万件の合成データ・人手アノテーションデータセット（抽出・推論能力に特化） | ABEJA | Apache 2.0 |\n| [Qwen2.5 Bakeneko 32B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fqwen2.5-bakeneko-32b)\u003Cbr>([qwen2.5-bakeneko-32b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fqwen2.5-bakeneko-32b), [qwen2.5-bakeneko-32b-instruct](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fqwen2.5-bakeneko-32b-instruct), [deepseek-r1-distill-qwen2.5-bakeneko-32b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fdeepseek-r1-distill-qwen2.5-bakeneko-32b), [qwq-bakeneko-32b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fqwq-bakeneko-32b)) | 2025 | Qwen 2.5 (**32b**) || rinna | Apache 2.0 |\n| [ABEJA-QwQ32b-Reasoning-Japanese-v1.0](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fgeniac2-qwen25-32b-reasoning-v1.0)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FABEJA-QwQ32b-Reasoning-Japanese-v1.0)) | 2025 | Qwen 2.5 (**32b**) | ABEJA-Qwen2.5-32b-Japanese-v0.1 に QwQ 32b の Chat Vector をマージした上で追加学習 | ABEJA | Apache 2.0 |\n| [ABEJA-Qwen2.5-32b-Japanese-v0.1](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fgeniac2-qwen25-32b-v0.1)\u003Cbr>([32b-Japanese-v0.1](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FABEJA-Qwen2.5-32b-Japanese-v0.1)) | 2025 | Qwen 2.5 (**32b**) | 事前学習: Common Crawl, Cosmopedia, 独自\u003Cbr>（計 **100B** トークン）\u003Cbr>+ Chat Vector | ABEJA | Apache 2.0 |\n| [neoAI-JP-QwQ-32B](https:\u002F\u002Fzenn.dev\u002Fneoai\u002Farticles\u002F1670bd029093b0)\u003Cbr>([32B](https:\u002F\u002Fhuggingface.co\u002Fneoai-inc\u002FneoAI-JP-QwQ-32B)) | 2025 | Qwen 2.5 (**32b**) | 継続事前学習: [llm-jp-corpus v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)から約**4B**トークン\u003Cbr>+ QwQ-32BのChat Vector | neoAI | Apache 2.0 |\n| [neoAI-JP-DeepSeek-Qwen-32B](https:\u002F\u002Fzenn.dev\u002Fneoai\u002Farticles\u002F1670bd029093b0)\u003Cbr>([32B](https:\u002F\u002Fhuggingface.co\u002Fneoai-inc\u002FneoAI-JP-DeepSeek-Qwen-32B)) | 2025 | Qwen 2.5 (**32b**) | 継続事前学習: [llm-jp-corpus v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)から約**4B**トークン\u003Cbr>+ DeepSeek-R1-Distill-Qwen-32BのChat Vector | neoAI | Apache 2.0 |\n| [Qwen3 Swallow 30B-A3B](https:\u002F\u002Fswallow-llm.github.io\u002Fqwen3-swallow.ja.html)\u003Cbr>([30B-A3B-CPT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-30B-A3B-CPT-v0.2), [30B-A3B-SFT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-30B-A3B-SFT-v0.2), [30B-A3B-RL-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-30B-A3B-RL-v0.2)) | **2026** | Qwen3 (**30b-A3B**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **209.7B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [Gemma-2-Llama Swallow 27B](https:\u002F\u002Fswallow-llm.github.io\u002Fgemma2-llama-swallow.ja.html)\u003Cbr>([27b-pt-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-27b-pt-v0.1), [27b-it-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-27b-it-v0.1)) | 2025 | Gemma 2 (**27b**) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 | Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |\n| [GPT-OSS Swallow 20B](https:\u002F\u002Fswallow-llm.github.io\u002Fgptoss-swallow.ja.html)\u003Cbr>([20B-SFT-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGPT-OSS-Swallow-20B-SFT-v0.1), [20B-RL-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGPT-OSS-Swallow-20B-RL-v0.1)) | **2026** | GPT-OSS (**20b**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **419.4B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [Nekomata 14B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b)\u003Cbr>([14b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b), [14b-instruction](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b-instruction), [14b-gguf](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b-gguf), [14b-instruction-gguf](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b-instruction-gguf)) | 2023 | Qwen (**14b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **66B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Tongyi Qianwen LICENSE |\n| [Swallow 13B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-llama.ja.html)\u003Cbr>([13b-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-13b-hf), [13b-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-13b-instruct-hf), [13b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-13b-instruct-v0.1), [13b-NVE-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-13b-NVE-hf)) | 2023 | Llama 2 (**13b**) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1\u003Cbr>*v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |\n| [LEIA-Swallow-13B](https:\u002F\u002Fwww.ousia.jp\u002Fnews\u002Fleia)\u003Cbr>([13b](https:\u002F\u002Fhuggingface.co\u002Fleia-llm\u002FLeia-Swallow-13b)) | 2024 | Llama 2 (**13b**) | Swallow 13B に対して LEIA で追加学習 | 個人 ([山田育矢](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=M7YivToAAAAJ), [李凌寒](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=z9is5FAAAAAJ)) | Llama 2 Community License |\n| [ELYZA-japanese-Llama-2-13b](https:\u002F\u002Fnote.com\u002Felyza\u002Fn\u002Fn5d42686b60b7)\u003Cbr>([13b](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-13b), [13b-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-13b-instruct), [13b-fast](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-13b-fast), [13b-fast-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-13b-fast-instruct)) | 2023 | Llama 2 (**13b**) | 事前学翕: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど\u003Cbr>(計 **18B** トークン)\u003Cbr>Instruction Tuning: 独自のデータセット | ELYZA | Llama 2 Community License |\n| [cyberagent\u002FMistral-Nemo-Japanese-Instruct-2408](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002FMistral-Nemo-Japanese-Instruct-2408) | 2024 | Mistral NeMo (**12b**) | 不明 | サイバーエージェント | Apache 2.0 |\n| [NVIDIA-Nemotron-Nano-9B-v2-Japanese](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fnvidia\u002Fnemotron-nano-9b-v2-japanese-ja)\u003Cbr>([9B](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-Nano-9B-v2-Japanese)) | **2026** | Nemotron-Nano (**9b**) | 継続事前学習: Wikipedia, fineweb-2 Japanese, aozorabunko, sip3-ja-general-web-corpus, Nemotron-CC-v2.1, Nemotron-Pretraining-Specialized-v1\u003Cbr>SFT: Nemotron-Personas-Japan をシードセットとした Tool Calling データセット, Nemotron-Post-Training-v3 | NVIDIA | NVIDIA Nemotron Open Model License Agreement |\n| [Gemma-2-Llama Swallow 9B](https:\u002F\u002Fswallow-llm.github.io\u002Fgemma2-llama-swallow.ja.html)\u003Cbr>([9b-pt-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-9b-pt-v0.1), [9b-it-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-9b-it-v0.1)) | 2025 | Gemma 2 (**9b**) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 | Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |\n| [Qwen3 Swallow 8B](https:\u002F\u002Fswallow-llm.github.io\u002Fqwen3-swallow.ja.html)\u003Cbr>([8B-CPT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-8B-CPT-v0.2), [8B-SFT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-8B-SFT-v0.2), [8B-RL-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-8B-RL-v0.2)) | **2026** | Qwen3 (**8b**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **209.7B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [Llama 3.1 Swallow 8B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3.1-swallow.ja.html)\u003Cbr>([8B-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-v0.1), [8B-Instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-Instruct-v0.1), [8B-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-v0.2), [8B-Instruct-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-Instruct-v0.2), [8B-Instruct-v0.3](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-Instruct-v0.3), [8B-Instruct-v0.5](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-Instruct-v0.5)) | 2025 | Llama 3.1 (**8b**) | 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus\u003Cbr>Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie, Gemma-3-LMSYS-Chat-1M-Synth | Swallowプロジェクト | Llama 3.1 Community License\u003Cbr>(Instructモデルは Gemma Terms of Use も適用) |\n| [Llama 3 Swallow 8B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3-swallow.ja.html)\u003Cbr>([8B-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3-Swallow-8B-v0.1), [8B-Instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3-Swallow-8B-Instruct-v0.1)) | 2023 | Llama 3 (**8b**) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath\u003Cbr>Instruction Tuning: OASST1 [^17] | Swallowプロジェクト | Llama 3 Community License |\n| [turing-motors\u002FLlama-3-heron-brain-8B-v0.3](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FLlama-3-heron-brain-8B-v0.3) | 2024 | Llama 3 (**8b**) | Llama 3 Swallow 8B に対して追加学習（詳細不明） | Turing | Llama 3 Community License |\n| [Llama 3 Youko 8B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b)\u003Cbr>([8b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b), [8b-instruct](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b-instruct), [8b-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b-gptq), [8b-instruct-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b-instruct-gptq)) | 2024 | Llama 3 (**8b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **22B** トークン)\u003Cbr>Instruction Tuning[^11]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット\u003Cbr>DPO: HelpSteer, HelpSteer2, 独自のデータセット | rinna | Llama 3 Community License |\n| [Llama 3 ELYZA JP 8B](https:\u002F\u002Fnote.com\u002Felyza\u002Fn\u002Fn360b6084fdbd)\u003Cbr>([8B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FLlama-3-ELYZA-JP-8B), [8B-GGUF](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FLlama-3-ELYZA-JP-8B-GGUF), [8B-AWQ](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FLlama-3-ELYZA-JP-8B-AWQ)) | 2024 | Llama 3 (**8b**) | 不明 | ELYZA | Llama 3 Community License |\n| [Llama 3 neoAI 8B Chat v0.1](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000017.000109048.html)\u003Cbr>([8B-Chat-v0.1](https:\u002F\u002Fhuggingface.co\u002Fneoai-inc\u002FLlama-3-neoAI-8B-Chat-v0.1)) | 2024 | Llama 3 (**8b**) | 不明 | neoAI | Llama 3 Community License |\n| [Llama 3 tedllm](https:\u002F\u002Fwww.teldevice.co.jp\u002Fpro_info\u002F2024\u002Fpress_241023.php)\u003Cbr>([v0](https:\u002F\u002Fhuggingface.co\u002Ftokyo-electron-device-ai\u002Fllama3-tedllm-8b-v0)) | 2024 | Llama 3 (**8b**) | 事前学習: 日本語の一般コーパス | 東京エレクトロン デバイス | Llama 3 Community License |\n| [ELYZA-Shortcut-1.0-Qwen-7B](https:\u002F\u002Fzenn.dev\u002Felyza\u002Farticles\u002Fbc68f53fc0a83b)\u003Cbr>([7B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Shortcut-1.0-Qwen-7B)) | 2025 | Qwen 2.5 (**7b**) | 事前学習 + SFT | ELYZA | Apache 2.0 |\n| [ELYZA-Diffusion-1.0-Dream-7B](https:\u002F\u002Fzenn.dev\u002Felyza\u002Farticles\u002Ff9dd010e895a34)\u003Cbr>([Base-7B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Diffusion-Base-1.0-Dream-7B), [Instruct-7B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Diffusion-Instruct-1.0-Dream-7B)) | **2026** | Dream (**7b**) | 事前学習: 日本語テキスト (約 **62B** トークン)\u003Cbr>Instruction Tuning: 日本語の指示データ (約 **0.18B** トークン) | ELYZA | Apache 2.0 |\n| [Swallow 7B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-llama.ja.html)\u003Cbr>([7b-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-hf), [7b-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-instruct-hf), [7b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-instruct-v0.1), [7b-NVE-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-NVE-hf), [7b-NVE-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-NVE-instruct-hf), [7b-plus-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-plus-hf)) | 2023 | Llama 2 (**7b**) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1\u003Cbr>*v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |\n| [LEIA-Swallow-7B](https:\u002F\u002Fwww.ousia.jp\u002Fnews\u002Fleia)\u003Cbr>([7b](https:\u002F\u002Fhuggingface.co\u002Fleia-llm\u002FLeia-Swallow-7b)) | 2024 | Llama 2 (**7b**) | Swallow 7B に対して LEIA で追加学習 | 個人 ([山田育矢](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=M7YivToAAAAJ), [李凌寒](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=z9is5FAAAAAJ)) | Llama 2 Community License |\n| [ELYZA-japanese-Llama-2-7b](https:\u002F\u002Fnote.com\u002Felyza\u002Fn\u002Fna405acaca130)\u003Cbr> ([7b](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-7b), [7b-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-7b-instruct), [7b-fast](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-7b-fast), [7b-fast-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-7b-fast-instruct)) | 2023 | Llama 2 (**7b**) | 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど\u003Cbr>(計 **18B** トークン)\u003Cbr>Instruction Tuning: 独自のデータセット | ELYZA | Llama 2 Community License |\n| [Youri 7B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b)\u003Cbr>([7b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b), [7b-instruction](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-instruction), [7b-chat](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-chat), [7b-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-gptq), [7b-instruction-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-instruction-gptq), [7b-chat-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-chat-gptq)) | 2023 | Llama 2 (**7b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **40B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Llama 2 Community License |\n| [houou-7b](https:\u002F\u002Fcorp.moneyforward.com\u002Fnews\u002Frelease\u002Fcorp\u002F20231206-mf-press-1\u002F)\u003Cbr>([instruction-7b-v1](https:\u002F\u002Fhuggingface.co\u002Fmoneyforward\u002Fhouou-instruction-7b-v1), [instruction-7b-v2](https:\u002F\u002Fhuggingface.co\u002Fmoneyforward\u002Fhouou-instruction-7b-v2), [instruction-7b-v3](https:\u002F\u002Fhuggingface.co\u002Fmoneyforward\u002Fhouou-instruction-7b-v3)) | 2023 | Llama 2 (**7b**) | Youri 7B (base) に対して Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F) | マネーフォワード | Llama 2 Community License |\n| [Japanese Stable LM Beta 7B](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-beta-70b)\u003Cbr>([base-beta-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-beta-7b), [base-ja_vocab-beta-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-ja_vocab-beta-7b), [instruct-beta-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-beta-7b), [instruct-ja_vocab-beta-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-ja_vocab-beta-7b)) | 2023 | Llama 2 (**7b**) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)\u003Cbr>(計 **100B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 | Stability AI | Llama 2 Community License |\n| [SambaLingo-Japanese](https:\u002F\u002Fsambanova.ai\u002Fblog\u002Fsambalingo-open-source-language-experts)\u003Cbr>([Base](https:\u002F\u002Fhuggingface.co\u002Fsambanovasystems\u002FSambaLingo-Japanese-Base), [Chat](https:\u002F\u002Fhuggingface.co\u002Fsambanovasystems\u002FSambaLingo-Japanese-Chat)) | 2024 | Llama 2 (**7b**) | 事前学習: CulturaX\u003Cbr>Instruction Tuning: ultrachat_200k\u003Cbr>DPO: ultrafeedback, cai-conversation-harmless | SambaNova Systems | Llama 2 Community License (?)[^12] |\n| [blue-lizard](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000010.000125694.html)\u003Cbr>([blue-lizard](https:\u002F\u002Fhuggingface.co\u002FDeepreneur\u002Fblue-lizard)) | 2024 | Llama 2 (**7b**) | 不明 | Deepreneur | Llama 2 Community License |\n| [Swallow-MS 7B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-mistral.ja.html)\u003Cbr>([7b-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-MS-7b-v0.1), [7b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-MS-7b-instruct-v0.1)) | 2024 | Mistral-7B-v0.1 (**7b**) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile\u003Cbr>Instruction Tuning: Dolly Dataset, OASST1 | Swallowプロジェクト | Apache 2.0 |\n| [Rakuten AI 2.0](https:\u002F\u002Fcorp.rakuten.co.jp\u002Fnews\u002Fpress\u002F2025\u002F0212_02.html)\u003Cbr>([8x7B](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-2.0-8x7B), [8x7B-instruct](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-2.0-8x7B-instruct)) | 2025 | Mistral-7B-v0.1 (**7b**) | | 楽天 | Apache 2.0 |\n| [RakutenAI-7B](https:\u002F\u002Fcorp.rakuten.co.jp\u002Fnews\u002Fpress\u002F2024\u002F0321_01.html?year=2024&month=3&category=corp)\u003Cbr>([7B](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-7B), [7B-instruct](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-7B-instruct), [7B-chat](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-7B-chat)) | 2024 | Mistral-7B-v0.1 (**7b**) | 事前学習: 不明\u003Cbr>Instruction Tuning: Dolly Dataset, OASST1, （jasterと同様に）言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット | 楽天 | Apache 2.0 |\n| [Japanese Stable LM Gamma 7B](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-gamma-7b)\u003Cbr>([base-gamma-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-gamma-7b), [instruct-gamma-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-gamma-7b)) | 2023 | Mistral-7B-v0.1 (**7b**) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)\u003Cbr>(計 **100B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-dataSetのwikinews subset | Stability AI |  Apache 2.0  |\n| [ChatNTQ JA 7B](https:\u002F\u002Fhuggingface.co\u002FNTQAI\u002Fchatntq-ja-7b-v1.0)\u003Cbr>([7b-v1.0](https:\u002F\u002Fhuggingface.co\u002FNTQAI\u002Fchatntq-ja-7b-v1.0)) | 2024 | Mistral-7B-v0.1 (**7b**) | Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning | NTQ Solution | Apache 2.0  |\n| [Shisa Gamma 7B](https:\u002F\u002Fhuggingface.co\u002Faugmxnt\u002Fshisa-gamma-7b-v1)\u003Cbr>([7b-v1](https:\u002F\u002Fhuggingface.co\u002Faugmxnt\u002Fshisa-gamma-7b-v1)) | 2023 | Mistral-7B-v0.1 (**7b**) | Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning | AUGMXNT | Apache 2.0 (?)[^12]  |\n| [Shisa 7B](https:\u002F\u002Fgithub.com\u002FAUGMXNT\u002Fshisa\u002Fwiki)\u003Cbr>([base-7b-v1](https:\u002F\u002Fhuggingface.co\u002Faugmxnt\u002Fshisa-base-7b-v1), [7b-v1](https:\u002F\u002Fhuggingface.co\u002Faugmxnt\u002Fshisa-7b-v1)) | 2023 | Mistral-7B-v0.1 (**7b**) | 事前学習: shisa-pretrain-en-ja-v1 (**8B** トークン)\u003Cbr>Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1  | AUGMXNT |  Apache 2.0 (?)[^12]  |\n| [Karasu](https:\u002F\u002Fwww.lightblue-tech.com\u002F2024\u002F01\u002F15\u002F20240115_news\u002F)\u003Cbr>([7B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-7B), [7B-chat](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-7B-chat), [7B-chat-plus](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-7B-chat-plus), [7B-chat-plus-unleashed](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-7B-chat-plus-unleashed)) | 2024 | Mistral-7B-v0.1 (**7b**) | Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 **7B** トークン)\u003Cbr>Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット | Lightblue | Apache 2.0 (?)[^12]  |\n| [Nekomata 7B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b)\u003Cbr>([7b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b), [7b-instruction](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b-instruction), [7b-gguf](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b-gguf), [7b-instruction-gguf](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b-instruction-gguf)) | 2023 | Qwen (**7b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **66B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Tongyi Qianwen LICENSE |\n| [lightblue\u002Fjapanese-mpt-7b](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fjapanese-mpt-7b) | 2023 | MPT (**7b**) | Japanese mC4 | Lightblue | Apache 2.0 |\n| [Japanese Stable LM 3B-4E1T](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-gamma-7b)\u003Cbr>([3b-4e1t-base](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-3b-4e1t-base), [3b-4e1t-instruct](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-3b-4e1t-instruct)) | 2024 | StableLM-3B-4E1T (**3b**) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)\u003Cbr>(計 **100B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset | Stability AI |  Apache 2.0  |\n| [kotomamba-2.8B-CL](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotomamba-2.8B-CL-v1.0) | 2024 | mamba-2.8b-slimpj\u003Cbr>(**2.8b**) | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |\n| [Gemma-2-Llama Swallow 2B](https:\u002F\u002Fswallow-llm.github.io\u002Fgemma2-llama-swallow.ja.html)\u003Cbr>([2b-pt-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-2b-pt-v0.1), [2b-it-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-2b-it-v0.1)) | 2025 | Gemma 2 (**2b**) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 | Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |\n| [Gemma 2 Baku 2B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fgemma-2-baku-2b)\u003Cbr>([2b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fgemma-2-baku-2b), [2b-it](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fgemma-2-baku-2b-it)) | 2024 | Gemma 2 (**2b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **80B** トークン)\u003Cbr>OPRO: 独自のデータセット [^20] | rinna | Gemma Terms of Use |\n| [Japanese Stable LM 2 1.6B](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-2-base-1_6b)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-2-base-1_6b), [instruct](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-2-instruct-1_6b)) | 2024 | Stable LM 2 1.6B (**1.6b**) | 事前学習: Wikipedia, CulturaX\u003Cbr>Instruction Tuning: jaster, [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1 | Stability AI | STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE |\n| [TinySwallow-1.5B](https:\u002F\u002Fsakana.ai\u002Ftaid-jp\u002F)\u003Cbr>([1.5B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FTinySwallow-1.5B), [1.5B-Instruct](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FTinySwallow-1.5B-Instruct), [1.5B-Instruct-q4f32_1-MLC](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FTinySwallow-1.5B-Instruct-q4f32_1-MLC), [1.5B-Insturct-GGUF](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FTinySwallow-1.5B-Instruct-GGUF)) | 2025 | Qwen2.5 (**1.5b**) | 事前学習: Qwen2.5 (32b) を教師として TAID で学習\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, swallow-magpie-ultra-v0.1, swallow-gemma-magpie-v0.1 | Sakana AI, Swallowプロジェクト | Apache 2.0 |\n| [EQUES\u002FOpenRS3-GRPO-ja](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FOpenRS3-GRPO-ja) | 2025 | Qwen2.5 (**1.5b**) | TinySwallow-1.5B-Instruct に対して kunishou\u002FOpenMathInstruct-1-1.8m-ja でGRPO学習 | EQUES Inc. | ？ |\n| [EQUES\u002FTinyDeepSeek-JP-1.5B](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FTinyDeepSeek-JP-1.5B) | 2025 | Qwen2.5 (**1.5b**) | TinySwallow-1.5B-Instruct に対して EQUES\u002Fjapanese_ultrachat_6.6k でTAID蒸留 | EQUES Inc. | Apache 2.0 |\n| [EQUES\u002FTinySwallow-Stratos-1.5B](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FTinySwallow-Stratos-1.5B) | 2025 | Qwen2.5 (**1.5b**) | TinySwallow-1.5B-Instruct に対して Bespoke-Stratos-35k で推論能力強化 | EQUES Inc. | Apache 2.0 |\n| [karasu-1.1B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-1.1B) | 2023 | TinyLlama (**1.1b**) | 事前学習: Japanese OSCAR, Japanese mC4\u003Cbr>(計 **3B** トークン) | Lightblue | Apache 2.0 |\n\n\u003Ca id=\"generative-continual-domain-specific\">\u003C\u002Fa>\n#### ドメイン特化型\n\n|    | ドメイン | ベースのLLM  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [pfnet\u002FPreferred-MedLLM-Qwen-72B](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002FPreferred-MedLLM-Qwen-72B) | 医療 | Qwen2.5 (**72b**) | Preferred Networks | Qwen LICENSE |\n| [Llama3-Preferred-MedSwallow-70B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fllama3-preferred-medswallow-70b\u002F)\u003Cbr>([70B](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002FLlama3-Preferred-MedSwallow-70B)) | 医療 | Llama 3 (**70b**) | Preferred Networks | Llama 3 Community License |\n| [AIgroup-CVM-utokyohospital\u002FMedSwallow-70b](https:\u002F\u002Fhuggingface.co\u002FAIgroup-CVM-utokyohospital\u002FMedSwallow-70b) | 医療 | Llama 2 (**70b**) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC-SA 4.0 |\n| [gpt-oss-20b-Ja-Fin](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01353)\u003Cbr>([CPT](https:\u002F\u002Fhuggingface.co\u002Fnri-ai\u002Fgpt-oss-20b-Ja-Fin-CPT), [Thinking](https:\u002F\u002Fhuggingface.co\u002Fnri-ai\u002Fgpt-oss-20b-Ja-Fin-Thinking)) | 金融 | GPT-OSS (**20b**) | 野村総合研究所 | Apache 2.0 |\n| [nekomata-14b-pfn-qfin](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fqfin-llm-continual-pretraining\u002F)\u003Cbr>([qfin](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fnekomata-14b-pfn-qfin), [qfin-inst-merge](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fnekomata-14b-pfn-qfin-inst-merge)) | 金融 | Qwen (**14b**) | Preferred Networks | Tongyi Qianwen LICENSE |\n| [Qwen3-14B-Ja-Fin](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01353)\u003Cbr>([CPT](https:\u002F\u002Fhuggingface.co\u002Fnri-ai\u002FQwen3-14B-Ja-Fin-CPT), [Thinking](https:\u002F\u002Fhuggingface.co\u002Fnri-ai\u002FQwen3-14B-Ja-Fin-Thinking)) | 金融 | Qwen3 (**14b**) | 野村総合研究所 | Apache 2.0 |\n| [Watashiha-Llama-2-13B-Ogiri-sft](https:\u002F\u002Fhuggingface.co\u002Fwatashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft)\u003Cbr>([sft](https:\u002F\u002Fhuggingface.co\u002Fwatashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft), [sft-neuron](https:\u002F\u002Fhuggingface.co\u002Fwatashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft-neuron)) | 大喜利 | Llama 2 (**13b**) | わたしは | Llama 2 Community License |\n| [MedExamDoc-Llama-3.1-Swallow-8B-Instruct-v0.5](https:\u002F\u002Fhuggingface.co\u002FIngentaAITeam\u002FMedExamDoc-Llama-3.1-Swallow-8B-Instruct-v0.5) | 医療 | Llama 3.1 (**8b**) | Ingenta | Llama 3.1 Community License |\n| [からまる](https:\u002F\u002Fsakana.ai\u002Fkaramaru\u002F)\u003Cbr>([Karamaru-v1](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FLlama-3-Karamaru-v1)) | 江戸時代の古文 | Llama 3 (**8b**) | Sakana AI | Llama 3 Community License |\n| [Llama 3.1 Future Code Ja 8B](https:\u002F\u002Fhuggingface.co\u002Ffuture-architect\u002FLlama-3.1-Future-Code-Ja-8B) | コーディング | Llama 3.1\u003Cbr>(**8b**) | フューチャー | Llama 3.1 Community License |\n| [JPharmatron](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FEQUES\u002Fpharmatron-680a330b4dfce3ac43009984)\u003Cbr>([7B-base](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FJPharmatron-7B-base), [7B](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FJPharmatron-7B)) | 薬学 | Qwen2.5 (**7b**) | EQUES Inc. | CC BY-SA 4.0 |\n| [ELYZA-japanese-CodeLlama-7b](https:\u002F\u002Fnote.com\u002Felyza\u002Fn\u002Fn5bce23d7c9c8)\u003Cbr>([7b](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-CodeLlama-7b), [7b-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-CodeLlama-7b-instruct)) | コーディング |  Code Llama\u003Cbr>(**7b**) | ELYZA | Llama 2 Community License |\n| [AIBunCho\u002Fjapanese-novel-gpt-j-6b](https:\u002F\u002Fhuggingface.co\u002FAIBunCho\u002Fjapanese-novel-gpt-j-6b) | 物語生成 | GPT-J (**6b**) | 個人 ([大曽根宏幸](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=6ID5K3oAAAAJ)) | CreativeML OpenRAIL-M License |\n| [NovelAI\u002Fgenji-jp](https:\u002F\u002Fhuggingface.co\u002FNovelAI\u002Fgenji-jp) | 物語生成 | GPT-J (**6b**) | NovelAI |  ？  |\n\n\u003Ca id=\"instruction-only-models\">\u003C\u002Fa>\n### 海外モデルに日本語で事後学習を行ったモデル（継続事前学習なし、または詳細不明）\n\n\u003Ca id=\"generative-instruction-only-general\">\u003C\u002Fa>\n#### 汎用\n\n|    | ベースのLLM  | 学習テキスト | 開発元  | ライセンス \u002F 利用規約 |\n|:---|:---:|:---:|:---:|:---:|\n| [Rakuten AI 3.0](https:\u002F\u002Fcorp.rakuten.co.jp\u002Fnews\u002Fpress\u002F2026\u002F0317_01.html)\u003Cbr>([RakutenAI-3.0](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-3.0)) | DeepSeek-V3 (**671b**) [^24] | 不明 | 楽天 | Apache 2.0 |\n| [Llama 3.1 Shisa V2 405B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2-405b-ja-pr\u002F)\u003Cbr>([**405b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-llama3.1-405b)) | Llama 3.1 (**405b**) | 高品質な日本語データセットでSFT\u002FDPO | Shisa.AI | Llama 3.1 Community License |\n| [AXCXEPT\u002FEZO-Qwen2.5-72B-Instruct](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Qwen2.5-72B-Instruct)\u003Cbr>[AXCXEPT\u002FEZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4) | Qwen2.5 (**72b**) || Axcxept | Qwen License |\n| [ao-Karasu](https:\u002F\u002Fnote.com\u002Flightblue_tech\u002Fn\u002Fnfda12435b262)\u003Cbr>([72B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fao-karasu-72B)) | Qwen1.5 (**72b**) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本語の公開技術ブログ, ニュース記事, QAサイトの回答, 独自のデータセット | Lightblue |  Tongyi Qianwen LICENSE (?)[^12] |\n| [Shisa V2.1 70B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**70b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-llama3.3-70b)) | Llama 3.3 (**70b**) | SFT\u002FDPO\u002F強化学習\u002Fモデルマージを組み合わせた学習 | Shisa.AI | Llama 3.3 Community License |\n| [shisa-ai\u002Fshisa-v2-llama3.3-70b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-llama3.3-70b) | Llama 3.3 (**70b**) || Shisa.AI | Llama 3.3 Community License |\n| [AXCXEPT\u002FLlama-3.1-70B-EZO-1.1-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FLlama-3.1-70B-EZO-1.1-it) | Llama 3.1 (**70b**) || Axcxept | Llama 3.1 Community License |\n| [Llama 3 shisa-v1-llama3-70b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v1-llama3-70b)\u003Cbr>([70b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v1-llama3-70b)) | Llama 3 (**70b**) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)[^12] |\n| [AIgroup-CVM-utokyohospital\u002FLlama-2-70b-chat-4bit-japanese](https:\u002F\u002Fhuggingface.co\u002FAIgroup-CVM-utokyohospital\u002FLlama-2-70b-chat-4bit-japanese) | Llama 2 (**70b**) || 東京大学医学部附属病院 循環器内科 AIグループ | Llama 2 Community License |\n| [doshisha-mil\u002Fllama-2-70b-chat-4bit-japanese-v1](https:\u002F\u002Fhuggingface.co\u002Fdoshisha-mil\u002Fllama-2-70b-chat-4bit-japanese-v1) | Llama 2 (**70b**) || 同志社大学 メディア情報学研究室 | ？ |\n| [cyberagent\u002FDeepSeek-R1-Distill-Qwen-32B-Japanese](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002FDeepSeek-R1-Distill-Qwen-32B-Japanese) | DeepSeek-R1-Distill-Qwen (**32b**) || サイバーエージェント | MIT |\n| [Flux-Japanese-Qwen2.5-32B-Instruct-V1.0](https:\u002F\u002Fflux.jp\u002Fnews\u002F1093\u002F)\u003Cbr>([V1.0](https:\u002F\u002Fhuggingface.co\u002Fflux-inc\u002FFlux-Japanese-Qwen2.5-32B-Instruct-V1.0)) | Qwen2.5-32B-Instruct (**32b**) | Precise-tuning: 日本語の知識・推論・言語回路をピンポイント特定し、パラメータの5%のみに対して調整を実施。3つの専門モデルを作成後、ピンポイントマージで統合 | FLUX | Apache 2.0 |\n| [karakuri-ai\u002Fkarakuri-lm-32b-thinking-2501-exp](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-32b-thinking-2501-exp) | QwQ (**32b**) || カラクリ | Apache 2.0 |\n| [shisa-ai\u002Fshisa-v2-qwen2.5-32b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-qwen2.5-32b) | Qwen2.5 (**32b**) || Shisa.AI | Apache 2.0 |\n| [AXCXEPT\u002FEZO-Qwen2.5-32B-Instruct](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Qwen2.5-32B-Instruct)\u003Cbr>[AXCXEPT\u002FEZO-AutoCoTRAG-Qwen2.5-32B-Instruct](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-AutoCoTRAG-Qwen2.5-32B-Instruct) | Qwen2.5 (**32b**) || Axcxept | Apache 2.0 |\n| [cyberagent\u002FDeepSeek-R1-Distill-Qwen-14B-Japanese](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002FDeepSeek-R1-Distill-Qwen-14B-Japanese) | DeepSeek-R1-Distill-Qwen (**14b**) || サイバーエージェント | MIT |\n| [Shisa V2.1 14B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**14b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-unphi4-14b)) | Phi-4 (**14b**) | SFT\u002FDPO\u002F強化学習\u002Fモデルマージを組み合わせた学習 | Shisa.AI | MIT |\n| [shisa-ai\u002Fshisa-v2-unphi4-14b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-unphi4-14b) | Phi-4 (**14b**) || Shisa.AI | MIT |\n| [EZO-Phi-4](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FAXCXEPT\u002Fezo-phi-4-678a461c325df99089b387f3)\u003Cbr>([phi-4-open-R1-Distill-EZOv1](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fphi-4-open-R1-Distill-EZOv1), [phi-4-deepseek-R1K-RL-EZO](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fphi-4-deepseek-R1K-RL-EZO)) | Phi-4 (**14b**) || Axcxept | MIT |\n| [Qarasu](https:\u002F\u002Fwww.lightblue-tech.com\u002F2024\u002F01\u002F15\u002F20240115_news\u002F)\u003Cbr>([14B-chat-plus-unleashed](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fqarasu-14B-chat-plus-unleashed)) | Qwen (**14b**) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット | Lightblue | Tongyi Qianwen LICENSE (?)[^12] |\n| [Sparticle\u002Fllama-2-13b-chat-japanese-lora](https:\u002F\u002Fhuggingface.co\u002FSparticle\u002Fllama-2-13b-chat-japanese-lora) | Llama 2 (**13b**) || Sparticle | ？ |\n| [izumi-lab\u002Fllama-13b-japanese-lora-v0-1ep](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fllama-13b-japanese-lora-v0-1ep) | Llama (**13b**) || 東大 和泉研 |  ？ |\n| [shisa-ai\u002Fshisa-v2-mistral-nemo-12b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-mistral-nemo-12b) | Mistral NeMo (**12b**) || Shisa.AI | Apache 2.0 |\n| [AXCXEPT\u002FEZO-Common-9B-gemma-2-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Common-9B-gemma-2-it) | Gemma 2 (**9b**) || Axcxept | Gemma Terms of Use |\n| [AXCXEPT\u002FEZO-Humanities-9B-gemma-2-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Humanities-9B-gemma-2-it) |Gemma 2 (**9b**) || Axcxept | Gemma Terms of Use |\n| [Shisa V2.1 8B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**8b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-qwen3-8b)) | Qwen3 (**8b**) | SFT\u002FDPO\u002F強化学習\u002Fモデルマージを組み合わせた学習 | Shisa.AI | Apache 2.0 |\n| [AXCXEPT\u002FQwen3-EZO-8B-beta](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FQwen3-EZO-8B-beta) | Qwen3 (**8b**) | Deep-Think技術による高性能推論 | Axcxept | Apache 2.0 |\n| [shisa-ai\u002Fshisa-v2-llama3.1-8b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-llama3.1-8b) | Llama 3.1 (**8b**) || Shisa.AI | Llama 3.1 Community License |\n| [AXCXEPT\u002FLlama-3.1-8B-EZO-1.1-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FLlama-3.1-8B-EZO-1.1-it) |Llama 3.1 (**8b**) || Axcxept | Llama 3.1 Community License |\n| [Llama 3 Suzume 8B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fsuzume-llama-3-8B-japanese)\u003Cbr>([8B-japanese](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fsuzume-llama-3-8B-japanese), [8B-japanese-gguf](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fsuzume-llama-3-8B-japanese-gguf)) | Llama 3 (**8b**) | megagonlabs\u002Finstruction_ja, ShareGPT,  独自のデータセット | Lightblue | Llama 3 Community License (?)[^12] |\n| [Llama 3 shisa-v1-llama3-8b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v1-llama3-8b)\u003Cbr>([8b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v1-llama3-8b)) | Llama 3 (**8b**) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)[^12] |\n| [AXCXEPT\u002FLlama-3-EZO-8b-Common-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FLlama-3-EZO-8b-Common-it) |Llama 3 (**8b**) || Axcxept | Llama 3 Community License |\n| [lightblue\u002FDeepSeek-R1-Distill-Qwen-7B-Japanese](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002FDeepSeek-R1-Distill-Qwen-7B-Japanese) | DeepSeek-R1-Distill-Qwen (**7b**) || Lightblue | Apache 2.0 |\n| [ABEJA-Qwen2.5-7b-Japanese-v0.1](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fgeniac2-qwen25-7b-v0.1)\u003Cbr>([v0.1](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FABEJA-Qwen2.5-7b-Japanese-v0.1)) | Qwen 2.5 (**7b**) || ABEJA | Apache 2.0 |\n| [shisa-ai\u002Fshisa-v2-qwen2.5-7b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-qwen2.5-7b) | Qwen 2.5 (**7b**) || Shisa.AI | Apache 2.0 |\n| [Karasu DPO](https:\u002F\u002Fnote.com\u002Flightblue_tech\u002Fn\u002Fn6967ff462f4a)\u003Cbr>([7B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002FKarasu-DPO-7B)) | Qwen 2.5 (**7b**) || Lightblue | Apache 2.0 |\n| [ganchengguang\u002FYoko-7B-Japanese-v1](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FYoko-7B-Japanese-v1) | Llama 2 (**7b**) || 横浜国大 森研 |  ？  |\n| [Sparticle\u002Fllama-2-7b-chat-japanese-lora](https:\u002F\u002Fhuggingface.co\u002FSparticle\u002Fllama-2-7b-chat-japanese-lora) | Llama 2 (**7b**) || Sparticle |  ？  |\n| [izumi-lab\u002Fllama-7b-japanese-lora-v0-5ep](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fllama-7b-japanese-lora-v0-5ep) | Llama (**7b**) || 東大 和泉研 |  ？  |\n| [lightblue\u002Fjod](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fjod) | Mistral-7B-SlimOrca (**7b**) || Lightblue | Apache 2.0 |\n| [NTQAI\u002Fchatntq-7b-jpntuned](https:\u002F\u002Fhuggingface.co\u002FNTQAI\u002Fchatntq-7b-jpntuned) | RWKV-4 World (**7b**) || NTQ Solution |  ？  |\n| [Qwen3.5-FT-Japanese-CoT-4B](https:\u002F\u002Fhuggingface.co\u002FAname-Tommy\u002FQwen3.5-FT-Japanese-CoT-4B) | Qwen3.5 (**4b**) | 不明 | 個人 (Aname-Tommy) | MIT |\n| [Borea](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000008.000129878.html)\u003Cbr>([Jp](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FBorea-Phi-3.5-mini-Instruct-Jp), [Common](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FBorea-Phi-3.5-mini-Instruct-Common), [Coding](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FBorea-Phi-3.5-mini-Instruct-Coding)) | Phi-3.5 (**3.8b**) | | Axcxept | MIT |\n| [Shisa V2.1 3B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**3b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-llama3.2-3b)) | Llama 3.2 (**3b**) | SFT\u002FDPO\u002F強化学習\u002Fモデルマージを組み合わせた学習 | Shisa.AI | Llama 3.2 Community License |\n| [AXCXEPT\u002FEZO-Llama-3.2-3B-Instruct-dpoE](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Llama-3.2-3B-Instruct-dpoE) | Llama 3.2 (**3b**) || Axcxept | Llama 3.2 Community License |\n| [日本語版 Gemma 2 2B](https:\u002F\u002Fdevelopers-jp.googleblog.com\u002F2024\u002F10\u002Fgemma-2-for-japan.html)\u003Cbr>([2b-jpn-it](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fgemma-2-2b-jpn-it)) | Gemma 2 (**2b**) || Google | Gemma Terms of Use |\n| [AXCXEPT\u002FEZO-gemma-2-2b-jpn-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-gemma-2-2b-jpn-it) | Gemma 2 (**2b**) || Axcxept | Gemma Terms of Use |\n| [AXCXEPT\u002FEZO-Common-T2-2B-gemma-2-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Common-T2-2B-gemma-2-it) | Gemma 2 (**2b**) || Axcxept | Gemma Terms of Use |\n| [Shisa V2.1 1.2B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**1.2b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-lfm2-1.2b)) | LFM2 (**1.2b**) | SFT\u002FDPO\u002F強化学習\u002Fモデルマージを組み合わせた学習 | Shisa.AI | LFM Open License v1.0 |\n| [LFM2.5-1.2B-JP](https:\u002F\u002Fwww.liquid.ai\u002Fblog\u002Fintroducing-lfm2-5-the-next-generation-of-on-device-ai)\u003Cbr>([1.2B-JP](https:\u002F\u002Fhuggingface.co\u002FLiquidAI\u002FLFM2.5-1.2B-JP)) | LFM2.5 (**1.2b**) | 不明 | Liquid AI | LFM Open License v1.0 |\n| [Qwen3.5-FT-Japanese-CoT-0.8B](https:\u002F\u002Fhuggingface.co\u002FAname-Tommy\u002FQwen3.5-FT-Japanese-CoT-0.8B) | Qwen3.5 (**0.8b**) | 不明 | 個人 (Aname-Tommy) | MIT |\n\n\u003Ca id=\"generative-instruction-only-domain-specific\">\u003C\u002Fa>\n#### ドメイン特化型\n\n|    | ドメイン | ベースのLLM  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [JMedLoRA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.10083.pdf)\u003Cbr>([llama2-jmedlora-6.89ep](https:\u002F\u002Fhuggingface.co\u002FAIgroup-CVM-utokyohospital\u002Fllama2-jmedlora-6.89ep)) | 医療 | Llama 2 (**70b**) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC 4.0 |\n| [pfnet\u002FQwen3-1.7B-pfn-qfin](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002FQwen3-1.7B-pfn-qfin) | 金融 | Qwen3 (**1.72b**) | Preferred Networks | PLaMo Community License |\n| [pfnet\u002FQwen2.5-1.5B-pfn-qfin](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002FQwen2.5-1.5B-pfn-qfin) | 金融 | Qwen2.5 (**1.54b**) | Preferred Networks | PLaMo Community License |\n\n\u003Ca id=\"merged-models\">\u003C\u002Fa>\n### 複数のLLMをマージして作成されたモデル\n\n|    |  マージ元のLLM（太字は日本語LLM）  | 開発元  | ライセンス |\n|:---|:---:|:---:|:---:|\n [EQUES\u002FMedLLama3-JP-v2](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FMedLLama3-JP-v2) | **Llama 3 Swallow 8B (Instruct)**, OpenBioLLM-8B, MMed-Llama 3 8B, **Llama 3 ELYZA JP 8B** | EQUES | Llama 3 Community License |\n| [EvoLLM-JP-A](https:\u002F\u002Fsakana.ai\u002Fevolutionary-model-merge-jp\u002F)\u003Cbr>([v1-7B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoLLM-JP-A-v1-7B)) | **Shisa Gamma 7B (v1)**, Arithmo2 Mistral 7B, Abel 7B 002 | Sakana AI | Apache 2.0 |\n| [EvoLLM-JP](https:\u002F\u002Fsakana.ai\u002Fevolutionary-model-merge-jp\u002F)\u003Cbr>([v1-7B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoLLM-JP-v1-7B), [v1-10B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoLLM-JP-v1-10B)) | **Shisa Gamma 7B (v1)**, WizardMath-7B-V1.1, Abel 7B 002 | Sakana AI | MICROSOFT RESEARCH LICENSE |\n| [EQUES\u002FTinyQwens-Merge-1.5B](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FTinyQwens-Merge-1.5B) | **SakanaAI\u002FTinySwallow-1.5B-Instruct**, **EQUES\u002FTinySwallow-Stratos-1.5B**, deepseek-ai\u002FDeepSeek-R1-Distill-Qwen-1.5B, Qwen\u002FQwen2.5-1.5B-Instruct | EQUES Inc. | Apache 2.0 |\n\n\u003Ca id=\"api-based-models\">\u003C\u002Fa>\n### APIとして提供されているモデル\n\n|    |  入出力で扱える\u003Cbr>トークン数 | 開発元  |  プラットフォーム |\n|:---|:---:|:---:|:---:|\n| [PLaMo API](https:\u002F\u002Fplamo.preferredai.jp\u002Fapi) | 32,768 | Preferred Networks | 独自 |\n| [AIのべりすと](https:\u002F\u002Fai-novel.com\u002Faccount_api.php) | 2,400 ~ 8,192 | Bit192 | 独自 |\n| [LHTM-OPT](https:\u002F\u002Faws.amazon.com\u002Fmarketplace\u002Fpp\u002Fprodview-nw62wpreit442) | | オルツ | AWS Marketplace (SageMaker) |\n| [Syn](https:\u002F\u002Fwww.upstage.ai\u002Fnews\u002Fintroducing-upstage-japan)\u003Cbr>([Syn](https:\u002F\u002Faws.amazon.com\u002Fmarketplace\u002Fpp\u002Fprodview-if7zjxeioy5pg), [Syn Pro](https:\u002F\u002Faws.amazon.com\u002Fmarketplace\u002Fpp\u002Fprodview-d7vt6ap2jhvfg)) | 32,768 | カラクリ, Upstage | AWS Marketplace (SageMaker) |\n| [tsuzumi](https:\u002F\u002Fwww.nttdata.com\u002Fglobal\u002Fja\u002Fnews\u002Ftopics\u002F2024\u002F112000\u002F)\u003Cbr>([tsuzumi-7b](https:\u002F\u002Fai.azure.com\u002Fcatalog\u002Fmodels\u002Ftsuzumi-7b)) | | NTT | Microsoft Foundry |\n\n\u003Ca id=\"autoencoding\">\u003C\u002Fa>\n## 入力テキストの処理に主に使うモデル\n\n\u003Ca id=\"autoencoding-general\">\u003C\u002Fa>\n### 汎用\n\n|    |  アーキテクチャ  |  入力で扱えるトークン数  |  学習テキスト  |  開発元  | ライセンス | HuggingFace ですぐ使える？ [^4]  |\n|:---|:---:|:---:|:---:|:---:|:---:|:---:|\n| [ModernBERT-Ja](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-310m) | ModernBERT | **8,192** | 日本語・英語データ | SB Intuitions | MIT | ◯ ([30m](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-30m), [70m](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-70m), [130m](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-130m), [310m](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-310m)) |\n| [llm-jp-modernbert](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fnews\u002Fpost-765\u002F) | ModernBERT | **8,192** | llm-jp-corpus-v4 の日本語サブセット（約**0.69T**トークン）| 大規模言語モデル研究開発センター | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-modernbert-base) |\n|  [京大BERT](https:\u002F\u002Fnlp.ist.i.kyoto-u.ac.jp\u002F?ku_bert_japanese)  |  BERT (base, large)  | 512 |  日本語 Wikipedia (約1,800万文)  |  京大 言語メディア研究室  | Apache 2.0 | △ |\n|  [東北大BERT](https:\u002F\u002Fgithub.com\u002Fcl-tohoku\u002Fbert-japanese)  |  BERT (base, large)  | 512 |  base (v1):\u003Cbr>日本語 Wikipedia 約1,700万文 (2.6GB)\u003Cbr>base (v2) & large:\u003Cbr>日本語 Wikipedia 約3,000万文 (4.0GB)\u003Cbr>base (v3) & large (v2):\u003Cbr>日本語 Wikipedia 約3,400万文 (4.9GB)\u003Cbr>+ 日本語 CC-100 約3億9,200万文 (74.3GB)   |  東北大\u003Cbr>自然言語処理研究グループ | base (v1, v2) & large: CC BY-SA 3.0\u003Cbr>base (v3) & large (v2): Apache 2.0 |◯ ([base (v1)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-whole-word-masking), [base (v1, 文字レベル)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-char-whole-word-masking), [base (v2)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-v2), [base (v2, 文字レベル)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-char-v2), [large](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-large-japanese), [large (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-large-japanese-char), [base (v3)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-v3), [base (v3, 文字レベル)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-char-v3), [large (v2)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-large-japanese-v2), [large (v2, 文字レベル)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-large-japanese-char-v2)) |\n| [TohokuNLP BERT-alpha 500M](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Ftohokunlp-bert-500m-sq8192-alpha)  | Llama ベースのエンコーダ[^23] | **4,096**\u003Cbr>または\u003Cbr>**8,192** | [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3) の日本語サブセット | 東北大\u003Cbr>自然言語処理研究グループ | Apache 2.0 | ◯ ([sq4096-alpha](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Ftohokunlp-bert-500m-sq4096-alpha), [sq8192-alpha](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Ftohokunlp-bert-500m-sq8192-alpha)) |\n| [ByBERT-JP](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftohoku-nlp\u002Fbybert-jp-68ca50cd4ea72d6d6b348fcd) | Llama ベースのエンコーダ[^23] | 100m, 200m, 400m: 3,072\u003Cbr>v2-100m: **4,096** | [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3) のサブセット\u003Cbr>100m: 623B トークン\u003Cbr>200m: 637B トークン\u003Cbr>400m: 1.23T トークン\u003Cbr>v2-100m: 2.76T トークン | 東北大\u003Cbr>自然言語処理研究グループ | Apache 2.0 | ◯ ([100m](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbybert-jp-100m), [200m](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbybert-jp-200m), [400m](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbybert-jp-400m), [v2-100m](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbybert-jp-v2-100m)) |\n| [NICT BERT](https:\u002F\u002Falaginrc.nict.go.jp\u002Fnict-bert\u002Findex.html)   |  BERT (base)  | 512 |  日本語 Wikipedia  |  NICT  | CC BY 4.0 | △ |\n| [Laboro BERT](https:\u002F\u002Fgithub.com\u002Flaboroai\u002FLaboro-BERT-Japanese) | BERT (base, large) | 512 | 日本語 Web コーパス \u003Cbr> (ニュースサイトやブログなど\u003Cbr>計4,307のWebサイト、2,605,280ページ (12GB)) | Laboro.AI | CC BY-NC 4.0 | ✕ |\n| [colorfulscoop BERT](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fbert-base-ja) | BERT (base) | 512 | 日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fbert-base-ja) |\n| [東大BERT](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | BERT (small) | 512 | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fbert-small-japanese) |\n| [chiTra (Sudachi Transformers)](https:\u002F\u002Fwww.worksap.co.jp\u002Fnews\u002F2022\u002F0225\u002F) | BERT (base) | 512 | 国語研日本語ウェブコーパス (NWJC) (148GB) | NINJAL, ワークス徳島人工知能NLP研 | Apache 2.0 | △ |\n| [ACCMS BERT](https:\u002F\u002Fhuggingface.co\u002Fku-accms\u002Fbert-base-japanese-ssuw) | BERT (base) | 512 | 日本語 Wikipedia (3.3GB) | 京大 ACCMS | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fku-accms\u002Fbert-base-japanese-ssuw) |\n| [日立BERT](https:\u002F\u002Faclanthology.org\u002F2023.acl-srw.5.pdf) | BERT (base) | 512 | 日本語 Wikipedia \u003Cbr>+ Japanese CC-100 | 日立製作所 | CC BY-NC-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fhitachi-nlp\u002Fbert-base-japanese_jumanpp-bpe) [^6] |\n| [RetrievaBERT](https:\u002F\u002Fnote.com\u002Fretrieva\u002Fn\u002Fn715bea2c2cd1) | BERT [^5] | **2,048** | Japanese CommonCrawl, RefinedWeb, Chinese Wikipedia, Korean Wikipedia, The Stack | レトリバ | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Fbert-1.3b) |\n| [Bandai Namco DistilBERT](https:\u002F\u002Fgithub.com\u002FBandaiNamcoResearchInc\u002FDistilBERT-base-jp\u002Fblob\u002Fmain\u002Fdocs\u002FGUIDE.md) | DistilBERT | 512 | - （東北大BERT(base) を親モデルとして知識蒸留） | Bandai Namco Research | MIT | [◯](https:\u002F\u002Fhuggingface.co\u002Fbandainamco-mirai\u002Fdistilbert-base-japanese) |\n| [Laboro DistilBERT](https:\u002F\u002Fgithub.com\u002Flaboroai\u002FLaboro-DistilBERT-Japanese) | DistilBERT | 512 | - （Laboro BERT(base) を親モデルとして知識蒸留）| Laboro.AI | CC BY-NC 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Flaboro-ai\u002Fdistilbert-base-japanese) |\n| [LINE DistilBERT](https:\u002F\u002Fengineering.linecorp.com\u002Fja\u002Fblog\u002Fline-distilbert-high-performance-fast-lightweight-japanese-language-model) | DistilBERT | 512 | - （LINE社内のBERTを親モデルとして知識蒸留）| LINE | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fline-distilbert-base-japanese) |\n| [rinna RoBERTa](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-roberta-base) | RoBERTa (base) | 512 |  日本語 Wikipedia \u003Cbr>+ Japanese CC-100 | rinna | MIT | [◯](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-roberta-base) |\n| [早大RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Froberta-base-japanese-with-auto-jumanpp) | RoBERTa (base, large) | 512 | 日本語 Wikipedia \u003Cbr>+ Japanese CC-100 | 早大 河原研 | CC BY-SA 4.0 | ◯ ([base](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Froberta-base-japanese-with-auto-jumanpp), [large](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Froberta-large-japanese-with-auto-jumanpp), [large (seq512)](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Froberta-large-japanese-seq512-with-auto-jumanpp)) [^7] |\n| [インフォマティクスRoBERTa](https:\u002F\u002Fwww.informatix.co.jp\u002Fpr-roberta\u002F) | RoBERTa (base) | 512 | 日本語 Wikipedia\u003Cbr> + Web 上の記事 (計25GB) | インフォマティクス | Apache 2.0 | △ |\n| [京大RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Froberta-base-japanese-char-wwm) | RoBERTa (base, large) | 512 | 日本語 Wikipedia \u003Cbr>+ Japanese CC-100 | 京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ ([base (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Froberta-base-japanese-char-wwm), [large (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Froberta-large-japanese-char-wwm)) |\n| [横浜国大RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FRoBERTa-base-janpanese) | RoBERTa (base) | 512 | 日本語 Wikipedia (3.45GB) | 横浜国大 森研 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FRoBERTa-base-janpanese) |\n| [Megagon Labs RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fmegagonlabs\u002Froberta-long-japanese) | RoBERTa (base) [^8] | **1,282** | Japanese mC4 (約2億文) | Megagon Labs \u003Cbr> (リクルート) | MIT | [◯](https:\u002F\u002Fhuggingface.co\u002Fmegagonlabs\u002Froberta-long-japanese)  |\n| [ACCMS RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fku-accms\u002Froberta-base-japanese-ssuw) | RoBERTa (base) | 512 | 日本語 Wikipedia (3.3GB) + Japanese CC-100 (70GB) | 京大 ACCMS | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fku-accms\u002Froberta-base-japanese-ssuw) |\n| [シナモンELECTRA](https:\u002F\u002Fcinnamon.ai\u002Fideas\u002F20200619_research_001\u002F) | ELECTRA (small) | 512 | 日本語 Wikipedia | シナモン | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002FCinnamon\u002Felectra-small-japanese-discriminator)  |\n| [Megagon Labs ELECTRA](https:\u002F\u002Fwww.recruit.co.jp\u002Fnewsroom\u002Fpressrelease\u002F2021\u002F0826_9293.html) | ELECTRA (base) | 512 | Japanese mC4 (約2億文) | Megagon Labs \u003Cbr> (リクルート) | MIT | [◯](https:\u002F\u002Fhuggingface.co\u002Fmegagonlabs\u002Felectra-base-japanese-discriminator)  |\n| [東大ELECTRA](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | ELECTRA (small, base) | 512 | 日本語 Wikipedia (約2,000万文 (2.9GB)) | 東大 和泉研 | CC BY-SA 4.0 | ◯ ([small](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Felectra-small-japanese-discriminator), [base](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Felectra-base-japanese-discriminator))  |\n| [日本語RoFormer](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FRoformer-base-japanese) | RoFormer (base) | 512 | 日本語 Wikipedia (3.45GB) | 横浜国大 森研 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FRoformer-base-japanese) |\n| [日本語LUKE](https:\u002F\u002Fwww.ousia.jp\u002Fnews\u002Fluke-japanese) | LUKE (base, large) | 512 | 日本語 Wikipedia | Studio Ousia | Apache 2.0 | ◯ ([base](https:\u002F\u002Fhuggingface.co\u002Fstudio-ousia\u002Fluke-japanese-base-lite), [large](https:\u002F\u002Fhuggingface.co\u002Fstudio-ousia\u002Fluke-japanese-large-lite)) |\n| [京大DeBERTaV2](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-base-japanese) | DeBERTaV2 (tiny, base, large) | 512 | 日本語 Wikipedia \u003Cbr> + Japanese CC-100 \u003Cbr> + Japanese OSCAR\u003Cbr>（計171GB） | 京大 言語メディア研究室 | CC BY-SA 4.0 | ◯ ([tiny](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-tiny-japanese), [tiny (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-tiny-japanese-char-wwm), [base](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-base-japanese), [large](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-large-japanese)) |\n| [京大DeBERTaV3](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v3-base-japanese) | DeBERTaV3 (base) | 512 | [llm-jp-corpus](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-corpus) | 京大 言語メディア研究室 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v3-base-japanese) |\n| [東大DeBERTaV2](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | DeBERTaV2 (small, base) | 512 | 日本語 Wikipedia, 日本語 Wikinews, Japanese CC-100, Japanese mC4, Japanese OSCAR | 東大 和泉研 | CC BY-SA 4.0 | ◯ ([small](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fdeberta-v2-small-japanese), [base](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fdeberta-v2-base-japanese)) |\n| [GLOBIS DeBERTaV3](https:\u002F\u002Fqiita.com\u002Fakeyhero\u002Fitems\u002Fd7c215ceac37b7d3290a) | DeBERTaV3 (xsmall, base, large) | 512 | Wikipedia, WikiBooks, 青空文庫, Japanese CC-100, Japanese mC4, Japanese OSCAR | グロービス | CC BY-SA 4.0 | ◯ ([xsmall](https:\u002F\u002Fhuggingface.co\u002Fglobis-university\u002Fdeberta-v3-japanese-xsmall), [base](https:\u002F\u002Fhuggingface.co\u002Fglobis-university\u002Fdeberta-v3-japanese-base), [large](https:\u002F\u002Fhuggingface.co\u002Fglobis-university\u002Fdeberta-v3-japanese-large)) |\n| [日本語BigBird](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fbigbird-base-japanese) | BigBird (base) | **4,096** | 日本語 Wikipedia \u003Cbr> + Japanese CC-100 \u003Cbr> + Japanese OSCAR | 早大 河原研 | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fbigbird-base-japanese) |\n| [日本語LayoutLM](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2023\u002Fpdf_dir\u002FQ2-7.pdf) | LayoutLM (base) | 512 | 東北大BERT (base, v2) で重みを初期化した上で、日本語 Wikipedia の文章とレイアウトで事前学習 | 日本総合研究所 | CC BY-SA 3.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fjri-advtechlab\u002Flayoutlm-wikipedia-ja) |\n\n\u003Ca id=\"autoencoding-domain-specific\">\u003C\u002Fa>\n### ドメイン特化型\n\n|    |  ドメイン  |  アーキテクチャ  |  学習テキスト  |  開発元  | ライセンス | HuggingFace ですぐ使える？  |\n|:---|:---:|:---:|:---:|:---:|:---:|:---:|\n| [日本語ブログELECTRA](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2022\u002Fpdf_dir\u002FE2-5.pdf) | 口語 | ELECTRA (small) | 日本語ブログコーパス（3億5,400万文） | 北見工大 桝井・プタシンスキ研 | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fptaszynski\u002Fyacis-electra-small-japanese)  |\n| [日本語話し言葉BERT](https:\u002F\u002Fretrieva-tech.hatenablog.com\u002Fentry\u002F2021\u002F04\u002F01\u002F114943) | 話し言葉 | BERT (base) | 東北大BERTに対して日本語話し言葉コーパス（CSJ）を用いて追加学習\u003Cbr>（DAPTモデルでは国会議事録データも使用） | レトリバ | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Fjapanese-spoken-language-bert) |\n| [AcademicRoBERTa](https:\u002F\u002Fgithub.com\u002FEhimeNLP\u002FAcademicRoBERTa) | 学術 | RoBERTa (base) | CiNii の日本語論文 (約628万文) | 愛媛大 人工知能研究室 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002FEhimeNLP\u002FAcademicRoBERTa) |\n| [local-politics-BERT](http:\u002F\u002Flocal-politics.jp\u002F%e5%85%ac%e9%96%8b%e7%89%a9\u002Flocal-politics-bert\u002F) | 政治 | BERT (base) | Wikipedia, 国会会議録, 地方議会会議録 | 地方議会会議録コーパスプロジェクト | CC BY-SA 4.0 | ◯ ([SC-min](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-scratch), [SC-minwiki](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-wikipedia-scratch), [SC-2M-wiki](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-wikipedia-scratch-2m), [SC-2M-min](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-scratch-2m), [SC-2M-minwiki](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-wikipedia-scratch-2m), [FP-min](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-further), [FP-minwiki](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-wikipedia-further)) [^18] |\n| [UBKE-LUKE](https:\u002F\u002Ftech.uzabase.com\u002Fentry\u002F2024\u002F12\u002F24\u002F173942) | 経済 | LUKE (base) | 日本語 Wikipedia, 有価証券報告書, 経済ニュース記事 | ユーザベース | CC BY-NC | [◯](https:\u002F\u002Fhuggingface.co\u002Fuzabase\u002FUBKE-LUKE) |\n| [日本語金融BERT](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | 金融 | BERT (small, base) [^9] | 日本語 Wikipedia\u003Cbr> + 日本語金融コーパス (約2,700万文 (5.2GB)) | 東大 和泉研 | CC BY-SA 4.0 |◯ ([small](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fbert-small-japanese-fin), [base](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fbert-base-japanese-fin-additional)) |\n| [日本語金融ELECTRA](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | 金融 | ELECTRA (small) | 日本語 Wikipedia (約2,000万文 (2.9GB)) \u003Cbr> + 日本語金融コーパス (約2,700万文 (5.2GB)) | 東大 和泉研 | CC BY-SA 4.0 |  [◯](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Felectra-small-japanese-fin-discriminator)  |\n| [日本語ニュースBERT](https:\u002F\u002Fqiita.com\u002Fmkt3\u002Fitems\u002F3c1278339ff1bcc0187f) | ビジネス | BERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | CC BY 4.0 | △ |\n| [日本語ニュースXLNet](https:\u002F\u002Fqiita.com\u002Fmkt3\u002Fitems\u002F4d0ae36f3f212aee8002) |  ビジネス  | XLNet (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | ？ | ※ 非公式の HuggingFace 向けに変換されたモデルが[公開されている](https:\u002F\u002Fhuggingface.co\u002Fhajime9652\u002Fxlnet-japanese) |\n| [日本語ニュースALBERT](https:\u002F\u002Fqiita.com\u002Fmkt3\u002Fitems\u002Fb41dcf0185e5873f5f75) | ビジネス  | ALBERT (base) | 日本語ビジネスニュース記事(300万記事) | ストックマーク | ？ | △ |\n| [みんぱくBERT](https:\u002F\u002Fproceedings-of-deim.github.io\u002FDEIM2022\u002Fpapers\u002FF43-4.pdf) | 文化財 | BERT (base) | 東北大BERTに対して国立民族学博物館の文化財データで追加学習 | 兵庫県立大学 大島研 | MIT | ◯ ([minpaku-v1](https:\u002F\u002Fhuggingface.co\u002Fohshimalab\u002Fbert-base-minpaku-v1), [minpaku-v3](https:\u002F\u002Fhuggingface.co\u002Fohshimalab\u002Fbert-base-minpaku-v3), [minpaku-v3-no-additional-token](https:\u002F\u002Fhuggingface.co\u002Fohshimalab\u002Fbert-base-minpaku-v3-no-additional-token)) |\n| [JPharmaBERT](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002Fjpharma-bert-base) | 薬学 | BERT (base, large) | 日本語薬学文書 (2Bトークン)\u003Cbr>+ PubMed英語要旨 (8Bトークン)\u003Cbr>+ 薬学関連多言語データ (1.2Bトークン) | EQUES | 不明 | ◯ ([base](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002Fjpharma-bert-base), [large](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002Fjpharma-bert-large)) |\n| [medBERTjp](https:\u002F\u002Fgithub.com\u002Fou-medinfo\u002Fmedbertjp) | 医療 | BERT (base) | 日本語 Wikipedia \u003Cbr> + 日本語医療コーパス（『今日の診療プレミアム』Web版） | 阪大病院 \u003Cbr> 医療情報学研究室 | CC BY-NC-SA 4.0 | △ |\n| [JMedRoBERTa](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2023\u002Fpdf_dir\u002FP3-1.pdf) | 医療 | RoBERTa (base) | 日本語医学論文 (約1,100万文 (1.8GB)) | NII 相澤研 | CC BY-NC-SA 4.0 | ◯ ([万病WordPiece](https:\u002F\u002Fhuggingface.co\u002Falabnii\u002Fjmedroberta-base-manbyo-wordpiece), [SentencePiece](https:\u002F\u002Fhuggingface.co\u002Falabnii\u002Fjmedroberta-base-sentencepiece)) [^10] |\n\n\u003Ca id=\"embeddings\">\u003C\u002Fa>\n## 埋め込み (Embeddings) 作成に特化したモデル [^21]\n\n### Bi-Encoders\n\n#### Single-representation bi-encoders\n\n|    | 入力で扱えるトークン数 | 開発元  |  ライセンス |\n|:---|:---:|:---:|:---:|\n| [Ruri-v3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fcl-nagoya\u002Fruri-v3-67f382536e80902074ec6252)\u003Cbr>([v3-30m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-30m), [v3-70m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-70m), [v3-130m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-130m), [v3-310m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-310m)) | 8,192 | 名大 笹野研 | Apache 2.0 |\n| [PLaMo-Embedding-1B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-embedding-1b\u002F)\u003Cbr>([1b](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-embedding-1b)) | 4,096 | Preferred Networks | Apache 2.0 |\n| [Sarashina-Embedding-v2](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2025\u002F08\u002F20\u002F160139)\u003Cbr>([v2-1b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina-embedding-v2-1b)) | 8,192 | SB Intuitions | Sarashina Model NonCommercial License |\n| [sbintuitions\u002Fsarashina-embedding-v1-1b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina-embedding-v1-1b) | 8,192 | SB Intuitions | Sarashina Model NonCommercial License |\n| [AMBER](https:\u002F\u002Fretrieva.jp\u002Fnews\u002FENCTPk6I)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Famber-base), [large](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Famber-large)) | 512 | レトリバ | Apache 2.0 |\n| [RoSEtta](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000169.000022705.html)\u003Cbr>([base-ja](https:\u002F\u002Fhuggingface.co\u002Fpkshatech\u002FRoSEtta-base-ja)) | 1,024 | PKSHA Technology | Apache 2.0 |\n| [GLuCoSE v2](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000169.000022705.html)\u003Cbr>([base-ja-v2](https:\u002F\u002Fhuggingface.co\u002Fpkshatech\u002FGLuCoSE-base-ja-v2)) | 512 | PKSHA Technology | Apache 2.0 |\n| [Ruri](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07737)\u003Cbr>([small](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-small), [base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-base), [large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-large), [small-v2](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-small-v2), [base-v2](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-base-v2), [large-v2](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-large-v2)) | 512 | 名大 笹野研 | Apache 2.0 |\n| [Japanese SimCSE](https:\u002F\u002Fgithub.com\u002FhppRC\u002Fsimple-simcse-ja)\u003Cbr>([unsup-simcse-ja-base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Funsup-simcse-ja-base), [unsup-simcse-ja-large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Funsup-simcse-ja-large), [sup-simcse-ja-base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fsup-simcse-ja-base), [sup-simcse-ja-large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fsup-simcse-ja-large)) | 512 | 名大 笹野研 | CC BY-SA 4.0 |\n| [GLuCoSE](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000123.000022705.html)\u003Cbr>([base-ja](https:\u002F\u002Fhuggingface.co\u002Fpkshatech\u002FGLuCoSE-base-ja)) | 512 | PKSHA Technology | Apache 2.0 |\n| [colorfulscoop\u002Fsbert-base-ja](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fsbert-base-ja) || Colorful Scoop | CC BY-SA 4.0 |\n| [MU-Kindai\u002FSBERT-JSNLI-base](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FSBERT-JSNLI-base)\u003Cbr>[MU-Kindai\u002FSBERT-JSNLI-large](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FSBERT-JSNLI-large) || 近畿大学 (研究室不明) | ？ |\n| [MU-Kindai\u002FJapanese-SimCSE-BERT-base-unsup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-BERT-base-unsup)\u003Cbr>[MU-Kindai\u002FJapanese-SimCSE-BERT-large-unsup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-BERT-large-unsup)\u003Cbr>[MU-Kindai\u002FJapanese-SimCSE-RoBERTa-base-unsup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-RoBERTa-base-unsup)\u003Cbr>[MU-Kindai\u002FJapanese-SimCSE-BERT-base-sup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-BERT-base-sup)\u003Cbr>[MU-Kindai\u002FJapanese-SimCSE-BERT-large-sup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-BERT-large-sup) || 近畿大学 (研究室不明) | MIT |\n| [pkshatech\u002Fsimcse-ja-bert-base-clcmlp](https:\u002F\u002Fhuggingface.co\u002Fpkshatech\u002Fsimcse-ja-bert-base-clcmlp) || PKSHA Technology | CC BY-SA 4.0 |\n| [MU-Kindai\u002FJapanese-MixCSE-BERT-base](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-MixCSE-BERT-base)\u003Cbr>[MU-Kindai\u002FJapanese-MixCSE-BERT-large](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-MixCSE-BERT-large) || 近畿大学 (研究室不明) | MIT |\n| [MU-Kindai\u002FJapanese-DiffCSE-BERT-base](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-DiffCSE-BERT-base) || 近畿大学 (研究室不明) | MIT |\n| [bclavie\u002Ffio-base-japanese-v0.1](https:\u002F\u002Fhuggingface.co\u002Fbclavie\u002Ffio-base-japanese-v0.1) || 個人 ([Benjamin Clavié](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=vuMln98AAAAJ)) | |\n| [cl-nagoya\u002Fshioriha-large-pt](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fshioriha-large-pt) || 名大 笹野研 | |\n\n#### Multi-representation bi-encoders\n\n|    |  開発元  |  ライセンス |\n|:---|:---:|:---:|\n| [JaColBERTv2.5](https:\u002F\u002Fwww.answer.ai\u002Fposts\u002F2024-08-02-jacolbert-v25.html)\u003Cbr>([JaColBERTv2.4](https:\u002F\u002Fhuggingface.co\u002Fanswerdotai\u002FJaColBERTv2.4), [JaColBERTv2.5](https:\u002F\u002Fhuggingface.co\u002Fanswerdotai\u002FJaColBERTv2.5)) | Answer.AI | MIT |\n| [JaColBERTv2](https:\u002F\u002Fhuggingface.co\u002Fbclavie\u002FJaColBERTv2)\u003Cbr>([JaColBERTv2](https:\u002F\u002Fhuggingface.co\u002Fbclavie\u002FJaColBERTv2)) | 個人 ([Benjamin Clavié](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=vuMln98AAAAJ)) | MIT |\n| [JaColBERT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.16144.pdf)\u003Cbr>([JaColBERT](https:\u002F\u002Fhuggingface.co\u002Fbclavie\u002FJaColBERT)) | 個人 ([Benjamin Clavié](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=vuMln98AAAAJ)) | MIT |\n\n### Cross-Encoders\n\n|    |  開発元  |  ライセンス |\n|:---|:---:|:---:|\n| [Ruri-v3 Reranker](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-reranker-310m)\u003Cbr>([310m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-reranker-310m)) | 名大 笹野研 | Apache 2.0 |\n| [Ruri-Reranker](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07737)\u003Cbr>([stage1-small](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-stage1-small), [stage1-base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-stage1-base), [stage1-large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-stage1-large), [small](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-small), [base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-base), [large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-large)) | 名大 笹野研 | Apache 2.0 |\n| [hotchpotch\u002Fjapanese-reranker-cross-encoder-xsmall-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-reranker-cross-encoder-xsmall-v1)\u003Cbr>[hotchpotch\u002Fjapanese-reranker-cross-encoder-small-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-reranker-cross-encoder-small-v1)\u003Cbr>[hotchpotch\u002Fjapanese-reranker-cross-encoder-base-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-reranker-cross-encoder-base-v1)\u003Cbr>[hotchpotch\u002Fjapanese-reranker-cross-encoder-large-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-reranker-cross-encoder-large-v1)\u003Cbr>[hotchpotch\u002Fjapanese-bge-reranker-v2-m3-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-bge-reranker-v2-m3-v1) | 個人 (舘野祐一) | MIT |\n\n\u003Ca id=\"multimodal\">\u003C\u002Fa>\n## 視覚言語モデル (Vision-Language Models)\n\n\u003Ca id=\"multimodal-text-generation\">\u003C\u002Fa>\n### 画像+テキストからのテキスト生成\n\n#### スクラッチ学習モデル\n\n##### 汎用\n\n|    | 公開年 |  アーキテクチャ |  学習画像\u002Fテキスト  |  開発元  | ライセンス \u002F 利用規約 |\n|:---|:---:|:---:|:---:|:---:|:---:|\n| [Stockmark-2-VL-100B-beta](https:\u002F\u002Fstockmark-tech.hatenablog.com\u002Fentry\u002F2025\u002F06\u002F03\u002F101007)\u003Cbr>([**100B**-beta](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002FStockmark-2-VL-100B-beta)) | 2025 | LLaVA-OneVision | 3段階学習: アライメント事前学習、キャプション拡張、インストラクション・推論ファインチューニング\u003Cbr>合成データ: Qwen2.5-VL-72B から生成 | ストックマーク | Qwen License |\n| [Llama-3.1-70B-Instruct-multimodal-JP-Graph](https:\u002F\u002Fjp.ricoh.com\u002Frelease\u002F2025\u002F0610_1)\u003Cbr>([v0.1](https:\u002F\u002Fhuggingface.co\u002Fr-g2-2024\u002FLlama-3.1-70B-Instruct-multimodal-JP-Graph-v0.1)) | 2025 | LLaVA (Llama-3.1-Swallow-70B-Instruct-v0.3 + Qwen2-VL-7B-Instruct) | 図表・グラフ理解特化の600万枚超の合成視覚データ (文字、円グラフ、棒グラフ、フローチャートなど)、実データ (FastLabel 協力) | リコー | Llama 3.1 Community License & Gemma Terms of Use & Qwen License & MIT & Apache 2.0 |\n| [KARAKURI VL](https:\u002F\u002Fkarakuri.ai\u002Fnews\u002FGENIAC)\u003Cbr>([**32b**-instruct-2507](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-vl-32b-instruct-2507), [**32b**-thinking-2507-exp](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-vl-32b-thinking-2507-exp)) | 2025 | Vision-Language (Qwen2.5-VL-32B ベース) | 日本語コンピュータユース特化のカスタムデータセット: 日本語コンピュータ操作記録、日本語文書画像QA、視覚情報解釈、日本語OCR、フローチャート理解\u003Cbr>3段階学習: Supervised Fine-Tuning (SFT) + モデルマージ + 強化学習\u003Cbr>*thinking モデルは Chain of Thought (CoT) アプローチによる推論プロセス明示 | カラクリ | Apache 2.0 |\n| [Heron-NVILA](https:\u002F\u002Ftur.ing\u002Fposts\u002FpQLCubIm)\u003Cbr>([1B](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FHeron-NVILA-Lite-1B), [2B](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FHeron-NVILA-Lite-2B), [15B](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FHeron-NVILA-Lite-15B), [33B](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FHeron-NVILA-Lite-33B)) | 2025 | NVILA | 3段階学習: アライメント (558k日本語画像テキストペア + 595k LLaVA-Pretrain)、事前学習 (MOMIJI 13M、日本語画像テキストペア 6M、日本語インターリーブデータ 2M、coyo-700m 6M、mmc4-core 4M、Wikipedia-ja、LLaVA-Pretrain-JA、STAIR captions)、教師ありファインチューニング (LLaVA-instruct-v1.5-en、LLaVA-instruct-ja、日本語写真会話、JA-VG-VQA会話、SynthDog-ja、AI2D、SynthDog-en、Sherlock) | Turing | Apache 2.0 & OpenAI Terms of Use |\n| [NABLA-VL](https:\u002F\u002Fnote.com\u002Fnablas\u002Fn\u002Fn86298d28cdea)\u003Cbr>([15B](https:\u002F\u002Fhuggingface.co\u002Fnablasinc\u002FNABLA-VL)) | 2025 | microsoft\u002Fphi-4 + HuggingFaceM4\u002Fsiglip-so400m-14-980-flash-attn2-navit | 単一画像・複数画像・動画入力対応。訓練詳細不明 | NABLAS | Apache 2.0 |\n| [Sarashina2-Vision](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2025\u002F03\u002F17\u002F111659)\u003Cbr>([8b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-vision-8b), [14b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-vision-14b)) | 2025 | Sarashina2 + Qwen2-VL + 2-layer MLP | 3段階学習: プロジェクターウォームアップ (LLaVA-Pretrain 78M英語トークン)、視覚エンコーダー事前学習 (CC3M、CC12M、llm-jp-japanese-image-text-pairs、内部OCRデータセット、内部チャートキャプション合成データセット 3.8B日本語+7.7B英語トークン)、視覚的インストラクションチューニング (Japanese Visual Genome VQA、OCR-VQA、TextVQA、PlotQA、CLEVR翻訳版、DOCCI翻訳版、内部データセット 2.5B日本語+1.0B英語トークン) | SB Intuitions | MIT |\n| [Asagi](https:\u002F\u002Fuehara-mech.github.io\u002Fasagi-vlm?v=1)\u003Cbr>([2B](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FAsagi-2B), [4B](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FAsagi-4B), [8B](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FAsagi-8B), [14B](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FAsagi-14B)) | 2025 | LLaVA | 新規クロール日本語ウェブサイト画像、既存日本語データセット、英語データセットの日本語翻訳 約2000万件 (English VLM Phi-3.5-vision-instruct と Japanese LLM CALM3-22B-Chat を使用したデータ合成) | 東大 原田研 | Apache 2.0 |\n| [llava-calm2-siglip](https:\u002F\u002Fwww.cyberagent.co.jp\u002Fnews\u002Fdetail\u002Fid=30344)\u003Cbr>([llava-calm2-siglip](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fllava-calm2-siglip)) | 2024 | LLaVA | MS-COCO と VisualGenome から生成された対話データ | サイバーエージェント | Apache 2.0 |\n| [LLM-jp-3 VILA 14B](https:\u002F\u002Fllmc.nii.ac.jp\u002Ftopics\u002Fllm-jp-3-vila-14b\u002F)\u003Cbr>([14b](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-vila-14b)) | 2024 | LLaVA | [Japanese image text pairs](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-japanese-image-text-pairs), LLaVA-Pretrain, [Japanese interleaved data](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-japanese-interleaved-data), coyo (subset), mmc4-core (subset), [llava-instruct-ja](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllava-instruct-ja), [japanese-photos-conv](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fjapanese-photos-conversation), ja-vg-vqa, synthdog-ja, LLaVA-1.5 instruction data (subset) | 大規模言語モデル研究開発センター | Apache 2.0 & OpenAI Terms of Use |\n| [Heron](https:\u002F\u002Fgithub.com\u002Fturingmotors\u002Fheron\u002Fblob\u002Fmain\u002Fdocs\u002FREADME_JP.md)\u003Cbr>([blip-ja-stablelm-base-7b-v0](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-blip-ja-stablelm-base-7b-v0), [blip-ja-stablelm-base-7b-v1](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-blip-ja-stablelm-base-7b-v1), [blip-ja-stablelm-base-7b-v1-llava-620k](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-blip-ja-stablelm-base-7b-v1-llava-620k), [git-ja-stablelm-base-7b-v0](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-git-ja-stablelm-base-7b-v0), [git-ELYZA-fast-7b-v0](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-git-ELYZA-fast-7b-v0), [git-ja-stablelm-base-7b-v1](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-git-ja-stablelm-base-7b-v1)) | 2023 | BLIP-2 または GIT | v1: LLaVA-Instruct-150K-JA または LLaVA-Instruct-620K-JA\u003Cbr>v0: LLaVA-Instruct-150K-JA, Japanese STAIR Captions, Japanese Visual Genome VQA dataset | Turing | CC BY-NC 4.0 |\n| [Japanese Stable VLM](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-vlm)\u003Cbr>([japanese-stable-vlm](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-vlm)) | 2023 | LLaVA | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE |\n| [Japanese InstructBLIP Alpha](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-instructblip-alpha)\u003Cbr>([japanese-instructblip-alpha](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-instructblip-alpha)) | 2023 | InstructBLIP | Japanese CC12M, STAIR Captions, Japanese Visual Genome VQA dataset | Stability AI | JAPANESE STABLELM RESEARCH LICENSE |\n| [rinna MiniGPT-4](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-minigpt4)\u003Cbr>([bilingual-gpt-neox-4b-minigpt4](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-minigpt4)) | 2023 | MiniGPT-4 | CC12M, COCO 2014, Visual Genome, STAIR Captions, Japanese Visual Genome VQA dataset | rinna | MIT |\n| [Sarashina2.2-Vision-3B](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2025\u002F11\u002F25\u002F100000)\u003Cbr>([**3.8b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-vision-3b)) | 2025 | Sarashina2.2-3B-Instruct + SigLIP + 2-layer MLP | 4段階学習 + Post-training: プロジェクターウォームアップ (英語画像キャプション)、視覚エンコーダー事前学習 (日本語チャート、OCR、キャプション)、全モデル事前学習 (画像テキストインターリーブデータ)、教師ありファインチューニング\u003Cbr>Post-training: Mixed Preference Optimization\u003Cbr>(計 日本語103B + 英語157.1B トークン) | SB Intuitions | MIT |\n\n##### ドメイン特化型\n\n|    |  アーキテクチャ  |  ドメイン | 開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [Med-Asagi](https:\u002F\u002Fwww.rcast.u-tokyo.ac.jp\u002Fja\u002Fnews\u002Frelease\u002F20260306.html)\u003Cbr>([**14b**-reasoning_beta](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FMed-Asagi-14B-reasoning_beta)) | LLaVA | 医療 | 東大 原田研 | CC BY-SA 4.0 |\n| [watashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft-vlm](https:\u002F\u002Fhuggingface.co\u002Fwatashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft-vlm) | LLaVA | 大喜利 | わたしは | Llama 2 Community License |\n\n#### 海外モデルに日本語で追加学習を行ったモデル\n\n|    |  ベースのVLM  |  学習画像\u002Fテキスト  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [AXCXEPT\u002FEZO-InternVL2-26B](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-InternVL2-26B) | InternVL2 | - | 　Axcxept | MIT |\n| [KARAKURI VL 2](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-vl-2-8b-thinking-2603)\u003Cbr>([**8b**-thinking-2603](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-vl-2-8b-thinking-2603)) | Qwen3-VL-8B-Thinking | 不明 | カラクリ | Apache 2.0 |\n\n#### 複数のVLM・LLMをマージして作成されたモデル\n\n|    |  マージ元のLLM・VLM（太字は日本語LLM）  | 開発元  | ライセンス |\n|:---|:---:|:---:|:---:|\n| [Llama-3-EvoVLM-JP-v2](https:\u002F\u002Fsakana.ai\u002Fevovlm-jp\u002F)\u003Cbr>([v2](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FLlama-3-EvoVLM-JP-v2)) | Mantis-8B-SigLIP-Llama-3, **Llama-3-ELYZA-JP-8B**, Bunny-v1.1-Llama-3-8B-V | Sakana AI | Llama 3 Community License |\n| [AXCXEPT\u002FLlama-3-EZO-VLM-1](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FLlama-3-EZO-VLM-1) | - (Llama-3-EvoVLM-JP-v2 に対して追加学習) | Axcxept | Llama 3 Community License |\n| [EvoVLM-JP](https:\u002F\u002Fsakana.ai\u002Fevolutionary-model-merge-jp\u002F)\u003Cbr>([v1-7B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoVLM-JP-v1-7B)) | **Shisa Gamma 7B (v1)**, LLaVA-1.6-Mistral-7B | Sakana AI | Apache 2.0 |\n\n\u003Ca id=\"multimodal-text-to-image\">\u003C\u002Fa>\n### テキストからの画像生成\n\n\u003Ca id=\"multimodal-text-to-image-general\">\u003C\u002Fa>\n#### 汎用\n\n|    |  アーキテクチャ  |  学習画像\u002Fテキスト  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [CommonArt β](https:\u002F\u002Fnote.com\u002Faipicasso\u002Fn\u002Fnf17f876839b2)\u003Cbr>([commonart-beta](https:\u002F\u002Fhuggingface.co\u002Faipicasso\u002Fcommonart-beta)) | PixArt-Σ | CommonCatalog-cc-by, Megalith-10M, Smithonian Open Access, ArtBench (CC-0 only) | AI Picasso | Apache 2.0 |\n| [EvoSDXL-JP](https:\u002F\u002Fsakana.ai\u002Fevosdxl-jp\u002F)\u003Cbr>([v1](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoSDXL-JP-v1)) | Stable Diffusion | - （Japanese Stable Diffusion XL を含む複数の画像生成モデルをマージ） | Sakana AI | Apache 2.0[^14] |\n| [Japanese Stable Diffusion XL](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-diffusion-xl)\u003Cbr>([japanese-stable-diffusion-xl](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-diffusion-xl)) | Stable Diffusion | 不明 | Stability AI | STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE |\n| [東北大Stable Diffusion](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fstable-diffusion-xl-jp-base-1.0)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fstable-diffusion-xl-jp-base-1.0), [refiner](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fstable-diffusion-xl-jp-refiner-1.0)) | Stable Diffusion | WMT2023 Shared Task の日英対訳コーパス、laion2B-multi のキャプション約 1,300 万件 | 東北大\u003Cbr>自然言語処理研究グループ | CreativeML OpenRAIL-M License |\n| [rinna Stable Diffusion](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-stable-diffusion)\u003Cbr>([japanese-stable-diffusion](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-stable-diffusion)) | Stable Diffusion |  LAION-5B データセットのうちキャプションが日本語のもの（画像約 1 億枚）| rinna | CreativeML OpenRAIL-M License |\n\n\u003Ca id=\"multimodal-text-to-image-domain-specific\">\u003C\u002Fa>\n#### ドメイン特化型\n\n|    |  アーキテクチャ  |  ドメイン  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [Evo-Nishikie](https:\u002F\u002Fsakana.ai\u002Fevo-ukiyoe\u002F)\u003Cbr>([v1](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvo-Nishikie-v1)) | Stable Diffusion (ControlNet) | 浮世絵 | Sakana AI | Apache 2.0[^14] |\n| [Evo-Ukiyoe](https:\u002F\u002Fsakana.ai\u002Fevo-ukiyoe\u002F)\u003Cbr>([v1](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvo-Ukiyoe-v1)) | Stable Diffusion | 浮世絵 | Sakana AI | Apache 2.0[^14] |\n\n### テキストからの動画生成\n\n| | アーキテクチャ | 学習データ | 開発元 | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [AIdeaLab VideoJP](https:\u002F\u002Faidealab.com\u002Fnews\u002FQSvdcQfA)\u003Cbr>([AIdeaLab-VideoJP](https:\u002F\u002Fhuggingface.co\u002Faidealab\u002FAIdeaLab-VideoJP)) | CogVideoX | Pixabay, FineVideo | AIdeaLab | Apache 2.0 |\n\n\u003Ca id=\"multimodal-others\">\u003C\u002Fa>\n### その他\n\n|    |  アーキテクチャ  |  学習画像\u002Fテキスト  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [llm-jp-clip](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-clip-vit-base-patch16)\u003Cbr>([llm-jp-clip-vit-base-patch16](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-clip-vit-base-patch16), [llm-jp-clip-vit-large-patch14](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-clip-vit-large-patch14)) | CLIP | ReLAION-5Bの英語サブセットのキャプション約15億件の翻訳 | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [LINEヤフーCLIP](https:\u002F\u002Ftechblog.lycorp.co.jp\u002Fja\u002F20240514b)\u003Cbr>([clip-japanese-base](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fclip-japanese-base), [v2](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fclip-japanese-base-v2)) | CLIP | CommonCrawl, CC12M, YFCC100M\u003Cbr>(v2: Common Crawl 約20億画像-テキストペア + 知識蒸留) | LINEヤフー | Apache 2.0 |\n| [リクルートCLIP](https:\u002F\u002Fblog.recruit.co.jp\u002Fdata\u002Farticles\u002Fjapanese-clip\u002F)\u003Cbr>([japanese-clip-vit-b-32-roberta-base](https:\u002F\u002Fhuggingface.co\u002Frecruit-jp\u002Fjapanese-clip-vit-b-32-roberta-base)) | CLIP | laion2B-multi のキャプション約1億2000万件 | リクルート | CC BY-4.0 |\n| [Japanese Stable CLIP](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-clip-vit-l-16)\u003Cbr>([japanese-stable-clip-vit-l-16](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-clip-vit-l-16)) | SigLIP | CC12M のキャプションを日本語に翻訳したもの、STAIR Captions | Stability AI | STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE |\n| [rinna CLIP](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-clip-vit-b-16)\u003Cbr>([japanese-clip-vit-b-16](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-clip-vit-b-16)) | CLIP | CC12M のキャプションを日本語に翻訳したもの | rinna | Apache 2.0 |\n| [rinna CLOOB](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-cloob-vit-b-16)\u003Cbr>([japanese-cloob-vit-b-16](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-cloob-vit-b-16)) | CLOOB | CC12M のキャプションを日本語に翻訳したもの | rinna | Apache 2.0 |\n| [博報堂テクノロジーズCLIP](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2024\u002Fpdf_dir\u002FB6-5.pdf)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fhakuhodo-tech\u002Fjapanese-clip-vit-h-14-bert-base), [deeper](https:\u002F\u002Fhuggingface.co\u002Fhakuhodo-tech\u002Fjapanese-clip-vit-h-14-bert-deeper), [wider](https:\u002F\u002Fhuggingface.co\u002Fhakuhodo-tech\u002Fjapanese-clip-vit-h-14-bert-wider)) | CLIP | laion2B-multi のキャプション約1億2000万件 | 博報堂テクノロジーズ | CC BY-NC-SA 4.0 |\n\n\u003Ca id=\"speech\">\u003C\u002Fa>\n## 音声言語モデル (Speech-Language Models)\n\n\u003Ca id=\"speech-asr\">\u003C\u002Fa>\n### 音声認識\n\n|    |  アーキテクチャ  |  学習コーパス  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [Nue ASR](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fnue-asr)\u003Cbr>([nue-asr](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fnue-asr)) | Nue ASR\u003Cbr>(HuBERT + LLM) | ReazonSpeech | rinna | Apache 2.0 |\n| [Kotoba-Whisper](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.0)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.0), [v1.0-ggml](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.0-ggml), [v1.0-faster](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.0-faster), [v1.1](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.1), [bilingual-v1.0](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-bilingual-v1.0), [bilingual-v1.0-ggml](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-bilingual-v1.0-ggml), [bilingual-v1.0-faster](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-bilingual-v1.0-faster), [v2.0](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.0), [v2.0-ggml](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.0-ggml), [v2.0-faster](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.0-faster), [v2.1](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.1), [v2.2](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.2)) | Distil-Whisper | ReazonSpeech\u003Cbr>(+ Multilingual LibriSpeech) | Kotoba Technologies | Apache 2.0 |\n| [ReazonSpeech](https:\u002F\u002Fresearch.reazon.jp\u002Fprojects\u002FReazonSpeech\u002F)\u003Cbr>([espnet-v1](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Freazonspeech-espnet-v1), [espnet-next](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Freazonspeech-espnet-next), [espnet-v2](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Freazonspeech-espnet-v2), [nemo-v2](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Freazonspeech-nemo-v2)) | ESPnet (Conformer-Transducer) または NeMo (FastConformer-RNNT) | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |\n| [Reazon HuBERT ASR](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2-rs35kh)\u003Cbr>([rs35kh](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2-rs35kh), [rs35kh-bpe](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2-rs35kh-bpe)) | HuBERT | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |\n| [Reazon Zipformer ASR](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2-rs35kh)\u003Cbr>([rs35kh](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2-rs35kh), [rs35kh-bpe](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2-rs35kh-bpe)) | Zipformer | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |\n| [Reazon wav2vec 2.0 ASR](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-base-rs35kh)\u003Cbr>([base-rs35kh](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-base-rs35kh), [large-rs35kh](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-large-rs35kh)) | wav2vec 2.0 | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |\n\n\u003Ca id=\"speech-feature-extraction\">\u003C\u002Fa>\n### 特徴抽出\n\n|    |  アーキテクチャ  |  学習コーパス  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [NEST-Ja](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fnest-ja-0.1b)\u003Cbr>([**0.1b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fnest-ja-0.1b), [**0.6b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fnest-ja-0.6b)) | NEST (FastConformer) | ReazonSpeech v2.0 | SB Intuitions | MIT |\n| [くしなだ](https:\u002F\u002Fwww.aist.go.jp\u002Faist_j\u002Fpress_release\u002Fpr2025\u002Fpr20250310\u002Fpr20250310.html)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fimprt\u002Fkushinada-hubert-base), [large](https:\u002F\u002Fhuggingface.co\u002Fimprt\u002Fkushinada-hubert-large)) | HuBERT | 約6万時間の日本語テレビ放送音声 | 産総研 知的メディア処理研究チーム | Apache 2.0 |\n| [Reazon HuBERT](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2)\u003Cbr>([base-k2](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2)) | HuBERT | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |\n| [東大HuBERT](https:\u002F\u002Fhuggingface.co\u002Fsarulab-speech\u002Fhubert-base-jtube)\u003Cbr>([base-jtube](https:\u002F\u002Fhuggingface.co\u002Fsarulab-speech\u002Fhubert-base-jtube)) | HuBERT | JTubeSpeech | 東大 猿渡・高道研 | MIT |\n| [rinna HuBERT](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-hubert-base)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-hubert-base), [large](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-hubert-large)) | HuBERT | ReazonSpeech | rinna | Apache 2.0 |\n| [いざなみ](https:\u002F\u002Fwww.aist.go.jp\u002Faist_j\u002Fpress_release\u002Fpr2025\u002Fpr20250310\u002Fpr20250310.html)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fimprt\u002Fizanami-wav2vec2-base), [large](https:\u002F\u002Fhuggingface.co\u002Fimprt\u002Fizanami-wav2vec2-large)) | wav2vec 2.0 | 約6万時間の日本語テレビ放送音声 | 産総研 知的メディア処理研究チーム | Apache 2.0 |\n| [Reazon wav2vec 2.0](https:\u002F\u002Fresearch.reazon.jp\u002Fblog\u002F2024-10-21-Wav2Vec2-base-release.html)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-base), [large](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-large)) | wav2vec 2.0 | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |\n| [rinna wav2vec 2.0](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-wav2vec2-base)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-wav2vec2-base)) | wav2vec 2.0 | ReazonSpeech | rinna | Apache 2.0 |\n| [rinna data2vec Audio](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-data2vec-audio-base)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-data2vec-audio-base)) | data2vec Audio | ReazonSpeech | rinna | Apache 2.0 |\n| [Reazon Zipformer](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2)\u003Cbr>([base-k2](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2)) | Zipformer | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |\n\n\u003Ca id=\"speech-others\">\u003C\u002Fa>\n### その他\n\n|    |  アーキテクチャ  |  学習コーパス  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [LLM-jp-Moshi-v1](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2026\u002F0225.html)\u003Cbr>([llm-jp-moshi-v1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-moshi-v1)) | Transformerベースのテキスト・音声基盤モデル (Moshi) | J-CHAT（約69,000時間）, LLM-jp-Zoom1（約1,000時間） | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [J-Moshi](https:\u002F\u002Fgithub.com\u002Fnu-dialogue\u002Fj-moshi)\u003Cbr>([j-moshi](https:\u002F\u002Fhuggingface.co\u002Fnu-dialogue\u002Fj-moshi), [j-moshi-ext](https:\u002F\u002Fhuggingface.co\u002Fnu-dialogue\u002Fj-moshi-ext)) | Transformerベースのテキスト・音声基盤モデル (Moshi) | 音声対話コーパス（J-CHAT, 日本語Callhome, CSJ, 旅行代理店対話コーパス, 独自の雑談対話コーパス, 独自の相談対話コーパス）, テキスト対話コーパス（日本語PersonaChat, 日本語EmpatheticDialogues, 日本語日常対話コーパス, RealPersonaChat） | 名大 東中研 | CC BY-NC 4.0 |\n| [Kotoba-Speech](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-speech-v0.1)\u003Cbr>([v0.1](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-speech-v0.1)) | Transformer | 不明 | Kotoba Technologies | Apache 2.0 |\n\n\u003Ca id=\"music\">\u003C\u002Fa>\n## 音楽言語モデル (Music-Language Models)\n\n\u003Ca id=\"music-text-conversion\">\u003C\u002Fa>\n### 音楽-テキスト間変換\n\n|    |  アーキテクチャ  |  学習コーパス  |  開発元  | ライセンス |\n|:---|:---:|:---:|:---:|:---:|\n| [Japanese MULAN](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-mulan-base)\u003Cbr>([japanese-mulan-base](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-mulan-base)) | MULAN (AST + GLuCoSE) | 〜20k 社内音楽-テキストペア | LINEヤフー | Apache 2.0 |\n\n\u003Ca id=\"benchmark-suites\">\u003C\u002Fa>\n## 日本語LLM評価ベンチマーク\u002Fデータセットまとめ\n\n\u003Ca id=\"hybrid-benchmark-suites\">\u003C\u002Fa>\n### 複合型ベンチマーク\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [Nejumi LLMリーダーボード4](https:\u002F\u002Fwandb.ai\u002Fllm-leaderboard\u002Fnejumi-leaderboard4\u002Freports\u002FNejumi-LLM-4--VmlldzoxMzc1OTk1MA) | LLM の日本語能力をアプリケーション開発（コーディング・関数呼び出し）、推論能力（数学的・論理的・抽象的推論）、専門知識、安全性評価（指示追従・幻覚抑制）等の観点で総合的に評価している。高難度ベンチマークの導入により上位モデル間の性能差を明確化。詳しくは[こちらの記事](https:\u002F\u002Fnote.com\u002Fwandb_jp\u002Fn\u002Fncfd9d23221b3)を参照 | Weights & Biases |\n| [Swallow LLM Leaderboard v2](https:\u002F\u002Fswallow-llm.github.io\u002Fleaderboard\u002Findex-post.ja.html) | 様々な LLM を日本語理解・生成タスク、日本語マルチターン対話タスク、英語理解・生成タスクの 3 種類から総合的に評価している。v2では推論特化モデルに対応するため、ゼロショット推論や思考連鎖プロンプトを採用し、より高難度なベンチマーク（計12タスク：日本語6、英語6）で評価を実施。また、既存の LLM 評価ツールを統合・改修した評価スクリプトである [swallow-evaluation](https:\u002F\u002Fgithub.com\u002Fswallow-llm\u002Fswallow-evaluation) に加えて、新たに推論型モデル対応の [swallow-evaluation-instruct](https:\u002F\u002Fgithub.com\u002Fswallow-llm\u002Fswallow-evaluation-instruct) を公開している。 | Swallowプロジェクト |\n\n\u003Ca id=\"basic-benchmark-suites\">\u003C\u002Fa>\n### 基本的な自然言語処理タスクの性能を測定するベンチマーク\u002Fデータセット\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [オープン日本語LLMリーダーボード](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fllm-jp\u002Fopen-japanese-llm-leaderboard-v2) | [llm-jp-eval](#llm-jp-eval) を活用し、14カテゴリ・71以上のタスクで日本語の大規模言語モデルを評価している。| LLM-jp, Hugging Face |\n| \u003Ca id=\"llm-jp-eval\">\u003C\u002Fa> [llm-jp-eval](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-eval) | 複数のデータセットを横断して日本語 LLM を自動評価するツールである。\u003Cbr>対応している全データセット一覧は[こちら](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-eval\u002Ftree\u002Fmain\u002Fsrc\u002Fllm_jp_eval\u002Fjaster)から確認できる（この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている）。 | LLM-jp |\n| [JP Language Model Evaluation Harness](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Flm-evaluation-harness\u002Ftree\u002Fjp-stable) | Stability AI による [EleutherAI\u002Flm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness) のフォーク。複数のデータセットを横断して日本語 LLM を自動評価するツールである。\u003Cbr>対応している全データセット一覧は[こちら](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Flm-evaluation-harness\u002Ftree\u002Fjp-stable\u002Flm_eval\u002Ftasks\u002Fja)から確認できる（この中には JNLI や JCommonsenseQA といった JGLUE のタスクなども含まれている）。 | Stability AI |\n| [JGLUE](https:\u002F\u002Fgithub.com\u002Fyahoojapan\u002FJGLUE) | [GLUE ベンチマーク](https:\u002F\u002Fgluebenchmark.com\u002F)の日本語版として構築されたベンチマーク。MARC-ja, JCoLA, JSTS, JNLI, JSQuAD, JCommonsenseQA の 6 つのタスクを含む（[JCoLA](https:\u002F\u002Fgithub.com\u002Fosekilab\u002FJCoLA) は東大大関研により作成）。各タスクの詳細は[こちら](https:\u002F\u002Fwww.jstage.jst.go.jp\u002Farticle\u002Fjnlp\u002F30\u002F1\u002F30_63\u002F_article\u002F-char\u002Fja)や[こちら](https:\u002F\u002Ftechblog.yahoo.co.jp\u002Fentry\u002F2022122030379907\u002F)を参照 | 早大 河原研, ヤフー |\n| \u003Ca id=\"jmmlu\">\u003C\u002Fa> [JMMLU](https:\u002F\u002Fgithub.com\u002Fnlp-waseda\u002FJMMLU) | [MMLU ベンチマーク](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest)の日本語版として構築されたベンチマーク。自然科学・人文科学・社会科学の幅広い学術領域から 4 択問題を構成している。元の MMLU を翻訳しただけでなく、日本独自の文化的背景に基づく問題（日本問題）を新たに追加しているのが特徴である。 | 早大 河原研 |\n\u003C!-- | [日本語 Open LLM Leaderboard](http:\u002F\u002Fwandb.me\u002Fllm-jp-openllmleaderboard) | Huggingface の [Open LLM Leaderboard](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard) と同様の検証を日本語 LLM に対して行ったもの。日本語 LLM の英語タスクにおける性能を確認できる。 | LLM-jp | -->\n\n\u003Ca id=\"open-ended-benchmark-suites\">\u003C\u002Fa>\n### テキスト生成能力を測定するベンチマーク\u002Fデータセット\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [llm-jp-judge](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-judge) | LLM-as-a-Judge による日本語 LLM の統合的な評価ツール。日本語品質（正確さ、流暢さ、詳細さ、関連性などを1〜5段階で評価）、日本語安全性、MT-Bench（英語）、MT-Bench（日本語）の4つのカテゴリで評価を行う。生成フェーズと評価フェーズを分離し、vLLM, OpenAI API, Azure OpenAI, AWS Bedrock などの推論クライアントに対応している。詳細は[こちら](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2025\u002Fpdf_dir\u002FQ2-4.pdf)を参照 | 大規模言語モデル研究開発センター |\n| \u003Ca id=\"jp-mt-bench\">\u003C\u002Fa> [Japanese MT-bench](https:\u002F\u002Fgithub.com\u002FStability-AI\u002FFastChat\u002Ftree\u002Fjp-stable\u002Ffastchat\u002Fllm_judge) | マルチターン会話能力を問う [MT-bench](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat\u002Ftree\u002Fmain\u002Ffastchat\u002Fllm_judge) の日本語版。Writing, Roleplay, Reasoning, Math, Coding, Extraction, STEM, Humanities の 8 つのカテゴリから 10 問ずつ、計 80 問が収録されている。なお、日本語版作成の際には、日本の文化に合うように質問内容に一部修正が加えられている。\u003Cbr>GPT-4 による 10 段階の絶対評価を行うスクリプトも含まれている。 | Stability AI |\n| \u003Ca id=\"elyza-tasks\">\u003C\u002Fa> [ELYZA-tasks-100](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Felyza\u002FELYZA-tasks-100) | 複雑な指示・タスクを含む100件の日本語データで、全てのデータに対して評価観点がアノテーションされている。\u003Cbr>要約を修正し修正箇所を説明するタスク、具体的なエピソードから抽象的な教訓を述べるタスク、ユーザーの意図を汲み役に立つAIアシスタントとして振る舞うタスク、場合分けを必要とする複雑な算数のタスク、未知の言語からパターンを抽出し日本語訳する高度な推論を必要とするタスク、複数の指示を踏まえた上でyoutubeの対話を生成するタスク、架空の生き物や熟語に関する生成・大喜利などの想像力が求められるタスクなどが含まれている。 | ELYZA |\n| [Preferred Generation Benchmark\u003Cbr>(pfgen-bench)](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fpfgen-bench) | 50 問の日本語圏特有の常識問題をもとに、LLMの日本語生成能力を Fluency(流暢さ)、Truthfulness(真実性)、Helpfulness(有用性)の3つの評価軸から計測するベンチマーク。n-gram やルールベースでの指標の計算を行うことにより、LLM-as-a-Judge を行わずに評価を実施しているのが特徴である。 | Preferred Elements (Preferred Networks) |\n| \u003Ca id=\"rakuda-benchmark\">\u003C\u002Fa> [Rakuda Benchmark](https:\u002F\u002Fgithub.com\u002Fyuzu-ai\u002Fjapanese-llm-ranking) | 日本の地理、歴史、政治、社会に関する[40問の自由質問](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyuzuai\u002Frakuda-questions)に対してモデルに出力を行わせる。GPT-4 が同じ質問に対する2つのモデルの出力を比べ、どちらの答えが優れているかを判断することにより、モデルのランク付けを行う。 | YuzuAI |\n| [Japanese Vicuna QA Benchmark](https:\u002F\u002Fgithub.com\u002Fku-nlp\u002Fja-vicuna-qa-benchmark) | MT-Bench の前身である [vicuna-blog-eval](https:\u002F\u002Fgithub.com\u002Flm-sys\u002Fvicuna-blog-eval) の日本語版。一般、知識、ロールプレイ、常識、フェルミ推定、反実仮想、コーディング、数学、ライティングに関する 80 問の質問を収録している。また、GPT-4 による自動評価（勝率計算）のスクリプトも含まれている。リーダーボードは[こちら](http:\u002F\u002Fwandb.me\u002Fllm-jp-vicunaleaderboard) | 京大 言語メディア研究室 |\n| \u003Ca id=\"tengu-bench\">\u003C\u002Fa> [Tengu-Bench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flightblue\u002Ftengu_bench) | 様々なカテゴリから成る 120 問の自由質問が収録されている。質問のカテゴリは以下の通り: 表の読み取り、論理パズル、アイデア生成、Function calling、長い文書要約（千トークン以上）、会話要約、長い文書のClosed QA（千トークン以上）、敬語、プロジェクト作成、数学、翻訳、抽出、倫理的制御、コスト見積、日本、雑談、ダジャレ、フォーマット、建設、ビジネス、法律判断、政治、架空の質問 | Lightblue |\n| [Shaberi](https:\u002F\u002Fgithub.com\u002Flightblue-tech\u002Fjapanese_llm_eval) | [Japanese MT-bench](#jp-mt-bench)、[Rakuda Benchmark](#rakuda-benchmark)、[ELYZA-tasks-100](#elyza-tasks)、[Tengu-Bench](#tengu-bench) の評価をまとめて行うことができるフレームワーク。なお、Shisa.AI による[フォーク](https:\u002F\u002Fgithub.com\u002Fshisa-ai\u002Fshaberi)も存在する | Lightblue |\n\n\u003Ca id=\"domain-specific-benchmark-suites\">\u003C\u002Fa>\n### 特定ドメインの性能を測定するベンチマーク\u002Fデータセット\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [Japanese Language Model Financial Evaluation Harness](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fjapanese-lm-fin-harness) | 金融分野における日本語 LLM のベンチマーク。金融分野における感情分析タスク(chabsa)、証券分析における基礎知識タスク(cma_basics)、公認会計士試験における監査に関するタスク(cpa_audit)、ファイナンシャルプランナー試験の選択肢問題のタスク(fp2)、証券外務員試験の模擬試験タスク(security_sales_1)を含む。詳細は[こちら](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2024\u002Fpdf_dir\u002FC6-4.pdf)を参照 | Preferred Networks |\n| [pfmt-bench-fin-ja](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fpfmt-bench-fin-ja) | 金融分野における日本語 LLM の生成能力を測定するためのベンチマーク。 | Preferred Networks |\n| [jfinqa](https:\u002F\u002Fgithub.com\u002Fajtgjmdjp\u002Fjfinqa) | 日本語金融数値推論 QA ベンチマーク。68社の有価証券報告書から抽出した1,000問の数値推論問題を収録。四則演算・比率計算・DuPont分析等の財務推論能力を評価する。[PyPI](https:\u002F\u002Fpypi.org\u002Fproject\u002Fjfinqa\u002F)、[HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fajtgjmdjp\u002Fjfinqa) で公開。 | 個人 ([ajtgjmdjp](https:\u002F\u002Fgithub.com\u002Fajtgjmdjp)) |\n| [Stockmark Business Questions](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstockmark\u002Fbusiness-questions) | 市場動向、時事問題、社会課題、ビジネストレンドなどの知識を問う問題が50題収録されている。 | ストックマーク |\n| \u003Ca id=\"jmedllm\">\u003C\u002Fa> [JMED-LLM](https:\u002F\u002Fgithub.com\u002Fsociocom\u002FJMED-LLM) | 日本語医療分野における LLM の評価用データセット。これまでに開発されてきた日本語の医療言語処理タスクを LLM ベンチマーク用にまとめている。 | NAIST ソーシャル・コンピューティング研究室 |\n| [JMedBench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FColdog2333\u002FJMedBench) | 日本語医療分野の LLM ベンチマーク。選択肢問題、機械翻訳、固有表現抽出、文書分類、文類似度計算の 5 種類、計 20 個のデータセットが収録されている（一部のデータセットは [JMMLU](#jmmlu) の医療分野問題や [JMED-LLM](#jmedllm) から借用されている）。また、JMedBench での評価を簡単に行うためのツール [med-eval](https:\u002F\u002Fgithub.com\u002Fnii-nlp\u002Fmed-eval) が開発されている。 | NII 相澤研 |\n| [Japanese Medical Language Model Evaluation Harness](https:\u002F\u002Fgithub.com\u002Fstardust-coder\u002Fjapanese-lm-med-harness) | ワンコマンドで実行可能な医療分野に特化したLLMの日英能力評価プログラム。 | 個人 ([​助田一晟](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=Dc_v0BsAAAAJ)) |\n| [YakugakuQA](https:\u002F\u002Fgithub.com\u002FEQUES-Inc\u002Fpharma-LLM-eval) | 薬剤師国家試験をベースとした日本語製薬分野の知識を問う評価データセット。事実に基づく薬学知識を測定する。 | EQUES Inc. |\n| [NayoseQA](https:\u002F\u002Fgithub.com\u002FEQUES-Inc\u002Fpharma-LLM-eval) | 日本語製薬分野での多言語間用語対応・正規化能力を評価するデータセット。同義語や専門用語の理解度を測定する。 | EQUES Inc. |\n| [SogoCheck](https:\u002F\u002Fgithub.com\u002FEQUES-Inc\u002Fpharma-LLM-eval) | 対となる文章間の一貫性推論を評価する新しいタスク。GPT-4oでも性能が低い高難度の推論タスク。 | EQUES Inc. |\n| [MedRECT](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fmedrect) | 臨床記録における医学的誤りの検出・訂正能力を評価するベンチマーク。誤り検出、誤り文特定、誤り訂正の 3 段階のタスクから構成される。日本語版（663 サンプル）と英語版（458 サンプル）があり、日本語版は医師国家試験をベースに構築されている。 | Preferred Networks |\n| [karakuri-bench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkarakuri-ai\u002Fkarakuri-bench-v0.1) | 日本語 LLM のカスタマーサポートにおける性能を測定するためのデータセット。 | カラクリ |\n\n\u003Ca id=\"factuality-safety-benchmark-suites\">\u003C\u002Fa>\n### 事実性・安全性を測定するベンチマーク\u002Fデータセット\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [JTruthfulQA](https:\u002F\u002Fgithub.com\u002Fnlp-waseda\u002FJTruthfulQA) | LLM の事実性を評価するデータセット [TruthfulQA](https:\u002F\u002Fgithub.com\u002Fsylinrl\u002FTruthfulQA) の日本語版。迷信などの、一部の人々に信じられているが事実とは言えない事象に関する質問群と、日本固有の知識に関する質問群が、一から収集されている。 | 早大 河原研 |\n| [JCommonsenseMorality](https:\u002F\u002Fgithub.com\u002FLanguage-Media-Lab\u002Fcommonsense-moral-ja\u002Fblob\u002Fmain\u002FREADME_JP.md) | 日本語の常識道徳に関するデータセット。行為を表す文に対して、道徳的に間違っているか許容できるかの 2 値ラベルが割り当てられている。 | 北大 言語メディア学研究室 |\n| [JBBQ](https:\u002F\u002Fgithub.com\u002Fynklab\u002FJBBQ_data) | 社会性バイアスQAデータセット [BBQ](https:\u002F\u002Fgithub.com\u002Fnyu-mll\u002FBBQ) を、日本の文化・慣習を踏まえて翻訳、修正、問題追加を行い作成されたデータセット。 | 東大 谷中研 |\n\n\u003Ca id=\"logical-reasoning-benchmark-suites\">\u003C\u002Fa>\n### 論理推論能力を測定するベンチマーク\u002Fデータセット\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [JFLD (Japanese Formal Logic Deduction)](https:\u002F\u002Faclanthology.org\u002F2024.lrec-main.832\u002F) | 日本語 LLM の演繹推論能力を問うデータセット（同著者らが提案している [FLD (Formal Logic Deduction)](https:\u002F\u002Fgithub.com\u002Fhitachi-nlp\u002FFLD) の日本語版）。LLM が持つ知識と切り分けて評価を行うために、反実仮想的なサンプルから構成されているのが特徴である。 | 日立製作所 |\n| [JHumanEval](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkogi-jwu\u002Fjhumaneval) | 英語の指示から Python コードの生成能力を評価するベンチマークである [HumanEval](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenai\u002Fopenai_humaneval) の日本語版。日本語版を作成する際には、まず機械翻訳にかけたあと、人手での修正を行っている。 | 日本女子大 倉光研 |\n| [JMultiPL-E](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftohoku-nlp\u002FJMultiPL-E) | OpenAI HumanEval をベースに 17 のプログラミング言語（C++, C#, Go, Java, JavaScript, PHP, Ruby, Rust, Scala, Swift, TypeScript など）でコード生成能力を評価するデータセット。多言語でのコード理解とコード生成の性能を測定する。| 東北大 自然言語処理研究グループ |\n\n\u003Ca id=\"controllabilitiy-benchmark-suites\">\u003C\u002Fa>\n### 指示追従能力を測定するベンチマーク\u002Fデータセット\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [LCTG Bench](https:\u002F\u002Fgithub.com\u002FCyberAgentAILab\u002FLCTG-Bench) | 日本語 LLM の制御性ベンチマーク。出力のフォーマット、文字数、キーワード、NGワードの 4 つの観点から、LLM が制約を守って出力を行えているかを評価する。生成されたテキストの品質も合わせて評価する。 | サイバーエージェント |\n| [JFBench](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fjfbench) | 日本語 LLM の指示追従能力を評価するベンチマーク。IFBench を翻訳した 6 グループに加え、日本語特有の制約（敬体・常体、ひらがな・カタカナ・漢字の混在、数値表記など）10 グループを新たに作成。16 の制約グループ・174 の制約タイプを持ち、制約数 1\u002F2\u002F4\u002F8 の組み合わせで計 1,600 サンプルを評価する。 | Preferred Networks |\n\n\u003Ca id=\"embeddings-benchmark-suites\">\u003C\u002Fa>\n### 埋め込みモデルのベンチマーク\u002Fデータセット\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [JMTEB](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2024\u002F05\u002F16\u002F130848) | [MTEB](https:\u002F\u002Fgithub.com\u002Fembeddings-benchmark\u002Fmteb)の日本語版として作成されたベンチマーク。\u003Cbr>文書クラスタリング、文書分類、文間類似度、文ペアラベル予測、文書抽出の5種類のタスクから構成されている（その後、リランキングタスクが新たに追加）。 | SB Intuitions |\n| [JQaRA](https:\u002F\u002Fgithub.com\u002Fhotchpotch\u002FJQaRA\u002F) | 日本語の文書抽出・リランキング精度評価のためのデータセット。1,667件の質問文それぞれに対し、候補となる100件のドキュメントが割り当てられており、そのうち1件以上が質問文に回答できる内容になっている。質問文は [JAQKET](https:\u002F\u002Fwww.nlp.ecei.tohoku.ac.jp\u002Fprojects\u002Fjaqket\u002F) を、候補のドキュメントは日本語 Wikipedia を用いている。 | 個人 (舘野祐一) |\n| [JaCWIR](https:\u002F\u002Fgithub.com\u002Fhotchpotch\u002FJaCWIR) | Wikipedia 以外のドメインで文書抽出・リランキングの評価を行えることを目指して作成されたデータセット。5,000件の質問文それぞれに対し、その質問文が作成される元になった 1 件の Webページと、質問文とは関係のない 99 件の Web ページが割り当てられている。| 個人 (舘野祐一) |\n\n\u003Ca id=\"vl-benchmark-suites\">\u003C\u002Fa>\n### 視覚言語モデル (Vision-Language Models) のベンチマーク\u002Fデータセット\n\n|   | 説明 | 開発元 |\n|:---|:---|:---:|\n| [llm-jp-eval-mm](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-eval-mm) | 日本語VLMの性能を複数のベンチマークタスクで評価するためのツール | 大規模言語モデル研究開発センター |\n| [BusinessSlideVQA](https:\u002F\u002Fgithub.com\u002Fstockmarkteam\u002Fbusiness-slide-questions) | 複雑な日本語ビジネススライド画像に関する220問の質問応答データセット。文書理解能力の評価を目的として設計されている。 | ストックマーク |\n| [JMMMU](https:\u002F\u002Fmmmu-japanese-benchmark.github.io\u002FJMMMU\u002F) | [MMMU ベンチマーク](https:\u002F\u002Fmmmu-benchmark.github.io\u002F)の日本語版として構築されたベンチマーク。720 件の MMMU の翻訳版の問題と 600 件の日本文化特有の新規の問題から構成される。 | 東大 相澤研 |\n| [JDocQA](https:\u002F\u002Fgithub.com\u002Fmizuumi\u002FJDocQA) | 日本語ドキュメント（パンフレット、スライド、レポート、Web サイト）をもとに構築された、合計 11,600 件の質問から構成される質問応答データセット。解答不能問題を含め、様々な質問形式の質問が収録されている。 | NAIST 渡辺研 |\n| [Heron VLM リーダーボード powered by nejumi@WandB](https:\u002F\u002Fapi.wandb.ai\u002Flinks\u002Fvision-language-leaderboard\u002Fh2lxge4n) | [Japanese-Heron-Bench](#japanese-heron-bench) と [LLaVA-Bench-In-the-Wild (Japanese)](#llava-bench-in-the-wild) の評価結果をまとめている。 | Turing, Weights & Biases |\n| \u003Ca id=\"japanese-heron-bench\">\u003C\u002Fa> [Japanese-Heron-Bench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fturing-motors\u002FJapanese-Heron-Bench) | 21 枚の画像に対して計 102 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。 | Turing |\n| [JA-VLM-Bench-In-the-Wild](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSakanaAI\u002FJA-VLM-Bench-In-the-Wild) | Sakana AI が EvoVLM-JP-v1-7B の評価のために独自に用意したデータセット。42 枚の画像に対して計 50 問の質問が割り当てられている。日本に関する知識を要求する画像・質問になっているのが特徴である。 | Sakana AI |\n| [JA-Multi-Image-VQA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSakanaAI\u002FJA-Multi-Image-VQA) | 複数の画像に対する日本語での質疑応答能力を評価するデータセット。 | Sakana AI |\n| \u003Ca id=\"llava-bench-in-the-wild\">\u003C\u002Fa> [LLaVA-Bench-In-the-Wild (Japanese)](https:\u002F\u002Fgithub.com\u002Fturingmotors\u002Fheron\u002Ftree\u002Fmain\u002Fplayground\u002Fdata\u002Fllava-bench-in-the-wild) | [LLaVA-Bench-In-the-Wild](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliuhaotian\u002Fllava-bench-in-the-wild) を DeepL で日本語に訳したもの。24 枚の画像に対して計 60 問の質問が割り当てられている。 | Turing |\n| [LLaVA-Bench (COCO) Japanese](https:\u002F\u002Fgithub.com\u002Fturingmotors\u002Fheron\u002Ftree\u002Fmain\u002Fplayground\u002Fdata\u002Fllava-bench-ja) | LLaVA の評価に使われた LLaVA-Bench (COCO) データセットを DeepL で日本語に訳したもの。30 枚の画像に対して各 3 種類の質問が割り当てられている。 | Turing |\n| [Japanese Visual Genome VQA dataset](https:\u002F\u002Fgithub.com\u002Fyahoojapan\u002Fja-vg-vqa) | [Visual Genome dataset](https:\u002F\u002Fhomes.cs.washington.edu\u002F~ranjay\u002Fvisualgenome\u002Findex.html) の画像をもとにアノテーションされた質問応答データセット。このデータセットの 500 件を切り出した [JA-VG-VQA-500](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSakanaAI\u002FJA-VG-VQA-500) が VLM の評価ベンチマークとして用いられることもある。 | ヤフー |\n| [japanese-bizform-table-kie](https:\u002F\u002Fgithub.com\u002Faiinside\u002Fjapanese-bizform-table-kie) | 非定型帳票からの情報抽出精度を評価するためのベンチマーク。50 種類のフォーム、合計 2,500 枚のドキュメント画像から構成される。 | AI inside |\n\n\u003Ca id=\"reference\">\u003C\u002Fa>\n## 各モデル・アーキテクチャの原論文\n\n\u003C!--@include: @\u002Fparts\u002Freferences_model.md-->\n\n\u003Ca id=\"reference-training\">\u003C\u002Fa>\n## LLMの学習手法の原論文\n\n\u003C!--@include: @\u002Fparts\u002Freferences_training.md-->\n\n\u003Ca id=\"contributors\">\u003C\u002Fa>\n## コントリビューター\n\nこのプロジェクトに貢献してくれているコントリビューターのみなさんです！\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fawesome-japanese-llm\u002Fgraphs\u002Fcontributors\" target=\"_blank\" rel=\"noreferrer\">\n  \u003Cimg loading=\"lazy\" src=\".\u002Ffigures\u002Fcontributors.svg\" alt=\"コントリビューター\" \u002F>\n\u003C\u002Fa>\n\n\u003Ca id=\"citation\">\u003C\u002Fa>\n## 引用\n\nこのリポジトリの要約はプレプリントとしても公開されています:\n[Exploring Open Large Language Models for the Japanese Language: A Practical Guide](https:\u002F\u002Fjxiv.jst.go.jp\u002Findex.php\u002Fjxiv\u002Fpreprint\u002Fview\u002F682\u002F2035)\n\nこのリポジトリについて言及する場合は、以下の通り引用してください:\n\n```\n@article{awesomeJapanese2024,\n    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},\n    author={Kaito Sugimoto},\n    doi={10.51094\u002Fjxiv.682},\n    journal={Jxiv preprint},\n    year={2024}\n}\n```\n\n[^1]: ただし、モデル高速化のため本家の Llama に対してアーキテクチャの変更を加えている。詳しくは以下を参照: [PLaMo-13Bを公開しました](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fllm-plamo\u002F)\n\n[^2]: 詳細は明記されていないが、プレスリリースには以下のような記述がある: 『学習データには、オープンデータセットに加え、Stability AI Japanが作成した独自のデータセットや、EleutherAI Polyglot project の日本語チーム及び Stable Community Japan のメンバーの協力のもとで作成したデータが含まれています。』\n\n[^3]: 通常の左から右に単語を予測する代わりに、右から左に単語を予測するように訓練された言語モデルの評価を行った研究である。通常方向の言語モデルと逆方向の言語モデルの両方が公開されている。\n\n[^4]: ○: HuggingFace の Model Hub にモデルがアップロードされており、`AutoModel.from_pretrained()` 等ですぐ読み込める。 △: Model Hub にはモデルがアップロードされていないが、HuggingFace (transformers, 旧 pytorch-transformers) の形式に対応している。✕: モデルがHuggingFaceに対応していない。\n\n[^5]: ただし、最大系列長が 2048 に拡張されているほか、元の BERT に対して様々なアーキテクチャの変更が施されている。詳しくは HuggingFace リポジトリの README を参照。\n\n[^6]: 様々な形態素解析器とサブワード化手法の組み合わせを試した研究である。全ての組み合わせのモデルを掲載するのは大変なので、ここでは実験で最も平均のタスク性能が高い Juman++ + BPE のモデルを代表として掲載している。\n\n[^7]: nlp-waseda\u002Froberta-base-japanese 及び nlp-waseda\u002Froberta-large-japanese はモデル入力の最大トークン長を128で事前学習しているが、nlp-waseda\u002Froberta-large-japanese-seq512 は512で事前学習している\n\n[^8]: ただし、最大系列長が通常の 512 から 1282 まで拡張されており、より長い入力文を扱うことができる\n\n[^9]: small の方は日本語 Wikipedia と日本語金融コーパスを合わせてスクラッチ学習しているが、base の方は東北大BERTに日本語金融コーパスを追加学習しているという違いがある\n\n[^10]: 万病WordPieceモデルは MeCab (IPA辞書+万病辞書) で単語分割した後 WordPiece でサブワード化するモデル、SentencePieceモデルは単語分割せずに直接 Unigram でサブワード化するモデル\n\n[^11]: Instruction Tuning を行った後に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。\n\n[^12]: Instruction Tuning において、GPT-3.5, GPT-4 等の OpenAI のモデルで生成されたデータを使って学習しているため、OpenAI の規約に違反している可能性がある。\n\n[^13]: ただし、KARAKURI LM を商用利用したい場合は、開発元であるカラクリ株式会社に直接連絡が必要であるとしている。\n\n[^14]: ただし、研究および教育を目的とした利用を念頭に置くよう呼びかけている。また、マージ元のモデルのいくつかのライセンスは Apache 2.0 ではない点にも注意すること。\n\n[^15]: 詳細は以下のビデオで公開されている: [松尾研 GENIAC LLM開発プロジェクト 第1フェーズ結果発表会 2024.06.01 @ 東京大学 福武ホール @ 58:22](https:\u002F\u002Fyoutu.be\u002FJu_KgrGhANY?si=zUhZ1S6dznGeF0Gi&t=3502)\n\n[^16]: ただし、通常の BERT (base) と比べて Layer や Attention Head の数が少ない。\n\n[^17]: Instruction Tuning を行う前に、Llama 3 Instruct と Llama 3 Base の差分の Chat Vector を加えている。\n\n[^18]: それぞれのモデルの詳細は作者らの[論文](https:\u002F\u002Fwww.jstage.jst.go.jp\u002Farticle\u002Fjnlp\u002F31\u002F2\u002F31_707\u002F_pdf\u002F-char\u002Fja)の第4章を参照。なお、SC-2M-wiki モデルは Wikipedia でのみ事前学習されているため、厳密にはドメイン特化型モデルではない。\n\n[^19]: 詳細は以下の記事を参照: [大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など](https:\u002F\u002Fzenn.dev\u002Fmatsuolab\u002Farticles\u002F377f7ae8b1169e), [大規模言語モデルを開発するにあたっての事前・事後学習の戦略メモー特に合成データについてー](https:\u002F\u002Fzenn.dev\u002Fmatsuolab\u002Farticles\u002F34036f017fae9e)\n\n[^20]: ORPO を行う前に、Gemma 2 Instruct と Gemma 2 Base の差分の Chat Vector を加えている。\n\n[^21]: 埋め込みモデルの分類は [Dense Text Retrieval based on Pretrained Language Models: A Survey (Zhao+, 2022)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.14876) を参考に行った。Bi-Encoder は 2つの入力を個別にモデルに入力し、それぞれベクトル化した上で、それらの内積やコサイン類似度を入力の近さとして定式化するアーキテクチャである。それに対し、Cross-Encoder は 2 つの入力を組み合わせたものをモデルに入力し、モデル内部で近さを直接計算するアーキテクチャである。情報抽出の分野では、Cross-Encoder の方が計算コストがかかるが、入力の近さをよりきめ細かくモデルが計算することが期待されるため、抽出結果の順序を再検討するリランカーとして用いられることも多い。なお、Bi-Encoder の中でも、入力を単一のベクトルではなく（トークンごとなどの）複数のベクトルとして表現するタイプのもの（例: ColBERT）があるため、Single-representation bi-encoders と Multi-representation bi-encoders にさらに細分化している。\n\n[^22]: 一部アーキテクチャの変更を加えている。詳しくは以下を参照: [1,000億パラメータ規模の独自LLM「PLaMo-100B」の事前学習](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-100b\u002F)\n\n[^23]: Llama から Causal Attention を取り除くことにより、エンコーダ型モデルとして利用している。\n\n[^24]: 公式にはベースモデルについて明言されていないが、HuggingFace リポジトリ上の config.json のアーキテクチャが `DeepseekV3ForCausalLM` であること、トークナイザが DeepSeek-V3 と一致すること、DeepSeek の NOTICE ファイルが含まれていることから、DeepSeek-V3 をベースにしている可能性が高い。\n","# 日语大型语言模型汇总\n[ [**英语**](.\u002Fen\u002F) | [**French**](.\u002Ffr\u002F) | 日语 ]\n\n\u003Cdiv class=\"github-only\">\n\n> **📖 请使用更易读的网页版**\n> \n> 本README的内容可在**[llm-jp.github.io\u002Fawesome-japanese-llm](https:\u002F\u002Fllm-jp.github.io\u002Fawesome-japanese-llm)**以更清晰的格式查看。为避免表格显示错乱或布局问题，建议您访问网页版。\n\n\u003C\u002Fdiv>\n\n本文汇总了公开可用的日语大型语言模型（以日语为主要训练语言的LLM）以及日语LLM评估基准的相关信息。这些信息由志愿者收集整理，部分内容引用自论文及公开资源等。\n\n::: warning 请事先理解并同意以下几点\n1. 本文内容不保证完整性或准确性。相关信息可能会在未通知的情况下变更，且不一定能始终提供最新信息。\n2. 部分信息可能基于推测或个别用户的解读，因此未必对所有读者都准确。\n3. 本文中列出的许多模型采用MIT许可证或Apache-2.0等开源许可证。然而，请注意，**部分模型适用非商业用途限定的许可证（如CC BY-NC-SA 4.0）或开发者特有的许可证，这些并不一定属于开源范畴**。\n4. 对于个人开发的模型，文中省略了作者的敬称。\n:::\n\n本文由GitHub进行管理。若您发现文章中的错误，或希望提出新增模型的建议，请通过[GitHub Issues](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fawesome-japanese-llm\u002Fissues)提交反馈，我们将不胜感激。\n\n::: details 目录 {open}\n[[toc]]\n:::\n\n\u003Ca id=\"generative\">\u003C\u002Fa>\n## 主要用于文本生成的模型\n\n*包含图像的文本生成模型请见[此处](#multimodal-text-generation)*\n\n\u003Ca id=\"full-scratch-models\">\u003C\u002Fa>\n### 从零开始训练的模型\n\n\u003Ca id=\"generative-scratch-general\">\u003C\u002Fa>\n#### 通用\n\n|    | 公開年 |  アーキテクチャ  |  入出力で扱える\u003Cbr>トークン数  |  学習テキスト  |  開発元  | ライセンス \u002F 利用規約 |\n|:---|:---:|:---:|:---:|:---:|:---:|:---:|\n| [Sarashina2-8x70B](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fnews\u002Fpress\u002F20241108_01\u002F) | 2024 | MoE\u003Cbr>([8x70b (**465b**)](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-8x70b)) | 8,192 | Sarashina2 (70B) に対して Sparse Upcycling で学習 | SB Intuitions | Sarashina Model NonCommercial License |\n| [LLM-jp-3 172B](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2024\u002F1224.html) | 2024 | Llama\u003Cbr>([**172b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b), [**172b**-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-instruct2), [**172b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-instruct3)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)\u003Cbr>(計 **2.1T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), [magpie-sft-v1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fmagpie-sft-v1.0), Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k\u003Cbr>DPO (instruct3 only): [aya-ja-evol-inst](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Faya-ja-evol-inst), [ac-self-inst](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fac-self-inst) | 大規模言語モデル研究開発センター | 事前学習済みモデル: LLM-jp-3 172B Terms of Use\u003Cbr>事後学習済みモデル: llm-jp-3-172b-instruct3利用許諾契約 |\n| [LLM-jp-3 172B beta2](https:\u002F\u002Fllmc.nii.ac.jp\u002Ftopics\u002Fllm-jp-3-172b-beta2\u002F) | 2024 | Llama\u003Cbr>([**172b**-beta2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-beta2), [**172b**-beta2-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-beta2-instruct2)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)の一部\u003Cbr>(計 **1.4T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), [magpie-sft-v1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fmagpie-sft-v1.0), Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k | 大規模言語モデル研究開発センター | LLM-jp-3 172B beta2 Terms of Use |\n| [LLM-jp-3 172B beta1](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2024\u002F0917.html) | 2024 | Llama\u003Cbr>([**172b**-beta1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-beta1), [**172b**-beta1-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-beta1-instruct)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)の一部\u003Cbr>(計 **0.7T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), Dolly Dataset, OASST1, OASST2, Aya Dataset, \tichikara-instruction-format, Daring-Anteater, FLAN | 大規模言語モデル研究開発センター | LLM-jp-3 172B beta1 Terms of Use |\n| [LLM-jp-3 172B alpha](https:\u002F\u002Fllmc.nii.ac.jp\u002Ftopics\u002Fllm-jp-3-172b-alpha1-alpha2\u002F) | 2024 | Llama\u003Cbr>([**172b**-alpha1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-alpha1), [**172b**-alpha1-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-alpha1-instruct), [**172b**-alpha2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-alpha2), [**172b**-alpha2-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-172b-alpha2-instruct)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)の一部\u003Cbr>(alpha1: 計 **0.7T** トークン, alpha2: 計 **1.4T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), Dolly Dataset, OASST1, OASST2, Aya Dataset, \tichikara-instruction-format, Daring-Anteater, FLAN | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [Stockmark-2-100B-Instruct-beta](https:\u002F\u002Fstockmark.co.jp\u002Fnews\u002F20250318) | 2025 | Llama\u003Cbr>([**100B**-Instruct-beta](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002FStockmark-2-100B-Instruct-beta), [**100B**-Instruct-beta-AWQ](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002FStockmark-2-100B-Instruct-beta-AWQ)) | 4,096 | 事前学習: 計 **1.5T** トークン\u003Cbr>Instruction Tuning\u003Cbr>DPO | ストックマーク | MIT |\n| [Stockmark-100b](https:\u002F\u002Fstockmark.co.jp\u002Fnews\u002F20240516) | 2024 | Llama\u003Cbr>([**100b**](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fstockmark-100b), [**100b**-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fstockmark-100b-instruct-v0.1)) | 4,096 | 事前学習: RedPajama, 日本語 Wikipedia, Japanese mC4, Japanese CommonCrawl, 日本語特許, Stockmark Web Corpus\u003Cbr>(計 **910B** トークン)\u003Cbr>Instruction Tuning (LoRA): [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F) | ストックマーク | MIT |\n| [PLaMo-100B-Pretrained](https:\u002F\u002Fwww.preferred.jp\u002Fja\u002Fnews\u002Fpr20241015\u002F) | 2024 | Llama[^22]\u003Cbr>([**100b**](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-100b)) | 4,096 | 事前学習: Japanese CommonCrawl, RefinedWeb, 独自のデータセット\u003Cbr>(計: **2.0T** トークン) | Preferred Elements (Preferred Networks) | PLaMo Non-Commercial License |\n| [LLM-jp-3.1](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fja\u002Fblog\u002Fblog-887\u002F) | 2025 | Llama\u002FMoE\u003Cbr>([8x13b (**73b**)](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-8x13b), [8x13b (**73b**)-instruct4](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-8x13b-instruct4), [**13b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-13b), [**13b**-instruct4](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-13b-instruct4), [**1.8b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-1.8b), [**1.8b**-instruct4](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3.1-1.8b-instruct4)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)\u003Cbr>(計 **2.5T** トークン)\u003Cbr>継続事前学習: インストラクション・レスポンスペア\u003Cbr>(計 **90B** トークン)\u003Cbr>SFT + DPO | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [LLM-jp-3 MoE](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fja\u002Fblog\u002Fblog-603\u002F) | 2025 | MoE\u003Cbr>([8x1.8b (**9.3b**)](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x1.8b), [8x1.8b (**9.3b**)-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x1.8b-instruct2), [8x1.8b (**9.3b**)-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x1.8b-instruct3), [8x13b (**73b**)](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x13b), [8x13b (**73b**)-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x13b-instruct2), [8x13b (**73b**)-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-8x13b-instruct3)) | 4,096 | LLM-jp-3 (1.8b, 13b) に対して Drop-Upcycling で学習 | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [Sarashina2](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fnews\u002Fpress\u002F20240614_01\u002F) | 2024 | Llama\u003Cbr>([**7b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-7b), [**13b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-13b), [**70b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-70b)) | 7b, 13b: 4,096\u003Cbr>70b: 8,192 | 事前学習: Japanese Common Crawl, SlimPajama, StarCoder\u003Cbr>(計 **2.1T** トークン) | SB Intuitions | MIT |\n| [Sarashina1](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fnews\u002Fpress\u002F20240614_01\u002F) | 2024 | GPT-NeoX\u003Cbr>([**7b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina1-7b), [**13b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina1-13b), [**65b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina1-65b)) | 2,048 | 事前学習: Japanese Common Crawl\u003Cbr>(計 **1T** トークン) | SB Intuitions | MIT |\n| [Tanuki-8×8B](https:\u002F\u002Fweblab.t.u-tokyo.ac.jp\u002F2024-08-30\u002F) | 2024 | MoE (**47b**)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fweblab-GENIAC\u002FTanuki-8x8B-dpo-v1.0), [v1.0-AWQ](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8x8B-dpo-v1.0-AWQ), [v1.0-GPTQ-4bit](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8x8B-dpo-v1.0-GPTQ-4bit), [v1.0-GPTQ-8bit](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8x8B-dpo-v1.0-GPTQ-8bit), [v1.0-GGUF](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8x8B-dpo-v1.0-GGUF)) | 4,096 | 事前学習: 様々な Web 上のデータ, 合成データ（計 **1.7T** トークン）\u003Cbr>SFT, DPO: 様々な合成データ [^19] | 松尾研LLM開発プロジェクト | Apache 2.0 |\n| [LLM-jp-4 32B-A3B](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2026\u002F0403.html) | **2026** | Qwen3 MoE\u003Cbr>([**32b-a3b**-base](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-32b-a3b-base), [**32b-a3b**-thinking](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-32b-a3b-thinking)) | **65,536** | 事前学習 + 中間学習: [llm-jp-corpus-v4.1](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v4.1), [llm-jp-corpus-midtraining-v2](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-midtraining-v2)\u003Cbr>(計 **11.7T** トークン)\u003Cbr>SFT: [llm-jp-4-thinking-sft-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllm-jp-4-thinking-sft-data)\u003Cbr>DPO: [llm-jp-4-32b-a3b-thinking-dpo-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllm-jp-4-32b-a3b-thinking-dpo-data) | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [PLaMo 3](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo_3_8b_31b\u002F) | 2025 | Gemma ベースのアーキテクチャ\u003Cbr>([**2b**-base](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-3-nict-2b-base), [**8b**-base](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-3-nict-8b-base), [**31b**-base](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-3-nict-31b-base)) | 4,096 | 事前学習: 英語、日本語、コード、多言語\u003Cbr>(2b: **200B** トークン, 8b: **1T** トークン, 31b: **3T** トークン) | Preferred Networks | PLaMo community license |\n| [Way-PLaMo-3-8b-chat](https:\u002F\u002Fhuggingface.co\u002FWayBob\u002FWay-sft-plamo-3-8b-chat) | 2025 | PLaMo 3ベース ([**8b**-chat](https:\u002F\u002Fhuggingface.co\u002FWayBob\u002FWay-sft-plamo-3-8b-chat)) | 4,096 | Instruction Following SFT: [Alpaca](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyahma\u002Falpaca-cleaned) (51.7K), [Dolly-15k-ja](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkunishou\u002Fdatabricks-dolly-15k-ja) (15K) | 個人 (WayBob) | PLaMo community license |\n| [CyberAgentLM3 (CALM3)](https:\u002F\u002Fwww.cyberagent.co.jp\u002Fnews\u002Fdetail\u002Fid=30463) | 2024 | Llama\u003Cbr>([**22b**-chat](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm3-22b-chat), [**22b**-chat-selfimprove-experimental](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm3-22b-chat-selfimprove-experimental)) | **16,384** | 不明\u003Cbr>(計 **2.0T** トークン) | サイバーエージェント | Apache 2.0 |\n| [LLM-jp-3 13B instruct3](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fnews\u002Fpost-513\u002F) | 2025 | Llama\u003Cbr>([150m](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-150m), [150m-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-150m-instruct2), [150m-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-150m-instruct3), [440m](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-440m), [440m-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-440m-instruct2), [440m-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-440m-instruct3), [980m](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-980m), [980m-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-980m-instruct2), [980m-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-980m-instruct3), [**1.8b**-instrcut2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-1.8b-instruct2), [**1.8b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-1.8b-instruct3), [**3.7b**-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-3.7b-instruct2), [**3.7b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-3.7b-instruct3), [**7.2b**-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-7.2b-instruct2), [**7.2b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-7.2b-instruct3), [**13b**-instruct2](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-13b-instruct2), [**13b**-instruct3](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-13b-instruct3)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)\u003Cbr>(計 **2.1T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), [magpie-sft-v1.0](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fmagpie-sft-v1.0), Daring-Anteater, FLAN, ichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft-ja, Synthetic-JP-EN-Coding-Dataset-567k\u003Cbr>DPO (instruct3 only): [aya-ja-evol-inst](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Faya-ja-evol-inst), [ac-self-inst](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fac-self-inst) | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [LLM-jp-3 13B](https:\u002F\u002Fllmc.nii.ac.jp\u002Ftopics\u002Fpost-707\u002F) | 2024 | Llama\u003Cbr>([**1.8b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-1.8b), [**1.8b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-1.8b-instruct), [**3.7b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-3.7b), [**3.7b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-3.7b-instruct), [**7.2b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-7.2b), [**7.2b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-7.2b-instruct), [**13b**](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-13b), [**13b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-13b-instruct)) | 4,096 | 事前学習: [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)\u003Cbr>(計 **2.1T** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), FLAN, \tichikara-instruction-format, AutoMultiTurnByCalm3-22B, ramdom-to-fixed-multiturn-Calm3, wizardlm8x22b-logical-math-coding-sft_additional-ja, Synthetic-JP-EN-Coding-Dataset-567k | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [llm-jp-3-3.7b-instruct-EZO](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fllm-jp-3-3.7b-instruct-EZO-Common) | 2024 | Llama\u003Cbr>([**3.7b**-instruct-EZO-Common](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fllm-jp-3-3.7b-instruct-EZO-Common), [**3.7b**-instruct-EZO-Humanities](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fllm-jp-3-3.7b-instruct-EZO-Humanities)) | 4,096 | LLM-jp-3 (3.7B) に対して追加学習 | Axcxept | Apache 2.0 |\n| [LLM-jp-13B v2.0](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2024\u002F0430.html) | 2024 | Llama\u003Cbr>([**13b**-v2.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-v2.0), [**13b**-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0), [**13b**-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-ac_001-dolly-ichikara_004_001_single-oasst-oasst2-v2.0), [**13b**-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-ac_001_16x-dolly-ichikara_004_001_single-oasst-oasst2-v2.0)) | 4,096 | 事前学習: [llm-jp-corpus-v2](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v2)\u003Cbr>(計 **260B** トークン)\u003Cbr>Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), [AnswerCarefully Dataset](https:\u002F\u002Fllmc.nii.ac.jp\u002Fanswercarefully-dataset\u002F), Dolly Dataset, OASST1, OASST2 | LLM-jp | Apache 2.0 |\n| [Fugaku-LLM](https:\u002F\u002Fpr.fujitsu.com\u002Fjp\u002Fnews\u002F2024\u002F05\u002F10.html) | 2024 | GPT\u003Cbr>([**13B**](https:\u002F\u002Fhuggingface.co\u002FFugaku-LLM\u002FFugaku-LLM-13B), [**13B**-instruct](https:\u002F\u002Fhuggingface.co\u002FFugaku-LLM\u002FFugaku-LLM-13B-instruct), [**13B**-instruct-gguf](https:\u002F\u002Fhuggingface.co\u002FFugaku-LLM\u002FFugaku-LLM-13B-instruct-gguf)) | 2,048 | 事前学習: 独自\u003Cbr>Instruction Tuning: OASST1, Dolly Dataset, GSM8K | 東工大, 東北大, 富士通, 理研, 名大, サイバーエージェント, Kotoba Technologies | Fugaku-LLM Terms of Use |\n| [LLM-jp-13B v1.1](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fnews\u002Fpost-521\u002F) | 2024 | GPT\u003Cbr>([**13b**-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-lora-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1), [**13b**-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1), [**13b**-dpo-lora-hh_rlhf_ja-v1.1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-dpo-lora-hh_rlhf_ja-v1.1)) | 2,048 | Instruction Tuning (LoRA or Full-parameter FT): Dolly Dataset, OASST1, [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F)\u003Cbr>DPO (LoRA): HH RLHF | LLM-jp | Apache 2.0 |\n| [LLM-jp-13B](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2023\u002F1020.html) | 2023 | GPT\u003Cbr>([1.3b-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-1.3b-v1.0), [**13b**-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-v1.0), [**13b**-instruct-full-jaster-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-jaster-v1.0), [**13b**-instruct-full-jaster-dolly-oasst-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-jaster-dolly-oasst-v1.0), [**13b**-instruct-full-dolly-oasst-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-full-dolly-oasst-v1.0), [**13b**-instruct-lora-jaster-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-lora-jaster-v1.0), [**13b**-instruct-lora-jaster-dolly-oasst-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-lora-jaster-dolly-oasst-v1.0), [**13b**-instruct-lora-dolly-oasst-v1.0](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-13b-instruct-lora-dolly-oasst-v1.0)) | 2,048 | 事前学習: [llm-jp-corpus](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-corpus) (Wikipedia, Japanese mC4, The Pile, Stack) (計 **300B** トークン)\u003Cbr>Instruction Tuning (Full-parameter FT or LoRA): jaster, Dolly Dataset, OASST1 | LLM-jp | Apache 2.0 |\n| [PLaMo-13B](https:\u002F\u002Fwww.preferred.jp\u002Fja\u002Fnews\u002Fpr20230928\u002F) | 2023 | Llama[^1]\u003Cbr>([**13b**](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-13b), [**13b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-13b-instruct), [**13b**-instruct-nc](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-13b-instruct-nc)) | base: 4,096\u003Cbr>instruct, instruct-nc: 8,192 | 事前学習: C4, Project Gutenberg, RedPajama, 日本語 Wikipedia, Japanese mC4\u003Cbr>(計 **1.5T** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1, llm-japanese-datasetのwikinews subset (NCモデルでは商用利用不可の Alpaca Dataset も含めて学習) | Preferred Networks | Apache 2.0\u003Cbr>(NC モデルは CC BY-NC 4.0) |\n| [Stockmark-13b](https:\u002F\u002Fstockmark.co.jp\u002Fnews\u002F20231027) | 2023 | Llama\u003Cbr>([**13b**](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fstockmark-13b), [**13b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fstockmark-13b-instruct)) | 2,048 | 事前学習: 日本語 Wikipedia、Japanese CC-100、Japanese mC4、Japanese CommonCrawl、日本語特許、Stockmark Web Corpus\u003Cbr>(計 **220B** トークン)\u003Cbr>Instruction Tuning (LoRA): [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F) | ストックマーク | baseモデル: MIT\u003Cbr>instructモデル: CC BY-NC-SA 4.0 |\n| [Weblab-10B](https:\u002F\u002Fwww.t.u-tokyo.ac.jp\u002Fpress\u002Fpr2023-08-18-001) | 2023 | GPT-NeoX\u003Cbr>([**10b**](https:\u002F\u002Fhuggingface.co\u002Fmatsuo-lab\u002Fweblab-10b), [**10b**-instruction-sft](https:\u002F\u002Fhuggingface.co\u002Fmatsuo-lab\u002Fweblab-10b-instruction-sft)) | 2,048 | Japanese mC4 + The Pile（計 **600B** トークン）\u003Cbr>\\*instruction-sft モデルは Alpaca Dataset, FLAN でファインチューニング | 東大 松尾研 | CC BY-NC 4.0 |\n| [LLM-jp-4 8B](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2026\u002F0403.html) | **2026** | Llama\u003Cbr>([**8b**-base](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-8b-base), [**8b**-instruct](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-8b-instruct), [**8b**-thinking](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-4-8b-thinking)) | **65,536** | 事前学習 + 中間学習: [llm-jp-corpus-v4.1](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v4.1), [llm-jp-corpus-midtraining-v2](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-midtraining-v2)\u003Cbr>(計 **11.7T** トークン)\u003Cbr>SFT: [llm-jp-4-thinking-sft-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllm-jp-4-thinking-sft-data)\u003Cbr>DPO (thinking のみ): [llm-jp-4-8b-thinking-dpo-data](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllm-jp-4-8b-thinking-dpo-data) | 大規模言語モデル研究開発センター | Apache 2.0 |\n| [PLaMo 2.1 8B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-2-1-8b\u002F) | 2025 | Samba ベースのアーキテクチャ\u003Cbr>([**8b**-cpt](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-2.1-8b-cpt)) | **32,768** | 訓練詳細不明 | Preferred Networks | PLaMo community license |\n| [PLaMo 2 8B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-2-8b\u002F) | 2025 | Samba ベースのアーキテクチャ\u003Cbr>([**8b**](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-2-8b)) | | 日本語、英語等のデータ\u003Cbr>（計 **6T** トークン） | Preferred Networks | PLaMo community license |\n| [Tanuki-8B](https:\u002F\u002Fweblab.t.u-tokyo.ac.jp\u002F2024-08-30\u002F) | 2024 | Tanuki (**8b**)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fweblab-GENIAC\u002FTanuki-8B-dpo-v1.0), [v1.0-AWQ](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8B-dpo-v1.0-AWQ), [v1.0-GPTQ-4bit](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8B-dpo-v1.0-GPTQ-4bit), [v1.0-GPTQ-8bit](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8B-dpo-v1.0-GPTQ-8bit), [v1.0-GGUF](https:\u002F\u002Fhuggingface.co\u002Fteam-hatakeyama-phase2\u002FTanuki-8B-dpo-v1.0-GGUF)) | 4,096 | 事前学習: 様々な Web 上のデータ, 合成データ（計 **1.3T** トークン）\u003Cbr>SFT, DPO: 様々な合成データ [^19] | 松尾研LLM開発プロジェクト | Apache 2.0 |\n| [Japanese StableLM Alpha](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-alpha-7b) | 2023 | GPT-NeoX\u003Cbr>([base-alpha-**7b**](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-alpha-7b), [instruct-alpha-**7b**](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-alpha-7b), [instruct-alpha-**7b**-v2](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-alpha-7b-v2)) | 2,048 | Wikipedia, Japanese CC-100, Japanese mC4, Japanese OSCAR, RedPajama\u003Cbr>(+ 独自のデータセット)[^2]\u003Cbr>(計 **750B** トークン)\u003Cbr>\\*instruct モデルでは Alpaca Dataset, Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subsetでファインチューニング\u003Cbr>(v2では商用利用不可の Alpaca Dataset を除外) | Stability AI | baseモデル: Apache 2.0\u003Cbr>instruct モデル (v1): [独自のライセンス](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-alpha-7b\u002Ftree\u002Fmain)\u003Cbr>instruct モデル (v2): Apache 2.0 |\n| [CyberAgentLM2 (CALM2)](https:\u002F\u002Fwww.cyberagent.co.jp\u002Fnews\u002Fdetail\u002Fid=29479) | 2023 | Llama\u003Cbr>([**7b**](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm2-7b), [**7b**-chat](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm2-7b-chat), [**7b**-chat-dpo-experimental](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fcalm2-7b-chat-dpo-experimental)) | base: 4,096\u003Cbr>chat: **32,768** |一般公開されている日本語・英語のデータセット（詳細不明） (計 **1.3T** トークン)\u003Cbr>*dpo モデルは Chatbot Arena Conversations JA (calm2) Dataset を用いて DPO で学習 | サイバーエージェント | Apache 2.0\u003Cbr>(dpo モデルのみ CC BY 4.0) |\n| [OpenCALM](https:\u002F\u002Fwww.cyberagent.co.jp\u002Fnews\u002Fdetail\u002Fid=28817) | 2023 | GPT-NeoX\u003Cbr>([small](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-small), [medium](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-medium), [large](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-large), [**1b(1.4b)**](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-1b), [**3b(2.7b)**](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-3b), [**7b(6.8b)**](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fopen-calm-7b)) | 2,048 | 日本語 Wikipedia \u003Cbr>+ Jpanese mC4\u003Cbr>+ Japanese CC-100 | サイバーエージェント | CC BY-SA 4.0 |\n| [Stormy](https:\u002F\u002Fjxiv.jst.go.jp\u002Findex.php\u002Fjxiv\u002Fpreprint\u002Fview\u002F422\u002F1350) | 2023 | GPT-NeoX\u003Cbr>([**7b(6.8b)**](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fstormy-7b-10ep)) | 2,048 | OpenCALM (6.8b) に対して\u003Cbr>llm-japanese-dataset v0 のうち翻訳タスクを除いたデータで LoRAチューニング | 東大 和泉研 | CC BY-SA 4.0 |\n| [ByGPT-JP](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbygpt-jp-multi-lm-head-6.5B-alpha) | 2025 | Llama ベース\u003Cbr>([multi-lm-head-**6.5b**-alpha](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbygpt-jp-multi-lm-head-6.5B-alpha)) | 5,760 | [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3) のサブセット (ja_cc, ja_warp_html, ja_warp_pdf, ja_wiki, kaken) | 東北大\u003Cbr>自然言語処理研究グループ | Apache 2.0 |\n| [rinna GPT \u003Cbr> (英語やコードも含めて学習されたモデル)](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b) | 2023 | GPT-NeoX\u003Cbr>([**4b(3.8b)**](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b), [**4b(3.8b)**-8k](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-8k), [**4b(3.8b)**-instruction-sft](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-instruction-sft), [**4b(3.8b)**-instruction-ppo](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-instruction-ppo)) | 8kモデル: 8,192\u003Cbr>他: 2,048 | Wikipedia, Japanese CC-100, Japanese C4, RedPajama, The Pile\u003Cbr>(計 **524B** トークン)\u003Cbr>\\*8k モデルでは 4,000トークンを超える長いトークン列でファインチューニング\u003Cbr>\\*instruction-sft モデルでは HH RLHF、FLAN でファインチューニング\u003Cbr>\\*instruction-ppo モデルでは HH RLHF で PPO ベースの強化学習 | rinna | MIT |\n| [japanese-large-lm](https:\u002F\u002Fengineering.linecorp.com\u002Fja\u002Fblog\u002F3.6b-japanese-language-model-with-improved-dialog-performance-by-instruction-tuning) | 2023 | GPT-NeoX\u003Cbr>([**1.7b**](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-large-lm-1.7b), [**3.6b**](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-large-lm-3.6b), [**1.7b**-instruction-sft](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-large-lm-1.7b-instruction-sft), [**3.6b**-instruction-sft](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-large-lm-3.6b-instruction-sft)) | 2,048 | 日本語 Wikipedia, Japanese CC-100, Japanese C4, Japanese OSCAR や独自データなど\u003Cbr>(計 **650GB**)\u003Cbr>\\*instruction-sft モデルでは OASST1 でファインチューニング | LINE | Apache 2.0 |\n| [rinna GPT \u003Cbr> (日本語のみで学習されたモデル)](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt2-xsmall) | 2023 | GPT または GPT-NeoX\u003Cbr>([xsmall](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt2-xsmall), [small](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt2-small), [medium](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt2-medium), [**1b**](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt-1b), [neox-small](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt-neox-small), [neox-**3.6b**-instruction-sft-v2](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt-neox-3.6b-instruction-sft-v2), [neox-**3.6b**-instruction-ppo](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-gpt-neox-3.6b-instruction-ppo)) | ≤ 2,048 | 日本語 Wikipedia \u003Cbr> + Japanese CC-100 \u003Cbr> (1b 以降のモデルでは\u003Cbr>さらに Japanese mC4 を追加)\u003Cbr>\\*instruction-sft, sft-v2 モデルでは HH RLHF、FLAN、SHP データセットでさらにファインチューニング\u003Cbr>\\*instruction-ppo モデルでは HH RLHF でさらに PPO ベースの強化学習 | rinna | MIT |\n| [Sarashina2.2](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2025\u002F03\u002F07\u002F093143) | 2025 | Llama\u003Cbr>([0.5b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-0.5b), [0.5b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-0.5b-instruct-v0.1), [**1b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-1b), [**1b**-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-1b-instruct-v0.1), [**3b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-3b), [**3b**-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-3b-instruct-v0.1)) | 8,192 || SB Intuitions | MIT |\n| [レトリバT5](https:\u002F\u002Fnote.com\u002Fretrieva\u002Fn\u002Fn7b4186dc5ada) | 2023 | T5\u003Cbr>([small (short)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-small-short), [small (medium)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-small-medium), [small (long)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-small-long), [base (short)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-base-short), [base (medium)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-base-medium), [base (long)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-base-long), [large (short)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-large-short), [large (medium)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-large-medium), [large (long)](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-large-long), [**xl(3b)**](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Ft5-xl)) | | 日本語 Wikipedia + Japanese mC4 | レトリバ | CC BY-SA 4.0 |\n| [Spiral-RetNet-3b-base](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000014.000120221.html) | 2024 | RetNet\u003Cbr>([**3b**](https:\u002F\u002Fhuggingface.co\u002FSpiral-AI\u002FSpiral-RetNet-3b-base)) | 2,048 |  Wikipedia, Japanese CC-100, CulturaX | Spiral.AI | MIT |\n| [kotomamba-2.8B](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotomamba-2.8B-v1.0) | 2024 | Mamba\u003Cbr>([**2.8B**-v1.0](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotomamba-2.8B-v1.0)) | 2,048 | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |\n| [ABEJA GPT](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fabeja-gpt-project-202207) | 2022 | GPT または GPT-NeoX\u003Cbr>([large](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002Fgpt2-large-japanese), [neox-**2.7b**](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002Fgpt-neox-japanese-2.7b)) | | 日本語 Wikipedia \u003Cbr> + Japanese CC-100 \u003Cbr> + Japanese OSCAR | ABEJA | MIT |\n| [PLaMo 2.1 2B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-2-1-8b\u002F) | 2025 | Causal decoder-only transformer\u003Cbr>([**2b**-cpt](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-2.1-2b-cpt)) | **32,768** | 訓練詳細不明 | Preferred Networks | PLaMo community license |\n| [Rakuten AI 2.0 mini](https:\u002F\u002Fcorp.rakuten.co.jp\u002Fnews\u002Fpress\u002F2025\u002F0212_02.html) | 2025 | Mistral\u003Cbr>([mini(**1.5b**)](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-2.0-mini), [mini(**1.5b**)-instruct](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-2.0-mini-instruct)) | **131,072** ||楽天|Apache 2.0|\n| [早大GPT](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fgpt2-xl-japanese) | 2022 | GPT\u003Cbr>([small](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fgpt2-small-japanese), [**xl(1.5b)**](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fgpt2-xl-japanese)) | |  日本語 Wikipedia\u003Cbr> + Japanese CC-100 | 早大 河原研 | CC BY-SA 4.0 |\n| [ストックマークGPT](https:\u002F\u002Fstockmark.co.jp\u002Fnews\u002F20230808) | 2023 | GPT-NeoX\u003Cbr>([**1.4b**](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fgpt-neox-japanese-1.4b)) |  | 日本語 Wikipedia (0.88B トークン)\u003Cbr>+ Japanese CC-100 (10.5B トークン)\u003Cbr>+ 独自のWebデータ (8.6B トークン) | ストックマーク | MIT |\n| [イエローバックGPT](https:\u002F\u002Ftech.yellowback.net\u002Fposts\u002Fgpt-neo-japanese) | 2021 | GPT-NeoX\u003Cbr>([**1.3b**](https:\u002F\u002Fhuggingface.co\u002Fyellowback\u002Fgpt-neo-japanese-1.3B)) |  | 日本語 Wikipedia \u003Cbr> + Japanese CC-100 \u003Cbr> + Japanese OSCAR | イエローバック | Apache 2.0 |\n| [PLaMo 2 1B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-2\u002F) | 2025 | Samba ベースのアーキテクチャ\u003Cbr>([**1b**](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-2-1b)) | | 日本語、英語等のデータ\u003Cbr>（計 **4T** トークン） | Preferred Elements (Preferred Networks) | Apache 2.0 |\n| [Sarashina2.1-1B](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.1-1b) | 2024 | Llama\u003Cbr>([**1b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.1-1b)) | 8,192 | Web 上などの日本語・英語データ（計 **10T** トークン） | SB Intuitions | Sarashina Model NonCommercial License |\n| [colorfulscoop GPT](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fgpt2-small-ja) | 2021 | GPT\u003Cbr>([small](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fgpt2-small-ja)) | |  日本語 Wikipedia | Colorful Scoop | CC BY-SA 3.0 |\n| [東工大GPT](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2023\u002Fpdf_dir\u002FH9-1.pdf) | 2023 | GPT\u003Cbr>([medium](https:\u002F\u002Fhuggingface.co\u002Fokazaki-lab\u002Fjapanese-gpt2-medium-unidic), [medium (逆方向)](https:\u002F\u002Fhuggingface.co\u002Fokazaki-lab\u002Fjapanese-reversed-gpt2-medium-unidic)) [^3] | |  日本語 Wikipedia + Japanese CC-100 | 東工大 岡崎研 | CC BY-SA 4.0 |\n| [京大GPT](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fgpt2-medium-japanese-char) | 2022 | GPT\u003Cbr>([small (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fgpt2-small-japanese-char), [medium (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fgpt2-medium-japanese-char), [large (文字レベル)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fgpt2-large-japanese-char)) | | 日本語 Wikipedia (約2,700万文 (3.2GB)) \u003Cbr>+ Japanese CC-100 (約6億1,900万文 (85GB)) \u003Cbr>+ Japanese OSCAR (約3億2,600万文 (54GB)) | 京大 言語メディア研究室 | CC BY-SA 4.0 |\n| [日本語BART](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fbart-base-japanese) | 2023 | BART\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fbart-base-japanese), [large](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fbart-large-japanese)) | |  日本語 Wikipedia (約1,800万文) | 京大 言語メディア研究室 | CC BY-SA 4.0 |\n| [Megagon Labs T5](https:\u002F\u002Fgithub.com\u002Fmegagonlabs\u002Ft5-japanese) | 2021 | T5\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fmegagonlabs\u002Ft5-base-japanese-web)) | |  Japanese mC4 (87,425,304 ページ (782 GB))\u003Cbr>+ Japanese wiki40b (828,236 記事 (2 GB)) | Megagon Labs \u003Cbr> (リクルート) | Apache 2.0 |\n\n\u003Ca id=\"generative-scratch-domain-specific\">\u003C\u002Fa>\n#### 领域专用\n\n|    | 领域 | 架构  |  学习文本  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|:---:|\n| [SIP-med-LLM\u002FSIP-jmed-llm-2-8x13b-OP-instruct](https:\u002F\u002Fhuggingface.co\u002FSIP-med-LLM\u002FSIP-jmed-llm-2-8x13b-OP-instruct) | 医疗 | MoE | 医疗系语料库 (**44.2B** 个token) 上对 LLM-jp-3 MoE (8x13b) 进行额外预训练，随后进行指令微调 | 战略性创新创造计划（SIP）第3期课题“在构建集成型医疗保健系统中利用生成式AI”主题1“开发并社会实施具有安全性与可靠性之开放式医疗LLM”研究小组 | Apache 2.0 |\n| [日语对话Transformer](https:\u002F\u002Fgroup.ntt\u002Fjp\u002Ftopics\u002F2021\u002F09\u002F30\u002Ftransformer.html) | 对话 | Transformer | Twitter 上的日语回复配对 | NTT | [自定义许可证](https:\u002F\u002Fgithub.com\u002Fnttcslab\u002Fjapanese-dialog-transformers\u002Fblob\u002Fmain\u002FLICENSE.md) |\n| [日语新闻BART](https:\u002F\u002Ftech.stockmark.co.jp\u002Fblog\u002Fbart-japanese-base-news\u002F) | 商业 | BART ([base](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002Fbart-base-japanese-news)) | 日本商业新闻文章（约2,100万篇 (2.9亿句)） | StockMark | MIT |\n| [AcademicBART](https:\u002F\u002Fgithub.com\u002FEhimeNLP\u002FAcademicBART) | 学术 | BART ([base](https:\u002F\u002Fhuggingface.co\u002FEhimeNLP\u002FAcademicBART)) | CiNii 的日语论文 | 爱媛大学人工智能研究室 | Apache 2.0 |\n\n\u003Ca id=\"english-based-models\">\u003C\u002Fa>\n\n\n### 在海外模型基础上进行日语持续预训练的模型\n\n※也包括在持续预训练后进行了后续学习（如SFT、DPO、RL等）的模型\n\n\u003Ca id=\"generative-continual-general\">\u003C\u002Fa>\n#### 泛用\n\n|    | 公開年 | ベースのLLM  | 学習テキスト | 開発元  | ライセンス \u002F 利用規約 |\n|:---|:---:|:---:|:---:|:---:|:---:|\n| [GPT-OSS Swallow 120B](https:\u002F\u002Fswallow-llm.github.io\u002Fgptoss-swallow.ja.html)\u003Cbr>([120B-SFT-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGPT-OSS-Swallow-120B-SFT-v0.1), [120B-RL-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGPT-OSS-Swallow-120B-RL-v0.1)) | **2026** | GPT-OSS (**120b**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **419.4B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [Llama 3.3 Swallow 70B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3.3-swallow.ja.html)\u003Cbr>([70B-v0.4](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.3-Swallow-70B-v0.4), [70B-Instruct-v0.4](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.3-Swallow-70B-Instruct-v0.4)) | 2025 | Llama 3.3 (**70b**) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1, Swallow-Code-v0.3-Instruct-style | Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |\n| [Llama 3.1 Swallow 70B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3.1-swallow.ja.html)\u003Cbr>([70B-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-70B-v0.1), [70B-Instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-70B-Instruct-v0.1), [70B-Instruct-v0.3](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-70B-Instruct-v0.3)) | 2024 | Llama 3.1 (**70b**) | 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus\u003Cbr>Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie | Swallowプロジェクト | Llama 3.1 Community License\u003Cbr>(Instructモデルは Gemma Terms of Use も適用) |\n| [cyberagent\u002FLlama-3.1-70B-Japanese-Instruct-2407](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002FLlama-3.1-70B-Japanese-Instruct-2407) | 2024 | Llama 3.1 (**70b**) | 不明 | サイバーエージェント | Llama 3.1 Community License |\n| [Llama 3 Swallow 70B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3-swallow.ja.html)\u003Cbr>([70B-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3-Swallow-70B-v0.1), [70B-Instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3-Swallow-70B-Instruct-v0.1)) | 2024 | Llama 3 (**70b**) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath\u003Cbr>Instruction Tuning: OASST1 [^17] | Swallowプロジェクト | Llama 3 Community License |\n| [turing-motors\u002FLlama-3-heron-brain-70B-v0.3](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FLlama-3-heron-brain-70B-v0.3) | 2024 | Llama 3 (**70b**) | Llama 3 Swallow 70B に対して追加学習（詳細不明） | Turing | Llama 3 Community License |\n| [Llama 3 Youko 70B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b)\u003Cbr>([70b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b), [70b-instruct](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b-instruct), [70b-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b-gptq), [70b-instruct-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-70b-instruct-gptq)) | 2024 | Llama 3 (**70b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **5B** トークン)\u003Cbr>Instruction Tuning: 独自のデータセット[^11] | rinna | Llama 3 Community License |\n| [Swallow 70B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-llama.ja.html)\u003Cbr>([70b-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-hf), [70b-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-instruct-hf), [70b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-instruct-v0.1), [70b-NVE-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-NVE-hf), [70b-NVE-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-70b-NVE-instruct-hf)) | 2023 | Llama 2 (**70b**) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1\u003Cbr>*v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |\n| [KARAKURI LM](https:\u002F\u002Fkarakuri.ai\u002Fseminar\u002Fnews\u002Fkarakuri-lm\u002F)\u003Cbr>([70b-v0.1](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-70b-v0.1), [70b-chat-v0.1](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-70b-chat-v0.1)) | 2024 | Llama 2 (**70b**) | 事前学習: mC4, CC100, OSCAR, RedPajama, 独自のデータセット\u003Cbr>(計 **16B** トークン)\u003Cbr>SteerLM: OASST2, 独自のデータセット | カラクリ | Llama 2 Community License[^13] |\n| [Japanese Stable LM Beta 70B](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-beta-70b)\u003Cbr>([base-beta-70b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-beta-70b), [instruct-beta-70b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-beta-70b)) | 2023 | Llama 2 (**70b**) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)\u003Cbr>(計 **100B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 | Stability AI | Llama 2 Community License |\n| [Fujitsu-LLM-KG](https:\u002F\u002Fblog.fltech.dev\u002Fentry\u002F2024\u002F10\u002F15\u002FFujitsu-LLM-KG-ja)\u003Cbr>([8x7B_cpt](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_cpt), [8x7B_inst-infer_v1](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_inst-infer_v1), [8x7B_inst-infer_v2](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_inst-infer_v2), [8x7B_inst-gen_ja](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_inst-gen_ja), [8x7B_inst-gen_en](https:\u002F\u002Fhuggingface.co\u002FFujitsu-LLM-KG\u002FFujitsu-LLM-KG-8x7B_inst-gen_en)) | 2025 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**) | 事前学習: 知識グラフ並列コーパス(森羅プロジェクト、Wikipedia等から合成) **2.1B**トークンを含む計約**300B**トークン\u003Cbr>Instruction Tuning: 知識グラフ推論・生成タスク用データセット | 富士通 | Apache 2.0 |\n| [Swallow-MX 8x7B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-mistral.ja.html)\u003Cbr>([8x7b-NVE-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-MX-8x7b-NVE-v0.1)) | 2024 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile, The Vault | Swallowプロジェクト | Apache 2.0 |\n| [KARAKURI LM 8x7B Instruct v0.1](https:\u002F\u002Fkarakuri.ai\u002Fseminar\u002Fnews\u002Fkarakuri-lm-8x7b-instruct-v0-1\u002F)\u003Cbr>([8x7b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-8x7b-instruct-v0.1)) | 2024 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**) | Swallow-MX 8x7B に対して以下のデータセットで学習: Dolly Dataset, OASST2, HelpSteer, glaive-code-assistant-v3, glaive-function-calling-v2, synthetic_text_to_sql, MetaMathQA, orca-math-word-problems-200k, rag-dataset-12000, rag-hallucination-dataset-1000, 独自のデータセット | カラクリ | Apache 2.0 (?)[^12] |\n| [KARAKURI LM 8x7B Chat v0.1](https:\u002F\u002Fkarakuri.ai\u002Fseminar\u002Fnews\u002Faws_trainium_moe\u002F)\u003Cbr>([8x7b-chat-v0.1](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-8x7b-chat-v0.1)) | 2024 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**) | Swallow-MX 8x7B に対して\u003Cbr>SteerLM: OASST2, HelpSteer, 独自のデータセット | カラクリ | Apache 2.0 |\n| [ABEJA-Mixtral-8x7B-japanese](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fabeja-nedo-project-part1-202404)\u003Cbr>([8x7B-v0.1-japanese](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FMixtral-8x7B-v0.1-japanese), [8x7B-Instruct-v0.1-japanese](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FMixtral-8x7B-Instruct-v0.1-japanese), [8x7B-Instruct-v0.1-japanese-alpha](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FMixtral-8x7B-Instruct-v0.1-japanese-alpha), [8x7B-Instruct-v0.1-japanese-alpha-merged](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FMixtral-8x7B-Instruct-v0.1-japanese-alpha-merged)) | 2024 | Mixtral-8x7B-Instruct-v0.1 (**46.7b**)\u003Cbr>\\*Instructが名前に付いていないモデルのみ Mixtral-8x7B-v0.1 がベース |  事前学習: Japanese CC,\tRedpajama, 独自\u003Cbr>（計 **450B** トークン） | ABEJA | Apache 2.0 |\n| [Qwen3 Swallow 32B](https:\u002F\u002Fswallow-llm.github.io\u002Fqwen3-swallow.ja.html)\u003Cbr>([32B-CPT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-32B-CPT-v0.2), [32B-SFT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-32B-SFT-v0.2), [32B-RL-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-32B-RL-v0.2)) | **2026** | Qwen3 (**32b**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **209.7B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [ELYZA-Thinking-1.0-Qwen-32B](https:\u002F\u002Fzenn.dev\u002Felyza\u002Farticles\u002Fbc68f53fc0a83b)\u003Cbr>([32B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Thinking-1.0-Qwen-32B)) | 2025 | Qwen 2.5 (**32b**) | 事前学習 + SFT (Reasoning) | ELYZA | Apache 2.0 |\n| [ELYZA-Shortcut-1.0-Qwen-32B](https:\u002F\u002Fzenn.dev\u002Felyza\u002Farticles\u002Fbc68f53fc0a83b)\u003Cbr>([32B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Shortcut-1.0-Qwen-32B)) | 2025 | Qwen 2.5 (**32b**) | 事前学習 + SFT | ELYZA | Apache 2.0 |\n| [ABEJA-Qwen2.5-32b-Japanese-v1.0](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fgeniac2-qwen25-32b-v1.0)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FABEJA-Qwen2.5-32b-Japanese-v1.0)) | 2025 | Qwen2.5-32B-Instruct (**32b**) | 継続事前学習 + SFT + DPO: 約2万件の合成データ・人手アノテーションデータセット（抽出・推論能力に特化） | ABEJA | Apache 2.0 |\n| [Qwen2.5 Bakeneko 32B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fqwen2.5-bakeneko-32b)\u003Cbr>([qwen2.5-bakeneko-32b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fqwen2.5-bakeneko-32b), [qwen2.5-bakeneko-32b-instruct](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fqwen2.5-bakeneko-32b-instruct), [deepseek-r1-distill-qwen2.5-bakeneko-32b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fdeepseek-r1-distill-qwen2.5-bakeneko-32b), [qwq-bakeneko-32b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fqwq-bakeneko-32b)) | 2025 | Qwen 2.5 (**32b**) || rinna | Apache 2.0 |\n| [ABEJA-QwQ32b-Reasoning-Japanese-v1.0](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fgeniac2-qwen25-32b-reasoning-v1.0)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FABEJA-QwQ32b-Reasoning-Japanese-v1.0)) | 2025 | Qwen 2.5 (**32b**) | ABEJA-Qwen2.5-32b-Japanese-v0.1 に QwQ 32b の Chat Vector をマージした上で追加学習 | ABEJA | Apache 2.0 |\n| [ABEJA-Qwen2.5-32b-Japanese-v0.1](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fgeniac2-qwen25-32b-v0.1)\u003Cbr>([32b-Japanese-v0.1](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FABEJA-Qwen2.5-32b-Japanese-v0.1)) | 2025 | Qwen 2.5 (**32b**) | 事前学習: Common Crawl, Cosmopedia, 独自\u003Cbr>（計 **100B** トークン）\u003Cbr>+ Chat Vector | ABEJA | Apache 2.0 |\n| [neoAI-JP-QwQ-32B](https:\u002F\u002Fzenn.dev\u002Fneoai\u002Farticles\u002F1670bd029093b0)\u003Cbr>([32B](https:\u002F\u002Fhuggingface.co\u002Fneoai-inc\u002FneoAI-JP-QwQ-32B)) | 2025 | Qwen 2.5 (**32b**) | 継続事前学習: [llm-jp-corpus v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)から約**4B**トークン\u003Cbr>+ QwQ-32BのChat Vector | neoAI | Apache 2.0 |\n| [neoAI-JP-DeepSeek-Qwen-32B](https:\u002F\u002Fzenn.dev\u002Fneoai\u002Farticles\u002F1670bd029093b0)\u003Cbr>([32B](https:\u002F\u002Fhuggingface.co\u002Fneoai-inc\u002FneoAI-JP-DeepSeek-Qwen-32B)) | 2025 | Qwen 2.5 (**32b**) | 継続事前学習: [llm-jp-corpus v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3)から約**4B**トークン\u003Cbr>+ DeepSeek-R1-Distill-Qwen-32BのChat Vector | neoAI | Apache 2.0 |\n| [Qwen3 Swallow 30B-A3B](https:\u002F\u002Fswallow-llm.github.io\u002Fqwen3-swallow.ja.html)\u003Cbr>([30B-A3B-CPT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-30B-A3B-CPT-v0.2), [30B-A3B-SFT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-30B-A3B-SFT-v0.2), [30B-A3B-RL-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-30B-A3B-RL-v0.2)) | **2026** | Qwen3 (**30b-A3B**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **209.7B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [Gemma-2-Llama Swallow 27B](https:\u002F\u002Fswallow-llm.github.io\u002Fgemma2-llama-swallow.ja.html)\u003Cbr>([27b-pt-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-27b-pt-v0.1), [27b-it-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-27b-it-v0.1)) | 2025 | Gemma 2 (**27b**) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 | Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |\n| [GPT-OSS Swallow 20B](https:\u002F\u002Fswallow-llm.github.io\u002Fgptoss-swallow.ja.html)\u003Cbr>([20B-SFT-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGPT-OSS-Swallow-20B-SFT-v0.1), [20B-RL-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGPT-OSS-Swallow-20B-RL-v0.1)) | **2026** | GPT-OSS (**20b**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **419.4B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [Nekomata 14B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b)\u003Cbr>([14b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b), [14b-instruction](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b-instruction), [14b-gguf](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b-gguf), [14b-instruction-gguf](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-14b-instruction-gguf)) | 2023 | Qwen (**14b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **66B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Tongyi Qianwen LICENSE |\n| [Swallow 13B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-llama.ja.html)\u003Cbr>([13b-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-13b-hf), [13b-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-13b-instruct-hf), [13b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-13b-instruct-v0.1), [13b-NVE-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-13b-NVE-hf)) | 2023 | Llama 2 (**13b**) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1\u003Cbr>*v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |\n| [LEIA-Swallow-13B](https:\u002F\u002Fwww.ousia.jp\u002Fnews\u002Fleia)\u003Cbr>([13b](https:\u002F\u002Fhuggingface.co\u002Fleia-llm\u002FLeia-Swallow-13b)) | 2024 | Llama 2 (**13b**) | Swallow 13B に対して LEIA で追加学習 | 個人 ([山田育矢](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=M7YivToAAAAJ), [李凌寒](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=z9is5FAAAAAJ)) | Llama 2 Community License |\n| [ELYZA-japanese-Llama-2-13b](https:\u002F\u002Fnote.com\u002Felyza\u002Fn\u002Fn5d42686b60b7)\u003Cbr>([13b](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-13b), [13b-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-13b-instruct), [13b-fast](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-13b-fast), [13b-fast-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-13b-fast-instruct)) | 2023 | Llama 2 (**13b**) | 事前学翕: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど\u003Cbr>(計 **18B** トークン)\u003Cbr>Instruction Tuning: 独自のデータセット | ELYZA | Llama 2 Community License |\n| [cyberagent\u002FMistral-Nemo-Japanese-Instruct-2408](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002FMistral-Nemo-Japanese-Instruct-2408) | 2024 | Mistral NeMo (**12b**) | 不明 | サイバーエージェント | Apache 2.0 |\n| [NVIDIA-Nemotron-Nano-9B-v2-Japanese](https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fnvidia\u002Fnemotron-nano-9b-v2-japanese-ja)\u003Cbr>([9B](https:\u002F\u002Fhuggingface.co\u002Fnvidia\u002FNVIDIA-Nemotron-Nano-9B-v2-Japanese)) | **2026** | Nemotron-Nano (**9b**) | 継続事前学習: Wikipedia, fineweb-2 Japanese, aozorabunko, sip3-ja-general-web-corpus, Nemotron-CC-v2.1, Nemotron-Pretraining-Specialized-v1\u003Cbr>SFT: Nemotron-Personas-Japan をシードセットとした Tool Calling データセット, Nemotron-Post-Training-v3 | NVIDIA | NVIDIA Nemotron Open Model License Agreement |\n| [Gemma-2-Llama Swallow 9B](https:\u002F\u002Fswallow-llm.github.io\u002Fgemma2-llama-swallow.ja.html)\u003Cbr>([9b-pt-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-9b-pt-v0.1), [9b-it-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-9b-it-v0.1)) | 2025 | Gemma 2 (**9b**) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 | Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |\n| [Qwen3 Swallow 8B](https:\u002F\u002Fswallow-llm.github.io\u002Fqwen3-swallow.ja.html)\u003Cbr>([8B-CPT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-8B-CPT-v0.2), [8B-SFT-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-8B-SFT-v0.2), [8B-RL-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FQwen3-Swallow-8B-RL-v0.2)) | **2026** | Qwen3 (**8b**) | 事前学習: Wikipedia, Swallow Corpus v3.2, Nemotron-CC, Cosmopedia, Laboro ParaCorpus, Swallow Math v2, Swallow Code v2\u003Cbr>(計 **209.7B** トークン)\u003Cbr>SFT: GPT-OSS-LMSYS-Chat-1M-Synth, Swallow-Nemotron-Post-Training-Dataset-v1\u003Cbr>RL: allenai\u002FDolci-Think-RL-7B (Math subset) | Swallowプロジェクト | Apache 2.0 |\n| [Llama 3.1 Swallow 8B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3.1-swallow.ja.html)\u003Cbr>([8B-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-v0.1), [8B-Instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-Instruct-v0.1), [8B-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-v0.2), [8B-Instruct-v0.2](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-Instruct-v0.2), [8B-Instruct-v0.3](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-Instruct-v0.3), [8B-Instruct-v0.5](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3.1-Swallow-8B-Instruct-v0.5)) | 2025 | Llama 3.1 (**8b**) | 事前学習: The Stack v2, Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus\u003Cbr>Instruction Tuning: lmsys-chat-1m-synth-ja-wo-pii-and-template-instructions, lmsys-chat-1m-synth-en-wo-pii-and-template-instructions, filtered-magpie-ultra-ja, filtered-magpie-ultra-en, gemma-magpie, Gemma-3-LMSYS-Chat-1M-Synth | Swallowプロジェクト | Llama 3.1 Community License\u003Cbr>(Instructモデルは Gemma Terms of Use も適用) |\n| [Llama 3 Swallow 8B](https:\u002F\u002Fswallow-llm.github.io\u002Fllama3-swallow.ja.html)\u003Cbr>([8B-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3-Swallow-8B-v0.1), [8B-Instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FLlama-3-Swallow-8B-Instruct-v0.1)) | 2023 | Llama 3 (**8b**) | 事前学習: Algebraic Stack, Wikipedia, RefinedWeb, Swallow Corpus, Cosmopedia, Laboro ParaCorpus, OpenWebMath\u003Cbr>Instruction Tuning: OASST1 [^17] | Swallowプロジェクト | Llama 3 Community License |\n| [turing-motors\u002FLlama-3-heron-brain-8B-v0.3](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FLlama-3-heron-brain-8B-v0.3) | 2024 | Llama 3 (**8b**) | Llama 3 Swallow 8B に対して追加学習（詳細不明） | Turing | Llama 3 Community License |\n| [Llama 3 Youko 8B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b)\u003Cbr>([8b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b), [8b-instruct](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b-instruct), [8b-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b-gptq), [8b-instruct-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fllama-3-youko-8b-instruct-gptq)) | 2024 | Llama 3 (**8b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **22B** トークン)\u003Cbr>Instruction Tuning[^11]: Aya Dataset (Japanese subset), FLAN, Dolly Dataset, HH RLHF, OASST1, OASST2, MetaMathQA, CodeAlpaca Dataset, 独自のデータセット\u003Cbr>DPO: HelpSteer, HelpSteer2, 独自のデータセット | rinna | Llama 3 Community License |\n| [Llama 3 ELYZA JP 8B](https:\u002F\u002Fnote.com\u002Felyza\u002Fn\u002Fn360b6084fdbd)\u003Cbr>([8B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FLlama-3-ELYZA-JP-8B), [8B-GGUF](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FLlama-3-ELYZA-JP-8B-GGUF), [8B-AWQ](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FLlama-3-ELYZA-JP-8B-AWQ)) | 2024 | Llama 3 (**8b**) | 不明 | ELYZA | Llama 3 Community License |\n| [Llama 3 neoAI 8B Chat v0.1](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000017.000109048.html)\u003Cbr>([8B-Chat-v0.1](https:\u002F\u002Fhuggingface.co\u002Fneoai-inc\u002FLlama-3-neoAI-8B-Chat-v0.1)) | 2024 | Llama 3 (**8b**) | 不明 | neoAI | Llama 3 Community License |\n| [Llama 3 tedllm](https:\u002F\u002Fwww.teldevice.co.jp\u002Fpro_info\u002F2024\u002Fpress_241023.php)\u003Cbr>([v0](https:\u002F\u002Fhuggingface.co\u002Ftokyo-electron-device-ai\u002Fllama3-tedllm-8b-v0)) | 2024 | Llama 3 (**8b**) | 事前学習: 日本語の一般コーパス | 東京エレクトロン デバイス | Llama 3 Community License |\n| [ELYZA-Shortcut-1.0-Qwen-7B](https:\u002F\u002Fzenn.dev\u002Felyza\u002Farticles\u002Fbc68f53fc0a83b)\u003Cbr>([7B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Shortcut-1.0-Qwen-7B)) | 2025 | Qwen 2.5 (**7b**) | 事前学習 + SFT | ELYZA | Apache 2.0 |\n| [ELYZA-Diffusion-1.0-Dream-7B](https:\u002F\u002Fzenn.dev\u002Felyza\u002Farticles\u002Ff9dd010e895a34)\u003Cbr>([Base-7B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Diffusion-Base-1.0-Dream-7B), [Instruct-7B](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-Diffusion-Instruct-1.0-Dream-7B)) | **2026** | Dream (**7b**) | 事前学習: 日本語テキスト (約 **62B** トークン)\u003Cbr>Instruction Tuning: 日本語の指示データ (約 **0.18B** トークン) | ELYZA | Apache 2.0 |\n| [Swallow 7B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-llama.ja.html)\u003Cbr>([7b-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-hf), [7b-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-instruct-hf), [7b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-instruct-v0.1), [7b-NVE-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-NVE-hf), [7b-NVE-instruct-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-NVE-instruct-hf), [7b-plus-hf](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-7b-plus-hf)) | 2023 | Llama 2 (**7b**) | 事前学習: 日本語 Wikipedia, RefinedWeb, Swallow Corpus, The Pile\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1\u003Cbr>*v0.1モデルでは OASST1, OASST2 を使用 | Swallowプロジェクト | Llama 2 Community License |\n| [LEIA-Swallow-7B](https:\u002F\u002Fwww.ousia.jp\u002Fnews\u002Fleia)\u003Cbr>([7b](https:\u002F\u002Fhuggingface.co\u002Fleia-llm\u002FLeia-Swallow-7b)) | 2024 | Llama 2 (**7b**) | Swallow 7B に対して LEIA で追加学習 | 個人 ([山田育矢](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=M7YivToAAAAJ), [李凌寒](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=z9is5FAAAAAJ)) | Llama 2 Community License |\n| [ELYZA-japanese-Llama-2-7b](https:\u002F\u002Fnote.com\u002Felyza\u002Fn\u002Fna405acaca130)\u003Cbr> ([7b](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-7b), [7b-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-7b-instruct), [7b-fast](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-7b-fast), [7b-fast-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-Llama-2-7b-fast-instruct)) | 2023 | Llama 2 (**7b**) | 事前学習: 日本語 Wikipedia, Japanese OSCAR, その他クロールデータなど\u003Cbr>(計 **18B** トークン)\u003Cbr>Instruction Tuning: 独自のデータセット | ELYZA | Llama 2 Community License |\n| [Youri 7B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b)\u003Cbr>([7b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b), [7b-instruction](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-instruction), [7b-chat](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-chat), [7b-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-gptq), [7b-instruction-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-instruction-gptq), [7b-chat-gptq](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fyouri-7b-chat-gptq)) | 2023 | Llama 2 (**7b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **40B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Llama 2 Community License |\n| [houou-7b](https:\u002F\u002Fcorp.moneyforward.com\u002Fnews\u002Frelease\u002Fcorp\u002F20231206-mf-press-1\u002F)\u003Cbr>([instruction-7b-v1](https:\u002F\u002Fhuggingface.co\u002Fmoneyforward\u002Fhouou-instruction-7b-v1), [instruction-7b-v2](https:\u002F\u002Fhuggingface.co\u002Fmoneyforward\u002Fhouou-instruction-7b-v2), [instruction-7b-v3](https:\u002F\u002Fhuggingface.co\u002Fmoneyforward\u002Fhouou-instruction-7b-v3)) | 2023 | Llama 2 (**7b**) | Youri 7B (base) に対して Instruction Tuning: [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F) | マネーフォワード | Llama 2 Community License |\n| [Japanese Stable LM Beta 7B](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-beta-70b)\u003Cbr>([base-beta-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-beta-7b), [base-ja_vocab-beta-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-ja_vocab-beta-7b), [instruct-beta-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-beta-7b), [instruct-ja_vocab-beta-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-ja_vocab-beta-7b)) | 2023 | Llama 2 (**7b**) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)\u003Cbr>(計 **100B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, OASST1 | Stability AI | Llama 2 Community License |\n| [SambaLingo-Japanese](https:\u002F\u002Fsambanova.ai\u002Fblog\u002Fsambalingo-open-source-language-experts)\u003Cbr>([Base](https:\u002F\u002Fhuggingface.co\u002Fsambanovasystems\u002FSambaLingo-Japanese-Base), [Chat](https:\u002F\u002Fhuggingface.co\u002Fsambanovasystems\u002FSambaLingo-Japanese-Chat)) | 2024 | Llama 2 (**7b**) | 事前学習: CulturaX\u003Cbr>Instruction Tuning: ultrachat_200k\u003Cbr>DPO: ultrafeedback, cai-conversation-harmless | SambaNova Systems | Llama 2 Community License (?)[^12] |\n| [blue-lizard](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000010.000125694.html)\u003Cbr>([blue-lizard](https:\u002F\u002Fhuggingface.co\u002FDeepreneur\u002Fblue-lizard)) | 2024 | Llama 2 (**7b**) | 不明 | Deepreneur | Llama 2 Community License |\n| [Swallow-MS 7B](https:\u002F\u002Fswallow-llm.github.io\u002Fswallow-mistral.ja.html)\u003Cbr>([7b-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-MS-7b-v0.1), [7b-instruct-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FSwallow-MS-7b-instruct-v0.1)) | 2024 | Mistral-7B-v0.1 (**7b**) | 事前学習: Algebraic Stack, Japanese Wikipedia, RefinedWeb, Swallow Corpus, The Pile\u003Cbr>Instruction Tuning: Dolly Dataset, OASST1 | Swallowプロジェクト | Apache 2.0 |\n| [Rakuten AI 2.0](https:\u002F\u002Fcorp.rakuten.co.jp\u002Fnews\u002Fpress\u002F2025\u002F0212_02.html)\u003Cbr>([8x7B](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-2.0-8x7B), [8x7B-instruct](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-2.0-8x7B-instruct)) | 2025 | Mistral-7B-v0.1 (**7b**) | | 楽天 | Apache 2.0 |\n| [RakutenAI-7B](https:\u002F\u002Fcorp.rakuten.co.jp\u002Fnews\u002Fpress\u002F2024\u002F0321_01.html?year=2024&month=3&category=corp)\u003Cbr>([7B](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-7B), [7B-instruct](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-7B-instruct), [7B-chat](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-7B-chat)) | 2024 | Mistral-7B-v0.1 (**7b**) | 事前学習: 不明\u003Cbr>Instruction Tuning: Dolly Dataset, OASST1, （jasterと同様に）言語理解データセットの訓練データを Instruction Tuning 用に変換したもの, 独自のデータセット | 楽天 | Apache 2.0 |\n| [Japanese Stable LM Gamma 7B](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-gamma-7b)\u003Cbr>([base-gamma-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-gamma-7b), [instruct-gamma-7b](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-instruct-gamma-7b)) | 2023 | Mistral-7B-v0.1 (**7b**) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)\u003Cbr>(計 **100B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-dataSetのwikinews subset | Stability AI |  Apache 2.0  |\n| [ChatNTQ JA 7B](https:\u002F\u002Fhuggingface.co\u002FNTQAI\u002Fchatntq-ja-7b-v1.0)\u003Cbr>([7b-v1.0](https:\u002F\u002Fhuggingface.co\u002FNTQAI\u002Fchatntq-ja-7b-v1.0)) | 2024 | Mistral-7B-v0.1 (**7b**) | Japanese Stable LM Gamma 7B (base) に対して独自のデータセットで Instruction Tuning | NTQ Solution | Apache 2.0  |\n| [Shisa Gamma 7B](https:\u002F\u002Fhuggingface.co\u002Faugmxnt\u002Fshisa-gamma-7b-v1)\u003Cbr>([7b-v1](https:\u002F\u002Fhuggingface.co\u002Faugmxnt\u002Fshisa-gamma-7b-v1)) | 2023 | Mistral-7B-v0.1 (**7b**) | Japanese Stable LM Gamma 7B (base) に対して ultra-orca-boros-en-ja で Instruction Tuning | AUGMXNT | Apache 2.0 (?)[^12]  |\n| [Shisa 7B](https:\u002F\u002Fgithub.com\u002FAUGMXNT\u002Fshisa\u002Fwiki)\u003Cbr>([base-7b-v1](https:\u002F\u002Fhuggingface.co\u002Faugmxnt\u002Fshisa-base-7b-v1), [7b-v1](https:\u002F\u002Fhuggingface.co\u002Faugmxnt\u002Fshisa-7b-v1)) | 2023 | Mistral-7B-v0.1 (**7b**) | 事前学習: shisa-pretrain-en-ja-v1 (**8B** トークン)\u003Cbr>Instruction Tuning & DPO: ultra-orca-boros-en-ja, shisa-en-ja-dpo-v1  | AUGMXNT |  Apache 2.0 (?)[^12]  |\n| [Karasu](https:\u002F\u002Fwww.lightblue-tech.com\u002F2024\u002F01\u002F15\u002F20240115_news\u002F)\u003Cbr>([7B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-7B), [7B-chat](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-7B-chat), [7B-chat-plus](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-7B-chat-plus), [7B-chat-plus-unleashed](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-7B-chat-plus-unleashed)) | 2024 | Mistral-7B-v0.1 (**7b**) | Shisa 7B (base) に対して以下のデータセットで追加事前学習: 青空文庫, 日本の法律・判例, 日本語 Wikipedia, CulturaX の日本ドメインのデータ, UltraChat 200k (計 **7B** トークン)\u003Cbr>Instruction Tuning: ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 独自のデータセット | Lightblue | Apache 2.0 (?)[^12]  |\n| [Nekomata 7B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b)\u003Cbr>([7b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b), [7b-instruction](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b-instruction), [7b-gguf](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b-gguf), [7b-instruction-gguf](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fnekomata-7b-instruction-gguf)) | 2023 | Qwen (**7b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **66B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, FLAN, llm-japanese-datasetの一部 | rinna | Tongyi Qianwen LICENSE |\n| [lightblue\u002Fjapanese-mpt-7b](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fjapanese-mpt-7b) | 2023 | MPT (**7b**) | Japanese mC4 | Lightblue | Apache 2.0 |\n| [Japanese Stable LM 3B-4E1T](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-base-gamma-7b)\u003Cbr>([3b-4e1t-base](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-3b-4e1t-base), [3b-4e1t-instruct](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-3b-4e1t-instruct)) | 2024 | StableLM-3B-4E1T (**3b**) | 事前学習: Wikipedia, Japanese mC4, Japanese CC-100, Japanese OSCAR, SlimPajama(Books3を除外)\u003Cbr>(計 **100B** トークン)\u003Cbr>Instruction Tuning: Dolly Dataset, HH RLHF, llm-japanese-datasetのwikinews subset | Stability AI |  Apache 2.0  |\n| [kotomamba-2.8B-CL](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotomamba-2.8B-CL-v1.0) | 2024 | mamba-2.8b-slimpj\u003Cbr>(**2.8b**) | 日本語 Wikipedia, Swallow Corpus, SlimPajama | Kotoba Technologies | Apache 2.0 |\n| [Gemma-2-Llama Swallow 2B](https:\u002F\u002Fswallow-llm.github.io\u002Fgemma2-llama-swallow.ja.html)\u003Cbr>([2b-pt-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-2b-pt-v0.1), [2b-it-v0.1](https:\u002F\u002Fhuggingface.co\u002Ftokyotech-llm\u002FGemma-2-Llama-Swallow-2b-it-v0.1)) | 2025 | Gemma 2 (**2b**) | 事前学習: Wikipedia, DCLM-baseline-1.0, Swallow Corpus Version 2, Cosmopedia, Laboro ParaCorpus, FineMath-4+, Swallow Code Version 0.3\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, Swallow-Magpie-Ultra-v0.1, Swallow-Gemma-Magpie-v0.1 | Swallowプロジェクト | Llama 3.3 Community License & Gemma Terms of Use |\n| [Gemma 2 Baku 2B](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fgemma-2-baku-2b)\u003Cbr>([2b](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fgemma-2-baku-2b), [2b-it](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fgemma-2-baku-2b-it)) | 2024 | Gemma 2 (**2b**) | 事前学習: Wikipedia, Japanese C4, Japanese CC-100, Japanese OSCAR, The Pile, 独自のデータセット\u003Cbr>(計 **80B** トークン)\u003Cbr>OPRO: 独自のデータセット [^20] | rinna | Gemma Terms of Use |\n| [Japanese Stable LM 2 1.6B](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-2-base-1_6b)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-2-base-1_6b), [instruct](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stablelm-2-instruct-1_6b)) | 2024 | Stable LM 2 1.6B (**1.6b**) | 事前学習: Wikipedia, CulturaX\u003Cbr>Instruction Tuning: jaster, [ichikara-instruction](https:\u002F\u002Fliat-aip.sakura.ne.jp\u002Fwp\u002Fllm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90\u002F), alpaca-gpt4-japanese, ultra-orca-boros-en-ja-v1 | Stability AI | STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSE |\n| [TinySwallow-1.5B](https:\u002F\u002Fsakana.ai\u002Ftaid-jp\u002F)\u003Cbr>([1.5B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FTinySwallow-1.5B), [1.5B-Instruct](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FTinySwallow-1.5B-Instruct), [1.5B-Instruct-q4f32_1-MLC](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FTinySwallow-1.5B-Instruct-q4f32_1-MLC), [1.5B-Insturct-GGUF](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FTinySwallow-1.5B-Instruct-GGUF)) | 2025 | Qwen2.5 (**1.5b**) | 事前学習: Qwen2.5 (32b) を教師として TAID で学習\u003Cbr>Instruction Tuning: Gemma-2-LMSYS-Chat-1M-Synth, swallow-magpie-ultra-v0.1, swallow-gemma-magpie-v0.1 | Sakana AI, Swallowプロジェクト | Apache 2.0 |\n| [EQUES\u002FOpenRS3-GRPO-ja](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FOpenRS3-GRPO-ja) | 2025 | Qwen2.5 (**1.5b**) | TinySwallow-1.5B-Instruct に対して kunishou\u002FOpenMathInstruct-1-1.8m-ja でGRPO学習 | EQUES Inc. | ？ |\n| [EQUES\u002FTinyDeepSeek-JP-1.5B](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FTinyDeepSeek-JP-1.5B) | 2025 | Qwen2.5 (**1.5b**) | TinySwallow-1.5B-Instruct に対して EQUES\u002Fjapanese_ultrachat_6.6k でTAID蒸留 | EQUES Inc. | Apache 2.0 |\n| [EQUES\u002FTinySwallow-Stratos-1.5B](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FTinySwallow-Stratos-1.5B) | 2025 | Qwen2.5 (**1.5b**) | TinySwallow-1.5B-Instruct に対して Bespoke-Stratos-35k で推論能力強化 | EQUES Inc. | Apache 2.0 |\n| [karasu-1.1B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fkarasu-1.1B) | 2023 | TinyLlama (**1.1b**) | 事前学習: Japanese OSCAR, Japanese mC4\u003Cbr>(計 **3B** トークン) | Lightblue | Apache 2.0 |\n\n\u003Ca id=\"generative-continual-domain-specific\">\u003C\u002Fa>\n#### 领域专用\n\n|    | 领域 | 基础大模型  |  开发方  | 许可协议 |\n|:---|:---:|:---:|:---:|:---:|\n| [pfnet\u002FPreferred-MedLLM-Qwen-72B](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002FPreferred-MedLLM-Qwen-72B) | 医疗 | Qwen2.5 (**72b**) | Preferred Networks | Qwen LICENSE |\n| [Llama3-Preferred-MedSwallow-70B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fllama3-preferred-medswallow-70b\u002F)\u003Cbr>([70B](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002FLlama3-Preferred-MedSwallow-70B)) | 医疗 | Llama 3 (**70b**) | Preferred Networks | Llama 3 Community License |\n| [AIgroup-CVM-utokyohospital\u002FMedSwallow-70b](https:\u002F\u002Fhuggingface.co\u002FAIgroup-CVM-utokyohospital\u002FMedSwallow-70b) | 医疗 | Llama 2 (**70b**) | 東京大学医学部附属病院 循環器内科 AIグループ | CC BY-NC-SA 4.0 |\n| [gpt-oss-20b-Ja-Fin](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01353)\u003Cbr>([CPT](https:\u002F\u002Fhuggingface.co\u002Fnri-ai\u002Fgpt-oss-20b-Ja-Fin-CPT), [Thinking](https:\u002F\u002Fhuggingface.co\u002Fnri-ai\u002Fgpt-oss-20b-Ja-Fin-Thinking)) | 金融 | GPT-OSS (**20b**) | 野村総合研究所 | Apache 2.0 |\n| [nekomata-14b-pfn-qfin](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fqfin-llm-continual-pretraining\u002F)\u003Cbr>([qfin](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fnekomata-14b-pfn-qfin), [qfin-inst-merge](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fnekomata-14b-pfn-qfin-inst-merge)) | 金融 | Qwen (**14b**) | Preferred Networks | Tongyi Qianwen LICENSE |\n| [Qwen3-14B-Ja-Fin](https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.01353)\u003Cbr>([CPT](https:\u002F\u002Fhuggingface.co\u002Fnri-ai\u002FQwen3-14B-Ja-Fin-CPT), [Thinking](https:\u002F\u002Fhuggingface.co\u002Fnri-ai\u002FQwen3-14B-Ja-Fin-Thinking)) | 金融 | Qwen3 (**14b**) | 野村総合研究所 | Apache 2.0 |\n| [Watashiha-Llama-2-13B-Ogiri-sft](https:\u002F\u002Fhuggingface.co\u002Fwatashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft)\u003Cbr>([sft](https:\u002F\u002Fhuggingface.co\u002Fwatashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft), [sft-neuron](https:\u002F\u002Fhuggingface.co\u002Fwatashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft-neuron)) | 大喜利 | Llama 2 (**13b**) | わたしは | Llama 2 Community License |\n| [MedExamDoc-Llama-3.1-Swallow-8B-Instruct-v0.5](https:\u002F\u002Fhuggingface.co\u002FIngentaAITeam\u002FMedExamDoc-Llama-3.1-Swallow-8B-Instruct-v0.5) | 医疗 | Llama 3.1 (**8b**) | Ingenta | Llama 3.1 Community License |\n| [からまる](https:\u002F\u002Fsakana.ai\u002Fkaramaru\u002F)\u003Cbr>([Karamaru-v1](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FLlama-3-Karamaru-v1)) | 江戸時代の古文 | Llama 3 (**8b**) | Sakana AI | Llama 3 Community License |\n| [Llama 3.1 Future Code Ja 8B](https:\u002F\u002Fhuggingface.co\u002Ffuture-architect\u002FLlama-3.1-Future-Code-Ja-8B) | コーディング | Llama 3.1\u003Cbr>(**8b**) | フューチャー | Llama 3.1 Community License |\n| [JPharmatron](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FEQUES\u002Fpharmatron-680a330b4dfce3ac43009984)\u003Cbr>([7B-base](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FJPharmatron-7B-base), [7B](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FJPharmatron-7B)) | 薬学 | Qwen2.5 (**7b**) | EQUES Inc. | CC BY-SA 4.0 |\n| [ELYZA-japanese-CodeLlama-7b](https:\u002F\u002Fnote.com\u002Felyza\u002Fn\u002Fn5bce23d7c9c8)\u003Cbr>([7b](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-CodeLlama-7b), [7b-instruct](https:\u002F\u002Fhuggingface.co\u002Felyza\u002FELYZA-japanese-CodeLlama-7b-instruct)) | コーディング |  Code Llama\u003Cbr>(**7b**) | ELYZA | Llama 2 Community License |\n| [AIBunCho\u002Fjapanese-novel-gpt-j-6b](https:\u002F\u002Fhuggingface.co\u002FAIBunCho\u002Fjapanese-novel-gpt-j-6b) | 物語生成 | GPT-J (**6b**) | 個人 ([大曽根宏幸](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=6ID5K3oAAAAJ)) | CreativeML OpenRAIL-M License |\n| [NovelAI\u002Fgenji-jp](https:\u002F\u002Fhuggingface.co\u002FNovelAI\u002Fgenji-jp) | 物語生成 | GPT-J (**6b**) | NovelAI |  ？  |\n\n\u003Ca id=\"instruction-only-models\">\u003C\u002Fa>\n\n\n### 海外モデルに日本語で事後学習を行ったモデル（継続事前学習なし、または詳細不明）\n\n\u003Ca id=\"generative-instruction-only-general\">\u003C\u002Fa>\n#### 普遍\n\n|    | 基础大模型  | 训练文本 | 开发方  | 许可证 \u002F 使用条款 |\n|:---|:---:|:---:|:---:|:---:|\n| [Rakuten AI 3.0](https:\u002F\u002Fcorp.rakuten.co.jp\u002Fnews\u002Fpress\u002F2026\u002F0317_01.html)\u003Cbr>([RakutenAI-3.0](https:\u002F\u002Fhuggingface.co\u002FRakuten\u002FRakutenAI-3.0)) | DeepSeek-V3 (**671b**) [^24] | 不明 | 楽天 | Apache 2.0 |\n| [Llama 3.1 Shisa V2 405B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2-405b-ja-pr\u002F)\u003Cbr>([**405b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-llama3.1-405b)) | Llama 3.1 (**405b**) | 高质量的日语数据集进行SFT\u002FDPO | Shisa.AI | Llama 3.1 Community License |\n| [AXCXEPT\u002FEZO-Qwen2.5-72B-Instruct](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Qwen2.5-72B-Instruct)\u003Cbr>[AXCXEPT\u002FEZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-AutoCoTRAG-Qwen2.5-72B-Instruct_q4) | Qwen2.5 (**72b**) || Axcxept | Qwen License |\n| [ao-Karasu](https:\u002F\u002Fnote.com\u002Flightblue_tech\u002Fn\u002Fnfda12435b262)\u003Cbr>([72B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fao-karasu-72B)) | Qwen1.5 (**72b**) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 日本的公开技术博客, 新闻文章, QA网站的回答, 自有的数据集 | Lightblue |  Tongyi Qianwen LICENSE (?)[^12] |\n| [Shisa V2.1 70B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**70b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-llama3.3-70b)) | Llama 3.3 (**70b**) | 结合SFT\u002FDPO\u002F强化学习\u002F模型融合的训练 | Shisa.AI | Llama 3.3 Community License |\n| [shisa-ai\u002Fshisa-v2-llama3.3-70b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-llama3.3-70b) | Llama 3.3 (**70b**) || Shisa.AI | Llama 3.3 Community License |\n| [AXCXEPT\u002FLlama-3.1-70B-EZO-1.1-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FLlama-3.1-70B-EZO-1.1-it) | Llama 3.1 (**70b**) || Axcxept | Llama 3.1 Community License |\n| [Llama 3 shisa-v1-llama3-70b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v1-llama3-70b)\u003Cbr>([70b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v1-llama3-70b)) | Llama 3 (**70b**) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)[^12] |\n| [AIgroup-CVM-utokyohospital\u002FLlama-2-70b-chat-4bit-japanese](https:\u002F\u002Fhuggingface.co\u002FAIgroup-CVM-utokyohospital\u002FLlama-2-70b-chat-4bit-japanese) | Llama 2 (**70b**) || 东京大学医学部附属医院 循环内科 AI小组 | Llama 2 Community License |\n| [doshisha-mil\u002Fllama-2-70b-chat-4bit-japanese-v1](https:\u002F\u002Fhuggingface.co\u002Fdoshisha-mil\u002Fllama-2-70b-chat-4bit-japanese-v1) | Llama 2 (**70b**) || 同志社大学 媒体信息学研究室 | ？ |\n| [cyberagent\u002FDeepSeek-R1-Distill-Qwen-32B-Japanese](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002FDeepSeek-R1-Distill-Qwen-32B-Japanese) | DeepSeek-R1-Distill-Qwen (**32b**) || サイバーエージェント | MIT |\n| [Flux-Japanese-Qwen2.5-32B-Instruct-V1.0](https:\u002F\u002Fflux.jp\u002Fnews\u002F1093\u002F)\u003Cbr>([V1.0](https:\u002F\u002Fhuggingface.co\u002Fflux-inc\u002FFlux-Japanese-Qwen2.5-32B-Instruct-V1.0)) | Qwen2.5-32B-Instruct (**32b**) | 精准调优：精准定位日语知识、推理及语言能力相关参数，仅对其中5%的参数进行调整。随后创建三个专业模型，并通过精准合并整合为一个整体 | FLUX | Apache 2.0 |\n| [karakuri-ai\u002Fkarakuri-lm-32b-thinking-2501-exp](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-lm-32b-thinking-2501-exp) | QwQ (**32b**) || カラクリ | Apache 2.0 |\n| [shisa-ai\u002Fshisa-v2-qwen2.5-32b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-qwen2.5-32b) | Qwen2.5 (**32b**) || Shisa.AI | Apache 2.0 |\n| [AXCXEPT\u002FEZO-Qwen2.5-32B-Instruct](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Qwen2.5-32B-Instruct)\u003Cbr>[AXCXEPT\u002FEZO-AutoCoTRAG-Qwen2.5-32B-Instruct](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-AutoCoTRAG-Qwen2.5-32B-Instruct) | Qwen2.5 (**32b**) || Axcxept | Apache 2.0 |\n| [cyberagent\u002FDeepSeek-R1-Distill-Qwen-14B-Japanese](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002FDeepSeek-R1-Distill-Qwen-14B-Japanese) | DeepSeek-R1-Distill-Qwen (**14b**) || サイバーエージェント | MIT |\n| [Shisa V2.1 14B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**14b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-unphi4-14b)) | Phi-4 (**14b**) | 结合SFT\u002FDPO\u002F强化学习\u002F模型融合的训练 | Shisa.AI | MIT |\n| [shisa-ai\u002Fshisa-v2-unphi4-14b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-unphi4-14b) | Phi-4 (**14b**) || Shisa.AI | MIT |\n| [EZO-Phi-4](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FAXCXEPT\u002Fezo-phi-4-678a461c325df99089b387f3)\u003Cbr>([phi-4-open-R1-Distill-EZOv1](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fphi-4-open-R1-Distill-EZOv1), [phi-4-deepseek-R1K-RL-EZO](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002Fphi-4-deepseek-R1K-RL-EZO)) | Phi-4 (**14b**) || Axcxept | MIT |\n| [Qarasu](https:\u002F\u002Fwww.lightblue-tech.com\u002F2024\u002F01\u002F15\u002F20240115_news\u002F)\u003Cbr>([14B-chat-plus-unleashed](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fqarasu-14B-chat-plus-unleashed)) | Qwen (**14b**) | ultra-orca-boros-en-ja-v1, OASST1, ShareGPT, 自有数据集 | Lightblue | Tongyi Qianwen LICENSE (?)[^12] |\n| [Sparticle\u002Fllama-2-13b-chat-japanese-lora](https:\u002F\u002Fhuggingface.co\u002FSparticle\u002Fllama-2-13b-chat-japanese-lora) | Llama 2 (**13b**) || Sparticle | ？ |\n| [izumi-lab\u002Fllama-13b-japanese-lora-v0-1ep](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fllama-13b-japanese-lora-v0-1ep) | Llama (**13b**) || 东大 和泉研 |  ？ |\n| [shisa-ai\u002Fshisa-v2-mistral-nemo-12b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-mistral-nemo-12b) | Mistral NeMo (**12b**) || Shisa.AI | Apache 2.0 |\n| [AXCXEPT\u002FEZO-Common-9B-gemma-2-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Common-9B-gemma-2-it) | Gemma 2 (**9b**) || Axcxept | Gemma Terms of Use |\n| [AXCXEPT\u002FEZO-Humanities-9B-gemma-2-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Humanities-9B-gemma-2-it) | Gemma 2 (**9b**) || Axcxept | Gemma Terms of Use |\n| [Shisa V2.1 8B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**8b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-qwen3-8b)) | Qwen3 (**8b**) | 结合SFT\u002FDPO\u002F强化学习\u002F模型融合的训练 | Shisa.AI | Apache 2.0 |\n| [AXCXEPT\u002FQwen3-EZO-8B-beta](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FQwen3-EZO-8B-beta) | Qwen3 (**8b**) | 采用Deep-Think技术实现高性能推理 | Axcxept | Apache 2.0 |\n| [shisa-ai\u002Fshisa-v2-llama3.1-8b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-llama3.1-8b) | Llama 3.1 (**8b**) || Shisa.AI | Llama 3.1 Community License |\n| [AXCXEPT\u002FLlama-3.1-8B-EZO-1.1-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FLlama-3.1-8B-EZO-1.1-it) | Llama 3.1 (**8b**) || Axcxept | Llama 3.1 Community License |\n| [Llama 3 Suzume 8B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fsuzume-llama-3-8B-japanese)\u003Cbr>([8B-japanese](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fsuzume-llama-3-8B-japanese), [8B-japanese-gguf](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fsuzume-llama-3-8B-japanese-gguf)) | Llama 3 (**8b**) | megagonlabs\u002Finstruction_ja, ShareGPT, 自有数据集 | Lightblue | Llama 3 Community License (?)[^12] |\n| [Llama 3 shisa-v1-llama3-8b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v1-llama3-8b)\u003Cbr>([8b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v1-llama3-8b)) | Llama 3 (**8b**) | ultra-orca-boros-en-ja-v1 | Shisa.AI | Llama 3 Community License (?)[^12] |\n| [AXCXEPT\u002FLlama-3-EZO-8b-Common-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FLlama-3-EZO-8b-Common-it) | Llama 3 (**8b**) || Axcxept | Llama 3 Community License |\n| [lightblue\u002FDeepSeek-R1-Distill-Qwen-7B-Japanese](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002FDeepSeek-R1-Distill-Qwen-7B-Japanese) | DeepSeek-R1-Distill-Qwen (**7b**) || Lightblue | Apache 2.0 |\n| [ABEJA-Qwen2.5-7b-Japanese-v0.1](https:\u002F\u002Ftech-blog.abeja.asia\u002Fentry\u002Fgeniac2-qwen25-7b-v0.1)\u003Cbr>([v0.1](https:\u002F\u002Fhuggingface.co\u002Fabeja\u002FABEJA-Qwen2.5-7b-Japanese-v0.1)) | Qwen 2.5 (**7b**) || ABEJA | Apache 2.0 |\n| [shisa-ai\u002Fshisa-v2-qwen2.5-7b](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2-qwen2.5-7b) | Qwen 2.5 (**7b**) || Shisa.AI | Apache 2.0 |\n| [Karasu DPO](https:\u002F\u002Fnote.com\u002Flightblue_tech\u002Fn\u002Fn6967ff462f4a)\u003Cbr>([7B](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002FKarasu-DPO-7B)) | Qwen 2.5 (**7b**) || Lightblue | Apache 2.0 |\n| [ganchengguang\u002FYoko-7B-Japanese-v1](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FYoko-7B-Japanese-v1) | Llama 2 (**7b**) || 横滨国立大学 森研 |  ？  |\n| [Sparticle\u002Fllama-2-7b-chat-japanese-lora](https:\u002F\u002Fhuggingface.co\u002FSparticle\u002Fllama-2-7b-chat-japanese-lora) | Llama 2 (**7b**) || Sparticle |  ？  |\n| [izumi-lab\u002Fllama-7b-japanese-lora-v0-5ep](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fllama-7b-japanese-lora-v0-5ep) | Llama (**7b**) || 东大 和泉研 |  ？  |\n| [lightblue\u002Fjod](https:\u002F\u002Fhuggingface.co\u002Flightblue\u002Fjod) | Mistral-7B-SlimOrca (**7b**) || Lightblue | Apache 2.0 |\n| [NTQAI\u002Fchatntq-7b-jpntuned](https:\u002F\u002Fhuggingface.co\u002FNTQAI\u002Fchatntq-7b-jpntuned) | RWKV-4 World (**7b**) || NTQ Solution |  ？  |\n| [Qwen3.5-FT-Japanese-CoT-4B](https:\u002F\u002Fhuggingface.co\u002FAname-Tommy\u002FQwen3.5-FT-Japanese-CoT-4B) | Qwen3.5 (**4b**) | 不明 | 个人 (Aname-Tommy) | MIT |\n| [Borea](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000008.000129878.html)\u003Cbr>([Jp](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FBorea-Phi-3.5-mini-Instruct-Jp), [Common](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FBorea-Phi-3.5-mini-Instruct-Common), [Coding](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FBorea-Phi-3.5-mini-Instruct-Coding)) | Phi-3.5 (**3.8b**) | | Axcxept | MIT |\n| [Shisa V2.1 3B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**3b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-llama3.2-3b)) | Llama 3.2 (**3b**) | 结合SFT\u002FDPO\u002F强化学习\u002F模型融合的训练 | Shisa.AI | Llama 3.2 Community License |\n| [AXCXEPT\u002FEZO-Llama-3.2-3B-Instruct-dpoE](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Llama-3.2-3B-Instruct-dpoE) | Llama 3.2 (**3b**) || Axcxept | Llama 3.2 Community License |\n| [日本語版 Gemma 2 2B](https:\u002F\u002Fdevelopers-jp.googleblog.com\u002F2024\u002F10\u002Fgemma-2-for-japan.html)\u003Cbr>([2b-jpn-it](https:\u002F\u002Fhuggingface.co\u002Fgoogle\u002Fgemma-2-2b-jpn-it)) | Gemma 2 (**2b**) || Google | Gemma Terms of Use |\n| [AXCXEPT\u002FEZO-gemma-2-2b-jpn-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-gemma-2-2b-jpn-it) | Gemma 2 (**2b**) || Axcxept | Gemma Terms of Use |\n| [AXCXEPT\u002FEZO-Common-T2-2B-gemma-2-it](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-Common-T2-2B-gemma-2-it) | Gemma 2 (**2b**) || Axcxept | Gemma Terms of Use |\n| [Shisa V2.1 1.2B](https:\u002F\u002Fshisa.ai\u002Fposts\u002Fshisa-v2.1-ja-pr\u002F)\u003Cbr>([**1.2b**](https:\u002F\u002Fhuggingface.co\u002Fshisa-ai\u002Fshisa-v2.1-lfm2-1.2b)) | LFM2 (**1.2b**) | 结合SFT\u002FDPO\u002F强化学习\u002F模型融合的训练 | Shisa.AI | LFM Open License v1.0 |\n| [LFM2.5-1.2B-JP](https:\u002F\u002Fwww.liquid.ai\u002Fblog\u002Fintroducing-lfm2-5-the-next-generation-of-on-device-ai)\u003Cbr>([1.2B-JP](https:\u002F\u002Fhuggingface.co\u002FLiquidAI\u002FLFM2.5-1.2B-JP)) | LFM2.5 (**1.2b**) | 不明 | Liquid AI | LFM Open License v1.0 |\n| [Qwen3.5-FT-Japanese-CoT-0.8B](https:\u002F\u002Fhuggingface.co\u002FAname-Tommy\u002FQwen3.5-FT-Japanese-CoT-0.8B) | Qwen3.5 (**0.8b**) | 不明 | 个人 (Aname-Tommy) | MIT |\n\n\u003Ca id=\"generative-instruction-only-domain-specific\">\u003C\u002Fa>\n#### 领域专用型\n\n|    | 领域 | 基础LLM  | 开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [JMedLoRA](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2310.10083.pdf)\u003Cbr>([llama2-jmedlora-6.89ep](https:\u002F\u002Fhuggingface.co\u002FAIgroup-CVM-utokyohospital\u002Fllama2-jmedlora-6.89ep)) | 医疗 | Llama 2 (**70b**) | 东京大学医学部附属医院 循环器内科 AI小组 | CC BY-NC 4.0 |\n| [pfnet\u002FQwen3-1.7B-pfn-qfin](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002FQwen3-1.7B-pfn-qfin) | 金融 | Qwen3 (**1.72b**) | Preferred Networks | PLaMo Community License |\n| [pfnet\u002FQwen2.5-1.5B-pfn-qfin](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002FQwen2.5-1.5B-pfn-qfin) | 金融 | Qwen2.5 (**1.54b**) | Preferred Networks | PLaMo Community License |\n\n\u003Ca id=\"merged-models\">\u003C\u002Fa>\n\n\n### 多个LLM合并创建的模型\n\n|    | 合并前的LLM（加粗为日语LLM）  | 开发方  | 许可证 |\n|:---|:---:|:---:|:---:|\n [EQUES\u002FMedLLama3-JP-v2](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FMedLLama3-JP-v2) | **Llama 3 Swallow 8B (Instruct)**, OpenBioLLM-8B, MMed-Llama 3 8B, **Llama 3 ELYZA JP 8B** | EQUES | Llama 3 Community License |\n| [EvoLLM-JP-A](https:\u002F\u002Fsakana.ai\u002Fevolutionary-model-merge-jp\u002F)\u003Cbr>([v1-7B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoLLM-JP-A-v1-7B)) | **Shisa Gamma 7B (v1)**, Arithmo2 Mistral 7B, Abel 7B 002 | Sakana AI | Apache 2.0 |\n| [EvoLLM-JP](https:\u002F\u002Fsakana.ai\u002Fevolutionary-model-merge-jp\u002F)\u003Cbr>([v1-7B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoLLM-JP-v1-7B), [v1-10B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoLLM-JP-v1-10B)) | **Shisa Gamma 7B (v1)**, WizardMath-7B-V1.1, Abel 7B 002 | Sakana AI | MICROSOFT RESEARCH LICENSE |\n| [EQUES\u002FTinyQwens-Merge-1.5B](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002FTinyQwens-Merge-1.5B) | **SakanaAI\u002FTinySwallow-1.5B-Instruct**, **EQUES\u002FTinySwallow-Stratos-1.5B**, deepseek-ai\u002FDeepSeek-R1-Distill-Qwen-1.5B, Qwen\u002FQwen2.5-1.5B-Instruct | EQUES Inc. | Apache 2.0 |\n\n\u003Ca id=\"api-based-models\">\u003C\u002Fa>\n### 作为API提供的模型\n\n|    | 输入输出可处理的\u003Cbr>标记数 | 开发方  | 平台 |\n|:---|:---:|:---:|:---:|\n| [PLaMo API](https:\u002F\u002Fplamo.preferredai.jp\u002Fapi) | 32,768 | Preferred Networks | 自有 |\n| [AIのべりすと](https:\u002F\u002Fai-novel.com\u002Faccount_api.php) | 2,400 ~ 8,192 | Bit192 | 自有 |\n| [LHTM-OPT](https:\u002F\u002Faws.amazon.com\u002Fmarketplace\u002Fpp\u002Fprodview-nw62wpreit442) | | オルツ | AWS Marketplace (SageMaker) |\n| [Syn](https:\u002F\u002Fwww.upstage.ai\u002Fnews\u002Fintroducing-upstage-japan)\u003Cbr>([Syn](https:\u002F\u002Faws.amazon.com\u002Fmarketplace\u002Fpp\u002Fprodview-if7zjxeioy5pg), [Syn Pro](https:\u002F\u002Faws.amazon.com\u002Fmarketplace\u002Fpp\u002Fprodview-d7vt6ap2jhvfg)) | 32,768 | カラクリ, Upstage | AWS Marketplace (SageMaker) |\n| [tsuzumi](https:\u002F\u002Fwww.nttdata.com\u002Fglobal\u002Fja\u002Fnews\u002Ftopics\u002F2024\u002F112000\u002F)\u003Cbr>([tsuzumi-7b](https:\u002F\u002Fai.azure.com\u002Fcatalog\u002Fmodels\u002Ftsuzumi-7b)) | | NTT | Microsoft Foundry |\n\n\u003Ca id=\"autoencoding\">\u003C\u002Fa>\n## 主要用于处理输入文本的模型\n\n\u003Ca id=\"autoencoding-general\">\u003C\u002Fa>\n### 通用\n\n|    |  架构  |  输入可处理的标记数  |  训练文本  |  开发方  |  许可证  | 是否可在HuggingFace上直接使用？ [^4]  |\n|:---|:---:|:---:|:---:|:---:|:---:|:---:|\n| [ModernBERT-Ja](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-310m) | ModernBERT | **8,192** | 日语·英语数据 | SB Intuitions | MIT | ◯ ([30m](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-30m), [70m](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-70m), [130m](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-130m), [310m](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fmodernbert-ja-310m)) |\n| [llm-jp-modernbert](https:\u002F\u002Fllm-jp.nii.ac.jp\u002Fnews\u002Fpost-765\u002F) | ModernBERT | **8,192** | llm-jp-corpus-v4 的日语子集（约**0.69T**标记）| 大规模语言模型研发中心 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-modernbert-base) |\n|  [京大BERT](https:\u002F\u002Fnlp.ist.i.kyoto-u.ac.jp\u002F?ku_bert_japanese)  |  BERT (base, large)  | 512 |  日本维基百科（约1,800万句）  |  京都大学语言媒体研究室  | Apache 2.0 | △ |\n|  [东北大学BERT](https:\u002F\u002Fgithub.com\u002Fcl-tohoku\u002Fbert-japanese)  |  BERT (base, large)  | 512 |  base (v1):\u003Cbr>日本维基百科约1,700万句 (2.6GB)\u003Cbr>base (v2) & large:\u003Cbr>日本维基百科约3,000万句 (4.0GB)\u003Cbr>base (v3) & large (v2):\u003Cbr>日本维基百科约3,400万句 (4.9GB)\u003Cbr>+ 日语 CC-100 约3亿9,200万句 (74.3GB)   |  东北大学\u003Cbr>自然语言处理研究小组 | base (v1, v2) & large: CC BY-SA 3.0\u003Cbr>base (v3) & large (v2): Apache 2.0 |◯ ([base (v1)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-whole-word-masking), [base (v1, 文字级别)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-char-whole-word-masking), [base (v2)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-v2), [base (v2, 文字级别)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-char-v2), [large](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-large-japanese), [large (文字级别)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-large-japanese-char), [base (v3)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-v3), [base (v3, 文字级别)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-base-japanese-char-v3), [large (v2)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-large-japanese-v2), [large (v2, 文字级别)](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbert-large-japanese-char-v2)) |\n| [TohokuNLP BERT-alpha 500M](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Ftohokunlp-bert-500m-sq8192-alpha)  | Llama 基础的编码器[^23] | **4,096**\u003Cbr>或\u003Cbr>**8,192** | [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3) 的日语子集 | 东北大学\u003Cbr>自然语言处理研究小组 | Apache 2.0 | ◯ ([sq4096-alpha](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Ftohokunlp-bert-500m-sq4096-alpha), [sq8192-alpha](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Ftohokunlp-bert-500m-sq8192-alpha)) |\n| [ByBERT-JP](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Ftohoku-nlp\u002Fbybert-jp-68ca50cd4ea72d6d6b348fcd) | Llama 基础的编码器[^23] | 100m, 200m, 400m: 3,072\u003Cbr>v2-100m: **4,096** | [llm-jp-corpus-v3](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-corpus-v3) 的子集\u003Cbr>100m: 623B 标记\u003Cbr>200m: 637B 标记\u003Cbr>400m: 1.23T 标记\u003Cbr>v2-100m: 2.76T 标记 | 东北大学\u003Cbr>自然语言处理研究小组 | Apache 2.0 | ◯ ([100m](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbybert-jp-100m), [200m](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbybert-jp-200m), [400m](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbybert-jp-400m), [v2-100m](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fbybert-jp-v2-100m)) |\n| [NICT BERT](https:\u002F\u002Falaginrc.nict.go.jp\u002Fnict-bert\u002Findex.html)   |  BERT (base)  | 512 |  日本维基百科  |  NICT  | CC BY 4.0 | △ |\n| [Laboro BERT](https:\u002F\u002Fgithub.com\u002Flaboroai\u002FLaboro-BERT-Japanese) | BERT (base, large) | 512 | 日本网络语料库 \u003Cbr> (新闻网站、博客等\u003Cbr>共4,307个网站，2,605,280页 (12GB)) | Laboro.AI | CC BY-NC 4.0 | ✕ |\n| [colorfulscoop BERT](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fbert-base-ja) | BERT (base) | 512 | 日本维基百科 | Colorful Scoop | CC BY-SA 3.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fbert-base-ja) |\n| [东大BERT](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | BERT (small) | 512 | 日本维基百科（约2,000万句 (2.9GB)）| 东京大学和泉实验室 | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fbert-small-japanese) |\n| [chiTra (Sudachi Transformers)](https:\u002F\u002Fwww.worksap.co.jp\u002Fnews\u002F2022\u002F0225\u002F) | BERT (base) | 512 | 国语研日语网络语料库 (NWJC) (148GB) | NINJAL、WorkS 德岛人工智能NLP研究所 | Apache 2.0 | △ |\n| [ACCMS BERT](https:\u002F\u002Fhuggingface.co\u002Fku-accms\u002Fbert-base-japanese-ssuw) | BERT (base) | 512 | 日本维基百科 (3.3GB) | 京都大学 ACCMS | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fku-accms\u002Fbert-base-japanese-ssuw) |\n| [日立BERT](https:\u002F\u002Faclanthology.org\u002F2023.acl-srw.5.pdf) | BERT (base) | 512 | 日本维基百科 \u003Cbr>+ 日本CC-100 | 日立制作所 | CC BY-NC-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fhitachi-nlp\u002Fbert-base-japanese_jumanpp-bpe) [^6] |\n| [RetrievaBERT](https:\u002F\u002Fnote.com\u002Fretrieva\u002Fn\u002Fn715bea2c2cd1) | BERT [^5] | **2,048** | Japanese CommonCrawl、RefinedWeb、中文维基百科、韩文维基百科、The Stack | Retrieva | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Fbert-1.3b) |\n| [万代南梦宫 DistilBERT](https:\u002F\u002Fgithub.com\u002FBandaiNamcoResearchInc\u002FDistilBERT-base-jp\u002Fblob\u002Fmain\u002Fdocs\u002FGUIDE.md) | DistilBERT | 512 | - （以东北大学BERT(base)为教师模型进行知识蒸馏）| Bandai Namco Research | MIT | [◯](https:\u002F\u002Fhuggingface.co\u002Fbandainamco-mirai\u002Fdistilbert-base-japanese) |\n| [Laboro DistilBERT](https:\u002F\u002Fgithub.com\u002Flaboroai\u002FLaboro-DistilBERT-Japanese) | DistilBERT | 512 | - （以Laboro BERT(base)为教师模型进行知识蒸馏）| Laboro.AI | CC BY-NC 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Flaboro-ai\u002Fdistilbert-base-japanese) |\n| [LINE DistilBERT](https:\u002F\u002Fengineering.linecorp.com\u002Fja\u002Fblog\u002Fline-distilbert-high-performance-fast-lightweight-japanese-language-model) | DistilBERT | 512 | - （以LINE公司内部的BERT为教师模型进行知识蒸馏）| LINE | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fline-distilbert-base-japanese) |\n| [rinna RoBERTa](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-roberta-base) | RoBERTa (base) | 512 | 日本维基百科 \u003Cbr>+ 日本CC-100 | rinna | MIT | [◯](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-roberta-base) |\n| [早稻田RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Froberta-base-japanese-with-auto-jumanpp) | RoBERTa (base, large) | 512 | 日本维基百科 \u003Cbr>+ 日本CC-100 | 早稻田大学河原实验室 | CC BY-SA 4.0 | ◯ ([base](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Froberta-base-japanese-with-auto-jumanpp), [large](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Froberta-large-japanese-with-auto-jumanpp), [large (seq512)](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Froberta-large-japanese-seq512-with-auto-jumanpp)) [^7] |\n| [インフォマティクスRoBERTa](https:\u002F\u002Fwww.informatix.co.jp\u002Fpr-roberta\u002F) | RoBERTa (base) | 512 | 日本维基百科\u003Cbr> + 网络文章 (共25GB) | インフォマティクス | Apache 2.0 | △ |\n| [京大RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Froberta-base-japanese-char-wwm) | RoBERTa (base, large) | 512 | 日本维基百科 \u003Cbr>+ 日本CC-100 | 京都大学语言媒体研究室 | CC BY-SA 4.0 | ◯ ([base (文字级别)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Froberta-base-japanese-char-wwm), [large (文字级别)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Froberta-large-japanese-char-wwm)) |\n| [横滨国立大学RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FRoBERTa-base-janpanese) | RoBERTa (base) | 512 | 日本维基百科 (3.45GB) | 横滨国立大学森实验室 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FRoBERTa-base-janpanese) |\n| [Megagon Labs RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fmegagonlabs\u002Froberta-long-japanese) | RoBERTa (base) [^8] | **1,282** | 日本mC4（约2亿句）| Megagon Labs \u003Cbr> (里库特) | MIT | [◯](https:\u002F\u002Fhuggingface.co\u002Fmegagonlabs\u002Froberta-long-japanese)  |\n| [ACCMS RoBERTa](https:\u002F\u002Fhuggingface.co\u002Fku-accms\u002Froberta-base-japanese-ssuw) | RoBERTa (base) | 512 | 日本维基百科 (3.3GB) + 日本CC-100 (70GB) | 京都大学 ACCMS | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fku-accms\u002Froberta-base-japanese-ssuw) |\n| [シナモンELECTRA](https:\u002F\u002Fcinnamon.ai\u002Fideas\u002F20200619_research_001\u002F) | ELECTRA (small) | 512 | 日本维基百科 | シナモン | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002FCinnamon\u002Felectra-small-japanese-discriminator)  |\n| [Megagon Labs ELECTRA](https:\u002F\u002Fwww.recruit.co.jp\u002Fnewsroom\u002Fpressrelease\u002F2021\u002F0826_9293.html) | ELECTRA (base) | 512 | 日本mC4（约2亿句）| Megagon Labs \u003Cbr> (里库特) | MIT | [◯](https:\u002F\u002Fhuggingface.co\u002Fmegagonlabs\u002Felectra-base-japanese-discriminator)  |\n| [东大ELECTRA](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | ELECTRA (small, base) | 512 | 日本维基百科（约2,000万句 (2.9GB)）| 东京大学和泉实验室 | CC BY-SA 4.0 | ◯ ([small](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Felectra-small-japanese-discriminator), [base](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Felectra-base-japanese-discriminator)) |\n| [日本RoFormer](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FRoformer-base-japanese) | RoFormer (base) | 512 | 日本维基百科 (3.45GB) | 横滨国立大学森实验室 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fganchengguang\u002FRoformer-base-japanese) |\n| [日本LUKE](https:\u002F\u002Fwww.ousia.jp\u002Fnews\u002Fluke-japanese) | LUKE (base, large) | 512 | 日本维基百科 | Studio Ousia | Apache 2.0 | ◯ ([base](https:\u002F\u002Fhuggingface.co\u002Fstudio-ousia\u002Fluke-japanese-base-lite), [large](https:\u002F\u002Fhuggingface.co\u002Fstudio-ousia\u002Fluke-japanese-large-lite)) |\n| [京大DeBERTaV2](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-base-japanese) | DeBERTaV2 (tiny, base, large) | 512 | 日本维基百科 \u003Cbr> + 日本CC-100 \u003Cbr> + 日本OSCAR\u003Cbr>（共171GB）| 京都大学语言媒体研究室 | CC BY-SA 4.0 | ◯ ([tiny](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-tiny-japanese), [tiny (文字级别)](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-tiny-japanese-char-wwm), [base](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-base-japanese), [large](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v2-large-japanese)) |\n| [京大DeBERTaV3](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v3-base-japanese) | DeBERTaV3 (base) | 512 | [llm-jp-corpus](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-corpus) | 京都大学语言媒体研究室 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fku-nlp\u002Fdeberta-v3-base-japanese) |\n| [东大DeBERTaV2](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | DeBERTaV2 (small, base) | 512 | 日本维基百科、日本维基新闻、日本CC-100、日本mC4、日本OSCAR | 东京大学和泉实验室 | CC BY-SA 4.0 | ◯ ([small](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fdeberta-v2-small-japanese), [base](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fdeberta-v2-base-japanese)) |\n| [GLOBIS DeBERTaV3](https:\u002F\u002Fqiita.com\u002Fakeyhero\u002Fitems\u002Fd7c215ceac37b7d3290a) | DeBERTaV3 (xsmall, base, large) | 512 | 维基百科、维基教科书、青空文库、日本CC-100、日本mC4、日本OSCAR | GLOBIS | CC BY-SA 4.0 | ◯ ([xsmall](https:\u002F\u002Fhuggingface.co\u002Fglobis-university\u002Fdeberta-v3-japanese-xsmall), [base](https:\u002F\u002Fhuggingface.co\u002Fglobis-university\u002Fdeberta-v3-japanese-base), [large](https:\u002F\u002Fhuggingface.co\u002Fglobis-university\u002Fdeberta-v3-japanese-large)) |\n| [日本BigBird](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fbigbird-base-japanese) | BigBird (base) | **4,096** | 日本维基百科 \u003Cbr> + 日本CC-100 \u003Cbr> + 日本OSCAR | 早稻田大学河原实验室 | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fnlp-waseda\u002Fbigbird-base-japanese) |\n| [日本LayoutLM](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2023\u002Fpdf_dir\u002FQ2-7.pdf) | LayoutLM (base) | 512 | 在以东北大学BERT (base, v2) 的权重进行初始化后，利用日本维基百科的文本和布局进行预训练 | 日本综合研究所 | CC BY-SA 3.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fjri-advtechlab\u002Flayoutlm-wikipedia-ja) |\n\n\u003Ca id=\"autoencoding-domain-specific\">\u003C\u002Fa>\n\n\n### 领域专用\n\n|    |  领域  |  架构  |  训练文本  |  开发者  | 许可协议 | HuggingFace 是否可直接使用？  |\n|:---|:---:|:---:|:---:|:---:|:---:|:---:|\n| [日语博客ELECTRA](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2022\u002Fpdf_dir\u002FE2-5.pdf) | 口语 | ELECTRA (small) | 日语博客语料库（3.54亿句） | 北见工业大学 桝井·普塔辛斯基研究组 | CC BY-SA 4.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fptaszynski\u002Fyacis-electra-small-japanese)  |\n| [日语口语BERT](https:\u002F\u002Fretrieva-tech.hatenablog.com\u002Fentry\u002F2021\u002F04\u002F01\u002F114943) | 口语 | BERT (base) | 在东北大学BERT的基础上，使用日语口语语料库（CSJ）进行额外训练\u003Cbr>（DAPT模型还使用了国会会议记录数据） | Retrieva | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Fjapanese-spoken-language-bert) |\n| [AcademicRoBERTa](https:\u002F\u002Fgithub.com\u002FEhimeNLP\u002FAcademicRoBERTa) | 学术 | RoBERTa (base) | CiNii 的日语论文 (约628万句) | 爱媛大学人工智能研究室 | Apache 2.0 | [◯](https:\u002F\u002Fhuggingface.co\u002FEhimeNLP\u002FAcademicRoBERTa) |\n| [local-politics-BERT](http:\u002F\u002Flocal-politics.jp\u002F%e5%85%ac%e9%96%8b%e7%89%a9\u002Flocal-politics-bert\u002F) | 政治 | BERT (base) | Wikipedia、国会会议记录、地方议会会议记录 | 地方议会会议记录语料库项目 | CC BY-SA 4.0 | ◯ ([SC-min](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-scratch), [SC-minwiki](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-wikipedia-scratch), [SC-2M-wiki](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-wikipedia-scratch-2m), [SC-2M-min](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-scratch-2m), [SC-2M-minwiki](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-wikipedia-scratch-2m), [FP-min](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-further), [FP-minwiki](https:\u002F\u002Fhuggingface.co\u002Flocal-politics-jp\u002Fbert-base-japanese-minutes-wikipedia-further)) [^18] |\n| [UBKE-LUKE](https:\u002F\u002Ftech.uzabase.com\u002Fentry\u002F2024\u002F12\u002F24\u002F173942) | 经济 | LUKE (base) | 日本语Wikipedia、有价证券报告书、经济新闻文章 | UZABASE | CC BY-NC | [◯](https:\u002F\u002Fhuggingface.co\u002Fuzabase\u002FUBKE-LUKE) |\n| [日语金融BERT](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | 金融 | BERT (small, base) [^9] | 日本语Wikipedia\u003Cbr> + 日本语金融语料库（约2,700万句 (5.2GB)） | 东京大学和泉研究组 | CC BY-SA 4.0 |◯ ([small](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fbert-small-japanese-fin), [base](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Fbert-base-japanese-fin-additional)) |\n| [日语金融ELECTRA](https:\u002F\u002Fsites.google.com\u002Fsocsim.org\u002Fizumi-lab\u002Ftools\u002Flanguage-model) | 金融 | ELECTRA (small) | 日本语Wikipedia（约2,000万句 (2.9GB)) \u003Cbr> + 日本语金融语料库（约2,700万句 (5.2GB)） | 东京大学和泉研究组 | CC BY-SA 4.0 |  [◯](https:\u002F\u002Fhuggingface.co\u002Fizumi-lab\u002Felectra-small-japanese-fin-discriminator)  |\n| [日语新闻BERT](https:\u002F\u002Fqiita.com\u002Fmkt3\u002Fitems\u002F3c1278339ff1bcc0187f) | 商业 | BERT (base) | 日本语商业新闻文章(300万篇) | StockMark | CC BY 4.0 | △ |\n| [日语新闻XLNet](https:\u002F\u002Fqiita.com\u002Fmkt3\u002Fitems\u002F4d0ae36f3f212aee8002) | 商业  | XLNet (base) | 日本语商业新闻文章(300万篇) | StockMark | ？ | ※ 有非官方的HuggingFace适配模型[已发布](https:\u002F\u002Fhuggingface.co\u002Fhajime9652\u002Fxlnet-japanese) |\n| [日语新闻ALBERT](https:\u002F\u002Fqiita.com\u002Fmkt3\u002Fitems\u002Fb41dcf0185e5873f5f75) | 商业  | ALBERT (base) | 日本语商业新闻文章(300万篇) | StockMark | ？ | △ |\n| [民博BERT](https:\u002F\u002Fproceedings-of-deim.github.io\u002FDEIM2022\u002Fpapers\u002FF43-4.pdf) | 文化遗产 | BERT (base) | 在东北大学BERT的基础上，使用国立民族学博物馆的文化遗产数据进行额外训练 | 兵库县立大学 大岛研究组 | MIT | ◯ ([minpaku-v1](https:\u002F\u002Fhuggingface.co\u002Fohshimalab\u002Fbert-base-minpaku-v1), [minpaku-v3](https:\u002F\u002Fhuggingface.co\u002Fohshimalab\u002Fbert-base-minpaku-v3), [minpaku-v3-no-additional-token](https:\u002F\u002Fhuggingface.co\u002Fohshimalab\u002Fbert-base-minpaku-v3-no-additional-token)) |\n| [JPharmaBERT](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002Fjpharma-bert-base) | 药学 | BERT (base, large) | 日本语药学文献 (2B tokens)\u003Cbr>+ PubMed英文摘要 (8B tokens)\u003Cbr>+ 药学相关多语言数据 (1.2B tokens) | EQUES | 不明 | ◯ ([base](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002Fjpharma-bert-base), [large](https:\u002F\u002Fhuggingface.co\u002FEQUES\u002Fjpharma-bert-large)) |\n| [medBERTjp](https:\u002F\u002Fgithub.com\u002Fou-medinfo\u002Fmedbertjp) | 医疗 | BERT (base) | 日本语Wikipedia \u003Cbr> + 日本语医疗语料库（《今日的诊疗Premium》网络版） | 大阪大学医院 \u003Cbr> 医疗信息学研究室 | CC BY-NC-SA 4.0 | △ |\n| [JMedRoBERTa](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2023\u002Fpdf_dir\u002FP3-1.pdf) | 医疗 | RoBERTa (base) | 日本语医学论文 (约1,100万句 (1.8GB)) | NII 相泽研究组 | CC BY-NC-SA 4.0 | ◯ ([万病WordPiece](https:\u002F\u002Fhuggingface.co\u002Falabnii\u002Fjmedroberta-base-manbyo-wordpiece), [SentencePiece](https:\u002F\u002Fhuggingface.co\u002Falabnii\u002Fjmedroberta-base-sentencepiece)) [^10] |\n\n\u003Ca id=\"embeddings\">\u003C\u002Fa>\n## 专注于嵌入（Embeddings）生成的模型 [^21]\n\n### 双编码器\n\n#### 单表示双编码器\n\n|    | 输入可处理的标记数 | 开发方  |  许可证 |\n|:---|:---:|:---:|:---:|\n| [Ruri-v3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002Fcl-nagoya\u002Fruri-v3-67f382536e80902074ec6252)\u003Cbr>([v3-30m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-30m), [v3-70m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-70m), [v3-130m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-130m), [v3-310m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-310m)) | 8,192 | 名大 笹野研 | Apache 2.0 |\n| [PLaMo-Embedding-1B](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-embedding-1b\u002F)\u003Cbr>([1b](https:\u002F\u002Fhuggingface.co\u002Fpfnet\u002Fplamo-embedding-1b)) | 4,096 | Preferred Networks | Apache 2.0 |\n| [Sarashina-Embedding-v2](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2025\u002F08\u002F20\u002F160139)\u003Cbr>([v2-1b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina-embedding-v2-1b)) | 8,192 | SB Intuitions | Sarashina Model NonCommercial License |\n| [sbintuitions\u002Fsarashina-embedding-v1-1b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina-embedding-v1-1b) | 8,192 | SB Intuitions | Sarashina Model NonCommercial License |\n| [AMBER](https:\u002F\u002Fretrieva.jp\u002Fnews\u002FENCTPk6I)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Famber-base), [large](https:\u002F\u002Fhuggingface.co\u002Fretrieva-jp\u002Famber-large)) | 512 | レトリバ | Apache 2.0 |\n| [RoSEtta](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000169.000022705.html)\u003Cbr>([base-ja](https:\u002F\u002Fhuggingface.co\u002Fpkshatech\u002FRoSEtta-base-ja)) | 1,024 | PKSHA Technology | Apache 2.0 |\n| [GLuCoSE v2](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000169.000022705.html)\u003Cbr>([base-ja-v2](https:\u002F\u002Fhuggingface.co\u002Fpkshatech\u002FGLuCoSE-base-ja-v2)) | 512 | PKSHA Technology | Apache 2.0 |\n| [Ruri](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07737)\u003Cbr>([small](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-small), [base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-base), [large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-large), [small-v2](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-small-v2), [base-v2](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-base-v2), [large-v2](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-large-v2)) | 512 | 名大 笹野研 | Apache 2.0 |\n| [Japanese SimCSE](https:\u002F\u002Fgithub.com\u002FhppRC\u002Fsimple-simcse-ja)\u003Cbr>([unsup-simcse-ja-base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Funsup-simcse-ja-base), [unsup-simcse-ja-large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Funsup-simcse-ja-large), [sup-simcse-ja-base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fsup-simcse-ja-base), [sup-simcse-ja-large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fsup-simcse-ja-large)) | 512 | 名大 笹野研 | CC BY-SA 4.0 |\n| [GLuCoSE](https:\u002F\u002Fprtimes.jp\u002Fmain\u002Fhtml\u002Frd\u002Fp\u002F000000123.000022705.html)\u003Cbr>([base-ja](https:\u002F\u002Fhuggingface.co\u002Fpkshatech\u002FGLuCoSE-base-ja)) | 512 | PKSHA Technology | Apache 2.0 |\n| [colorfulscoop\u002Fsbert-base-ja](https:\u002F\u002Fhuggingface.co\u002Fcolorfulscoop\u002Fsbert-base-ja) || Colorful Scoop | CC BY-SA 4.0 |\n| [MU-Kindai\u002FSBERT-JSNLI-base](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FSBERT-JSNLI-base)\u003Cbr>[MU-Kindai\u002FSBERT-JSNLI-large](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FSBERT-JSNLI-large) || 近畿大学 (研究室不明) | ？ |\n| [MU-Kindai\u002FJapanese-SimCSE-BERT-base-unsup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-BERT-base-unsup)\u003Cbr>[MU-Kindai\u002FJapanese-SimCSE-BERT-large-unsup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-BERT-large-unsup)\u003Cbr>[MU-Kindai\u002FJapanese-SimCSE-RoBERTa-base-unsup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-RoBERTa-base-unsup)\u003Cbr>[MU-Kindai\u002FJapanese-SimCSE-BERT-base-sup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-BERT-base-sup)\u003Cbr>[MU-Kindai\u002FJapanese-SimCSE-BERT-large-sup](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-SimCSE-BERT-large-sup) || 近畿大学 (研究室不明) | MIT |\n| [pkshatech\u002Fsimcse-ja-bert-base-clcmlp](https:\u002F\u002Fhuggingface.co\u002Fpkshatech\u002Fsimcse-ja-bert-base-clcmlp) || PKSHA Technology | CC BY-SA 4.0 |\n| [MU-Kindai\u002FJapanese-MixCSE-BERT-base](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-MixCSE-BERT-base)\u003Cbr>[MU-Kindai\u002FJapanese-MixCSE-BERT-large](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-MixCSE-BERT-large) || 近畿大学 (研究室不明) | MIT |\n| [MU-Kindai\u002FJapanese-DiffCSE-BERT-base](https:\u002F\u002Fhuggingface.co\u002FMU-Kindai\u002FJapanese-DiffCSE-BERT-base) || 近畿大学 (研究室不明) | MIT |\n| [bclavie\u002Ffio-base-japanese-v0.1](https:\u002F\u002Fhuggingface.co\u002Fbclavie\u002Ffio-base-japanese-v0.1) || 個人 ([Benjamin Clavié](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=vuMln98AAAAJ)) | |\n| [cl-nagoya\u002Fshioriha-large-pt](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fshioriha-large-pt) || 名大 笹野研 | |\n\n#### 多表示双编码器\n\n|    |  开发方  |  许可证 |\n|:---|:---:|:---:|\n| [JaColBERTv2.5](https:\u002F\u002Fwww.answer.ai\u002Fposts\u002F2024-08-02-jacolbert-v25.html)\u003Cbr>([JaColBERTv2.4](https:\u002F\u002Fhuggingface.co\u002Fanswerdotai\u002FJaColBERTv2.4), [JaColBERTv2.5](https:\u002F\u002Fhuggingface.co\u002Fanswerdotai\u002FJaColBERTv2.5)) | Answer.AI | MIT |\n| [JaColBERTv2](https:\u002F\u002Fhuggingface.co\u002Fbclavie\u002FJaColBERTv2)\u003Cbr>([JaColBERTv2](https:\u002F\u002Fhuggingface.co\u002Fbclavie\u002FJaColBERTv2)) | 個人 ([Benjamin Clavié](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=vuMln98AAAAJ)) | MIT |\n| [JaColBERT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2312.16144.pdf)\u003Cbr>([JaColBERT](https:\u002F\u002Fhuggingface.co\u002Fbclavie\u002FJaColBERT)) | 個人 ([Benjamin Clavié](https:\u002F\u002Fscholar.google.com\u002Fcitations?user=vuMln98AAAAJ)) | MIT |\n\n### 交叉编码器\n\n|    |  开发方  |  许可证 |\n|:---|:---:|:---:|\n| [Ruri-v3 Reranker](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-reranker-310m)\u003Cbr>([310m](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-v3-reranker-310m)) | 名大 笹野研 | Apache 2.0 |\n| [Ruri-Reranker](https:\u002F\u002Farxiv.org\u002Fabs\u002F2409.07737)\u003Cbr>([stage1-small](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-stage1-small), [stage1-base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-stage1-base), [stage1-large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-stage1-large), [small](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-small), [base](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-base), [large](https:\u002F\u002Fhuggingface.co\u002Fcl-nagoya\u002Fruri-reranker-large)) | 名大 笹野研 | Apache 2.0 |\n| [hotchpotch\u002Fjapanese-reranker-cross-encoder-xsmall-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-reranker-cross-encoder-xsmall-v1)\u003Cbr>[hotchpotch\u002Fjapanese-reranker-cross-encoder-small-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-reranker-cross-encoder-small-v1)\u003Cbr>[hotchpotch\u002Fjapanese-reranker-cross-encoder-base-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-reranker-cross-encoder-base-v1)\u003Cbr>[hotchpotch\u002Fjapanese-reranker-cross-encoder-large-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-reranker-cross-encoder-large-v1)\u003Cbr>[hotchpotch\u002Fjapanese-bge-reranker-v2-m3-v1](https:\u002F\u002Fhuggingface.co\u002Fhotchpotch\u002Fjapanese-bge-reranker-v2-m3-v1) | 個人 (舘野祐一) | MIT |\n\n\u003Ca id=\"multimodal\">\u003C\u002Fa>\n## 视觉语言模型\n\n\u003Ca id=\"multimodal-text-generation\">\u003C\u002Fa>\n### 图片+文本生成文本\n\n#### 从零开始训练的模型\n\n##### 通用\n\n|    | 公開年 |  架构 |  学习图像\u002F文本  |  开发方  | 许可证 \u002F 使用条款 |\n|:---|:---:|:---:|:---:|:---:|:---:|\n| [Stockmark-2-VL-100B-beta](https:\u002F\u002Fstockmark-tech.hatenablog.com\u002Fentry\u002F2025\u002F06\u002F03\u002F101007)\u003Cbr>([**100B**-beta](https:\u002F\u002Fhuggingface.co\u002Fstockmark\u002FStockmark-2-VL-100B-beta)) | 2025 | LLaVA-OneVision | 三阶段学习：对齐预训练、字幕扩展、指令推理微调\u003Cbr>合成数据：由Qwen2.5-VL-72B生成 | 斯托克马克 | Qwen许可证 |\n| [Llama-3.1-70B-Instruct-multimodal-JP-Graph](https:\u002F\u002Fjp.ricoh.com\u002Frelease\u002F2025\u002F0610_1)\u003Cbr>([v0.1](https:\u002F\u002Fhuggingface.co\u002Fr-g2-2024\u002FLlama-3.1-70B-Instruct-multimodal-JP-Graph-v0.1)) | 2025 | LLaVA（Llama-3.1-Swallow-70B-Instruct-v0.3 + Qwen2-VL-7B-Instruct） | 专注于图表和图形理解的超过600万张合成视觉数据（文字、饼图、柱状图、流程图等），以及真实数据（与FastLabel合作） | 理光 | Llama 3.1社区许可证 & Gemma使用条款 & Qwen许可证 & MIT & Apache 2.0 |\n| [KARAKURI VL](https:\u002F\u002Fkarakuri.ai\u002Fnews\u002FGENIAC)\u003Cbr>([**32b**-instruct-2507](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-vl-32b-instruct-2507), [**32b**-thinking-2507-exp](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-vl-32b-thinking-2507-exp)) | 2025 | 视觉语言模型（基于Qwen2.5-VL-32B） | 针对日语计算机用途的定制数据集：日语计算机操作记录、日语文档图像问答、视觉信息解读、日语OCR、流程图理解\u003Cbr>三阶段学习：监督微调(SFT) + 模型融合 + 强化学习\u003Cbr>*thinking模型通过思维链(CoT)方法明确推理过程 | 卡拉库里 | Apache 2.0 |\n| [Heron-NVILA](https:\u002F\u002Ftur.ing\u002Fposts\u002FpQLCubIm)\u003Cbr>([1B](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FHeron-NVILA-Lite-1B), [2B](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FHeron-NVILA-Lite-2B), [15B](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FHeron-NVILA-Lite-15B), [33B](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002FHeron-NVILA-Lite-33B)) | 2025 | NVILA | 三阶段学习：对齐（558k日语图像文本对 + 595k LLaVA预训练数据）、预训练（MOMIJI 13M、日语图像文本对6M、日语交错数据2M、coyo-700m 6M、mmc4-core 4M、Wikipedia-ja、LLaVA-Pretrain-JA、STAIR字幕）、有监督微调（LLaVA-instruct-v1.5-en、LLaVA-instruct-ja、日语照片对话、JA-VG-VQA对话、SynthDog-ja、AI2D、SynthDog-en、Sherlock） | 图灵 | Apache 2.0 & OpenAI使用条款 |\n| [NABLA-VL](https:\u002F\u002Fnote.com\u002Fnablas\u002Fn\u002Fn86298d28cdea)\u003Cbr>([15B](https:\u002F\u002Fhuggingface.co\u002Fnablasinc\u002FNABLA-VL)) | 2025 | microsoft\u002Fphi-4 + HuggingFaceM4\u002Fsiglip-so400m-14-980-flash-attn2-navit | 支持单张图片、多张图片及视频输入。训练细节不明 | NABLAS | Apache 2.0 |\n| [Sarashina2-Vision](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2025\u002F03\u002F17\u002F111659)\u003Cbr>([8b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-vision-8b), [14b](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2-vision-14b)) | 2025 | Sarashina2 + Qwen2-VL + 两层MLP | 三阶段学习：投影仪预热（LLaVA-Pretrain 78M英语token）、视觉编码器预训练（CC3M、CC12M、llm-jp-日语图像文本对、内部OCR数据集、内部图表字幕合成数据集 3.8B日语+7.7B英语token）、视觉指令微调（Japanese Visual Genome VQA、OCR-VQA、TextVQA、PlotQA、CLEVR翻译版、DOCCI翻译版、内部数据集 2.5B日语+1.0B英语token） | SB Intuitions | MIT |\n| [Asagi](https:\u002F\u002Fuehara-mech.github.io\u002Fasagi-vlm?v=1)\u003Cbr>([2B](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FAsagi-2B), [4B](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FAsagi-4B), [8B](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FAsagi-8B), [14B](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FAsagi-14B)) | 2025 | LLaVA | 新爬取的日语网站图片、现有日语数据集以及英语数据集的日语翻译约2000万条（使用English VLM Phi-3.5-vision-instruct和Japanese LLM CALM3-22B-Chat进行数据合成） | 东大原田研究组 | Apache 2.0 |\n| [llava-calm2-siglip](https:\u002F\u002Fwww.cyberagent.co.jp\u002Fnews\u002Fdetail\u002Fid=30344)\u003Cbr>([llava-calm2-siglip](https:\u002F\u002Fhuggingface.co\u002Fcyberagent\u002Fllava-calm2-siglip)) | 2024 | LLaVA | 由MS-COCO和VisualGenome生成的对话数据 | 赛博艾杰特 | Apache 2.0 |\n| [LLM-jp-3 VILA 14B](https:\u002F\u002Fllmc.nii.ac.jp\u002Ftopics\u002Fllm-jp-3-vila-14b\u002F)\u003Cbr>([14b](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-3-vila-14b)) | 2024 | LLaVA | [日语图像文本对](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-japanese-image-text-pairs)、LLaVA-Pretrain、[日语交错数据](https:\u002F\u002Fgitlab.llm-jp.nii.ac.jp\u002Fdatasets\u002Fllm-jp-japanese-interleaved-data)、coyo（子集）、mmc4-core（子集）、[llava-instruct-ja](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fllava-instruct-ja)、[日语照片对话](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fllm-jp\u002Fjapanese-photos-conversation)、ja-vg-vqa、synthdog-ja、LLaVA-1.5指令数据（子集） | 大规模语言模型研发中心 | Apache 2.0 & OpenAI使用条款 |\n| [Heron](https:\u002F\u002Fgithub.com\u002Fturingmotors\u002Fheron\u002Fblob\u002Fmain\u002Fdocs\u002FREADME_JP.md)\u003Cbr>([blip-ja-stablelm-base-7b-v0](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-blip-ja-stablelm-base-7b-v0), [blip-ja-stablelm-base-7b-v1](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-blip-ja-stablelm-base-7b-v1), [blip-ja-stablelm-base-7b-v1-llava-620k](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-blip-ja-stablelm-base-7b-v1-llava-620k), [git-ja-stablelm-base-7b-v0](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-git-ja-stablelm-base-7b-v0), [git-ELYZA-fast-7b-v0](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-git-ELYZA-fast-7b-v0), [git-ja-stablelm-base-7b-v1](https:\u002F\u002Fhuggingface.co\u002Fturing-motors\u002Fheron-chat-git-ja-stablelm-base-7b-v1)) | 2023 | BLIP-2或GIT | v1：LLaVA-Instruct-150K-JA或LLaVA-Instruct-620K-JA\u003Cbr>v0：LLaVA-Instruct-150K-JA、日本STAIR字幕、日本Visual Genome VQA数据集 | 图灵 | CC BY-NC 4.0 |\n| [Japanese Stable VLM](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-vlm)\u003Cbr>([japanese-stable-vlm](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-vlm)) | 2023 | LLaVA | 日本CC12M、STAIR字幕、日本Visual Genome VQA数据集 | Stability AI | STABILITY AI JAPANESE STABLE VLM COMMUNITY LICENSE |\n| [Japanese InstructBLIP Alpha](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-instructblip-alpha)\u003Cbr>([japanese-instructblip-alpha](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-instructblip-alpha)) | 2023 | InstructBLIP | 日本CC12M、STAIR字幕、日本Visual Genome VQA数据集 | Stability AI | JAPANESE STABLELM RESEARCH LICENSE |\n| [rinna MiniGPT-4](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-minigpt4)\u003Cbr>([bilingual-gpt-neox-4b-minigpt4](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fbilingual-gpt-neox-4b-minigpt4)) | 2023 | MiniGPT-4 | CC12M、COCO 2014、Visual Genome、STAIR字幕、日本Visual Genome VQA数据集 | rinna | MIT |\n| [Sarashina2.2-Vision-3B](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2025\u002F11\u002F25\u002F100000)\u003Cbr>([**3.8b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fsarashina2.2-vision-3b)) | 2025 | Sarashina2.2-3B-Instruct + SigLIP + 两层MLP | 四阶段学习 + 后训练：投影仪预热（英语图像字幕）、视觉编码器预训练（日语图表、OCR、字幕）、全模型预训练（图像文本交错数据）、有监督微调\u003Cbr>后训练：混合偏好优化\u003Cbr>（总计日语103B + 英语157.1B token） | SB Intuitions | MIT |\n\n##### 领域专用\n\n|    |  架构  |  领域 | 开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [Med-Asagi](https:\u002F\u002Fwww.rcast.u-tokyo.ac.jp\u002Fja\u002Fnews\u002Frelease\u002F20260306.html)\u003Cbr>([**14b**-reasoning_beta](https:\u002F\u002Fhuggingface.co\u002FMIL-UT\u002FMed-Asagi-14B-reasoning_beta)) | LLaVA | 医疗 | 东大原田研究组 | CC BY-SA 4.0 |\n| [watashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft-vlm](https:\u002F\u002Fhuggingface.co\u002Fwatashiha\u002FWatashiha-Llama-2-13B-Ogiri-sft-vlm) | LLaVA | 大喜利 | わたしは | Llama 2社区许可证 |\n\n#### 在海外模型基础上用日语进行额外训练的模型\n\n|    |  基础VLM  |  训练图像\u002F文本  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [AXCXEPT\u002FEZO-InternVL2-26B](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FEZO-InternVL2-26B) | InternVL2 | - | 　Axcxept | MIT |\n| [KARAKURI VL 2](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-vl-2-8b-thinking-2603)\u003Cbr>([**8b**-thinking-2603](https:\u002F\u002Fhuggingface.co\u002Fkarakuri-ai\u002Fkarakuri-vl-2-8b-thinking-2603)) | Qwen3-VL-8B-Thinking | 不明 | カラクリ | Apache 2.0 |\n\n#### 多个VLM·LLM合并创建的模型\n\n|    |  合并前的LLM·VLM（加粗为日语LLM）  | 开发方  | 许可证 |\n|:---|:---:|:---:|:---:|\n| [Llama-3-EvoVLM-JP-v2](https:\u002F\u002Fsakana.ai\u002Fevovlm-jp\u002F)\u003Cbr>([v2](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FLlama-3-EvoVLM-JP-v2)) | Mantis-8B-SigLIP-Llama-3, **Llama-3-ELYZA-JP-8B**, Bunny-v1.1-Llama-3-8B-V | Sakana AI | Llama 3 Community License |\n| [AXCXEPT\u002FLlama-3-EZO-VLM-1](https:\u002F\u002Fhuggingface.co\u002FAXCXEPT\u002FLlama-3-EZO-VLM-1) | - (针对Llama-3-EvoVLM-JP-v2进行额外训练) | Axcxept | Llama 3 Community License |\n| [EvoVLM-JP](https:\u002F\u002Fsakana.ai\u002Fevolutionary-model-merge-jp\u002F)\u003Cbr>([v1-7B](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoVLM-JP-v1-7B)) | **Shisa Gamma 7B (v1)**, LLaVA-1.6-Mistral-7B | Sakana AI | Apache 2.0 |\n\n\u003Ca id=\"multimodal-text-to-image\">\u003C\u002Fa>\n\n\n### 文本生成图像\n\n\u003Ca id=\"multimodal-text-to-image-general\">\u003C\u002Fa>\n#### 通用型\n\n|    |  架构  |  训练图像\u002F文本  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [CommonArt β](https:\u002F\u002Fnote.com\u002Faipicasso\u002Fn\u002Fnf17f876839b2)\u003Cbr>([commonart-beta](https:\u002F\u002Fhuggingface.co\u002Faipicasso\u002Fcommonart-beta)) | PixArt-Σ | CommonCatalog-cc-by、Megalith-10M、Smithsonian Open Access、ArtBench（仅CC-0） | AI Picasso | Apache 2.0 |\n| [EvoSDXL-JP](https:\u002F\u002Fsakana.ai\u002Fevosdxl-jp\u002F)\u003Cbr>([v1](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvoSDXL-JP-v1)) | Stable Diffusion | - （包含Japanese Stable Diffusion XL在内的多个图像生成模型合并） | Sakana AI | Apache 2.0[^14] |\n| [Japanese Stable Diffusion XL](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-diffusion-xl)\u003Cbr>([japanese-stable-diffusion-xl](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-diffusion-xl)) | Stable Diffusion | 不明 | Stability AI | STABILITY AI JAPANESE STABLE DIFFUSION XL COMMUNITY LICENSE |\n| [东北大学Stable Diffusion](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fstable-diffusion-xl-jp-base-1.0)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fstable-diffusion-xl-jp-base-1.0), [refiner](https:\u002F\u002Fhuggingface.co\u002Ftohoku-nlp\u002Fstable-diffusion-xl-jp-refiner-1.0)) | Stable Diffusion | WMT2023共享任务的日英双语语料库，以及laion2B-multi约1300万条图片描述 | 东北大学\u003Cbr>自然语言处理研究小组 | CreativeML OpenRAIL-M License |\n| [rinna Stable Diffusion](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-stable-diffusion)\u003Cbr>([japanese-stable-diffusion](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-stable-diffusion)) | Stable Diffusion | LAION-5B数据集中带有日语描述的部分（约1亿张图片）| rinna | CreativeML OpenRAIL-M License |\n\n\u003Ca id=\"multimodal-text-to-image-domain-specific\">\u003C\u002Fa>\n#### 领域专用型\n\n|    |  架构  |  领域  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [Evo-Nishikie](https:\u002F\u002Fsakana.ai\u002Fevo-ukiyoe\u002F)\u003Cbr>([v1](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvo-Nishikie-v1)) | Stable Diffusion (ControlNet) | 浮世绘 | Sakana AI | Apache 2.0[^14] |\n| [Evo-Ukiyoe](https:\u002F\u002Fsakana.ai\u002Fevo-ukiyoe\u002F)\u003Cbr>([v1](https:\u002F\u002Fhuggingface.co\u002FSakanaAI\u002FEvo-Ukiyoe-v1)) | Stable Diffusion | 浮世绘 | Sakana AI | Apache 2.0[^14] |\n\n### 文本生成视频\n\n| | 架构 | 训练数据 | 开发方 | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [AIdeaLab VideoJP](https:\u002F\u002Faidealab.com\u002Fnews\u002FQSvdcQfA)\u003Cbr>([AIdeaLab-VideoJP](https:\u002F\u002Fhuggingface.co\u002Faidealab\u002FAIdeaLab-VideoJP)) | CogVideoX | Pixabay、FineVideo | AIdeaLab | Apache 2.0 |\n\n\u003Ca id=\"multimodal-others\">\u003C\u002Fa>\n### 其他\n\n|    |  架构  |  训练图像\u002F文本  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [llm-jp-clip](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-clip-vit-base-patch16)\u003Cbr>([llm-jp-clip-vit-base-patch16](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-clip-vit-base-patch16), [llm-jp-clip-vit-large-patch14](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-clip-vit-large-patch14)) | CLIP | 翻译了ReLAION-5B英语子集约15亿条描述 | 大规模语言模型研发中心 | Apache 2.0 |\n| [LINE雅虎CLIP](https:\u002F\u002Ftechblog.lycorp.co.jp\u002Fja\u002F20240514b)\u003Cbr>([clip-japanese-base](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fclip-japanese-base), [v2](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fclip-japanese-base-v2)) | CLIP | CommonCrawl、CC12M、YFCC100M\u003Cbr>(v2：约20亿对Common Crawl图像-文本 + 知识蒸馏) | LINE雅虎 | Apache 2.0 |\n| [Recruit CLIP](https:\u002F\u002Fblog.recruit.co.jp\u002Fdata\u002Farticles\u002Fjapanese-clip\u002F)\u003Cbr>([japanese-clip-vit-b-32-roberta-base](https:\u002F\u002Fhuggingface.co\u002Frecruit-jp\u002Fjapanese-clip-vit-b-32-roberta-base)) | CLIP | 翻译了laion2B-multi约1.2亿条描述 | Recruit | CC BY-4.0 |\n| [Japanese Stable CLIP](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-clip-vit-l-16)\u003Cbr>([japanese-stable-clip-vit-l-16](https:\u002F\u002Fhuggingface.co\u002Fstabilityai\u002Fjapanese-stable-clip-vit-l-16)) | SigLIP | 将CC12M的描述翻译成日语，STAIR Captions | Stability AI | STABILITY AI JAPANESE STABLE CLIP COMMUNITY LICENSE |\n| [rinna CLIP](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-clip-vit-b-16)\u003Cbr>([japanese-clip-vit-b-16](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-clip-vit-b-16)) | CLIP | 翻译了CC12M的描述 | rinna | Apache 2.0 |\n| [rinna CLOOB](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-cloob-vit-b-16)\u003Cbr>([japanese-cloob-vit-b-16](https:\u002F\u002Fhuggingface.co\u002Frinna\u002Fjapanese-cloob-vit-b-16)) | CLOOB | 翻译了CC12M的描述 | rinna | Apache 2.0 |\n| [博报堂技术CLIP](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2024\u002Fpdf_dir\u002FB6-5.pdf)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fhakuhodo-tech\u002Fjapanese-clip-vit-h-14-bert-base), [deeper](https:\u002F\u002Fhuggingface.co\u002Fhakuhodo-tech\u002Fjapanese-clip-vit-h-14-bert-deeper), [wider](https:\u002F\u002Fhuggingface.co\u002Fhakuhodo-tech\u002Fjapanese-clip-vit-h-14-bert-wider)) | CLIP | 翻译了laion2B-multi约1.2亿条描述 | 博报堂技术 | CC BY-NC-SA 4.0 |\n\n\u003Ca id=\"speech\">\u003C\u002Fa>\n## 语音语言模型 (Speech-Language Models)\n\n\u003Ca id=\"speech-asr\">\u003C\u002Fa>\n\n### 语音识别\n\n|    |  架构  |  训练语料  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [Nue ASR](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fnue-asr)\u003Cbr>([nue-asr](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fnue-asr)) | Nue ASR\u003Cbr>(HuBERT + LLM) | ReazonSpeech | rinna | Apache 2.0 |\n| [Kotoba-Whisper](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.0)\u003Cbr>([v1.0](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.0), [v1.0-ggml](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.0-ggml), [v1.0-faster](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.0-faster), [v1.1](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v1.1), [bilingual-v1.0](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-bilingual-v1.0), [bilingual-v1.0-ggml](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-bilingual-v1.0-ggml), [bilingual-v1.0-faster](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-bilingual-v1.0-faster), [v2.0](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.0), [v2.0-ggml](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.0-ggml), [v2.0-faster](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.0-faster), [v2.1](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.1), [v2.2](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-whisper-v2.2)) | Distil-Whisper | ReazonSpeech\u003Cbr>(+ 多语言LibriSpeech) | Kotoba Technologies | Apache 2.0 |\n| [ReazonSpeech](https:\u002F\u002Fresearch.reazon.jp\u002Fprojects\u002FReazonSpeech\u002F)\u003Cbr>([espnet-v1](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Freazonspeech-espnet-v1), [espnet-next](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Freazonspeech-espnet-next), [espnet-v2](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Freazonspeech-espnet-v2), [nemo-v2](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Freazonspeech-nemo-v2)) | ESPnet (Conformer-Transducer) 或者 NeMo (FastConformer-RNNT) | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |\n| [Reazon HuBERT ASR](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2-rs35kh)\u003Cbr>([rs35kh](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2-rs35kh), [rs35kh-bpe](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2-rs35kh-bpe)) | HuBERT | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |\n| [Reazon Zipformer ASR](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2-rs35kh)\u003Cbr>([rs35kh](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2-rs35kh), [rs35kh-bpe](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2-rs35kh-bpe)) | Zipformer | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |\n| [Reazon wav2vec 2.0 ASR](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-base-rs35kh)\u003Cbr>([base-rs35kh](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-base-rs35kh), [large-rs35kh](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-large-rs35kh)) | wav2vec 2.0 | ReazonSpeech v2.0 | レアゾン・ホールディングス | Apache 2.0 |\n\n\u003Ca id=\"speech-feature-extraction\">\u003C\u002Fa>\n### 特征提取\n\n|    |  架构  |  训练语料  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [NEST-Ja](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fnest-ja-0.1b)\u003Cbr>([**0.1b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fnest-ja-0.1b), [**0.6b**](https:\u002F\u002Fhuggingface.co\u002Fsbintuitions\u002Fnest-ja-0.6b)) | NEST (FastConformer) | ReazonSpeech v2.0 | SB Intuitions | MIT |\n| [くしなだ](https:\u002F\u002Fwww.aist.go.jp\u002Faist_j\u002Fpress_release\u002Fpr2025\u002Fpr20250310\u002Fpr20250310.html)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fimprt\u002Fkushinada-hubert-base), [large](https:\u002F\u002Fhuggingface.co\u002Fimprt\u002Fkushinada-hubert-large)) | HuBERT | 约6万小时的日语电视广播音频 | 产综研 智能媒体处理研究团队 | Apache 2.0 |\n| [Reazon HuBERT](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2)\u003Cbr>([base-k2](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-hubert-base-k2)) | HuBERT | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |\n| [东大HuBERT](https:\u002F\u002Fhuggingface.co\u002Fsarulab-speech\u002Fhubert-base-jtube)\u003Cbr>([base-jtube](https:\u002F\u002Fhuggingface.co\u002Fsarulab-speech\u002Fhubert-base-jtube)) | HuBERT | JTubeSpeech | 东大 猿渡・高道研 | MIT |\n| [rinna HuBERT](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-hubert-base)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-hubert-base), [large](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-hubert-large)) | HuBERT | ReazonSpeech | rinna | Apache 2.0 |\n| [いざなみ](https:\u002F\u002Fwww.aist.go.jp\u002Faist_j\u002Fpress_release\u002Fpr2025\u002Fpr20250310\u002Fpr20250310.html)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fimprt\u002Fizanami-wav2vec2-base), [large](https:\u002F\u002Fhuggingface.co\u002Fimprt\u002Fizanami-wav2vec2-large)) | wav2vec 2.0 | 约6万小时的日语电视广播音频 | 产综研 智能媒体处理研究团队 | Apache 2.0 |\n| [Reazon wav2vec 2.0](https:\u002F\u002Fresearch.reazon.jp\u002Fblog\u002F2024-10-21-Wav2Vec2-base-release.html)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-base), [large](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-wav2vec2-large)) | wav2vec 2.0 | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |\n| [rinna wav2vec 2.0](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-wav2vec2-base)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-wav2vec2-base)) | wav2vec 2.0 | ReazonSpeech | rinna | Apache 2.0 |\n| [rinna data2vec Audio](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-data2vec-audio-base)\u003Cbr>([base](https:\u002F\u002Fhuggingface.co\u002Fyky-h\u002Fjapanese-data2vec-audio-base)) | data2vec Audio | ReazonSpeech | rinna | Apache 2.0 |\n| [Reazon Zipformer](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2)\u003Cbr>([base-k2](https:\u002F\u002Fhuggingface.co\u002Freazon-research\u002Fjapanese-zipformer-base-k2)) | Zipformer | ReazonSpeech | レアゾン・ホールディングス | Apache 2.0 |\n\n\u003Ca id=\"speech-others\">\u003C\u002Fa>\n### 其他\n\n|    |  架构  |  训练语料  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [LLM-jp-Moshi-v1](https:\u002F\u002Fwww.nii.ac.jp\u002Fnews\u002Frelease\u002F2026\u002F0225.html)\u003Cbr>([llm-jp-moshi-v1](https:\u002F\u002Fhuggingface.co\u002Fllm-jp\u002Fllm-jp-moshi-v1)) | Transformer基础的文本-语音基础模型 (Moshi) | J-CHAT（约69,000小时）, LLM-jp-Zoom1（约1,000小时） | 大规模语言模型研发中心 | Apache 2.0 |\n| [J-Moshi](https:\u002F\u002Fgithub.com\u002Fnu-dialogue\u002Fj-moshi)\u003Cbr>([j-moshi](https:\u002F\u002Fhuggingface.co\u002Fnu-dialogue\u002Fj-moshi), [j-moshi-ext](https:\u002F\u002Fhuggingface.co\u002Fnu-dialogue\u002Fj-moshi-ext)) | Transformer基础的文本-语音基础模型 (Moshi) | 语音对话语料库（J-CHAT, 日本语Callhome, CSJ, 旅行代理店对话语料库, 自有闲聊对话语料库, 自有咨询对话语料库）, 文本对话语料库（日本语PersonaChat, 日本语EmpatheticDialogues, 日本语日常对话语料库, RealPersonaChat） | 名大 东中研 | CC BY-NC 4.0 |\n| [Kotoba-Speech](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-speech-v0.1)\u003Cbr>([v0.1](https:\u002F\u002Fhuggingface.co\u002Fkotoba-tech\u002Fkotoba-speech-v0.1)) | Transformer | 不明 | Kotoba Technologies | Apache 2.0 |\n\n\u003Ca id=\"music\">\u003C\u002Fa>\n## 音乐语言模型 (Music-Language Models)\n\n\u003Ca id=\"music-text-conversion\">\u003C\u002Fa>\n### 音乐-文本间转换\n\n|    |  架构  |  训练语料  |  开发方  | 许可证 |\n|:---|:---:|:---:|:---:|:---:|\n| [Japanese MULAN](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-mulan-base)\u003Cbr>([japanese-mulan-base](https:\u002F\u002Fhuggingface.co\u002Fline-corporation\u002Fjapanese-mulan-base)) | MULAN (AST + GLuCoSE) | 约2万个公司内部音乐-文本配对 | LINEヤフー | Apache 2.0 |\n\n\u003Ca id=\"benchmark-suites\">\u003C\u002Fa>\n## 日语LLM评估基准\u002F数据集汇总\n\n\u003Ca id=\"hybrid-benchmark-suites\">\u003C\u002Fa>\n\n### 复合型基准测试\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [Nejumi LLM排行榜4](https:\u002F\u002Fwandb.ai\u002Fllm-leaderboard\u002Fnejumi-leaderboard4\u002Freports\u002FNejumi-LLM-4--VmlldzoxMzc1OTk1MA) | 从应用程序开发（编码·函数调用）、推理能力（数学、逻辑与抽象推理）、专业知识、安全性评估（指令遵循·幻觉抑制）等多个角度综合评估大型语言模型的日语能力。通过引入高难度基准测试，进一步明确了顶级模型之间的性能差异。详情请参阅[这篇文章](https:\u002F\u002Fnote.com\u002Fwandb_jp\u002Fn\u002Fncfd9d23221b3) | Weights & Biases |\n| [Swallow LLM排行榜v2](https:\u002F\u002Fswallow-llm.github.io\u002Fleaderboard\u002Findex-post.ja.html) | 综合评估各类LLM在日语理解与生成任务、日语多轮对话任务以及英语理解与生成任务这三类任务中的表现。v2版本为适应推理专用模型，采用了零样本推理和思维链提示，并以更高难度的基准测试（共12项任务：日语6项、英语6项）进行评估。此外，除了整合并改进了现有的LLM评估工具——[swallow-evaluation](https:\u002F\u002Fgithub.com\u002Fswallow-llm\u002Fswallow-evaluation)之外，还新发布了专门针对推理型模型的[swallow-evaluation-instruct](https:\u002F\u002Fgithub.com\u002Fswallow-llm\u002Fswallow-evaluation-instruct)。 | Swallow项目 |\n\n\u003Ca id=\"basic-benchmark-suites\">\u003C\u002Fa>\n### 测量基础自然语言处理任务性能的基准测试\u002F数据集\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [开放日语LLM排行榜](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fllm-jp\u002Fopen-japanese-llm-leaderboard-v2) | 利用[llm-jp-eval](#llm-jp-eval)，在14个类别、71个以上的任务中对日语大型语言模型进行评估。| LLM-jp, Hugging Face |\n| \u003Ca id=\"llm-jp-eval\">\u003C\u002Fa> [llm-jp-eval](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-eval) | 这是一个跨多个数据集自动评估日语LLM的工具。\u003Cbr>支持的所有数据集列表可在此处查看（其中也包括JGLUE中的JNLI和JCommonsenseQA等任务）。 | LLM-jp |\n| [JP语言模型评估框架](https:\u002F\u002Fgithub.com\u002FStability-AI\u002Flm-evaluation-harness\u002Ftree\u002Fjp-stable) | Stability AI基于[EleutherAI\u002Flm-evaluation-harness](https:\u002F\u002Fgithub.com\u002FEleutherAI\u002Flm-evaluation-harness)分叉而来。这是一个跨多个数据集自动评估日语LLM的工具。\u003Cbr>支持的所有数据集列表可在此处查看（其中也包括JGLUE中的JNLI和JCommonsenseQA等任务）。 | Stability AI |\n| [JGLUE](https:\u002F\u002Fgithub.com\u002Fyahoojapan\u002FJGLUE) | 作为[GLUE基准测试](https:\u002F\u002Fgluebenchmark.com\u002F)的日语版构建的基准测试。包含MARC-ja、JCoLA、JSTS、JNLI、JSQuAD、JCommonsenseQA六个任务（[JCoLA](https:\u002F\u002Fgithub.com\u002Fosekilab\u002FJCoLA)由东京大学大关研究组创建）。各任务的详细信息可参考[这里](https:\u002F\u002Fwww.jstage.jst.go.jp\u002Farticle\u002Fjnlp\u002F30\u002F1\u002F30_63\u002F_article\u002F-char\u002Fja)和[这里](https:\u002F\u002Ftechblog.yahoo.co.jp\u002Fentry\u002F2022122030379907\u002F) | 早稻田大学河原研究组，雅虎 |\n| \u003Ca id=\"jmmlu\">\u003C\u002Fa> [JMMLU](https:\u002F\u002Fgithub.com\u002Fnlp-waseda\u002FJMMLU) | 作为[MMLU基准测试](https:\u002F\u002Fgithub.com\u002Fhendrycks\u002Ftest)的日语版构建的基准测试。题目涵盖自然科学、人文科学和社会科学等广泛学术领域，采用四选一形式。其特点不仅在于翻译了原始的MMLU，还新增了基于日本独特文化背景的问题（日本问题）。 | 早稻田大学河原研究组 |\n\u003C!-- | [日语开放LLM排行榜](http:\u002F\u002Fwandb.me\u002Fllm-jp-openllmleaderboard) | 类似于Huggingface的[开放LLM排行榜](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FHuggingFaceH4\u002Fopen_llm_leaderboard)，但针对日语LLM进行了类似的验证。可以查看日语LLM在英语任务中的表现。 | LLM-jp | -->\n\n\u003Ca id=\"open-ended-benchmark-suites\">\u003C\u002Fa>\n### 测量文本生成能力的基准测试\u002F数据集\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [llm-jp-judge](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-judge) | 基于“LLM即法官”理念的日语LLM综合评估工具。从日语质量（准确性、流畅性、细节性、相关性等，按1至5级评分）、日语安全性、MT-Bench（英语）、MT-Bench（日语）四个维度进行评估。将生成阶段与评估阶段分离，兼容vLLM、OpenAI API、Azure OpenAI、AWS Bedrock等推理客户端。详情请参阅[这里](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2025\u002Fpdf_dir\u002FQ2-4.pdf) | 大规模语言模型研发中心 |\n| \u003Ca id=\"jp-mt-bench\">\u003C\u002Fa> [日语MT-bench](https:\u002F\u002Fgithub.com\u002FStability-AI\u002FFastChat\u002Ftree\u002Fjp-stable\u002Ffastchat\u002Fllm_judge) | 这是针对多轮对话能力的[MT-bench](https:\u002F\u002Fgithub.com\u002Flm-sys\u002FFastChat\u002Ftree\u002Fmain\u002Ffastchat\u002Fllm_judge)的日语版。包含写作、角色扮演、推理、数学、编码、提取、STEM、人文八个类别，每个类别10题，共计80题。在制作日语版时，对部分问题的内容进行了调整，以更贴合日本文化。\u003Cbr>同时包含使用GPT-4进行10级绝对评分的脚本。 | Stability AI |\n| \u003Ca id=\"elyza-tasks\">\u003C\u002Fa> [ELYZA-tasks-100](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Felyza\u002FELYZA-tasks-100) | 包含100条复杂指示和任务的日语数据，所有数据均已标注评估视角。\u003Cbr>其中包括修改摘要并解释修改之处的任务、从具体事例中提炼抽象教训的任务、根据用户意图扮演有益的AI助手的任务、需要分类讨论的复杂算术任务、从未知语言中提取模式并翻译成日语的高度推理任务、结合多项指示生成YouTube对话的任务，以及关于虚构生物或成语的创作和搞笑段子等需要丰富想象力的任务。 | ELYZA |\n| [首选生成基准\u003Cbr>(pfgen-bench)](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fpfgen-bench) | 基于50道日本特有的常识问题，从流畅性、真实性、有用性三个维度衡量LLM的日语生成能力。该基准的特点是通过n-gram和基于规则的指标计算来进行评估，无需采用“LLM即法官”的方式。 | Preferred Elements (Preferred Networks) |\n| \u003Ca id=\"rakuda-benchmark\">\u003C\u002Fa> [Rakuda基准](https:\u002F\u002Fgithub.com\u002Fyuzu-ai\u002Fjapanese-llm-ranking) | 要求模型针对关于日本地理、历史、政治和社会的[40道自由提问](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fyuzuai\u002Frakuda-questions)作出回答。GPT-4会比较两款模型对相同问题的回答，判断哪一方的答案更优，从而对模型进行排名。 | YuzuAI |\n| [日语Vicuna QA基准](https:\u002F\u002Fgithub.com\u002Fku-nlp\u002Fja-vicuna-qa-benchmark) | 这是MT-Bench的前身[vicuna-blog-eval](https:\u002F\u002Fgithub.com\u002Flm-sys\u002Fvicuna-blog-eval)的日语版。收录了通用、知识、角色扮演、常识、费米估算、反事实假设、编码、数学、写作等方面的80道问题。同时还包含使用GPT-4进行自动评估（胜率计算）的脚本。排行榜请见[这里](http:\u002F\u002Fwandb.me\u002Fllm-jp-vicunaleaderboard) | 京都大学语言媒体研究室 |\n| \u003Ca id=\"tengu-bench\">\u003C\u002Fa> [Tengu基准](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Flightblue\u002Ftengu_bench) | 收录了来自不同类别的120道自由问题。问题类别如下：表格阅读、逻辑谜题、创意生成、函数调用、长文档摘要（超过千词）、对话摘要、千词以上长文档的封闭式问答、敬语、项目策划、数学、翻译、抽取、伦理控制、成本估算、日本、闲聊、双关语、格式、建筑、商业、法律判断、政治、虚构问题等。 | Lightblue |\n| [Shaberi](https:\u002F\u002Fgithub.com\u002Flightblue-tech\u002Fjapanese_llm_eval) | 这是一个可以将[日语MT-bench](#jp-mt-bench)、[Rakuda基准](#rakuda-benchmark)、[ELYZA-tasks-100](#elyza-tasks)、[Tengu基准](#tengu-bench)的评估整合在一起的框架。此外，还有由Shisa.AI分叉的[Shaberi](https:\u002F\u002Fgithub.com\u002Fshisa-ai\u002Fshaberi) | Lightblue |\n\n\u003Ca id=\"domain-specific-benchmark-suites\">\u003C\u002Fa>\n\n### 针对特定领域的性能评估基准\u002F数据集\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [日语语言模型金融评估框架](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fjapanese-lm-fin-harness) | 针对金融领域日语大语言模型的基准测试。包含金融领域的情感分析任务（chabsa）、证券分析中的基础知识任务（cma_basics）、注册会计师考试中的审计相关任务（cpa_audit）、理财规划师考试的选择题任务（fp2）以及证券外务员考试的模拟试题任务（security_sales_1）。详情请参阅[此处](https:\u002F\u002Fwww.anlp.jp\u002Fproceedings\u002Fannual_meeting\u002F2024\u002Fpdf_dir\u002FC6-4.pdf) | Preferred Networks |\n| [pfmt-bench-fin-ja](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fpfmt-bench-fin-ja) | 用于衡量金融领域日语大语言模型生成能力的基准测试。 | Preferred Networks |\n| [jfinqa](https:\u002F\u002Fgithub.com\u002Fajtgjmdjp\u002Fjfinqa) | 日语金融数值推理问答基准。收录了从68家公司的有价证券报告中提取的1,000道数值推理题目，用于评估四则运算、比率计算、杜邦分析等财务推理能力。已在[PyPI](https:\u002F\u002Fpypi.org\u002Fproject\u002Fjfinqa\u002F)和[HuggingFace](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fajtgjmdjp\u002Fjfinqa)上发布。 | 个人 ([ajtgjmdjp](https:\u002F\u002Fgithub.com\u002Fajtgjmdjp)) |\n| [Stockmark商业问题](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fstockmark\u002Fbusiness-questions) | 收录了50道关于市场动态、时事问题、社会议题及商业趋势等方面知识的问题。 | Stockmark |\n| \u003Ca id=\"jmedllm\">\u003C\u002Fa> [JMED-LLM](https:\u002F\u002Fgithub.com\u002Fsociocom\u002FJMED-LLM) | 用于评估日语医疗领域大语言模型的数据集。将此前开发的日语医疗自然语言处理任务整合为大语言模型基准测试。 | NAIST社会计算研究室 |\n| [JMedBench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FColdog2333\u002FJMedBench) | 日语医疗领域的大语言模型基准测试。包含选择题、机器翻译、命名实体识别、文本分类和句子相似度计算共5类，总计20个数据集（部分数据集借用了[JMMLU](#jmmlu)中的医疗领域问题以及[JMED-LLM](#jmedllm)中的内容）。此外，还开发了用于简化JMedBench评估的工具[med-eval](https:\u002F\u002Fgithub.com\u002Fnii-nlp\u002Fmed-eval)。 | NII相泽研究组 |\n| [日语医学语言模型评估框架](https:\u002F\u002Fgithub.com\u002Fstardust-coder\u002Fjapanese-lm-med-harness) | 一个可通过单条命令运行的、专门针对医疗领域的日英双语能力评估程序。 | 个人 ([助田一晟](https:\u002F\u002Fscholar.google.co.jp\u002Fcitations?user=Dc_v0BsAAAAJ)) |\n| [YakugakuQA](https:\u002F\u002Fgithub.com\u002FEQUES-Inc\u002Fpharma-LLM-eval) | 基于日本药师国家考试的日语制药领域知识评估数据集。用于衡量基于事实的药学知识。 | EQUES Inc. |\n| [NayoseQA](https:\u002F\u002Fgithub.com\u002FEQUES-Inc\u002Fpharma-LLM-eval) | 用于评估日语制药领域多语言术语对应与规范化能力的数据集。考察对同义词及专业术语的理解程度。 | EQUES Inc. |\n| [SogoCheck](https:\u002F\u002Fgithub.com\u002FEQUES-Inc\u002Fpharma-LLM-eval) | 一项全新的任务，用于评估成对句子之间的一致性推理。即使在GPT-4o上表现也较差的高难度推理任务。 | EQUES Inc. |\n| [MedRECT](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fmedrect) | 用于评估临床记录中检测并纠正医学错误能力的基准测试。由错误检测、错误句子定位和错误修正三个阶段的任务组成。设有日语版（663个样本）和英语版（458个样本），其中日语版基于医师国家考试构建。 | Preferred Networks |\n| [karakuri-bench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkarakuri-ai\u002Fkarakuri-bench-v0.1) | 用于衡量日语大语言模型在客服场景下性能的数据集。 | Karakuri |\n\n\u003Ca id=\"factuality-safety-benchmark-suites\">\u003C\u002Fa>\n### 用于衡量事实性和安全性的基准\u002F数据集\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [JTruthfulQA](https:\u002F\u002Fgithub.com\u002Fnlp-waseda\u002FJTruthfulQA) | 大语言模型事实性评估数据集[TruthfulQA](https:\u002F\u002Fgithub.com\u002Fsylinrl\u002FTruthfulQA)的日语版本。从头开始收集了关于迷信等虽被部分人相信但并非事实的现象的相关问题，以及有关日本本土知识的问题。 | 早稻田大学河原研究组 |\n| [JCommonsenseMorality](https:\u002F\u002Fgithub.com\u002FLanguage-Media-Lab\u002Fcommonsense-moral-ja\u002Fblob\u002Fmain\u002FREADME_JP.md) | 日语常识道德相关数据集。针对描述行为的句子，标注其是否在道德上错误或可接受的二元标签。 | 北海道大学语言媒体学研究室 |\n| [JBBQ](https:\u002F\u002Fgithub.com\u002Fynklab\u002FJBBQ_data) | 社会偏见问答数据集[BBQ](https:\u002F\u002Fgithub.com\u002Fnyu-mll\u002FBBQ)的日语版。根据日本文化与习俗进行了翻译、修改，并新增了问题。 | 东京大学谷中研究组 |\n\n\u003Ca id=\"logical-reasoning-benchmark-suites\">\u003C\u002Fa>\n### 用于衡量逻辑推理能力的基准\u002F数据集\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [JFLD（日语形式逻辑演绎）](https:\u002F\u002Faclanthology.org\u002F2024.lrec-main.832\u002F) | 询问日语大语言模型演绎推理能力的数据集（由同一作者团队提出的[FLD（形式逻辑演绎）](https:\u002F\u002Fgithub.com\u002Fhitachi-nlp\u002FFLD)的日语版本）。其特点在于采用反事实样本来进行评估，以区分大语言模型所掌握的知识。 | 日立制作所 |\n| [JHumanEval](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fkogi-jwu\u002Fjhumaneval) | 英语指令下Python代码生成能力评估基准[HumanEval](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenai\u002Fopenai_humaneval)的日语版本。创建日语版时，先通过机器翻译，再由人工进行修正。 | 日本女子大学仓光研究组 |\n| [JMultiPL-E](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Ftohoku-nlp\u002FJMultiPL-E) | 基于OpenAI HumanEval，涵盖17种编程语言（C++、C#、Go、Java、JavaScript、PHP、Ruby、Rust、Scala、Swift、TypeScript等）的代码生成能力评估数据集。用于衡量多语言代码理解和生成性能。 | 东北大学自然语言处理研究小组 |\n\n\u003Ca id=\"controllabilitiy-benchmark-suites\">\u003C\u002Fa>\n### 用于衡量指令遵循能力的基准\u002F数据集\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [LCTG Bench](https:\u002F\u002Fgithub.com\u002FCyberAgentAILab\u002FLCTG-Bench) | 日语大语言模型可控性基准测试。从输出格式、字数限制、关键词以及禁用词四个方面评估大语言模型是否能够遵守约束条件并正确输出内容。同时也会评估生成文本的质量。 | CyberAgent |\n| [JFBench](https:\u002F\u002Fgithub.com\u002Fpfnet-research\u002Fjfbench) | 用于评估日语大语言模型指令遵循能力的基准测试。在翻译IFBench的6个组别基础上，又新设了10个针对日语特有约束条件（敬体\u002F常体、平假名\u002F片假名\u002F汉字混用、数字书写方式等）的组别。共计16个约束组别、174种约束类型，结合1\u002F2\u002F4\u002F8种约束数量组合，总共评估1,600个样本。 | Preferred Networks |\n\n\u003Ca id=\"embeddings-benchmark-suites\">\u003C\u002Fa>\n### 嵌入模型的基准\u002F数据集\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [JMTEB](https:\u002F\u002Fwww.sbintuitions.co.jp\u002Fblog\u002Fentry\u002F2024\u002F05\u002F16\u002F130848) | 作为[MTEB](https:\u002F\u002Fgithub.com\u002Fembeddings-benchmark\u002Fmteb)的日语版而创建的基准测试。\u003Cbr>由文档聚类、文档分类、句子间相似度、句子对标签预测以及文档抽取5种任务构成（随后又新增了重排序任务）。 | SB Intuitions |\n| [JQaRA](https:\u002F\u002Fgithub.com\u002Fhotchpotch\u002FJQaRA\u002F) | 用于评估日语文档抽取与重排序精度的数据集。为1,667个问题分别指定了100份候选文档，其中至少有一份能够回答该问题。问题来源于[JAQKET](https:\u002F\u002Fwww.nlp.ecei.tohoku.ac.jp\u002Fprojects\u002Fjaqket\u002F)，候选文档则使用日语维基百科。 | 个人 (馆野祐一) |\n| [JaCWIR](https:\u002F\u002Fgithub.com\u002Fhotchpotch\u002FJaCWIR) | 旨在能够在维基百科以外的领域评估文档抽取与重排序能力而创建的数据集。为5,000个问题分别指定了1个源自该问题的原始网页，以及99个与问题无关的其他网页。 | 个人 (馆野祐一) |\n\n\u003Ca id=\"vl-benchmark-suites\">\u003C\u002Fa>\n\n### 视觉语言模型（Vision-Language Models）的基准测试\u002F数据集\n\n|   | 说明 | 开发方 |\n|:---|:---|:---:|\n| [llm-jp-eval-mm](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fllm-jp-eval-mm) | 用于在多个基准任务上评估日语VLM性能的工具 | 大规模语言模型研发中心 |\n| [BusinessSlideVQA](https:\u002F\u002Fgithub.com\u002Fstockmarkteam\u002Fbusiness-slide-questions) | 包含220道关于复杂日语商务幻灯片图像的问答数据集。旨在评估文档理解能力。 | StockMark |\n| [JMMMU](https:\u002F\u002Fmmmu-japanese-benchmark.github.io\u002FJMMMU\u002F) | 作为[MMLU基准]的日语版本构建的基准测试。由720道MMLU翻译版题目和600道具有日本文化特色的全新题目组成。 | 东京大学相泽研究组 |\n| [JDocQA](https:\u002F\u002Fgithub.com\u002Fmizuumi\u002FJDocQA) | 基于日语文档（宣传册、幻灯片、报告、网站）构建的问答数据集，共包含11,600道问题。涵盖多种提问形式，并包括无法解答的问题。 | NAIST渡边研究组 |\n| [Heron VLM排行榜 powered by nejumi@WandB](https:\u002F\u002Fapi.wandb.ai\u002Flinks\u002Fvision-language-leaderboard\u002Fh2lxge4n) | 汇总了[Japanese-Heron-Bench]和[LLaVA-Bench-In-the-Wild（日语版）]的评估结果。 | Turing, Weights & Biases |\n| \u003Ca id=\"japanese-heron-bench\">\u003C\u002Fa> [Japanese-Heron-Bench](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fturing-motors\u002FJapanese-Heron-Bench) | 为21张图片分配了共计102道问题。其特点是图片和问题均要求具备有关日本的知识。 | Turing |\n| [JA-VLM-Bench-In-the-Wild](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSakanaAI\u002FJA-VLM-Bench-In-the-Wild) | Sakana AI为评估EvoVLM-JP-v1-7B而自行准备的数据集。为42张图片分配了共计50道问题。其特点是图片和问题均要求具备有关日本的知识。 | Sakana AI |\n| [JA-Multi-Image-VQA](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FSakanaAI\u002FJA-Multi-Image-VQA) | 用于评估多张图片下日语问答能力的数据集。 | Sakana AI |\n| \u003Ca id=\"llava-bench-in-the-wild\">\u003C\u002Fa> [LLaVA-Bench-In-the-Wild（日语版）](https:\u002F\u002Fgithub.com\u002Fturingmotors\u002Fheron\u002Ftree\u002Fmain\u002Fplayground\u002Fdata\u002Fllava-bench-in-the-wild) | 将[LLaVA-Bench-In-the-Wild](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fliuhaotian\u002Fllava-bench-in-the-wild)通过DeepL翻译成日语而成。为24张图片分配了共计60道问题。 | Turing |\n| [LLaVA-Bench（COCO）日语版](https:\u002F\u002Fgithub.com\u002Fturingmotors\u002Fheron\u002Ftree\u002Fmain\u002Fplayground\u002Fdata\u002Fllava-bench-ja) | 将用于LLaVA评估的LLaVA-Bench（COCO）数据集通过DeepL翻译成日语而成。为30张图片分别分配了3种类型的问题。 | Turing |\n| [Japanese Visual Genome VQA数据集](https:\u002F\u002Fgithub.com\u002Fyahoojapan\u002Fja-vg-vqa) | 基于[Visual Genome数据集]的图片标注而成的问答数据集。该数据集中截取的500条记录[JA-VG-VQA-500]有时也被用作VLM评估基准。 | 雅虎 |\n| [japanese-bizform-table-kie](https:\u002F\u002Fgithub.com\u002Faiinside\u002Fjapanese-bizform-table-kie) | 用于评估从非结构化表格中提取信息精度的基准测试。由50种表格、共计2,500张文档图像组成。 | AI inside |\n\n\u003Ca id=\"reference\">\u003C\u002Fa>\n## 各模型·架构的原始论文\n\n\u003C!--@include: @\u002Fparts\u002Freferences_model.md-->\n\n\u003Ca id=\"reference-training\">\u003C\u002Fa>\n## LLM训练方法的原始论文\n\n\u003C!--@include: @\u002Fparts\u002Freferences_training.md-->\n\n\u003Ca id=\"contributors\">\u003C\u002Fa>\n## 贡献者\n\n以下是为本项目做出贡献的各位！\n\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fawesome-japanese-llm\u002Fgraphs\u002Fcontributors\" target=\"_blank\" rel=\"noreferrer\">\n  \u003Cimg loading=\"lazy\" src=\".\u002Ffigures\u002Fcontributors.svg\" alt=\"贡献者\" \u002F>\n\u003C\u002Fa>\n\n\u003Ca id=\"citation\">\u003C\u002Fa>\n## 引用\n\n本仓库的摘要也以预印本形式发布：\n[探索面向日语的开源大型语言模型：实用指南](https:\u002F\u002Fjxiv.jst.go.jp\u002Findex.php\u002Fjxiv\u002Fpreprint\u002Fview\u002F682\u002F2035)\n\n如需引用本仓库，请按以下方式注明：\n\n```\n@article{awesomeJapanese2024,\n    title={{Exploring Open Large Language Models for the Japanese Language: A Practical Guide}},\n    author={Kaito Sugimoto},\n    doi={10.51094\u002Fjxiv.682},\n    journal={Jxiv preprint},\n    year={2024}\n}\n```\n\n[^1]: 不过，为了提升模型速度，对原版Llama的架构进行了修改。详情请参阅：[PLaMo-13B已发布](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fllm-plamo\u002F)\n\n[^2]: 虽然未详细说明，但新闻稿中提到：“训练数据除了开放数据集外，还包括Stability AI Japan创建的自有数据集，以及EleutherAI Polyglot项目日语团队和Stable Community Japan成员合作制作的数据。”\n\n[^3]: 这是一项评估从右向左预测单词的语言模型的研究，与通常从左向右预测的模型相反。同时公开了正向和反向两种语言模型。\n\n[^4]: ○：模型已上传至HuggingFace Model Hub，可通过`AutoModel.from_pretrained()`等方法直接加载。△：模型未上传至Model Hub，但兼容HuggingFace（transformers，旧pytorch-transformers）格式。✕：模型不兼容HuggingFace格式。\n\n[^5]: 不过，最大序列长度已被扩展至2048，并且对原始BERT进行了多项架构调整。详情请参阅HuggingFace仓库的README文件。\n\n[^6]: 这项研究尝试了多种分词器与子词分割方法的组合。由于难以列出所有组合的模型，此处仅以实验中平均任务性能最高的Juman++ + BPE模型为代表进行展示。\n\n[^7]: nlp-waseda\u002Froberta-base-japanese和nlp-waseda\u002Froberta-large-japanese是在128个token长度下进行预训练的，而nlp-waseda\u002Froberta-large-japanese-seq512则是在512个token长度下进行预训练的。\n\n[^8]: 不过，最大序列长度已从常规的512扩展到1282，能够处理更长的输入文本。\n\n[^9]: small版本是基于日本维基百科和日语金融语料库从零开始训练的，而base版本则是在东北大学BERT的基础上追加日语金融语料库进行训练的。\n\n[^10]: 万病WordPiece模型先使用MeCab（IPA词典+万病词典）进行分词，再用WordPiece进行子词分割；SentencePiece模型则不进行分词，直接用Unigram进行子词分割。\n\n[^11]: 在进行指令微调后，加入了Llama 3 Instruct与Llama 3 Base之间的聊天向量差异。\n\n[^12]: 在指令微调过程中，使用了由GPT-3.5、GPT-4等OpenAI模型生成的数据进行训练，因此可能存在违反OpenAI协议的情况。\n\n[^13]: 不过，如果希望将KARAKURI LM用于商业用途，则需要直接联系开发方——卡拉库里株式会社。\n\n[^14]: 不过，强调应以研究和教育为目的使用。此外，还需注意合并源模型的部分许可证并非Apache 2.0许可。\n\n[^15]: 详细内容已在以下视频中公布：[松尾研GENIAC LLM开发项目第一阶段成果发布会 2024.06.01 @ 东京大学福武厅 @ 58:22](https:\u002F\u002Fyoutu.be\u002FJu_KgrGhANY?si=zUhZ1S6dznGeF0Gi&t=3502)\n\n[^16]: 不过，与普通BERT（base）相比，层数和注意力头的数量较少。\n\n[^17]: 在进行指令微调之前，加入了Llama 3 Instruct与Llama 3 Base之间的聊天向量差异。\n\n[^18]: 各模型的详细信息请参阅作者们发表的论文[第4章](https:\u002F\u002Fwww.jstage.jst.go.jp\u002Farticle\u002Fjnlp\u002F31\u002F2\u002F31_707\u002F_pdf\u002F-char\u002Fja)。值得注意的是，SC-2M-wiki模型仅在维基百科上进行了预训练，严格来说并不属于领域特定型模型。\n\n[^19]: 详情请参阅以下文章：[大型语言模型Tanuki-8B、8x8B的定位及开发方针等](https:\u002F\u002Fzenn.dev\u002Fmatsuolab\u002Farticles\u002F377f7ae8b1169e)，[开发大型语言模型时的前后训练策略备忘录——尤其是关于合成数据的部分](https:\u002F\u002Fzenn.dev\u002Fmatsuolab\u002Farticles\u002F34036f017fae9e)\n\n[^20]: 在进行ORPO之前，加入了Gemma 2 Instruct与Gemma 2 Base之间的聊天向量差异。\n\n[^21]: 对嵌入模型的分类参考了[基于预训练语言模型的密集文本检索：综述（Zhao+, 2022）](https:\u002F\u002Farxiv.org\u002Fabs\u002F2211.14876)。Bi-Encoder是将两个输入分别输入模型，各自转化为向量后，再通过内积或余弦相似度来衡量输入的接近程度的架构。相比之下，Cross-Encoder则是将两个输入组合在一起输入模型，在模型内部直接计算它们的相似度。在信息抽取领域，Cross-Encoder虽然计算成本较高，但有望更精细地计算输入的接近程度，因此常被用作重新排序抽取结果的重排序器。另外，Bi-Encoder中还有一种将输入表示为多个向量（例如按词元划分）而非单一向量的类型（如ColBERT），因此进一步细分为单表征Bi-Encoder和多表征Bi-Encoder。\n\n[^22]: 对部分架构进行了修改。详情请参阅：[1,000亿参数规模的自主LLM“PLaMo-100B”的预训练](https:\u002F\u002Ftech.preferred.jp\u002Fja\u002Fblog\u002Fplamo-100b\u002F)\n\n[^23]: 通过移除Llama中的因果注意力机制，将其用作编码器型模型。\n\n[^24]: 官方并未明确说明基础模型，但从HuggingFace仓库config.json中的架构显示为`DeepseekV3ForCausalLM`、分词器与DeepSeek-V3一致、且包含DeepSeek的NOTICE文件来看，很可能以DeepSeek-V3为基础。","# awesome-japanese-llm 快速上手指南\n\n`awesome-japanese-llm` 并非一个单一的 Python 包或可执行工具，而是一个**开源日语大语言模型（LLM）及评估基准的精选列表**。本指南将指导开发者如何从该列表中选取模型，并在本地环境中快速加载和运行。\n\n## 环境准备\n\n在运行日语 LLM 之前，请确保您的开发环境满足以下要求：\n\n### 系统要求\n*   **操作系统**: Linux (推荐), macOS, 或 Windows (需 WSL2)\n*   **GPU**: 推荐使用 NVIDIA GPU。\n    *   运行 7B-13B 参数模型：建议显存 ≥ 16GB (量化后可降低至 8-10GB)\n    *   运行 70B+ 参数模型：建议多卡环境或高显存单卡 (≥ 48GB)，或使用重度量化版本。\n*   **Python**: 3.9 或更高版本\n\n### 前置依赖\n推荐使用 `transformers`、`accelerate` 和 `torch` 进行模型加载。\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\npip install transformers accelerate sentencepiece protobuf\n```\n\n> **提示**：国内开发者如遇下载缓慢，可配置 Hugging Face 镜像源：\n> ```bash\n> export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\n> ```\n\n## 安装与模型获取\n\n由于这是一个模型列表，您无需安装 \"awesome-japanese-llm\" 本身，而是需要根据需求从列表中选择一个模型（例如 `llm-jp\u002Fllm-jp-3-13b-instruct4` 或 `sbintuitions\u002Fsarashina2-7b`），并通过 Hugging Face `transformers` 库自动下载。\n\n以下以 **LLM-jp-3.1 13B Instruct** 为例（Apache 2.0 许可，适合通用场景）：\n\n1.  创建项目目录并初始化：\n    ```bash\n    mkdir jp-llm-demo && cd jp-llm-demo\n    python -m venv venv\n    source venv\u002Fbin\u002Factivate  # Windows: venv\\Scripts\\activate\n    ```\n\n2.  安装依赖（同上）：\n    ```bash\n    pip install transformers accelerate torch sentencepiece\n    ```\n\n## 基本使用\n\n以下是最简单的 Python 脚本示例，用于加载模型并生成日语文本。\n\n### 代码示例 (`run.py`)\n\n```python\nimport torch\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\n\n# 1. 配置模型 ID (可从 awesome-japanese-llm 列表中替换为其他模型)\nmodel_id = \"llm-jp\u002Fllm-jp-3.1-13b-instruct4\"\n\n# 2. 加载分词器和模型\n# 使用 device_map=\"auto\" 自动分配 GPU\ntokenizer = AutoTokenizer.from_pretrained(model_id)\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_id,\n    torch_dtype=torch.float16,\n    device_map=\"auto\",\n    trust_remote_code=True\n)\n\n# 3. 构建输入提示 (Prompt)\n# 注意：不同模型可能需要特定的 Prompt 格式，此处为通用示例\ninput_text = \"日本の首都はどこですか？\"  # \"日本的首都是哪里？\"\ninputs = tokenizer(input_text, return_tensors=\"pt\").to(model.device)\n\n# 4. 生成文本\noutputs = model.generate(\n    **inputs,\n    max_new_tokens=256,\n    do_sample=True,\n    temperature=0.7,\n    top_p=0.95\n)\n\n# 5. 输出结果\nresult = tokenizer.decode(outputs[0], skip_special_tokens=True)\nprint(result)\n```\n\n### 运行命令\n\n```bash\npython run.py\n```\n\n### 预期输出\n模型将返回类似以下的日语回答：\n> 日本の首都はどこですか？\n> 日本の首都は東京です。\n\n---\n\n**注意事项**：\n*   **许可证检查**：在使用前，请务必查阅 [awesome-japanese-llm](https:\u002F\u002Fgithub.com\u002Fllm-jp\u002Fawesome-japanese-llm) 原文档中对应模型的许可证列。部分模型（如 Sarashina2-8x70B 或 PLaMo 系列）可能仅限**非商业用途**。\n*   **显存优化**：如果显存不足，可在加载模型时添加 `load_in_8bit=True` 或 `load_in_4bit=True` (需安装 `bitsandbytes`) 进行量化加载。","某日本金融科技公司的算法团队正急需为内部合规系统部署一个高精度日语大模型，以自动审核复杂的金融合同条款。\n\n### 没有 awesome-japanese-llm 时\n- **选型如大海捞针**：团队需在 Hugging Face、GitHub 及各大学术论文中手动搜寻，难以区分哪些模型是真正针对日语原生优化，哪些仅是翻译微调。\n- **许可风险隐蔽**：容易忽略部分模型虽开源代码但限制商用（如 CC BY-NC-SA），导致项目后期面临法律合规隐患。\n- **性能评估缺失**：缺乏统一的日语基准测试数据，无法客观对比 Sarashina2 与 LLM-jp-3 等模型在长文本理解上的真实差距。\n- **技术细节分散**：架构参数（如 MoE 结构）、训练语料规模（2.1T tokens）等关键信息散落在不同页面，整理耗时数周。\n\n### 使用 awesome-japanese-llm 后\n- **一站式精准筛选**：直接查阅分类清晰的列表，快速锁定适合金融场景的“从头训练”通用模型，大幅缩短调研周期。\n- **授权一目了然**：表格明确标注每个模型的许可证类型（如 MIT 或非商业限制），帮助团队瞬间排除不符合企业商用要求的选项。\n- **数据驱动决策**：参考收录的日语评估基准和详细训练数据来源，科学选定在长文档处理上表现最优的 LLM-jp-3 172B 模型。\n- **核心参数聚合**：直接获取上下文窗口大小、架构类型及指令微调数据集详情，技术人员半天内即可完成可行性验证。\n\nawesome-japanese-llm 将原本数周的碎片化调研工作压缩至数小时，为日语大模型的落地提供了权威、透明且高效的决策依据。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fllm-jp_awesome-japanese-llm_6a36abe8.png","llm-jp","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fllm-jp_b2003058.png","",null,"llm-jp@nii.ac.jp","https:\u002F\u002Fllm-jp.nii.ac.jp\u002F","https:\u002F\u002Fgithub.com\u002Fllm-jp",[80,84,88],{"name":81,"color":82,"percentage":83},"TypeScript","#3178c6",57.4,{"name":85,"color":86,"percentage":87},"Vue","#41b883",31,{"name":89,"color":90,"percentage":91},"CSS","#663399",11.6,44,"2026-04-20T02:44:48","Apache-2.0",5,"未说明 (具体需求取决于所选模型的参数量，例如运行 172B 模型通常需要多张高显存 GPU 或量化版本)","未说明",{"notes":99,"python":97,"dependencies":100},"该仓库是一个日语大语言模型（LLM）的列表和综述，而非单一的可执行软件工具，因此没有统一的运行环境要求。具体的硬件和软件需求完全取决于用户选择下载和运行的特定模型（如 LLM-jp-3 172B, Sarashina2, CALM3 等）。部分模型提供 AWQ、GPTQ 或 GGUF 等量化版本以降低显存需求。此外，需注意不同模型适用不同的许可证（如 MIT, Apache 2.0, 或非商业许可），使用前请务必查阅各模型的具体条款。",[],[36,14,102],"其他",[104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120,121,122],"language-model","language-models","large-language-model","large-language-models","llm","llms","japanese","japanese-language","vision-and-language","foundation-models","multimodal","vision-language","vision-language-model","generative-ai","generative-model","generative-models","japanese-llm","japanese-language-model","llm-japanese","2026-03-27T02:49:30.150509","2026-04-20T22:38:38.240109",[],[]]