awesome-pretrained-chinese-nlp-models

5.6k 508 困难 1 次阅读昨天MIT开发框架Agent数据工具语言模型

AI 解读由 AI 自动生成，仅供参考

awesome-pretrained-chinese-nlp-models 是一个专注于收集和整理高质量中文预训练模型、大语言模型及多模态模型的开源资源库。在自然语言处理领域，面对层出不穷的新技术和分散的模型资源，开发者往往难以快速找到适合中文场景的优质基座。该仓库正是为了解决这一痛点而生，它系统性地梳理了从经典的 BERT、RoBERTa 到最新的 Qwen、Yi、DeepSeek 等主流大模型，涵盖了通用基础、垂直行业（如金融、医疗）、对话交互、逻辑推理以及图文多模态等多个维度。

除了提供详细的模型参数、架构类型和下载链接外，awesome-pretrained-chinese-nlp-models 还整合了评估基准、在线体验入口、指令数据集及相关技术论文，甚至贴心地提供了国内访问 HuggingFace 的镜像建议，极大降低了资源获取门槛。无论是从事算法研究的研究人员、需要选型落地的 AI 工程师，还是对中文大模型感兴趣的技术爱好者，都能在这里一站式获取前沿、可靠的模型资源。其持续更新的机制确保了内容的时效性，是探索中文 NLP 技术生态不可或缺的导航指南。

使用场景

某金融科技公司算法团队正紧急开发一款面向国内用户的智能合规审核助手，需要快速集成高精度的中文语义理解与生成能力。

没有 awesome-pretrained-chinese-nlp-models 时

模型筛选如大海捞针：团队成员需分散在 GitHub、HuggingFace 及各高校官网手动搜索，难以辨别模型是否针对中文金融场景优化，耗时数天仍无定论。
下载链接失效或缓慢：找到的模型往往托管在海外服务器，国内下载速度极慢甚至频繁中断，且缺乏稳定的镜像地址推荐，严重拖慢开发进度。
技术选型风险高：缺乏统一的架构分类（如 NLU/NLG/多模态）和参数量对比，容易误选不适合部署的超大模型或不支持因果解码的架构，导致后期重构。
垂直领域适配难：找不到经过法律或金融语料微调的现成模型，只能从零开始训练，数据清洗和算力成本高昂。

使用 awesome-pretrained-chinese-nlp-models 后

一站式精准定位：直接通过“垂直对话大模型”分类索引，迅速锁定专为金融法律领域优化的模型（如 Yi-1.5 或 Qwen 系列），将选型时间从数天缩短至半小时。
高速下载通道：利用仓库提供的 HuggingFace 镜像地址建议，团队成员在国内网络环境下也能稳定、快速地拉取数十 GB 的大模型权重文件。
清晰的技术图谱：借助详细的架构标注（CD/ND/ED）和参数量分级表，团队立即排除了不匹配的边缘设备部署方案，确定了最优的 7B 参数级模型。
开箱即用的基座：直接复用列表中已验证的高质量中文预训练模型进行微调，大幅减少了基础训练成本，使项目提前两周上线。

awesome-pretrained-chinese-nlp-models 通过聚合高质量资源与提供本地化下载支持，将中文 NLP 模型的选型与落地效率提升了十倍不止。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes本仓库为中文预训练模型资源列表（Awesome List），并非单一可执行软件工具，因此 README 中未包含具体的操作系统、硬件配置、Python 版本或依赖库安装要求。用户需根据列表中具体选择的模型（如 Qwen, Llama, ChatGLM 等）前往其对应的项目链接查看各自的运行环境需求。国内用户推荐使用 HuggingFace 镜像地址 (https://hf-mirror.com/) 下载模型。

python未说明

awesome-pretrained-chinese-nlp-models hero image

快速开始

优秀的预训练中文NLP模型

论文: 大型语言模型综述

在自然语言处理领域中，预训练语言模型（Pretrained Language Models）已成为非常重要的基础技术，本仓库主要收集目前网上公开的一些高质量中文预训练模型、中文多模态模型、中文大语言模型等内容(感谢分享资源的大佬)，并将持续更新......

国内下载HuggingFace仓库模型推荐使用HuggingFace镜像地址: https://hf-mirror.com/

扩展目录

📚 模型分类索引

🤖 大模型系列

分类	说明	链接
通用基础大模型	参数 >7B 的基础语言模型	查看
垂直基础大模型	金融、医疗、法律等垂直领域	查看
通用对话大模型	对话式通用语言模型	查看
垂直对话大模型	垂直领域对话模型	查看
多模态对话大模型	图文等多模态模型	查看
推理类大模型	数学、逻辑推理模型	查看

🔧 预训练模型系列

系列	代表模型	链接
NLU系列	BERT · RoBERTa · ALBERT · ERNIE · MacBERT · ELECTRA	查看全部 29 个
NLG系列	GPT · GPT-3 · T5 · BART · CPM · RWKV	查看全部 18 个
NLU-NLG系列	UniLM · GLM · CPT · SimBERT	查看全部 9 个
多模态系列	WenLan · CogView · Chinese-CLIP · OFA	查看全部 13 个

📦 资源与工具

📊 大模型评估基准 · 🧪 在线体验 · 📦 开源模型库平台 · 📚 开源数据集库 · 📝 中文指令数据集 · 🎯 Embedding · 🔗 Other-Awesome

📌 备注说明

ND: Non-Causal Decoder (非因果解码器) | CD: Causal Decoder (因果解码器) | ED: Encoder-Decoder (编码器-解码器)

Base-LLM

大规模基础模型：表格中只罗列出参数量大于7B以上模型。

模型	大小	时间	语言	架构	下载	项目	机构	备注
XVERSE-MoE	255B / A36B	2024-09	中英	MoE	🤗HF	GitHub	xverse-ai	-
Qwen-2.5	0.5~72B (7档)	2024-09	中英	CD	🤗HF	GitHub	QwenLM	Blog
Tele-FLM	52B / 102B / 1TB	2024-07	多语	CD	🤗HF	-	CofeAI	Paper
meta-llama-3.1	8B / 70B / 405B	2024-07	多语	CD	🤗HF	GitHub	meta-llama	-
internlm2.5-Base	7B	2024-07	中英	CD	🤗HF	GitHub	InternLM	Technical Report
MAP-NEO-Base	2B / 7B	2024-06	中英	CD	🤗HF	GitHub	multimodal-art-projection	Paper
Nemotron-4-Base	340B	2024-06	多语	CD	🤗HF	-	NVIDIA	Technical Report
Index-Base	1.9B	2024-06	中英	CD	🤗HF	GitHub	bilibili	Report
Qwen2-Base	0.5B / 2B / 5B / 7B / 72B	2024-06	多语	CD	🤗HF	GitHub	QwenLM	Blog
GLM-4-Base	9B	2024-06	多语	-	🤗HF	GitHub	THUDM	-
Yi-1.5-Base	6B / 9B / 34B	2024-05	中英	CD	🤗HF	GitHub	01-ai	Paper
DeepSeek-V2-Base	A21B / 236B	2024-05	中英	MoE	🤗HF	GitHub	deepseek-ai	Paper
Llama-3-Base	8B / 70B	2024-04	多语	CD	🤗HF	GitHub	Meta Llama	-
Zhinao-Base	7B	2024-04	中英	CD	🤗HF · ModelScope	-	奇虎科技	-
XVERSE-MoE	A4.2B / 25.8B	2024-04	中英	MoE	🤗HF	GitHub	xverse-ai	-
SoftTiger-Base	13B / 70B	2024-04	中英	CD	🤗HF	GitHub	TigerResearch	-
HammerLLM	1.4B	2024-04	中英	-	🤗HF	GitHub	DataHammer	-
Mengzi3-Base	13B	2024-04	中英	CD	🤗HF	GitHub	Langboat	-
Breeze-Base	7B	2024-02	中英	-	🤗HF	-	MediaTek Research	-
TowerBase	7B / 13B	2024-02	多语	CD	🤗HF	-	Unbabel	-
Qwen1.5-Base	0.5~110B (7档)	2024-02	中英	-	🤗HF	GitHub	Qwen	Blog
LongAlign-Base	6B / 7B / 13B	2024-02	中英	-	🤗HF	GitHub	THUDM	Paper
Chinese-Mixtral-Base	8x7B	2024-02	中英	MoE	Baidu · 🤗HF	GitHub	Yiming Cui	-
iFlytekSpark-Base	13B	2024-01	中英	CD	MindSpore	-	科大讯飞	-
Orion-Base	14B	2024-01	多语	CD	🤗HF	GitHub	OrionStarAI	Paper
YaYi2-Base	30B	2023-12	多语	CD	🤗HF	GitHub	wenge-research	Paper
Aquila2-Base	7B / 34B / 70B	2023-12	中英	CD	🤗HF	GitHub	FlagAI	-
Alaya-Base	7B	2023-12	中英	CD	🤗HF	GitHub	DataCanvas	-
Qwen-Base	1.8B / 7B / 14B / 72B	2023-12	中英	CD	🤗HF	GitHub	阿里云	Paper
DeepSeek-Base	7B / 67B	2023-11	中英	CD	🤗HF	GitHub	deepseek-ai	-
Yuan-2.0	2B / 51B / 102B	2023-11	中英	CD	GitHub · 🤗HF	GitHub	IEIT-Yuan	-
Yi-Base	6B / 9B / 34B	2023-11	中英	CD	🤗HF	GitHub	01.AI	-
XVERSE-Base	7B / 13B / 65B	2023-11	多语	CD	🤗HF	GitHub	元象科技	-
Nanbeige-Base	16B	2023-11	中英	CD	🤗HF	GitHub	Nanbeige LLM Lab	-
LingoWhale	8B	2023-11	中英	CD	🤗HF	GitHub	DeepLang AI	-
Skywork-Base	13B	2023-10	中文	CD	🤗HF	GitHub	SkyworkAI	Paper
BlueLM-Base	7B	2023-11	中英	CD	🤗HF	GitHub	vivo AI Lab	-
ChatGLM3-Base	6B	2023-10	中英	ND	🤗HF	GitHub	THUDM	-
Ziya2-Base	13B	2023-10	中英	CD	🤗HF	GitHub	IDEA研究院	-
OpenBA-LM	15B	2023-09	中英	ED	🤗HF	GitHub	OpenNLG Group	Paper
TigerBot-Base-70B	80B	2023-09	多语	CD	🤗HF	GitHub	虎博科技	Paper
FLM	101B	2023-09	中英	CD	🤗HF	-	CofeAI	-
Falcon	7B / 40B / 180B	2023-09	多语	CD	🤗HF	-	Technology Innovation Institute	-
Baichuan2	7B / 13B	2023-09	中文	CD	🤗HF	GitHub	百川智能	-
Chinese-LLaMA-2-16K	7B / 13B	2023-08	中英	CD	🤗HF	GitHub	Yiming Cui	-
YuLan-LLaMA-2	13B	2023-08	中英	CD	🤗HF	GitHub	中国人民大学	-
Aquila-Base-33B	33B	2023-08	中英	CD	TODO	GitHub	FlagAI	-
TigerBot-Base-13B	13B	2023-08	多语	CD	🤗HF	GitHub	虎博科技	-
Linly-Chinese-LLaMA-2	7B / 13B	2023-07	中英	CD	🤗HF	GitHub	深圳大学计算机视觉研究所	-
Chinese-LLaMA-2	7B	2023-07	中英	CD	🤗HF	GitHub	Yiming Cui	-
Jiang-Base	13B	2023-07	中文	CD	🤗HF	-	知未智能	-
BlueWhaleX	7B / 13B	2023-07	中文	CD	🤗HF	-	蓝鲸国数	-
Llama-2	7B / 13B / 70B	2023-07	多语	CD	🤗HF	GitHub	Meta	Paper
PolyLM	13B	2023-07	多语	CD	🤗HF	ModelScope	达摩院	Paper
Baichuan-13B	13B	2023-07	中文	通用	[🤗HF]	Baichuan-13B	百川智能	CD
TigerBot	7B	2023-07	多语	CD	🤗HF	GitHub	虎博科技	-
InternLM-Base	7B / 20B	2023-07	中文	CD	🤗HF	GitHub	上海人工智能实验室	Report
MPT	7B / 30B	2023-06	多语	CD	🤗HF	GitHub	MosaicML	-
Baichuan	7B	2023-06	中英	通用	[🤗HF]	baichuan-7B	百川智能	CD
Chinese-Falcon	7B	2023-06	中英	CD	🤗HF	GitHub	深圳大学计算机视觉研究所	Blog
AtomGPT	13B	2023-06	中英	CD	🤗HF	-	原子回声	-
Aquila	7B	2023-06	中英	通用	[🤗HF]	Aquila	FlagAI	CD
Chinese-LLaMA	33B	2023-06	中英	CD	🤗HF	GitHub	Yiming Cui	-
TigerBot	7B	2023-06	多语	CD	🤗HF	GitHub	虎博科技	-
Panda-OpenLLaMA	7B	2023-05	中英	CD	🤗HF	GitHub	dandelionsllm	-
Panda	7/13B	2023-05	中英	通用	[🤗HF]	pandallm	dandelionsllm	CD
OpenLLaMA	13B	2023-05	中英	CD	🤗HF	GitHub	深圳大学计算机视觉研究所	-
BiLLa-LLM	7B	2023-05	中英	CD	🤗HF	GitHub	Zhongli Li	-
Ziya-LLaMA-Reward	7B	2023-05	中英	CD	🤗HF	GitHub	IDEA研究院	-
YuYan	11B	2023-04	中文	通用	[🤗HF]	/	网易伏羲	CD
Chinese-LLaMA	7B / 13B / 33B	2023-04	中文	CD	🤗HF	GitHub	深圳大学计算机视觉研究所	Blog
OpenChineseLLaMA	7B	2023-04	中英	CD	🤗HF	GitHub	OpenLMLab	-
MOSS-003	16B	2023-04	中英	CD	🤗HF	GitHub	复旦大学	-
BBT-2-Text	13B / 12B	2023-04	中文	CD	申请	GitHub	超对称	Paper
Chinese-LLaMA	13B	2023-04	中英	CD	🤗HF	GitHub	Yiming Cui	-
Flan-UL2	20B	2023-03	多语	ED	🤗HF	GitHub	Google	Paper
CPM-Bee	10B	2023-01	中英	CD	🤗HF	GitHub	OpenBMB	-
BLOOM	176B	2022-11	多语	CD	🤗HF	GitHub	BigScience	Paper
BLOOMZ	176B	2022-11	多语	CD	🤗HF	GitHub	BigScience	Paper
Flan-T5-XXL	11B	2022-11	多语	ED	🤗HF	GitHub	Google	Paper
CPM-Ant+	10B	2022-10	中英	CD	BMB	GitHub	OpenBMB	Blog
GLM-130B	130B	2022-10	中英	ND	申请	GitHub	清华大学	Paper
CPM-Ant	10B	2022-09	中文	CD	🤗HF	GitHub	OpenBMB	Blog
GLM	10B	2022-09	中文	ND	🤗HF	GitHub	清华大学	Paper
Yuan-1.0	245B	2021-09	中文	CD	API	GitHub	浪潮	Paper
CPM-2	10B / 11B / 200B	2021-06	中文	ED	申请	GitHub	智源研究院	Paper
PanGu-Alpha	13B / 200B	2021-05	中文	CD	🤗HF	OpenI	鹏城实验室	Paper
PLUG	27B	2021-04	中文	ED	申请	GitHub	阿里巴巴	-
GPT-3	13B / 30B	2021-04	中文	CD	TODO	ModelScope	达摩院	-

[返回顶部]

领域专用大模型

各个垂直领域开源基础模型

模型	大小	时间	语言	领域	下载	项目地址	机构/个人	架构	文献
通义千问2.5	1.5/7B	2024-09	中英	代码	🤗HF	Qwen2.5	QwenLM	CD	Blog
通义千问2.5	1.5/7/72B	2024-09	中英	数学	🤗HF	Qwen2.5	QwenLM	CD	Blog
通义金融基础	14B	2023-11	中文	金融	ModelScope	通义金融-14B	通义金融大模型	CD
ChiMed-GPT	13B	2023-10	中文	医疗	[🤗HF]	ChiMed-GPT	中国科学技术大学	CD	Paper
CodeShell-base	7B	2023-10	中英	代码	[🤗HF]	codeshell	WisdomShell	CD
WiNGPT-base	7B	2023-09	中文	医学	[🤗HF]	WiNGPT2	Winning Health AI Research	CD
玄元	70B	2023-09	中文	金融	[🤗HF]	XuanYuan	度小满	CD	Report
CodeLLaMA	7/13/ 34B	2023-08	多语	代码	[🤗HF]	codellama	Meta Research	CD	Paper
educhat-base-002	7/13B	2023-06	中英	教育	[🤗HF]	EduChat	华东师范大学	CD
AquilaCode-NV	7B	2023-06	中英	代码	[🤗HF]	Aquila	FlagAI	CD
AquilaCode-TS	7B	2023-06	中英	代码	[🤗HF]	Aquila	FlagAI	CD
LaWGPT	7B	2023-05	中英	法律	[🤗HF]	LawGPT	Pengxiao Song	CD
CodeGeeX	13B	2022-06	多语	代码	申请	CodeGeeX	清华大学	CD	blog

[返回顶部]

对话型大模型

具备问答和对话等功能的大型语言模型。

模型	大小	时间	语言	领域	下载	项目地址	机构/个人	架构	文献
GLM-4.6	A32/355B	2025-10	中英	通用	Hugging Face	GLM-4.5	zai-org	MoE	technical blog
Ling-1T	1T	2025-10	多语	通用	🤗 Huggingface	/	inclusionAI	CD
Qwen3-Next	A3/80B	2025-09	中英	通用	🤗 Huggingface	Qwen3	QwenLM	MoE	Qwen3-Next
Kimi-k2	A32B/1T	2025-08	中英	通用	HF	Kimi-K2	MoonshotAI	MoE	Paper
ERNIE-4.5	A47/300B A3/21B	2025-07	中英	通用	🤗 Huggingface	/	BaiDu	MoE	Technical Report
Qwen-3	4/14/30/235B	2025-05	中英	通用	🤗HF	Qwen3	QwenLM	CD/MoE	blog
MiMo	7B	2025-05	中英	通用	🤗HF	MiMo	XiaomiMiMo	CD	Paper
GLM-4-0414	9/32B	2025-04	多语	通用	🤗HF	GLM-4	THUDM
Moonlight	A3/16B	2025-02	中英	通用	🤗HF	Moonlight	MoonshotAI	MoE	Tech Report
phi-4	14B	2025--01	多语	通用	🤗HF	/	Microsoft	CD	Phi-4 Technical Report
InternLM3	8B	2025--01	中英	通用	🤗HF	InternLM	InternLM	CD	Technical Report
deepseek-v3	671B	2024-12	多语	通用	🤗HF	DeepSeek-V3	deepseek-ai	MoE	Paper Link
Megrez-3B-Instruct	3B	2024-12	中英	通用	🤗HF	Infini-Megrez	infinigence	CD
Athene-V2-Chat	72B	2024-11	中英	通用	🤗HF	/	Nexusflow	CD	Blog
Athene-V2-Agent	72B	2024-11	中英	工具调用	🤗HF	/	Nexusflow	CD	Blog
Hunyuan-Large	A52/389B	2024-11	中英	通用	🤗HF	Tencent-Hunyuan-Large	Tencent	MoE	Paper
Aya-Expanse	8/32B	2024-10	多语	通用	🤗HF	/	Cohere For AI	CD
Granite 3.0	1/2/3/8B	2024-10	多语	通用	🤗HF	granite-3.0-language-models	ibm-granite	CD	Paper
Granite 3.0-MoE	1B/3B/A400M	2024-10	多语	通用	🤗HF	granite-3.0-language-models	ibm-granite	MoE	Paper
TeleChat2	115B	2024-09	中英	通用	🤖 ModelScope	TeleChat2	Tele-AI	CD
Qwen-2.5	0.5/1.5/3/7/14/32/72B	2024-09	中英	通用	🤗HF	Qwen2.5	QwenLM	CD	Blog
XVERSE-MoE	255B/A36B	2024-09	中英	通用	🤗HF	XVERSE-MoE-A36B	xverse-ai	MoE
DeepSeek-V2.5	236B/A21B	2024-09	中英	通用	🤗HF	DeepSeek-V2	deepseek-ai	MOE	Paper
MiniCPM3	4B	2024-09	中英	通用	🤗HF	MiniCPM	OpenBMB	CD	MiniCPM Paper
C4AI Command R+ 08-2024	104B	2024-08	多语	通用	🤗HF	/	CohereForAI	CD
JIUTIAN-Chat	39/A13B	2024-07	中英	通用	🤖MS	/	中国移动JiuTian-AI	MOE
meta-llama-3.1	8/70/405B	2024-07	多语	通用	[🤗HF]	llama3	meta-llama	CD
internlm2.5-chat	7B	2024-07	中英	通用	[🤗HF]	InternLM	InternLM	CD	📜Technical Report
Mistral-large-insruct-2407	123B	2024-07	多语	通用	🤗HF	/	Mistral AI		blog post
DeepSeek-V2-Chat-0628	236B	2024-07	中英	通用	🤗HF	DeepSeek-V2	deepseek-ai	MOE	Paper
C4ai-command-r-plus	104B	2024-07	多语	通用	🤗HF	/	CohereForAI	CD
Gemma-2-chat	9/27B	2024-06	多语	通用	🤗HF	/	Google	CD
MAP-NEO-Chat	2/7B	2024-06	中英	通用	🤗HF	MAP-NEO	multimodal-art-projection	CD	Paper
GEB-Chat	1.3B	2024-06	中英	通用	🤗HF	/	GEB-AGI	CD	Paper
Nemotron-4-Chat	340B	2024-06	多语	通用	🤗HF	/	NVIDIA	CD	technical report.
Index-Chat	1.9B	2024-06	中英	通用	🤗HF	Index-1.9B	bilibili	CD	Report
Qwen2-MoE	57B/A14B	2024-06	多语	通用	🤗HF	Qwen2	QwenLM	MoE	Blog
Qwen2-Chat	0.5/2/5/7/72B	2024-06	多语	通用	🤗HF	Qwen2	QwenLM	CD	Blog
GLM-4-Chat	9B	2024-06	多语	通用	🤗HF	GLM-4	THUDM	/
Skywork-MoE	16/A22B/146B	2024-06	中英	通用	🤗HF	Skywork-MoE	SkyworkAI	MoE	Tech Report
Yuan2.0	40/A3.7B	2024-05	中英	通用	🤗HF	Yuan2.0-M32	IEIT-Yuan	MOE	Paper
星辰-Chat	52B	2024-05	中英	通用	🤗HF	TeleChat-52B	Tele-AI	CD
LingLong	317M	2024-05	中英	通用	🤗HF	linglong	nkcs-iclab	CD
Sailor	14B	2024-05	7语	通用	🤗HF	sailor-llm	sail-sg	CD	Paper
Nanbeige2	8/16B	2024-05	中英	通用	🤗HF	Nanbeige	Nanbeige	CD
Yi-1.5-Chat	6/9/34B	2024-05	中英	通用	🤗HF	Yi-1.5	01-ai	CD	Paper
DeepSeek-V2-Chat	A21B/236B	2024-05	中英	通用	🤗HF	DeepSeek-V2	deepseek-ai	MOE	Paper
XVERSE-MoE	A4.2B/25.8B	2024-05	中英	通用	🤗HF	XVERSE-MoE-A4.2B	xverse-ai	MOE
Llama3-zh	8/70B	2024-04	中英	通用	🤗HF	/	/	CD	llama3中文列表
Llama3-Chinese-Chat	8B	2024-04	中英	通用	🤗HF	/	Shenzhi Wang	CD
Llama-3-Chat	8/70B	2024-04	多语	通用	🤗HF	llama3	Meta Llama	CD
Zhinao-Chat	7B	2024-04	中英	通用	🤗HF 🤖	/	奇虎科技	CD
MiniCPM-MoE	8x2B	2024-04	中英	通用	🤗HF	MiniCPM	OpenBMB	MoE
Nanbeige2-Chat	8B	2024-04	中英	通用	🤗HF	Nanbeige	Nanbeige LLM Lab	CD
Sailor	7B	2024-04	多语	通用	🤗HF	sailor-llm	Sea AI Lab	CD	Paper
Mengzi3-Chat	13B	2024-04	中英	通用	🤗HF	Mengzi3	Langboat	CD
Qwen-MoE	2.7B	2024-03	中英	通用	🤗HF	Qwen1.5	Qwen	MoE	Blog
Command-R	35B	2024-03	多语	通用	🤗HF	/	CohereForAI	CD
Breeze-Instruct	7B	2024-02	中英	通用	🤗HF	/	MediaTek Research
aya-101	13B	2024-02	多语	通用	🤗HF	/	Cohere For AI	CD	Paper
ChemLLM	7B	2024-02	多语	通用	🤗HF	/	AI4Chem	CD	Paper
TowerInstruct	7/13B	2024-02	多语	通用	[🤗HF]	/	Unbabel	CD
Qwen1.5-Chat	0.5/1.8/4/ 7/14/32/72/110B	2024-02	中英	通用	[🤗HF]	Qwen1.5	Qwen	/	Blog
MiniCPM	2B	2024-02	中英	通用	[🤗HF] ModelScope	MiniCPM	OpenBMB	/	Report
LongAlign-Chat	6/7/13B	2024-02	中英	通用	[🤗HF]	LongAlign	THUDM	/	Paper
Chinese-Mixtral-Chat	8x7B	2024-02	中英	通用	[Baidu] [🤗HF]	Chinese-Mixtral	Yiming Cui	MOE
iFlytekSpark-Chat	13B	2024-01	中英	通用	mindspore	/	科大讯飞	CD
rwkv-5-world	0.1/1/ 3/7B	2023-01	多语	通用	[🤗HF]	RWKV-LM	BlinkDL		URL
Orion-Chat	14B	2024-01	多语	通用	[🤗HF]	Orion	OrionStarAI	CD	Paper
internlm2-chat	7/20B	2024-01	中英	通用	[🤗HF]	InternLM	InternLM	CD	Report
Chinese-Mixtral	8x7B	2023-01	中英	通用	[🤗HF]	/	HIT-SCIR	CD-MOE
Telechat	7/12B	2024-01	中英	通用	[🤗HF]	Telechatx	Tele-AI	CD	Report
kagentlms	7/13B	2024-01	中英	通用	[🤗HF]	KwaiAgents	KwaiKEG
YaYi2-Chat	30B	2023-12	多语	通用	[🤗HF]	YAYI2	wenge-research	CD	Paper
SUS-Chat	34/72B	2023-12	中英	通用	[🤗HF]	SUS-Chat	SUSTech-IDEA	CD
Aquila2-Chat	7/34/70B	2023-12	中英	通用	[🤗HF]	Aquila2	FlagAI	CD
Alaya-Chat	7B	2023-12	中英	通用	[🤗HF]	Alaya	DataCanvas	CD
Qwen-Chat	1.8/7/ 14/72B	2023-12	中英	通用	[🤗HF]	Qwen	阿里云	CD	Paper Report Report2
DeepSeek-Chat	7/67B	2023-11	中英	通用	[🤗HF]	DeepSeek-LLM	deepseek-ai	CD
Yi-Chat	6/34B	2023-11	中英	通用	[🤗HF]	Yi	01.AI	CD
Alaya-Chat	7B	2023-11	中英	通用	[🤗HF]	Alaya	DataCanvasIO	CD
OrionStar-Yi-Chat	34B	2023-11	中英	通用	[🤗HF]	OrionStar-Yi-34B-Chat	OrionStarAI	CD
Nanbeige-Chat	16B	2023-11	中英	通用	[🤗HF]	Nanbeige	Nanbeige LLM Lab	CD
OpenChat 3.5	7B	2023-11	中英	通用	[🤗HF]	openchat	OpenChat	CD	Paper
XVERSE-Chat	7/13B	2023-11	多语	通用	[🤗HF]	XVERSE	元象科技	CD
AndesGPT	7B	2023-11	中文	通用	[🤗HF]	AndesGPT-7B	OPPO-Mente-Lab	CD
SeaLLM-Chat	13B	2023-11	多语	通用	[🤗HF]	SeaLLMs	SeaLLMs	CD
BlueLM	7B	2023-11	中英	通用	[🤗HF]	BlueLM	vivo AI Lab	CD
Skywork-chat	13B	2023-10	中文	通用	[🤗HF]	Skywork	SkyworkAI	CD	Paper
Zephyr	7B	2023-10	多语	通用	[🤗HF]	alignment-handbook	Hugging Face H4	CD	Paper
Mistral	7B	2023-10	多语	通用	[🤗HF]	mistral-src	Mistral AI	CD	Paper
chatglm3	6B	2023-10	中英	通用	[🤗HF]	ChatGLM3	THUDM	ND
Zhiyin-chat	7B	2023-10	中英	通用	[🤗HF]	Zhiyin	中科院声学所	CD
Ziya2-Chat	13B	2023-10	中英	通用	[🤗HF]	Fengshenbang-LM	IDEA研究院	CD
Vulture	40/180B	2023-10	多语	通用	[🤗HF]	/	VILM-AI		TODO
Vulture	3/7/ 40/180B	2023-09	多语	通用	[🤗HF]	/	VILM	CD
Colossal-LLaMA-2	7B	2023-09	中英	通用	[🤗HF]	ColossalAI	HPC-AI Tech	CD	Blog
OpenBA-chat	15B	2023-09	中英	通用	TODO	OpenBA	OpenNLG Group	ED	Paper
WeMix-LLaMA2	7/70B	2023-09	中英	通用	[🤗HF]	WeMix-LLM	Alpha-VLLM	CD
Stable Beluga	7/13/70B	2023-09	中英	通用	[🤗HF]	/	Stability AI	CD
TigerBot-chat	70B	2023-09	中英	通用	[🤗HF]	TigerBot	虎博科技	CD	Paper
Openbuddy_llama	70B	2023-09	多语	通用	[🤗HF]	OpenBuddy	OpenBuddy	CD
falcon-180B-chat	180B	2023-09	多语	通用	[🤗HF]	/	Technology Innovation Institute	CD
Baichuan2	7/13B	2023-09	中文	通用	[🤗HF]	Baichuan2	百川智能	CD
Chinese-Alpaca-2-16K	7/13B	2023-09	中英	通用	[🤗HF]	Chinese-LLaMA-Alpaca-2	Yiming Cui	CD
InternLM-Chat-8k	7B	2023-08	中文	通用	[🤗HF]	InternLM	上海人工智能实验室	CD	report
InternLM-Chat-v1.1	7B	2023-08	中文	通用	[🤗HF]	InternLM	上海人工智能实验室	CD	report
YuLan-Chat-2	13B	2023-08	中英	通用	[🤗HF]	YuLan-Chat	中国人民大学	CD
falcon	7/40B	2023-06	多语	通用	[🤗HF]	[🤗HF]	Technology Innovation Institute	CD
Toucan	7B	2023-08	中英	通用	[🤗HF]	Toucan-LLM	Kendryte	CD
Zhuzhi	6B	2023-08	中英	通用	[🤗HF]	Zhuzhi-6B	竹间智能	ND
Atom	7B	2023-08	中英	通用	[🤗HF]	Llama2-Chinese	FlagAlpha	CD
openbuddy	3/7/ 13/40B	2023-08	多语	通用	[🤗HF]	OpenBuddy	OpenBuddy	CD
Aquila-Chat-33B	33B	2023-08	中英	通用	TODO	Aquila	FlagAI	CD
vicuna-V1.5-16K	7/13B	2023-08	多语	通用	[🤗HF]	FastChat	lm-sys	CD	Paper
vicuna-V1.5	7/13B	2023-08	多语	通用	[🤗HF]	FastChat	lm-sys	CD	Paper
Chinese-Alpaca-2	13B	2023-08	中英	通用	[🤗HF]	Chinese-LLaMA-Alpaca-2	Yiming Cui	CD
WizardLM-V1.0	70B	2023-08	多语	通用	[🤗HF]	WizardLM	operatorx	CD
TigerBot-chat-13B	13B	2023-07	中英	通用	[🤗HF]	TigerBot	虎博科技	CD
huozi	7B	2023-08	中英	通用	[🤗HF]	huozi	哈工大	CD
Chinese-Alpaca-2	7B	2023-07	中英	通用	[🤗HF]	Chinese-LLaMA-Alpaca-2	Yiming Cui	CD
AntX	7/13B	2023-07	中文	通用	[🤗HF]	/	AntX.ai	CD
BatGPT	15B	2023-07	中英	通用	[🤗HF]	BatGPT	上海交通大学	ND	Paper
WizardLM-V1.2	13B	2023-07	多语	通用	[🤗HF]	WizardLM	operatorx	CD	Paper
llama2-Chinese-chat	13B	2023-07	中英	通用	[🤗HF]	llama2-Chinese-chat	Ke Bai	CD
Jiang-chat	13B	2023-07	中文	通用	[🤗HF]	/	知未智能	CD
Llama2-chinese-chat	7/13B	2023-07	中英	通用	[🤗HF]	Llama2-Chinese	FlagAlpha	CD
LL7M	7B	2023-07	多语	通用	[🤗HF]	/	Joseph Cheung	CD
Chinese-Llama-2	7B	2023-07	中英	通用	[🤗HF]	Chinese-Llama-2-7b	LinkSoul-AI	CD
Llama2-chat	7/13/70B	2023-07	多语	通用	[🤗HF]	llama	Meta	CD	Paper
PolyLM-chat	13B	2023-07	多语	通用	[🤗HF]	PolyLM	达摩院	CD	Paper
Baichuan-13B-chat	13B	2023-07	中文	通用	[🤗HF]	Baichuan-13B	百川智能	CD
vicuna-V1.3	7/13/33B	2023-07	多语	通用	[🤗HF]	FastChat	lm-sys	CD	Paper
WizardLM-V1.0	7/13/30B	2023-07	多语	通用	[🤗HF]	WizardLM	operatorx	CD	Paper
TigerBot-v2-sft	7B	2023-07	多语	通用	[🤗HF]	TigerBot	虎博科技	CD
InternLM-chat	7/20B	2023-07	中文	通用	[🤗HF]	InternLM	上海人工智能实验室	CD	report
vicuna汉化版	33B	2023-07	中文	通用	baidu-hiks	chinese-StableVicuna	ziwang-com	CD
CuteGPT	13B	2023-07	中英	通用	[🤗HF]	CuteGPT	复旦大学知识工场	CD
MPT-chat	7/30B	2023-06	多语	通用	[🤗HF]	llm-foundry	MosaicML	CD
ChatGLM2	6B	2023-06	中英	通用	[🤗HF]	ChatGLM2-6B	清华大学	ND
BayLing	7/13B	2023-06	中英	通用	[🤗HF]	BayLing	中国科学院	CD
ZhiXi-Diff	13B	2023-06	中英	通用	[🤗HF]	KnowLLM	浙江大学	CD
Anima	33B	2023-06	中文	通用	[🤗HF]	Anima	Gavin Li	CD
OpenLLaMA-Chinese	3/7/13B	2023-06	中文	通用	[🤗HF]	OpenLLaMA-Chinese	FittenTech	CD
openbuddy-falcon-7b-v1.5	7B	2023-06	多语	通用	[🤗HF]	OpenBuddy	OpenBuddy	CD
AtomGPT_chat	13B	2023-06	中英	通用	[🤗HF]	AtomGPT	原子回声	CD
AquilaChat	7B	2023-06	中英	通用	[🤗HF]	Aquila	FlagAI	CD
YuLan-Chat	13/65B	2023-06	中英	通用	[🤗HF]	YuLan-Chat	中国人民大学	CD
Chinese-Alpaca	33B	2023-06	中文	通用	[🤗HF]	Chinese-LLaMA-Alpaca	Yiming Cui	CD
TigerBot-sft	7/180B	2023-06	多语	通用	[🤗HF]	TigerBot	虎博科技	CD
ChatYuan	7B	2023-06	中英	通用	[🤗HF]	ChatYuan-7B	ClueAI	CD
Panda-Instruct	13B	2023-05	中英	通用	[🤗HF]	pandallm	dandelionsllm	CD
Panda-Instruct	7B	2023-05	中英	通用	[🤗HF]	pandallm	dandelionsllm	CD
BiLLa-SFT	7B	2023-05	中英	通用	[🤗HF]	BiLLa	Zhongli Li	CD
Ziya-LLaMA-v1	13B	2023-05	中英	通用	[🤗HF]	Fengshenbang-LM	IDEA研究院	CD	Blog
BLOOMChat V1.0	176B	2023-05	多语	通用	[🤗HF]	bloomchat	SambaNova Systems	CD	Blog
BiLLa	7B	2023-05	中英	通用	[🤗HF]	BiLLa	Zhongli Li	CD
Bactrian-X	7/13B	2023-05	多语	通用	[🤗HF]	bactrian-x	MBZUAI	CD
Bactrian-ZH	7B	2023-05	中文	通用	[🤗HF]	bactrian-x	MBZUAI	CD
ChatFlow	7/13B	2023-05	中英	通用	[🤗HF]	Linly	深圳大学计算机视觉研究所	CD
OpenBuddy	7/13B	2023-05	多语	通用	[🤗HF]	OpenBuddy	OpenBuddy	CD
YuYan-dialogue	11B	2023-04	中文	通用	[🤗HF]	/	网易伏羲	CD	paper
Moss-moon-003-sft-plugin	16B	2023-04	中英	通用	[🤗HF]	MOSS	复旦大学	CD
moss-moon-003-sft	16B	2023-04	中英	通用	[🤗HF]	MOSS	复旦大学	CD
RWKV-4-Raven	3/7/14B	2023-04	中英	通用	[🤗HF]	ChatRWKV	BlinkDL	RNN	Blog
Phoenix-inst-chat	7B	2023-04	中文	通用	[🤗HF]	LLMZoo	香港中文大学	CD
Phoenix-chat	7B	2023-04	中文	通用	[🤗HF]	LLMZoo	香港中文大学	CD
ChatPLUG	3.7B	2023-04	中文	通用	[🤗HF]	ChatPLUG	阿里巴巴	ED	Paper
Chinese-Alpaca	13B	2023-04	中文	通用	[🤗HF]	Chinese-LLaMA-Alpaca	Yiming Cui	CD
BELLE-LLAMA	13B	2023-04	中文	通用	[🤗HF]	BELLE	贝壳	CD
LLaMA-tuned	7/13/ 33/65B	2023-04	中文	通用	[🤗HF]	LMFlow	香港科技大学	CD
Chinese-Vicuna	7/13B	2023-03	中文	通用	[🤗HF]	Chinese-Vicuna	Facico	CD
ChatYuan-V2	0.7B	2023-03	中英	通用	[🤗HF]	ChatYuan	元语智能	ED
Chinese-Alpaca	7B	2023-03	中文	通用	[🤗HF]	Chinese-LLaMA-Alpaca	Yiming Cui	CD
Luotuo	7B	2023-03	中文	通用	[🤗HF]	Chinese-alpaca-lora	华中师范大学	CD
BELLE-LLAMA	7B	2023-03	中英	通用	[🤗HF]	BELLE	贝壳	CD
ChatGLM	6B	2023-03	中英	通用	[🤗HF]	ChatGLM-6B	清华大学	ND

[返回顶部]

Domain-ChatLLM

开源的垂直领域对话大模型

模型	大小	时间	语言	领域	下载	项目地址	机构/个人	架构	文献
Qwen3-Coder-Next	/	2026-02	中英	代码	🤗 Huggingface	/	QwenLM	/
KAT-Dev-72B-Exp	72B	2025-10	多语	软件工程	🤗 Huggingface	/	Kwaipilot	CD
KwaiCoder-23B-A4B-v1	A4/23B	2025-10	多语	软件工程	🤗 Huggingface	/	Kwaipilot	CD
Qwen3-Coder	A3/30B	2025-08	中英	代码	🤗 Huggingface	Qwen3-Coder	QwenLM	MoE	Arxiv
Skywork-SWE	32B	2025-06	中英	代码	🤗 Huggingface	/	SkyworkAI	CD	Technical Report
Kimi-Dev	72B	2025-06	中英	代码	🤗 Huggingface	Kimi-Dev	MoonshotAI	CD
Qwen-coder-2.5	0.5/1.5/14/32B	2024-11	中英	代码	🤗HF	Qwen2.5-Coder	QwenLM	CD	Paper
OpenCoder-Instruct	1.5/8B	2024-11	中英	代码	🤗HF	OpenCoder-llm	OpenCoder-llm	CD	Paper
珠算	2.7B	2024-09	中英	代码	🤗HF	Abacus	HIT-SCIR	CD
Qwen-2.5-code	1.5/7B	2024-09	中英	代码	🤗HF	Qwen2.5	QwenLM	CD	Blog
Qwen-2.5-math	1.5/7/72B	2024-09	中英	数学	🤗HF	Qwen2.5	QwenLM	CD	Blog
Yi-Coder	1.5/9B	2024-09	中英	代码	🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel	Yi-Coder	01-ai	CD	Paper Blog
CodeGeeX4	9B	2024-07	多语	代码	🤗HF	CodeGeeX4	THUDM
DeepSeek-Coder-V2	A16B/236B	2024-06	中英	代码	🤗HF	DeepSeek-V2	deepseek-ai	MoE	Paper
AutoCoder	6.7/33B	2024-06	/	代码	🤗HF	AutoCoder	Bin Lei	CD	Paper
Codestral	22B	2024-05	/	代码	🤗HF	/	mistralai	/	Blog
CodeQwen1.5-Chat	7B	2024-04	中英	代码	🤗HF	Qwen1.5	Qwen	CD	Blog
codegemma	2/7B	2024-04	多语	代码	🤗HF	/	Google
WaveCoder	6.7B	2024-04	多语	代码	🤗HF	WaveCoder	microsoft		Paper
ChemDFM	13B	2024-03	中英	化学	🤗HF	/	OpenDFM	CD	Paper
starcoder2	3/7/15B	2024-02	中英	代码	🤗HF	starcoder2	bigcode-project	CD	Paper
TuringMM-Chat	34B	2024-02	中英	教育	🤗HuggingFace 🤖ModelScope	/	光年无限	CD
deepseek-moe	16B	2024-01	中英	代码	[🤗HF]	DeepSeekMoE	DeepSeek	CD-MOE
Code Millenials	1/3/ 13/34B	2023-01	多语	代码	[🤗HF]	code-millenials	BudEcosystem	CD
WizardCoder	15/33B	2024-01	多语	代码	[🤗HF]	WizardLM	operatorx	CD	Paper
DeepSeek-Coder	1/7/33B	2023-11	中英	代码	[🤗HF]	DeepSeek-Coder	deepseek-ai		Blog
Phind	34B	2023-10	多语	代码	[🤗HF]	/	Phind	CD	Blog zh
Tongyi-Finance-Chat	14B	2023-11	中文	金融	ModelScope	通义金融-14B-Chat	通义金融大模型	CD
Skywork-math	13B	2023-10	中文	数学	[🤗HF]	Skywork	SkyworkAI	CD	Paper
XuanYuan-Chat	70B	2023-10	中英	金融	[🤗HF]	XuanYuan	Duxiaoman度小满	CD
zhilu	13B	2023-10	中英	金融	[🤗HF]	/	SYSU-MUCFC-FinTech-Research-Center	CD
TestGPT	7B	2023-10	中文	测试	[🤗HF]	Test-Agent	codefuse-ai	CD
cross	7/13B	2023-10	多语	数学	[🤗HF]	/	Mathoctopus	CD
CodeFuse	13/14/ 15/34B	2023-10	中文	代码	[🤗HF]	MFTCoder	codefuse-ai	CD
Taiyi	7B	2023-10	中英	医学	[🤗HF]	Taiyi-LLM	DUTIR-BioNLP	CD
CodeShell-chat	7B	2023-10	中英	代码	[🤗HF]	codeshell	WisdomShell	CD
DISC-LawLLM	13B	2023-09	中文	法律	[🤗HF]	/	ShengbinYue	CD	Report
WiNGPT-chat	7B	2023-09	中文	医学	[🤗HF]	WiNGPT2	Winning Health AI Research	CD
ziya-coding	15/34B	2023-09	中英	代码	[🤗HF]	Fengshenbang-LM	IDEA研究院	CD
AgriGPT	6/13b	2023-09	中文	农业	[🤗HF]	AgriGPTs	AgriGPTs
XuanYuan-chat	70B	2023-09	中文	金融	TODO	XuanYuan	度小满	CD	Report
夫子•明察	6B	2023-09	中文	司法	[🤗HF]	fuzi.mingcha	山东大学	ND
仲景	13B	2023-09	中文	医学	[🤗HF]	Zhongjing	Songhua Yang	CD	Paper
CodeFuse	13/34B	2023-09	中英	代码	[🤗HF]	MFTCoder	codefuse-ai	CD
EcomGPT	7B	2023-09	中英	电商	TODO	EcomGPT	Alibaba
DISC-MedLLM	13B	2023-08	中文	医疗	[🤗HF]	DISC-MedLLM	FudanDISC	CD	Paper
K2	7B	2023-08	中英	科学	[🤗HF]	k2	daven	CD
CodeLLAma	7/13/34B	2023-08	多语	代码	[🤗HF]	codellama	Meta Research	CD	Paper
sqlcoder	15B	2023-08	中英	代码	[🤗HF]	sqlcoder	Defog.ai	CD
智海-录问	7B	2023-08	中文	法律	[🤗HF]	wisdomInterrogatory	zhihaiLLM	CD
WizardMath-V1.0	7/13/70B	2023-08	多语	数学	[🤗HF]	WizardLM	operatorx	CD
QiaoBan	7B	2023-08	中文	情感	[🤗HF]	QiaoBen	哈尔滨工业大学
HuangDi	13B	2023-08	中文	中医	[🤗HF]	HuangDI	Zlasejd	CD
ZhongJing		2023-08	中文	中医	TODO	CMLM-ZhongJing	复旦大学
TCMLLM	6B	2023-08	中文	中医	[🤗HF]	TCMLLM	2020MEAI	ND
AutoAudit	7B	2023-07	中文	安全	[🤗HF]	AutoAudit	Jiaying Li	CD
Lychee	10B	2023-07	中文	法律	[🤗HF]	lychee_law	davidpig	ND
IvyGPT	6B	2023-07	中文	医学	[🤗HF]	IvyGPT	WangRongsheng
MING	7B	2023-07	中文	医学	[🤗HF]	MING	上海交通大学	CD
Mozi	7B	2023-07	中英	科技	[🤗HF]	science-llm	GMFTBY	CD
StarGLM	6B	2023-07	中文	天文	[🤗HF]	StarGLM	LI YUYANG	ND
TransGPT	7B	2023-07	中英	交通	[🤗HF]	TransGPT	北京交通大学	CD
CodeGeeX2	6B	2023-07	中英	代码	[🤗HF]	CodeGeeX2	清华大学	ND
Yayi-llama2	7/13B	2023-07	中英	舆情	[🤗HF]	Yayi	中科闻歌	CD
Ziya-Writing	13B	2023-07	中英	写作	[🤗HF]	Fengshenbang-LM	IDEA研究院	CD
MindChat	13B	2023-07	中文	心理	[🤗HF]	MindChat	华东理工大学	CD
ShenNong-TCM-LLM	7B	2023-07	中英	医学	[🤗HF]	ShenNong-TCM-LLM	michael-wzhu	CD
ailawyer	13B	2023-07	中英	法律	[🤗HF]	JurisLMs	openkg	CD
educhat	7B/13B	2023-06	中英	教育	[🤗HF]	EduChat	华东师范大学	CD
Sunsimiao	7B	2023-06	中英	医学	[🤗HF]	Sunsimiao	华东理工大学	CD
Media LLaMA	7B	2023-06	中文	媒体	baidu	Media-LLaMA	智媒开源研究院	CD
PULSE	7/14B	2023-06	中文	医学	[🤗HF]	PULSE	OpenMEDLab	CD
ChatLaw	13/33B	2023-06	中文	法律	[🤗HF]	ChatLaw	北京大学	CD
BaoLuo	6B	2023-06	中文	法律	[🤗HF]	BaoLuo-LawAssisant	LeiZi	ND
CoLLaMA	7B	2023-06	中英	代码	[🤗HF]	CoLLaMA	Denilah	CD
TechGPT	7B	2023-06	中英	教育	[🤗HF]	TechGPT	东北大学	CD
Yayi	7B	2023-06	中英	舆情	[🤗HF]	Yayi	中科闻歌	CD
MeChat	6B	2023-06	中文	医学	[🤗HF]	smile	qiuhuachuan	ND
ziya-medical	13b	2023-06	中英	医学	[🤗HF]	MedicalGPT	Ming Xu	CD
Taoli	7B	2023-06	中英	教育	待开源	taoli	北京语言大学	CD
Lawyer-llama	13B	2023-06	中英	法律	[🤗HF]	lawyer-llama	Quzhe Huang	CD
QiZhen-CaMA	13B	2023-06	中英	医学	[🤗HF]	QiZhenGPT	浙江大学	CD
扁鹊-2.0	6B	2023-06	中文	医学	[🤗HF]	BianQue	华南理工大学	ND
SoulChat	6B	2023-06	中文	心理	[🤗HF]	SoulChat	华南理工大学	ND
HanFei	7B	2023-05	中文	法律	baidu-d6t5	HanFei	中国科学院深圳先进院	CD
QiZhen	6B	2023-05	中英	医学	[baidu]	QiZhenGPT	浙江大学	CD
ChatMed-Consult	7B	2023-05	中英	医学	[🤗HF]	ChatMed	michael-wzhu	CD
LaWGPT-beta1.1	7B	2023-05	中英	法律	[🤗HF]	LawGPT	Pengxiao Song	CD
Cornucopia	7B	2023-05	中英	金融	[🤗HF]	Cornucopia-LLaMA-Fin-Chinese	yuyangmu	CD
HuatuoGPT	7B	2023-05	中文	医学	[🤗HF]	HuatuoGPT	香港中文大学	CD	Paper
LexiLaw	6B	2023-05	中文	法律	[🤗HF]	LexiLaw	Haitao Li	ND	Paper
XuanYuan	176B	2023-05	中文	金融	申请	XuanYuan	度小满	CD	Paper
LawGPT	6B	2023-05	中文	法律	[🤗HF]	LAW-GPT	hongchengliu	N
扁鹊-1.0	0.7B	2023-04	中文	医学	[🤗HF]	BianQue	scutcyr	ED
ChatGLM-Med	6B	2023-04	中文	医学	[🤗HF]	Med-ChatGLM	哈尔滨工业大学	ED
BenTsao	7B	2023-04	中文	医学	[🤗HF]	Huatuo-Llama-Med-Chinese	哈尔滨工业大学	CD
DoctorGLM	6B	2023-04	中文	医学	TODO	DoctorGLM	xionghonglin	ND
Firefly	1/2/7B	2023-04	中文	文化	[🤗HF]	Firefly	Yang JianXin	CD
ChatRWKV	7B	2023-01	中英	小说	[🤗HF]	ChatRWKV	BlinkDL	RNN	Blog

[返回顶部]

多模态聊天大模型

收集包含中文的多模态大模型，具备对话等功能。

模型	大小	时间	语言模型	非语言模型	语言	领域	下载	项目地址	机构/个人	文献
Gemma-4-IT	E2B/E4B/26B A4B/31B	2026-04	Gemma-4 LM (CD+Hybrid)	文本+图像(全量)+音频(E2B/E4B)	多语(35+)	通用	🤗 HF	-	Google DeepMind	Model Card
Qianfan-OCR	4B	2026-03	Qwen3-4B	Qianfan-ViT, 24层, AnyResolution(最大4K)	中英	文档	🤗 HF	GitHub	百度	arXiv
GLM-OCR	/	2026-02	/	/	中英	文图	🤗 HF	/	zai-org	/
Ace-Step1.5	/	2026-02	/	/	中英	文音	🤗 HF	/	ACE-Step	/
HunyuanImage-3.0-Instruct	/	2026-02	/	/	中英	文图	🤗 HF	/	Tencent	/
AutoGLM-Phone	9B	2025-12	AutoGLM	AutoGLM	中英	Agent	🤗 HF	Open-AutoGLM	zai-org	Paper Link
Dolphin-v2	3B	2025-12	Qwen2.5-VL-3B	Qwen2.5-VL-3B	中英	文图	🤗 HF	Dolphin	bytedance	arXiv
DeepSeek-OCR	3B	2025-10	/	/	中英	文图	🤗 HF	DeepSeek-OCR	deepseek-ai	Paper Link
VoxCPM	0.5B	2025-09	MiniCPM-4	/	中英	文音	🤗 HF	VoxCPM	OpenBMB	/
VibeVoice	1.5B	2025-09	Qwen2.5-1.5B	/	中英	文音	🤗 HF	VibeVoice	microsoft	VibeVoice Technical Report
HunyuanImage	17B	2025-09	/	/	中英	文图	🤗 HF	HunyuanImage-2.1	Tencent-Hunyuan	/
PromptEnhancerV2	32B	2025-09	/	/	中英	文图	🤗 HF	PromptEnhancer	Hunyuan-PromptEnhancer	report paper
Qwen-Image	20B	2025-08	/	/	中英	文图	🤗 HF	Qwen-Image	QwenLM	Tech Report
ERNIE-4.5-VL	A47/424B	2025-07	/	/	中英	文图	🤗 HF	/	BaiDu	📄 Tech Report
Dolphin	A3/16B	2025-05	MBart	Swin Transformer	中英	文图	🤗 HF	Dolphin	bytedance	arXiv.
Wan2.1-VACE	14B	2025-05	/	/	中英	文图视	🤗 HF	Wan2.1	Wan-Video	arXiv
Kimi-VL	A3/16B	2025-04	/	/	多语	文图	🤗 HF	Kimi-VL	MoonshotAI	Tech Report
Aya Vision	8/32B	2025-03	C4AI Command R7B	SigLIP2-patch14-384	多语	文图	🤗 HF	/	Cohere For AI
Phi-4-multimodal-instruct	5.6B	2025-03	/	/	多语	文图	🤗 HF	/	Microsoft	Phi-4-multimodal Technical Report
CogView4	6B	2025-03	GLM-4-9B	/	中英	文图	🤗 HF	CogView4	THUDM	arxiv
Wan2.1	1.3/14B	2025-02	/	/	中英	文视图	🤗 HF	Wan2.1	Wan-Video	/
Step-Audio-Chat	130B	2025-02	Step-1	/	多语	文音	🤗 HF	Step-Audio	stepfun-ai	Paper
Ovis2	1/4/16/34B	2025-02	Qwen2.5	aimv2-large	中英	文图视	🤗 HF	Ovis	AIDC-AI	Paper
Janus-Pro	1.5/7B	2025-02	deepseek-llm	SigLIP-L	中英	文图	🤗 HF	Janus	deepseek-ai	paper
OuteTTS		2025-01	Qwen2.5-0.5B	OLMo-1B	多语	文音	🤗 HF	OuteTTS	edwko	Blog
MiniCPM-o	8B	2025-01	Qwen2.5-7B	SigLip-400M、Whisper-medium-300M, ChatTTS-200M	中英	文音图	🤗 HF	MiniCPM-o	OpenBMB
Sa2VA	1/4/8B	2024-12	Qwen2.5	InternVL2.5	中英	文视图	🤗 HF	Sa2VA	magic-research/ Sa2VA	Paper
QVQ-72B-Preview	72B	2024-12	/	/	中英	文视图	🤗 HF	Qwen2-VL	QwenLM	Blog
Megrez-3B-Omni	3B	2024-12	Megrez-3B-Instruct	SigLip-400M/Qwen2-Audio/whisper-large-v3	中英	文音图	🤗 HF	Infini-Megrez-Omni	infinigence
DeepSeek-VL2	1/2.8/4.5B	2024-12	/	/		文图	🤗 HF	DeepSeek-VL2	deepseek-ai	Paper
InternVL 2.5	2/4/8/26/38/78B	2024-12	Qwen-2.5	InternVit	多语	文图	🤗 HF	InternVL	OpenGVLab	blog
Pixtral-Large-Instruct	124B	2024-11	Mistral-Large-Instruct-2407	/	多语	文图	🤗 Huggingface	/	mistralai	Pixtral Large blog post
fish-agent	3B	2024-11	Qwen-2.5	/	多语	文音	🤗 Huggingface	fish-speech	fishaudio
GLM-4-Voice	9B	2024-10	GLM-4-9B	Whisper	中英	文音	🤗 Huggingface	GLM-4-Voice	THUDM
Pangea	7B	2024-10	Qwen2-7B-Instruct	LLaVA-NeXT	多语	图文	🤗HF	Pangea	neulab	Paper
GOT-OCR-2.0	/	2024-09	Qwen	/	中英	图文	🤗HF	GOT-OCR2.0	StepFun-AI	Paper
Ovis-1.6	9B	2024-09	Gemma2-9B-It	Siglip-400M	中英	图文	🤗	Ovis	AIDC-AI	Paper
Qwen2-VL	2/7/72B	2024-08	/	/	多语	图文视	🤗 🤖	Qwen2-VL	QwenLM
CogVideoX	2/5B	2024-08	/	/	中英	文视	🤗 link	CogVideo	THUDM
MiniCPM-V 2.6	8B	2024-08	Qwen2-7B	SigLip-400M	中英	文图视	🤗 link	MiniCPM-V	OpenBMB
InternVL2	1/2/4/8/26/40/76B	2024-07	Qwen2/internlm2/llama3	InternViT	中英	文图	🤗 link 🤖 link	InternVL	OpenGVLab	report
Qwen2-Audio	8.2B	2024-07	Qwen2	Whisper-large-V3	中英	文音	🤗HF	Qwen2-Audio	QwenLM	report
Kolors	/	2024-07	ChatGLM3-Base	/	中英	文图	🤗HF	Kolors	Kwai-Kolors	Paper
ChatTTS	/	2024-06	/	/	中英	文音	🤗HF	ChatTTS	2noise	/
GLM-4V	9B	2024-06	GLM-4	/	多语	文图	🤗HF	GLM-4	THUDM	/
HunyuanDiT	1.5B	2024-05	multilingual T5 encoder	CLIP	中英	文图	🤗	HunyuanDiT	Tencent	Paper
CogVLM2		2024-05	Meta-Llama-3-8B-Instruct	/	中英	文图	🤗	CogVLM	Skip to content
360VL	8/70B	2024-05	LLama3	CLIP-ViT	中英	文图	🤗	360VL	360CVGroup
XVERSE-V	13B	2024-05	XVERSE-13B-Chat	clip-vit-large-patch14-224	中英	文图	🤖	XVERSE-V-13B	xverse-ai
MiniCPM-V 2.0	2.8B	2024-04	MiniCPM-2.4B	SigLip-400M	中英	文图	🤗 🤖	MiniCPM-V	OpenBMB	Blog
Qwen-Audio	7B	2024-03	Qwen-7B	Whisper-large-v2	中英	文音	🤗HF	Qwen-Audio	Qwen	Paper
DeepSeek-VL	1.3/7B	2024-03	DeepSeek	SigLip/SAM	中英	图文	🤗HF	DeepSeek-VL	deepseek-ai	Paper
OmniLMM	3/12B	2024-02	MiniCPM	SigLip	中英	图文	🤗HF	OmniLMM	OpenBMB
MiniCPM-V	3B	2024-02	MiniCPM-2.4B	SigLip-400M	中英	图文	🤗HF	OmniLMM	OpenBMB
Yi-VL	6/34B	2024-01	Yi	CLIP-VIT	中英	图文	[🤗HF]	Yi	01-ai
Lyrics	14B	2023-12	/	/	中英	图文	[🤗HF]	Fengshenbang-LM	IDEA研究院
Qwen-Audio	7B	2023-12	Qwen-7B	Whisper-large-v2	中英	文音	[🤗HF]	Qwen-Audio	Qwen	Paper
SPHINX	13B	2023-10	/	/	中英	图文	[🤗HF]	LLaMA2-Accessory	Alpha-VLLM
Skywork-MM	13B	2023-10	/	/	中英	图文	[🤗HF]	Skywork	SkyworkAI	Paper
CogVLM	7/14B	2023-10	Qwen	ViT	中英	图文	[🤗HF]	/	CausalLM
fuyu	8B	2023-10	/	/	中英	图文	[🤗HF]	/	Adept AI Labs	Blog
Ziya-Visual	14B	2023-10	LLaMA	InstructBLIP	中英	图文	[🤗HF]	Fengshenbang-LM	IDEA研究院	Paper
CogVLM	17B	2023-10	EVA2-CLIP-E	Vicuna-v1.5	中英	图文	TODO	CogVLM	THUDM	Paper
idefics	9/80B	2023-10	LLaMA	CLIP-ViT	中英	图文	[🤗HF]	/	HuggingFaceM4	log
InternLM-XComposer	7B	2023-10	InternLM	EVA-CLIP	中英	图文	[🤗HF]	InternLM-XComposer	InternLM	Report
WeMix-LLM	13B	2023-09	LLama2	/	中英	图文	[🤗HF]	WeMix-LLM	Alpha-VLLM
Vally	7/13B	2023-08	BelleGroup/BELLE-LLaMA-EXT	OFA-Sys/chinese-clip-vit-large-patch14	中英	图文	[🤗HF] [🤗HF]	Valley	罗瑞璞	Paper
SALMONN	/	2023-08	/	/	中英	语音	TODO	SALMONN	Bytedance
IDEFICS	9/80B	2023-08	llama	CLIP-ViT	中英	图文-通用	[🤗HF]	m4-logs	HuggingFaceM4	Paper
Qwen-VL	7B	2023-08	Qwen-7B	Openclip ViT-bigG	中英	通用	[🤗HF]	Qwen-VL	阿里云
Qwen-VL-chat	7B	2023-08	Qwen-7B	Openclip ViT-bigG	中英	通用	[🤗HF]	Qwen-VL	阿里云
LLasM	7B	2023-07	Chinese-Llama2	whisper-large-v2	中英	语音	[🤗HF]	LLaSM	北京灵琐
Chinese-LLaVA	7B	2023-07	Chinese-Llama2	Clip-vit	中英	视觉	[🤗HF]	Chinese-LLaVA	北京灵琐
RemoteGLM	6B	2023-07	VisualGLM-6B	VisualGLM-6B	中文	遥感	TODO	RemoteGLM	lzw-lzw
VisualCLA	7B	2023-07	Chinese-Alpaca-Plus	CLIP-ViT-L/14	中文	视觉	[🤗HF]	Visual-Chinese-LLaMA-Alpaca	Ziqing Yang
yuren	7B	2023-07	baichuan-7B	CLIP	中英	视觉	[🤗HF]	yuren-baichuan-7b	Pleisto
VisCPM-Chat	10B	2023-06	CPM-Bee	Q-Former	中英	视觉	[🤗HF]	VisCPM	OpenBMB
VisCPM-Paint	10B	2023-06	CPM-Bee	Stable Diffusion 2.1	中英	视觉	[🤗HF]	VisCPM	OpenBMB
XrayPULSE	7B	2023-06	PULSE	MedCLIP	中文	医学	[🤗HF]	XrayPULSE	OpenMEDLab
SEEChat	6B	2023-06	ChatGLM	CLIP-ViT	中文	/	[🤗HF]	SEEChat	360
Ziya-BLIP2-14B-Visual-v1	14B	2023-06	LLaMA-13B	BLIP2	中英	通用	[🤗HF]	Fengshenbang-LM	IDEA研究院
Video-LLaMA-BiLLA	7B	2023-05	BiLLa-7B	MiniGPT-4	中英	通用	[🤗HF]	Video-LLaMA	达摩院多语言NLP	Paper
Video-LLaMA-Ziya	13B	2023-05	Ziya-13B	MiniGPT-4	中英	通用	[🤗HF]	Video-LLaMA	达摩院多语言NLP	Paper
XrayGLM	6B	2023-05	ChatGLM-6B	BLIP2-Qformer	中英	医学	[🤗HF]	XrayGLM	澳门理工大学
X-LLM		2023-05	ChatGLM	ViT-g	中文	/	TODO	X-LLM	中科院自动化所	Paper
VisualGLM	6B	2023-05	ChatGLM-6B	BLIP2-Qformer	中英	视觉	[🤗HF]	VisualGLM-6B	清华大学

[返回顶部]

理论推理大模型

收集推理能力比较突出的中文大模型

模型	大小	时间	语言	领域	下载	项目地址	机构/个人	结构	文
MiniMax-M2.7	A10/230B	2026-04	中英	通用	🤗HF	GitHub	MiniMax-AI	MoE	Blog
Qwen3.5	0.5/2/4/9/27/35/122/397B	2026-02	中英	通用	🤗HF	Qwen3.5	QwenLM	MoE	Blog
Step-3.5-Flash	/	2026-02	中英	通用	🤗HF	/	stepfun-ai	/	/
GLM-5	A40/744B	2026-02	中英	通用	🤗HF	/	zai-org	/	blog
MiniMax-M2.5	/	2026-02	中英	通用	🤗HF	/	MiniMaxAI	/	/
Kimi-K2.5	1T	2026-02	中英	通用	🤗HF	/	moonshotai	moe	paper
Ring-2.5-1T	1T	2026-02	中英	通用	🤗HF	/	inclusionAI	/	/
DeepSeek-V3.2	/	2025-12	中英	通用	🤗HF	DeepSeek-V3.2-Exp	deepseek-ai	MoE	Technical Report
Tongyi DeepResearch	A3/30B	2025-09	中英	通用	🤗HF	DeepResearch	Alibaba-NLP	MoE	Tech Blog
Qwen3-Next	A3/80B	2025-09	中英	通用	🤗HF	Qwen3	QwenLM	MoE	Qwen3-Next
Magistral Small 1.2	24B	2025-09	多语	通用	Hugging Face	/	mistralai	CD	blog post
gpt-oss-20B	A2/20B	2025-08	中英	通用	🤗HF	gpt-oss	openai	MoE	OpenAI blog
gpt-oss-120B	A5/120B	2025-08	中英	通用	🤗HF	gpt-oss	openai	MoE	OpenAI blog
Baichuan-M2	32B	2025-08	中英	医疗	Hugging Face	Baichuan-M2-32B	baichuan-inc	CD	technical blog
Ovis2.5	2/9B	2025-08	中英	多模态	🤗HF	Ovis	AIDC-AI	CD	Paper
GLM-4.5V	108B	2025-07	中英	多模态	Hugging Face	GLM-V	zai-org	MoE	Paper
GLM-4.5	A32/355B	2025-07	中英	通用	Hugging Face	GLM-4.5	zai-org	MoE	technical blog
GLM-4.5-Air	106B-A12B	2025-07	中英	通用	Hugging Face	GLM-4.5	zai-org	MoE	technical blog
Hunyuan	0.5/4/7B	2025-07	中英	通用	🤗HF	Tencent-Hunyuan	Tencent-Hunyuan	/	/
Qwen3-Thinking-2507	A3/30B	2025-07	中英	通用	🤗 Huggingface	Qwen3	QwenLM	MoE	Paper
Step3	A38/321B	2025-07	中英	多模态	HF	Step3	stepfun-ai	MoE	Paper
Dhanishtha-2.0	14B	2025-07	多语	通用	Hugging Face	/	HelpingAI	CD	/
GLM-4.1V-Thinking	9B	2025-07	中英	多模态	🤗HF	GLM-4.1V-Thinking	THUDM	/	paper
Kimi-VL-Thinking-2506	A3B	2025-06	中英	多模态	🤗HF	Kimi-VL	MoonshotAI	/	📄 Tech Report
Hunyuan-A13B	A13/80B	2025-06	中英	通用	Hugging Face	Hunyuan-A13B	Tencent-Hunyuan	MoE	Technical Report
LongWriter-Zero	32B	2025-06	中英	/	🤗HF	/	THU-KEG	/	Paper
MiniMax-M1	A46/456B	2025-06	中英	通用	🤗HF	MiniMax-M1	MiniMax-AI	MoE	Paper
DeepSeek-R1-0528	A37/671B	2025-05	中英	通用	🤗HF	DeepSeek-R1	deepseek-ai	MoE	Paper Link👁️
QwenLong-L1	32B	2025-05	中英	通用	🤗HF	QwenLong-L1	Tongyi-Zhiwen	CD	Paper
GLM-Z1-0414	32B	2025-04	中英	通用	🤗HF	GLM-4	THUDM
DeepCoder	1.5/14B	2025-04	中英	代码	🤗HF	rllm	agentica-project	CD
Kimi-VL-Thinking	A3/16B	2025-04	中英	多模态	🤗HF	Kimi-VL	MoonshotAI	MoE	Tech Report
Skywork-OR1	7/32B	2025-04	中英	通用	🤗HF	Skywork-OR1	SkyworkAI/	MoE	Notion Blog
Skywork-R1V	38B	2025-03	中英	多模态	🤗HF	Skywork-R1V	SkyworkAI	CD	Paper
Fin-R1	7B	2025-03	中英	金融	🤗HF	Fin-R1	SUFE-AIFLM-Lab	CD	Paper
QwQ-32B	32B	2025-03	中英	通用	🤗HF	/	QwenLM	CD	📑 blog
DeepSeek-R1	A37/671B	2025-01	中英	通用	🤗HF	DeepSeek-R1	deepseek-ai	MoE	Paper Link👁️
DeepSeek-R1-Zero	A37/671B	2025-01	中英	通用	🤗HF	DeepSeek-R1	deepseek-ai	MoE	Paper Link👁️
DeepSeek-R1-Distill-Qwen	1.5/7/14/32B	2025-01	中英	通用	🤗HF	DeepSeek-R1	deepseek-ai	MoE	Paper Link👁️
MiniMax-Text-01	A46/456B	2025-01	中英	通用	🤗HF	MiniMax-01	MiniMax-AI	MoE	Paper
MiniMax-VL-01	A46/456B	2025-01	中英	多模态	🤗HF	MiniMax-01	MiniMax-AI	MoE	Paper
Sky-T1	32B	2025-01	中英	通用	🤗HF	SkyThought	NovaSky-AI	CD	Blog
Search-O1		2025-01	中英	通用	/	Search-o1	sunnynexus	CD	Paper
HuatuoGPT-o1	7/8/70/72B	2025-01	中英	医疗	🤗HF	HuatuoGPT-o1	FreedomIntelligence/	CD	Paper
QwQ-32B-Preview	32B	2024-11	中英	通用	🤗HF	/	QwenLM	CD
Marco-o1	7B	2024-11	中英	通用	🤗HF	Marco-o1	AIDC-AI	CD	Paper
Skywork-01-Open	8B	2024-11	中英	通用	🤗HF	skywork-o1-prm-inference	SkyworkAI	CD	Blog
HK-01aw	8B	2024-11	中文	法律	🤗HF	HK-O1aw	HKAIR-Lab	CD
QVQ-72B-Preview	72B	2024-12	中英	多模	🤗 HF	Qwen2-VL	QwenLM		Blog

[返回顶部]

中文指令数据集

收集包含中文的指令数据集，用于微调语言模型。

名称	大小	时间	语言	下载	项目地址	作者	备注
FinCorpus	50G	2023-09	中文	dataset	XuanYuan	度小满	金融领域
TransGPT-sft	346k	2023-07	中文	dataset	TransGPT	北京交通大学
TransGPT-pt	58k	2023-07	中文	dataset	TransGPT	北京交通大学
ShareGPT-Chinese-English	90K	2023-07	中英	dataset	llama2-Chinese-chat	Ke Bai
educhat-sft-002-data-osm	400w	2023-06	中英	dataset	EduChat	华东师范大学	教育
chatgpt-corpus	3M	2023-06	中文	dataset	chatgpt-corpus	plex
Simle	350k	2023-06	中文	dataset	smile	qiuhuachuan	心理健康
QiZhen	20k	2023-06	中文	dataset	QiZhenGPT	浙江大学	医学
BayLing-80	80	2023-06	中英	dataset	BayLing	中国科学院	多轮指令
Tigerbot-dataset	120k	2023-06	中英	dataset	TigerBot	虎博科技
lawyer-llama	/	2023-05	中文	dataset	lawyer-llama	Quzhe Huang	法律
Bactrian-X	67K	2023-05	多语	dataset	bactrian-x	MBZUAI
CrimeKgAssitant	52k	2023-05	中文	dataset	LAW-GPT	hongchengliu	法律
moss-002-sft-data	1.1M	2023-04	中英	dataset	MOSS	复旦大学
moss-003-sft-data	1.1M	2023-04	中英	dataset	MOSS	复旦大学
moss-003-sft-plugin-data	300K	2023-04	中英	dataset	MOSS	复旦大学
Safety-Prompts	100K	2023-04	中文	dataset	Safety-Prompts	清华大学	评测平台
OASST1	/	2023-04	多语	dataset	Open-Assistant	OpenAssistant
ShareChat	90K	2023-04	中英	dataset	ShareChat	czhko
GPT-4-LLM	52K	2023-04	中文	dataset	GPT-4-LLM	Instruction-Tuning-with-GPT-4	paper
COIG	200K	2023-04	中文	dataset	FlagInstruct	BAAI	paper
RedGPT	50k	2023-04	中文	dataset	RedGPT	MiniGPT
shareGPT_cn	20k	2023-04	中文	dataset	shareGPT_cn	shareAI
generated_chat_0.4M	0.4M	2023-04	中文	dataset	BELLE	Ke Technologies	角色对话
multiturn_chat_0.8M	0.8M	2023-04	中文	dataset	BELLE	Ke Technologies	多轮任务
school_math_0.25M	0.25M	2023-04	中文	dataset	BELLE	Ke Technologies	数学题
Zhihu-KOL	/	2023-03	中文	dataset	Zhihu-KOL	Rui Wang
InstructionWild	104k	2023-03	中英	dataset	InstructionWild	Xue Fuzhao
Alpaca-CoT	/.	2023-03	中英	[dataset](https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/tree main)	Alpaca-CoT	Qingyi Si
GuanacoDataset	/	2023-03	多语	dataset	guanaco-model	Guanaco
Traditional-Chinese-alpaca	52K	2023-03	中文	[dataset](https://github.com/ntunlplab/traditional-chinese-alpaca/tree main data)	Traditional-Chinese Alpaca	NTU NLP Lab	gpt翻译
alpaca_chinese_dataset	/	2023-03	中文	dataset	alpaca_chinese_dataset	akou	人工校验
alpaca-chinese-dataset	/	2023-03	中文	dataset	alpaca-chinese-dataset	carbonz	机器翻译
train_2M_CN	2M	2023-03	中文	dataset	BELLE	Ke Technologies
train_1M_CN	1M	2023-03	中文	dataset	BELLE	Ke Technologies
train_0.5M_CN	0.5M	2023-03	中文	dataset	BELLE	Ke Technologies
HC3 人类-ChatGPT 问答	/	2023-03	中文	dataset	chatgpt-comparison-detection	SimpleAI
firefly-train-1.1M	1.1M	2023-03	中文	dataset	Firefly	Jianxin Yang

[返回顶部]

嵌入

MTEB排行榜: https://huggingface.co/spaces/mteb/leaderboard 镜像

模型	大小	时间	语言	领域	下载	项目地址	机构/个人	文
Qwen3-Embedding	0.6/4/8B	2025-06	多语	通用	[🤗HF]	Qwen3-Embedding	QwenLM	Arxiv
JinaColBERT V2	large	2024-08	多语	通用	[🤗HF]	/	Jina AI	Paper
Conan-embedding-v1	large	2024-08	中文	通用	[🤗HF]	/	TencentABC	Paper
xiaobu-v2	large	2024-07	中文	通用	[🤗HF]	/	lier007
zpoint_large	Large	2024-06	中文	通用	[🤗HF]	/	yang
BCE	279M	2024-01	多语	通用	[🤗HF]	BCEmbedding	netease-youdao
Cohere	Base	2023-09	多语	通用	[🤗HF]	/	Cohere	Blog
jina	Base	2023-10	中英	通用	[🤗HF]	/	Jina AI
Dmeta	400MB	2024-02	中文	通用	[🤗HF]	/	DMetaSoul
bge-m3		2024-02	中文	通用	[🤗HF]	/	BAAI	Paper
tao-8k		2023-11	中文	通用	[🤗HF]		amu
bge	s/b/l	2023-10	中文	通用	[🤗HF]	/	BAAI
gte-zh	s/b/l	2023-08	中文	通用	[🤗HF]	/	Alibaba DAMO	Paper
m3e	s/b/l	2023-06	中文	通用	[🤗HF]	/	Moka-AI
LaBSE			多语	通用	[🤗HF]	/	Sentence Transformers

[返回顶部]

大模型评估基准

1. C-Eval

C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题，涵盖了52个不同的学科和四个难度级别，查看论文了解更多细节。

[官方网站] [Github] [论文]

2. FlagEval

FlagEval是一个面向AI基础模型的评测工具包。我们的目标是探索和集合科学、公正、开放的基础模型评测基准、方法及工具，对多领域（如语言、语音、视觉及多模态）的基础模型进行多维度（如准确性、效率、鲁棒性等）的评测。我们希望通过对基础模型的评测，加深对基础模型的理解，促进相关的技术创新及产业应用。

[官方网站] [Github]

3. SuperCLUElyb

SuperCLUE琅琊榜，这是一个中文通用大模型对战评价基准，它以众包的方式提供匿名、随机的对战。在本文中，我们发布了初步的结果和基于Elo评级系统的排行榜，Elo评级是国际象棋和其他竞技游戏中广泛使用的评级系统。我们邀请整个社区加入这项工作，贡献新的模型，并通过提问和投票选出你最喜欢的答案来评估它们。

[官方网站] [Github]

4. XiezhiBenchmark

该基准包括来自13个不同学科的516个学科的220,000个多项选择题，以及15,000个来自单一学科和多个学科的问题。我们对47个最新的大型语言模型在Xiezhi上进行了评估，结果表明在科学、工程、农学、医学和艺术等领域，大型语言模型的表现超过了人类的平均水平，但在经济学、法学、教育学、文学、历史和管理学等领域，人类的表现仍然远远超过了大型语言模型。

[官方网站] [Github] [论文]

5. Open LLM Leaderboard

由HuggingFace组织的一个LLM评测榜单，目前已评估了较多主流的开源LLM模型，以英文为主。主要目标是跟踪、排名和评估最新的大语言模型和聊天机器人，让所有人方便的观察到开源社区的进展和评估这些模型。这个排行榜有一个关键优势，社区中的任何成员都可以提交模型，并在 Hugging Face 的 GPU 集群上自动评估。

[官方网站]

6. 中文大模型安全评测平台

大模型安全测评依托于一套系统的安全评测框架，涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别，包括细粒度划分的40余个二级安全类别。

[官方网站] [Github] [论文]

7. OpenCompass大语言模型评测

OpenCompass 是一款开源、高效、全面的评测大模型体系及开放平台。我们提供完整开源可复现的评测框架，支持大语言模型、多模态模型各类模型的一站式评测。利用分布式技术，即使面对千亿参数模型也能在数小时内完成评测。基于多个不同维度的高认可度数据集开放多样化的评测方式，包括零样本评测、小样本评测和思维链评测，全方位量化模型各个维度能力。

[官方网站] [Github]

[返回顶部]

在线体验大模型

注：需要申请或者注册方可体验,更多见Github

1. ChatGPT--OpenAI

OpenAI所提出的GPT相关模型，也是目前最火的大语言模型，发布版本已经到了4.0.

[官方网站]

2. New bing--微软

NewBing是微软在2023年3月推出的一款全新的搜索引擎，它基于OpenAI的大型语言模型（LLM），并结合了ChatGPT和DALL·E的技术，为用户提供了一个AI驱动的网络助手。

[官方网站]

3. 文心一言--百度

百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。

[官方网站]

4. 通义大模型--阿里

阿里大模型统一品牌，覆盖语言、听觉、多模态等领域致力于实现接近人类智慧的通用智能，让AI从“单一感官”到“五官全开”

[官方网站]

5. 星火认知大模型--科大讯飞

科大讯飞推出的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。

[官方网站]

6. Claude--Anthropic

Claude，是人工智能初创公司Anthropic 发布的一款类似ChatGPT的产品。

[官方网站]

7. ChatGLM--智谱AI

基于千亿基座模型 GLM-130B，注入代码预训练，通过有监督微调等技术实现人类意图对齐，具备问答、多轮对话、代码生成功能的中英双语大模型。

[官方网站]

8. 天工大模型--昆仑万维

天工作为一款大型语言模型，拥有强大的自然语言处理和智能交互能力，能够实现智能问答、聊天互动、文本生成等多种应用场景，并且具有丰富的知识储备，涵盖科学、技术、文化、艺术、历史等领域。

[官方网站]

9. 序列猴子大模型--出门问问

序列猴子大模型是一个具有长序列、多模态、单模型、大数据等特点的超大规模语言模型，基于其通用的表示能力与推理能力，能够进行多轮交互，打造更便捷流畅的用户体验，极大地提高了生产效率和数据处理能力，被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域。

[官方网站]

10. MOSS--复旦大学

MOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型

[官方网站]

11. 360智脑大模--360

360智脑的生成与创作、多轮对话、代码能力、阅读理解、逻辑与推理、多模态等十大核心能力可覆盖大模型全部应用场景。

[官方网站]

12. 曹植GPT大语言模型--达观数据

达观数据积极探索大语言模型LLM的实践，研发国产版GPT“曹植”系统，作为垂直、专用、自主可控的国产版ChatGPT模型，不仅实现专业领域的AIGC智能化应用，且可内置在客户各类业务系统中提供专用服务

[官方网站]

13. 日日新--商汤

商汤“日日新SenseNova”大模型体系，正式问世

不仅展示了大模型体系下的语言大模型，还展示了AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用，还揭开了依托商汤AI大装置SenseCore实现“大模型+大算力”融合创新的研发体系。

[官方网站]

14. 天燕大模型--APUS

天燕大模型是APUS公司自研的多模态大模型（LMM），具备对文本、图像、视频、音频的理解和生成能力（视频和音频的能力即将推出）。

[官方网站]

15. 元乘象--智子引擎

图文机器人

[官方网站]

16. 西湖大模型--西湖心辰

[官方网站]

17. Dongni--深思考

AI多模态搜索引擎

[官方网站]

18. 山海大模型--云知声

只需一次对话即可获取信息、知识和灵感，解决需求。是每个人身边的助理、朋友和专家。

[官方网站]

19. MiniMax大模型--MiniMax

MiniMax 最新一代的中文大语言模型帮助人类高效写作、激发创意、获取知识、做出决策现已对企业开放API体验

[官方网站]

[Back to Top]

开源模型库平台

🤗HuggingFace: The AI community building the future.

模型下载地址: https://huggingface.co/models

ModelScope: ModelScope平台是以模型为中心的模型开源社区

模型下载地址:https://modelscope.cn/models

flagopen: flagopen飞智大模型技术开源体系

模型下载地址: https://model.baai.ac.cn/models

始智AI: 中国AI开源创新社区

模型下载地址: https://wisemodel.cn/models

[Back to Top]

开源数据集库

huggfaceing数据集仓库: https://huggingface.co/datasets

包含了自然语言处理、计算机视觉、语音、多模态等数据集，内置100多个多语言公共数据集下载

ModelScope数据集仓库:https://modelscope.cn/datasets

提供了覆盖自然语言处理、计算机视觉、语音、多模态等数据集，更有阿里巴巴集团贡献的专业领域数据集，

flagopen数据集仓库: https://data.baai.ac.cn/data

内置公共数据集下载，可下200G大规模预训练语料WuDaoCorpora

cluebenchmarks数据集仓库：https://www.cluebenchmarks.com/dataSet_search.html

多个中英文NLP数据集，并可申请下载100GB的高质量中文预训练语料CLUECorpus2020

MNBVC: Massive Never-ending BT Vast Chinese corpus

超大规模中文语料集

OpenDataLab数据集仓库: https://opendatalab.com/

OpenDataLab 是有影响力的数据开源开放平台，公开数据集触手可及。

OSCAR: Open Super-large Crawled Aggregated coRpus, 多语言数据集

最新版本包含1.4T的中文语言数据集

[Back to Top]

Other-Awesome

序号	名称	说明	作者/组织	地址
1	Awesome-Chatgpt	ChatGPT资源、工具、应用和用法	awesome-chatgpt	GitHub
2	Awesome-ChatGPT-Prompts	ChatGPT模型Prompts示例集	f	GitHub
3	Awesome-LLM	大型语言模型相关资料精选列表	Hannibal046	GitHub
4	Awesome-LangChain	LangChain相关应用列表	kyrolabs	GitHub
5	Awesome-Open-Gpt	GPT开源精选项目合集（170+）	EwingYangs	GitHub
6	Awesome-Multimodal-LLMs	多模态大语言模型（MLLM）精选列表	BradyFU	GitHub
7	Awesome-Transformer-Attention	Vision Transformer & Attention论文列表	cmhungsteve	GitHub
8	Awesome-Prompt-Engineering	Prompt Engineering精选资源	promptslab	GitHub
9	Awesome-AITools	AI相关实用工具整理	ikaijua	GitHub
10	Awesome-Chinese-LLM	中文LLM开源模型、应用、数据集及教程	HqWu-HITCS	GitHub
11	Awesome-LLM4Tool	大语言模型工具相关论文和资源	OpenGVLab	GitHub
12	Awesome LLM Security	LLM安全相关工具、文档和项目	corca-ai	GitHub
13	Awesome AI Agents	AI Agent开源和闭源项目列表	e2b-dev	GitHub
14	Awesome-LLM-Notes	LLM相关笔记	kyaiooiayk	GitHub
15	Awesome-Efficient-LLM	高效大语言模型精选列表	horseee	GitHub
16	Awesome Datasets for LLM	LLM训练数据集精选	Zjh-819	GitHub
17	Awesome-Align-LLM-Human	LLMs与人类对齐的论文和资源	GaryYufei	GitHub
18	Awesome RLHF	强化学习与人类反馈（RLHF）论文	opendilab	GitHub
19	Prompt-in-context-learning	Prompt上下文学习工程指南	EgoAlpha	GitHub
20	Awesome Instruction Learning	指令学习论文和数据集阅读列表	RenzeLou	GitHub
21	Awesome-Foundation-Models	视觉和语言任务基础模型列表	uncbiag	GitHub
22	Awesome-AI-Devtools	AI驱动的开发者工具列表	jamesmurdza	GitHub
23	Awesome-Autonomous-GPT	自主AI Agent相关项目资源	ScarletPan	GitHub
24	Awesome-Papers-Autonomous-Agent	自主Agent相关论文集	lafmdp	GitHub
25	Awesome-Code-LLM	代码LLM综合研究	codefuse-ai	GitHub
26	Awesome-LLM-Compression	LLM压缩研究论文和工具	HuangOwen	GitHub
27	Autonomous-Agents	自主Agent（LLMs）	tmgthb	GitHub
28	Awesome-Large-Multimodal-Agents	大型多模态Agent	jun0wanan	GitHub
29	Awesome-LLM-Prompt-Optimization	LLM提示调优和自动优化论文	jxzhangjhu	GitHub
30	Awesome-LLMs-Datasets	LLMs文本数据集大列表	lmmlzn	GitHub
31	Awesome-RAG-Survey	RAG相关论文分类收集	hymie122	GitHub
32	Awesome-Tool-LLM	工具增强的语言模型论文	zorazrw	GitHub
33	LLM-Tool-Survey	工具学习与LLMs相关论文	quchangle1	GitHub
34	Awesome-Foundation-Model-Leaderboards	基础模型排行榜和开发工具	SAILResearch	GitHub
35	Awesome-LLM-KV-Cache	LLM KV Cache论文和代码精选	Zefan-Cai	GitHub
36	Awesome-LLM-Strawberry	OpenAI Strawberry(o1)和推理论文	hijkzzz	GitHub
37	Awesome-LLM-Resourses	全世界最好的LLM资料总结	WangRongsheng	GitHub
38	Awesome-LLM-Reasoning-Openai-o1-Survey	OpenAI o1相关工作和技术背景	wjn1996	GitHub
39	Awesome-LLM-Reasoning	解锁LLM和MLLM推理能力的论文资源	atfortes	GitHub
40	Awesome-Computer-Use-Agents	计算机使用Agent论文和博客	ranpox	GitHub
41	LLM_MultiAgents_Survey_Papers	LLM多智能体调研论文	taichengguo	GitHub
42	Awesome_Think_With_Images	让LVLMs用图像思考的研究	zhaochen0110	GitHub
43	Awesome Label-free RL Papers	无标签强化学习论文	QingyangZhang	GitHub
44	Awesome-AI-Agent-Papers	AI智能体研究论文集合	masamasa59	GitHub
45	Awesome-Large-Search-Models	搜索导向型大语言模型研究	Wu-Zongyu	GitHub
46	Awesome-Deep-Research	Agent深度研究资源	DavidZWZ	GitHub
47	Reading-List-of-LLM-Based-Data-Science-Agent	LLM数据科学Agent阅读列表	Stephen-SMJ	GitHub
48	Awesome-Agents	开源AI Agent工具和产品	kyrolabs	GitHub
49	Awesome-OpenClaw-Skills	OpenClaw社区构建的技能	VoltAgent	GitHub
50	Awesome-Claude-Code	Claude Code相关技能和工具	hesreallyhim	GitHub
51	Awesome-Claude-Skills	Claude技能、资源和工具	ComposioHQ	GitHub

[返回顶部]

NLU系列

[返回顶部]

NLU系列

BERT

2018 | BERT: 面向语言理解的深度双向Transformer预训练 | Jacob Devlin, 等 | arXiv | PDF
2019 | 针对中文BERT的整词掩码预训练 | Yiming Cui, 等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
BERT-Base	base	Google Drive	-	Google Research	GitHub	通用
BERT-wwm	base	Google Drive · 讯飞云	Google Drive	Yiming Cui	GitHub	通用
BERT-wwm-ext	base	Google Drive · 讯飞云	Google Drive	Yiming Cui	GitHub	通用
bert-base-民事	base	阿里云	-	THUNLP	GitHub	司法
bert-base-刑事	base	阿里云	-	THUNLP	GitHub	司法
BAAI-JDAI-BERT	base	京东云	-	JDAI	GitHub	电商客服对话
FinBERT	base	Google Drive · 百度网盘	Google Drive · 百度网盘	Value Simplex	GitHub	金融科技领域
EduBERT	base	好未来AI	好未来AI	tal-tech	GitHub	教育领域
guwenbert-base	base	-	百度网盘 · 🤗HF	Ethan	GitHub	古文领域
guwenbert-large	large	-	百度网盘 · 🤗HF	Ethan	GitHub	古文领域
BERT-CCPoem	small	-	thunlp	THUNLP-AIPoet	GitHub	古典诗歌

备注:

wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask

ext表示在更多数据集下训练

[返回顶部]

ChineseBERT

2021 | ChineseBERT：基于字形与拼音信息增强的中文预训练 | Zijun Sun, 等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
ChineseBERT	base	-	🤗HF	ShannonAI	GitHub	通用
ChineseBERT	large	-	🤗HF	ShannonAI	GitHub	通用

[返回顶部]

RoBERTa

2019 | RoBERTa: 一种鲁棒优化的 BERT 预训练方法 | Yinhan Liu 等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
RoBERTa-tiny-clue	tiny	Google Drive	百度网盘	CLUE	GitHub	通用
RoBERTa-tiny-pair	tiny	Google Drive	百度网盘	CLUE	GitHub	通用
RoBERTa-tiny3L768-clue	tiny	Google Drive	-	CLUE	GitHub	通用
RoBERTa-tiny3L312-clue	tiny	Google Drive	百度网盘	CLUE	GitHub	通用
RoBERTa-large-pair	large	Google Drive	百度网盘	CLUE	GitHub	通用
RoBERTa-large-clue	large	Google Drive	百度网盘	CLUE	GitHub	通用
RBT3	3层base	Google Drive · 讯飞云	Google Drive	Yiming Cui	GitHub	通用
RBTL3	3层large	Google Drive · 讯飞云	Google Drive	Yiming Cui	GitHub	通用
RBTL4	4层large	讯飞云	-	Yiming Cui	GitHub	通用
RBTL6	6层large	讯飞云	-	Yiming Cui	GitHub	通用
RoBERTa-wwm-ext	base	Google Drive · 讯飞云	Google Drive	Yiming Cui	GitHub	通用
RoBERTa-wwm-ext-large	large	Google Drive · 讯飞云	Google Drive	Yiming Cui	GitHub	通用
RoBERTa-base	base	Google Drive · 百度网盘	Google Drive · 百度网盘	brightmart	GitHub	通用
RoBERTa-Large	large	Google Drive · 百度网盘	Google Drive	brightmart	GitHub	通用
RoBERTa-tiny	tiny	🤗HF	🤗HF	DBIIR @ RUC	GitHub	通用
RoBERTa-mini	mini	🤗HF	🤗HF	DBIIR @ RUC	GitHub	通用
RoBERTa-small	small	🤗HF	🤗HF	DBIIR @ RUC	GitHub	通用
RoBERTa-medium	medium	🤗HF	🤗HF	DBIIR @ RUC	GitHub	通用
RoBERTa-base	base	🤗HF	🤗HF	DBIIR @ RUC	GitHub	通用

[返回顶部]

ALBERT

2019 | ALBERT：用于语言表示自监督学习的轻量级BERT | Zhenzhong Lan 等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Albert-tiny	tiny	Google Drive	Google Drive	brightmart	GitHub	通用
Albert-base	base	Google Drive	Google Drive	brightmart	GitHub	通用
Albert-large	large	Google Drive	Google Drive	brightmart	GitHub	通用
Albert-xlarge	xlarge	Google Drive	Google Drive	brightmart	GitHub	通用
Albert-base	base	Google Drive	-	Google Research	GitHub	通用
Albert-large	large	Google Drive	-	Google Research	GitHub	通用
Albert-xlarge	xlarge	Google Drive	-	Google Research	GitHub	通用
Albert-xxlarge	xxlarge	Google Drive	-	Google Research	GitHub	通用

[返回顶部]

NEZHA

2019 | NEZHA：面向中文理解的神经上下文表示 | Junqiu Wei 等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
NEZHA-base	base	Google Drive · 百度网盘	GitHub	HUAWEI	GitHub	通用
NEZHA-base-wwm	base	Google Drive · 百度网盘	GitHub	HUAWEI	GitHub	通用
NEZHA-large	large	Google Drive · 百度网盘	GitHub	HUAWEI	GitHub	通用
NEZHA-large-wwm	large	Google Drive · 百度网盘	GitHub	HUAWEI	GitHub	通用
WoNEZHA（word-base）	base	百度网盘	-	ZhuiyiTechnology	GitHub	通用

[返回顶部]

MacBERT

2020 | 重新审视用于中文自然语言处理的预训练模型 | Yiming Cui 等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
MacBERT-base	base	Google Drive · 讯飞云	-	Yiming Cui	GitHub	通用
MacBERT-large	large	Google Drive · 讯飞云	-	Yiming Cui	GitHub	通用

[返回顶部]

WoBERT

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
WoBERT	base	百度网盘	-	ZhuiyiTechnology	GitHub	通用
WoBERT-plus	base	百度网盘	-	ZhuiyiTechnology	GitHub	通用

[返回顶部]

XLNET

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
XLNet-base	base	Google Drive · 讯飞云	Google Drive	Yiming Cui	GitHub	通用
XLNet-mid	middle	Google Drive · 讯飞云	Google Drive	Yiming Cui	GitHub	通用
XLNet-zh-Large	large	百度网盘	-	brightmart	GitHub	通用

[返回顶部]

ELECTRA

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
ELECTRA-180g-large	large	Google Drive · 讯飞云	-	Yiming Cui	GitHub	通用
ELECTRA-180g-small-ex	small	Google Drive · 讯飞云	-	Yiming Cui	GitHub	通用
ELECTRA-180g-base	base	Google Drive · 讯飞云	-	Yiming Cui	GitHub	通用
ELECTRA-180g-small	small	Google Drive · 讯飞云	-	Yiming Cui	GitHub	通用
legal-ELECTRA-large	large	Google Drive · 讯飞云	-	Yiming Cui	GitHub	司法领域
legal-ELECTRA-base	base	Google Drive · 讯飞云	-	Yiming Cui	GitHub	司法领域
legal-ELECTRA-small	small	Google Drive · 讯飞云	-	Yiming Cui	GitHub	司法领域
ELECTRA-tiny	tiny	Google Drive · 百度网盘	-	CLUE	GitHub	通用

[回到顶部]

ZEN

2019 | ZEN: 基于 N 元语法表示增强的中文文本编码器预训练 | Shizhe Diao 等 | arXiv | PDF
2021 | ZEN 2.0: 针对 N 元语法增强文本编码器的持续训练与适配 | Yan Song 等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
ZEN-Base	base		Google Drive 百度网盘	Sinovation Ventures AI Institute	github	通用
Erlangshen-ZEN2	large		[🤗HF]	IDEA-CCNL	github	通用

[回到顶部]

ERNIE

2019 | ERNIE: 通过知识融合增强的表示学习 | Yu Sun 等 | arXiv | PDF
2020 | SKEP: 面向情感分析的情感知识增强预训练 | Hao Tian 等 | arXiv | PDF
2020 | ERNIE-Gram: 面向自然语言理解的显式 N 元语法掩码语言建模预训练 | Dongling Xiao 等 | arXiv | PDF

模型	版本	PaddlePaddle	作者	源地址	应用领域
ernie-1.0-base	base	link	PaddlePaddle	github	通用
ernie_1.0_skep_large	large	link	Baidu	github	情感分析
ernie-gram	base	link	Baidu	github	通用

备注:

PaddlePaddle 转 TensorFlow 可参考: tensorflow_ernie

PaddlePaddle 转 PyTorch 可参考: ERNIE-Pytorch

[回到顶部]

ERNIE3

2021 | ERNIE 3.0：面向语言理解和生成的大规模知识增强预训练 | 孙宇等 | arXiv | PDF
2021 | ERNIE 3.0 Titan：探索更大规模的知识增强预训练以提升语言理解和生成能力 | 王书桓等 | arXiv | PDF

模型	版本	PaddlePaddle	PyTorch	作者	源地址	应用领域
ernie-3.0-base	12层，768隐藏单元，12头	链接	[🤗HF]	PaddlePaddle	github	通用
ernie-3.0-medium	6层，768隐藏单元，12头	链接	[🤗HF]	PaddlePaddle	github	通用
ernie-3.0-mini	6层，384隐藏单元，12头	链接	[🤗HF]	PaddlePaddle	github	通用
ernie-3.0-micro	4层，384隐藏单元，12头	链接	[🤗HF]	PaddlePaddle	github	通用
ernie-3.0-nano	4层，312隐藏单元，12头	链接	[🤗HF]	PaddlePaddle	github	通用

PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

[返回顶部]

RoFormer

2021 | RoFormer：采用旋转位置编码的增强型Transformer | 苏剑林等 | arXiv | PDF
2021 | Transformer升级之路：2、博采众长的旋转式位置编码 | 苏剑林. | spaces | 博客文章

模型	版本	TensorFlow	作者	源地址	应用领域
roformer	base(L12)	百度网盘-xy9x	ZhuiyiTechnology	github	通用
roformer	small(L6)	百度网盘-gy97	ZhuiyiTechnology	github	通用
roformer-char	base(L12)	百度网盘-bt94	ZhuiyiTechnology	github	通用
roformerV2	small(L6)	百度网盘-ttn4 追一	ZhuiyiTechnology	github	通用
roformerV2	base(L12)	百度网盘-pfoh 追一	ZhuiyiTechnology	github	通用
roformerV2	large(L24)	百度网盘-npfv 追一	ZhuiyiTechnology	github	通用

[返回顶部]

StructBERT

2019 | StructBERT：将语言结构融入预训练以实现深度语言理解 | 王伟等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
StructBERT	large(L24)		阿里云	Alibaba	github	通用

[返回顶部]

Lattice-BERT

2021 | Lattice-BERT：在中文预训练语言模型中利用多粒度表示 | 赖宇轩等 | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
LatticeBERT	tiny(L4)	阿里云	Alibaba	github	通用
LatticeBERT	small(L6)	阿里云	Alibaba	github	通用
LatticeBERT	base(L12)	阿里云	Alibaba	github	通用

[返回顶部]

Mengzi-BERT

2021 | 孟子：面向轻量级但巧妙的中文预训练模型 | 张卓生等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-BERT	base(L12)		[🤗HF]	Langboat	github	通用
Mengzi-BERT-fin	base(L12)		[🤗HF]	Langboat	github	金融财经

[返回顶部]

Bloom

2022 | Bloom：BigScience 大规模开放科学开源多语言语言模型 | huggingface bigscience | - | BLOG

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
bloom-6b4-zh	6B(L30)		[🤗HF]	Langboat	github	通用

注：作者另有bloom-389m-zh到bloom-2b5-zh等多个中文模型

[返回顶部]

TaCL

2021 | TaCL：通过标记感知对比学习改进 BERT 预训练 | 苏一轩等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
TaCL	base(L12)		[🤗HF]	yxuansu	github	通用

[返回顶部]

MC-BERT

2021 | MC-BERT：用于中文生物医学文本挖掘的概念化表示学习 | alibaba-research | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
MC-BERT	base(L12)		link	alibaba-research	github	生物医疗

[返回顶部]

二郎神

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Erlangshen	large(L24)	bert		[🤗HF]	IDEA-CCNL	github	中文通用

[返回顶部]

PERT

2022 | PERT：使用打乱语言模型进行预训练的BERT | 崔一鸣等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
PERT-base	base(12L)	百度网盘-rcsw	[🤗HF]	崔一鸣	github	通用
PERT-large	large(24L)	百度网盘-e9hs	[🤗HF]	崔一鸣	github	通用

[回到顶部]

MobileBERT

2020 | MobileBERT：一种适用于资源受限设备的紧凑型任务无关BERT | 孙志青等 | arXiv | PDF

模型	版本	TensorFlow	作者	源地址	应用领域
Chinese-MobileBERT-base-f2	base	百度网盘-56bj	崔一鸣	github	通用
Chinese-MobileBERT-base-f4	base	百度网盘-v2v7	崔一鸣	github	通用
Chinese-MobileBERT-large-f2	large	百度网盘-6m5a	崔一鸣	github	通用
Chinese-MobileBERT-large-f4	large	百度网盘-3h9b	崔一鸣	github	通用

[回到顶部]

GAU-α

2022 | GAU-α：线性时间内的（FLASH）Transformer质量 | 华伟哲等 | arXiv | PDF | blog

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
chinese_GAU-alpha-char_L-24_H-768	base	下载		追一科技	github	通用

[回到顶部]

DeBERTa

2020 | DeBERTa：具有解耦注意力机制的解码增强型BERT | 何鹏程等 | arXiv | PDF |

模型	版本	PyTorch	作者	源地址	应用领域
DeBERTa-v2-Large	large	[🤗HF]	IDEA-CCNL	github	通用
DeBERTa-v2-xLarge	xlarge	[🤗HF]	IDEA-CCNL	github	通用
DeBERTa-v2	base	[🤗HF]	IDEA-CCNL	github	通用

[回到顶部]

GlyphBERT

2021 | GlyphCRM：基于汉字字形的双向编码器表示 | 李宇欣等 | arXiv | PDF |

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
GlyphCRM-base	base		[🤗HF]	HITsz-TMG	github	通用

[回到顶部]

CKBERT

2022 | 通过加速异构知识预训练重新审视并推进中文自然语言理解 | 张涛林等 | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
pai-ckbert-base-zh	base	[🤗HF]	阿里巴巴	github	通用
pai-ckbert-large-zh	large	[🤗HF]	阿里巴巴	github	通用
pai-ckbert-huge-zh	huge	[🤗HF]	阿里巴巴	github	通用

[返回顶部]

LERT

2022 | LERT：一种基于语言学动机的预训练语言模型 | 崔一鸣等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Chinese-LERT-small	15m	百度网盘-4vuy	[🤗HF]	崔一鸣	github	通用
Chinese-LERT-base	400m	百度网盘-9jgi	[🤗HF]	崔一鸣	github	通用
Chinese-LERT-large	1.2G	百度网盘-s82t	[🤗HF]	崔一鸣	github	通用

[返回顶部]

RoCBert

2022 | RoCBert：具有多模态对比学习预训练的鲁棒中文Bert | 苏辉等 | ACL | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
rocbert	base		[🤗HF]	魏伟石	github	通用

[返回顶部]

M3E

模型	版本	PyTorch	作者	源地址	备注
m3e-base	base	m3e-base	Moka-AI	uniem	文本嵌入模型
M3e-small	Small	m3e-small	Moka-AI	uniem	文本嵌入模型

[返回顶部]

LEALLA

2023 | LEALLA：利用知识蒸馏学习轻量级、语言无关的句子嵌入 | 毛卓远等 | EACL | PDF

模型	版本	PyTorch	作者	源地址	备注
LEALLA-base	base	LEALLA-base	Google Research	/	文本嵌入模型
LEALLA-large	large	LEALLA-large	Google Research	/	文本嵌入模型

[返回顶部]

NLG系列

GPT

2019 | 通过生成式预训练提升语言理解能力 | Alec Radford 等 | arXiv | PDF
2019 | 语言模型是无监督的多任务学习者 | Alec Radford 等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
GPT2	30亿语料	-	Google Drive · 百度网盘	Caspar ZHANG	GitHub	通用
GPT2	15亿语料	-	Google Drive · 百度网盘	Caspar ZHANG	GitHub	通用
CDial-GPT-LCCC-base	base	-	🤗HF	thu-coai	GitHub	中文对话
CDial-GPT2-LCCC-base	base	-	🤗HF	thu-coai	GitHub	中文对话
CDial-GPT-LCCC-large	large	-	🤗HF	thu-coai	GitHub	中文对话
GPT2-dialogue	base	-	Google Drive · 百度网盘	yangjianxin1	GitHub	闲聊对话
GPT2-mmi	base	-	Google Drive · 百度网盘	yangjianxin1	GitHub	闲聊对话
GPT2-散文模型	base	-	Google Drive · 百度网盘	Zeyao Du	GitHub	散文
GPT2-诗词模型	base	-	Google Drive · 百度网盘	Zeyao Du	GitHub	诗词
GPT2-对联模型	base	-	Google Drive · 百度网盘	Zeyao Du	GitHub	对联
RoFormer-GPT	base(L12)	百度网盘	-	ZhuiyiTechnology	GitHub	通用

[返回顶部]

GPT-3

2019 | Transformer-XL：超越固定长度上下文的注意力语言模型 | Zihang Dai 等 | arXiv | PDF
2020 | 语言模型是少样本学习者 | Tom B. Brown 等 | arXiv | PDF

模型	版本	介绍	PyTorch	作者	源地址	应用领域
Chinese-Transformer-XL	29亿参数(GPT-3)	项目首页	模型下载	THUDM	GitHub	通用

[返回顶部]

NEZHA-Gen

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
NEZHA-Gen	base	Google Drive · 百度网盘	-	HUAWEI	GitHub	通用
NEZHA-Gen	base	Google Drive · 百度网盘	-	HUAWEI	GitHub	诗歌

[返回顶部]

CPM-Generate

模型	版本	资源	PyTorch	作者	源地址	应用领域
CPM	26亿参数	项目首页	模型下载	Tsinghua AI	GitHub	通用

备注:

PyTorch转TensorFlow可参考: CPM-LM-TF2 PyTorch转PaddlePaddle可参考: CPM-Generate-Paddle

[返回顶部]

T5

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
T5	small	🤗HF	🤗HF	DBIIR @ RUC	GitHub	通用

[返回顶部]

T5-PEGASUS

模型	版本	Keras	PyTorch	作者	源地址	应用领域
T5-PEGASUS	base	百度网盘	-	ZhuiyiTechnology	GitHub	通用
T5-PEGASUS	small	百度网盘	-	ZhuiyiTechnology	GitHub	通用

Keras转PyTorch可参考: t5-pegasus-pytorch

[返回顶部]

Mengzi-T5

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-T5	base(L12)	-	🤗HF	Langboat	GitHub	通用

[返回顶部]

盘古-Alpha

2021 | 盘古-α：具有自动并行计算的大规模自回归预训练中文语言模型 | 魏增等 | arXiv | PDF

模型	版本	资源	下载地址	作者	源地址	应用领域
盘古α-2.6B	2.6G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用
盘古α-13B	12G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用
盘古α-2.6B pytorch版本	2.6G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用
盘古α-13B pytorch版本	12G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用

[回到顶部]

EVA

2021 | EVA：大规模生成式预训练的开放域中文对话系统 | 周浩等 | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
EVA	28亿参数	项目首页	模型下载	thu-coai	github	中文开放域对话	需要登陆才能下载
EVA2.0-xLarge	xlarge	项目首页	[🤗HF]	thu-coai	github	中文开放域对话
EVA2.0-large	large	项目首页	[🤗HF]	thu-coai	github	中文开放域对话
EVA2.0-base	base	项目首页	[🤗HF]	thu-coai	github	中文开放域对话

[回到顶部]

BART

2019 | BART：用于自然语言生成、翻译和理解的去噪序列到序列预训练 | 迈克·刘易斯等 | arxiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
BART-base	base		[🤗HF]	fastNLP	github	中文通用
BART-large	large		[🤗HF]	fastNLP	github	中文通用

[回到顶部]

闻仲

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Wenzhong	large(L24)	GPT2		[🤗HF]	IDEA-CCNL	github	中文通用

[回到顶部]

余元

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Yuyuan	large(L24)	GPT2		[🤗HF]	IDEA-CCNL	github	医学领域

[回到顶部]

RWKV

2021 | 一种无注意力机制的Transformer | 翟双飞等 | arXiv | PDF
2022 | RWKV语言模型 | GitHub

模型	版本	PyTorch	作者	源地址	应用领域
RWKV	base(L12)	GitHub	PENG Bo	GitHub	小说
RWKV	7B	[🤗HF]	PENG Bo	GitHub	小说
RWKV	14B	[🤗HF]	PENG Bo	GitHub	小说

[返回顶部]

PromptCLUE

模型	版本	PyTorch	作者	源地址	应用领域
PromptCLUE	base(L12)	[🤗HF]	ClueAI	GitHub	通用
PromptCLUE-v1-5	base(L12)	[🤗HF]	ClueAI	GitHub	通用
PromptCLUE-large	large	API在线调用	ClueAI	GitHub	通用

[返回顶部]

ChatYuan

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
ChatYuan	large	T5		[🤗HF]	ClueAI	GitHub	功能型对话
ChatYuan-large-v2	large	T5		[🤗HF]	ClueAI	GitHub	功能型对话

[返回顶部]

SkyText

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
SkyText	large	GPT3		[🤗HF]	SkyWorkAIGC	GitHub	通用

[返回顶部]

ProphetNet

2020 | ProphetNet：为序列到序列预训练预测未来n-gram | 齐伟珍等 | arXiv | PDF
2021 | ProphetNet-X：用于英语、中文、多语言、对话和代码生成的大规模预训练模型 | 齐伟珍等 | arXiv | PDF

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
ProphetNet-Zh				链接	微软	GitHub	通用
ProphetNet-Dialog-Zh				链接	微软	GitHub	对话

[返回顶部]

NLU-NLG系列

UniLM

2019 | 用于自然语言理解和生成的统一语言模型预训练 | 李东等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Unilm	base	百度网盘-tblr	百度网盘-etwf	YunwenTechnology	GitHub	通用

[返回顶部]

Simbert

2020 | 鱼与熊掌兼得：融合检索和生成的SimBERT模型 | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	作者	源地址	应用领域
SimBERT Tiny	tiny	百度网盘-1tp7	ZhuiyiTechnology	github	通用
SimBERT Small	small	百度网盘-nu67	ZhuiyiTechnology	github	通用
SimBERT Base	base	百度网盘-6xhq	ZhuiyiTechnology	github	通用

[Back to Top]

RoFormer-sim

2021 | SimBERTv2来了！融合检索和生成的RoFormer-Sim模型 | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	作者	源地址	应用领域
roformer-sim	base(L12)	百度网盘-2cgz	ZhuiyiTechnology	github	通用
roformer-sim	small(L6)	百度网盘-h68q	ZhuiyiTechnology	github	通用
roformer-sim-v2	base(L12)	百度网盘-w15n	ZhuiyiTechnology	github	通用

[Back to Top]

周文王

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Zhouwenwang	base(L12)	roformer		[🤗HF]	IDEA-CCNL	github	中文通用
Zhouwenwang	large(L24)	roformer		[🤗HF]	IDEA-CCNL	github	中文通用

[Back to Top]

CPM-2

2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | Zhengyan Zhang, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
CPM-2	110亿参数	项目首页	模型下载	BAAI-WuDao	github	通用	需要申请才能下载
CPM-2	100亿参数	项目首页	模型下载	BAAI-WuDao	github	中英	需要申请才能下载
CPM-2	1980亿参数	项目首页	模型下载	BAAI-WuDao	github	中英	需要申请才能下载

[Back to Top]

CPT

2021 | CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation | Yunfan Shao, et al. | arxiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
CPT-base	base(L12)		[🤗HF]	fastNLP	github	通用
CPT-large	large(L24)		[🤗HF]	fastNLP	github	通用

[Back to Top]

GLM

2022 | GLM：基于自回归空白填充的通用语言模型预训练 | 郑晓杜等 | arXiv | PDF
2022 | GLM-130B：一个开放的双语预训练模型 | 曾傲寒等 | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
GLM	large	[🤗HF]	THUDM	github	通用
GLM	xxlarge	[🤗HF]	THUDM	github	通用
GLM-130B	130B	申请地址1 申请地址2	THUDM	github	通用

[返回顶部]

PLUG

2019 | StructBERT：将语言结构融入预训练以实现深度语言理解 | 王伟等 | arXiv | PDF
2020 | PALM：为上下文条件生成预训练自编码与自回归语言模型 | 毕斌等 | ACL| PDF

模型	版本	模型下载	作者	源地址	应用领域
PLUG	27B	AliceMind-需要申请	Alibaba	github	通用

[返回顶部]

OPD

2022 | 待定 | , et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
OPD	6.3B	项目首页	模型下载	thu-coai	github	中文开放域对话	需要申请才能下载

[返回顶部]

多模态

WenLan

2021 | WenLan：通过大规模多模态预训练连接视觉与语言 | 霍宇奇等 | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
BriVL(WenLan)	10亿参数	项目首页	模型下载	BAAI-WuDao	github	中文通用图文	需要登陆才能下载

[返回顶部]

CogView

2021 | CogView：通过Transformer掌握文本到图像生成 | 丁明等 | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
CogView	40亿参数	项目首页	模型下载	THUDM	github	中文多模态生成模型	需要登陆才能下载

[返回顶部]

紫东太初

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
紫东太初- light_vision_text		项目首页	模型下载	中科院自动化所	github	中文图像-文本领域	紫东太初多模态大模型中的图像-文本预训练模型
紫东太初-text[GPT]	32亿参数	项目首页	百度网盘-nos5	中科院自动化所	github	中文通用	紫东太初多模态大模型中的文本预训练模型
紫东太初-vision		项目首页	模型下载	中科院自动化所	github	视觉领域	紫东太初多模态大模型中的视觉预训练模型
紫东太初-speech		项目首页	模型下载	中科院自动化所	github	语音领域	紫东太初多模态大模型中的语音检测与识别多任务模型

[返回顶部]

Mengzi-oscar

2021 | 孟子：面向中文的轻量级但巧妙的预训练模型 | 张卓生等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-oscar	base(L12)		[🤗HF]	Langboat	github	中文多模态-图文

[返回顶部]

R2D2

2022 | Zero和R2D2：大规模中文跨模态基准测试及视觉-语言框架 | 谢春宇等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	首页	应用领域
R2D2ViT-L	large		Google	yuxie11	github	zero	中文多模态-图文
PRD2ViT-L	large		Google	yuxie11	github	zero	中文多模态-图文

[返回顶部]

Chinese-CLIP

2021 | 从自然语言监督中学习可迁移的视觉模型 | 亚历克·拉德福德等 | arXiv | PDF
2022 | Chinese CLIP：中文对比视觉-语言预训练 | 杨安等 | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
CN-CLIP_RN50	77M	aliyuncs	OFA-Sys	github	中文多模态-图文
CN-CLIP_ViT-B/16	188M	aliyuncs	OFA-Sys	github	中文多模态-图文
CN-CLIP_ViT-L/14	406M	aliyuncs	OFA-Sys	github	中文多模态-图文
CN-CLIP_{ViT-L/14@336px}	407M	aliyuncs	OFA-Sys	github	中文多模态-图文
CN-CLIP_ViT-H/14	958M	aliyuncs	OFA-Sys	github	中文多模态-图文

[返回顶部]

TaiYi-CLIP

2021 | 从自然语言监督中学习可迁移的视觉模型 | 阿莱克·拉德福德等 | arXiv | PDF
2022 | 凤神榜1.0：成为中国认知智能的基础 | 王俊杰等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Taiyi-CLIP-Roberta-large-326M-Chinese	base		[🤗HF]	IDEA-CCNL	github	中文多模态-图文

[回到顶部]

AltCLIP

2022 | AltCLIP：通过修改CLIP中的语言编码器以扩展语言能力 | 陈仲志等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
AltCLIP	3.22G		[🤗HF]	FlagAI	github	中文多模态-图文

[回到顶部]

AltDiffusion

2022 | AltCLIP：通过修改CLIP中的语言编码器以扩展语言能力 | 陈仲志等 | arXiv | PDF
2022 | 使用潜在扩散模型进行高分辨率图像合成 | Rombach等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
AltDiffusion	8.0G		[🤗HF]	FlagAI	github	中文多模态-图文

[回到顶部]

Taiyi-Stable-Diffusion

2022 | 凤神榜1.0：成为中国认知智能的基础 | 王俊杰等 | arXiv | PDF
2022 | 使用潜在扩散模型进行高分辨率图像合成 | Rombach等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Taiyi-Stable-Diffusion	1B		[🤗HF]	IDEA-CCNL	github	中文多模态-图文

[回到顶部]

wukong

2022 | Wukong：一个拥有1亿参数的大规模中文跨模态预训练基准 | 顾嘉熙等 | arXiv | PDF

模型	PyTorch	作者	源地址	应用领域
CLIP	url	HUAWEI	github	中文多模态-图文
FILIP	url	HUAWEI	github	中文多模态-图文
wukong	url	HUAWEI	github	中文多模态-图文

[回到顶部]

OFA

2022 | OFA：通过简单的序列到序列学习框架统一架构、任务和模态 | 王鹏等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
OFA			link	OFA-Sys	github	中文多模态-图文
OFA-Chinese			[🤗HF]	杨建新	github	中文多模态-图文

[回到顶部]

QA-CLIP

模型	版本	视觉架构	PyTorch	作者	源地址	应用领域
QA-CLIPRN50	77M	ResNet50	[🤗HF]	腾讯	QA-CLIP	中文多模态-图文
QA-CLIPViT-B/16	188M	ViT-B/16	[🤗HF]	腾讯	QA-CLIP	中文多模态-图文
QA-CLIPViT-L/14	406M	ViT-L/14	[🤗HF]	腾讯	QA-CLIP	中文多模态-图文

[回到顶部]

表格

SDCUP

2021 | 通过模式依赖学习改进文本到SQL | 胡斌远等 | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
sdcup	base		阿里云	Alibaba	github	中文表格
sdcup	large		阿里云	Alibaba	github	中文表格

[回到顶部]

更新

2026.04.12 增加MiniMax-M2.7，MiniMax 开源的推理大模型，230B 总参数 MoE 架构，激活 10B 参数，支持 Agent Teams、复杂 Skills 和动态工具搜索
2026.04.06 增加Gemma-4，Google DeepMind 开源的多模态大模型，包含 E2B/E4B/26B A4B(MoE)/31B(Dense) 四种尺寸，支持文本/图像/音频多模态输入，256K 上下文，原生 Thinking 推理模式和 Function Calling 能力
2026.02.16 增加Step-3.5-Flash, GLM-5, MiniMax-M2.5, Kimi-K2.5, Ring-2.5-1T、GLM-OCR, Ace-Step1.5, HunyuanImage-3.0-Instruct、Qwen3-Coder-Next
2025.12.12 增加[deepseek-3.2]
2025.10.12 增加[Ling-1T,KAT-Dev-72B-Exp, GLM-4.6 ]
2025.09.20 增加[Tongyi DeepResearch,Qwen3-Next,Magistral Small,VoxCPM,VibeVoice,HunyuanImage]
2025.08.19 增加[gpt-oss-20B,gpt-oss-120B,Baichuan-M2,Ovis2.5,GLM-4.5V]
2025.08.05 增加[GLM-4.5,Hunyuan,Qwen3-Thinking-2507,Step3,Kimi-k2,Qwen3-Coder]
2025.07.07 增加[Kimi-VL-Thinking,GLM-4.1V-Thinking,Dhanishtha-2.0,ERNIE-4.5]
2025.06.29 增加[Qwen3-Embedding,Skywork-SWE，Hunyuan-A13B]
2025.06.17 增加[MiniMax-M1,Kimi-Dev]
2025.05.29 增加[DeepSeek-R1-0528,QwenLong-L1,Dolphin]
2025.05.07 增加[Qwen3,MiMo]
2025.04.15 增加[GLM-Z1-0414. DeepCoder, Kimi-VL-Thinking, Skywork-OR1]
2025.03.22 增加[Skywork-R1V,FIN-R1]
2025.03.09 增加[QwQ-32B, Aya Vision,CogView4]
2025.02.26 增加[Moonlight、Wan2.1、Step-Audio-Chat]
2025.02.15 增加[Ovis2]
2025.01.19 增加[MiniMax-01, miniCPM-O， OuteTTS]
2025.01.12 增加Sky-T1,search-o1
2025.01.02 增加Huatuo-o1
2024.12.25 增加[QVQ-72B]
2024.12.16 增加[Megrez-3B-Omni, DeepSeek-VL2]
2024.11.29 增加QwQ-32B-Preview,Marco-o1 ,Skywork-01-Open,HK-01aw
2024.11.15 增加Qwen-2.5-coder, OpenCoder
2024.11.05 增加Hunyuan-Large
2024.10.26 增加GLM-4-Voice,Pangea,Aya-Expanse
2024.10.22 增加Granite 3.0,一套全新的轻量级、多语种支持的语言模型，专为推理、编程和工具使用设计，可在计算资源受限的环境中运行，适合企业使用和定制
2024.09.19 增加Qwen2.5
2024.09.08 增加DeepSeekV2.5, MiniCPM3, Yi-Coder
2024.08.30 增加C4AI Command R+ 08-2024,Qwen2-VL
2024.07.26 增加JIUTIAN-Chat,Tele-FLM
2024.07.24 增加Meta-llama3.1
2024.07.05 增加CodeGeeX4
2024.07.04 增加internlm2.5
2024.06.19 增加MAP-NEO-Chat，MAP-NEO is a fully open-sourced Large Language Model that includes the pretraining data, a data processing pipeline (Matrix), pretraining scripts, and alignment code.
2024.06.18 增加DeepSeek-Coder-V2、Nemotron-4
2024.06.14 增加Index-Chat
2024.06.08 增加Qwen2,ChatTTS
2024.06.03 增加GLM-4、Skywork-MoE
2024.05.30 增加Yuan2.0-M32: Mixture of Experts with Attention Router
2024.05.20 增加[CogVLM2,360VL,HunyuanDiT,星辰-Chat]
2024.05.13 增加[Yi-1.5]
2024.05.07 增加[XVERSE-V,DeepSeek-V2,XVERSE-MoE]
2024.04.27 增加Qwen1.5-110B, Llama3-zh
2024.04.14 增加MiniCPM-V2、WaveCoder、codegemma、Sailor、Nanbeige2-Chat、MiniCPM-MoE、Zhinao-Chat
2024.04.12 增加XVERSE-MoE
2024.04.08 增加SoftTiger、HammerLLM
2024.04.06 增加Qwen1.5-32B
2024.04.04 增加Mengzi3
2024.03.29 增加Qwen-Audio、Qwen-MoE
2024.03.13 增加Command-R
2024.03.01 增加Breeze-Instruct, starcoder2
2024.02.18 增加aya-101、chemLLM
2024.02.06 增加Qwen1.5
2024.02.02 增加MiniCPM, TuringMM-Chat
2024.02.01 增加LongAlign-Chat，Chinese-Mixtral-Chat
2024.01.31 增加iFlytekSpark-Chat，rwkv-5-world
2024.01.23 增加Yi-VL-6/34B
2024.01.22 增加orion-4B
2024.01.19 增加internlm2-chat，Chinese-Mixtral
2024.01.10 增加Telechat，Code Millenials
2024.01.09 增加kagentlms,具有Agents的规划、反思、工具使用等能力的系列大模型
2024.01.05 增加WizardCoder-33B-V1.1
2023.12.27 增加YaYi-30B-Chat
2023.12.05 增加SUS-Chat-34B、Aquila2-Chat-70B、Alaya-Chat-7B
2023.12.01 增加Qwen-Base-1.8/72B,Qwen-Chat-1.8/72B,Qwen-Audio
2023.11.30 增加Yuan-2.0、DeepSeek-Base,DeepSeek-Chat
2023.11.20 增加Alaya-Chat-7B、OrionStar-Yi-Chat-34B
2023.11.11 增加XVERSE-65B、Nanbeige-Chat-16B、OpenChat 3.5
2023.11.03 增加SPHINX、Tongyi-Finance、Phind、DeepSeek-Coder
2023.11.02 增加AndesGPT-7B、SeaLLM、BlueLM
2023.10.31 增加Zephyr-7B、Mistral-7b
2023.10.25 增加zhiyin、zhilu
2023.10.20 增加cross、taiyi、fuyu、Ziya-visual、CodeShell、CogVLM
2023.10.17 增加Ziya2-13B-Base、Ziya2-13B-Chat
2023.10.12 增加AquilaChat2-7/13B、AquilaChat2-16K、Vulture-180B
2023.10.04 增加DISC-LawLLM、WiNGPT、ziya-coding、Vulture、AgriGPT
2023.09.25 增加Colossal-LLaMA-2-7B,相较于原始LLaMA-2，在成功提升中文能力的基础上，进一步提升其英文能力，性能可与开源社区同规模预训练SOTA模型媲美。
2023.09.20 增加InternLM-20B、OpenBA,InternLM-20B已发布，包括基础版和对话版。OpenBA是一个从头开始预训练的开源15B双语非对称端到端模型。
2023.09.08 增加FLM-101B、falcon-180B、Openbuddy-70B、TigerBot-70B
2023.09.06 增加Baichuan2,Baichuan 2 是百川智能推出的新一代开源大语言模型，采用 2.6 万亿 Tokens 的高质量语料训练。
2023.09.01 增加DISC-MedLLM、YuLan-Chat-2、Chinese-Alpaca-2-16K,Vally
2023.08.29 增加CodeLLAma、Atom,IDEFICS
2023.08.25 增加sqlcoder,一个 SOTA 大型语言模型， SQLCoder 将自然语言问题转换为 SQL 查询。在开发者的开源评估框架 SQLEval 中，SQLCoder 的性能明显优于所有主要的开源模型，并且优于 OpenAI 的 GPT-3.5。
2023.08.23 增加Qwen-VL,Qwen-VL 是阿里云研发的大规模视觉语言模型（Large Vision Language Model, LVLM）。Qwen-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。
2023.08.21 增加智海-录问,智海-录问(wisdomInterrogatory)是由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型。
2023.08.15 增加WizardMath,
2023.08.09 增加TigerBot-13B,在Llama-2的基础上以虎博积累的技术和数据继续训练，不但保持了Llama-2出色的英文能力，更是在中文能力上填补了Llama-2的不足，各项主流中文任务中超过Llama-2的49%，在开源同类模型中具有竞争力。
2023.08.07 增加XVERSE-13B,XVERSE-13B,它支持40多种语言、8192上下文长度。在多项中英文测评中，性能超过了同尺寸（130亿参数）的LLama2、Baichuan等。
2023.08.03 增加通义千问,通义千问-7B（Qwen-7B）是阿里云研发的通义千问大模型系列的70亿参数规模的模型。
2023.07.31 增加LLasM、Chinese-LLaVA多模态大模型
2023.07.31 增加Chinese-Llama-2.原版Llama-2的基础上扩充并优化了中文词表，使用了120G大规模中文数据进行增量预训练，相关模型支持4K上下文并可通过NTK方法最高扩展至18K+
2023.07.29 增加BatGPT，Mozi，StarGLM.
2023.07.27 增加WizardLM-v1.2.
2023.07.25 增加相关Awesome列表
2023.07.24 增加Llama2-chinese-chat、Jiang-chat等对话语言模型。
2023.07.19 增加LLaMA2,Meta 发布了大家期待已久的免费可商用版本 Llama 2。
2023.07.16 增加PolyLM,PolyLM是一个通晓多语言语言的大规模语言模型，该模型可以应用于对话问答、文本生成、机器翻译和情感分析等领域，能够自动生成高质量的多语言文本。
2023.07.11 增加Baichuan-13B,baichuan-13B是由百川智能开发的一个开源可商用的大规模预训练语言模型。
2023.07.10 增加WizardLM-13B-V1.1
2023.07.09 增加VisualCLA多模态大模型
2023.07.04 增加书生·浦语,书生·浦语大模型，包含面向实用场景的70亿参数基础模型与对话模型.
2023.07.04 增加yuren,vicuna,CuteGPT,ailawyer
2023.06.30 增加VisCPM,VisCPM 是一个开源的多模态大模型系列，支持中英双语的多模态对话能力（VisCPM-Chat模型）和文到图生成能力（VisCPM-Paint模型），在中文多模态开源模型中达到最佳水平。
2023.06.28 增加PULSE,PULSE-中文医疗大语言模型。
2023.06.26 增加CoLLaMA,CoLLaMA是基于代码的多语言大模型。
2023.06.25 增加ChatGLM2-6B,ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本。
2023.06.24 增加TechGPT,TechGPT是“东北大学知识图谱研究组”发布的垂直领域大语言模型。
2023.06.20 增加Yayi、BayLing,百聆（BayLing）是一个强化了语言对齐的指令跟随大规模语言模型;Yayi大模型在百万级人工构造的高质量领域数据上进行指令微调得到，训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域。
2023.06.19 增加panda,Panda是海外中文开源大语言模型。
2023.06.18 增加ZhiXi,ZhiXi基于Llama的针对知识抽取的大模型。
2023.06.15 增加Baichuan-7B,baichuan-7B是由百川智能开发的一个开源可商用的大规模预训练语言模型。
2023.06.14 增加Chinese-Falcon,Chinese-Falcon 模型在 Falcon 基础上扩充中文词表，在中英文数据上增量预训练。模型以 Apache License 2.0 协议开源，支持商业用途。。
2023.06.13 增加OpenLLaMA-Chinese,OpenLLaMA-Chinese是免费的中文大型语言模型，基于OpenLLaMA，可用于非商业和商业目的。
2023.06.09 增加QA-CLIP,M3E,Aquila,QA-CLIP是中文CLIP模型,M3E是文本嵌入模型,Aquila是语言大模型。
2023.06.08 增加YuLan,YuLan是由中国人名大学开源的双语言任务大模型,开源13B和65B大小。
2023.06.08 增加Chinese-Alpaca-33B,Chinese-LLaMA-33B，中文LLaMA/Alpaca-33B。
2023.06.07 增加Tigerbot,TigerBot是一款国产自研的多语言任务大模型,开源7B和180B大小。
2023.06.06 增加Video-LLaMA,BiLLa,Video-LLaMA是一个用于视频理解的指令调整的视觉语言模型，BiLLa是开源的推理能力增强的中英双语LLaMA模型。
2023.05.26 增加XuanYuan,XrayGLM,XuanYuan是国内首个开源的千亿级中文对话大模型,XrayGLM是中文医学领域多模态大语言模型。
2023.05.21 增加ziya,BLOOMChat,Ziya-LLaMA-13B-v1拥有130亿参数，从LLaMA-13B开始重新构建中文词表，进行千亿token量级的已知的最大规模继续预训练，使模型具备原生中文能力.
2023.05.18 增加VisualGLM-6B,VisualGLM-6B 是一个开源的，支持图像、中文和英文的多模态对话语言模型。
2023.05.16 增加BiLLa,开源中英文双语大模型。
2023.05.12 增加Bactrian-X,开源多语言大模型。
2023.05.08 增加OpenBuddy,一款强大的开源多语言聊天机器人模型。
2023.04.26 更新LLaMA-zh、YuYan,增加LLama-zh、Yuyan、扁鹊等LLM和chatLLm模型
2023.04.25 增加BBT，基于Transformer和Decoder-Only的架构开发了BigBang Transformer「乾元」大规模预训练语言模型。
2023.04.21 增加MOSS,更新复旦大学开源的MOSS模型以及对应的数据集。
2023.04.20 增加Phoenix,基于BLOOMZ-mt模型微调得到的大语言模型。
2023.04.19 增加ChatPLUG，该模型基于PLUG，使用亿级互联网社交数据、百科数据预训练和百万级高质量对话数据进行instruction微调得到。
2023.04.18 增加COIG数据集，用不同方法构建中文指令数据集的项目，收集了大约20万个中文指令样本。
2023.04.13 更新ChatLLM，增加HuaTuo,Med_ChatGLM两个医学模型。
2023.04.09 更新中文指令数据集 ChatLLM，增加个性角色对话数据集、chinese-alpaca-13b模型。
2023.04.03 更新中文指令数据集 ChatLLM，增加BELLE-13b模型，math-0.25，multiturn-0.8数据集。
2023.04.02 更新ChatLLM列表，增加由香港科技大学开源的7B/13B/33B/65B中文大型语言模型
2023.03.30 增加Chinese-Vicuna模型，Traditional-Chinese-alpaca数据集
2023.03.29 增加OFA,中文多模态统一预训练模型,OFA是阿里巴巴发布的多模态统一预训练模型.
2023.03.29 更新中文指令数据集，增加InstructionWild数据集。
2023.03.23 增加中文指令数据集，并初始化三个已公开数据集。
2023.03.20 增加BELLE,开源中文对话大模型-70亿参数,基于Stanford Alpaca，对中文做了优化，模型调优仅使用由ChatGPT生产的数据.
2023.03.14 增加ChatLLM列表，主要收集具备问答跟对话等功能的大型语言模型,并增加ChatGLM模型。
2023.03.11 增加ProphetNet,提出了一种新的自监督学习目标——同时预测多个未来字符，在序列到序列的多个自然语言生成任务都取得了优异性能。
2023.03.10 增加RoCBert,利用对抗学习生成更多噪声数据，用来进行中文BERT模型的训练，得到鲁棒性更强的中文BERT模型。
2023.03.03 更新LLM,新增多语言模型Flan-ul2和Flan-t5-xxl
2023.02.21 增加LLM,大规模语言模型列表，只罗列出参数量大于10B以上模型，其余量级模型，可参考对应的项目地址。
2023.01.14 增加SkyText,SkyText是由奇点智源发布的中文GPT3预训练大模型，可以进行聊天、问答、中英互译等不同的任务.
2023.01.14 增加ChatYuan,ChatYuan模型可以用于问答、结合上下文做对话、做各种生成任务，包括创意性写作，也能回答一些像法律、新冠等领域问题。
2022.12.10 增加PromptCLUE,全中文任务零样本学习模型,基于1000亿token中文语料上预训练，并且在数百种任务上进行Prompt任务式训练。
2022.12.01 增加wukong,基于一个名为「悟空」的大型中文跨模态数据集，其中包含来自网络的 1 亿个图文对，预训练的多模态模型。
2022.11.30 增加AltDiffusion，使用 AltCLIP 作为text encoder，基于 Stable Diffusion 训练了中英双语Diffusion模型(AltDiffusion)
2022.11.30 增加AltCLIP,一个简单高效的方法去训练更加优秀的双语CLIP模型,名为AltCLIP。AltCLIP基于 OpenAI CLIP 训练。
2022.11.30 增加Taiyi-Stable-Diffusion,首个开源的中英双语Stable Diffusion模型，基于0.2亿筛选过的中文图文对训练。
2022.11.9 增加OPD,OPD是一个中文开放域对话预训练模型，拥有63亿参数，在70GB高质量对话数据上进行训练而成.大规模 & 高性能
2022.11.8 更新Chinese-CLIP,Chinese-CLIP是中文多模态图文表征模型，更新后Chinese-CLIP扩充到5个模型规模，同时增加了技术报告论文以及检索demo，同时在达摩院ModelScope平台同步集成。
2022.10.31 增加LERT,为了验证通过显式注入语言学知识预训练模型能否获得进一步性能提升，HFL提出了一种语言学信息增强的预训练模型LERT，融合了多种语言学知识。大量实验结果表明，在同等训练数据规模下，LERT能够带来显著性能提升。
2022.10.14 增加CKBERT，中文知识库增强BERT预训练语言模型。
2022.10.01 增加GlyphBERT, GlyphBERT是一个包含了汉字字形特征中文预训练模型。它通过将输入的字符渲染成图像并设计成多通道位置特征图的形式，并设计了一个两层残差卷积神经网络模块来提取字符的图像特征进行训练。
2022.09.30 增加DeBERTa，一个中文版的DeBERTa-v2，我们用悟道语料库(180G版本)进行预训练，在预训练阶段中使用了封神框架。
2022.09.30 增加TaiYi-CLIP,首个开源的中文CLIP模型，1.23亿图文对上进行预训练的文本端RoBERTa-large。
2022.09.27 增加PLUG,PLUG集语言理解与生成能力于一身，支持文本生成、问答、语义理解等多类下游任务，PLUG开源将助力开发者在语言理解和语言生成上做出更多延拓。
2022.09.11 增加bloom-6b4,多语言预训练bloom系列生成模型7b1参数(https://huggingface.co/bigscience/bloom-7b1 )的中文vocab提取，bloom系列另有最大176B模型(https://huggingface.co/bigscience/bloom).
2022.09.11 增加GLM-130B,提出了开源的双语预训练生成模型 GLM(General Language Model)。
2022.09.11 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation 2.6B和13B 生成模型pytorch版
2022.06.29 增加ERNIE 3.0,大规模知识增强预训练语言理解和生成.
2022.06.22 增加Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework，基于大规模中文跨模态基准数据集Zero，训练视觉语言预训练框架 R2D2，用于大规模跨模态学习。
2022.06.15 增加GLM: General Language Model Pretraining with Autoregressive Blank Infilling,提出了一种新的通用语言模型 GLM(General Language Model)。使用自回归填空目标进行预训练，可以针对各种自然语言理解和生成任务进行微调。
2022.05.16 增加GAU-α,主要提出了一个融合了Attention层和FFN层的新设计GAU（Gated Attention Unit，门控注意力单元），它是新模型更快、更省、更好的关键，此外它使得整个模型只有一种层，也显得更为优雅。
2022.03.27 增加RoFormer-V2,RoFormer升级版，主要通过结构的简化来提升速度，并通过无监督预训练和有监督预训练的结合来提升效果，从而达到了速度与效果的“双赢”。
2022.03.02 增加MobileBERT,MobileBERT是BERT-large模型更“苗条”的版本，使用了瓶颈结构（bottleneck）并且对自注意力和前馈神经网络之间的平衡做了细致的设计。
2022.02.24 增加PERT: Pre-Training BERT with Permuted Language Model,一种基于乱序语言模型的预训练模型（PERT），在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。
2021.12.06 增加SDCUP: Improving Text-to-SQL with Schema Dependency Learning,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP。
2021.11.27 增加RWKV中文预训练生成模型,类似 GPT-2,模型参考地址：RWKV-LM
2021.11.27 增加IDEA研究院开源的封神榜系列语言模型，包含二郎神、周文王、闻仲、余元。
2021.11.25 增加MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining, 生物医学领域的中文预训练模型.
2021.11.24 增加TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning, Token-aware对比学习预训练模型.
2021.10.18 增加Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese,基于语言学信息融入和训练加速等方法研发了 Mengzi 系列模型.
2021.10.14 增加中文版BART,训练比较可靠的中文版BART，为中文生成类任务如摘要等提供Baseline.
2021.10.14 增加CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation,CPT：兼顾理解和生成的中文预训练模型.
2021.10.13 增加紫东太初多模态大模型: 全球首个多模态图文音预训练模型,实现了视觉-文本-语音三模态统一表示，构建了三模态预训练大模型。
2021.09.19 增加CogView: Mastering Text-to-Image Generation via Transformers,世界最大的中文多模态生成模型,模型支持文生成图为基础的多领域下游任务.
2021.09.10 增加WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training，首个中文通用图文多模态大规模预训练模型。
2021.09.10 增加EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training，一个开放领域的中文对话预训练模型。
2021.08.19 增加Chinese-Transformer-XL：基于中文预训练语料WuDaoCorpus（290G）训练的GPT-3模型。
2021.08.16 增加CPM-2: Large-scale Cost-effective Pre-trained Language Models
2021.08.16 增加Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
2021.07.19 增加roformer-sim-v2：利用标注数据增强版本
2021.07.15 增加BERT-CCPoem：古典诗歌语料训练的BERT
2021.07.06 增加ChineseBERT：Chinese Pretraining Enhanced by Glyph and Pinyin Information
2021.06.22 增加StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
2021.06.14 增加RoFormer：Enhanced Transformer with Rotary Position Embedding
2021.05.25 增加ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding
2021.04.28 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation
2021.03.16 增加T5-PEGASUS: 开源一个中文生成式预训练模型
2021.03.09 增加UER系列模型
2021.03.04 增加WoBERT: 基于词颗粒度的中文
2020.11.11 初始化BERT系列模型BERT

[返回顶部]

贡献者

杂项

↳ 点赞者

↳ 复刻者

↳ 点赞历史

[![点赞历史图表](https://oss.gittoolsai.com/images/lonePatient_awesome-pretrained-chinese-nlp-models_readme_8a91615a517e.png)](https://star-history.com/#lonePatient/awesome-pretrained-chinese-nlp-models&Date)

awesome-pretrained-chinese-nlp-models 快速上手指南

本仓库是一个高质量的中文预训练模型、多模态模型及大语言模型（LLM）的精选合集，旨在为开发者提供便捷的模型索引与下载入口。由于本仓库主要作为资源列表而非单一可安装的工具库，以下指南将指导你如何获取环境依赖、访问国内镜像源以及加载列表中的主流模型。

环境准备

在开始使用前，请确保你的开发环境满足以下基本要求：

操作系统: Linux (推荐 Ubuntu 20.04+), macOS, 或 Windows (WSL2 推荐)。
Python 版本: Python 3.8 或更高版本。
硬件要求:
- 推理: 建议至少 16GB RAM。运行 7B 参数以上的模型建议使用 NVIDIA GPU (显存 >= 16GB)，或使用量化版本。
- 微调/训练: 需要多卡 NVIDIA GPU 环境。
前置依赖:
- pip 包管理工具
- git
- transformers (Hugging Face 生态核心库)
- torch (PyTorch)

安装步骤

1. 克隆资源仓库

首先获取模型列表索引：

git clone https://github.com/HuggingFaceFW/awesome-pretrained-chinese-nlp-models.git
cd awesome-pretrained-chinese-nlp-models

2. 配置国内镜像加速 (强烈推荐)

由于网络原因，直接从 Hugging Face 官方下载模型可能较慢或失败。国内用户请务必配置镜像源。

方法 A: 设置环境变量 (临时生效) 在终端执行以下命令，将请求重定向至国内镜像：

export HF_ENDPOINT=https://hf-mirror.com

方法 B: 永久配置 (推荐) 修改或创建 ~/.bashrc (Linux/Mac) 或系统环境变量，添加以下内容：

export HF_ENDPOINT=https://hf-mirror.com

注：部分模型也提供了 ModelScope (魔搭社区) 或百度网盘链接，如遇 Hugging Face 镜像不可用，请参考仓库表格中的备用下载链接。

3. 安装核心依赖库

安装运行大多数列表模型所需的通用库：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate sentencepiece protobuf

基本使用

本仓库中的模型通常通过 transformers 库进行加载。以下以列表中热门的 Qwen2.5 (通义千问) 和 ChatGLM3 为例，展示最基础的加载与推理流程。

示例 1: 加载通用对话大模型 (以 Qwen2.5 为例)

from transformers import AutoModelForCausalLM, AutoTokenizer

# 指定模型名称 (对应仓库表格中的下载链接 ID)
model_name = "Qwen/Qwen2.5-7B-Instruct"

# 加载分词器和模型
# 若已配置 HF_ENDPOINT 环境变量，将自动从国内镜像下载
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    trust_remote_code=True,
    torch_dtype="auto" 
)

# 构建输入
prompt = "你好，请介绍一下你自己。"
messages = [
    {"role": "system", "content": "你是一个有用的助手。"},
    {"role": "user", "content": prompt}
]

text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 生成回复
generated_ids = model.generate(**inputs, max_new_tokens=512)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

示例 2: 加载经典中文 NLU 模型 (以 MacBERT 为例)

适用于文本分类、命名实体识别等任务。

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 选择仓库中收录的 NLU 模型
model_name = "hfl/chinese-macbert-base"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 简单推理示例
text = "这家餐厅的味道非常好，服务也很周到。"
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)

with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.softmax(outputs.logits, dim=-1)

print(f"输入文本: {text}")
print(f"预测概率分布: {predictions}")

获取特定模型说明

对于仓库中列出的其他特定模型（如垂直领域模型、多模态模型），请访问表格中对应的 GitHub 项目链接 或 Paper 链接，查阅该模型专属的推理代码和参数配置说明。

常见问题

有类似 CLIP 这样的中文文字 - 图片模型吗？

如何申请或获取新收录的大模型（如 GLM-130B）？

是否有完全开源（包含数据、代码和权重）的中文大模型推荐？

DeepSeek-V2-Base 模型的参数量是多少？

基于 ChatYuan 微调的医疗领域模型（如扁鹊 BianQue）是否被收录？

THUDM 发布的 GLM 系列模型是否包含在收录列表中？

有没有专门用于生成中文网文小说的模型？

BMInf 是一个独立的模型还是一个工具包？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 158.1k|★★☆☆☆|今天

开发框架Agent语言模型

opencode

OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信

★ 144.3k|★☆☆☆☆|今天

Agent插件

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|6天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|1周前

插件Agent图像