awesome-pretrained-chinese-nlp-models
awesome-pretrained-chinese-nlp-models 是一个专注于收集和整理高质量中文预训练模型、大语言模型及多模态模型的开源资源库。在自然语言处理领域,面对层出不穷的新技术和分散的模型资源,开发者往往难以快速找到适合中文场景的优质基座。该仓库正是为了解决这一痛点而生,它系统性地梳理了从经典的 BERT、RoBERTa 到最新的 Qwen、Yi、DeepSeek 等主流大模型,涵盖了通用基础、垂直行业(如金融、医疗)、对话交互、逻辑推理以及图文多模态等多个维度。
除了提供详细的模型参数、架构类型和下载链接外,awesome-pretrained-chinese-nlp-models 还整合了评估基准、在线体验入口、指令数据集及相关技术论文,甚至贴心地提供了国内访问 HuggingFace 的镜像建议,极大降低了资源获取门槛。无论是从事算法研究的研究人员、需要选型落地的 AI 工程师,还是对中文大模型感兴趣的技术爱好者,都能在这里一站式获取前沿、可靠的模型资源。其持续更新的机制确保了内容的时效性,是探索中文 NLP 技术生态不可或缺的导航指南。
使用场景
某金融科技公司算法团队正紧急开发一款面向国内用户的智能合规审核助手,需要快速集成高精度的中文语义理解与生成能力。
没有 awesome-pretrained-chinese-nlp-models 时
- 模型筛选如大海捞针:团队成员需分散在 GitHub、HuggingFace 及各高校官网手动搜索,难以辨别模型是否针对中文金融场景优化,耗时数天仍无定论。
- 下载链接失效或缓慢:找到的模型往往托管在海外服务器,国内下载速度极慢甚至频繁中断,且缺乏稳定的镜像地址推荐,严重拖慢开发进度。
- 技术选型风险高:缺乏统一的架构分类(如 NLU/NLG/多模态)和参数量对比,容易误选不适合部署的超大模型或不支持因果解码的架构,导致后期重构。
- 垂直领域适配难:找不到经过法律或金融语料微调的现成模型,只能从零开始训练,数据清洗和算力成本高昂。
使用 awesome-pretrained-chinese-nlp-models 后
- 一站式精准定位:直接通过“垂直对话大模型”分类索引,迅速锁定专为金融法律领域优化的模型(如 Yi-1.5 或 Qwen 系列),将选型时间从数天缩短至半小时。
- 高速下载通道:利用仓库提供的 HuggingFace 镜像地址建议,团队成员在国内网络环境下也能稳定、快速地拉取数十 GB 的大模型权重文件。
- 清晰的技术图谱:借助详细的架构标注(CD/ND/ED)和参数量分级表,团队立即排除了不匹配的边缘设备部署方案,确定了最优的 7B 参数级模型。
- 开箱即用的基座:直接复用列表中已验证的高质量中文预训练模型进行微调,大幅减少了基础训练成本,使项目提前两周上线。
awesome-pretrained-chinese-nlp-models 通过聚合高质量资源与提供本地化下载支持,将中文 NLP 模型的选型与落地效率提升了十倍不止。
运行环境要求
未说明
未说明

快速开始
优秀的预训练中文NLP模型

在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型、中文多模态模型、中文大语言模型等内容(感谢分享资源的大佬),并将持续更新......
国内下载HuggingFace仓库模型推荐使用HuggingFace镜像地址: https://hf-mirror.com/
扩展目录
📚 模型分类索引
🤖 大模型系列
| 分类 | 说明 | 链接 |
|---|---|---|
| 通用基础大模型 | 参数 >7B 的基础语言模型 | 查看 |
| 垂直基础大模型 | 金融、医疗、法律等垂直领域 | 查看 |
| 通用对话大模型 | 对话式通用语言模型 | 查看 |
| 垂直对话大模型 | 垂直领域对话模型 | 查看 |
| 多模态对话大模型 | 图文等多模态模型 | 查看 |
| 推理类大模型 | 数学、逻辑推理模型 | 查看 |
🔧 预训练模型系列
| 系列 | 代表模型 | 链接 |
|---|---|---|
| NLU系列 | BERT · RoBERTa · ALBERT · ERNIE · MacBERT · ELECTRA | 查看全部 29 个 |
| NLG系列 | GPT · GPT-3 · T5 · BART · CPM · RWKV | 查看全部 18 个 |
| NLU-NLG系列 | UniLM · GLM · CPT · SimBERT | 查看全部 9 个 |
| 多模态系列 | WenLan · CogView · Chinese-CLIP · OFA | 查看全部 13 个 |
📦 资源与工具
📊 大模型评估基准 · 🧪 在线体验 · 📦 开源模型库平台 · 📚 开源数据集库 · 📝 中文指令数据集 · 🎯 Embedding · 🔗 Other-Awesome
📌 备注说明
ND: Non-Causal Decoder (非因果解码器) | CD: Causal Decoder (因果解码器) | ED: Encoder-Decoder (编码器-解码器)
Base-LLM
大规模基础模型:表格中只罗列出参数量
大于7B以上模型。
| 模型 | 大小 | 时间 | 语言 | 架构 | 下载 | 项目 | 机构 | 备注 |
|---|---|---|---|---|---|---|---|---|
| XVERSE-MoE | 255B / A36B | 2024-09 | 中英 | MoE | 🤗HF | GitHub | xverse-ai | - |
| Qwen-2.5 | 0.5~72B (7档) | 2024-09 | 中英 | CD | 🤗HF | GitHub | QwenLM | Blog |
| Tele-FLM | 52B / 102B / 1TB | 2024-07 | 多语 | CD | 🤗HF | - | CofeAI | Paper |
| meta-llama-3.1 | 8B / 70B / 405B | 2024-07 | 多语 | CD | 🤗HF | GitHub | meta-llama | - |
| internlm2.5-Base | 7B | 2024-07 | 中英 | CD | 🤗HF | GitHub | InternLM | Technical Report |
| MAP-NEO-Base | 2B / 7B | 2024-06 | 中英 | CD | 🤗HF | GitHub | multimodal-art-projection | Paper |
| Nemotron-4-Base | 340B | 2024-06 | 多语 | CD | 🤗HF | - | NVIDIA | Technical Report |
| Index-Base | 1.9B | 2024-06 | 中英 | CD | 🤗HF | GitHub | bilibili | Report |
| Qwen2-Base | 0.5B / 2B / 5B / 7B / 72B | 2024-06 | 多语 | CD | 🤗HF | GitHub | QwenLM | Blog |
| GLM-4-Base | 9B | 2024-06 | 多语 | - | 🤗HF | GitHub | THUDM | - |
| Yi-1.5-Base | 6B / 9B / 34B | 2024-05 | 中英 | CD | 🤗HF | GitHub | 01-ai | Paper |
| DeepSeek-V2-Base | A21B / 236B | 2024-05 | 中英 | MoE | 🤗HF | GitHub | deepseek-ai | Paper |
| Llama-3-Base | 8B / 70B | 2024-04 | 多语 | CD | 🤗HF | GitHub | Meta Llama | - |
| Zhinao-Base | 7B | 2024-04 | 中英 | CD | 🤗HF · ModelScope | - | 奇虎科技 | - |
| XVERSE-MoE | A4.2B / 25.8B | 2024-04 | 中英 | MoE | 🤗HF | GitHub | xverse-ai | - |
| SoftTiger-Base | 13B / 70B | 2024-04 | 中英 | CD | 🤗HF | GitHub | TigerResearch | - |
| HammerLLM | 1.4B | 2024-04 | 中英 | - | 🤗HF | GitHub | DataHammer | - |
| Mengzi3-Base | 13B | 2024-04 | 中英 | CD | 🤗HF | GitHub | Langboat | - |
| Breeze-Base | 7B | 2024-02 | 中英 | - | 🤗HF | - | MediaTek Research | - |
| TowerBase | 7B / 13B | 2024-02 | 多语 | CD | 🤗HF | - | Unbabel | - |
| Qwen1.5-Base | 0.5~110B (7档) | 2024-02 | 中英 | - | 🤗HF | GitHub | Qwen | Blog |
| LongAlign-Base | 6B / 7B / 13B | 2024-02 | 中英 | - | 🤗HF | GitHub | THUDM | Paper |
| Chinese-Mixtral-Base | 8x7B | 2024-02 | 中英 | MoE | Baidu · 🤗HF | GitHub | Yiming Cui | - |
| iFlytekSpark-Base | 13B | 2024-01 | 中英 | CD | MindSpore | - | 科大讯飞 | - |
| Orion-Base | 14B | 2024-01 | 多语 | CD | 🤗HF | GitHub | OrionStarAI | Paper |
| YaYi2-Base | 30B | 2023-12 | 多语 | CD | 🤗HF | GitHub | wenge-research | Paper |
| Aquila2-Base | 7B / 34B / 70B | 2023-12 | 中英 | CD | 🤗HF | GitHub | FlagAI | - |
| Alaya-Base | 7B | 2023-12 | 中英 | CD | 🤗HF | GitHub | DataCanvas | - |
| Qwen-Base | 1.8B / 7B / 14B / 72B | 2023-12 | 中英 | CD | 🤗HF | GitHub | 阿里云 | Paper |
| DeepSeek-Base | 7B / 67B | 2023-11 | 中英 | CD | 🤗HF | GitHub | deepseek-ai | - |
| Yuan-2.0 | 2B / 51B / 102B | 2023-11 | 中英 | CD | GitHub · 🤗HF | GitHub | IEIT-Yuan | - |
| Yi-Base | 6B / 9B / 34B | 2023-11 | 中英 | CD | 🤗HF | GitHub | 01.AI | - |
| XVERSE-Base | 7B / 13B / 65B | 2023-11 | 多语 | CD | 🤗HF | GitHub | 元象科技 | - |
| Nanbeige-Base | 16B | 2023-11 | 中英 | CD | 🤗HF | GitHub | Nanbeige LLM Lab | - |
| LingoWhale | 8B | 2023-11 | 中英 | CD | 🤗HF | GitHub | DeepLang AI | - |
| Skywork-Base | 13B | 2023-10 | 中文 | CD | 🤗HF | GitHub | SkyworkAI | Paper |
| BlueLM-Base | 7B | 2023-11 | 中英 | CD | 🤗HF | GitHub | vivo AI Lab | - |
| ChatGLM3-Base | 6B | 2023-10 | 中英 | ND | 🤗HF | GitHub | THUDM | - |
| Ziya2-Base | 13B | 2023-10 | 中英 | CD | 🤗HF | GitHub | IDEA研究院 | - |
| OpenBA-LM | 15B | 2023-09 | 中英 | ED | 🤗HF | GitHub | OpenNLG Group | Paper |
| TigerBot-Base-70B | 80B | 2023-09 | 多语 | CD | 🤗HF | GitHub | 虎博科技 | Paper |
| FLM | 101B | 2023-09 | 中英 | CD | 🤗HF | - | CofeAI | - |
| Falcon | 7B / 40B / 180B | 2023-09 | 多语 | CD | 🤗HF | - | Technology Innovation Institute | - |
| Baichuan2 | 7B / 13B | 2023-09 | 中文 | CD | 🤗HF | GitHub | 百川智能 | - |
| Chinese-LLaMA-2-16K | 7B / 13B | 2023-08 | 中英 | CD | 🤗HF | GitHub | Yiming Cui | - |
| YuLan-LLaMA-2 | 13B | 2023-08 | 中英 | CD | 🤗HF | GitHub | 中国人民大学 | - |
| Aquila-Base-33B | 33B | 2023-08 | 中英 | CD | TODO | GitHub | FlagAI | - |
| TigerBot-Base-13B | 13B | 2023-08 | 多语 | CD | 🤗HF | GitHub | 虎博科技 | - |
| Linly-Chinese-LLaMA-2 | 7B / 13B | 2023-07 | 中英 | CD | 🤗HF | GitHub | 深圳大学计算机视觉研究所 | - |
| Chinese-LLaMA-2 | 7B | 2023-07 | 中英 | CD | 🤗HF | GitHub | Yiming Cui | - |
| Jiang-Base | 13B | 2023-07 | 中文 | CD | 🤗HF | - | 知未智能 | - |
| BlueWhaleX | 7B / 13B | 2023-07 | 中文 | CD | 🤗HF | - | 蓝鲸国数 | - |
| Llama-2 | 7B / 13B / 70B | 2023-07 | 多语 | CD | 🤗HF | GitHub | Meta | Paper |
| PolyLM | 13B | 2023-07 | 多语 | CD | 🤗HF | ModelScope | 达摩院 | Paper |
| Baichuan-13B | 13B | 2023-07 | 中文 | 通用 | [🤗HF] | Baichuan-13B | 百川智能 | CD |
| TigerBot | 7B | 2023-07 | 多语 | CD | 🤗HF | GitHub | 虎博科技 | - |
| InternLM-Base | 7B / 20B | 2023-07 | 中文 | CD | 🤗HF | GitHub | 上海人工智能实验室 | Report |
| MPT | 7B / 30B | 2023-06 | 多语 | CD | 🤗HF | GitHub | MosaicML | - |
| Baichuan | 7B | 2023-06 | 中英 | 通用 | [🤗HF] | baichuan-7B | 百川智能 | CD |
| Chinese-Falcon | 7B | 2023-06 | 中英 | CD | 🤗HF | GitHub | 深圳大学计算机视觉研究所 | Blog |
| AtomGPT | 13B | 2023-06 | 中英 | CD | 🤗HF | - | 原子回声 | - |
| Aquila | 7B | 2023-06 | 中英 | 通用 | [🤗HF] | Aquila | FlagAI | CD |
| Chinese-LLaMA | 33B | 2023-06 | 中英 | CD | 🤗HF | GitHub | Yiming Cui | - |
| TigerBot | 7B | 2023-06 | 多语 | CD | 🤗HF | GitHub | 虎博科技 | - |
| Panda-OpenLLaMA | 7B | 2023-05 | 中英 | CD | 🤗HF | GitHub | dandelionsllm | - |
| Panda | 7/13B | 2023-05 | 中英 | 通用 | [🤗HF] | pandallm | dandelionsllm | CD |
| OpenLLaMA | 13B | 2023-05 | 中英 | CD | 🤗HF | GitHub | 深圳大学计算机视觉研究所 | - |
| BiLLa-LLM | 7B | 2023-05 | 中英 | CD | 🤗HF | GitHub | Zhongli Li | - |
| Ziya-LLaMA-Reward | 7B | 2023-05 | 中英 | CD | 🤗HF | GitHub | IDEA研究院 | - |
| YuYan | 11B | 2023-04 | 中文 | 通用 | [🤗HF] | / | 网易伏羲 | CD |
| Chinese-LLaMA | 7B / 13B / 33B | 2023-04 | 中文 | CD | 🤗HF | GitHub | 深圳大学计算机视觉研究所 | Blog |
| OpenChineseLLaMA | 7B | 2023-04 | 中英 | CD | 🤗HF | GitHub | OpenLMLab | - |
| MOSS-003 | 16B | 2023-04 | 中英 | CD | 🤗HF | GitHub | 复旦大学 | - |
| BBT-2-Text | 13B / 12B | 2023-04 | 中文 | CD | 申请 | GitHub | 超对称 | Paper |
| Chinese-LLaMA | 13B | 2023-04 | 中英 | CD | 🤗HF | GitHub | Yiming Cui | - |
| Flan-UL2 | 20B | 2023-03 | 多语 | ED | 🤗HF | GitHub | Paper | |
| CPM-Bee | 10B | 2023-01 | 中英 | CD | 🤗HF | GitHub | OpenBMB | - |
| BLOOM | 176B | 2022-11 | 多语 | CD | 🤗HF | GitHub | BigScience | Paper |
| BLOOMZ | 176B | 2022-11 | 多语 | CD | 🤗HF | GitHub | BigScience | Paper |
| Flan-T5-XXL | 11B | 2022-11 | 多语 | ED | 🤗HF | GitHub | Paper | |
| CPM-Ant+ | 10B | 2022-10 | 中英 | CD | BMB | GitHub | OpenBMB | Blog |
| GLM-130B | 130B | 2022-10 | 中英 | ND | 申请 | GitHub | 清华大学 | Paper |
| CPM-Ant | 10B | 2022-09 | 中文 | CD | 🤗HF | GitHub | OpenBMB | Blog |
| GLM | 10B | 2022-09 | 中文 | ND | 🤗HF | GitHub | 清华大学 | Paper |
| Yuan-1.0 | 245B | 2021-09 | 中文 | CD | API | GitHub | 浪潮 | Paper |
| CPM-2 | 10B / 11B / 200B | 2021-06 | 中文 | ED | 申请 | GitHub | 智源研究院 | Paper |
| PanGu-Alpha | 13B / 200B | 2021-05 | 中文 | CD | 🤗HF | OpenI | 鹏城实验室 | Paper |
| PLUG | 27B | 2021-04 | 中文 | ED | 申请 | GitHub | 阿里巴巴 | - |
| GPT-3 | 13B / 30B | 2021-04 | 中文 | CD | TODO | ModelScope | 达摩院 | - |
[返回顶部]
领域专用大模型
各个垂直领域开源基础模型
| 模型 | 大小 | 时间 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 架构 | 文献 | 备注 |
|---|---|---|---|---|---|---|---|---|---|---|
| 通义千问2.5 | 1.5/7B | 2024-09 | 中英 | 代码 | 🤗HF | Qwen2.5 | QwenLM | CD | Blog | |
| 通义千问2.5 | 1.5/7/72B | 2024-09 | 中英 | 数学 | 🤗HF | Qwen2.5 | QwenLM | CD | Blog | |
| 通义金融基础 | 14B | 2023-11 | 中文 | 金融 | ModelScope | 通义金融-14B | 通义金融大模型 | CD | ||
| ChiMed-GPT | 13B | 2023-10 | 中文 | 医疗 | [🤗HF] | ChiMed-GPT | 中国科学技术大学 | CD | Paper | |
| CodeShell-base | 7B | 2023-10 | 中英 | 代码 | [🤗HF] | codeshell | WisdomShell | CD | ||
| WiNGPT-base | 7B | 2023-09 | 中文 | 医学 | [🤗HF] | WiNGPT2 | Winning Health AI Research | CD | ||
| 玄元 | 70B | 2023-09 | 中文 | 金融 | [🤗HF] | XuanYuan | 度小满 | CD | Report | |
| CodeLLaMA | 7/13/ 34B |
2023-08 | 多语 | 代码 | [🤗HF] | codellama | Meta Research | CD | Paper | |
| educhat-base-002 | 7/13B | 2023-06 | 中英 | 教育 | [🤗HF] | EduChat | 华东师范大学 | CD | ||
| AquilaCode-NV | 7B | 2023-06 | 中英 | 代码 | [🤗HF] | Aquila | FlagAI | CD | ||
| AquilaCode-TS | 7B | 2023-06 | 中英 | 代码 | [🤗HF] | Aquila | FlagAI | CD | ||
| LaWGPT | 7B | 2023-05 | 中英 | 法律 | [🤗HF] | LawGPT | Pengxiao Song | CD | ||
| CodeGeeX | 13B | 2022-06 | 多语 | 代码 | 申请 | CodeGeeX | 清华大学 | CD | blog |
[返回顶部]
对话型大模型
具备问答和对话等功能的大型语言模型。
| 模型 | 大小 | 时间 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 架构 | 文献 |
|---|---|---|---|---|---|---|---|---|---|
| GLM-4.6 | A32/355B | 2025-10 | 中英 | 通用 | Hugging Face | GLM-4.5 | zai-org | MoE | technical blog |
| Ling-1T | 1T | 2025-10 | 多语 | 通用 | 🤗 Huggingface | / | inclusionAI | CD | |
| Qwen3-Next | A3/80B | 2025-09 | 中英 | 通用 | 🤗 Huggingface | Qwen3 | QwenLM | MoE | Qwen3-Next |
| Kimi-k2 | A32B/1T | 2025-08 | 中英 | 通用 | HF | Kimi-K2 | MoonshotAI | MoE | Paper |
| ERNIE-4.5 | A47/300B A3/21B | 2025-07 | 中英 | 通用 | 🤗 Huggingface | / | BaiDu | MoE | Technical Report |
| Qwen-3 | 4/14/30/235B | 2025-05 | 中英 | 通用 | 🤗HF | Qwen3 | QwenLM | CD/MoE | blog |
| MiMo | 7B | 2025-05 | 中英 | 通用 | 🤗HF | MiMo | XiaomiMiMo | CD | Paper |
| GLM-4-0414 | 9/32B | 2025-04 | 多语 | 通用 | 🤗HF | GLM-4 | THUDM | ||
| Moonlight | A3/16B | 2025-02 | 中英 | 通用 | 🤗HF | Moonlight | MoonshotAI | MoE | Tech Report |
| phi-4 | 14B | 2025--01 | 多语 | 通用 | 🤗HF | / | Microsoft | CD | Phi-4 Technical Report |
| InternLM3 | 8B | 2025--01 | 中英 | 通用 | 🤗HF | InternLM | InternLM | CD | Technical Report |
| deepseek-v3 | 671B | 2024-12 | 多语 | 通用 | 🤗HF | DeepSeek-V3 | deepseek-ai | MoE | Paper Link |
| Megrez-3B-Instruct | 3B | 2024-12 | 中英 | 通用 | 🤗HF | Infini-Megrez | infinigence | CD | |
| Athene-V2-Chat | 72B | 2024-11 | 中英 | 通用 | 🤗HF | / | Nexusflow | CD | Blog |
| Athene-V2-Agent | 72B | 2024-11 | 中英 | 工具调用 | 🤗HF | / | Nexusflow | CD | Blog |
| Hunyuan-Large | A52/389B | 2024-11 | 中英 | 通用 | 🤗HF | Tencent-Hunyuan-Large | Tencent | MoE | Paper |
| Aya-Expanse | 8/32B | 2024-10 | 多语 | 通用 | 🤗HF | / | Cohere For AI | CD | |
| Granite 3.0 | 1/2/3/8B | 2024-10 | 多语 | 通用 | 🤗HF | granite-3.0-language-models | ibm-granite | CD | Paper |
| Granite 3.0-MoE | 1B/3B/A400M | 2024-10 | 多语 | 通用 | 🤗HF | granite-3.0-language-models | ibm-granite | MoE | Paper |
| TeleChat2 | 115B | 2024-09 | 中英 | 通用 | 🤖 ModelScope | TeleChat2 | Tele-AI | CD | |
| Qwen-2.5 | 0.5/1.5/3/7/14/32/72B | 2024-09 | 中英 | 通用 | 🤗HF | Qwen2.5 | QwenLM | CD | Blog |
| XVERSE-MoE | 255B/A36B | 2024-09 | 中英 | 通用 | 🤗HF | XVERSE-MoE-A36B | xverse-ai | MoE | |
| DeepSeek-V2.5 | 236B/A21B | 2024-09 | 中英 | 通用 | 🤗HF | DeepSeek-V2 | deepseek-ai | MOE | Paper |
| MiniCPM3 | 4B | 2024-09 | 中英 | 通用 | 🤗HF | MiniCPM | OpenBMB | CD | MiniCPM Paper |
| C4AI Command R+ 08-2024 | 104B | 2024-08 | 多语 | 通用 | 🤗HF | / | CohereForAI | CD | |
| JIUTIAN-Chat | 39/A13B | 2024-07 | 中英 | 通用 | 🤖MS | / | 中国移动JiuTian-AI | MOE | |
| meta-llama-3.1 | 8/70/405B | 2024-07 | 多语 | 通用 | [🤗HF] | llama3 | meta-llama | CD | |
| internlm2.5-chat | 7B | 2024-07 | 中英 | 通用 | [🤗HF] | InternLM | InternLM | CD | 📜Technical Report |
| Mistral-large-insruct-2407 | 123B | 2024-07 | 多语 | 通用 | 🤗HF | / | Mistral AI | blog post | |
| DeepSeek-V2-Chat-0628 | 236B | 2024-07 | 中英 | 通用 | 🤗HF | DeepSeek-V2 | deepseek-ai | MOE | Paper |
| C4ai-command-r-plus | 104B | 2024-07 | 多语 | 通用 | 🤗HF | / | CohereForAI | CD | |
| Gemma-2-chat | 9/27B | 2024-06 | 多语 | 通用 | 🤗HF | / | CD | ||
| MAP-NEO-Chat | 2/7B | 2024-06 | 中英 | 通用 | 🤗HF | MAP-NEO | multimodal-art-projection | CD | Paper |
| GEB-Chat | 1.3B | 2024-06 | 中英 | 通用 | 🤗HF | / | GEB-AGI | CD | Paper |
| Nemotron-4-Chat | 340B | 2024-06 | 多语 | 通用 | 🤗HF | / | NVIDIA | CD | technical report. |
| Index-Chat | 1.9B | 2024-06 | 中英 | 通用 | 🤗HF | Index-1.9B | bilibili | CD | Report |
| Qwen2-MoE | 57B/A14B | 2024-06 | 多语 | 通用 | 🤗HF | Qwen2 | QwenLM | MoE | Blog |
| Qwen2-Chat | 0.5/2/5/7/72B | 2024-06 | 多语 | 通用 | 🤗HF | Qwen2 | QwenLM | CD | Blog |
| GLM-4-Chat | 9B | 2024-06 | 多语 | 通用 | 🤗HF | GLM-4 | THUDM | / | |
| Skywork-MoE | 16/A22B/146B | 2024-06 | 中英 | 通用 | 🤗HF | Skywork-MoE | SkyworkAI | MoE | Tech Report |
| Yuan2.0 | 40/A3.7B | 2024-05 | 中英 | 通用 | 🤗HF | Yuan2.0-M32 | IEIT-Yuan | MOE | Paper |
| 星辰-Chat | 52B | 2024-05 | 中英 | 通用 | 🤗HF | TeleChat-52B | Tele-AI | CD | |
| LingLong | 317M | 2024-05 | 中英 | 通用 | 🤗HF | linglong | nkcs-iclab | CD | |
| Sailor | 14B | 2024-05 | 7语 | 通用 | 🤗HF | sailor-llm | sail-sg | CD | Paper |
| Nanbeige2 | 8/16B | 2024-05 | 中英 | 通用 | 🤗HF | Nanbeige | Nanbeige | CD | |
| Yi-1.5-Chat | 6/9/34B | 2024-05 | 中英 | 通用 | 🤗HF | Yi-1.5 | 01-ai | CD | Paper |
| DeepSeek-V2-Chat | A21B/236B | 2024-05 | 中英 | 通用 | 🤗HF | DeepSeek-V2 | deepseek-ai | MOE | Paper |
| XVERSE-MoE | A4.2B/25.8B | 2024-05 | 中英 | 通用 | 🤗HF | XVERSE-MoE-A4.2B | xverse-ai | MOE | |
| Llama3-zh | 8/70B | 2024-04 | 中英 | 通用 | 🤗HF | / | / | CD | llama3中文列表 |
| Llama3-Chinese-Chat | 8B | 2024-04 | 中英 | 通用 | 🤗HF | / | Shenzhi Wang | CD | |
| Llama-3-Chat | 8/70B | 2024-04 | 多语 | 通用 | 🤗HF | llama3 | Meta Llama | CD | |
| Zhinao-Chat | 7B | 2024-04 | 中英 | 通用 | 🤗HF 🤖 | / | 奇虎科技 | CD | |
| MiniCPM-MoE | 8x2B | 2024-04 | 中英 | 通用 | 🤗HF | MiniCPM | OpenBMB | MoE | |
| Nanbeige2-Chat | 8B | 2024-04 | 中英 | 通用 | 🤗HF | Nanbeige | Nanbeige LLM Lab | CD | |
| Sailor | 7B | 2024-04 | 多语 | 通用 | 🤗HF | sailor-llm | Sea AI Lab | CD | Paper |
| Mengzi3-Chat | 13B | 2024-04 | 中英 | 通用 | 🤗HF | Mengzi3 | Langboat | CD | |
| Qwen-MoE | 2.7B | 2024-03 | 中英 | 通用 | 🤗HF | Qwen1.5 | Qwen | MoE | Blog |
| Command-R | 35B | 2024-03 | 多语 | 通用 | 🤗HF | / | CohereForAI | CD | |
| Breeze-Instruct | 7B | 2024-02 | 中英 | 通用 | 🤗HF | / | MediaTek Research | ||
| aya-101 | 13B | 2024-02 | 多语 | 通用 | 🤗HF | / | Cohere For AI | CD | Paper |
| ChemLLM | 7B | 2024-02 | 多语 | 通用 | 🤗HF | / | AI4Chem | CD | Paper |
| TowerInstruct | 7/13B | 2024-02 | 多语 | 通用 | [🤗HF] | / | Unbabel | CD | |
| Qwen1.5-Chat | 0.5/1.8/4/ 7/14/32/72/110B |
2024-02 | 中英 | 通用 | [🤗HF] | Qwen1.5 | Qwen | / | Blog |
| MiniCPM | 2B | 2024-02 | 中英 | 通用 | [🤗HF] ModelScope | MiniCPM | OpenBMB | / | Report |
| LongAlign-Chat | 6/7/13B | 2024-02 | 中英 | 通用 | [🤗HF] | LongAlign | THUDM | / | Paper |
| Chinese-Mixtral-Chat | 8x7B | 2024-02 | 中英 | 通用 | [Baidu] [🤗HF] | Chinese-Mixtral | Yiming Cui | MOE | |
| iFlytekSpark-Chat | 13B | 2024-01 | 中英 | 通用 | mindspore | / | 科大讯飞 | CD | |
| rwkv-5-world | 0.1/1/ 3/7B |
2023-01 | 多语 | 通用 | [🤗HF] | RWKV-LM | BlinkDL | URL | |
| Orion-Chat | 14B | 2024-01 | 多语 | 通用 | [🤗HF] | Orion | OrionStarAI | CD | Paper |
| internlm2-chat | 7/20B | 2024-01 | 中英 | 通用 | [🤗HF] | InternLM | InternLM | CD | Report |
| Chinese-Mixtral | 8x7B | 2023-01 | 中英 | 通用 | [🤗HF] | / | HIT-SCIR | CD-MOE | |
| Telechat | 7/12B | 2024-01 | 中英 | 通用 | [🤗HF] | Telechatx | Tele-AI | CD | Report |
| kagentlms | 7/13B | 2024-01 | 中英 | 通用 | [🤗HF] | KwaiAgents | KwaiKEG | ||
| YaYi2-Chat | 30B | 2023-12 | 多语 | 通用 | [🤗HF] | YAYI2 | wenge-research | CD | Paper |
| SUS-Chat | 34/72B | 2023-12 | 中英 | 通用 | [🤗HF] | SUS-Chat | SUSTech-IDEA | CD | |
| Aquila2-Chat | 7/34/70B | 2023-12 | 中英 | 通用 | [🤗HF] | Aquila2 | FlagAI | CD | |
| Alaya-Chat | 7B | 2023-12 | 中英 | 通用 | [🤗HF] | Alaya | DataCanvas | CD | |
| Qwen-Chat | 1.8/7/ 14/72B |
2023-12 | 中英 | 通用 | [🤗HF] | Qwen | 阿里云 | CD | Paper Report Report2 |
| DeepSeek-Chat | 7/67B | 2023-11 | 中英 | 通用 | [🤗HF] | DeepSeek-LLM | deepseek-ai | CD | |
| Yi-Chat | 6/34B | 2023-11 | 中英 | 通用 | [🤗HF] | Yi | 01.AI | CD | |
| Alaya-Chat | 7B | 2023-11 | 中英 | 通用 | [🤗HF] | Alaya | DataCanvasIO | CD | |
| OrionStar-Yi-Chat | 34B | 2023-11 | 中英 | 通用 | [🤗HF] | OrionStar-Yi-34B-Chat | OrionStarAI | CD | |
| Nanbeige-Chat | 16B | 2023-11 | 中英 | 通用 | [🤗HF] | Nanbeige | Nanbeige LLM Lab | CD | |
| OpenChat 3.5 | 7B | 2023-11 | 中英 | 通用 | [🤗HF] | openchat | OpenChat | CD | Paper |
| XVERSE-Chat | 7/13B | 2023-11 | 多语 | 通用 | [🤗HF] | XVERSE | 元象科技 | CD | |
| AndesGPT | 7B | 2023-11 | 中文 | 通用 | [🤗HF] | AndesGPT-7B | OPPO-Mente-Lab | CD | |
| SeaLLM-Chat | 13B | 2023-11 | 多语 | 通用 | [🤗HF] | SeaLLMs | SeaLLMs | CD | |
| BlueLM | 7B | 2023-11 | 中英 | 通用 | [🤗HF] | BlueLM | vivo AI Lab | CD | |
| Skywork-chat | 13B | 2023-10 | 中文 | 通用 | [🤗HF] | Skywork | SkyworkAI | CD | Paper |
| Zephyr | 7B | 2023-10 | 多语 | 通用 | [🤗HF] | alignment-handbook | Hugging Face H4 | CD | Paper |
| Mistral | 7B | 2023-10 | 多语 | 通用 | [🤗HF] | mistral-src | Mistral AI | CD | Paper |
| chatglm3 | 6B | 2023-10 | 中英 | 通用 | [🤗HF] | ChatGLM3 | THUDM | ND | |
| Zhiyin-chat | 7B | 2023-10 | 中英 | 通用 | [🤗HF] | Zhiyin | 中科院声学所 | CD | |
| Ziya2-Chat | 13B | 2023-10 | 中英 | 通用 | [🤗HF] | Fengshenbang-LM | IDEA研究院 | CD | |
| Vulture | 40/180B | 2023-10 | 多语 | 通用 | [🤗HF] | / | VILM-AI | TODO | |
| Vulture | 3/7/ 40/180B |
2023-09 | 多语 | 通用 | [🤗HF] | / | VILM | CD | |
| Colossal-LLaMA-2 | 7B | 2023-09 | 中英 | 通用 | [🤗HF] | ColossalAI | HPC-AI Tech | CD | Blog |
| OpenBA-chat | 15B | 2023-09 | 中英 | 通用 | TODO | OpenBA | OpenNLG Group | ED | Paper |
| WeMix-LLaMA2 | 7/70B | 2023-09 | 中英 | 通用 | [🤗HF] | WeMix-LLM | Alpha-VLLM | CD | |
| Stable Beluga | 7/13/70B | 2023-09 | 中英 | 通用 | [🤗HF] | / | Stability AI | CD | |
| TigerBot-chat | 70B | 2023-09 | 中英 | 通用 | [🤗HF] | TigerBot | 虎博科技 | CD | Paper |
| Openbuddy_llama | 70B | 2023-09 | 多语 | 通用 | [🤗HF] | OpenBuddy | OpenBuddy | CD | |
| falcon-180B-chat | 180B | 2023-09 | 多语 | 通用 | [🤗HF] | / | Technology Innovation Institute | CD | |
| Baichuan2 | 7/13B | 2023-09 | 中文 | 通用 | [🤗HF] | Baichuan2 | 百川智能 | CD | |
| Chinese-Alpaca-2-16K | 7/13B | 2023-09 | 中英 | 通用 | [🤗HF] | Chinese-LLaMA-Alpaca-2 | Yiming Cui | CD | |
| InternLM-Chat-8k | 7B | 2023-08 | 中文 | 通用 | [🤗HF] | InternLM | 上海人工智能实验室 | CD | report |
| InternLM-Chat-v1.1 | 7B | 2023-08 | 中文 | 通用 | [🤗HF] | InternLM | 上海人工智能实验室 | CD | report |
| YuLan-Chat-2 | 13B | 2023-08 | 中英 | 通用 | [🤗HF] | YuLan-Chat | 中国人民大学 | CD | |
| falcon | 7/40B | 2023-06 | 多语 | 通用 | [🤗HF] | [🤗HF] | Technology Innovation Institute | CD | |
| Toucan | 7B | 2023-08 | 中英 | 通用 | [🤗HF] | Toucan-LLM | Kendryte | CD | |
| Zhuzhi | 6B | 2023-08 | 中英 | 通用 | [🤗HF] | Zhuzhi-6B | 竹间智能 | ND | |
| Atom | 7B | 2023-08 | 中英 | 通用 | [🤗HF] | Llama2-Chinese | FlagAlpha | CD | |
| openbuddy | 3/7/ 13/40B |
2023-08 | 多语 | 通用 | [🤗HF] | OpenBuddy | OpenBuddy | CD | |
| Aquila-Chat-33B | 33B | 2023-08 | 中英 | 通用 | TODO | Aquila | FlagAI | CD | |
| vicuna-V1.5-16K | 7/13B | 2023-08 | 多语 | 通用 | [🤗HF] | FastChat | lm-sys | CD | Paper |
| vicuna-V1.5 | 7/13B | 2023-08 | 多语 | 通用 | [🤗HF] | FastChat | lm-sys | CD | Paper |
| Chinese-Alpaca-2 | 13B | 2023-08 | 中英 | 通用 | [🤗HF] | Chinese-LLaMA-Alpaca-2 | Yiming Cui | CD | |
| WizardLM-V1.0 | 70B | 2023-08 | 多语 | 通用 | [🤗HF] | WizardLM | operatorx | CD | |
| TigerBot-chat-13B | 13B | 2023-07 | 中英 | 通用 | [🤗HF] | TigerBot | 虎博科技 | CD | |
| huozi | 7B | 2023-08 | 中英 | 通用 | [🤗HF] | huozi | 哈工大 | CD | |
| Chinese-Alpaca-2 | 7B | 2023-07 | 中英 | 通用 | [🤗HF] | Chinese-LLaMA-Alpaca-2 | Yiming Cui | CD | |
| AntX | 7/13B | 2023-07 | 中文 | 通用 | [🤗HF] | / | AntX.ai | CD | |
| BatGPT | 15B | 2023-07 | 中英 | 通用 | [🤗HF] | BatGPT | 上海交通大学 | ND | Paper |
| WizardLM-V1.2 | 13B | 2023-07 | 多语 | 通用 | [🤗HF] | WizardLM | operatorx | CD | Paper |
| llama2-Chinese-chat | 13B | 2023-07 | 中英 | 通用 | [🤗HF] | llama2-Chinese-chat | Ke Bai | CD | |
| Jiang-chat | 13B | 2023-07 | 中文 | 通用 | [🤗HF] | / | 知未智能 | CD | |
| Llama2-chinese-chat | 7/13B | 2023-07 | 中英 | 通用 | [🤗HF] | Llama2-Chinese | FlagAlpha | CD | |
| LL7M | 7B | 2023-07 | 多语 | 通用 | [🤗HF] | / | Joseph Cheung | CD | |
| Chinese-Llama-2 | 7B | 2023-07 | 中英 | 通用 | [🤗HF] | Chinese-Llama-2-7b | LinkSoul-AI | CD | |
| Llama2-chat | 7/13/70B | 2023-07 | 多语 | 通用 | [🤗HF] | llama | Meta | CD | Paper |
| PolyLM-chat | 13B | 2023-07 | 多语 | 通用 | [🤗HF] | PolyLM | 达摩院 | CD | Paper |
| Baichuan-13B-chat | 13B | 2023-07 | 中文 | 通用 | [🤗HF] | Baichuan-13B | 百川智能 | CD | |
| vicuna-V1.3 | 7/13/33B | 2023-07 | 多语 | 通用 | [🤗HF] | FastChat | lm-sys | CD | Paper |
| WizardLM-V1.0 | 7/13/30B | 2023-07 | 多语 | 通用 | [🤗HF] | WizardLM | operatorx | CD | Paper |
| TigerBot-v2-sft | 7B | 2023-07 | 多语 | 通用 | [🤗HF] | TigerBot | 虎博科技 | CD | |
| InternLM-chat | 7/20B | 2023-07 | 中文 | 通用 | [🤗HF] | InternLM | 上海人工智能实验室 | CD | report |
| vicuna汉化版 | 33B | 2023-07 | 中文 | 通用 | baidu-hiks | chinese-StableVicuna | ziwang-com | CD | |
| CuteGPT | 13B | 2023-07 | 中英 | 通用 | [🤗HF] | CuteGPT | 复旦大学知识工场 | CD | |
| MPT-chat | 7/30B | 2023-06 | 多语 | 通用 | [🤗HF] | llm-foundry | MosaicML | CD | |
| ChatGLM2 | 6B | 2023-06 | 中英 | 通用 | [🤗HF] | ChatGLM2-6B | 清华大学 | ND | |
| BayLing | 7/13B | 2023-06 | 中英 | 通用 | [🤗HF] | BayLing | 中国科学院 | CD | |
| ZhiXi-Diff | 13B | 2023-06 | 中英 | 通用 | [🤗HF] | KnowLLM | 浙江大学 | CD | |
| Anima | 33B | 2023-06 | 中文 | 通用 | [🤗HF] | Anima | Gavin Li | CD | |
| OpenLLaMA-Chinese | 3/7/13B | 2023-06 | 中文 | 通用 | [🤗HF] | OpenLLaMA-Chinese | FittenTech | CD | |
| openbuddy-falcon-7b-v1.5 | 7B | 2023-06 | 多语 | 通用 | [🤗HF] | OpenBuddy | OpenBuddy | CD | |
| AtomGPT_chat | 13B | 2023-06 | 中英 | 通用 | [🤗HF] | AtomGPT | 原子回声 | CD | |
| AquilaChat | 7B | 2023-06 | 中英 | 通用 | [🤗HF] | Aquila | FlagAI | CD | |
| YuLan-Chat | 13/65B | 2023-06 | 中英 | 通用 | [🤗HF] | YuLan-Chat | 中国人民大学 | CD | |
| Chinese-Alpaca | 33B | 2023-06 | 中文 | 通用 | [🤗HF] | Chinese-LLaMA-Alpaca | Yiming Cui | CD | |
| TigerBot-sft | 7/180B | 2023-06 | 多语 | 通用 | [🤗HF] | TigerBot | 虎博科技 | CD | |
| ChatYuan | 7B | 2023-06 | 中英 | 通用 | [🤗HF] | ChatYuan-7B | ClueAI | CD | |
| Panda-Instruct | 13B | 2023-05 | 中英 | 通用 | [🤗HF] | pandallm | dandelionsllm | CD | |
| Panda-Instruct | 7B | 2023-05 | 中英 | 通用 | [🤗HF] | pandallm | dandelionsllm | CD | |
| BiLLa-SFT | 7B | 2023-05 | 中英 | 通用 | [🤗HF] | BiLLa | Zhongli Li | CD | |
| Ziya-LLaMA-v1 | 13B | 2023-05 | 中英 | 通用 | [🤗HF] | Fengshenbang-LM | IDEA研究院 | CD | Blog |
| BLOOMChat V1.0 | 176B | 2023-05 | 多语 | 通用 | [🤗HF] | bloomchat | SambaNova Systems | CD | Blog |
| BiLLa | 7B | 2023-05 | 中英 | 通用 | [🤗HF] | BiLLa | Zhongli Li | CD | |
| Bactrian-X | 7/13B | 2023-05 | 多语 | 通用 | [🤗HF] | bactrian-x | MBZUAI | CD | |
| Bactrian-ZH | 7B | 2023-05 | 中文 | 通用 | [🤗HF] | bactrian-x | MBZUAI | CD | |
| ChatFlow | 7/13B | 2023-05 | 中英 | 通用 | [🤗HF] | Linly | 深圳大学计算机视觉研究所 | CD | |
| OpenBuddy | 7/13B | 2023-05 | 多语 | 通用 | [🤗HF] | OpenBuddy | OpenBuddy | CD | |
| YuYan-dialogue | 11B | 2023-04 | 中文 | 通用 | [🤗HF] | / | 网易伏羲 | CD | paper |
| Moss-moon-003-sft-plugin | 16B | 2023-04 | 中英 | 通用 | [🤗HF] | MOSS | 复旦大学 | CD | |
| moss-moon-003-sft | 16B | 2023-04 | 中英 | 通用 | [🤗HF] | MOSS | 复旦大学 | CD | |
| RWKV-4-Raven | 3/7/14B | 2023-04 | 中英 | 通用 | [🤗HF] | ChatRWKV | BlinkDL | RNN | Blog |
| Phoenix-inst-chat | 7B | 2023-04 | 中文 | 通用 | [🤗HF] | LLMZoo | 香港中文大学 | CD | |
| Phoenix-chat | 7B | 2023-04 | 中文 | 通用 | [🤗HF] | LLMZoo | 香港中文大学 | CD | |
| ChatPLUG | 3.7B | 2023-04 | 中文 | 通用 | [🤗HF] | ChatPLUG | 阿里巴巴 | ED | Paper |
| Chinese-Alpaca | 13B | 2023-04 | 中文 | 通用 | [🤗HF] | Chinese-LLaMA-Alpaca | Yiming Cui | CD | |
| BELLE-LLAMA | 13B | 2023-04 | 中文 | 通用 | [🤗HF] | BELLE | 贝壳 | CD | |
| LLaMA-tuned | 7/13/ 33/65B |
2023-04 | 中文 | 通用 | [🤗HF] | LMFlow | 香港科技大学 | CD | |
| Chinese-Vicuna | 7/13B | 2023-03 | 中文 | 通用 | [🤗HF] | Chinese-Vicuna | Facico | CD | |
| ChatYuan-V2 | 0.7B | 2023-03 | 中英 | 通用 | [🤗HF] | ChatYuan | 元语智能 | ED | |
| Chinese-Alpaca | 7B | 2023-03 | 中文 | 通用 | [🤗HF] | Chinese-LLaMA-Alpaca | Yiming Cui | CD | |
| Luotuo | 7B | 2023-03 | 中文 | 通用 | [🤗HF] | Chinese-alpaca-lora | 华中师范大学 | CD | |
| BELLE-LLAMA | 7B | 2023-03 | 中英 | 通用 | [🤗HF] | BELLE | 贝壳 | CD | |
| ChatGLM | 6B | 2023-03 | 中英 | 通用 | [🤗HF] | ChatGLM-6B | 清华大学 | ND |
[返回顶部]
Domain-ChatLLM
开源的垂直领域对话大模型
| 模型 | 大小 | 时间 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 架构 | 文献 |
|---|---|---|---|---|---|---|---|---|---|
| Qwen3-Coder-Next | / | 2026-02 | 中英 | 代码 | 🤗 Huggingface | / | QwenLM | / | |
| KAT-Dev-72B-Exp | 72B | 2025-10 | 多语 | 软件工程 | 🤗 Huggingface | / | Kwaipilot | CD | |
| KwaiCoder-23B-A4B-v1 | A4/23B | 2025-10 | 多语 | 软件工程 | 🤗 Huggingface | / | Kwaipilot | CD | |
| Qwen3-Coder | A3/30B | 2025-08 | 中英 | 代码 | 🤗 Huggingface | Qwen3-Coder | QwenLM | MoE | Arxiv |
| Skywork-SWE | 32B | 2025-06 | 中英 | 代码 | 🤗 Huggingface | / | SkyworkAI | CD | Technical Report |
| Kimi-Dev | 72B | 2025-06 | 中英 | 代码 | 🤗 Huggingface | Kimi-Dev | MoonshotAI | CD | |
| Qwen-coder-2.5 | 0.5/1.5/14/32B | 2024-11 | 中英 | 代码 | 🤗HF | Qwen2.5-Coder | QwenLM | CD | Paper |
| OpenCoder-Instruct | 1.5/8B | 2024-11 | 中英 | 代码 | 🤗HF | OpenCoder-llm | OpenCoder-llm | CD | Paper |
| 珠算 | 2.7B | 2024-09 | 中英 | 代码 | 🤗HF | Abacus | HIT-SCIR | CD | |
| Qwen-2.5-code | 1.5/7B | 2024-09 | 中英 | 代码 | 🤗HF | Qwen2.5 | QwenLM | CD | Blog |
| Qwen-2.5-math | 1.5/7/72B | 2024-09 | 中英 | 数学 | 🤗HF | Qwen2.5 | QwenLM | CD | Blog |
| Yi-Coder | 1.5/9B | 2024-09 | 中英 | 代码 | 🤗 Hugging Face • 🤖 ModelScope • 🟣 wisemodel | Yi-Coder | 01-ai | CD | Paper Blog |
| CodeGeeX4 | 9B | 2024-07 | 多语 | 代码 | 🤗HF | CodeGeeX4 | THUDM | ||
| DeepSeek-Coder-V2 | A16B/236B | 2024-06 | 中英 | 代码 | 🤗HF | DeepSeek-V2 | deepseek-ai | MoE | Paper |
| AutoCoder | 6.7/33B | 2024-06 | / | 代码 | 🤗HF | AutoCoder | Bin Lei | CD | Paper |
| Codestral | 22B | 2024-05 | / | 代码 | 🤗HF | / | mistralai | / | Blog |
| CodeQwen1.5-Chat | 7B | 2024-04 | 中英 | 代码 | 🤗HF | Qwen1.5 | Qwen | CD | Blog |
| codegemma | 2/7B | 2024-04 | 多语 | 代码 | 🤗HF | / | |||
| WaveCoder | 6.7B | 2024-04 | 多语 | 代码 | 🤗HF | WaveCoder | microsoft | Paper | |
| ChemDFM | 13B | 2024-03 | 中英 | 化学 | 🤗HF | / | OpenDFM | CD | Paper |
| starcoder2 | 3/7/15B | 2024-02 | 中英 | 代码 | 🤗HF | starcoder2 | bigcode-project | CD | Paper |
| TuringMM-Chat | 34B | 2024-02 | 中英 | 教育 | 🤗HuggingFace 🤖ModelScope | / | 光年无限 | CD | |
| deepseek-moe | 16B | 2024-01 | 中英 | 代码 | [🤗HF] | DeepSeekMoE | DeepSeek | CD-MOE | |
| Code Millenials | 1/3/ 13/34B |
2023-01 | 多语 | 代码 | [🤗HF] | code-millenials | BudEcosystem | CD | |
| WizardCoder | 15/33B | 2024-01 | 多语 | 代码 | [🤗HF] | WizardLM | operatorx | CD | Paper |
| DeepSeek-Coder | 1/7/33B | 2023-11 | 中英 | 代码 | [🤗HF] | DeepSeek-Coder | deepseek-ai | Blog | |
| Phind | 34B | 2023-10 | 多语 | 代码 | [🤗HF] | / | Phind | CD | Blog zh |
| Tongyi-Finance-Chat | 14B | 2023-11 | 中文 | 金融 | ModelScope | 通义金融-14B-Chat | 通义金融大模型 | CD | |
| Skywork-math | 13B | 2023-10 | 中文 | 数学 | [🤗HF] | Skywork | SkyworkAI | CD | Paper |
| XuanYuan-Chat | 70B | 2023-10 | 中英 | 金融 | [🤗HF] | XuanYuan | Duxiaoman度小满 | CD | |
| zhilu | 13B | 2023-10 | 中英 | 金融 | [🤗HF] | / | SYSU-MUCFC-FinTech-Research-Center | CD | |
| TestGPT | 7B | 2023-10 | 中文 | 测试 | [🤗HF] | Test-Agent | codefuse-ai | CD | |
| cross | 7/13B | 2023-10 | 多语 | 数学 | [🤗HF] | / | Mathoctopus | CD | |
| CodeFuse | 13/14/ 15/34B |
2023-10 | 中文 | 代码 | [🤗HF] | MFTCoder | codefuse-ai | CD | |
| Taiyi | 7B | 2023-10 | 中英 | 医学 | [🤗HF] | Taiyi-LLM | DUTIR-BioNLP | CD | |
| CodeShell-chat | 7B | 2023-10 | 中英 | 代码 | [🤗HF] | codeshell | WisdomShell | CD | |
| DISC-LawLLM | 13B | 2023-09 | 中文 | 法律 | [🤗HF] | / | ShengbinYue | CD | Report |
| WiNGPT-chat | 7B | 2023-09 | 中文 | 医学 | [🤗HF] | WiNGPT2 | Winning Health AI Research | CD | |
| ziya-coding | 15/34B | 2023-09 | 中英 | 代码 | [🤗HF] | Fengshenbang-LM | IDEA研究院 | CD | |
| AgriGPT | 6/13b | 2023-09 | 中文 | 农业 | [🤗HF] | AgriGPTs | AgriGPTs | ||
| XuanYuan-chat | 70B | 2023-09 | 中文 | 金融 | TODO | XuanYuan | 度小满 | CD | Report |
| 夫子•明察 | 6B | 2023-09 | 中文 | 司法 | [🤗HF] | fuzi.mingcha | 山东大学 | ND | |
| 仲景 | 13B | 2023-09 | 中文 | 医学 | [🤗HF] | Zhongjing | Songhua Yang | CD | Paper |
| CodeFuse | 13/34B | 2023-09 | 中英 | 代码 | [🤗HF] | MFTCoder | codefuse-ai | CD | |
| EcomGPT | 7B | 2023-09 | 中英 | 电商 | TODO | EcomGPT | Alibaba | ||
| DISC-MedLLM | 13B | 2023-08 | 中文 | 医疗 | [🤗HF] | DISC-MedLLM | FudanDISC | CD | Paper |
| K2 | 7B | 2023-08 | 中英 | 科学 | [🤗HF] | k2 | daven | CD | |
| CodeLLAma | 7/13/34B | 2023-08 | 多语 | 代码 | [🤗HF] | codellama | Meta Research | CD | Paper |
| sqlcoder | 15B | 2023-08 | 中英 | 代码 | [🤗HF] | sqlcoder | Defog.ai | CD | |
| 智海-录问 | 7B | 2023-08 | 中文 | 法律 | [🤗HF] | wisdomInterrogatory | zhihaiLLM | CD | |
| WizardMath-V1.0 | 7/13/70B | 2023-08 | 多语 | 数学 | [🤗HF] | WizardLM | operatorx | CD | |
| QiaoBan | 7B | 2023-08 | 中文 | 情感 | [🤗HF] | QiaoBen | 哈尔滨工业大学 | ||
| HuangDi | 13B | 2023-08 | 中文 | 中医 | [🤗HF] | HuangDI | Zlasejd | CD | |
| ZhongJing | 2023-08 | 中文 | 中医 | TODO | CMLM-ZhongJing | 复旦大学 | |||
| TCMLLM | 6B | 2023-08 | 中文 | 中医 | [🤗HF] | TCMLLM | 2020MEAI | ND | |
| AutoAudit | 7B | 2023-07 | 中文 | 安全 | [🤗HF] | AutoAudit | Jiaying Li | CD | |
| Lychee | 10B | 2023-07 | 中文 | 法律 | [🤗HF] | lychee_law | davidpig | ND | |
| IvyGPT | 6B | 2023-07 | 中文 | 医学 | [🤗HF] | IvyGPT | WangRongsheng | ||
| MING | 7B | 2023-07 | 中文 | 医学 | [🤗HF] | MING | 上海交通大学 | CD | |
| Mozi | 7B | 2023-07 | 中英 | 科技 | [🤗HF] | science-llm | GMFTBY | CD | |
| StarGLM | 6B | 2023-07 | 中文 | 天文 | [🤗HF] | StarGLM | LI YUYANG | ND | |
| TransGPT | 7B | 2023-07 | 中英 | 交通 | [🤗HF] | TransGPT | 北京交通大学 | CD | |
| CodeGeeX2 | 6B | 2023-07 | 中英 | 代码 | [🤗HF] | CodeGeeX2 | 清华大学 | ND | |
| Yayi-llama2 | 7/13B | 2023-07 | 中英 | 舆情 | [🤗HF] | Yayi | 中科闻歌 | CD | |
| Ziya-Writing | 13B | 2023-07 | 中英 | 写作 | [🤗HF] | Fengshenbang-LM | IDEA研究院 | CD | |
| MindChat | 13B | 2023-07 | 中文 | 心理 | [🤗HF] | MindChat | 华东理工大学 | CD | |
| ShenNong-TCM-LLM | 7B | 2023-07 | 中英 | 医学 | [🤗HF] | ShenNong-TCM-LLM | michael-wzhu | CD | |
| ailawyer | 13B | 2023-07 | 中英 | 法律 | [🤗HF] | JurisLMs | openkg | CD | |
| educhat | 7B/13B | 2023-06 | 中英 | 教育 | [🤗HF] | EduChat | 华东师范大学 | CD | |
| Sunsimiao | 7B | 2023-06 | 中英 | 医学 | [🤗HF] | Sunsimiao | 华东理工大学 | CD | |
| Media LLaMA | 7B | 2023-06 | 中文 | 媒体 | baidu | Media-LLaMA | 智媒开源研究院 | CD | |
| PULSE | 7/14B | 2023-06 | 中文 | 医学 | [🤗HF] | PULSE | OpenMEDLab | CD | |
| ChatLaw | 13/33B | 2023-06 | 中文 | 法律 | [🤗HF] | ChatLaw | 北京大学 | CD | |
| BaoLuo | 6B | 2023-06 | 中文 | 法律 | [🤗HF] | BaoLuo-LawAssisant | LeiZi | ND | |
| CoLLaMA | 7B | 2023-06 | 中英 | 代码 | [🤗HF] | CoLLaMA | Denilah | CD | |
| TechGPT | 7B | 2023-06 | 中英 | 教育 | [🤗HF] | TechGPT | 东北大学 | CD | |
| Yayi | 7B | 2023-06 | 中英 | 舆情 | [🤗HF] | Yayi | 中科闻歌 | CD | |
| MeChat | 6B | 2023-06 | 中文 | 医学 | [🤗HF] | smile | qiuhuachuan | ND | |
| ziya-medical | 13b | 2023-06 | 中英 | 医学 | [🤗HF] | MedicalGPT | Ming Xu | CD | |
| Taoli | 7B | 2023-06 | 中英 | 教育 | 待开源 | taoli | 北京语言大学 | CD | |
| Lawyer-llama | 13B | 2023-06 | 中英 | 法律 | [🤗HF] | lawyer-llama | Quzhe Huang | CD | |
| QiZhen-CaMA | 13B | 2023-06 | 中英 | 医学 | [🤗HF] | QiZhenGPT | 浙江大学 | CD | |
| 扁鹊-2.0 | 6B | 2023-06 | 中文 | 医学 | [🤗HF] | BianQue | 华南理工大学 | ND | |
| SoulChat | 6B | 2023-06 | 中文 | 心理 | [🤗HF] | SoulChat | 华南理工大学 | ND | |
| HanFei | 7B | 2023-05 | 中文 | 法律 | baidu-d6t5 | HanFei | 中国科学院深圳先进院 | CD | |
| QiZhen | 6B | 2023-05 | 中英 | 医学 | [baidu] | QiZhenGPT | 浙江大学 | CD | |
| ChatMed-Consult | 7B | 2023-05 | 中英 | 医学 | [🤗HF] | ChatMed | michael-wzhu | CD | |
| LaWGPT-beta1.1 | 7B | 2023-05 | 中英 | 法律 | [🤗HF] | LawGPT | Pengxiao Song | CD | |
| Cornucopia | 7B | 2023-05 | 中英 | 金融 | [🤗HF] | Cornucopia-LLaMA-Fin-Chinese | yuyangmu | CD | |
| HuatuoGPT | 7B | 2023-05 | 中文 | 医学 | [🤗HF] | HuatuoGPT | 香港中文大学 | CD | Paper |
| LexiLaw | 6B | 2023-05 | 中文 | 法律 | [🤗HF] | LexiLaw | Haitao Li | ND | Paper |
| XuanYuan | 176B | 2023-05 | 中文 | 金融 | 申请 | XuanYuan | 度小满 | CD | Paper |
| LawGPT | 6B | 2023-05 | 中文 | 法律 | [🤗HF] | LAW-GPT | hongchengliu | N | |
| 扁鹊-1.0 | 0.7B | 2023-04 | 中文 | 医学 | [🤗HF] | BianQue | scutcyr | ED | |
| ChatGLM-Med | 6B | 2023-04 | 中文 | 医学 | [🤗HF] | Med-ChatGLM | 哈尔滨工业大学 | ED | |
| BenTsao | 7B | 2023-04 | 中文 | 医学 | [🤗HF] | Huatuo-Llama-Med-Chinese | 哈尔滨工业大学 | CD | |
| DoctorGLM | 6B | 2023-04 | 中文 | 医学 | TODO | DoctorGLM | xionghonglin | ND | |
| Firefly | 1/2/7B | 2023-04 | 中文 | 文化 | [🤗HF] | Firefly | Yang JianXin | CD | |
| ChatRWKV | 7B | 2023-01 | 中英 | 小说 | [🤗HF] | ChatRWKV | BlinkDL | RNN | Blog |
[返回顶部]
多模态聊天大模型
收集包含中文的多模态大模型,具备对话等功能。
| 模型 | 大小 | 时间 | 语言模型 | 非语言模型 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 文献 |
|---|---|---|---|---|---|---|---|---|---|---|
| Gemma-4-IT | E2B/E4B/26B A4B/31B | 2026-04 | Gemma-4 LM (CD+Hybrid) | 文本+图像(全量)+音频(E2B/E4B) | 多语(35+) | 通用 | 🤗 HF | - | Google DeepMind | Model Card |
| Qianfan-OCR | 4B | 2026-03 | Qwen3-4B | Qianfan-ViT, 24层, AnyResolution(最大4K) | 中英 | 文档 | 🤗 HF | GitHub | 百度 | arXiv |
| GLM-OCR | / | 2026-02 | / | / | 中英 | 文图 | 🤗 HF | / | zai-org | / |
| Ace-Step1.5 | / | 2026-02 | / | / | 中英 | 文音 | 🤗 HF | / | ACE-Step | / |
| HunyuanImage-3.0-Instruct | / | 2026-02 | / | / | 中英 | 文图 | 🤗 HF | / | Tencent | / |
| AutoGLM-Phone | 9B | 2025-12 | AutoGLM | AutoGLM | 中英 | Agent | 🤗 HF | Open-AutoGLM | zai-org | Paper Link |
| Dolphin-v2 | 3B | 2025-12 | Qwen2.5-VL-3B | Qwen2.5-VL-3B | 中英 | 文图 | 🤗 HF | Dolphin | bytedance | arXiv |
| DeepSeek-OCR | 3B | 2025-10 | / | / | 中英 | 文图 | 🤗 HF | DeepSeek-OCR | deepseek-ai | Paper Link |
| VoxCPM | 0.5B | 2025-09 | MiniCPM-4 | / | 中英 | 文音 | 🤗 HF | VoxCPM | OpenBMB | / |
| VibeVoice | 1.5B | 2025-09 | Qwen2.5-1.5B | / | 中英 | 文音 | 🤗 HF | VibeVoice | microsoft | VibeVoice Technical Report |
| HunyuanImage | 17B | 2025-09 | / | / | 中英 | 文图 | 🤗 HF | HunyuanImage-2.1 | Tencent-Hunyuan | / |
| PromptEnhancerV2 | 32B | 2025-09 | / | / | 中英 | 文图 | 🤗 HF | PromptEnhancer | Hunyuan-PromptEnhancer | report paper |
| Qwen-Image | 20B | 2025-08 | / | / | 中英 | 文图 | 🤗 HF | Qwen-Image | QwenLM | Tech Report |
| ERNIE-4.5-VL | A47/424B | 2025-07 | / | / | 中英 | 文图 | 🤗 HF | / | BaiDu | 📄 Tech Report |
| Dolphin | A3/16B | 2025-05 | MBart | Swin Transformer | 中英 | 文图 | 🤗 HF | Dolphin | bytedance | arXiv. |
| Wan2.1-VACE | 14B | 2025-05 | / | / | 中英 | 文图视 | 🤗 HF | Wan2.1 | Wan-Video | arXiv |
| Kimi-VL | A3/16B | 2025-04 | / | / | 多语 | 文图 | 🤗 HF | Kimi-VL | MoonshotAI | Tech Report |
| Aya Vision | 8/32B | 2025-03 | C4AI Command R7B | SigLIP2-patch14-384 | 多语 | 文图 | 🤗 HF | / | Cohere For AI | |
| Phi-4-multimodal-instruct | 5.6B | 2025-03 | / | / | 多语 | 文图 | 🤗 HF | / | Microsoft | Phi-4-multimodal Technical Report |
| CogView4 | 6B | 2025-03 | GLM-4-9B | / | 中英 | 文图 | 🤗 HF | CogView4 | THUDM | arxiv |
| Wan2.1 | 1.3/14B | 2025-02 | / | / | 中英 | 文视图 | 🤗 HF | Wan2.1 | Wan-Video | / |
| Step-Audio-Chat | 130B | 2025-02 | Step-1 | / | 多语 | 文音 | 🤗 HF | Step-Audio | stepfun-ai | Paper |
| Ovis2 | 1/4/16/34B | 2025-02 | Qwen2.5 | aimv2-large | 中英 | 文图视 | 🤗 HF | Ovis | AIDC-AI | Paper |
| Janus-Pro | 1.5/7B | 2025-02 | deepseek-llm | SigLIP-L | 中英 | 文图 | 🤗 HF | Janus | deepseek-ai | paper |
| OuteTTS | 2025-01 | Qwen2.5-0.5B | OLMo-1B | 多语 | 文音 | 🤗 HF | OuteTTS | edwko | Blog | |
| MiniCPM-o | 8B | 2025-01 | Qwen2.5-7B | SigLip-400M、Whisper-medium-300M, ChatTTS-200M | 中英 | 文音图 | 🤗 HF | MiniCPM-o | OpenBMB | |
| Sa2VA | 1/4/8B | 2024-12 | Qwen2.5 | InternVL2.5 | 中英 | 文视图 | 🤗 HF | Sa2VA | magic-research/ Sa2VA | Paper |
| QVQ-72B-Preview | 72B | 2024-12 | / | / | 中英 | 文视图 | 🤗 HF | Qwen2-VL | QwenLM | Blog |
| Megrez-3B-Omni | 3B | 2024-12 | Megrez-3B-Instruct | SigLip-400M/Qwen2-Audio/whisper-large-v3 | 中英 | 文音图 | 🤗 HF | Infini-Megrez-Omni | infinigence | |
| DeepSeek-VL2 | 1/2.8/4.5B | 2024-12 | / | / | 文图 | 🤗 HF | DeepSeek-VL2 | deepseek-ai | Paper | |
| InternVL 2.5 | 2/4/8/26/38/78B | 2024-12 | Qwen-2.5 | InternVit | 多语 | 文图 | 🤗 HF | InternVL | OpenGVLab | blog |
| Pixtral-Large-Instruct | 124B | 2024-11 | Mistral-Large-Instruct-2407 | / | 多语 | 文图 | 🤗 Huggingface | / | mistralai | Pixtral Large blog post |
| fish-agent | 3B | 2024-11 | Qwen-2.5 | / | 多语 | 文音 | 🤗 Huggingface | fish-speech | fishaudio | |
| GLM-4-Voice | 9B | 2024-10 | GLM-4-9B | Whisper | 中英 | 文音 | 🤗 Huggingface | GLM-4-Voice | THUDM | |
| Pangea | 7B | 2024-10 | Qwen2-7B-Instruct | LLaVA-NeXT | 多语 | 图文 | 🤗HF | Pangea | neulab | Paper |
| GOT-OCR-2.0 | / | 2024-09 | Qwen | / | 中英 | 图文 | 🤗HF | GOT-OCR2.0 | StepFun-AI | Paper |
| Ovis-1.6 | 9B | 2024-09 | Gemma2-9B-It | Siglip-400M | 中英 | 图文 | 🤗 | Ovis | AIDC-AI | Paper |
| Qwen2-VL | 2/7/72B | 2024-08 | / | / | 多语 | 图文视 | 🤗 🤖 | Qwen2-VL | QwenLM | |
| CogVideoX | 2/5B | 2024-08 | / | / | 中英 | 文视 | 🤗 link | CogVideo | THUDM | |
| MiniCPM-V 2.6 | 8B | 2024-08 | Qwen2-7B | SigLip-400M | 中英 | 文图视 | 🤗 link | MiniCPM-V | OpenBMB | |
| InternVL2 | 1/2/4/8/26/40/76B | 2024-07 | Qwen2/internlm2/llama3 | InternViT | 中英 | 文图 | 🤗 link 🤖 link | InternVL | OpenGVLab | report |
| Qwen2-Audio | 8.2B | 2024-07 | Qwen2 | Whisper-large-V3 | 中英 | 文音 | 🤗HF | Qwen2-Audio | QwenLM | report |
| Kolors | / | 2024-07 | ChatGLM3-Base | / | 中英 | 文图 | 🤗HF | Kolors | Kwai-Kolors | Paper |
| ChatTTS | / | 2024-06 | / | / | 中英 | 文音 | 🤗HF | ChatTTS | 2noise | / |
| GLM-4V | 9B | 2024-06 | GLM-4 | / | 多语 | 文图 | 🤗HF | GLM-4 | THUDM | / |
| HunyuanDiT | 1.5B | 2024-05 | multilingual T5 encoder | CLIP | 中英 | 文图 | 🤗 | HunyuanDiT | Tencent | Paper |
| CogVLM2 | 2024-05 | Meta-Llama-3-8B-Instruct | / | 中英 | 文图 | 🤗 | CogVLM | Skip to content | ||
| 360VL | 8/70B | 2024-05 | LLama3 | CLIP-ViT | 中英 | 文图 | 🤗 | 360VL | 360CVGroup | |
| XVERSE-V | 13B | 2024-05 | XVERSE-13B-Chat | clip-vit-large-patch14-224 | 中英 | 文图 | 🤖 | XVERSE-V-13B | xverse-ai | |
| MiniCPM-V 2.0 | 2.8B | 2024-04 | MiniCPM-2.4B | SigLip-400M | 中英 | 文图 | 🤗 🤖 | MiniCPM-V | OpenBMB | Blog |
| Qwen-Audio | 7B | 2024-03 | Qwen-7B | Whisper-large-v2 | 中英 | 文音 | 🤗HF | Qwen-Audio | Qwen | Paper |
| DeepSeek-VL | 1.3/7B | 2024-03 | DeepSeek | SigLip/SAM | 中英 | 图文 | 🤗HF | DeepSeek-VL | deepseek-ai | Paper |
| OmniLMM | 3/12B | 2024-02 | MiniCPM | SigLip | 中英 | 图文 | 🤗HF | OmniLMM | OpenBMB | |
| MiniCPM-V | 3B | 2024-02 | MiniCPM-2.4B | SigLip-400M | 中英 | 图文 | 🤗HF | OmniLMM | OpenBMB | |
| Yi-VL | 6/34B | 2024-01 | Yi | CLIP-VIT | 中英 | 图文 | [🤗HF] | Yi | 01-ai | |
| Lyrics | 14B | 2023-12 | / | / | 中英 | 图文 | [🤗HF] | Fengshenbang-LM | IDEA研究院 | |
| Qwen-Audio | 7B | 2023-12 | Qwen-7B | Whisper-large-v2 | 中英 | 文音 | [🤗HF] | Qwen-Audio | Qwen | Paper |
| SPHINX | 13B | 2023-10 | / | / | 中英 | 图文 | [🤗HF] | LLaMA2-Accessory | Alpha-VLLM | |
| Skywork-MM | 13B | 2023-10 | / | / | 中英 | 图文 | [🤗HF] | Skywork | SkyworkAI | Paper |
| CogVLM | 7/14B | 2023-10 | Qwen | ViT | 中英 | 图文 | [🤗HF] | / | CausalLM | |
| fuyu | 8B | 2023-10 | / | / | 中英 | 图文 | [🤗HF] | / | Adept AI Labs | Blog |
| Ziya-Visual | 14B | 2023-10 | LLaMA | InstructBLIP | 中英 | 图文 | [🤗HF] | Fengshenbang-LM | IDEA研究院 | Paper |
| CogVLM | 17B | 2023-10 | EVA2-CLIP-E | Vicuna-v1.5 | 中英 | 图文 | TODO | CogVLM | THUDM | Paper |
| idefics | 9/80B | 2023-10 | LLaMA | CLIP-ViT | 中英 | 图文 | [🤗HF] | / | HuggingFaceM4 | log |
| InternLM-XComposer | 7B | 2023-10 | InternLM | EVA-CLIP | 中英 | 图文 | [🤗HF] | InternLM-XComposer | InternLM | Report |
| WeMix-LLM | 13B | 2023-09 | LLama2 | / | 中英 | 图文 | [🤗HF] | WeMix-LLM | Alpha-VLLM | |
| Vally | 7/13B | 2023-08 | BelleGroup/BELLE-LLaMA-EXT | OFA-Sys/chinese-clip-vit-large-patch14 | 中英 | 图文 | [🤗HF] [🤗HF] | Valley | 罗瑞璞 | Paper |
| SALMONN | / | 2023-08 | / | / | 中英 | 语音 | TODO | SALMONN | Bytedance | |
| IDEFICS | 9/80B | 2023-08 | llama | CLIP-ViT | 中英 | 图文-通用 | [🤗HF] | m4-logs | HuggingFaceM4 | Paper |
| Qwen-VL | 7B | 2023-08 | Qwen-7B | Openclip ViT-bigG | 中英 | 通用 | [🤗HF] | Qwen-VL | 阿里云 | |
| Qwen-VL-chat | 7B | 2023-08 | Qwen-7B | Openclip ViT-bigG | 中英 | 通用 | [🤗HF] | Qwen-VL | 阿里云 | |
| LLasM | 7B | 2023-07 | Chinese-Llama2 | whisper-large-v2 | 中英 | 语音 | [🤗HF] | LLaSM | 北京灵琐 | |
| Chinese-LLaVA | 7B | 2023-07 | Chinese-Llama2 | Clip-vit | 中英 | 视觉 | [🤗HF] | Chinese-LLaVA | 北京灵琐 | |
| RemoteGLM | 6B | 2023-07 | VisualGLM-6B | VisualGLM-6B | 中文 | 遥感 | TODO | RemoteGLM | lzw-lzw | |
| VisualCLA | 7B | 2023-07 | Chinese-Alpaca-Plus | CLIP-ViT-L/14 | 中文 | 视觉 | [🤗HF] | Visual-Chinese-LLaMA-Alpaca | Ziqing Yang | |
| yuren | 7B | 2023-07 | baichuan-7B | CLIP | 中英 | 视觉 | [🤗HF] | yuren-baichuan-7b | Pleisto | |
| VisCPM-Chat | 10B | 2023-06 | CPM-Bee | Q-Former | 中英 | 视觉 | [🤗HF] | VisCPM | OpenBMB | |
| VisCPM-Paint | 10B | 2023-06 | CPM-Bee | Stable Diffusion 2.1 | 中英 | 视觉 | [🤗HF] | VisCPM | OpenBMB | |
| XrayPULSE | 7B | 2023-06 | PULSE | MedCLIP | 中文 | 医学 | [🤗HF] | XrayPULSE | OpenMEDLab | |
| SEEChat | 6B | 2023-06 | ChatGLM | CLIP-ViT | 中文 | / | [🤗HF] | SEEChat | 360 | |
| Ziya-BLIP2-14B-Visual-v1 | 14B | 2023-06 | LLaMA-13B | BLIP2 | 中英 | 通用 | [🤗HF] | Fengshenbang-LM | IDEA研究院 | |
| Video-LLaMA-BiLLA | 7B | 2023-05 | BiLLa-7B | MiniGPT-4 | 中英 | 通用 | [🤗HF] | Video-LLaMA | 达摩院多语言NLP | Paper |
| Video-LLaMA-Ziya | 13B | 2023-05 | Ziya-13B | MiniGPT-4 | 中英 | 通用 | [🤗HF] | Video-LLaMA | 达摩院多语言NLP | Paper |
| XrayGLM | 6B | 2023-05 | ChatGLM-6B | BLIP2-Qformer | 中英 | 医学 | [🤗HF] | XrayGLM | 澳门理工大学 | |
| X-LLM | 2023-05 | ChatGLM | ViT-g | 中文 | / | TODO | X-LLM | 中科院自动化所 | Paper | |
| VisualGLM | 6B | 2023-05 | ChatGLM-6B | BLIP2-Qformer | 中英 | 视觉 | [🤗HF] | VisualGLM-6B | 清华大学 |
[返回顶部]
理论推理大模型
收集推理能力比较突出的中文大模型
| 模型 | 大小 | 时间 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 结构 | 文 |
|---|---|---|---|---|---|---|---|---|---|
| MiniMax-M2.7 | A10/230B | 2026-04 | 中英 | 通用 | 🤗HF | GitHub | MiniMax-AI | MoE | Blog |
| Qwen3.5 | 0.5/2/4/9/27/35/122/397B | 2026-02 | 中英 | 通用 | 🤗HF | Qwen3.5 | QwenLM | MoE | Blog |
| Step-3.5-Flash | / | 2026-02 | 中英 | 通用 | 🤗HF | / | stepfun-ai | / | / |
| GLM-5 | A40/744B | 2026-02 | 中英 | 通用 | 🤗HF | / | zai-org | / | blog |
| MiniMax-M2.5 | / | 2026-02 | 中英 | 通用 | 🤗HF | / | MiniMaxAI | / | / |
| Kimi-K2.5 | 1T | 2026-02 | 中英 | 通用 | 🤗HF | / | moonshotai | moe | paper |
| Ring-2.5-1T | 1T | 2026-02 | 中英 | 通用 | 🤗HF | / | inclusionAI | / | / |
| DeepSeek-V3.2 | / | 2025-12 | 中英 | 通用 | 🤗HF | DeepSeek-V3.2-Exp | deepseek-ai | MoE | Technical Report |
| Tongyi DeepResearch | A3/30B | 2025-09 | 中英 | 通用 | 🤗HF | DeepResearch | Alibaba-NLP |
MoE | Tech Blog |
| Qwen3-Next | A3/80B | 2025-09 | 中英 | 通用 | 🤗HF | Qwen3 | QwenLM | MoE | Qwen3-Next |
| Magistral Small 1.2 | 24B | 2025-09 | 多语 | 通用 | Hugging Face | / | mistralai | CD | blog post |
| gpt-oss-20B | A2/20B | 2025-08 | 中英 | 通用 | 🤗HF | gpt-oss | openai | MoE | OpenAI blog |
| gpt-oss-120B | A5/120B | 2025-08 | 中英 | 通用 | 🤗HF | gpt-oss | openai | MoE | OpenAI blog |
| Baichuan-M2 | 32B | 2025-08 | 中英 | 医疗 | Hugging Face | Baichuan-M2-32B | baichuan-inc | CD | technical blog |
| Ovis2.5 | 2/9B | 2025-08 | 中英 | 多模态 | 🤗HF | Ovis | AIDC-AI | CD | Paper |
| GLM-4.5V | 108B | 2025-07 | 中英 | 多模态 | Hugging Face | GLM-V | zai-org | MoE | Paper |
| GLM-4.5 | A32/355B | 2025-07 | 中英 | 通用 | Hugging Face | GLM-4.5 | zai-org | MoE | technical blog |
| GLM-4.5-Air | 106B-A12B | 2025-07 | 中英 | 通用 | Hugging Face | GLM-4.5 | zai-org | MoE | technical blog |
| Hunyuan | 0.5/4/7B | 2025-07 | 中英 | 通用 | 🤗HF | Tencent-Hunyuan | Tencent-Hunyuan | / | / |
| Qwen3-Thinking-2507 | A3/30B | 2025-07 | 中英 | 通用 | 🤗 Huggingface | Qwen3 | QwenLM | MoE | Paper |
| Step3 | A38/321B | 2025-07 | 中英 | 多模态 | HF | Step3 | stepfun-ai | MoE | Paper |
| Dhanishtha-2.0 | 14B | 2025-07 | 多语 | 通用 | Hugging Face | / | HelpingAI | CD | / |
| GLM-4.1V-Thinking | 9B | 2025-07 | 中英 | 多模态 | 🤗HF | GLM-4.1V-Thinking | THUDM | / | paper |
| Kimi-VL-Thinking-2506 | A3B | 2025-06 | 中英 | 多模态 | 🤗HF | Kimi-VL | MoonshotAI | / | 📄 Tech Report |
| Hunyuan-A13B | A13/80B | 2025-06 | 中英 | 通用 | Hugging Face | Hunyuan-A13B | Tencent-Hunyuan | MoE | Technical Report |
| LongWriter-Zero | 32B | 2025-06 | 中英 | / | 🤗HF | / | THU-KEG | / | Paper |
| MiniMax-M1 | A46/456B | 2025-06 | 中英 | 通用 | 🤗HF | MiniMax-M1 | MiniMax-AI | MoE | Paper |
| DeepSeek-R1-0528 | A37/671B | 2025-05 | 中英 | 通用 | 🤗HF | DeepSeek-R1 | deepseek-ai | MoE | Paper Link👁️ |
| QwenLong-L1 | 32B | 2025-05 | 中英 | 通用 | 🤗HF | QwenLong-L1 | Tongyi-Zhiwen | CD | Paper |
| GLM-Z1-0414 | 32B | 2025-04 | 中英 | 通用 | 🤗HF | GLM-4 | THUDM | ||
| DeepCoder | 1.5/14B | 2025-04 | 中英 | 代码 | 🤗HF | rllm | agentica-project | CD | |
| Kimi-VL-Thinking | A3/16B | 2025-04 | 中英 | 多模态 | 🤗HF | Kimi-VL | MoonshotAI | MoE | Tech Report |
| Skywork-OR1 | 7/32B | 2025-04 | 中英 | 通用 | 🤗HF | Skywork-OR1 | SkyworkAI/ | MoE | Notion Blog |
| Skywork-R1V | 38B | 2025-03 | 中英 | 多模态 | 🤗HF | Skywork-R1V | SkyworkAI | CD | Paper |
| Fin-R1 | 7B | 2025-03 | 中英 | 金融 | 🤗HF | Fin-R1 | SUFE-AIFLM-Lab | CD | Paper |
| QwQ-32B | 32B | 2025-03 | 中英 | 通用 | 🤗HF | / | QwenLM | CD | 📑 blog |
| DeepSeek-R1 | A37/671B | 2025-01 | 中英 | 通用 | 🤗HF | DeepSeek-R1 | deepseek-ai | MoE | Paper Link👁️ |
| DeepSeek-R1-Zero | A37/671B | 2025-01 | 中英 | 通用 | 🤗HF | DeepSeek-R1 | deepseek-ai | MoE | Paper Link👁️ |
| DeepSeek-R1-Distill-Qwen | 1.5/7/14/32B | 2025-01 | 中英 | 通用 | 🤗HF | DeepSeek-R1 | deepseek-ai | MoE | Paper Link👁️ |
| MiniMax-Text-01 | A46/456B | 2025-01 | 中英 | 通用 | 🤗HF | MiniMax-01 | MiniMax-AI | MoE | Paper |
| MiniMax-VL-01 | A46/456B | 2025-01 | 中英 | 多模态 | 🤗HF | MiniMax-01 | MiniMax-AI | MoE | Paper |
| Sky-T1 | 32B | 2025-01 | 中英 | 通用 | 🤗HF | SkyThought | NovaSky-AI | CD | Blog |
| Search-O1 | 2025-01 | 中英 | 通用 | / | Search-o1 | sunnynexus | CD | Paper | |
| HuatuoGPT-o1 | 7/8/70/72B | 2025-01 | 中英 | 医疗 | 🤗HF | HuatuoGPT-o1 | FreedomIntelligence/ | CD | Paper |
| QwQ-32B-Preview | 32B | 2024-11 | 中英 | 通用 | 🤗HF | / | QwenLM | CD | |
| Marco-o1 | 7B | 2024-11 | 中英 | 通用 | 🤗HF | Marco-o1 | AIDC-AI | CD | Paper |
| Skywork-01-Open | 8B | 2024-11 | 中英 | 通用 | 🤗HF | skywork-o1-prm-inference | SkyworkAI | CD | Blog |
| HK-01aw | 8B | 2024-11 | 中文 | 法律 | 🤗HF | HK-O1aw | HKAIR-Lab | CD | |
| QVQ-72B-Preview | 72B | 2024-12 | 中英 | 多模 | 🤗 HF | Qwen2-VL | QwenLM | Blog |
[返回顶部]
中文指令数据集
收集包含中文的指令数据集,用于微调语言模型。
| 名称 | 大小 | 时间 | 语言 | 下载 | 项目地址 | 作者 | 备注 |
|---|---|---|---|---|---|---|---|
| FinCorpus | 50G | 2023-09 | 中文 | dataset | XuanYuan | 度小满 | 金融领域 |
| TransGPT-sft | 346k | 2023-07 | 中文 | dataset | TransGPT | 北京交通大学 | |
| TransGPT-pt | 58k | 2023-07 | 中文 | dataset | TransGPT | 北京交通大学 | |
| ShareGPT-Chinese-English | 90K | 2023-07 | 中英 | dataset | llama2-Chinese-chat | Ke Bai | |
| educhat-sft-002-data-osm | 400w | 2023-06 | 中英 | dataset | EduChat | 华东师范大学 | 教育 |
| chatgpt-corpus | 3M | 2023-06 | 中文 | dataset | chatgpt-corpus | plex | |
| Simle | 350k | 2023-06 | 中文 | dataset | smile | qiuhuachuan | 心理健康 |
| QiZhen | 20k | 2023-06 | 中文 | dataset | QiZhenGPT | 浙江大学 | 医学 |
| BayLing-80 | 80 | 2023-06 | 中英 | dataset | BayLing | 中国科学院 | 多轮指令 |
| Tigerbot-dataset | 120k | 2023-06 | 中英 | dataset | TigerBot | 虎博科技 | |
| lawyer-llama | / | 2023-05 | 中文 | dataset | lawyer-llama | Quzhe Huang | 法律 |
| Bactrian-X | 67K | 2023-05 | 多语 | dataset | bactrian-x | MBZUAI | |
| CrimeKgAssitant | 52k | 2023-05 | 中文 | dataset | LAW-GPT | hongchengliu | 法律 |
| moss-002-sft-data | 1.1M | 2023-04 | 中英 | dataset | MOSS | 复旦大学 | |
| moss-003-sft-data | 1.1M | 2023-04 | 中英 | dataset | MOSS | 复旦大学 | |
| moss-003-sft-plugin-data | 300K | 2023-04 | 中英 | dataset | MOSS | 复旦大学 | |
| Safety-Prompts | 100K | 2023-04 | 中文 | dataset | Safety-Prompts | 清华大学 | 评测平台 |
| OASST1 | / | 2023-04 | 多语 | dataset | Open-Assistant | OpenAssistant | |
| ShareChat | 90K | 2023-04 | 中英 | dataset | ShareChat | czhko | |
| GPT-4-LLM | 52K | 2023-04 | 中文 | dataset | GPT-4-LLM | Instruction-Tuning-with-GPT-4 | paper |
| COIG | 200K | 2023-04 | 中文 | dataset | FlagInstruct | BAAI | paper |
| RedGPT | 50k | 2023-04 | 中文 | dataset | RedGPT | MiniGPT | |
| shareGPT_cn | 20k | 2023-04 | 中文 | dataset | shareGPT_cn | shareAI | |
| generated_chat_0.4M | 0.4M | 2023-04 | 中文 | dataset | BELLE | Ke Technologies | 角色对话 |
| multiturn_chat_0.8M | 0.8M | 2023-04 | 中文 | dataset | BELLE | Ke Technologies | 多轮任务 |
| school_math_0.25M | 0.25M | 2023-04 | 中文 | dataset | BELLE | Ke Technologies | 数学题 |
| Zhihu-KOL | / | 2023-03 | 中文 | dataset | Zhihu-KOL | Rui Wang | |
| InstructionWild | 104k | 2023-03 | 中英 | dataset | InstructionWild | Xue Fuzhao | |
| Alpaca-CoT | /. | 2023-03 | 中英 | [dataset](https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/tree main) | Alpaca-CoT | Qingyi Si | |
| GuanacoDataset | / | 2023-03 | 多语 | dataset | guanaco-model | Guanaco | |
| Traditional-Chinese-alpaca | 52K | 2023-03 | 中文 | [dataset](https://github.com/ntunlplab/traditional-chinese-alpaca/tree main data) | Traditional-Chinese Alpaca | NTU NLP Lab | gpt翻译 |
| alpaca_chinese_dataset | / | 2023-03 | 中文 | dataset | alpaca_chinese_dataset | akou | 人工校验 |
| alpaca-chinese-dataset | / | 2023-03 | 中文 | dataset | alpaca-chinese-dataset | carbonz | 机器翻译 |
| train_2M_CN | 2M | 2023-03 | 中文 | dataset | BELLE | Ke Technologies | |
| train_1M_CN | 1M | 2023-03 | 中文 | dataset | BELLE | Ke Technologies | |
| train_0.5M_CN | 0.5M | 2023-03 | 中文 | dataset | BELLE | Ke Technologies | |
| HC3 人类-ChatGPT 问答 | / | 2023-03 | 中文 | dataset | chatgpt-comparison-detection | SimpleAI | |
| firefly-train-1.1M | 1.1M | 2023-03 | 中文 | dataset | Firefly | Jianxin Yang |
[返回顶部]
嵌入
| 模型 | 大小 | 时间 | 语言 | 领域 | 下载 | 项目地址 | 机构/个人 | 文 |
|---|---|---|---|---|---|---|---|---|
| Qwen3-Embedding | 0.6/4/8B | 2025-06 | 多语 | 通用 | [🤗HF] | Qwen3-Embedding | QwenLM | Arxiv |
| JinaColBERT V2 | large | 2024-08 | 多语 | 通用 | [🤗HF] | / | Jina AI | Paper |
| Conan-embedding-v1 | large | 2024-08 | 中文 | 通用 | [🤗HF] | / | TencentABC | Paper |
| xiaobu-v2 | large | 2024-07 | 中文 | 通用 | [🤗HF] | / | lier007 | |
| zpoint_large | Large | 2024-06 | 中文 | 通用 | [🤗HF] | / | yang | |
| BCE | 279M | 2024-01 | 多语 | 通用 | [🤗HF] | BCEmbedding | netease-youdao | |
| Cohere | Base | 2023-09 | 多语 | 通用 | [🤗HF] | / | Cohere | Blog |
| jina | Base | 2023-10 | 中英 | 通用 | [🤗HF] | / | Jina AI | |
| Dmeta | 400MB | 2024-02 | 中文 | 通用 | [🤗HF] | / | DMetaSoul | |
| bge-m3 | 2024-02 | 中文 | 通用 | [🤗HF] | / | BAAI | Paper | |
| tao-8k | 2023-11 | 中文 | 通用 | [🤗HF] | amu | |||
| bge | s/b/l | 2023-10 | 中文 | 通用 | [🤗HF] | / | BAAI | |
| gte-zh | s/b/l | 2023-08 | 中文 | 通用 | [🤗HF] | / | Alibaba DAMO | Paper |
| m3e | s/b/l | 2023-06 | 中文 | 通用 | [🤗HF] | / | Moka-AI | |
| LaBSE | 多语 | 通用 | [🤗HF] | / | Sentence Transformers |
[返回顶部]
大模型评估基准
1. C-Eval
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别,查看论文了解更多细节。
2. FlagEval
FlagEval是一个面向AI基础模型的评测工具包。我们的目标是探索和集合科学、公正、开放的基础模型评测基准、方法及工具,对多领域(如语言、语音、视觉及多模态)的基础模型进行多维度(如准确性、效率、鲁棒性等)的评测。我们希望通过对基础模型的评测,加深对基础模型的理解,促进相关的技术创新及产业应用。
3. SuperCLUElyb
SuperCLUE琅琊榜,这是一个中文通用大模型对战评价基准,它以众包的方式提供匿名、随机的对战。在本文中,我们发布了初步的结果和基于Elo评级系统的排行榜,Elo评级是国际象棋和其他竞技游戏中广泛使用的评级系统。我们邀请整个社区加入这项工作,贡献新的模型,并通过提问和投票选出你最喜欢的答案来评估它们。
4. XiezhiBenchmark
该基准包括来自13个不同学科的516个学科的220,000个多项选择题,以及15,000个来自单一学科和多个学科的问题。我们对47个最新的大型语言模型在Xiezhi上进行了评估,结果表明在科学、工程、农学、医学和艺术等领域,大型语言模型的表现超过了人类的平均水平,但在经济学、法学、教育学、文学、历史和管理学等领域,人类的表现仍然远远超过了大型语言模型。
5. Open LLM Leaderboard
由HuggingFace组织的一个LLM评测榜单,目前已评估了较多主流的开源LLM模型,以英文为主。主要目标是跟踪、排名和评估最新的大语言模型和聊天机器人,让所有人方便的观察到开源社区的进展和评估这些模型。这个排行榜有一个关键优势,社区中的任何成员都可以提交模型,并在 Hugging Face 的 GPU 集群上自动评估。
[官方网站]
6. 中文大模型安全评测平台
大模型安全测评依托于一套系统的安全评测框架,涵盖了仇恨言论、偏见歧视言论、犯罪违法、隐私、伦理道德等八大类别,包括细粒度划分的40余个二级安全类别。
7. OpenCompass大语言模型评测
OpenCompass 是一款开源、高效、全面的评测大模型体系及开放平台。我们提供完整开源可复现的评测框架,支持大语言模型、多模态模型各类模型的一站式评测。利用分布式技术,即使面对千亿参数模型也能在数小时内完成评测。基于多个不同维度的高认可度数据集开放多样化的评测方式,包括零样本评测、小样本评测和思维链评测,全方位量化模型各个维度能力。
[返回顶部]
在线体验大模型
注:需要申请或者注册方可体验,更多见Github
1. ChatGPT--OpenAI
OpenAI所提出的GPT相关模型,也是目前最火的大语言模型,发布版本已经到了4.0.
[官方网站]
2. New bing--微软
NewBing是微软在2023年3月推出的一款全新的搜索引擎,它基于OpenAI的大型语言模型(LLM),并结合了ChatGPT和DALL·E的技术,为用户提供了一个AI驱动的网络助手。
[官方网站]
3. 文心一言--百度
百度全新一代知识增强大语言模型,文心大模型家族的新成员,能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感。
[官方网站]
4. 通义大模型--阿里
阿里大模型统一品牌,覆盖语言、听觉、多模态等领域致力于实现接近人类智慧的通用智能,让AI从“单一感官”到“五官全开”
[官方网站]
5. 星火认知大模型--科大讯飞
科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化,实现从提出、规划到解决问题的全流程闭环。
[官方网站]
6. Claude--Anthropic
Claude,是人工智能初创公司Anthropic 发布的一款类似ChatGPT的产品。
[官方网站]
7. ChatGLM--智谱AI
基于千亿基座模型 GLM-130B,注入代码预训练,通过有监督微调等技术实现人类意图对齐,具备问答、多轮对话、代码生成功能的中英双语大模型。
[官方网站]
8. 天工大模型--昆仑万维
天工作为一款大型语言模型,拥有强大的自然语言处理和智能交互能力,能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域。
[官方网站]
9. 序列猴子大模型--出门问问
序列猴子大模型是一个具有长序列、多模态、单模型、大数据等特点的超大规模语言模型,基于其通用的表示能力与推理能力,能够进行多轮交互,打造更便捷流畅的用户体验,极大地提高了生产效率和数据处理能力,被广泛应用于问答系统、自然语言处理、机器翻译、文本摘要等领域。
[官方网站]
10. MOSS--复旦大学
MOSS是复旦大学自然语言处理实验室发布的国内第一个对话式大型语言模型
[官方网站]
11. 360智脑大模--360
360智脑的生成与创作、多轮对话、代码能力、阅读理解、逻辑与推理、多模态等十大核心能力可覆盖大模型全部应用场景。
[官方网站]
12. 曹植GPT大语言模型--达观数据
达观数据积极探索大语言模型LLM的实践,研发国产版GPT“曹植”系统,作为垂直、专用、自主可控的国产版ChatGPT模型,不仅实现专业领域的AIGC智能化应用,且可内置在客户各类业务系统中提供专用服务
[官方网站]
13. 日日新--商汤
商汤“日日新SenseNova”大模型体系,正式问世
不仅展示了大模型体系下的语言大模型,还展示了AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用,还揭开了依托商汤AI大装置SenseCore实现“大模型+大算力”融合创新的研发体系。
[官方网站]
14. 天燕大模型--APUS
天燕大模型是APUS公司自研的多模态大模型(LMM),具备对文本、图像、视频、音频的理解和生成能力(视频和音频的能力即将推出)。
[官方网站]
15. 元乘象--智子引擎
图文机器人
[官方网站]
16. 西湖大模型--西湖心辰
[官方网站]
17. Dongni--深思考
AI多模态搜索引擎
[官方网站]
18. 山海大模型--云知声
只需一次对话即可获取信息、知识和灵感,解决需求。是每个人身边的助理、朋友和专家。
[官方网站]
19. MiniMax大模型--MiniMax
MiniMax 最新一代的中文大语言模型帮助人类高效写作、激发创意、获取知识、做出决策现已对企业开放API体验
[官方网站]
开源模型库平台
- 🤗HuggingFace: The AI community building the future.
- 模型下载地址: https://huggingface.co/models
- ModelScope: ModelScope平台是以模型为中心的模型开源社区
- 模型下载地址:https://modelscope.cn/models
- flagopen: flagopen飞智大模型技术开源体系
- 模型下载地址: https://model.baai.ac.cn/models
- 始智AI: 中国AI开源创新社区
- 模型下载地址: https://wisemodel.cn/models
开源数据集库
- huggfaceing数据集仓库: https://huggingface.co/datasets
- 包含了自然语言处理、计算机视觉、语音、多模态等数据集,内置100多个多语言公共数据集下载
- ModelScope数据集仓库:https://modelscope.cn/datasets
- 提供了覆盖自然语言处理、计算机视觉、语音、多模态等数据集,更有阿里巴巴集团贡献的专业领域数据集,
- flagopen数据集仓库: https://data.baai.ac.cn/data
- 内置公共数据集下载,可下200G大规模预训练语料WuDaoCorpora
- cluebenchmarks数据集仓库:https://www.cluebenchmarks.com/dataSet_search.html
- 多个中英文NLP数据集,并可申请下载100GB的高质量中文预训练语料CLUECorpus2020
- MNBVC: Massive Never-ending BT Vast Chinese corpus
- 超大规模中文语料集
- OpenDataLab数据集仓库: https://opendatalab.com/
- OpenDataLab 是有影响力的数据开源开放平台,公开数据集触手可及。
- OSCAR: Open Super-large Crawled Aggregated coRpus, 多语言数据集
- 最新版本包含1.4T的中文语言数据集
Other-Awesome
| 序号 | 名称 | 说明 | 作者/组织 | Stars | 地址 |
|---|---|---|---|---|---|
| 1 | Awesome-Chatgpt | ChatGPT资源、工具、应用和用法 | awesome-chatgpt | GitHub | |
| 2 | Awesome-ChatGPT-Prompts | ChatGPT模型Prompts示例集 | f | GitHub | |
| 3 | Awesome-LLM | 大型语言模型相关资料精选列表 | Hannibal046 | GitHub | |
| 4 | Awesome-LangChain | LangChain相关应用列表 | kyrolabs | GitHub | |
| 5 | Awesome-Open-Gpt | GPT开源精选项目合集(170+) | EwingYangs | GitHub | |
| 6 | Awesome-Multimodal-LLMs | 多模态大语言模型(MLLM)精选列表 | BradyFU | GitHub | |
| 7 | Awesome-Transformer-Attention | Vision Transformer & Attention论文列表 | cmhungsteve | GitHub | |
| 8 | Awesome-Prompt-Engineering | Prompt Engineering精选资源 | promptslab | GitHub | |
| 9 | Awesome-AITools | AI相关实用工具整理 | ikaijua | GitHub | |
| 10 | Awesome-Chinese-LLM | 中文LLM开源模型、应用、数据集及教程 | HqWu-HITCS | GitHub | |
| 11 | Awesome-LLM4Tool | 大语言模型工具相关论文和资源 | OpenGVLab | GitHub | |
| 12 | Awesome LLM Security | LLM安全相关工具、文档和项目 | corca-ai | GitHub | |
| 13 | Awesome AI Agents | AI Agent开源和闭源项目列表 | e2b-dev | GitHub | |
| 14 | Awesome-LLM-Notes | LLM相关笔记 | kyaiooiayk | GitHub | |
| 15 | Awesome-Efficient-LLM | 高效大语言模型精选列表 | horseee | GitHub | |
| 16 | Awesome Datasets for LLM | LLM训练数据集精选 | Zjh-819 | GitHub | |
| 17 | Awesome-Align-LLM-Human | LLMs与人类对齐的论文和资源 | GaryYufei | GitHub | |
| 18 | Awesome RLHF | 强化学习与人类反馈(RLHF)论文 | opendilab | GitHub | |
| 19 | Prompt-in-context-learning | Prompt上下文学习工程指南 | EgoAlpha | GitHub | |
| 20 | Awesome Instruction Learning | 指令学习论文和数据集阅读列表 | RenzeLou | GitHub | |
| 21 | Awesome-Foundation-Models | 视觉和语言任务基础模型列表 | uncbiag | GitHub | |
| 22 | Awesome-AI-Devtools | AI驱动的开发者工具列表 | jamesmurdza | GitHub | |
| 23 | Awesome-Autonomous-GPT | 自主AI Agent相关项目资源 | ScarletPan | GitHub | |
| 24 | Awesome-Papers-Autonomous-Agent | 自主Agent相关论文集 | lafmdp | GitHub | |
| 25 | Awesome-Code-LLM | 代码LLM综合研究 | codefuse-ai | GitHub | |
| 26 | Awesome-LLM-Compression | LLM压缩研究论文和工具 | HuangOwen | GitHub | |
| 27 | Autonomous-Agents | 自主Agent(LLMs) | tmgthb | GitHub | |
| 28 | Awesome-Large-Multimodal-Agents | 大型多模态Agent | jun0wanan | GitHub | |
| 29 | Awesome-LLM-Prompt-Optimization | LLM提示调优和自动优化论文 | jxzhangjhu | GitHub | |
| 30 | Awesome-LLMs-Datasets | LLMs文本数据集大列表 | lmmlzn | GitHub | |
| 31 | Awesome-RAG-Survey | RAG相关论文分类收集 | hymie122 | GitHub | |
| 32 | Awesome-Tool-LLM | 工具增强的语言模型论文 | zorazrw | GitHub | |
| 33 | LLM-Tool-Survey | 工具学习与LLMs相关论文 | quchangle1 | GitHub | |
| 34 | Awesome-Foundation-Model-Leaderboards | 基础模型排行榜和开发工具 | SAILResearch | GitHub | |
| 35 | Awesome-LLM-KV-Cache | LLM KV Cache论文和代码精选 | Zefan-Cai | GitHub | |
| 36 | Awesome-LLM-Strawberry | OpenAI Strawberry(o1)和推理论文 | hijkzzz | GitHub | |
| 37 | Awesome-LLM-Resourses | 全世界最好的LLM资料总结 | WangRongsheng | GitHub | |
| 38 | Awesome-LLM-Reasoning-Openai-o1-Survey | OpenAI o1相关工作和技术背景 | wjn1996 | GitHub | |
| 39 | Awesome-LLM-Reasoning | 解锁LLM和MLLM推理能力的论文资源 | atfortes | GitHub | |
| 40 | Awesome-Computer-Use-Agents | 计算机使用Agent论文和博客 | ranpox | GitHub | |
| 41 | LLM_MultiAgents_Survey_Papers | LLM多智能体调研论文 | taichengguo | GitHub | |
| 42 | Awesome_Think_With_Images | 让LVLMs用图像思考的研究 | zhaochen0110 | GitHub | |
| 43 | Awesome Label-free RL Papers | 无标签强化学习论文 | QingyangZhang | GitHub | |
| 44 | Awesome-AI-Agent-Papers | AI智能体研究论文集合 | masamasa59 | GitHub | |
| 45 | Awesome-Large-Search-Models | 搜索导向型大语言模型研究 | Wu-Zongyu | GitHub | |
| 46 | Awesome-Deep-Research | Agent深度研究资源 | DavidZWZ | GitHub | |
| 47 | Reading-List-of-LLM-Based-Data-Science-Agent | LLM数据科学Agent阅读列表 | Stephen-SMJ | GitHub | |
| 48 | Awesome-Agents | 开源AI Agent工具和产品 | kyrolabs | GitHub | |
| 49 | Awesome-OpenClaw-Skills | OpenClaw社区构建的技能 | VoltAgent | GitHub | |
| 50 | Awesome-Claude-Code | Claude Code相关技能和工具 | hesreallyhim | GitHub | |
| 51 | Awesome-Claude-Skills | Claude技能、资源和工具 | ComposioHQ | GitHub |
[返回顶部]
NLU系列
[返回顶部]
NLU系列
BERT
- 2018 | BERT: 面向语言理解的深度双向Transformer预训练 | Jacob Devlin, 等 | arXiv |
PDF - 2019 | 针对中文BERT的整词掩码预训练 | Yiming Cui, 等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| BERT-Base | base | Google Drive | - | Google Research | GitHub | 通用 |
| BERT-wwm | base | Google Drive · 讯飞云 | Google Drive | Yiming Cui | GitHub | 通用 |
| BERT-wwm-ext | base | Google Drive · 讯飞云 | Google Drive | Yiming Cui | GitHub | 通用 |
| bert-base-民事 | base | 阿里云 | - | THUNLP | GitHub | 司法 |
| bert-base-刑事 | base | 阿里云 | - | THUNLP | GitHub | 司法 |
| BAAI-JDAI-BERT | base | 京东云 | - | JDAI | GitHub | 电商客服对话 |
| FinBERT | base | Google Drive · 百度网盘 | Google Drive · 百度网盘 | Value Simplex | GitHub | 金融科技领域 |
| EduBERT | base | 好未来AI | 好未来AI | tal-tech | GitHub | 教育领域 |
| guwenbert-base | base | - | 百度网盘 · 🤗HF | Ethan | GitHub | 古文领域 |
| guwenbert-large | large | - | 百度网盘 · 🤗HF | Ethan | GitHub | 古文领域 |
| BERT-CCPoem | small | - | thunlp | THUNLP-AIPoet | GitHub | 古典诗歌 |
备注:
wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask
ext表示在更多数据集下训练
[返回顶部]
ChineseBERT
- 2021 | ChineseBERT:基于字形与拼音信息增强的中文预训练 | Zijun Sun, 等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| ChineseBERT | base | - | 🤗HF | ShannonAI | GitHub | 通用 |
| ChineseBERT | large | - | 🤗HF | ShannonAI | GitHub | 通用 |
[返回顶部]
RoBERTa
- 2019 | RoBERTa: 一种鲁棒优化的 BERT 预训练方法 | Yinhan Liu 等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| RoBERTa-tiny-clue | tiny | Google Drive | 百度网盘 | CLUE | GitHub | 通用 |
| RoBERTa-tiny-pair | tiny | Google Drive | 百度网盘 | CLUE | GitHub | 通用 |
| RoBERTa-tiny3L768-clue | tiny | Google Drive | - | CLUE | GitHub | 通用 |
| RoBERTa-tiny3L312-clue | tiny | Google Drive | 百度网盘 | CLUE | GitHub | 通用 |
| RoBERTa-large-pair | large | Google Drive | 百度网盘 | CLUE | GitHub | 通用 |
| RoBERTa-large-clue | large | Google Drive | 百度网盘 | CLUE | GitHub | 通用 |
| RBT3 | 3层base | Google Drive · 讯飞云 | Google Drive | Yiming Cui | GitHub | 通用 |
| RBTL3 | 3层large | Google Drive · 讯飞云 | Google Drive | Yiming Cui | GitHub | 通用 |
| RBTL4 | 4层large | 讯飞云 | - | Yiming Cui | GitHub | 通用 |
| RBTL6 | 6层large | 讯飞云 | - | Yiming Cui | GitHub | 通用 |
| RoBERTa-wwm-ext | base | Google Drive · 讯飞云 | Google Drive | Yiming Cui | GitHub | 通用 |
| RoBERTa-wwm-ext-large | large | Google Drive · 讯飞云 | Google Drive | Yiming Cui | GitHub | 通用 |
| RoBERTa-base | base | Google Drive · 百度网盘 | Google Drive · 百度网盘 | brightmart | GitHub | 通用 |
| RoBERTa-Large | large | Google Drive · 百度网盘 | Google Drive | brightmart | GitHub | 通用 |
| RoBERTa-tiny | tiny | 🤗HF | 🤗HF | DBIIR @ RUC | GitHub | 通用 |
| RoBERTa-mini | mini | 🤗HF | 🤗HF | DBIIR @ RUC | GitHub | 通用 |
| RoBERTa-small | small | 🤗HF | 🤗HF | DBIIR @ RUC | GitHub | 通用 |
| RoBERTa-medium | medium | 🤗HF | 🤗HF | DBIIR @ RUC | GitHub | 通用 |
| RoBERTa-base | base | 🤗HF | 🤗HF | DBIIR @ RUC | GitHub | 通用 |
[返回顶部]
ALBERT
- 2019 | ALBERT:用于语言表示自监督学习的轻量级BERT | Zhenzhong Lan 等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Albert-tiny | tiny | Google Drive | Google Drive | brightmart | GitHub | 通用 |
| Albert-base | base | Google Drive | Google Drive | brightmart | GitHub | 通用 |
| Albert-large | large | Google Drive | Google Drive | brightmart | GitHub | 通用 |
| Albert-xlarge | xlarge | Google Drive | Google Drive | brightmart | GitHub | 通用 |
| Albert-base | base | Google Drive | - | Google Research | GitHub | 通用 |
| Albert-large | large | Google Drive | - | Google Research | GitHub | 通用 |
| Albert-xlarge | xlarge | Google Drive | - | Google Research | GitHub | 通用 |
| Albert-xxlarge | xxlarge | Google Drive | - | Google Research | GitHub | 通用 |
[返回顶部]
NEZHA
- 2019 | NEZHA:面向中文理解的神经上下文表示 | Junqiu Wei 等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| NEZHA-base | base | Google Drive · 百度网盘 | GitHub | HUAWEI | GitHub | 通用 |
| NEZHA-base-wwm | base | Google Drive · 百度网盘 | GitHub | HUAWEI | GitHub | 通用 |
| NEZHA-large | large | Google Drive · 百度网盘 | GitHub | HUAWEI | GitHub | 通用 |
| NEZHA-large-wwm | large | Google Drive · 百度网盘 | GitHub | HUAWEI | GitHub | 通用 |
| WoNEZHA(word-base) | base | 百度网盘 | - | ZhuiyiTechnology | GitHub | 通用 |
[返回顶部]
MacBERT
- 2020 | 重新审视用于中文自然语言处理的预训练模型 | Yiming Cui 等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| MacBERT-base | base | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 通用 |
| MacBERT-large | large | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 通用 |
[返回顶部]
WoBERT
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| WoBERT | base | 百度网盘 | - | ZhuiyiTechnology | GitHub | 通用 |
| WoBERT-plus | base | 百度网盘 | - | ZhuiyiTechnology | GitHub | 通用 |
[返回顶部]
XLNET
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| XLNet-base | base | Google Drive · 讯飞云 | Google Drive | Yiming Cui | GitHub | 通用 |
| XLNet-mid | middle | Google Drive · 讯飞云 | Google Drive | Yiming Cui | GitHub | 通用 |
| XLNet-zh-Large | large | 百度网盘 | - | brightmart | GitHub | 通用 |
[返回顶部]
ELECTRA
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| ELECTRA-180g-large | large | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 通用 |
| ELECTRA-180g-small-ex | small | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 通用 |
| ELECTRA-180g-base | base | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 通用 |
| ELECTRA-180g-small | small | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 通用 |
| legal-ELECTRA-large | large | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 司法领域 |
| legal-ELECTRA-base | base | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 司法领域 |
| legal-ELECTRA-small | small | Google Drive · 讯飞云 | - | Yiming Cui | GitHub | 司法领域 |
| ELECTRA-tiny | tiny | Google Drive · 百度网盘 | - | CLUE | GitHub | 通用 |
[回到顶部]
ZEN
- 2019 | ZEN: 基于 N 元语法表示增强的中文文本编码器预训练 | Shizhe Diao 等 | arXiv |
PDF - 2021 | ZEN 2.0: 针对 N 元语法增强文本编码器的持续训练与适配 | Yan Song 等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| ZEN-Base | base | Sinovation Ventures AI Institute | github | 通用 | ||
| Erlangshen-ZEN2 | large | [🤗HF] | IDEA-CCNL | github | 通用 |
[回到顶部]
ERNIE
2019 | ERNIE: 通过知识融合增强的表示学习 | Yu Sun 等 | arXiv |
PDF2020 | SKEP: 面向情感分析的情感知识增强预训练 | Hao Tian 等 | arXiv |
PDF2020 | ERNIE-Gram: 面向自然语言理解的显式 N 元语法掩码语言建模预训练 | Dongling Xiao 等 | arXiv |
PDF
| 模型 | 版本 | PaddlePaddle | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| ernie-1.0-base | base | link | PaddlePaddle | github | 通用 | |
| ernie_1.0_skep_large | large | link | Baidu | github | 情感分析 | |
| ernie-gram | base | link | Baidu | github | 通用 |
备注:
PaddlePaddle 转 TensorFlow 可参考: tensorflow_ernie
PaddlePaddle 转 PyTorch 可参考: ERNIE-Pytorch
[回到顶部]
ERNIE3
2021 | ERNIE 3.0:面向语言理解和生成的大规模知识增强预训练 | 孙宇等 | arXiv |
PDF2021 | ERNIE 3.0 Titan:探索更大规模的知识增强预训练以提升语言理解和生成能力 | 王书桓等 | arXiv |
PDF
| 模型 | 版本 | PaddlePaddle | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| ernie-3.0-base | 12层,768隐藏单元,12头 | 链接 | [🤗HF] | PaddlePaddle | github | 通用 |
| ernie-3.0-medium | 6层,768隐藏单元,12头 | 链接 | [🤗HF] | PaddlePaddle | github | 通用 |
| ernie-3.0-mini | 6层,384隐藏单元,12头 | 链接 | [🤗HF] | PaddlePaddle | github | 通用 |
| ernie-3.0-micro | 4层,384隐藏单元,12头 | 链接 | [🤗HF] | PaddlePaddle | github | 通用 |
| ernie-3.0-nano | 4层,312隐藏单元,12头 | 链接 | [🤗HF] | PaddlePaddle | github | 通用 |
PaddlePaddle转PyTorch可参考: ERNIE-Pytorch
[返回顶部]
RoFormer
2021 | RoFormer:采用旋转位置编码的增强型Transformer | 苏剑林等 | arXiv |
PDF2021 | Transformer升级之路:2、博采众长的旋转式位置编码 | 苏剑林. | spaces |
博客文章
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| roformer | base(L12) | 百度网盘-xy9x | ZhuiyiTechnology | github | 通用 | |
| roformer | small(L6) | 百度网盘-gy97 | ZhuiyiTechnology | github | 通用 | |
| roformer-char | base(L12) | 百度网盘-bt94 | ZhuiyiTechnology | github | 通用 | |
| roformerV2 | small(L6) | 百度网盘-ttn4追一 | ZhuiyiTechnology | github | 通用 | |
| roformerV2 | base(L12) | 百度网盘-pfoh追一 | ZhuiyiTechnology | github | 通用 | |
| roformerV2 | large(L24) | 百度网盘-npfv追一 | ZhuiyiTechnology | github | 通用 |
[返回顶部]
StructBERT
- 2019 | StructBERT:将语言结构融入预训练以实现深度语言理解 | 王伟等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| StructBERT | large(L24) | 阿里云 | Alibaba | github | 通用 |
[返回顶部]
Lattice-BERT
- 2021 | Lattice-BERT:在中文预训练语言模型中利用多粒度表示 | 赖宇轩等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| LatticeBERT | tiny(L4) | 阿里云 | Alibaba | github | 通用 | |
| LatticeBERT | small(L6) | 阿里云 | Alibaba | github | 通用 | |
| LatticeBERT | base(L12) | 阿里云 | Alibaba | github | 通用 |
[返回顶部]
Mengzi-BERT
- 2021 | 孟子:面向轻量级但巧妙的中文预训练模型 | 张卓生等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Mengzi-BERT | base(L12) | [🤗HF] | Langboat | github | 通用 | |
| Mengzi-BERT-fin | base(L12) | [🤗HF] | Langboat | github | 金融财经 |
[返回顶部]
Bloom
- 2022 | Bloom:BigScience 大规模开放科学开源多语言语言模型 | huggingface bigscience | - |
BLOG
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| bloom-6b4-zh | 6B(L30) | [🤗HF] | Langboat | github | 通用 |
注:作者另有bloom-389m-zh到bloom-2b5-zh等多个中文模型
[返回顶部]
TaCL
- 2021 | TaCL:通过标记感知对比学习改进 BERT 预训练 | 苏一轩等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| TaCL | base(L12) | [🤗HF] | yxuansu | github | 通用 |
[返回顶部]
MC-BERT
- 2021 | MC-BERT:用于中文生物医学文本挖掘的概念化表示学习 | alibaba-research | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| MC-BERT | base(L12) | link | alibaba-research | github | 生物医疗 |
[返回顶部]
二郎神
| 模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|---|
| Erlangshen | large(L24) | bert | [🤗HF] | IDEA-CCNL | github | 中文通用 |
[返回顶部]
PERT
- 2022 | PERT:使用打乱语言模型进行预训练的BERT | 崔一鸣等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| PERT-base | base(12L) | 百度网盘-rcsw | [🤗HF] | 崔一鸣 | github | 通用 |
| PERT-large | large(24L) | 百度网盘-e9hs | [🤗HF] | 崔一鸣 | github | 通用 |
[回到顶部]
MobileBERT
- 2020 | MobileBERT:一种适用于资源受限设备的紧凑型任务无关BERT | 孙志青等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Chinese-MobileBERT-base-f2 | base | 百度网盘-56bj | 崔一鸣 | github | 通用 | |
| Chinese-MobileBERT-base-f4 | base | 百度网盘-v2v7 | 崔一鸣 | github | 通用 | |
| Chinese-MobileBERT-large-f2 | large | 百度网盘-6m5a | 崔一鸣 | github | 通用 | |
| Chinese-MobileBERT-large-f4 | large | 百度网盘-3h9b | 崔一鸣 | github | 通用 |
[回到顶部]
GAU-α
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| chinese_GAU-alpha-char_L-24_H-768 | base | 下载 | 追一科技 | github | 通用 |
[回到顶部]
DeBERTa
- 2020 | DeBERTa:具有解耦注意力机制的解码增强型BERT | 何鹏程等 | arXiv |
PDF|
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| DeBERTa-v2-Large | large | [🤗HF] | IDEA-CCNL | github | 通用 | |
| DeBERTa-v2-xLarge | xlarge | [🤗HF] | IDEA-CCNL | github | 通用 | |
| DeBERTa-v2 | base | [🤗HF] | IDEA-CCNL | github | 通用 |
[回到顶部]
GlyphBERT
- 2021 | GlyphCRM:基于汉字字形的双向编码器表示 | 李宇欣等 | arXiv |
PDF|
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| GlyphCRM-base | base | [🤗HF] | HITsz-TMG | github | 通用 |
[回到顶部]
CKBERT
- 2022 | 通过加速异构知识预训练重新审视并推进中文自然语言理解 | 张涛林等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| pai-ckbert-base-zh | base | [🤗HF] | 阿里巴巴 | github | 通用 | |
| pai-ckbert-large-zh | large | [🤗HF] | 阿里巴巴 | github | 通用 | |
| pai-ckbert-huge-zh | huge | [🤗HF] | 阿里巴巴 | github | 通用 |
[返回顶部]
LERT
- 2022 | LERT:一种基于语言学动机的预训练语言模型 | 崔一鸣等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Chinese-LERT-small | 15m | 百度网盘-4vuy | [🤗HF] | 崔一鸣 | github | 通用 |
| Chinese-LERT-base | 400m | 百度网盘-9jgi | [🤗HF] | 崔一鸣 | github | 通用 |
| Chinese-LERT-large | 1.2G | 百度网盘-s82t | [🤗HF] | 崔一鸣 | github | 通用 |
[返回顶部]
RoCBert
- 2022 | RoCBert:具有多模态对比学习预训练的鲁棒中文Bert | 苏辉等 | ACL |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| rocbert | base | [🤗HF] | 魏伟石 | github | 通用 |
[返回顶部]
M3E
| 模型 | 版本 | PyTorch | 作者 | 源地址 | 备注 |
|---|---|---|---|---|---|
| m3e-base | base | m3e-base | Moka-AI | uniem | 文本嵌入模型 |
| M3e-small | Small | m3e-small | Moka-AI | uniem | 文本嵌入模型 |
[返回顶部]
LEALLA
- 2023 | LEALLA:利用知识蒸馏学习轻量级、语言无关的句子嵌入 | 毛卓远等 | EACL |
PDF
| 模型 | 版本 | PyTorch | 作者 | 源地址 | 备注 |
|---|---|---|---|---|---|
| LEALLA-base | base | LEALLA-base | Google Research | / | 文本嵌入模型 |
| LEALLA-large | large | LEALLA-large | Google Research | / | 文本嵌入模型 |
[返回顶部]
NLG系列
GPT
2019 | 通过生成式预训练提升语言理解能力 | Alec Radford 等 | arXiv |
PDF2019 | 语言模型是无监督的多任务学习者 | Alec Radford 等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| GPT2 | 30亿语料 | - | Google Drive · 百度网盘 | Caspar ZHANG | GitHub | 通用 |
| GPT2 | 15亿语料 | - | Google Drive · 百度网盘 | Caspar ZHANG | GitHub | 通用 |
| CDial-GPT-LCCC-base | base | - | 🤗HF | thu-coai | GitHub | 中文对话 |
| CDial-GPT2-LCCC-base | base | - | 🤗HF | thu-coai | GitHub | 中文对话 |
| CDial-GPT-LCCC-large | large | - | 🤗HF | thu-coai | GitHub | 中文对话 |
| GPT2-dialogue | base | - | Google Drive · 百度网盘 | yangjianxin1 | GitHub | 闲聊对话 |
| GPT2-mmi | base | - | Google Drive · 百度网盘 | yangjianxin1 | GitHub | 闲聊对话 |
| GPT2-散文模型 | base | - | Google Drive · 百度网盘 | Zeyao Du | GitHub | 散文 |
| GPT2-诗词模型 | base | - | Google Drive · 百度网盘 | Zeyao Du | GitHub | 诗词 |
| GPT2-对联模型 | base | - | Google Drive · 百度网盘 | Zeyao Du | GitHub | 对联 |
| RoFormer-GPT | base(L12) | 百度网盘 | - | ZhuiyiTechnology | GitHub | 通用 |
[返回顶部]
GPT-3
2019 | Transformer-XL:超越固定长度上下文的注意力语言模型 | Zihang Dai 等 | arXiv |
PDF2020 | 语言模型是少样本学习者 | Tom B. Brown 等 | arXiv |
PDF
| 模型 | 版本 | 介绍 | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Chinese-Transformer-XL | 29亿参数(GPT-3) | 项目首页 | 模型下载 | THUDM | GitHub | 通用 |
[返回顶部]
NEZHA-Gen
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| NEZHA-Gen | base | Google Drive · 百度网盘 | - | HUAWEI | GitHub | 通用 |
| NEZHA-Gen | base | Google Drive · 百度网盘 | - | HUAWEI | GitHub | 诗歌 |
[返回顶部]
CPM-Generate
| 模型 | 版本 | 资源 | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| CPM | 26亿参数 | 项目首页 | 模型下载 | Tsinghua AI | GitHub | 通用 |
备注:
PyTorch转TensorFlow可参考: CPM-LM-TF2 PyTorch转PaddlePaddle可参考: CPM-Generate-Paddle
[返回顶部]
T5
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| T5 | small | 🤗HF | 🤗HF | DBIIR @ RUC | GitHub | 通用 |
[返回顶部]
T5-PEGASUS
| 模型 | 版本 | Keras | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| T5-PEGASUS | base | 百度网盘 | - | ZhuiyiTechnology | GitHub | 通用 |
| T5-PEGASUS | small | 百度网盘 | - | ZhuiyiTechnology | GitHub | 通用 |
Keras转PyTorch可参考: t5-pegasus-pytorch
[返回顶部]
Mengzi-T5
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Mengzi-T5 | base(L12) | - | 🤗HF | Langboat | GitHub | 通用 |
[返回顶部]
盘古-Alpha
- 2021 | 盘古-α:具有自动并行计算的大规模自回归预训练中文语言模型 | 魏增等 | arXiv |
PDF
| 模型 | 版本 | 资源 | 下载地址 | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| 盘古α-2.6B | 2.6G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
| 盘古α-13B | 12G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
| 盘古α-2.6B pytorch版本 | 2.6G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
| 盘古α-13B pytorch版本 | 12G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
[回到顶部]
EVA
- 2021 | EVA:大规模生成式预训练的开放域中文对话系统 | 周浩等 | arXiv |
PDF
| 模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
|---|---|---|---|---|---|---|---|
| EVA | 28亿参数 | 项目首页 | 模型下载 | thu-coai | github | 中文开放域对话 | 需要登陆才能下载 |
| EVA2.0-xLarge | xlarge | 项目首页 | [🤗HF] | thu-coai | github | 中文开放域对话 | |
| EVA2.0-large | large | 项目首页 | [🤗HF] | thu-coai | github | 中文开放域对话 | |
| EVA2.0-base | base | 项目首页 | [🤗HF] | thu-coai | github | 中文开放域对话 |
[回到顶部]
-BART
- 2019 | BART:用于自然语言生成、翻译和理解的去噪序列到序列预训练 | 迈克·刘易斯等 | arxiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| BART-base | base | [🤗HF] | fastNLP | github | 中文通用 | |
| BART-large | large | [🤗HF] | fastNLP | github | 中文通用 |
[回到顶部]
闻仲
| 模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|---|
| Wenzhong | large(L24) | GPT2 | [🤗HF] | IDEA-CCNL | github | 中文通用 |
[回到顶部]
余元
| 模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|---|
| Yuyuan | large(L24) | GPT2 | [🤗HF] | IDEA-CCNL | github | 医学领域 |
[回到顶部]
RWKV
| 模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|---|
| RWKV | base(L12) | GitHub | PENG Bo | GitHub | 小说 | ||
| RWKV | 7B | [🤗HF] | PENG Bo | GitHub | 小说 | ||
| RWKV | 14B | [🤗HF] | PENG Bo | GitHub | 小说 |
[返回顶部]
PromptCLUE
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| PromptCLUE | base(L12) | [🤗HF] | ClueAI | GitHub | 通用 | |
| PromptCLUE-v1-5 | base(L12) | [🤗HF] | ClueAI | GitHub | 通用 | |
| PromptCLUE-large | large | API在线调用 | ClueAI | GitHub | 通用 |
[返回顶部]
ChatYuan
| 模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|---|
| ChatYuan | large | T5 | [🤗HF] | ClueAI | GitHub | 功能型对话 | |
| ChatYuan-large-v2 | large | T5 | [🤗HF] | ClueAI | GitHub | 功能型对话 |
[返回顶部]
SkyText
| 模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|---|
| SkyText | large | GPT3 | [🤗HF] | SkyWorkAIGC | GitHub | 通用 |
[返回顶部]
ProphetNet
- 2020 | ProphetNet:为序列到序列预训练预测未来n-gram | 齐伟珍等 | arXiv |
PDF - 2021 | ProphetNet-X:用于英语、中文、多语言、对话和代码生成的大规模预训练模型 | 齐伟珍等 | arXiv |
PDF
| 模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|---|
| ProphetNet-Zh | 链接 | 微软 | GitHub | 通用 | |||
| ProphetNet-Dialog-Zh | 链接 | 微软 | GitHub | 对话 |
[返回顶部]
NLU-NLG系列
UniLM
- 2019 | 用于自然语言理解和生成的统一语言模型预训练 | 李东等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Unilm | base | 百度网盘-tblr | 百度网盘-etwf | YunwenTechnology | GitHub | 通用 |
[返回顶部]
Simbert
- 2020 | 鱼与熊掌兼得:融合检索和生成的SimBERT模型 | 苏剑林. | spaces |
Blog post
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| SimBERT Tiny | tiny | 百度网盘-1tp7 | ZhuiyiTechnology | github | 通用 | |
| SimBERT Small | small | 百度网盘-nu67 | ZhuiyiTechnology | github | 通用 | |
| SimBERT Base | base | 百度网盘-6xhq | ZhuiyiTechnology | github | 通用 |
RoFormer-sim
- 2021 | SimBERTv2来了!融合检索和生成的RoFormer-Sim模型 | 苏剑林. | spaces |
Blog post
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| roformer-sim | base(L12) | 百度网盘-2cgz | ZhuiyiTechnology | github | 通用 | |
| roformer-sim | small(L6) | 百度网盘-h68q | ZhuiyiTechnology | github | 通用 | |
| roformer-sim-v2 | base(L12) | 百度网盘-w15n | ZhuiyiTechnology | github | 通用 |
周文王
| 模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|---|
| Zhouwenwang | base(L12) | roformer | [🤗HF] | IDEA-CCNL | github | 中文通用 | |
| Zhouwenwang | large(L24) | roformer | [🤗HF] | IDEA-CCNL | github | 中文通用 |
CPM-2
- 2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | Zhengyan Zhang, et al. | arXiv |
PDF
| 模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
|---|---|---|---|---|---|---|---|
| CPM-2 | 110亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 通用 | 需要申请才能下载 |
| CPM-2 | 100亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 中英 | 需要申请才能下载 |
| CPM-2 | 1980亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 中英 | 需要申请才能下载 |
CPT
- 2021 | CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation | Yunfan Shao, et al. | arxiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| CPT-base | base(L12) | [🤗HF] | fastNLP | github | 通用 | |
| CPT-large | large(L24) | [🤗HF] | fastNLP | github | 通用 |
GLM
- 2022 | GLM:基于自回归空白填充的通用语言模型预训练 | 郑晓杜等 | arXiv |
PDF - 2022 | GLM-130B:一个开放的双语预训练模型 | 曾傲寒等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| GLM | large | [🤗HF] | THUDM | github | 通用 | |
| GLM | xxlarge | [🤗HF] | THUDM | github | 通用 | |
| GLM-130B | 130B | 申请地址1申请地址2 | THUDM | github | 通用 |
[返回顶部]
PLUG
- 2019 | StructBERT:将语言结构融入预训练以实现深度语言理解 | 王伟等 | arXiv |
PDF - 2020 | PALM:为上下文条件生成预训练自编码与自回归语言模型 | 毕斌等 | ACL|
PDF
| 模型 | 版本 | 模型下载 | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|
| PLUG | 27B | AliceMind-需要申请 | Alibaba | github | 通用 |
[返回顶部]
OPD
- 2022 | 待定 | , et al. | arXiv |
PDF
| 模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
|---|---|---|---|---|---|---|---|
| OPD | 6.3B | 项目首页 | 模型下载 | thu-coai | github | 中文开放域对话 | 需要申请才能下载 |
[返回顶部]
多模态
WenLan
- 2021 | WenLan:通过大规模多模态预训练连接视觉与语言 | 霍宇奇等 | arXiv |
PDF
| 模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
|---|---|---|---|---|---|---|---|
| BriVL(WenLan) | 10亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 中文通用图文 | 需要登陆才能下载 |
[返回顶部]
CogView
- 2021 | CogView:通过Transformer掌握文本到图像生成 | 丁明等 | arXiv |
PDF
| 模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
|---|---|---|---|---|---|---|---|
| CogView | 40亿参数 | 项目首页 | 模型下载 | THUDM | github | 中文多模态生成模型 | 需要登陆才能下载 |
[返回顶部]
紫东太初
| 模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
|---|---|---|---|---|---|---|---|
| 紫东太初- light_vision_text | 项目首页 | 模型下载 | 中科院自动化所 | github | 中文图像-文本领域 | 紫东太初多模态大模型中的图像-文本预训练模型 | |
| 紫东太初-text[GPT] | 32亿参数 | 项目首页 | 百度网盘-nos5 | 中科院自动化所 | github | 中文通用 | 紫东太初多模态大模型中的文本预训练模型 |
| 紫东太初-vision | 项目首页 | 模型下载 | 中科院自动化所 | github | 视觉领域 | 紫东太初多模态大模型中的视觉预训练模型 | |
| 紫东太初-speech | 项目首页 | 模型下载 | 中科院自动化所 | github | 语音领域 | 紫东太初多模态大模型中的语音检测与识别多任务模型 |
[返回顶部]
Mengzi-oscar
- 2021 | 孟子:面向中文的轻量级但巧妙的预训练模型 | 张卓生等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Mengzi-oscar | base(L12) | [🤗HF] | Langboat | github | 中文多模态-图文 |
[返回顶部]
R2D2
- 2022 | Zero和R2D2:大规模中文跨模态基准测试及视觉-语言框架 | 谢春宇等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 首页 | 应用领域 |
|---|---|---|---|---|---|---|---|
| R2D2ViT-L | large | yuxie11 | github | zero | 中文多模态-图文 | ||
| PRD2ViT-L | large | yuxie11 | github | zero | 中文多模态-图文 |
[返回顶部]
Chinese-CLIP
- 2021 | 从自然语言监督中学习可迁移的视觉模型 | 亚历克·拉德福德等 | arXiv |
PDF - 2022 | Chinese CLIP:中文对比视觉-语言预训练 | 杨安等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| CN-CLIPRN50 | 77M | aliyuncs | OFA-Sys | github | 中文多模态-图文 | |
| CN-CLIPViT-B/16 | 188M | aliyuncs | OFA-Sys | github | 中文多模态-图文 | |
| CN-CLIPViT-L/14 | 406M | aliyuncs | OFA-Sys | github | 中文多模态-图文 | |
| CN-CLIPViT-L/14@336px | 407M | aliyuncs | OFA-Sys | github | 中文多模态-图文 | |
| CN-CLIPViT-H/14 | 958M | aliyuncs | OFA-Sys | github | 中文多模态-图文 |
[返回顶部]
TaiYi-CLIP
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Taiyi-CLIP-Roberta-large-326M-Chinese | base | [🤗HF] | IDEA-CCNL | github | 中文多模态-图文 |
[回到顶部]
AltCLIP
- 2022 | AltCLIP:通过修改CLIP中的语言编码器以扩展语言能力 | 陈仲志等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| AltCLIP | 3.22G | [🤗HF] | FlagAI | github | 中文多模态-图文 |
[回到顶部]
AltDiffusion
- 2022 | AltCLIP:通过修改CLIP中的语言编码器以扩展语言能力 | 陈仲志等 | arXiv |
PDF - 2022 | 使用潜在扩散模型进行高分辨率图像合成 | Rombach等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| AltDiffusion | 8.0G | [🤗HF] | FlagAI | github | 中文多模态-图文 |
[回到顶部]
Taiyi-Stable-Diffusion
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| Taiyi-Stable-Diffusion | 1B | [🤗HF] | IDEA-CCNL | github | 中文多模态-图文 |
[回到顶部]
wukong
- 2022 | Wukong:一个拥有1亿参数的大规模中文跨模态预训练基准 | 顾嘉熙等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| CLIP | url | HUAWEI | github | 中文多模态-图文 | ||
| FILIP | url | HUAWEI | github | 中文多模态-图文 | ||
| wukong | url | HUAWEI | github | 中文多模态-图文 |
[回到顶部]
OFA
- 2022 | OFA:通过简单的序列到序列学习框架统一架构、任务和模态 | 王鹏等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| OFA | link | OFA-Sys | github | 中文多模态-图文 | ||
| OFA-Chinese | [🤗HF] | 杨建新 | github | 中文多模态-图文 |
[回到顶部]
QA-CLIP
| 模型 | 版本 | 视觉架构 | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| QA-CLIPRN50 | 77M | ResNet50 | [🤗HF] | 腾讯 | QA-CLIP | 中文多模态-图文 |
| QA-CLIPViT-B/16 | 188M | ViT-B/16 | [🤗HF] | 腾讯 | QA-CLIP | 中文多模态-图文 |
| QA-CLIPViT-L/14 | 406M | ViT-L/14 | [🤗HF] | 腾讯 | QA-CLIP | 中文多模态-图文 |
[回到顶部]
表格
SDCUP
- 2021 | 通过模式依赖学习改进文本到SQL | 胡斌远等 | arXiv |
PDF
| 模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
|---|---|---|---|---|---|---|
| sdcup | base | 阿里云 | Alibaba | github | 中文表格 | |
| sdcup | large | 阿里云 | Alibaba | github | 中文表格 |
[回到顶部]
更新
- 2026.04.12 增加MiniMax-M2.7,MiniMax 开源的推理大模型,230B 总参数 MoE 架构,激活 10B 参数,支持 Agent Teams、复杂 Skills 和动态工具搜索
- 2026.04.06 增加Gemma-4,Google DeepMind 开源的多模态大模型,包含 E2B/E4B/26B A4B(MoE)/31B(Dense) 四种尺寸,支持文本/图像/音频多模态输入,256K 上下文,原生 Thinking 推理模式和 Function Calling 能力
- 2026.02.16 增加Step-3.5-Flash, GLM-5, MiniMax-M2.5, Kimi-K2.5, Ring-2.5-1T、GLM-OCR, Ace-Step1.5, HunyuanImage-3.0-Instruct、Qwen3-Coder-Next
- 2025.12.12 增加[deepseek-3.2]
- 2025.10.12 增加[Ling-1T,KAT-Dev-72B-Exp, GLM-4.6 ]
- 2025.09.20 增加[Tongyi DeepResearch,Qwen3-Next,Magistral Small,VoxCPM,VibeVoice,HunyuanImage]
- 2025.08.19 增加[gpt-oss-20B,gpt-oss-120B,Baichuan-M2,Ovis2.5,GLM-4.5V]
- 2025.08.05 增加[GLM-4.5,Hunyuan,Qwen3-Thinking-2507,Step3,Kimi-k2,Qwen3-Coder]
- 2025.07.07 增加[Kimi-VL-Thinking,GLM-4.1V-Thinking,Dhanishtha-2.0,ERNIE-4.5]
- 2025.06.29 增加[Qwen3-Embedding,Skywork-SWE,Hunyuan-A13B]
- 2025.06.17 增加[MiniMax-M1,Kimi-Dev]
- 2025.05.29 增加[DeepSeek-R1-0528,QwenLong-L1,Dolphin]
- 2025.05.07 增加[Qwen3,MiMo]
- 2025.04.15 增加[GLM-Z1-0414. DeepCoder, Kimi-VL-Thinking, Skywork-OR1]
- 2025.03.22 增加[Skywork-R1V,FIN-R1]
- 2025.03.09 增加[QwQ-32B, Aya Vision,CogView4]
- 2025.02.26 增加[Moonlight、Wan2.1、Step-Audio-Chat]
- 2025.02.15 增加[Ovis2]
- 2025.01.19 增加[MiniMax-01, miniCPM-O, OuteTTS]
- 2025.01.12 增加Sky-T1,search-o1
- 2025.01.02 增加Huatuo-o1
- 2024.12.25 增加[QVQ-72B]
- 2024.12.16 增加[Megrez-3B-Omni, DeepSeek-VL2]
- 2024.11.29 增加QwQ-32B-Preview,Marco-o1 ,Skywork-01-Open,HK-01aw
- 2024.11.15 增加Qwen-2.5-coder, OpenCoder
- 2024.11.05 增加Hunyuan-Large
- 2024.10.26 增加GLM-4-Voice,Pangea,Aya-Expanse
- 2024.10.22 增加Granite 3.0,一套全新的轻量级、多语种支持的语言模型,专为推理、编程和工具使用设计,可在计算资源受限的环境中运行,适合企业使用和定制
- 2024.09.19 增加Qwen2.5
- 2024.09.08 增加DeepSeekV2.5, MiniCPM3, Yi-Coder
- 2024.08.30 增加C4AI Command R+ 08-2024,Qwen2-VL
- 2024.07.26 增加JIUTIAN-Chat,Tele-FLM
- 2024.07.24 增加Meta-llama3.1
- 2024.07.05 增加CodeGeeX4
- 2024.07.04 增加internlm2.5
- 2024.06.19 增加MAP-NEO-Chat,MAP-NEO is a fully open-sourced Large Language Model that includes the pretraining data, a data processing pipeline (Matrix), pretraining scripts, and alignment code.
- 2024.06.18 增加DeepSeek-Coder-V2、Nemotron-4
- 2024.06.14 增加Index-Chat
- 2024.06.08 增加Qwen2,ChatTTS
- 2024.06.03 增加GLM-4、Skywork-MoE
- 2024.05.30 增加Yuan2.0-M32: Mixture of Experts with Attention Router
- 2024.05.20 增加[CogVLM2,360VL,HunyuanDiT,星辰-Chat]
- 2024.05.13 增加[Yi-1.5]
- 2024.05.07 增加[XVERSE-V,DeepSeek-V2,XVERSE-MoE]
- 2024.04.27 增加Qwen1.5-110B, Llama3-zh
- 2024.04.14 增加MiniCPM-V2、WaveCoder、codegemma、Sailor、Nanbeige2-Chat、MiniCPM-MoE、Zhinao-Chat
- 2024.04.12 增加XVERSE-MoE
- 2024.04.08 增加SoftTiger、HammerLLM
- 2024.04.06 增加Qwen1.5-32B
- 2024.04.04 增加Mengzi3
- 2024.03.29 增加Qwen-Audio、Qwen-MoE
- 2024.03.13 增加Command-R
- 2024.03.01 增加Breeze-Instruct, starcoder2
- 2024.02.18 增加aya-101、chemLLM
- 2024.02.06 增加Qwen1.5
- 2024.02.02 增加MiniCPM, TuringMM-Chat
- 2024.02.01 增加LongAlign-Chat,Chinese-Mixtral-Chat
- 2024.01.31 增加iFlytekSpark-Chat,rwkv-5-world
- 2024.01.23 增加Yi-VL-6/34B
- 2024.01.22 增加orion-4B
- 2024.01.19 增加internlm2-chat,Chinese-Mixtral
- 2024.01.10 增加Telechat,Code Millenials
- 2024.01.09 增加kagentlms,具有Agents的规划、反思、工具使用等能力的系列大模型
- 2024.01.05 增加WizardCoder-33B-V1.1
- 2023.12.27 增加YaYi-30B-Chat
- 2023.12.05 增加SUS-Chat-34B、Aquila2-Chat-70B、Alaya-Chat-7B
- 2023.12.01 增加Qwen-Base-1.8/72B,Qwen-Chat-1.8/72B,Qwen-Audio
- 2023.11.30 增加Yuan-2.0、DeepSeek-Base,DeepSeek-Chat
- 2023.11.20 增加Alaya-Chat-7B、OrionStar-Yi-Chat-34B
- 2023.11.11 增加XVERSE-65B、Nanbeige-Chat-16B、OpenChat 3.5
- 2023.11.03 增加SPHINX、Tongyi-Finance、Phind、DeepSeek-Coder
- 2023.11.02 增加AndesGPT-7B、SeaLLM、BlueLM
- 2023.10.31 增加Zephyr-7B、Mistral-7b
- 2023.10.25 增加zhiyin、zhilu
- 2023.10.20 增加cross、taiyi、fuyu、Ziya-visual、CodeShell、CogVLM
- 2023.10.17 增加Ziya2-13B-Base、Ziya2-13B-Chat
- 2023.10.12 增加AquilaChat2-7/13B、AquilaChat2-16K、Vulture-180B
- 2023.10.04 增加DISC-LawLLM、WiNGPT、ziya-coding、Vulture、AgriGPT
- 2023.09.25 增加Colossal-LLaMA-2-7B,相较于原始LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练SOTA模型媲美。
- 2023.09.20 增加InternLM-20B、OpenBA,InternLM-20B已发布,包括基础版和对话版。OpenBA是一个从头开始预训练的开源15B双语非对称端到端模型。
- 2023.09.08 增加FLM-101B、falcon-180B、Openbuddy-70B、TigerBot-70B
- 2023.09.06 增加Baichuan2,Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。
- 2023.09.01 增加DISC-MedLLM、YuLan-Chat-2、Chinese-Alpaca-2-16K,Vally
- 2023.08.29 增加CodeLLAma、Atom,IDEFICS
- 2023.08.25 增加sqlcoder,一个 SOTA 大型语言模型, SQLCoder 将自然语言问题转换为 SQL 查询。在开发者的开源评估框架 SQLEval 中,SQLCoder 的性能明显优于所有主要的开源模型,并且优于 OpenAI 的 GPT-3.5。
- 2023.08.23 增加Qwen-VL,Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。
- 2023.08.21 增加智海-录问,智海-录问(wisdomInterrogatory)是由浙江大学、阿里巴巴达摩院以及华院计算三家单位共同设计研发的法律大模型。
- 2023.08.15 增加WizardMath,
- 2023.08.09 增加TigerBot-13B,在Llama-2的基础上以虎博积累的技术和数据继续训练,不但保持了Llama-2出色的英文能力,更是在中文能力上填补了Llama-2的不足,各项主流中文任务中超过Llama-2的49%,在开源同类模型中具有竞争力。
- 2023.08.07 增加XVERSE-13B,XVERSE-13B,它支持40多种语言、8192上下文长度。在多项中英文测评中,性能超过了同尺寸(130亿参数)的LLama2、Baichuan等。
- 2023.08.03 增加通义千问,通义千问-7B(Qwen-7B)是阿里云研发的通义千问大模型系列的70亿参数规模的模型。
- 2023.07.31 增加LLasM、Chinese-LLaVA多模态大模型
- 2023.07.31 增加Chinese-Llama-2.原版Llama-2的基础上扩充并优化了中文词表,使用了120G大规模中文数据进行增量预训练,相关模型支持4K上下文并可通过NTK方法最高扩展至18K+
- 2023.07.29 增加BatGPT,Mozi,StarGLM.
- 2023.07.27 增加WizardLM-v1.2.
- 2023.07.25 增加相关Awesome列表
- 2023.07.24 增加Llama2-chinese-chat、Jiang-chat等对话语言模型。
- 2023.07.19 增加LLaMA2,Meta 发布了大家期待已久的免费可商用版本 Llama 2。
- 2023.07.16 增加PolyLM,PolyLM是一个通晓多语言语言的大规模语言模型,该模型可以应用于对话问答、文本生成、机器翻译和情感分析等领域,能够自动生成高质量的多语言文本。
- 2023.07.11 增加Baichuan-13B,baichuan-13B是由百川智能开发的一个开源可商用的大规模预训练语言模型。
- 2023.07.10 增加WizardLM-13B-V1.1
- 2023.07.09 增加VisualCLA多模态大模型
- 2023.07.04 增加书生·浦语,书生·浦语大模型,包含面向实用场景的70亿参数基础模型与对话模型.
- 2023.07.04 增加yuren,vicuna,CuteGPT,ailawyer
- 2023.06.30 增加VisCPM,VisCPM 是一个开源的多模态大模型系列,支持中英双语的多模态对话能力(VisCPM-Chat模型)和文到图生成能力(VisCPM-Paint模型),在中文多模态开源模型中达到最佳水平。
- 2023.06.28 增加PULSE,PULSE-中文医疗大语言模型。
- 2023.06.26 增加CoLLaMA,CoLLaMA是基于代码的多语言大模型。
- 2023.06.25 增加ChatGLM2-6B,ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本。
- 2023.06.24 增加TechGPT,TechGPT是“东北大学知识图谱研究组”发布的垂直领域大语言模型。
- 2023.06.20 增加Yayi、BayLing,百聆(BayLing)是一个强化了语言对齐的指令跟随大规模语言模型;Yayi大模型 在百万级人工构造的高质量领域数据上进行指令微调得到,训练数据覆盖媒体宣传、舆情分析、公共安全、金融风控、城市治理等五大领域。
- 2023.06.19 增加panda,Panda是海外中文开源大语言模型。
- 2023.06.18 增加ZhiXi,ZhiXi基于Llama的针对知识抽取的大模型。
- 2023.06.15 增加Baichuan-7B,baichuan-7B是由百川智能开发的一个开源可商用的大规模预训练语言模型。
- 2023.06.14 增加Chinese-Falcon,Chinese-Falcon 模型在 Falcon 基础上扩充中文词表,在中英文数据上增量预训练。 模型以 Apache License 2.0 协议开源,支持商业用途。。
- 2023.06.13 增加OpenLLaMA-Chinese,OpenLLaMA-Chinese是免费的中文大型语言模型,基于OpenLLaMA,可用于非商业和商业目的。
- 2023.06.09 增加QA-CLIP,M3E,Aquila,QA-CLIP是中文CLIP模型,M3E是文本嵌入模型,Aquila是语言大模型。
- 2023.06.08 增加YuLan,YuLan是由中国人名大学开源的双语言任务大模型,开源13B和65B大小。
- 2023.06.08 增加Chinese-Alpaca-33B,Chinese-LLaMA-33B,中文LLaMA/Alpaca-33B。
- 2023.06.07 增加Tigerbot,TigerBot是一款国产自研的多语言任务大模型,开源7B和180B大小。
- 2023.06.06 增加Video-LLaMA,BiLLa,Video-LLaMA是一个用于视频理解的指令调整的视觉语言模型,BiLLa是开源的推理能力增强的中英双语LLaMA模型。
- 2023.05.26 增加XuanYuan,XrayGLM,XuanYuan是国内首个开源的千亿级中文对话大模型,XrayGLM是中文医学领域多模态大语言模型。
- 2023.05.21 增加ziya,BLOOMChat,Ziya-LLaMA-13B-v1拥有130亿参数,从LLaMA-13B开始重新构建中文词表,进行千亿token量级的已知的最大规模继续预训练,使模型具备原生中文能力.
- 2023.05.18 增加VisualGLM-6B,VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型。
- 2023.05.16 增加BiLLa,开源中英文双语大模型。
- 2023.05.12 增加Bactrian-X,开源多语言大模型。
- 2023.05.08 增加OpenBuddy,一款强大的开源多语言聊天机器人模型。
- 2023.04.26 更新LLaMA-zh、YuYan,增加LLama-zh、Yuyan、扁鹊等LLM和chatLLm模型
- 2023.04.25 增加BBT,基于Transformer和Decoder-Only的架构开发了BigBang Transformer「乾元」大规模预训练语言模型。
- 2023.04.21 增加MOSS,更新复旦大学开源的MOSS模型以及对应的数据集。
- 2023.04.20 增加Phoenix,基于BLOOMZ-mt模型微调得到的大语言模型。
- 2023.04.19 增加ChatPLUG,该模型基于PLUG,使用亿级互联网社交数据、百科数据预训练和百万级高质量对话数据进行instruction微调得到。
- 2023.04.18 增加COIG数据集,用不同方法构建中文指令数据集的项目,收集了大约20万个中文指令样本。
- 2023.04.13 更新ChatLLM,增加HuaTuo,Med_ChatGLM两个医学模型。
- 2023.04.09 更新中文指令数据集ChatLLM,增加个性角色对话数据集、chinese-alpaca-13b模型。
- 2023.04.03 更新中文指令数据集ChatLLM,增加BELLE-13b模型,math-0.25,multiturn-0.8数据集。
- 2023.04.02 更新ChatLLM列表,增加由香港科技大学开源的7B/13B/33B/65B中文大型语言模型
- 2023.03.30 增加Chinese-Vicuna模型,Traditional-Chinese-alpaca数据集
- 2023.03.29 增加OFA,中文多模态统一预训练模型,OFA是阿里巴巴发布的多模态统一预训练模型.
- 2023.03.29 更新中文指令数据集,增加InstructionWild数据集。
- 2023.03.23 增加中文指令数据集,并初始化三个已公开数据集。
- 2023.03.20 增加BELLE,开源中文对话大模型-70亿参数,基于Stanford Alpaca,对中文做了优化,模型调优仅使用由ChatGPT生产的数据.
- 2023.03.14 增加ChatLLM列表,主要收集具备问答跟对话等功能的大型语言模型,并增加ChatGLM模型。
- 2023.03.11 增加ProphetNet,提出了一种新的自监督学习目标——同时预测多个未来字符,在序列到序列的多个自然语言生成任务都取得了优异性能。
- 2023.03.10 增加RoCBert,利用对抗学习生成更多噪声数据,用来进行中文BERT模型的训练,得到鲁棒性更强的中文BERT模型。
- 2023.03.03 更新LLM,新增多语言模型
Flan-ul2和Flan-t5-xxl - 2023.02.21 增加LLM,大规模语言模型列表,只罗列出参数量大于10B以上模型,其余量级模型,可参考对应的项目地址。
- 2023.01.14 增加SkyText,SkyText是由奇点智源发布的中文GPT3预训练大模型,可以进行聊天、问答、中英互译等不同的任务.
- 2023.01.14 增加ChatYuan,ChatYuan模型可以用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。
- 2022.12.10 增加PromptCLUE,全中文任务零样本学习模型,基于1000亿token中文语料上预训练,并且在数百种任务上进行Prompt任务式训练。
- 2022.12.01 增加wukong,基于一个名为「悟空」的大型中文跨模态数据集,其中包含来自网络的 1 亿个图文对,预训练的多模态模型。
- 2022.11.30 增加AltDiffusion,使用 AltCLIP 作为text encoder,基于 Stable Diffusion 训练了中英双语Diffusion模型(AltDiffusion)
- 2022.11.30 增加AltCLIP,一个简单高效的方法去训练更加优秀的双语CLIP模型,名为AltCLIP。AltCLIP基于 OpenAI CLIP 训练。
- 2022.11.30 增加Taiyi-Stable-Diffusion,首个开源的中英双语Stable Diffusion模型,基于0.2亿筛选过的中文图文对训练。
- 2022.11.9 增加OPD,OPD是一个中文开放域对话预训练模型,拥有63亿参数,在70GB高质量对话数据上进行训练而成.
大规模&高性能 - 2022.11.8 更新Chinese-CLIP,Chinese-CLIP是中文多模态图文表征模型,更新后Chinese-CLIP扩充到5个模型规模,同时增加了技术报告论文以及检索demo,同时在达摩院ModelScope平台同步集成。
- 2022.10.31 增加LERT,为了验证通过显式注入语言学知识预训练模型能否获得进一步性能提升,HFL提出了一种语言学信息增强的预训练模型LERT,融合了多种语言学知识。大量实验结果表明,在同等训练数据规模下,LERT能够带来显著性能提升。
- 2022.10.14 增加CKBERT,中文知识库增强BERT预训练语言模型。
- 2022.10.01 增加GlyphBERT, GlyphBERT是一个包含了汉字字形特征中文预训练模型。它通过将输入的字符渲染成图像并设计成多通道位置特征图的形式,并设计了一个两层 残差卷积神经网络模块来提取字符的图像特征进行训练。
- 2022.09.30 增加DeBERTa,一个中文版的DeBERTa-v2,我们用悟道语料库(180G版本)进行预训练,在预训练阶段中使用了封神框架。
- 2022.09.30 增加TaiYi-CLIP,首个开源的中文CLIP模型,1.23亿图文对上进行预训练的文本端RoBERTa-large。
- 2022.09.27 增加PLUG,PLUG集语言理解与生成能力于一身,支持文本生成、问答、语义理解等多类下游任务,PLUG开源将助力开发者在语言理解和语言生成上做出更多延拓。
- 2022.09.11 增加bloom-6b4,多语言预训练bloom系列生成模型7b1参数(https://huggingface.co/bigscience/bloom-7b1 )的中文vocab提取,bloom系列另有最大176B模型(https://huggingface.co/bigscience/bloom).
- 2022.09.11 增加GLM-130B,提出了开源的双语预训练生成模型 GLM(General Language Model)。
- 2022.09.11 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation 2.6B和13B 生成模型pytorch版
- 2022.06.29 增加ERNIE 3.0,大规模知识增强预训练语言理解和生成.
- 2022.06.22 增加Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework,基于大规模中文跨模态基准数据集Zero,训练视觉语言预训练框架 R2D2,用于大规模跨模态学习。
- 2022.06.15 增加GLM: General Language Model Pretraining with Autoregressive Blank Infilling,提出了一种新的通用语言模型 GLM(General Language Model)。 使用自回归填空目标进行预训练,可以针对各种自然语言理解和生成任务进行微调。
- 2022.05.16 增加GAU-α,主要提出了一个融合了Attention层和FFN层的新设计GAU(Gated Attention Unit,门控注意力单元),它是新模型更快、更省、更好的关键,此外它使得整个模型只有一种层,也显得更为优雅。
- 2022.03.27 增加RoFormer-V2,RoFormer升级版,主要通过结构的简化来提升速度,并通过无监督预训练和有监督预训练的结合来提升效果,从而达到了速度与效果的“双赢”。
- 2022.03.02 增加MobileBERT,MobileBERT是BERT-large模型更“苗条”的版本,使用了瓶颈结构(bottleneck)并且对自注意力和前馈神经网络之间的平衡做了细致的设计。
- 2022.02.24 增加PERT: Pre-Training BERT with Permuted Language Model,一种基于乱序语言模型的预训练模型(PERT),在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。
- 2021.12.06 增加SDCUP: Improving Text-to-SQL with Schema Dependency Learning,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP。
- 2021.11.27 增加RWKV中文预训练生成模型,类似 GPT-2,模型参考地址:RWKV-LM
- 2021.11.27 增加IDEA研究院开源的封神榜系列语言模型,包含二郎神、周文王、闻仲、余元。
- 2021.11.25 增加MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining, 生物医学领域的中文预训练模型.
- 2021.11.24 增加TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning, Token-aware对比学习预训练模型.
- 2021.10.18 增加Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese,基于语言学信息融入和训练加速等方法研发了 Mengzi 系列模型.
- 2021.10.14 增加中文版BART,训练比较可靠的中文版BART,为中文生成类任务如摘要等提供Baseline.
- 2021.10.14 增加CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation,CPT:兼顾理解和生成的中文预训练模型.
- 2021.10.13 增加紫东太初多模态大模型: 全球首个多模态图文音预训练模型,实现了视觉-文本-语音三模态统一表示,构建了三模态预训练大模型。
- 2021.09.19 增加CogView: Mastering Text-to-Image Generation via Transformers,世界最大的中文多模态生成模型,模型支持文生成图为基础的多领域下游任务.
- 2021.09.10 增加WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training,首个中文通用图文多模态大规模预训练模型。
- 2021.09.10 增加EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training,一个开放领域的中文对话预训练模型。
- 2021.08.19 增加Chinese-Transformer-XL:基于中文预训练语料WuDaoCorpus(290G)训练的GPT-3模型。
- 2021.08.16 增加CPM-2: Large-scale Cost-effective Pre-trained Language Models
- 2021.08.16 增加Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
- 2021.07.19 增加roformer-sim-v2:利用标注数据增强版本
- 2021.07.15 增加BERT-CCPoem:古典诗歌语料训练的BERT
- 2021.07.06 增加ChineseBERT:Chinese Pretraining Enhanced by Glyph and Pinyin Information
- 2021.06.22 增加StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
- 2021.06.14 增加RoFormer:Enhanced Transformer with Rotary Position Embedding
- 2021.05.25 增加ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding
- 2021.04.28 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation
- 2021.03.16 增加T5-PEGASUS: 开源一个中文生成式预训练模型
- 2021.03.09 增加UER系列模型
- 2021.03.04 增加WoBERT: 基于词颗粒度的中文
- 2020.11.11 初始化BERT系列模型BERT
[返回顶部]
贡献者
杂项
↳ 点赞者
↳ 复刻者
↳ 点赞历史
常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
opencode
OpenCode 是一款开源的 AI 编程助手(Coding Agent),旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件,而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码,还是排查难以定位的 Bug,OpenCode 都能通过自然语言交互高效完成,显著减少开发者在重复性劳动和上下文切换上的时间消耗。 这款工具专为软件开发者、工程师及技术研究人员设计,特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构,这意味着用户可以审查代码逻辑、自定义行为策略,甚至私有化部署以保障数据安全,彻底打破了传统闭源 AI 助手的“黑盒”限制。 在技术体验上,OpenCode 提供了灵活的终端界面(Terminal UI)和正在测试中的桌面应用程序,支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具,安装便捷,并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客,还是渴望提升产出的独立开发者,OpenCode 都提供了一个透明、可信
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。