bert4torch
bert4torch 是一个基于 PyTorch 构建的优雅且高效的 Transformer 模型工具库。它旨在简化自然语言处理(NLP)和大语言模型(LLM)的开发流程,让研究人员和开发者能够轻松加载、微调及部署各类主流预训练模型。
该工具有效解决了传统框架中模型结构复杂、代码复用性低以及大模型部署门槛高等痛点。无论是经典的 BERT、RoBERTa、T5,还是新兴的 ChatGLM、Llama、Baichuan 等大模型,bert4torch 均提供了一站式的解决方案。用户不仅可以快速进行句子分类、序列标注、关系抽取等常规任务,还能通过简洁的命令行指令实现大模型的本地服务部署。
bert4torch 特别适合 NLP 领域的算法工程师、科研人员以及希望深入理解模型原理的进阶开发者。其独特的技术亮点在于高度灵活的架构设计:既支持直接加载 Hugging Face Transformers 的模型权重,又允许用户在基础组件上自由定制网络结构。此外,库内集成了丰富的训练技巧(Tricks)、动态进度条展示、自动参数统计及 TensorBoard 日志记录等功能,大幅提升了实验效率与可复现性。配合详尽的示例代码和清晰的文档,bert4torch 能帮助使用者以更少的代码量,更专注于核心算法的创新与验证。
使用场景
某电商公司的算法团队急需基于用户评论数据微调一个大语言模型(如 ChatGLM 或 LLaMA),以构建智能客服系统,但面临从权重加载到服务部署的全流程开发压力。
没有 bert4torch 时
- 环境配置繁琐:需要手动编写复杂的代码来转换不同来源的预训练权重格式,常因版本不兼容导致加载失败。
- 重复造轮子:缺乏内置的训练技巧(Trick),团队需自行实现混合精度训练、梯度累积等优化策略,耗时且易出错。
- 监控缺失:训练过程缺乏直观的进度条和自动化的 TensorBoard 日志记录,难以实时掌握模型收敛情况。
- 部署门槛高:模型训练完成后,需额外开发大量推理接口代码才能对外提供服务,延长了上线周期。
使用 bert4torch 后
- 一键加载权重:直接通过简洁 API 加载 ChatGLM、LLaMA 等主流大模型权重,自动处理格式转换,开箱即用。
- 内置最佳实践:集成了常见的训练 Trick,只需在配置中开启即可享受混合精度等加速效果,无需重复编码。
- 可视化训练流:默认提供动态训练进度条及 Logger/TensorBoard 支持,实时监控损失变化与参数状态,调试效率倍增。
- 命令行极速部署:仅需一行命令即可将微调后的模型部署为在线服务,大幅简化从实验到生产的落地路径。
bert4torch 通过高度封装的优雅设计,将大模型从微调到部署的全链路开发效率提升了数倍,让算法工程师能更专注于业务逻辑而非底层基建。
运行环境要求
- 未说明
- 未说明(支持大模型推理和微调,具体显存需求取决于所选模型大小
- 支持 gptq、awq 等量化方式以降低显存需求)
未说明

快速开始

文档 | Torch4keras | 示例 | build_MiniLLM_from_scratch | bert4vector
目录
1. 下载安装
安装稳定版
pip install bert4torch
安装最新版
pip install git+https://github.com/Tongjilibo/bert4torch
- 注意事项:pip包的发布慢于git上的开发版本,git clone注意引用路径,注意权重是否需要转换
- 测试用例:
git clone https://github.com/Tongjilibo/bert4torch,修改example中的预训练模型文件路径和数据路径即可启动脚本 - 自行训练:针对自己的数据,修改相应的数据处理代码块
- 开发环境:原使用
torch==1.10版本进行开发,现已切换到torch2.0开发,如其他版本遇到不适配,欢迎反馈
2. 功能
LLM模型: 加载chatglm、llama、 baichuan、ziya、bloom等开源大模型权重进行推理和微调,命令行一行部署大模型
核心功能:加载bert、roberta、albert、xlnet、nezha、bart、RoFormer、RoFormer_V2、ELECTRA、GPT、GPT2、T5、GAU-alpha、ERNIE等预训练权重继续进行finetune、并支持在bert基础上灵活定义自己模型
丰富示例:包含llm、pretrain、sentence_classfication、sentence_embedding、sequence_labeling、relation_extraction、seq2seq、serving等多种解决方案
实验验证:已在公开数据集实验验证,使用如下examples数据集和实验指标
易用trick:集成了常见的trick,即插即用
其他特性:加载transformers库模型一起使用;调用方式简洁高效;有训练进度条动态展示;配合torchinfo打印参数量;默认Logger和Tensorboard简便记录训练过程;自定义fit过程,满足高阶需求
训练过程:

| 功能 | bert4torch | transformers | 备注 |
|---|---|---|---|
| 训练进度条 | ✅ | ✅ | 进度条打印loss和定义的metrics |
| 分布式训练dp/ddp | ✅ | ✅ | torch自带dp/ddp |
| 各类callbacks | ✅ | ✅ | 日志/tensorboard/earlystop/wandb等 |
| 大模型推理,stream/batch输出 | ✅ | ✅ | 各个模型是通用的,无需单独维护脚本 |
| 大模型微调 | ✅ | ✅ | lora依赖peft库,pv2自带 |
| 丰富tricks | ✅ | ❌ | 对抗训练等tricks即插即用 |
| 代码简洁易懂,自定义空间大 | ✅ | ❌ | 代码复用度高, keras代码训练风格 |
| 仓库的维护能力/影响力/使用量/兼容性 | ❌ | ✅ | 目前仓库个人维护 |
| 一键部署大模型 |
3. 快速上手
3.1 上手教程
3.2 命令行快速部署大模型服务
- 本地 / 联网加载
# 联网下载全部文件 bert4torch serve --checkpoint_path Qwen2-0.5B-Instruct # 加载本地大模型,联网下载bert4torch_config.json bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --config_path Qwen/Qwen2-0.5B-Instruct # 加载本地大模型,且bert4torch_config.json已经下载并放于同名目录下 bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct - 命令行 / gradio网页 / openai_api
# 命令行 bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode cli # gradio网页 bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode gradio # openai_api bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode openai - 命令行聊天示例

4. 版本和更新历史
4.1 版本历史
| 更新日期 | bert4torch | torch4keras | 版本说明 |
|---|---|---|---|
| 20260114 | 0.6.1 | 0.3.3 | 增加paddleocr-vl,优化代码结构,去除硬代码模型配置项 |
| 20250925 | 0.6.0 | 0.3.2 | 增加 Qwen3-moe, 支持 gptq、awq等主流量化方式,其他代码优化 |
| 20250721 | 0.5.9.post2 | 0.3.1 | 增加 Ernie4_5, 修复hub下载bug, 拆分出 openai_client |
4.2 更新历史
5. 预训练权重
5.1 权重加载
from bert4torch.models import build_transformer_model
# 1. 仅指定config_path: 从头初始化模型结构, 不加载预训练模型
model = build_transformer_model('./model/bert4torch_config.json')
# 2. 仅指定checkpoint_path:
## 2.1 文件夹路径: 自动寻找路径下的*.bin/*.safetensors权重文件 + 需把bert4torch_config.json下载并放于该目录下
model = build_transformer_model(checkpoint_path='./model')
## 2.2 文件路径/列表: 文件路径即权重路径/列表, bert4torch_config.json会从同级目录下寻找
model = build_transformer_model(checkpoint_path='./pytorch_model.bin')
## 2.3 model_name: hf上预训练权重名称, 会自动下载hf权重以及bert4torch_config.json文件
model = build_transformer_model(checkpoint_path='google-bert/bert-base-chinese')
# 3. 同时指定config_path和checkpoint_path(本地路径名或model_name排列组合):
# 本地路径从本地加载,pretrained_model_name会联网下载
config_path = './model/bert4torch_config.json' # 或'google-bert/bert-base-chinese'
checkpoint_path = './model/pytorch_model.bin' # 或'google-bert/bert-base-chinese'
model = build_transformer_model(config_path, checkpoint_path)
5.2 权重链接
| 模型分类 | 模型名称 | 权重来源 | checkpoint_path | config_path |
|---|---|---|---|---|
| bert | bert-base-chinese | google-bert | google-bert/bert-base-chinese 🤗 |
🤗 |
| chinese_L-12_H-768_A-12 | 谷歌 | tf权重Tongjilibo/bert-chinese_L-12_H-768_A-12 🤗 |
||
| chinese-bert-wwm-ext | HFL | hfl/chinese-bert-wwm-ext 🤗 |
🤗 | |
| bert-base-multilingual-cased | google-bert | google-bert/bert-base-multilingual-cased 🤗 |
🤗 | |
| bert-base-cased | google-bert | google-bert/bert-base-cased 🤗 |
🤗 | |
| bert-base-uncased | google-bert | google-bert/bert-base-uncased 🤗 |
🤗 | |
| MacBERT | HFL | hfl/chinese-macbert-base 🤗hfl/chinese-macbert-large 🤗 |
🤗 🤗 |
|
| WoBERT | 追一科技 | junnyu/wobert_chinese_base 🤗junnyu/wobert_chinese_plus_base 🤗 |
🤗 🤗 |
|
| roberta | chinese-roberta-wwm-ext | HFL | hfl/chinese-roberta-wwm-ext 🤗hfl/chinese-roberta-wwm-ext-large 🤗(large的mlm权重是随机初始化) |
🤗 🤗 |
| roberta-small/tiny | 追一科技 | Tongjilibo/chinese_roberta_L-4_H-312_A-12 🤗Tongjilibo/chinese_roberta_L-6_H-384_A-12 🤗 |
||
| roberta-base | FacebookAI | FacebookAI/roberta-base 🤗 |
🤗 | |
| guwenbert | ethanyt | ethanyt/guwenbert-base 🤗 |
🤗 | |
| albert | albert_zh albert_pytorch |
brightmart | voidful/albert_chinese_tiny 🤗voidful/albert_chinese_small 🤗voidful/albert_chinese_base 🤗voidful/albert_chinese_large 🤗voidful/albert_chinese_xlarge 🤗voidful/albert_chinese_xxlarge 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 |
| nezha | NEZHA NeZha_Chinese_PyTorch |
huawei_noah | sijunhe/nezha-cn-base 🤗sijunhe/nezha-cn-large 🤗sijunhe/nezha-base-wwm 🤗sijunhe/nezha-large-wwm 🤗 |
🤗 🤗 🤗 🤗 |
| nezha_gpt_dialog | bojone | Tongjilibo/nezha_gpt_dialog 🤗 |
||
| xlnet | Chinese-XLNet | HFL | hfl/chinese-xlnet-base 🤗 |
🤗 |
| tranformer_xl | huggingface | transfo-xl/transfo-xl-wt103 🤗 |
🤗 | |
| deberta | Erlangshen-DeBERTa-v2 | IDEA | IDEA-CCNL/Erlangshen-DeBERTa-v2-97M-Chinese 🤗IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese 🤗IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese 🤗 |
🤗 🤗 🤗 |
| electra | Chinese-ELECTRA | HFL | hfl/chinese-electra-base-discriminator 🤗 |
🤗 |
| ernie | ernie | 百度文心 | nghuyong/ernie-1.0-base-zh 🤗nghuyong/ernie-3.0-base-zh 🤗 |
🤗 🤗 |
| roformer | roformer | 追一科技 | junnyu/roformer_chinese_base 🤗 |
🤗 |
| roformer_v2 | 追一科技 | junnyu/roformer_v2_chinese_char_base 🤗 |
🤗 | |
| simbert | simbert | 追一科技 | Tongjilibo/simbert-chinese-base 🤗Tongjilibo/simbert-chinese-small 🤗Tongjilibo/simbert-chinese-tiny 🤗 |
|
| simbert_v2/roformer-sim | 追一科技 | junnyu/roformer_chinese_sim_char_base 🤗junnyu/roformer_chinese_sim_char_ft_base 🤗junnyu/roformer_chinese_sim_char_small 🤗junnyu/roformer_chinese_sim_char_ft_small 🤗 |
🤗 🤗 🤗 🤗 |
|
| gau | GAU-alpha | 追一科技 | Tongjilibo/chinese_GAU-alpha-char_L-24_H-768 🤗 |
|
| ModernBERT | ModernBERT | answerdotai | answerdotai/ModernBERT-base 🤗answerdotai/ModernBERT-large 🤗 |
🤗 🤗 |
| uie | uie uie_pytorch |
百度 | Tongjilibo/uie-base 🤗 |
|
| gpt | CDial-GPT | thu-coai | thu-coai/CDial-GPT_LCCC-base 🤗thu-coai/CDial-GPT_LCCC-large 🤗 |
🤗 🤗 |
| cmp_lm(26亿) | 清华 | TsinghuaAI/CPM-Generate 🤗 |
🤗 | |
| nezha_gen | huawei_noah | Tongjilibo/chinese_nezha_gpt_L-12_H-768_A-12 🤗 |
||
| gpt2-chinese-cluecorpussmall | UER | uer/gpt2-chinese-cluecorpussmall 🤗 |
🤗 | |
| gpt2-ml | imcaspar | Tongjilibo/gpt2-ml_15g_corpus 🤗Tongjilibo/gpt2-ml_30g_corpus 🤗torch,BaiduYun(84dh) |
||
| bart | bart_base_chinese | 复旦fnlp | fnlp/bart-base-chinese 🤗fnlp/bart-base-chinese-v1.0 |
🤗 🤗 |
| t5 | t5 | UER | uer/t5-small-chinese-cluecorpussmall 🤗uer/t5-base-chinese-cluecorpussmall 🤗 |
🤗 🤗 |
| mt5 | 谷歌 | google/mt5-base 🤗 |
🤗 | |
| t5_pegasus | 追一科技 | Tongjilibo/chinese_t5_pegasus_small 🤗Tongjilibo/chinese_t5_pegasus_base 🤗 |
||
| chatyuan | clue-ai | ClueAI/ChatYuan-large-v1 🤗ClueAI/ChatYuan-large-v2 🤗 |
🤗 🤗 |
|
| PromptCLUE | clue-ai | ClueAI/PromptCLUE-base 🤗 |
🤗 | |
| chatglm | ChatGLM-6B | zai-org | zai-org/chatglm-6b 🤗zai-org/chatglm-6b-int8 🤗zai-org/chatglm-6b-int4 🤗zai-org/chatglm-6b-v0.1.0🤗 |
🤗 🤗 🤗 🤗 |
| ChatGLM2-6B | zai-org | zai-org/chatglm2-6b 🤗zai-org/chatglm2-6b-int4 🤗zai-org/chatglm2-6b-32k 🤗 |
🤗 🤗 🤗 |
|
| ChatGLM3 | zai-org | zai-org/chatglm3-6b 🤗zai-org/chatglm3-6b-32k 🤗 |
🤗 🤗 |
|
| GLM-4 | zai-org | zai-org/glm-4-9b 🤗zai-org/glm-4-9b-chat 🤗zai-org/glm-4-9b-chat-1m 🤗zai-org/glm-4v-9b 🤗zai-org/GLM-4-9B-0414 🤗zai-org/GLM-Z1-9B-0414 🤗 |
🤗 🤗 🤗 🤗 |
|
| llama | llama | meta | meta-llama/llama-7bmeta-llama/llama-13b |
🤗 🤗 |
| llama-2 | meta | meta-llama/Llama-2-7b-hf🤗meta-llama/Llama-2-7b-chat-hf🤗meta-llama/Llama-2-13b-hf🤗meta-llama/Llama-2-13b-chat-hf🤗 |
🤗 🤗 🤗 🤗 |
|
| llama-3 | meta | meta-llama/Meta-Llama-3-8B 🤗meta-llama/Meta-Llama-3-8B-Instruct 🤗 |
🤗 🤗 |
|
| llama-3.1 | meta | meta-llama/Meta-Llama-3.1-8B 🤗meta-llama/Meta-Llama-3.1-8B-Instruct 🤗 |
🤗 🤗 |
|
| llama-3.2 | meta | meta-llama/Llama-3.2-1B 🤗meta-llama/Llama-3.2-1B-Instruct 🤗meta-llama/Llama-3.2-3B 🤗meta-llama/Llama-3.2-3B-Instruct 🤗 |
🤗 🤗 🤗 🤗 |
|
| llama-3.2-vision | meta | meta-llama/Llama-3.2-11B-Vision 🤗meta-llama/Llama-3.2-11B-Vision-Instruct 🤗 |
🤗 🤗 |
|
| llama-series | Chinese-LLaMA-Alpaca | HFL | hfl/chinese-alpaca-plus-lora-7b 🤗hfl/chinese-llama-plus-lora-7b 🤗(使用前需要合并lora权重) |
🤗 🤗 |
| Chinese-LLaMA-Alpaca-2 | HFL | 待添加 | ||
| Chinese-LLaMA-Alpaca-3 | HFL | 待添加 | ||
| Belle_llama | LianjiaTech | BelleGroup/BELLE-LLaMA-7B-2M-enc🤗 |
合成说明、🤗 | |
| Ziya | IDEA-CCNL | IDEA-CCNL/Ziya-LLaMA-13B-v1🤗IDEA-CCNL/Ziya-LLaMA-13B-v1.1🤗IDEA-CCNL/Ziya-LLaMA-13B-Pretrain-v1🤗 |
🤗 🤗 |
|
| vicuna | lmsys | lmsys/vicuna-7b-v1.5 🤗 |
🤗 | |
| Baichuan | Baichuan | baichuan-inc | baichuan-inc/Baichuan-7B 🤗baichuan-inc/Baichuan-13B-Base 🤗baichuan-inc/Baichuan-13B-Chat 🤗 |
🤗 🤗 🤗 |
| Baichuan2 | baichuan-inc | baichuan-inc/Baichuan2-7B-Base 🤗baichuan-inc/Baichuan2-7B-Chat 🤗baichuan-inc/Baichuan2-13B-Base 🤗baichuan-inc/Baichuan2-13B-Chat 🤗 |
🤗 🤗 🤗 🤗 |
|
| Yi | Yi | 01-ai | 01-ai/Yi-6B 🤗01-ai/Yi-6B-200K 🤗01-ai/Yi-9B 🤗01-ai/Yi-9B-200K 🤗 |
🤗 🤗 🤗 🤗 |
| Yi-1.5 | 01-ai | 01-ai/Yi-1.5-6B 🤗01-ai/Yi-1.5-6B-Chat 🤗01-ai/Yi-1.5-9B 🤗01-ai/Yi-1.5-9B-32K 🤗01-ai/Yi-1.5-9B-Chat 🤗01-ai/Yi-1.5-9B-Chat-16K 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 |
|
| bloom | bloom | bigscience | bigscience/bloom-560m 🤗bigscience/bloomz-560m 🤗 |
🤗 🤗 |
| Qwen | Qwen | 阿里云 | Qwen/Qwen-1_8B 🤗Qwen/Qwen-1_8B-Chat 🤗Qwen/Qwen-7B 🤗Qwen/Qwen-7B-Chat 🤗Qwen/Qwen-14B 🤗Qwen/Qwen-14B-Chat 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 |
| Qwen1.5 | 阿里云 | Qwen/Qwen1.5-0.5B 🤗Qwen/Qwen1.5-0.5B-Chat 🤗Qwen/Qwen1.5-1.8B 🤗Qwen/Qwen1.5-1.8B-Chat 🤗Qwen/Qwen1.5-7B 🤗Qwen/Qwen1.5-7B-Chat 🤗Qwen/Qwen1.5-14B 🤗Qwen/Qwen1.5-14B-Chat 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 |
|
| Qwen2 | 阿里云 | Qwen/Qwen2-0.5B 🤗Qwen/Qwen2-0.5B-Instruct 🤗Qwen/Qwen2-1.5B 🤗Qwen/Qwen2-1.5B-Instruct 🤗Qwen/Qwen2-7B 🤗Qwen/Qwen2-7B-Instruct 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 |
|
| Qwen2-VL | 阿里云 | Qwen/Qwen2-VL-2B-Instruct 🤗Qwen/Qwen2-VL-7B-Instruct 🤗 |
🤗 🤗 |
|
| Qwen2.5 | 阿里云 | Qwen/Qwen2.5-0.5B 🤗Qwen/Qwen2.5-0.5B-Instruct 🤗Qwen/Qwen2.5-1.5B 🤗Qwen/Qwen2.5-1.5B-Instruct 🤗Qwen/Qwen2.5-3B 🤗Qwen/Qwen2.5-3B-Instruct 🤗Qwen/Qwen2.5-7B 🤗Qwen/Qwen2.5-7B-Instruct 🤗Qwen/Qwen2.5-14B 🤗Qwen/Qwen2.5-14B-Instruct 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 |
|
| Qwen2.5-VL | 阿里云 | Qwen/Qwen2.5-VL-3B-Instruct 🤗Qwen/Qwen2.5-VL-7B-Instruct 🤗Qwen/Qwen2.5-VL-32B-Instruct 🤗 |
🤗 🤗 🤗 |
|
| Qwen3 | 阿里云 | Qwen/Qwen3-0.6B-Base 🤗Qwen/Qwen3-0.6B 🤗Qwen/Qwen3-0.6B-GPTQ-Int8 🤗Qwen/Qwen3-1.7B-Base 🤗Qwen/Qwen3-1.7B 🤗Qwen/Qwen3-4B-Base 🤗Qwen/Qwen3-4B 🤗Qwen/Qwen3-4B-AWQ 🤗Qwen/Qwen3-8B-Base 🤗Qwen/Qwen3-8B 🤗Qwen/Qwen3-14B-Base 🤗Qwen/Qwen3-14B 🤗Qwen/Qwen3-32B 🤗Qwen/Qwen3-4B-Instruct-2507 🤗Qwen/Qwen3-4B-Thinking-2507 🤗Qwen/Qwen3-30B-A3B-Instruct-2507 🤗Qwen/Qwen3-30B-A3B-Thinking-2507 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 |
|
| Qwen3-VL | 阿里云 | Qwen/Qwen3-VL-2B-Instruct 🤗Qwen/Qwen3-VL-2B-Thinking 🤗Qwen/Qwen3-VL-4B-Instruct 🤗Qwen/Qwen3-VL-4B-Thinking 🤗Qwen/Qwen3-VL-8B-Instruct 🤗Qwen/Qwen3-VL-8B-Thinking 🤗Qwen/Qwen3-VL-30B-A3B-Instruct 🤗Qwen/Qwen3-VL-30B-A3B-Thinking 🤗Qwen/Qwen3-VL-32B-Instruct 🤗Qwen/Qwen3-VL-32B-Thinking 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 |
|
| Qwen3-Embedding | 阿里云 | Qwen/Qwen3-Embedding-0.6B 🤗Qwen/Qwen3-Embedding-4B 🤗Qwen/Qwen3-Embedding-8B 🤗 |
🤗 🤗 🤗 |
|
| Qwen3-Reranker | 阿里云 | Qwen/Qwen3-Reranker-0.6B 🤗Qwen/Qwen3-Reranker-4B 🤗Qwen/Qwen3-Reranker-8B 🤗 |
🤗 🤗 🤗 |
|
| Intern | InternLM | 上海人工智能实验室 | internlm/internlm-7b 🤗internlm/internlm-chat-7b 🤗 |
🤗 🤗 |
| InternLM2 | 上海人工智能实验室 | internlm/internlm2-1_8b 🤗internlm/internlm2-chat-1_8b 🤗internlm/internlm2-7b 🤗internlm/internlm2-chat-7b 🤗internlm/internlm2-20b 🤗internlm/internlm2-chat-20b 🤗 |
🤗 🤗 🤗 🤗 |
|
| InternLM2.5 | 上海人工智能实验室 | internlm/internlm2_5-7b 🤗internlm/internlm2_5-7b-chat 🤗internlm/internlm2_5-7b-chat-1m 🤗 |
🤗 🤗 🤗 |
|
| InternLM3 | 上海人工智能实验室 | internlm/internlm3-8b-instruct 🤗 |
🤗 | |
| InternVL1.0-1.5 | 上海人工智能实验室 | OpenGVLab/Mini-InternVL-Chat-4B-V1-5 🤗OpenGVLab/Mini-InternVL-Chat-2B-V1-5 🤗 |
待添加 | |
| InternVL2.0 | 上海人工智能实验室 | OpenGVLab/InternVL2-1B 🤗OpenGVLab/InternVL2-2B 🤗OpenGVLab/InternVL2-4B 🤗OpenGVLab/InternVL2-8B 🤗 |
待添加 | |
| InternVL2.5 | 上海人工智能实验室 | OpenGVLab/InternVL2_5-1B 🤗OpenGVLab/InternVL2_5-2B 🤗OpenGVLab/InternVL2_5-4B 🤗OpenGVLab/InternVL2_5-8B 🤗 |
🤗 待添加 待添加 待添加 |
|
| Falcon | Falcon | tiiuae | tiiuae/falcon-rw-1b 🤗tiiuae/falcon-7b 🤗tiiuae/falcon-7b-instruct 🤗 |
🤗 🤗 🤗 |
| DeepSeek | DeepSeek-MoE | 深度求索 | deepseek-ai/deepseek-moe-16b-base 🤗deepseek-ai/deepseek-moe-16b-chat 🤗 |
🤗 🤗 |
| DeepSeek-LLM | 深度求索 | deepseek-ai/deepseek-llm-7b-base 🤗deepseek-ai/deepseek-llm-7b-chat 🤗 |
🤗 🤗 |
|
| DeepSeek-V2 | 深度求索 | deepseek-ai/DeepSeek-V2-Lite 🤗deepseek-ai/DeepSeek-V2-Lite-Chat 🤗 |
🤗 🤗 |
|
| DeepSeek-Coder | 深度求索 | deepseek-ai/deepseek-coder-1.3b-base 🤗deepseek-ai/deepseek-coder-1.3b-instruct 🤗deepseek-ai/deepseek-coder-6.7b-base 🤗deepseek-ai/deepseek-coder-6.7b-instruct 🤗deepseek-ai/deepseek-coder-7b-base-v1.5 🤗deepseek-ai/deepseek-coder-7b-instruct-v1.5 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 |
|
| DeepSeek-Coder-V2 | 深度求索 | deepseek-ai/DeepSeek-Coder-V2-Lite-Base 🤗deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct 🤗 |
🤗 🤗 |
|
| DeepSeek-Math | 深度求索 | deepseek-ai/deepseek-math-7b-base 🤗deepseek-ai/deepseek-math-7b-instruct 🤗deepseek-ai/deepseek-math-7b-rl 🤗 |
🤗 🤗 🤗 |
|
| DeepSeek-R1 | 深度求索 | deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B 🤗deepseek-ai/DeepSeek-R1-Distill-Qwen-7B 🤗deepseek-ai/DeepSeek-R1-Distill-Llama-8B 🤗deepseek-ai/DeepSeek-R1-Distill-Qwen-14B 🤗deepseek-ai/DeepSeek-R1-Distill-Qwen-32B 🤗deepseek-ai/DeepSeek-R1-0528-Qwen3-8B 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 |
|
| Seed-OSS | Seed-OSS | ByteDance | ByteDance-Seed/Seed-OSS-36B-Instruct 🤗ByteDance-Seed/Seed-OSS-36B-Base 🤗ByteDance-Seed/Seed-OSS-36B-Base-woSyn 🤗 |
|
| Ernie4_5 | Ernie4_5 | 百度 | baidu/ERNIE-4.5-0.3B-Base-PT 🤗baidu/ERNIE-4.5-0.3B-PT 🤗baidu/ERNIE-4.5-21B-A3B-Base-PT 🤗baidu/ERNIE-4.5-21B-A3B-PT 🤗baidu/ERNIE-4.5-VL-28B-A3B-Base-PT 🤗baidu/ERNIE-4.5-VL-28B-A3B-PT 🤗 |
🤗 🤗 |
| PaddleOCR | PaddleOCR-VL | 百度 | PaddlePaddle/PaddleOCR-VL 🤗 |
🤗 |
| PaddleOCR-VL-1.5 | 百度 | PaddlePaddle/PaddleOCR-VL-1.5 🤗 |
🤗 | |
| MiniCPM | MiniCPM | OpenBMB | openbmb/MiniCPM-2B-sft-bf16 🤗openbmb/MiniCPM-2B-dpo-bf16 🤗openbmb/MiniCPM-2B-128k 🤗openbmb/MiniCPM-1B-sft-bf16 🤗openbmb/MiniCPM3-4B 🤗openbmb/MiniCPM4-0.5B 🤗openbmb/MiniCPM4-8B 🤗 |
🤗 🤗 🤗 🤗 待添加 待添加 待添加 |
| MiniCPM-o | OpenBMB | openbmb/MiniCPM-Llama3-V-2_5 🤗openbmb/MiniCPM-V-2_6 🤗openbmb/MiniCPM-o-2_6 🤗openbmb/MiniCPM-V-4 🤗 |
🤗 🤗 待添加 待添加 |
|
| embedding | text2vec-base-chinese | shibing624 | shibing624/text2vec-base-chinese 🤗 |
🤗 |
| m3e | moka-ai | moka-ai/m3e-base 🤗 |
🤗 | |
| bge | BAAI | BAAI/bge-large-en-v1.5 🤗BAAI/bge-large-zh-v1.5 🤗BAAI/bge-base-en-v1.5 🤗BAAI/bge-base-zh-v1.5 🤗BAAI/bge-small-en-v1.5 🤗BAAI/bge-small-zh-v1.5 🤗 |
🤗 🤗 🤗 🤗 🤗 🤗 |
|
| gte | thenlper | thenlper/gte-large-zh 🤗thenlper/gte-base-zh 🤗 |
🤗 🤗 |
*注:
高亮格式(如bert-base-chinese)的表示可直接build_transformer_model()联网下载国内镜像网站加速下载
HF_ENDPOINT=https://hf-mirror.com python your_script.pyexport HF_ENDPOINT=https://hf-mirror.com后再执行python代码- 在python代码开头如下设置
import os os.environ['HF_ENDPOINT'] = "https://hf-mirror.com"
6. 致谢
- 感谢苏神实现的bert4keras,本实现有不少地方参考了bert4keras的源码,在此衷心感谢大佬的无私奉献;
- 其次感谢项目bert4pytorch,也是在该项目的指引下给了我用pytorch来复现bert4keras的想法和思路。
7. 引用
@misc{bert4torch,
title={bert4torch},
author={Bo Li},
year={2022},
howpublished={\url{https://github.com/Tongjilibo/bert4torch}},
}
8. 其他
- 微信及星标历史图
- 微信群人数超过200人(有邀请限制),可添加个人微信拉群,备注:bert4torch-姓名-公司名
![]() 微信号 |
![]() 微信群 |
![]() 星标历史图 |
版本历史
v0.6.12026/01/14v0.6.02025/09/25v0.5.9.post22025/07/21v0.5.82025/06/20v0.5.72025/05/11v0.5.62025/04/01v0.5.52025/02/15v0.5.42024/09/28v0.5.32024/08/14v0.5.22024/08/01v0.5.12024/06/19v0.5.02024/04/18v0.4.9.post22024/03/16v0.4.82024/02/21v0.4.72024/02/04v0.4.62024/01/16v0.4.52024/01/10v0.4.42023/12/28v0.4.32023/12/24v0.4.22023/12/19常见问题
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
gemini-cli
gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器


