bert4torch

1.3k 168 简单 1 次阅读 6天前MIT语言模型开发框架

AI 解读由 AI 自动生成，仅供参考

bert4torch 是一个基于 PyTorch 构建的优雅且高效的 Transformer 模型工具库。它旨在简化自然语言处理（NLP）和大语言模型（LLM）的开发流程，让研究人员和开发者能够轻松加载、微调及部署各类主流预训练模型。

该工具有效解决了传统框架中模型结构复杂、代码复用性低以及大模型部署门槛高等痛点。无论是经典的 BERT、RoBERTa、T5，还是新兴的 ChatGLM、Llama、Baichuan 等大模型，bert4torch 均提供了一站式的解决方案。用户不仅可以快速进行句子分类、序列标注、关系抽取等常规任务，还能通过简洁的命令行指令实现大模型的本地服务部署。

bert4torch 特别适合 NLP 领域的算法工程师、科研人员以及希望深入理解模型原理的进阶开发者。其独特的技术亮点在于高度灵活的架构设计：既支持直接加载 Hugging Face Transformers 的模型权重，又允许用户在基础组件上自由定制网络结构。此外，库内集成了丰富的训练技巧（Tricks）、动态进度条展示、自动参数统计及 TensorBoard 日志记录等功能，大幅提升了实验效率与可复现性。配合详尽的示例代码和清晰的文档，bert4torch 能帮助使用者以更少的代码量，更专注于核心算法的创新与验证。

使用场景

某电商公司的算法团队急需基于用户评论数据微调一个大语言模型（如 ChatGLM 或 LLaMA），以构建智能客服系统，但面临从权重加载到服务部署的全流程开发压力。

没有 bert4torch 时

环境配置繁琐：需要手动编写复杂的代码来转换不同来源的预训练权重格式，常因版本不兼容导致加载失败。
重复造轮子：缺乏内置的训练技巧（Trick），团队需自行实现混合精度训练、梯度累积等优化策略，耗时且易出错。
监控缺失：训练过程缺乏直观的进度条和自动化的 TensorBoard 日志记录，难以实时掌握模型收敛情况。
部署门槛高：模型训练完成后，需额外开发大量推理接口代码才能对外提供服务，延长了上线周期。

使用 bert4torch 后

一键加载权重：直接通过简洁 API 加载 ChatGLM、LLaMA 等主流大模型权重，自动处理格式转换，开箱即用。
内置最佳实践：集成了常见的训练 Trick，只需在配置中开启即可享受混合精度等加速效果，无需重复编码。
可视化训练流：默认提供动态训练进度条及 Logger/TensorBoard 支持，实时监控损失变化与参数状态，调试效率倍增。
命令行极速部署：仅需一行命令即可将微调后的模型部署为在线服务，大幅简化从实验到生产的落地路径。

bert4torch 通过高度封装的优雅设计，将大模型从微调到部署的全链路开发效率提升了数倍，让算法工程师能更专注于业务逻辑而非底层基建。

运行环境要求

操作系统

未说明

GPU

未说明（支持大模型推理和微调，具体显存需求取决于所选模型大小
支持 gptq、awq 等量化方式以降低显存需求）

内存

未说明

依赖

notes开发环境原基于 torch==1.10，现已切换至 torch==2.0。支持加载 ChatGLM、Llama、Baichuan、Qwen 等多种大模型权重。支持命令行一键部署大模型服务（CLI/Gradio/OpenAI API 模式）。部分功能（如 LoRA）依赖 peft 库，但 PPO 等算法自带实现。需注意 git 版本与 pip 发布版本可能存在差异，自行训练时需修改数据处理代码。

python未说明

torch>=2.0

torch4keras>=0.3.3

peft (可选，用于 LoRA 微调)

快速开始

bert4torch

文档 | Torch4keras | 示例 | build_MiniLLM_from_scratch | bert4vector

1. 下载安装

安装稳定版

pip install bert4torch

安装最新版

pip install git+https://github.com/Tongjilibo/bert4torch

注意事项：pip包的发布慢于git上的开发版本，git clone注意引用路径，注意权重是否需要转换
测试用例：git clone https://github.com/Tongjilibo/bert4torch，修改example中的预训练模型文件路径和数据路径即可启动脚本
自行训练：针对自己的数据，修改相应的数据处理代码块
开发环境：原使用 torch==1.10版本进行开发，现已切换到 torch2.0开发，如其他版本遇到不适配，欢迎反馈

2. 功能

LLM模型: 加载chatglm、llama、 baichuan、ziya、bloom等开源大模型权重进行推理和微调，命令行一行部署大模型
核心功能：加载bert、roberta、albert、xlnet、nezha、bart、RoFormer、RoFormer_V2、ELECTRA、GPT、GPT2、T5、GAU-alpha、ERNIE等预训练权重继续进行finetune、并支持在bert基础上灵活定义自己模型
丰富示例：包含llm、pretrain、sentence_classfication、sentence_embedding、sequence_labeling、relation_extraction、seq2seq、serving等多种解决方案
实验验证：已在公开数据集实验验证，使用如下examples数据集和实验指标
易用trick：集成了常见的trick，即插即用
其他特性：加载transformers库模型一起使用；调用方式简洁高效；有训练进度条动态展示；配合torchinfo打印参数量；默认Logger和Tensorboard简便记录训练过程；自定义fit过程，满足高阶需求
训练过程：

功能	bert4torch	transformers	备注
训练进度条	✅	✅	进度条打印loss和定义的metrics
分布式训练dp/ddp	✅	✅	torch自带dp/ddp
各类callbacks	✅	✅	日志/tensorboard/earlystop/wandb等
大模型推理，stream/batch输出	✅	✅	各个模型是通用的，无需单独维护脚本
大模型微调	✅	✅	lora依赖peft库，pv2自带
丰富tricks	✅	❌	对抗训练等tricks即插即用
代码简洁易懂，自定义空间大	✅	❌	代码复用度高, keras代码训练风格
仓库的维护能力/影响力/使用量/兼容性	❌	✅	目前仓库个人维护
一键部署大模型

3. 快速上手

3.1 上手教程

3.2 命令行快速部署大模型服务

本地 / 联网加载

# 联网下载全部文件
bert4torch serve --checkpoint_path Qwen2-0.5B-Instruct

# 加载本地大模型，联网下载bert4torch_config.json
bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --config_path Qwen/Qwen2-0.5B-Instruct

# 加载本地大模型，且bert4torch_config.json已经下载并放于同名目录下
bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct

命令行 / gradio网页 / openai_api

# 命令行
bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode cli

# gradio网页
bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode gradio

# openai_api
bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode openai

命令行聊天示例

4. 版本和更新历史

4.1 版本历史

更新日期	bert4torch	torch4keras	版本说明
20260114	0.6.1	0.3.3	增加paddleocr-vl，优化代码结构，去除硬代码模型配置项
20250925	0.6.0	0.3.2	增加 `Qwen3-moe`, 支持 `gptq`、`awq`等主流量化方式，其他代码优化
20250721	0.5.9.post2	0.3.1	增加 `Ernie4_5`, 修复hub下载bug, 拆分出 `openai_client`

更多版本

4.2 更新历史

更多历史

5. 预训练权重

5.1 权重加载

from bert4torch.models import build_transformer_model

# 1. 仅指定config_path: 从头初始化模型结构, 不加载预训练模型
model = build_transformer_model('./model/bert4torch_config.json')

# 2. 仅指定checkpoint_path: 
## 2.1 文件夹路径: 自动寻找路径下的*.bin/*.safetensors权重文件 + 需把bert4torch_config.json下载并放于该目录下
model = build_transformer_model(checkpoint_path='./model')

## 2.2 文件路径/列表: 文件路径即权重路径/列表, bert4torch_config.json会从同级目录下寻找
model = build_transformer_model(checkpoint_path='./pytorch_model.bin')

## 2.3 model_name: hf上预训练权重名称, 会自动下载hf权重以及bert4torch_config.json文件
model = build_transformer_model(checkpoint_path='google-bert/bert-base-chinese')

# 3. 同时指定config_path和checkpoint_path(本地路径名或model_name排列组合): 
#    本地路径从本地加载，pretrained_model_name会联网下载
config_path = './model/bert4torch_config.json'  # 或'google-bert/bert-base-chinese'
checkpoint_path = './model/pytorch_model.bin'  # 或'google-bert/bert-base-chinese'
model = build_transformer_model(config_path, checkpoint_path)

5.2 权重链接

模型分类	模型名称	权重来源	checkpoint_path	config_path
bert	bert-base-chinese	google-bert	`google-bert/bert-base-chinese` 🤗	🤗
	chinese_L-12_H-768_A-12	谷歌	tf权重 `Tongjilibo/bert-chinese_L-12_H-768_A-12` 🤗
	chinese-bert-wwm-ext	HFL	`hfl/chinese-bert-wwm-ext` 🤗	🤗
	bert-base-multilingual-cased	google-bert	`google-bert/bert-base-multilingual-cased` 🤗	🤗
	bert-base-cased	google-bert	`google-bert/bert-base-cased` 🤗	🤗
	bert-base-uncased	google-bert	`google-bert/bert-base-uncased` 🤗	🤗
	MacBERT	HFL	`hfl/chinese-macbert-base` 🤗 `hfl/chinese-macbert-large` 🤗	🤗 🤗
	WoBERT	追一科技	`junnyu/wobert_chinese_base` 🤗 `junnyu/wobert_chinese_plus_base` 🤗	🤗 🤗
roberta	chinese-roberta-wwm-ext	HFL	`hfl/chinese-roberta-wwm-ext` 🤗 `hfl/chinese-roberta-wwm-ext-large` 🤗 (large的mlm权重是随机初始化)	🤗 🤗
	roberta-small/tiny	追一科技	`Tongjilibo/chinese_roberta_L-4_H-312_A-12` 🤗 `Tongjilibo/chinese_roberta_L-6_H-384_A-12` 🤗
	roberta-base	FacebookAI	`FacebookAI/roberta-base` 🤗	🤗
	guwenbert	ethanyt	`ethanyt/guwenbert-base` 🤗	🤗
albert	albert_zh albert_pytorch	brightmart	`voidful/albert_chinese_tiny` 🤗 `voidful/albert_chinese_small` 🤗 `voidful/albert_chinese_base` 🤗 `voidful/albert_chinese_large` 🤗 `voidful/albert_chinese_xlarge` 🤗 `voidful/albert_chinese_xxlarge` 🤗	🤗 🤗 🤗 🤗 🤗 🤗
nezha	NEZHA NeZha_Chinese_PyTorch	huawei_noah	`sijunhe/nezha-cn-base` 🤗 `sijunhe/nezha-cn-large` 🤗 `sijunhe/nezha-base-wwm` 🤗 `sijunhe/nezha-large-wwm` 🤗	🤗 🤗 🤗 🤗
	nezha_gpt_dialog	bojone	`Tongjilibo/nezha_gpt_dialog` 🤗
xlnet	Chinese-XLNet	HFL	`hfl/chinese-xlnet-base` 🤗	🤗
	tranformer_xl	huggingface	`transfo-xl/transfo-xl-wt103` 🤗	🤗
deberta	Erlangshen-DeBERTa-v2	IDEA	`IDEA-CCNL/Erlangshen-DeBERTa-v2-97M-Chinese` 🤗 `IDEA-CCNL/Erlangshen-DeBERTa-v2-320M-Chinese` 🤗 `IDEA-CCNL/Erlangshen-DeBERTa-v2-710M-Chinese` 🤗	🤗 🤗 🤗
electra	Chinese-ELECTRA	HFL	`hfl/chinese-electra-base-discriminator` 🤗	🤗
ernie	ernie	百度文心	`nghuyong/ernie-1.0-base-zh` 🤗 `nghuyong/ernie-3.0-base-zh` 🤗	🤗 🤗
roformer	roformer	追一科技	`junnyu/roformer_chinese_base` 🤗	🤗
	roformer_v2	追一科技	`junnyu/roformer_v2_chinese_char_base` 🤗	🤗
simbert	simbert	追一科技	`Tongjilibo/simbert-chinese-base` 🤗 `Tongjilibo/simbert-chinese-small` 🤗 `Tongjilibo/simbert-chinese-tiny` 🤗
	simbert_v2/roformer-sim	追一科技	`junnyu/roformer_chinese_sim_char_base` 🤗 `junnyu/roformer_chinese_sim_char_ft_base` 🤗 `junnyu/roformer_chinese_sim_char_small` 🤗 `junnyu/roformer_chinese_sim_char_ft_small` 🤗	🤗 🤗 🤗 🤗
gau	GAU-alpha	追一科技	`Tongjilibo/chinese_GAU-alpha-char_L-24_H-768` 🤗
ModernBERT	ModernBERT	answerdotai	`answerdotai/ModernBERT-base` 🤗 `answerdotai/ModernBERT-large` 🤗	🤗 🤗
uie	uie uie_pytorch	百度	`Tongjilibo/uie-base` 🤗
gpt	CDial-GPT	thu-coai	`thu-coai/CDial-GPT_LCCC-base` 🤗 `thu-coai/CDial-GPT_LCCC-large` 🤗	🤗 🤗
	cmp_lm(26亿)	清华	`TsinghuaAI/CPM-Generate` 🤗	🤗
	nezha_gen	huawei_noah	`Tongjilibo/chinese_nezha_gpt_L-12_H-768_A-12` 🤗
	gpt2-chinese-cluecorpussmall	UER	`uer/gpt2-chinese-cluecorpussmall` 🤗	🤗
	gpt2-ml	imcaspar	`Tongjilibo/gpt2-ml_15g_corpus` 🤗 `Tongjilibo/gpt2-ml_30g_corpus` 🤗 torch,BaiduYun(84dh)
bart	bart_base_chinese	复旦fnlp	`fnlp/bart-base-chinese` 🤗 fnlp/bart-base-chinese-v1.0	🤗 🤗
t5	t5	UER	`uer/t5-small-chinese-cluecorpussmall` 🤗 `uer/t5-base-chinese-cluecorpussmall` 🤗	🤗 🤗
	mt5	谷歌	`google/mt5-base` 🤗	🤗
	t5_pegasus	追一科技	`Tongjilibo/chinese_t5_pegasus_small` 🤗 `Tongjilibo/chinese_t5_pegasus_base` 🤗
	chatyuan	clue-ai	`ClueAI/ChatYuan-large-v1` 🤗 `ClueAI/ChatYuan-large-v2` 🤗	🤗 🤗
	PromptCLUE	clue-ai	`ClueAI/PromptCLUE-base` 🤗	🤗
chatglm	ChatGLM-6B	zai-org	`zai-org/chatglm-6b` 🤗 `zai-org/chatglm-6b-int8` 🤗 `zai-org/chatglm-6b-int4` 🤗 `zai-org/chatglm-6b-v0.1.0`🤗	🤗 🤗 🤗 🤗
	ChatGLM2-6B	zai-org	`zai-org/chatglm2-6b` 🤗 `zai-org/chatglm2-6b-int4` 🤗 `zai-org/chatglm2-6b-32k` 🤗	🤗 🤗 🤗
	ChatGLM3	zai-org	`zai-org/chatglm3-6b` 🤗 `zai-org/chatglm3-6b-32k` 🤗	🤗 🤗
	GLM-4	zai-org	`zai-org/glm-4-9b` 🤗 `zai-org/glm-4-9b-chat` 🤗 `zai-org/glm-4-9b-chat-1m` 🤗 `zai-org/glm-4v-9b` 🤗 `zai-org/GLM-4-9B-0414` 🤗 `zai-org/GLM-Z1-9B-0414` 🤗	🤗 🤗 🤗 🤗
llama	llama	meta	`meta-llama/llama-7b` `meta-llama/llama-13b`	🤗 🤗
	llama-2	meta	`meta-llama/Llama-2-7b-hf`🤗 `meta-llama/Llama-2-7b-chat-hf`🤗 `meta-llama/Llama-2-13b-hf`🤗 `meta-llama/Llama-2-13b-chat-hf`🤗	🤗 🤗 🤗 🤗
	llama-3	meta	`meta-llama/Meta-Llama-3-8B` 🤗 `meta-llama/Meta-Llama-3-8B-Instruct` 🤗	🤗 🤗
	llama-3.1	meta	`meta-llama/Meta-Llama-3.1-8B` 🤗 `meta-llama/Meta-Llama-3.1-8B-Instruct` 🤗	🤗 🤗
	llama-3.2	meta	`meta-llama/Llama-3.2-1B` 🤗 `meta-llama/Llama-3.2-1B-Instruct` 🤗 `meta-llama/Llama-3.2-3B` 🤗 `meta-llama/Llama-3.2-3B-Instruct` 🤗	🤗 🤗 🤗 🤗
	llama-3.2-vision	meta	`meta-llama/Llama-3.2-11B-Vision` 🤗 `meta-llama/Llama-3.2-11B-Vision-Instruct` 🤗	🤗 🤗
llama-series	Chinese-LLaMA-Alpaca	HFL	`hfl/chinese-alpaca-plus-lora-7b` 🤗 `hfl/chinese-llama-plus-lora-7b` 🤗 (使用前需要合并lora权重)	🤗 🤗
	Chinese-LLaMA-Alpaca-2	HFL		待添加
	Chinese-LLaMA-Alpaca-3	HFL		待添加
	Belle_llama	LianjiaTech	`BelleGroup/BELLE-LLaMA-7B-2M-enc`🤗	合成说明、🤗
	Ziya	IDEA-CCNL	`IDEA-CCNL/Ziya-LLaMA-13B-v1`🤗 `IDEA-CCNL/Ziya-LLaMA-13B-v1.1`🤗 `IDEA-CCNL/Ziya-LLaMA-13B-Pretrain-v1`🤗	🤗 🤗
	vicuna	lmsys	`lmsys/vicuna-7b-v1.5` 🤗	🤗
Baichuan	Baichuan	baichuan-inc	`baichuan-inc/Baichuan-7B` 🤗 `baichuan-inc/Baichuan-13B-Base` 🤗 `baichuan-inc/Baichuan-13B-Chat` 🤗	🤗 🤗 🤗
	Baichuan2	baichuan-inc	`baichuan-inc/Baichuan2-7B-Base` 🤗 `baichuan-inc/Baichuan2-7B-Chat` 🤗 `baichuan-inc/Baichuan2-13B-Base` 🤗 `baichuan-inc/Baichuan2-13B-Chat` 🤗	🤗 🤗 🤗 🤗
Yi	Yi	01-ai	`01-ai/Yi-6B` 🤗 `01-ai/Yi-6B-200K` 🤗 `01-ai/Yi-9B` 🤗 `01-ai/Yi-9B-200K` 🤗	🤗 🤗 🤗 🤗
	Yi-1.5	01-ai	`01-ai/Yi-1.5-6B` 🤗 `01-ai/Yi-1.5-6B-Chat` 🤗 `01-ai/Yi-1.5-9B` 🤗 `01-ai/Yi-1.5-9B-32K` 🤗 `01-ai/Yi-1.5-9B-Chat` 🤗 `01-ai/Yi-1.5-9B-Chat-16K` 🤗	🤗 🤗 🤗 🤗 🤗 🤗
bloom	bloom	bigscience	`bigscience/bloom-560m` 🤗 `bigscience/bloomz-560m` 🤗	🤗 🤗
Qwen	Qwen	阿里云	`Qwen/Qwen-1_8B` 🤗 `Qwen/Qwen-1_8B-Chat` 🤗 `Qwen/Qwen-7B` 🤗 `Qwen/Qwen-7B-Chat` 🤗 `Qwen/Qwen-14B` 🤗 `Qwen/Qwen-14B-Chat` 🤗	🤗 🤗 🤗 🤗 🤗 🤗
	Qwen1.5	阿里云	`Qwen/Qwen1.5-0.5B` 🤗 `Qwen/Qwen1.5-0.5B-Chat` 🤗 `Qwen/Qwen1.5-1.8B` 🤗 `Qwen/Qwen1.5-1.8B-Chat` 🤗 `Qwen/Qwen1.5-7B` 🤗 `Qwen/Qwen1.5-7B-Chat` 🤗 `Qwen/Qwen1.5-14B` 🤗 `Qwen/Qwen1.5-14B-Chat` 🤗	🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗
	Qwen2	阿里云	`Qwen/Qwen2-0.5B` 🤗 `Qwen/Qwen2-0.5B-Instruct` 🤗 `Qwen/Qwen2-1.5B` 🤗 `Qwen/Qwen2-1.5B-Instruct` 🤗 `Qwen/Qwen2-7B` 🤗 `Qwen/Qwen2-7B-Instruct` 🤗	🤗 🤗 🤗 🤗 🤗 🤗
	Qwen2-VL	阿里云	`Qwen/Qwen2-VL-2B-Instruct` 🤗 `Qwen/Qwen2-VL-7B-Instruct` 🤗	🤗 🤗
	Qwen2.5	阿里云	`Qwen/Qwen2.5-0.5B` 🤗 `Qwen/Qwen2.5-0.5B-Instruct` 🤗 `Qwen/Qwen2.5-1.5B` 🤗 `Qwen/Qwen2.5-1.5B-Instruct` 🤗 `Qwen/Qwen2.5-3B` 🤗 `Qwen/Qwen2.5-3B-Instruct` 🤗 `Qwen/Qwen2.5-7B` 🤗 `Qwen/Qwen2.5-7B-Instruct` 🤗 `Qwen/Qwen2.5-14B` 🤗 `Qwen/Qwen2.5-14B-Instruct` 🤗	🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗
	Qwen2.5-VL	阿里云	`Qwen/Qwen2.5-VL-3B-Instruct` 🤗 `Qwen/Qwen2.5-VL-7B-Instruct` 🤗 `Qwen/Qwen2.5-VL-32B-Instruct` 🤗	🤗 🤗 🤗
	Qwen3	阿里云	`Qwen/Qwen3-0.6B-Base` 🤗 `Qwen/Qwen3-0.6B` 🤗 `Qwen/Qwen3-0.6B-GPTQ-Int8` 🤗 `Qwen/Qwen3-1.7B-Base` 🤗 `Qwen/Qwen3-1.7B` 🤗 `Qwen/Qwen3-4B-Base` 🤗 `Qwen/Qwen3-4B` 🤗 `Qwen/Qwen3-4B-AWQ` 🤗 `Qwen/Qwen3-8B-Base` 🤗 `Qwen/Qwen3-8B` 🤗 `Qwen/Qwen3-14B-Base` 🤗 `Qwen/Qwen3-14B` 🤗 `Qwen/Qwen3-32B` 🤗 `Qwen/Qwen3-4B-Instruct-2507` 🤗 `Qwen/Qwen3-4B-Thinking-2507` 🤗 `Qwen/Qwen3-30B-A3B-Instruct-2507` 🤗 `Qwen/Qwen3-30B-A3B-Thinking-2507` 🤗	🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗
	Qwen3-VL	阿里云	`Qwen/Qwen3-VL-2B-Instruct` 🤗 `Qwen/Qwen3-VL-2B-Thinking` 🤗 `Qwen/Qwen3-VL-4B-Instruct` 🤗 `Qwen/Qwen3-VL-4B-Thinking` 🤗 `Qwen/Qwen3-VL-8B-Instruct` 🤗 `Qwen/Qwen3-VL-8B-Thinking` 🤗 `Qwen/Qwen3-VL-30B-A3B-Instruct` 🤗 `Qwen/Qwen3-VL-30B-A3B-Thinking` 🤗 `Qwen/Qwen3-VL-32B-Instruct` 🤗 `Qwen/Qwen3-VL-32B-Thinking` 🤗	🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗 🤗
	Qwen3-Embedding	阿里云	`Qwen/Qwen3-Embedding-0.6B` 🤗 `Qwen/Qwen3-Embedding-4B` 🤗 `Qwen/Qwen3-Embedding-8B` 🤗	🤗 🤗 🤗
	Qwen3-Reranker	阿里云	`Qwen/Qwen3-Reranker-0.6B` 🤗 `Qwen/Qwen3-Reranker-4B` 🤗 `Qwen/Qwen3-Reranker-8B` 🤗	🤗 🤗 🤗
Intern	InternLM	上海人工智能实验室	`internlm/internlm-7b` 🤗 `internlm/internlm-chat-7b` 🤗	🤗 🤗
	InternLM2	上海人工智能实验室	`internlm/internlm2-1_8b` 🤗 `internlm/internlm2-chat-1_8b` 🤗 `internlm/internlm2-7b` 🤗 `internlm/internlm2-chat-7b` 🤗 `internlm/internlm2-20b` 🤗 `internlm/internlm2-chat-20b` 🤗	🤗 🤗 🤗 🤗
	InternLM2.5	上海人工智能实验室	`internlm/internlm2_5-7b` 🤗 `internlm/internlm2_5-7b-chat` 🤗 `internlm/internlm2_5-7b-chat-1m` 🤗	🤗 🤗 🤗
	InternLM3	上海人工智能实验室	`internlm/internlm3-8b-instruct` 🤗	🤗
	InternVL1.0-1.5	上海人工智能实验室	`OpenGVLab/Mini-InternVL-Chat-4B-V1-5` 🤗 `OpenGVLab/Mini-InternVL-Chat-2B-V1-5` 🤗	待添加
	InternVL2.0	上海人工智能实验室	`OpenGVLab/InternVL2-1B` 🤗 `OpenGVLab/InternVL2-2B` 🤗 `OpenGVLab/InternVL2-4B` 🤗 `OpenGVLab/InternVL2-8B` 🤗	待添加
	InternVL2.5	上海人工智能实验室	`OpenGVLab/InternVL2_5-1B` 🤗 `OpenGVLab/InternVL2_5-2B` 🤗 `OpenGVLab/InternVL2_5-4B` 🤗 `OpenGVLab/InternVL2_5-8B` 🤗	🤗 待添加待添加待添加
Falcon	Falcon	tiiuae	`tiiuae/falcon-rw-1b` 🤗 `tiiuae/falcon-7b` 🤗 `tiiuae/falcon-7b-instruct` 🤗	🤗 🤗 🤗
DeepSeek	DeepSeek-MoE	深度求索	`deepseek-ai/deepseek-moe-16b-base` 🤗 `deepseek-ai/deepseek-moe-16b-chat` 🤗	🤗 🤗
	DeepSeek-LLM	深度求索	`deepseek-ai/deepseek-llm-7b-base` 🤗 `deepseek-ai/deepseek-llm-7b-chat` 🤗	🤗 🤗
	DeepSeek-V2	深度求索	`deepseek-ai/DeepSeek-V2-Lite` 🤗 `deepseek-ai/DeepSeek-V2-Lite-Chat` 🤗	🤗 🤗
	DeepSeek-Coder	深度求索	`deepseek-ai/deepseek-coder-1.3b-base` 🤗 `deepseek-ai/deepseek-coder-1.3b-instruct` 🤗 `deepseek-ai/deepseek-coder-6.7b-base` 🤗 `deepseek-ai/deepseek-coder-6.7b-instruct` 🤗 `deepseek-ai/deepseek-coder-7b-base-v1.5` 🤗 `deepseek-ai/deepseek-coder-7b-instruct-v1.5` 🤗	🤗 🤗 🤗 🤗 🤗 🤗
	DeepSeek-Coder-V2	深度求索	`deepseek-ai/DeepSeek-Coder-V2-Lite-Base` 🤗 `deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct` 🤗	🤗 🤗
	DeepSeek-Math	深度求索	`deepseek-ai/deepseek-math-7b-base` 🤗 `deepseek-ai/deepseek-math-7b-instruct` 🤗 `deepseek-ai/deepseek-math-7b-rl` 🤗	🤗 🤗 🤗
	DeepSeek-R1	深度求索	`deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B` 🤗 `deepseek-ai/DeepSeek-R1-Distill-Qwen-7B` 🤗 `deepseek-ai/DeepSeek-R1-Distill-Llama-8B` 🤗 `deepseek-ai/DeepSeek-R1-Distill-Qwen-14B` 🤗 `deepseek-ai/DeepSeek-R1-Distill-Qwen-32B` 🤗 `deepseek-ai/DeepSeek-R1-0528-Qwen3-8B` 🤗	🤗 🤗 🤗 🤗 🤗 🤗
Seed-OSS	Seed-OSS	ByteDance	`ByteDance-Seed/Seed-OSS-36B-Instruct` 🤗 `ByteDance-Seed/Seed-OSS-36B-Base` 🤗 `ByteDance-Seed/Seed-OSS-36B-Base-woSyn` 🤗
Ernie4_5	Ernie4_5	百度	`baidu/ERNIE-4.5-0.3B-Base-PT` 🤗 `baidu/ERNIE-4.5-0.3B-PT` 🤗 `baidu/ERNIE-4.5-21B-A3B-Base-PT` 🤗 `baidu/ERNIE-4.5-21B-A3B-PT` 🤗 `baidu/ERNIE-4.5-VL-28B-A3B-Base-PT` 🤗 `baidu/ERNIE-4.5-VL-28B-A3B-PT` 🤗	🤗 🤗
PaddleOCR	PaddleOCR-VL	百度	`PaddlePaddle/PaddleOCR-VL` 🤗	🤗
	PaddleOCR-VL-1.5	百度	`PaddlePaddle/PaddleOCR-VL-1.5` 🤗	🤗
MiniCPM	MiniCPM	OpenBMB	`openbmb/MiniCPM-2B-sft-bf16` 🤗 `openbmb/MiniCPM-2B-dpo-bf16` 🤗 `openbmb/MiniCPM-2B-128k` 🤗 `openbmb/MiniCPM-1B-sft-bf16` 🤗 `openbmb/MiniCPM3-4B` 🤗 `openbmb/MiniCPM4-0.5B` 🤗 `openbmb/MiniCPM4-8B` 🤗	🤗 🤗 🤗 🤗 待添加待添加待添加
	MiniCPM-o	OpenBMB	`openbmb/MiniCPM-Llama3-V-2_5` 🤗 `openbmb/MiniCPM-V-2_6` 🤗 `openbmb/MiniCPM-o-2_6` 🤗 `openbmb/MiniCPM-V-4` 🤗	🤗 🤗 待添加待添加
embedding	text2vec-base-chinese	shibing624	`shibing624/text2vec-base-chinese` 🤗	🤗
	m3e	moka-ai	`moka-ai/m3e-base` 🤗	🤗
	bge	BAAI	`BAAI/bge-large-en-v1.5` 🤗 `BAAI/bge-large-zh-v1.5` 🤗 `BAAI/bge-base-en-v1.5` 🤗 `BAAI/bge-base-zh-v1.5` 🤗 `BAAI/bge-small-en-v1.5` 🤗 `BAAI/bge-small-zh-v1.5` 🤗	🤗 🤗 🤗 🤗 🤗 🤗
	gte	thenlper	`thenlper/gte-large-zh` 🤗 `thenlper/gte-base-zh` 🤗	🤗 🤗

*注：

高亮格式(如 bert-base-chinese)的表示可直接 build_transformer_model()联网下载
国内镜像网站加速下载
- HF_ENDPOINT=https://hf-mirror.com python your_script.py
- export HF_ENDPOINT=https://hf-mirror.com后再执行python代码
- 在python代码开头如下设置
```
import os
os.environ['HF_ENDPOINT'] = "https://hf-mirror.com"
```

6. 致谢

感谢苏神实现的bert4keras，本实现有不少地方参考了bert4keras的源码，在此衷心感谢大佬的无私奉献;
其次感谢项目bert4pytorch，也是在该项目的指引下给了我用pytorch来复现bert4keras的想法和思路。

7. 引用

@misc{bert4torch,
  title={bert4torch},
  author={Bo Li},
  year={2022},
  howpublished={\url{https://github.com/Tongjilibo/bert4torch}},
}

8. 其他

微信及星标历史图
微信群人数超过200人（有邀请限制），可添加个人微信拉群，备注：bert4torch-姓名-公司名

微信号

微信群

星标历史图

bert4torch 快速上手指南

bert4torch 是一个基于 PyTorch 的轻量级 NLP 框架，兼容 Keras 风格的训练流程。它支持加载 BERT、RoBERTa、LLaMA、ChatGLM 等多种预训练模型，提供从微调到大模型推理部署的一站式解决方案。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows
Python 版本：建议 Python 3.8+
核心依赖：
- torch >= 2.0 (推荐，已适配 torch2.0；原基于 1.10 开发)
- transformers (可选，用于加载 HuggingFace 模型)
硬件建议：若进行大模型推理或微调，建议使用支持 CUDA 的 NVIDIA GPU。

2. 安装步骤

您可以通过 pip 直接安装稳定版，或从 GitHub 安装最新开发版。

安装稳定版

pip install bert4torch

安装最新版（推荐）

由于 PyPI 包更新可能滞后，建议直接从 GitHub 安装以获取最新模型支持（如 Qwen3, Ernie4_5 等）：

pip install git+https://github.com/Tongjilibo/bert4torch

注意：若使用 git clone 方式自行开发，请注意引用路径及权重文件格式是否需要转换。

3. 基本使用

bert4torch 的核心优势在于统一的模型加载接口和简洁的训练流程。

3.1 加载预训练模型

使用 build_transformer_model 即可加载各类模型。支持本地路径加载或自动从 HuggingFace 下载。

from bert4torch.models import build_transformer_model

# 场景 1: 自动从 HuggingFace 下载并加载 (例如中文 BERT)
# 会自动下载权重文件和 bert4torch_config.json 配置
model = build_transformer_model(checkpoint_path='google-bert/bert-base-chinese')

# 场景 2: 加载本地模型文件夹
# 需确保文件夹下包含 *.bin/*.safetensors 权重文件及 bert4torch_config.json
model = build_transformer_model(checkpoint_path='./model/my_bert_ckpt')

# 场景 3: 仅初始化模型结构 (不加载权重，用于从头训练)
model = build_transformer_model('./model/bert4torch_config.json')

3.2 命令行一键部署大模型

无需编写额外代码，直接使用命令行即可启动大模型服务（支持 ChatGLM, LLaMA, Qwen 等）。

启动 Gradio 网页界面进行对话：

# 自动联网下载模型并启动 Web UI
bert4torch serve --checkpoint_path Qwen2-0.5B-Instruct --mode gradio

# 或使用本地已下载的模型路径
bert4torch serve --checkpoint_path /data/pretrain_ckpt/Qwen/Qwen2-0.5B-Instruct --mode gradio

启动 OpenAI 兼容 API 服务：

bert4torch serve --checkpoint_path Qwen2-0.5B-Instruct --mode openai

终端命令行交互模式：

bert4torch serve --checkpoint_path Qwen2-0.5B-Instruct --mode cli

3.3 模型微调 (Finetune) 简述

框架采用类似 Keras 的 fit 方式进行训练，内置进度条、Logger 和 Tensorboard 支持。

# 伪代码示例：定义模型 -> 准备数据 -> 编译 -> 训练
model = build_transformer_model(config_path, checkpoint_path)
# ... 数据预处理 ...
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
model.fit(train_data, steps_per_epoch=100, epochs=3)

更多详细示例（如序列标注、文本分类、LoRA 微调等）请参考官方 examples 目录。

版本历史

v0.6.12026/01/14

v0.6.02025/09/25

v0.5.9.post22025/07/21

v0.5.82025/06/20

v0.5.72025/05/11

v0.5.62025/04/01

v0.5.52025/02/15

v0.5.42024/09/28

v0.5.32024/08/14

v0.5.22024/08/01

v0.5.12024/06/19

v0.5.02024/04/18

v0.4.9.post22024/03/16

v0.4.82024/02/21

v0.4.72024/02/04

v0.4.62024/01/16

v0.4.52024/01/10

v0.4.42023/12/28

v0.4.32023/12/24

v0.4.22023/12/19

常见问题

开启 DataLoader 的多线程（num_workers > 0）时报错，如何解决？

单机多卡使用 BaseModelDDP 初始化时出现 'AttributeError: can't set attribute' 错误怎么办？

使用 AutoModel.from_pretrained 加载模型后，训练时 Backbone 参数不更新（requires_grad=True 但权重不变），而线性层正常更新，原因是什么？

调用 model.compile() 时报错 'unexpected keyword argument grad_accumulation_steps'，该如何处理？

添加虚拟对抗训练（VAT）后，模型训练的 F1 值一直为 0，如何排查？

在使用自定义语料进行句子相似度计算或模型导出（ONNX/TensorRT）时，预测结果异常或加速失败，需要注意什么？

运行 TPLinker Plus 命名实体识别示例时，F1 值为 0 且预测结果全为空或异常，如何解决？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156.8k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|5天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|5天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架