ckip-transformers

767 81 简单 1 次阅读 4天前GPL-3.0音频语言模型图像

AI 解读由 AI 自动生成，仅供参考

ckip-transformers 是专为繁体中文自然语言处理打造的开源工具库，由台湾中央研究院资讯科学研究所 CKIP 实验室维护。它基于先进的 Transformers 架构，提供了包括 ALBERT、BERT 和 GPT-2 在内的多种预训练模型，能够高效完成断词、词性标注及命名实体识别等核心任务。

针对繁体中文语境下分词困难、语义理解复杂等痛点，ckip-transformers 利用深度学习技术显著提升了文本分析的准确度与流畅度，填补了高质量繁体中文 NLP 资源的空白。无论是需要快速集成中文处理功能的软件开发者，还是致力于语言模型研究的研究人员，都能从中获益。其独特的亮点在于不仅支持主流的 Transformer 模型，还针对繁体中文特性进行了深度优化，并提供了便捷的在线演示服务与详尽的文档，降低了使用门槛。相比传统的 BiLSTM 方案，它在处理长距离依赖和上下文理解上表现更为出色，是构建繁体中文智能应用的理想选择。

使用场景

某台湾电商平台的客服团队需要自动分析每日数千条繁体中文用户评论，以提取产品缺陷和情感倾向。

没有 ckip-transformers 时

通用分词工具对繁体中文支持不佳，常将“筆記型電腦”错误切分为“筆記/型/電腦”，导致后续关键词统计完全失真。
缺乏针对繁体语境优化的实体识别模型，无法准确从评论中剥离出具体的品牌名（如"ASUS"）或型号，只能依靠规则匹配，漏报率极高。
词性标注准确率低下，难以区分形容词与副词在繁体语境下的细微差别，致使情感分析算法频繁误判用户语气。
团队需耗费大量人力手动清洗数据并训练自定义模型，项目上线周期被拖延数周，且维护成本高昂。

使用 ckip-transformers 后

直接调用内置的繁体中文 BERT/ALBERT 模型，精准完成断词任务，确保“筆記型電腦”等专有名词被完整识别，基础数据质量显著提升。
利用开箱即用的命名实体识别功能，自动且准确地从非结构化文本中提取出产品型号与品牌，无需额外训练即可适应电商领域术语。
借助高精度的词性标记辅助情感计算，系统能敏锐捕捉繁体用语中的反讽或强调语气，将情感分析准确率提升至可用水平。
通过简单的 API 调用即可集成全套 NLP 流程，开发时间从数周缩短至数天，团队得以快速迭代分析策略。

ckip-transformers 通过提供专为繁体中文打造的预训练模型，彻底解决了传统工具在繁语处理上的水土不服，让非结构化文本分析变得高效且精准。

运行环境要求

GPU

未说明

内存

未说明

依赖

notesREADME 中未明确列出具体的操作系统、GPU、内存及 Python 版本要求。该工具主要依赖 Hugging Face transformers 库，使用时需安装该库（pip install -U transformers）。模型支持 ALBERT、BERT 和 GPT2 架构，针对繁体中文优化。微调时需指定使用 bert-base-chinese 作为 tokenizer。

python未说明

transformers

快速开始

CKIP Transformers

| 本项目提供了繁体中文的 transformers 模型（包括 ALBERT、BERT、GPT2）及自然语言处理工具（包括分词、词性标注、命名实体识别）。 | 这个项目提供了繁体中文的 transformers 模型（包含 ALBERT、BERT、GPT2）及自然语言处理工具（包含断词、詞性標記、實體辨識）。

Git ^^^

.. |GitHub版本| image:: https://img.shields.io/github/v/release/ckiplab/ckip-transformers.svg?cacheSeconds=3600 :target: https://github.com/ckiplab/ckip-transformers/releases

.. |GitHub许可证| image:: https://img.shields.io/github/license/ckiplab/ckip-transformers.svg?cacheSeconds=3600 :target: https://github.com/ckiplab/ckip-transformers/blob/master/LICENSE

.. |GitHub发布| image:: https://img.shields.io/github/release-date/ckiplab/ckip-transformers.svg?cacheSeconds=3600

.. |GitHub下载| image:: https://img.shields.io/github/downloads/ckiplab/ckip-transformers/total.svg?cacheSeconds=3600 :target: https://github.com/ckiplab/ckip-transformers/releases/latest

.. |GitHub问题| image:: https://img.shields.io/github/issues/ckiplab/ckip-transformers.svg?cacheSeconds=3600 :target: https://github.com/ckiplab/ckip-transformers/issues

.. |GitHub分支| image:: https://img.shields.io/github/forks/ckiplab/ckip-transformers.svg?style=social&label=Fork&cacheSeconds=3600

.. |GitHub星标| image:: https://img.shields.io/github/stars/ckiplab/ckip-transformers.svg?style=social&label=Star&cacheSeconds=3600

.. |GitHub关注| image:: https://img.shields.io/github/watchers/ckiplab/ckip-transformers.svg?style=social&label=Watch&cacheSeconds=3600

PyPI ^^^^

.. |PyPI版本| image:: https://img.shields.io/pypi/v/ckip-transformers.svg?cacheSeconds=3600 :target: https://pypi.org/project/ckip-transformers

.. |PyPI许可证| image:: https://img.shields.io/pypi/l/ckip-transformers.svg?cacheSeconds=3600 :target: https://github.com/ckiplab/ckip-transformers/blob/master/LICENSE

.. |PyPI下载| image:: https://img.shields.io/pypi/dm/ckip-transformers.svg?cacheSeconds=3600 :target: https://pypi.org/project/ckip-transformers#files

.. |PyPI Python| image:: https://img.shields.io/pypi/pyversions/ckip-transformers.svg?cacheSeconds=3600

.. |PyPI实现| image:: https://img.shields.io/pypi/implementation/ckip-transformers.svg?cacheSeconds=3600

.. |PyPI格式| image:: https://img.shields.io/pypi/format/ckip-transformers.svg?cacheSeconds=3600

.. |PyPI状态| image:: https://img.shields.io/pypi/status/ckip-transformers.svg?cacheSeconds=3600

文档 ^^^^^^^^^^^^^

| https://ckip-transformers.readthedocs.io | |ReadTheDocs首页|

.. |ReadTheDocs首页| image:: https://img.shields.io/website/https/ckip-transformers.readthedocs.io.svg?cacheSeconds=3600&up_message=online&down_message=offline :target: https://ckip-transformers.readthedocs.io

演示 ^^^^

| https://ckip.iis.sinica.edu.tw/service/transformers | |Transformers演示|

.. |Transformers演示| image:: https://img.shields.io/website/https/ckip.iis.sinica.edu.tw/service/transformers.svg?cacheSeconds=3600&up_message=online&down_message=offline :target: https://ckip.iis.sinica.edu.tw/service/transformers

贡献者 ^^^^^^^^^^^^

Mu Yang <https://muyang.pro>__ 在 CKIP <https://ckip.iis.sinica.edu.tw>__（作者与维护者）。
Wei-Yun Ma <https://www.iis.sinica.edu.tw/pages/ma/>__ 在 CKIP <https://ckip.iis.sinica.edu.tw>__（维护者）。

模型

| 您也可以直接使用 HuggingFace transformers 库中的我们预训练模型：https://huggingface.co/ckiplab/。 | 您可於 https://huggingface.co/ckiplab/ 下載預訓練的模型。

语言模型
- ALBERT Tiny <https://huggingface.co/ckiplab/albert-tiny-chinese>_: ckiplab/albert-tiny-chinese
- ALBERT Base <https://huggingface.co/ckiplab/albert-base-chinese>_: ckiplab/albert-base-chinese
- BERT Tiny <https://huggingface.co/ckiplab/bert-tiny-chinese>_: ckiplab/bert-tiny-chinese
- BERT Base <https://huggingface.co/ckiplab/bert-base-chinese>_: ckiplab/bert-base-chinese
- GPT2 Tiny <https://huggingface.co/ckiplab/gpt2-tiny-chinese>_: ckiplab/gpt2-tiny-chinese
- GPT2 Base <https://huggingface.co/ckiplab/gpt2-base-chinese>_: ckiplab/gpt2-base-chinese
NLP 任务模型
- ALBERT Tiny — 分词 <https://huggingface.co/ckiplab/albert-tiny-chinese-ws>_: ckiplab/albert-tiny-chinese-ws
- ALBERT Tiny — 词性标注 <https://huggingface.co/ckiplab/albert-tiny-chinese-pos>_: ckiplab/albert-tiny-chinese-pos
- ALBERT Tiny — 命名实体识别 <https://huggingface.co/ckiplab/albert-tiny-chinese-ner>_: ckiplab/albert-tiny-chinese-ner
- ALBERT Base — 分词 <https://huggingface.co/ckiplab/albert-base-chinese-ws>_: ckiplab/albert-base-chinese-ws
- ALBERT Base — 词性标注 <https://huggingface.co/ckiplab/albert-base-chinese-pos>_: ckiplab/albert-base-chinese-pos
- ALBERT Base — 命名实体识别 <https://huggingface.co/ckiplab/albert-base-chinese-ner>_: ckiplab/albert-base-chinese-ner
- BERT Tiny — 分词 <https://huggingface.co/ckiplab/bert-tiny-chinese-ws>_: ckiplab/bert-tiny-chinese-ws
- BERT Tiny — 词性标注 <https://huggingface.co/ckiplab/bert-tiny-chinese-pos>_: ckiplab/bert-tiny-chinese-pos
- BERT Tiny — 命名实体识别 <https://huggingface.co/ckiplab/bert-tiny-chinese-ner>_: ckiplab/bert-tiny-chinese-ner
- BERT Base — 分词 <https://huggingface.co/ckiplab/bert-base-chinese-ws>_: ckiplab/bert-base-chinese-ws
- BERT Base — 词性标注 <https://huggingface.co/ckiplab/bert-base-chinese-pos>_: ckiplab/bert-base-chinese-pos
- BERT Base — 命名实体识别 <https://huggingface.co/ckiplab/bert-base-chinese-ner>_: ckiplab/bert-base-chinese-ner

模型使用 ^^^^^^^^^^^

| 您可以使用 HuggingFace's transformers 库直接使用我们的模型。 | 您可直接透過 HuggingFace's transformers 套件使用我們的模型。

.. code-block:: bash

pip install -U transformers

| 请使用 BertTokenizerFast 作为分词器，并将以下示例中的 ckiplab/albert-tiny-chinese 和 ckiplab/albert-tiny-chinese-ws 替换为您需要的任何模型名称。 | 請使用內建的 BertTokenizerFast，並將以下範例中的 ckiplab/albert-tiny-chinese 與 ckiplab/albert-tiny-chinese-ws 替換成任何您要使用的模型名稱。

.. code-block:: python

from transformers import ( BertTokenizerFast, AutoModelForMaskedLM, AutoModelForCausalLM, AutoModelForTokenClassification, )

掩码语言模型（ALBERT、BERT）

tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese') model = AutoModelForMaskedLM.from_pretrained('ckiplab/albert-tiny-chinese') # 或其他上述模型

回顾性语言模型（GPT2）

tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese') model = AutoModelForCausalLM.from_pretrained('ckiplab/gpt2-base-chinese') # 或其他上述模型

NLP任务模型

tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese') model = AutoModelForTokenClassification.from_pretrained('ckiplab/albert-tiny-chinese-ws') # 或其他上述模型

模型微调 ^^^^^^^^^^^^^^^^^^

| 要在您自己的数据集上对我们的模型进行微调，请参考HuggingFace的transformers库中的以下示例。 | 您可參考以下的範例去微調我們的模型於您自己的資料集。

| 请记得设置 --tokenizer_name bert-base-chinese，以便使用中文分词器。 | 記得設置 --tokenizer_name bert-base-chinese 以正確的使用中文的 tokenizer。

.. code-block:: bash

python run_mlm.py
--model_name_or_path ckiplab/albert-tiny-chinese \ # 或其他上述模型 --tokenizer_name bert-base-chinese
...

python run_ner.py
--model_name_or_path ckiplab/albert-tiny-chinese-ws \ # 或其他上述模型 --tokenizer_name bert-base-chinese
...

模型性能 ^^^^^^^^^^^^^^^^^

| 以下是我们的模型与其他模型之间的性能比较。 | 测试结果基于繁体中文语料库。 | 以下是我們的模型與其他的模型之性能比較。 | 各個任務皆測試於繁體中文的測試集。

================================ =========== =========== ======== ========== ========= 模型 #参数混淆度† 分词(F1)‡ 词性标注(ACC)‡ 实体识别(F1)‡ ================================ =========== =========== ======== ========== ========= ckiplab/albert-tiny-chinese 4M 4.80 96.66% 94.48% 71.17% ckiplab/albert-base-chinese 11M 2.65 97.33% 95.30% 79.47% ckiplab/bert-tiny-chinese 12M 8.07 96.98% 95.11% 74.21% ckiplab/bert-base-chinese 102M 1.88 97.60% 95.67% 81.18% ckiplab/gpt2-tiny-chinese 4M 16.94 -- -- -- ckiplab/gpt2-base-chinese 102M 8.36 -- -- --

voidful/albert_chinese_tiny 4M 74.93 -- -- -- voidful/albert_chinese_base 11M 22.34 -- -- -- bert-base-chinese 102M 2.53 -- -- -- ================================ =========== =========== ======== ========== =========

| † 混淆度；数值越小越好。 | † 混淆度；數字越小越好。 | ‡ 分词：WS；词性标注：POS；实体识别：NER；数值越大越好。 | ‡ WS: 斷詞；POS: 詞性標記；NER: 實體辨識；數字越大越好。

训练语料 ^^^^^^^^^^^^^^^

| 语言模型是在ZhWiki和CNA数据集上训练的；分词和词性标注任务是在ASBC数据集上训练的；实体识别任务是在OntoNotes数据集上训练的。 | 以上的語言模型訓練於 ZhWiki 與 CNA 資料集上；斷詞（WS）與詞性標記（POS）任務模型訓練於 ASBC 資料集上；實體辨識（NER）任務模型訓練於 OntoNotes 資料集上。

ZhWiki: https://dumps.wikimedia.org/zhwiki/ | 中文维基百科文本（20200801版本），利用OpenCC <https://github.com/BYVoid/OpenCC>翻译成繁体中文。 | 中文維基的文章（20200801 版本），利用 OpenCC <https://github.com/BYVoid/OpenCC> 翻譯成繁體中文。
CNA: https://catalog.ldc.upenn.edu/LDC2011T13 | 中文Gigaword第五版——CNA（中央社）部分。 | 中文 Gigaword 第五版 — CNA（中央社）的部分。
ASBC: http://asbc.iis.sinica.edu.tw | 中央研究院汉语平衡语料库第四版。 | 中央研究院漢語平衡語料庫第四版。
OntoNotes: https://catalog.ldc.upenn.edu/LDC2013T19 | OntoNotes第五版，中文部分，利用OpenCC <https://github.com/BYVoid/OpenCC>翻译成繁体中文。 | OntoNotes 第五版，中文部分，利用 OpenCC <https://github.com/BYVoid/OpenCC> 翻譯成繁體中文。

| 以下是各数据集的概要。 | 以下是各個資料集的一覽表。

================ ================ ================ ================ ================ 数据集 #文档 #行 #字符行类型 ================ ================ ================ ================ ================ CNA 2,559,520 13,532,445 1,219,029,974 段落 ZhWiki 1,106,783 5,918,975 495,446,829 段落 ASBC 19,247 1,395,949 17,572,374 句子 OntoNotes 1,911 48,067 1,568,491 句子 ================ ================ ================ ================ ================

| 以下是用于语言模型的数据集划分。 | 以下是用於訓練語言模型的資料集切割。

================ ================ ================ ================ CNA+ZhWiki #文档 #行 #字符 ================ ================ ================ ================ 训练 3,606,303 18,986,238 4,347,517,682 开发 30,000 148,077 32,888,978 测试 30,000 151,241 35,216,818 ================ ================ ================ ================

| 以下是用于分词和词性标注模型的数据集划分。 | 以下是用於訓練斷詞及詞性標記模型的資料集切割。

================ ================ ================ ================ ================ ASBC #文档 #行 #词 #字符 ================ ================ ================ ================ ================ 训练 15,247 1,183,260 9,480,899 14,724,250 开发 2,000 52,677 448,964 741,323 测试 2,000 160,012 1,315,129 2,106,799 ================ ================ ================ ================ ================

| 以下是用于实体识别模型的数据集划分。 | 以下是用於訓練實體辨識模型的資料集切割。

================ ================ ================ ================ ================ OntoNotes #文档 #行 #字符 #命名实体 ================ ================ ================ ================ ================ 训练集 1,511 43,362 1,367,658 68,947 开发集 200 2,304 93,535 7,186 测试集 200 2,401 107,298 6,977 ================ ================ ================ ================ ================

自然语言处理工具

| 该软件包还提供了以下自然语言处理工具。 | 我们的套件也提供了以下的自然语言处理工具。

(WS) 分词断词
(POS) 词性标注詞性標記
(NER) 命名实体识别实體辨識

安装 ^^^^^^^^^^^^

pip install -U ckip-transformers

要求：

Python <https://www.python.org>__ 3.6及以上版本
PyTorch <https://pytorch.org>__ 1.5及以上版本
HuggingFace Transformers <https://huggingface.co/transformers/>__ 3.5及以上版本

自然语言处理工具使用方法 ^^^^^^^^^^^^^^^

| API详情请参见 这里 <../_api/ckip_transformers.html>。 | 詳細的 API 請參見 此處 <../_api/ckip_transformers.html> 。

| 本示例的完整脚本可在 https://github.com/ckiplab/ckip-transformers/blob/master/example/example.py 找到。 | 以下的範例的完整檔案可參見 https://github.com/ckiplab/ckip-transformers/blob/master/example/example.py 。

导入模块 """"""""""""""""

.. code-block:: python

from ckip_transformers.nlp import CkipWordSegmenter, CkipPosTagger, CkipNerChunker

加载模型 """"""""""""""

| 我们为这些自然语言处理工具提供了几种预训练模型。 | 我們提供了一些適用於自然語言工具的預訓練的模型。

.. code-block:: python

初始化驱动程序

ws_driver = CkipWordSegmenter(model="bert-base") pos_driver = CkipPosTagger(model="bert-base") ner_driver = CkipNerChunker(model="bert-base")

| 用户也可以使用我们的驱动程序加载自己训练的检查点。 | 也可以運用我們的工具於自己訓練的模型上。

.. code-block:: python

使用自定义检查点初始化驱动程序

ws_driver = CkipWordSegmenter(model_name="path_to_your_model") pos_driver = CkipPosTagger(model_name="path_to_your_model") ner_driver = CkipNerChunker(model_name="path_to_your_model")

| 若要使用GPU，可以在初始化驱动程序时指定设备ID。设置为-1（默认值）则不使用GPU。 | 可於宣告斷詞等工具時指定 device 以使用 GPU，設為 -1 （預設值）代表不使用 GPU。

.. code-block:: python

使用CPU

ws_driver = CkipWordSegmenter(device=-1)

使用GPU:0

ws_driver = CkipWordSegmenter(device=0)

运行流程 """""""""""""""

| 分词和命名实体识别的输入必须是句子列表。 | 词性标注的输入必须是单词列表的列表（即分词的结果）。 | 断词与实体识别的输入必须是 list of sentences。 | 词性标记的输入必须是 list of list of words。

.. code-block:: python

输入文本

text = [ "傅达仁今将执行安乐死，却突然爆出自己20年前遭纬来体育台封杀，他不懂自己哪里得罪到电视台。", "美国参议院针对今天总统布什所提名的劳工部长赵小兰展开认可听证会，预料她将会很顺利通过参议院支持，成为该国有史以来第一位的华裔女性内阁成员。", "空白也是可以的～", ]

运行流程

ws = ws_driver(text) pos = pos_driver(ws) ner = ner_driver(text)

| 词性标注工具会在运行模型时自动使用 '，,。：:；;！!？?' 等字符在内部对句子进行分割。（输出的句子会被重新连接起来。）您可以设置 delim_set 参数来使用其他字符进行分割。 | 您也可以设置 use_delim=False 来关闭此功能，或者在分词和实体识别工具中设置 use_delim=True 来启用此功能。 | 詞性標記工具會自動用 '，,。：:；;！!？?' 等字元在執行模型前切割句子（輸出的句子會自動接回）。可設定 delim_set 參數使用別的字元做切割。 | 另外可指定 use_delim=False 已停用此功能，或於斷詞、實體辨識時指定 use_delim=True 已啟用此功能。

.. code-block:: python

启用句子分割

ws = ws_driver(text, use_delim=True) ner = ner_driver(text, use_delim=True)

禁用句子分割

pos = pos_driver(ws, use_delim=False)

使用换行符和制表符进行句子分割

pos = pos_driver(ws, delim_set='\n\t')

| 您还可以设置 batch_size 和 max_length 来更好地利用您的机器资源。 | 您亦可設置 batch_size 與 max_length 以更完美的利用您的機器資源。

.. code-block:: python

设置批次大小和最大句子长度

ws = ws_driver(text, batch_size=256, max_length=128)

显示结果 """""""""""""""

.. code-block:: python

将分词和词性标注结果打包成句子

def pack_ws_pos_sentece(sentence_ws, sentence_pos): assert len(sentence_ws) == len(sentence_pos) res = [] for word_ws, word_pos in zip(sentence_ws, sentence_pos): res.append(f"{word_ws}({word_pos})") return "\u3000".join(res)

显示结果

for sentence, sentence_ws, sentence_pos, sentence_ner in zip(text, ws, pos, ner): print(sentence) print(pack_ws_pos_sentece(sentence_ws, sentence_pos)) for entity in sentence_ner: print(entity) print()

.. code-block:: text

傅达仁今将执行安乐死，却突然爆出自己20年前遭纬来体育台封杀，他不懂自己哪里得罪到电视台。傅达仁(Nb)　今(Nd)　将(D)　执行(VC)　安乐死(Na)　，(COMMACATEGORY)　却(D)　突然(D)　爆出(VJ)　自己(Nh)　20(Neu)　年(Nd)　前(Ng)　遭(P)　纬来(Nb)　体育台(Na)　封杀(VC)　，(COMMACATEGORY)　他(Nh)　不(D)　懂(VK)　自己(Nh)　哪里(Ncd)　得罪到(VC)　电视台(Nc)　。(PERIODCATEGORY) NerToken(word='傅达仁', ner='PERSON', idx=(0, 3)) NerToken(word='20年', ner='DATE', idx=(18, 21)) NerToken(word='纬来体育台', ner='ORG', idx=(23, 28))

美国参议院针对今天总统布什所提名的劳工部长赵小兰展开认可听证会，预料她将会很顺利通过参议院支持，成为该国有史以来第一位的华裔女性内阁成员。美国(Nc)　参议院(Nc)　针对(P)　今天(Nd)　总统(Na)　布什(Nb)　所(D)　提名(VC)　的(DE)　劳工部长(Na)　赵小兰(Nb)　展开(VC)　认可(VC)　听证会(Na)　，(COMMACATEGORY)　预料(VE)　她(Nh)　将(D)　会(D)　很(Dfa)　顺利(VH)　通过(VC)　参议院(Nc)　支持(VC)　，(COMMACATEGORY)　成为(VG)　该(Nes)　国(Nc)　有史以来(D)　第一(Neu)　位(Nf)　的(DE)　华裔(Na)　女性(Na)　内阁(Na)　成员(Na)　。(PERIODCATEGORY) NerToken(word='美国参议院', ner='ORG', idx=(0, 5)) NerToken(word='今天', ner='LOC', idx=(7, 9)) NerToken(word='布什', ner='PERSON', idx=(11, 13)) NerToken(word='劳工部长', ner='ORG', idx=(17, 21)) NerToken(word='赵小兰', ner='PERSON', idx=(21, 24)) NerToken(word='认可听证会', ner='EVENT', idx=(26, 31)) NerToken(word='参议院', ner='ORG', idx=(42, 45)) NerToken(word='第一', ner='ORDINAL', idx=(56, 58)) NerToken(word='华裔', ner='NORP', idx=(60, 62))

空白也是可以的～空白(VH)　 (WHITESPACE)　也(D)　是(SHI)　可以(VH)　的(T)　～(FW)

自然语言处理工具性能 ^^^^^^^^^^^^^^^^^^^^^

| 以下是我们的工具与其他工具之间的性能比较。 | 以下是我們的工具與其他的工具之性能比較。

CKIP Transformers 与 Monpa & Jeiba 的比较 """"""""""""""""""""""""""""""""""""

======================== =========== ============= =============== ============ 工具分詞 (F1) 詞性标注 (準確率) 分詞+詞性标注 (F1) 命名实体识别 (F1) ======================== =========== ============= =============== ============ CKIP BERT Base 97.60% 95.67% 94.19% 81.18% CKIP ALBERT Base 97.33% 95.30% 93.52% 79.47% CKIP BERT Tiny 96.98% 95.08% 93.13% 74.20% CKIP ALBERT Tiny 96.66% 94.48% 92.25% 71.17%

Monpa† 92.58% -- 83.88% -- Jeiba 81.18% -- -- -- ======================== =========== ============= =============== ============

| † Monpa 在命名实体识别中仅提供三种类型的标签。 | † Monpa 的實體辨識僅提供三種標記而已。

CKIP Transformers 与 CkipTagger 对比 """"""""""""""""""""""""""""""""""""

| 以下结果是在另一组数据集上测试得到的。† | 以下實驗在另一個資料集測試。†

======================== =========== ============= =============== ============ 工具分詞 (F1) 詞性标注 (準確率) 分詞+詞性标注 (F1) 命名实体识别 (F1) ======================== =========== ============= =============== ============ CKIP BERT Base 97.84% 96.46% 94.91% 79.20% CkipTagger 97.33% 97.20% 94.75% 77.87% ======================== =========== ============= =============== ============

| † 在此，我们使用与 CkipTagger 相同的数据集重新训练并测试了我们的 BERT 模型。 | † 我們重新訓練／測試我們的 BERT 模型於跟 CkipTagger 相同的資料集。

許可證

|GPL-3.0|

.. |GPL-3.0| image:: https://www.gnu.org/graphics/gplv3-with-text-136x68.png :target: https://www.gnu.org/licenses/gpl-3.0.html

ckip-transformers 快速上手指南

ckip-transformers 是由台湾中央研究院（CKIP）推出的开源项目，提供专为繁体中文优化的 Transformers 模型（包括 ALBERT、BERT、GPT2）及自然语言处理工具（断词、词性标记、实体辨识）。

1. 环境准备

在开始之前，请确保您的开发环境满足以下要求：

操作系统：Linux, macOS 或 Windows
Python 版本：3.6 及以上
前置依赖：
- transformers (Hugging Face)
- torch (PyTorch)
- sentencepiece

建议先安装 PyTorch（根据官方指引选择适合您 CUDA 版本的命令），然后安装核心依赖：

pip install -U transformers sentencepiece

注意：本项目提供的模型主要针对繁体中文语料训练。若需处理简体中文，建议先使用 OpenCC 等工具进行转换，或评估模型在简体场景下的表现。

2. 安装步骤

您可以通过 PyPI 直接安装 ckip-transformers 包，或者直接通过 Hugging Face transformers 库调用模型（推荐方式，无需额外安装特定包）。

方式一：直接使用 Hugging Face Transformers（推荐）

由于模型已托管在 Hugging Face Hub，您只需确保安装了最新的 transformers 库即可直接使用，无需安装额外的 ckip-transformers Python 包。

pip install -U transformers

方式二：安装完整包（可选）

如果您需要使用该项目封装的特定高级工具类，可安装完整包：

pip install ckip-transformers

3. 基本使用

本项目模型可直接通过 Hugging Face transformers 接口加载。使用时请注意：分词器（Tokenizer）建议统一使用 bert-base-chinese，而模型路径则替换为您需要的具体模型（如 ckiplab/albert-tiny-chinese 等）。

以下是三种常见任务的极简示例：

3.1 掩码语言模型 (Masked LM)

适用于 ALBERT 和 BERT 系列，用于完形填空或特征提取。

from transformers import BertTokenizerFast, AutoModelForMaskedLM

# 加载中文分词器
tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
# 加载预训练模型 (此处以 ALBERT Tiny 为例，可替换为其他模型)
model = AutoModelForMaskedLM.from_pretrained('ckiplab/albert-tiny-chinese')

input_text = "今天天氣真 [MASK] 。"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model(**inputs)

3.2 因果语言模型 (Causal LM)

适用于 GPT2 系列，用于文本生成。

from transformers import BertTokenizerFast, AutoModelForCausalLM

tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
model = AutoModelForCausalLM.from_pretrained('ckiplab/gpt2-base-chinese')

input_text = "人工智慧是"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

3.3 NLP 下游任务 (断词/词性/实体识别)

适用于经过微调的任务模型（后缀通常为 -ws, -pos, -ner）。

from transformers import BertTokenizerFast, AutoModelForTokenClassification

tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
# 加载断词模型 (Word Segmentation)
model = AutoModelForTokenClassification.from_pretrained('ckiplab/albert-tiny-chinese-ws')

text = "中央研究院位於台灣台北"
inputs = tokenizer(text, return_tensors="pt", is_split_into_words=False)
outputs = model(**inputs)

# 获取预测结果逻辑需结合 tokenizer 解码与 logits 处理
predictions = outputs.logits.argmax(dim=-1)

可用模型列表速查

您可以在代码中将 from_pretrained 的参数替换为以下任意模型 ID：

类型	模型 ID 示例	说明
基础语言模型	`ckiplab/albert-tiny-chinese`	ALBERT Tiny (4M 参数)
	`ckiplab/bert-base-chinese`	BERT Base (102M 参数)
	`ckiplab/gpt2-base-chinese`	GPT2 Base
断词 (WS)	`ckiplab/albert-base-chinese-ws`	ALBERT Base 断词模型
词性标注 (POS)	`ckiplab/bert-tiny-chinese-pos`	BERT Tiny 词性模型
实体识别 (NER)	`ckiplab/albert-base-chinese-ner`	ALBERT Base 实体识别模型

更多模型请访问：https://huggingface.co/ckiplab/

版本历史

0.3.42023/04/09

0.3.32023/04/09

0.3.22022/08/10

0.3.12022/06/27

0.3.02022/06/26

0.2.82022/03/07

0.2.72021/08/08

0.2.62021/06/09

0.2.52021/06/02

0.2.42021/05/22

0.2.32021/03/12

0.2.22021/02/01

0.2.12021/01/05

0.2.02020/12/23

0.1.02020/11/18

常见问题

为什么同一句话生成的嵌入向量（embedding）每次都不一样？

如何使用自己微调（fine-tune）后的模型进行推理？

微调断词（WS）、词性标注（POS）或命名实体识别（NER）模型时，训练数据的标签格式有什么要求？可以使用自定义标签吗？

设置 device=-1 强制使用 CPU，但模型仍然占用 GPU 资源怎么办？

加载模型时出现 "Unable to load weights from pytorch checkpoint file" 或提示需要从 TF 2.0 checkpoint 加载的错误，如何解决？

是否有英文版的 ALBERT-tiny 模型可用于意图识别和实体分类？如果没有，如何从头训练？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 144.7k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|2天前

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|2天前

开发框架图像Agent