BERTweet

606 55 简单 1 次阅读 2周前MIT语言模型图像音频视频

AI 解读由 AI 自动生成，仅供参考

BERTweet 是首个专为英文推文（Tweets）大规模预训练的语言模型，基于 RoBERTa 架构打造。它主要解决了通用语言模型在处理社交媒体文本时表现不佳的难题。由于推文具有篇幅短、包含大量非正式缩写、表情符号及特定话题标签等特点，传统模型往往难以准确理解其语义。BERTweet 通过在包含 8.5 亿条英文推文（涵盖 2012 年至 2019 年的流媒体数据及新冠疫情相关推文）的海量语料上进行预训练，显著提升了对这类非规范文本的理解能力。

该工具特别适合自然语言处理领域的研究人员和开发者使用，尤其是那些需要构建推文情感分析、命名实体识别、讽刺检测或词性标注等应用的技术人员。BERTweet 的独特亮点在于其针对性的数据策略：除了通用的历史推文数据外，还专门发布了针对新冠疫情话题的微调版本，使其在突发公共事件的舆情分析中表现卓越。目前，BERTweet 已无缝集成到 Hugging Face transformers 库中，提供了从基础版到大型版等多种模型规格，支持用户快速调用并应用于下游任务，是处理英文社交媒体数据的强力基石。

使用场景

某电商品牌的市场分析团队需要实时监测 Twitter 上数百万条关于新产品的用户反馈，以快速识别潜在的公关危机和流行趋势。

没有 BERTweet 时

语义理解偏差大：通用模型无法准确解析推特特有的缩写（如"smh"、"imo"）、表情符号及非正式语法，导致大量中性或正面评论被误判为负面。
讽刺检测失效：面对推特用户高频使用的反讽语气（例如“这产品质量真好，才用一次就坏了”），传统工具往往只能识别表面褒义词，完全漏掉真实的投诉意图。
领域适应性差：在涉及突发公共卫生事件（如疫情期间的口罩讨论）时，通用模型缺乏相关语境训练，无法精准提取关键实体和情感倾向。
人工复核成本高：由于自动化分析准确率不足 60%，团队不得不投入大量人力逐条人工校验数据，严重拖慢了决策响应速度。

使用 BERTweet 后

原生推特语境精通：BERTweet 基于 8.5 亿条推文预训练，能完美理解网络俚语、特殊标点及表情符号，将情感分类准确率提升至行业领先水平。
精准捕捉反讽情绪：得益于对推特语言风格的深度建模，BERTweet 能有效识别隐含的讽刺与幽默，确保真实负面反馈不被遗漏。
专项场景即时可用：直接调用针对 COVID-19 等特定事件微调的模型版本，无需额外训练即可在突发热点事件中实现高精度的实体识别与情感分析。
全流程自动化提效：分析准确率大幅跃升，减少了 90% 的人工复核工作，使团队能从小时级的延迟缩短到分钟级的实时预警。

BERTweet 通过将通用的语言理解能力转化为专为推特生态定制的洞察力，让企业在嘈杂的社交媒体数据中真正听清了用户的声音。

运行环境要求

GPU

未说明（基于 PyTorch/TensorFlow，通常建议配备 NVIDIA GPU 以加速推理，但非强制）

内存

未说明

依赖

notes1. 必须安装特定版本的 emoji 库（0.5.4 或 0.6.0），新版本会导致预处理不一致。2. 输入推文在送入模型前必须使用提供的 TweetNormalizer 模块进行标准化处理（如转换用户提及为@USER，链接为 HTTPURL，处理表情符号）。3. 支持通过 Hugging Face transformers 或 fairseq 框架加载模型。4. 若需使用快速分词器（fast tokenizer），需从指定的 GitHub 分支安装 transformers。

python未说明

transformers

tokenizers

torch

nltk

emoji==0.6.0

快速开始

BERTweet：面向英文推文的预训练语言模型

BERTweet 是首个公开的大规模、专为英文推文预训练的语言模型。该模型基于 RoBERTa 的预训练流程进行训练。用于预训练 BERTweet 的语料库包含 8.5 亿条英文推文（约 160 亿个词元，总大小约 80GB），其中包括从 2012 年 1 月至 2019 年 8 月期间收集的 8.45 亿条推文，以及与 COVID-19 疫情相关的 500 万条推文。BERTweet 的总体架构和实验结果详见我们的论文：

@inproceedings{bertweet,
title     = {{BERTweet: 面向英文推文的预训练语言模型}},
author    = {Dat Quoc Nguyen, Thanh Vu, Anh Tuan Nguyen},
booktitle = {2020 年自然语言处理经验方法会议系统演示论文集},
pages     = {9--14},
year      = {2020}
}

请在使用 BERTweet 得出公开发表的研究成果或将其集成到其他软件中时，引用我们的论文。

主要结果

postagging ner

sentiment irony

使用 `transformers` 库中的 BERTweet

安装

使用 pip 安装 transformers：pip install transformers，或者从源码安装 transformers：从源码安装。
需要注意的是，我们已将 BERTweet 的慢速分词器合并到 transformers 的主分支中。关于将 BERTweet 的快速分词器合并进来的讨论仍在进行中，详情请参见此 Pull Request。如果用户希望使用快速分词器，可以按以下方式安装 transformers：

git clone --single-branch --branch fast_tokenizers_BARTpho_PhoBERT_BERTweet https://github.com/datquocnguyen/transformers.git
cd transformers
pip3 install -e .

使用 pip 安装 tokenizers：pip3 install tokenizers

预训练模型

模型	参数量	架构	最大长度	预训练数据
`vinai/bertweet-base`	1.35亿	base	128	8.5亿条英文推文（区分大小写）
`vinai/bertweet-covid19-base-cased`	1.35亿	base	128	2300万条 COVID-19 相关英文推文（区分大小写）
`vinai/bertweet-covid19-base-uncased`	1.35亿	base	128	2300万条 COVID-19 相关英文推文（不区分大小写）
`vinai/bertweet-large`	3.55亿	large	512	8.73亿条英文推文（区分大小写）

2020 年 9 月：在 vinai/bertweet-base 的基础上，进一步利用包含 2300 万条 COVID-19 英文推文的语料库，推出了两个新的预训练模型：vinai/bertweet-covid19-base-cased 和 vinai/bertweet-covid19-base-uncased。
2021 年 8 月：发布了 vinai/bertweet-large。

示例用法

import torch
from transformers import AutoModel, AutoTokenizer 

bertweet = AutoModel.from_pretrained("vinai/bertweet-large")

tokenizer = AutoTokenizer.from_pretrained("vinai/bertweet-large")

# 输入的推文已经过标准化处理！
line = "DHEC confirms HTTPURL via @USER :crying_face:"

input_ids = torch.tensor([tokenizer.encode(line)])

with torch.no_grad():
    features = bertweet(input_ids)  # 模型的输出现在是元组
    
## 使用 TensorFlow 2.0 及以上版本：
# from transformers import TFAutoModel
# bertweet = TFAutoModel.from_pretrained("vinai/bertweet-large")

对原始输入推文进行标准化处理

在对英文推文预训练语料库应用 BPE 分词之前，我们首先使用 NLTK 工具包中的 TweetTokenizer 对这些推文进行了分词，并借助 emoji 包将表情符号转换为文本字符串（此处每个表情符号被视为一个词元）。此外，我们还将用户提及和网址链接分别替换为特殊标记 @USER 和 HTTPURL，从而完成了推文的标准化处理。因此，建议在基于 BERTweet 的下游应用中，也对原始输入推文执行相同的预处理步骤。

对于原始输入的推文，若想获得相同的预处理结果，用户可以使用我们的 TweetNormalizer 模块。

安装命令：pip3 install nltk emoji==0.6.0
emoji 版本必须为 0.5.4 或 0.6.0。较新版本的 emoji 已更新至最新的 Emoji 表格标准，与我们预处理预训练推文语料库时所使用的版本不一致。

import torch
from transformers import AutoTokenizer
from TweetNormalizer import normalizeTweet

tokenizer = AutoTokenizer.from_pretrained("vinai/bertweet-large")

line = normalizeTweet("DHEC 确认 https://postandcourier.com/health/covid19/sc-has-first-two-presumptive-cases-of-coronavirus-dhec-confirms/article_bddfe4ae-5fd3-11ea-9ce4-5f495366cee6.html?utm_medium=social&utm_source=twitter&utm_campaign=user-share… 通过 @postandcourier 😢")

input_ids = torch.tensor([tokenizer.encode(line)])

使用 `fairseq` 库中的 BERTweet

详细信息请参见此处!

许可证

MIT 许可证

版权所有 © 2020–2021 VinAI

本软件及所附文档文件（“软件”）的任何副本的所有权人，经在此授予免费许可，有权在不受限制的情况下处理该软件，包括但不限于使用、复制、修改、合并、发布、分发、再许可和出售该软件副本的权利，并允许向其提供本软件的人进行上述操作，但须遵守以下条件：

上述版权声明和本许可声明应包含在该软件的所有副本或实质部分中。

本软件按“原样”提供，不提供任何形式的明示或暗示担保，包括但不限于适销性、特定用途适用性和非侵权性担保。在任何情况下，作者或版权所有者均不对任何索赔、损害或其他责任负责，无论该等责任是基于合同、侵权行为或其他原因产生的，亦无论该等责任是否与本软件或其使用有关。

BERTweet 快速上手指南

BERTweet 是首个专为英文推文（English Tweets）预训练的大规模语言模型，基于 RoBERTa 架构构建。它适用于推文的情感分析、命名实体识别、词性标注等下游任务。

环境准备

操作系统：Linux / macOS / Windows
Python 版本：建议 Python 3.7+
前置依赖：
- transformers (Hugging Face)
- torch (PyTorch)
- nltk 和 emoji==0.6.0（用于推文预处理）

💡 国内用户可使用清华或阿里镜像加速安装：
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple transformers torch nltk emoji==0.6.0

安装步骤

安装基础依赖：

pip install transformers torch nltk emoji==0.6.0

（可选）若需使用快速分词器（fast tokenizer），请从特定分支安装：

git clone --single-branch --branch fast_tokenizers_BARTpho_PhoBERT_BERTweet https://github.com/datquocnguyen/transformers.git
cd transformers
pip3 install -e .

基本使用

示例：加载模型并编码一条已标准化的推文

import torch
from transformers import AutoModel, AutoTokenizer 

# 加载预训练模型和分词器
bertweet = AutoModel.from_pretrained("vinai/bertweet-large")
tokenizer = AutoTokenizer.from_pretrained("vinai/bertweet-large")

# 输入推文需预先标准化（见下文）
line = "DHEC confirms HTTPURL via @USER :crying_face:"

# 编码并获取特征表示
input_ids = torch.tensor([tokenizer.encode(line)])

with torch.no_grad():
    features = bertweet(input_ids)

推文预处理（标准化）

原始推文需经过标准化处理（替换 URL、用户提及、表情符号等），才能与预训练数据保持一致。

下载官方预处理模块 TweetNormalizer.py
使用示例：

from TweetNormalizer import normalizeTweet
from transformers import AutoTokenizer
import torch

tokenizer = AutoTokenizer.from_pretrained("vinai/bertweet-large")

raw_tweet = "DHEC confirms https://postandcourier.com/... via @postandcourier 😢"
normalized_tweet = normalizeTweet(raw_tweet)

input_ids = torch.tensor([tokenizer.encode(normalized_tweet)])

⚠️ 注意：必须使用 emoji==0.6.0 或 0.5.4 版本，否则表情符号映射将不一致。

现在你可以基于 BERTweet 构建自己的推文理解应用了！

常见问题

微调 BERTweet 模型时出现 'CUDA error: device-side assert triggered' 错误怎么办？

某些表情符号（如 :cry:）无法被正确分词或报错 KeyError 怎么办？

加载模型时报错 'Model name was not found in tokenizers model name list' 或找不到 vocab.json 文件？

vinai/bertweet-covid19-base-uncased 模型是否使用与 bertweet-base 相同的分词器？

复现论文中 XLM-R Large 的微调结果时性能偏低，有哪些推荐的超参数设置？

输入推文进行分词前需要进行什么特殊处理吗？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|4天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|5天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 149.5k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|今天

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|昨天

插件Agent图像

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|4天前

语言模型图像Agent

使用场景

没有 BERTweet 时

使用 BERTweet 后

运行环境要求

快速开始

目录

BERTweet：面向英文推文的预训练语言模型

主要结果

使用 transformers 库中的 BERTweet

安装

预训练模型

示例用法

对原始输入推文进行标准化处理

使用 fairseq 库中的 BERTweet

许可证

BERTweet 快速上手指南

环境准备

安装步骤

基本使用

示例：加载模型并编码一条已标准化的推文

推文预处理（标准化）

常见问题

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

LLMs-from-scratch

使用 `transformers` 库中的 BERTweet

使用 `fairseq` 库中的 BERTweet