[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-VinAIResearch--BERTweet":3,"tool-VinAIResearch--BERTweet":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150037,2,"2026-04-10T23:33:47",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":76,"owner_website":77,"owner_url":78,"languages":79,"stars":84,"forks":85,"last_commit_at":86,"license":87,"difficulty_score":32,"env_os":75,"env_gpu":88,"env_ram":89,"env_deps":90,"category_tags":98,"github_topics":101,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":120,"updated_at":121,"faqs":122,"releases":152},6411,"VinAIResearch\u002FBERTweet","BERTweet","BERTweet: A pre-trained language model for English Tweets (EMNLP-2020)","BERTweet 是首个专为英文推文（Tweets）大规模预训练的语言模型，基于 RoBERTa 架构打造。它主要解决了通用语言模型在处理社交媒体文本时表现不佳的难题。由于推文具有篇幅短、包含大量非正式缩写、表情符号及特定话题标签等特点，传统模型往往难以准确理解其语义。BERTweet 通过在包含 8.5 亿条英文推文（涵盖 2012 年至 2019 年的流媒体数据及新冠疫情相关推文）的海量语料上进行预训练，显著提升了对这类非规范文本的理解能力。\n\n该工具特别适合自然语言处理领域的研究人员和开发者使用，尤其是那些需要构建推文情感分析、命名实体识别、讽刺检测或词性标注等应用的技术人员。BERTweet 的独特亮点在于其针对性的数据策略：除了通用的历史推文数据外，还专门发布了针对新冠疫情话题的微调版本，使其在突发公共事件的舆情分析中表现卓越。目前，BERTweet 已无缝集成到 Hugging Face `transformers` 库中，提供了从基础版到大型版等多种模型规格，支持用户快速调用并应用于下游任务，是处理英文社交媒体数据的强力基石。","  \n#### Table of contents\n1. [Introduction](#introduction)\n2. [Main results](#results)\n3. [Using BERTweet with `transformers`](#transformers)\n    - [Pre-trained models](#models2)\n    - [Example usage](#usage2)\n    - [Normalize raw input Tweets](#preprocess)\n4. [Using BERTweet with `fairseq`](#fairseq)\n\n\n# \u003Ca name=\"introduction\">\u003C\u002Fa> BERTweet: A pre-trained language model for English Tweets \n\nBERTweet is the first public large-scale language model pre-trained for English Tweets. BERTweet is trained based on the [RoBERTa](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ffairseq\u002Fblob\u002Fmaster\u002Fexamples\u002Froberta\u002FREADME.md)  pre-training procedure. The corpus used to pre-train BERTweet consists of 850M English Tweets (16B word tokens ~ 80GB), containing 845M Tweets streamed from 01\u002F2012 to 08\u002F2019 and 5M Tweets related to the **COVID-19** pandemic. The general architecture and experimental results of BERTweet can be found in our [paper](https:\u002F\u002Faclanthology.org\u002F2020.emnlp-demos.2\u002F):\n\n    @inproceedings{bertweet,\n    title     = {{BERTweet: A pre-trained language model for English Tweets}},\n    author    = {Dat Quoc Nguyen and Thanh Vu and Anh Tuan Nguyen},\n    booktitle = {Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations},\n    pages     = {9--14},\n    year      = {2020}\n    }\n\n**Please CITE** our paper when BERTweet is used to help produce published results or is incorporated into other software.\n\n## \u003Ca name=\"results\">\u003C\u002Fa> Main results\n\n\u003Cimg width=\"275\" alt=\"postagging\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_readme_5c7f7f974504.png\"> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; \u003Cimg width=\"275\" alt=\"ner\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_readme_caa82832d314.png\">   \n\n\u003Cimg width=\"275\" alt=\"sentiment\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_readme_1406cea20ecc.png\"> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; \u003Cimg width=\"275\" alt=\"irony\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_readme_48ff105b1b93.png\">\n\n\n## \u003Ca name=\"transformers\">\u003C\u002Fa> Using BERTweet with [`transformers`](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n\n### Installation \u003Ca name=\"install2\">\u003C\u002Fa>\n- Install `transformers` with pip: `pip install transformers`, or [install `transformers` from source](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Finstallation#installing-from-source).  \u003Cbr \u002F> \nNote that we merged a slow tokenizer for BERTweet into the main `transformers` branch. The process of merging a fast tokenizer for BERTweet is in the discussion, as mentioned in [this pull request](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Fpull\u002F17254#issuecomment-1133932067). If users would like to utilize the fast tokenizer, the users might install `transformers` as follows:\n\n```\ngit clone --single-branch --branch fast_tokenizers_BARTpho_PhoBERT_BERTweet https:\u002F\u002Fgithub.com\u002Fdatquocnguyen\u002Ftransformers.git\ncd transformers\npip3 install -e .\n```\n\n- Install `tokenizers` with pip: `pip3 install tokenizers`\n\n### \u003Ca name=\"models2\">\u003C\u002Fa> Pre-trained models \n\n\n\nModel | #params | Arch. | Max length | Pre-training data\n---|---|---|---|---\n[`vinai\u002Fbertweet-base`](https:\u002F\u002Fhuggingface.co\u002Fvinai\u002Fbertweet-base) | 135M | base | 128 | 850M English Tweets (cased)\n[`vinai\u002Fbertweet-covid19-base-cased`](https:\u002F\u002Fhuggingface.co\u002Fvinai\u002Fbertweet-covid19-base-cased) | 135M | base | 128 | [23M COVID-19 English Tweets (cased)](https:\u002F\u002Fforms.gle\u002FsdppxWdmG7bD9rXH7)\n[`vinai\u002Fbertweet-covid19-base-uncased`](https:\u002F\u002Fhuggingface.co\u002Fvinai\u002Fbertweet-covid19-base-uncased) | 135M | base | 128 | 23M COVID-19 English Tweets (uncased)\n[`vinai\u002Fbertweet-large`](https:\u002F\u002Fhuggingface.co\u002Fvinai\u002Fbertweet-large) | 355M | large | 512 | 873M English Tweets (cased) \n\n- 09\u002F2020: Two pre-trained models `vinai\u002Fbertweet-covid19-base-cased` and `vinai\u002Fbertweet-covid19-base-uncased` are resulted by further pre-training the pre-trained model `vinai\u002Fbertweet-base` on [a corpus of 23M COVID-19 English Tweets](https:\u002F\u002Fforms.gle\u002FsdppxWdmG7bD9rXH7).\n- 08\u002F2021: Released `vinai\u002Fbertweet-large`.\n\n### \u003Ca name=\"usage2\">\u003C\u002Fa> Example usage \n\n\n```python\nimport torch\nfrom transformers import AutoModel, AutoTokenizer \n\nbertweet = AutoModel.from_pretrained(\"vinai\u002Fbertweet-large\")\n\ntokenizer = AutoTokenizer.from_pretrained(\"vinai\u002Fbertweet-large\")\n\n# INPUT TWEET IS ALREADY NORMALIZED!\nline = \"DHEC confirms HTTPURL via @USER :crying_face:\"\n\ninput_ids = torch.tensor([tokenizer.encode(line)])\n\nwith torch.no_grad():\n    features = bertweet(input_ids)  # Models outputs are now tuples\n    \n## With TensorFlow 2.0+:\n# from transformers import TFAutoModel\n# bertweet = TFAutoModel.from_pretrained(\"vinai\u002Fbertweet-large\")\n```\n\n### \u003Ca name=\"preprocess\">\u003C\u002Fa> Normalize raw input Tweets \n\nBefore applying BPE to the pre-training corpus of English Tweets, we tokenized these  Tweets using `TweetTokenizer` from the NLTK toolkit and used the `emoji` package to translate emotion icons into text strings (here, each icon is referred to as a word token).   We also normalized the Tweets by converting user mentions and web\u002Furl links into special tokens `@USER` and `HTTPURL`, respectively. Thus it is recommended to also apply the same pre-processing step for BERTweet-based downstream applications w.r.t. the raw input Tweets. \n\nGiven the raw input Tweets, to obtain the same pre-processing output, users could employ our  [TweetNormalizer](https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fblob\u002Fmaster\u002FTweetNormalizer.py) module.\n\n- Installation: `pip3 install nltk emoji==0.6.0`\n- The `emoji` version must be either 0.5.4 or 0.6.0. Newer `emoji` versions have been updated to newer versions of the Emoji Charts, thus not consistent with the one used for pre-processing our pre-training Tweet corpus. \n\n```python\nimport torch\nfrom transformers import AutoTokenizer\nfrom TweetNormalizer import normalizeTweet\n\ntokenizer = AutoTokenizer.from_pretrained(\"vinai\u002Fbertweet-large\")\n\nline = normalizeTweet(\"DHEC confirms https:\u002F\u002Fpostandcourier.com\u002Fhealth\u002Fcovid19\u002Fsc-has-first-two-presumptive-cases-of-coronavirus-dhec-confirms\u002Farticle_bddfe4ae-5fd3-11ea-9ce4-5f495366cee6.html?utm_medium=social&utm_source=twitter&utm_campaign=user-share… via @postandcourier 😢\")\n\ninput_ids = torch.tensor([tokenizer.encode(line)])\n```\n\n## \u003Ca name=\"fairseq\">\u003C\u002Fa> Using BERTweet with `fairseq`\n\nPlease see details at [HERE](https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fblob\u002Fmaster\u002FREADME_fairseq.md)!\n\n## License\n    \n    MIT License\n\n    Copyright (c) 2020-2021 VinAI\n\n    Permission is hereby granted, free of charge, to any person obtaining a copy\n    of this software and associated documentation files (the \"Software\"), to deal\n    in the Software without restriction, including without limitation the rights\n    to use, copy, modify, merge, publish, distribute, sublicense, and\u002For sell\n    copies of the Software, and to permit persons to whom the Software is\n    furnished to do so, subject to the following conditions:\n\n    The above copyright notice and this permission notice shall be included in all\n    copies or substantial portions of the Software.\n\n    THE SOFTWARE IS PROVIDED \"AS IS\", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR\n    IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,\n    FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE\n    AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER\n    LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,\n    OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE\n    SOFTWARE.\n\n\n","#### 目录\n1. [简介](#introduction)\n2. [主要结果](#results)\n3. [使用 `transformers` 库中的 BERTweet](#transformers)\n    - [预训练模型](#models2)\n    - [示例用法](#usage2)\n    - [对原始推文进行标准化处理](#preprocess)\n4. [使用 `fairseq` 库中的 BERTweet](#fairseq)\n\n\n# \u003Ca name=\"introduction\">\u003C\u002Fa> BERTweet：面向英文推文的预训练语言模型\n\nBERTweet 是首个公开的大规模、专为英文推文预训练的语言模型。该模型基于 [RoBERTa](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ffairseq\u002Fblob\u002Fmaster\u002Fexamples\u002Froberta\u002FREADME.md) 的预训练流程进行训练。用于预训练 BERTweet 的语料库包含 8.5 亿条英文推文（约 160 亿个词元，总大小约 80GB），其中包括从 2012 年 1 月至 2019 年 8 月期间收集的 8.45 亿条推文，以及与 **COVID-19** 疫情相关的 500 万条推文。BERTweet 的总体架构和实验结果详见我们的论文：\n\n    @inproceedings{bertweet,\n    title     = {{BERTweet: 面向英文推文的预训练语言模型}},\n    author    = {Dat Quoc Nguyen, Thanh Vu, Anh Tuan Nguyen},\n    booktitle = {2020 年自然语言处理经验方法会议系统演示论文集},\n    pages     = {9--14},\n    year      = {2020}\n    }\n\n请在使用 BERTweet 得出公开发表的研究成果或将其集成到其他软件中时，**引用**我们的论文。\n\n## \u003Ca name=\"results\">\u003C\u002Fa> 主要结果\n\n\u003Cimg width=\"275\" alt=\"postagging\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_readme_5c7f7f974504.png\"> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; \u003Cimg width=\"275\" alt=\"ner\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_readme_caa82832d314.png\">   \n\n\u003Cimg width=\"275\" alt=\"sentiment\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_readme_1406cea20ecc.png\"> &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; \u003Cimg width=\"275\" alt=\"irony\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_readme_48ff105b1b93.png\">\n\n\n## \u003Ca name=\"transformers\">\u003C\u002Fa> 使用 [`transformers`](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers) 库中的 BERTweet\n\n### 安装 \u003Ca name=\"install2\">\u003C\u002Fa>\n- 使用 pip 安装 `transformers`：`pip install transformers`，或者从源码安装 `transformers`：[从源码安装](https:\u002F\u002Fhuggingface.co\u002Fdocs\u002Ftransformers\u002Finstallation#installing-from-source)。\u003Cbr \u002F>\n需要注意的是，我们已将 BERTweet 的慢速分词器合并到 `transformers` 的主分支中。关于将 BERTweet 的快速分词器合并进来的讨论仍在进行中，详情请参见 [此 Pull Request](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Fpull\u002F17254#issuecomment-1133932067)。如果用户希望使用快速分词器，可以按以下方式安装 `transformers`：\n\n```\ngit clone --single-branch --branch fast_tokenizers_BARTpho_PhoBERT_BERTweet https:\u002F\u002Fgithub.com\u002Fdatquocnguyen\u002Ftransformers.git\ncd transformers\npip3 install -e .\n```\n\n- 使用 pip 安装 `tokenizers`：`pip3 install tokenizers`\n\n### \u003Ca name=\"models2\">\u003C\u002Fa> 预训练模型\n\n\n\n模型 | 参数量 | 架构 | 最大长度 | 预训练数据\n---|---|---|---|---\n[`vinai\u002Fbertweet-base`](https:\u002F\u002Fhuggingface.co\u002Fvinai\u002Fbertweet-base) | 1.35亿 | base | 128 | 8.5亿条英文推文（区分大小写）\n[`vinai\u002Fbertweet-covid19-base-cased`](https:\u002F\u002Fhuggingface.co\u002Fvinai\u002Fbertweet-covid19-base-cased) | 1.35亿 | base | 128 | [2300万条 COVID-19 相关英文推文（区分大小写）](https:\u002F\u002Fforms.gle\u002FsdppxWdmG7bD9rXH7)\n[`vinai\u002Fbertweet-covid19-base-uncased`](https:\u002F\u002Fhuggingface.co\u002Fvinai\u002Fbertweet-covid19-base-uncased) | 1.35亿 | base | 128 | 2300万条 COVID-19 相关英文推文（不区分大小写）\n[`vinai\u002Fbertweet-large`](https:\u002F\u002Fhuggingface.co\u002Fvinai\u002Fbertweet-large) | 3.55亿 | large | 512 | 8.73亿条英文推文（区分大小写）\n\n- 2020 年 9 月：在 `vinai\u002Fbertweet-base` 的基础上，进一步利用 [包含 2300 万条 COVID-19 英文推文的语料库](https:\u002F\u002Fforms.gle\u002FsdppxWdmG7bD9rXH7)，推出了两个新的预训练模型：`vinai\u002Fbertweet-covid19-base-cased` 和 `vinai\u002Fbertweet-covid19-base-uncased`。\n- 2021 年 8 月：发布了 `vinai\u002Fbertweet-large`。\n\n### \u003Ca name=\"usage2\">\u003C\u002Fa> 示例用法 \n\n\n```python\nimport torch\nfrom transformers import AutoModel, AutoTokenizer \n\nbertweet = AutoModel.from_pretrained(\"vinai\u002Fbertweet-large\")\n\ntokenizer = AutoTokenizer.from_pretrained(\"vinai\u002Fbertweet-large\")\n\n# 输入的推文已经过标准化处理！\nline = \"DHEC confirms HTTPURL via @USER :crying_face:\"\n\ninput_ids = torch.tensor([tokenizer.encode(line)])\n\nwith torch.no_grad():\n    features = bertweet(input_ids)  # 模型的输出现在是元组\n    \n## 使用 TensorFlow 2.0 及以上版本：\n# from transformers import TFAutoModel\n# bertweet = TFAutoModel.from_pretrained(\"vinai\u002Fbertweet-large\")\n```\n\n### \u003Ca name=\"preprocess\">\u003C\u002Fa> 对原始输入推文进行标准化处理\n\n在对英文推文预训练语料库应用 BPE 分词之前，我们首先使用 NLTK 工具包中的 `TweetTokenizer` 对这些推文进行了分词，并借助 `emoji` 包将表情符号转换为文本字符串（此处每个表情符号被视为一个词元）。此外，我们还将用户提及和网址链接分别替换为特殊标记 `@USER` 和 `HTTPURL`，从而完成了推文的标准化处理。因此，建议在基于 BERTweet 的下游应用中，也对原始输入推文执行相同的预处理步骤。\n\n对于原始输入的推文，若想获得相同的预处理结果，用户可以使用我们的 [TweetNormalizer](https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fblob\u002Fmaster\u002FTweetNormalizer.py) 模块。\n\n- 安装命令：`pip3 install nltk emoji==0.6.0`\n- `emoji` 版本必须为 0.5.4 或 0.6.0。较新版本的 `emoji` 已更新至最新的 Emoji 表格标准，与我们预处理预训练推文语料库时所使用的版本不一致。\n\n```python\nimport torch\nfrom transformers import AutoTokenizer\nfrom TweetNormalizer import normalizeTweet\n\ntokenizer = AutoTokenizer.from_pretrained(\"vinai\u002Fbertweet-large\")\n\nline = normalizeTweet(\"DHEC 确认 https:\u002F\u002Fpostandcourier.com\u002Fhealth\u002Fcovid19\u002Fsc-has-first-two-presumptive-cases-of-coronavirus-dhec-confirms\u002Farticle_bddfe4ae-5fd3-11ea-9ce4-5f495366cee6.html?utm_medium=social&utm_source=twitter&utm_campaign=user-share… 通过 @postandcourier 😢\")\n\ninput_ids = torch.tensor([tokenizer.encode(line)])\n```\n\n## \u003Ca name=\"fairseq\">\u003C\u002Fa> 使用 `fairseq` 库中的 BERTweet\n\n详细信息请参见 [此处](https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fblob\u002Fmaster\u002FREADME_fairseq.md)!\n\n## 许可证\n    \n    MIT 许可证\n\n    版权所有 © 2020–2021 VinAI\n\n    本软件及所附文档文件（“软件”）的任何副本的所有权人，经在此授予免费许可，有权在不受限制的情况下处理该软件，包括但不限于使用、复制、修改、合并、发布、分发、再许可和出售该软件副本的权利，并允许向其提供本软件的人进行上述操作，但须遵守以下条件：\n\n    上述版权声明和本许可声明应包含在该软件的所有副本或实质部分中。\n\n    本软件按“原样”提供，不提供任何形式的明示或暗示担保，包括但不限于适销性、特定用途适用性和非侵权性担保。在任何情况下，作者或版权所有者均不对任何索赔、损害或其他责任负责，无论该等责任是基于合同、侵权行为或其他原因产生的，亦无论该等责任是否与本软件或其使用有关。","# BERTweet 快速上手指南\n\nBERTweet 是首个专为英文推文（English Tweets）预训练的大规模语言模型，基于 RoBERTa 架构构建。它适用于推文的情感分析、命名实体识别、词性标注等下游任务。\n\n## 环境准备\n\n- **操作系统**：Linux \u002F macOS \u002F Windows\n- **Python 版本**：建议 Python 3.7+\n- **前置依赖**：\n  - `transformers` (Hugging Face)\n  - `torch` (PyTorch)\n  - `nltk` 和 `emoji==0.6.0`（用于推文预处理）\n\n> 💡 国内用户可使用清华或阿里镜像加速安装：\n> ```bash\n> pip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple transformers torch nltk emoji==0.6.0\n> ```\n\n## 安装步骤\n\n1. 安装基础依赖：\n```bash\npip install transformers torch nltk emoji==0.6.0\n```\n\n2. （可选）若需使用**快速分词器（fast tokenizer）**，请从特定分支安装：\n```bash\ngit clone --single-branch --branch fast_tokenizers_BARTpho_PhoBERT_BERTweet https:\u002F\u002Fgithub.com\u002Fdatquocnguyen\u002Ftransformers.git\ncd transformers\npip3 install -e .\n```\n\n## 基本使用\n\n### 示例：加载模型并编码一条已标准化的推文\n\n```python\nimport torch\nfrom transformers import AutoModel, AutoTokenizer \n\n# 加载预训练模型和分词器\nbertweet = AutoModel.from_pretrained(\"vinai\u002Fbertweet-large\")\ntokenizer = AutoTokenizer.from_pretrained(\"vinai\u002Fbertweet-large\")\n\n# 输入推文需预先标准化（见下文）\nline = \"DHEC confirms HTTPURL via @USER :crying_face:\"\n\n# 编码并获取特征表示\ninput_ids = torch.tensor([tokenizer.encode(line)])\n\nwith torch.no_grad():\n    features = bertweet(input_ids)\n```\n\n### 推文预处理（标准化）\n\n原始推文需经过标准化处理（替换 URL、用户提及、表情符号等），才能与预训练数据保持一致。\n\n1. 下载官方预处理模块 [`TweetNormalizer.py`](https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fblob\u002Fmaster\u002FTweetNormalizer.py)\n\n2. 使用示例：\n```python\nfrom TweetNormalizer import normalizeTweet\nfrom transformers import AutoTokenizer\nimport torch\n\ntokenizer = AutoTokenizer.from_pretrained(\"vinai\u002Fbertweet-large\")\n\nraw_tweet = \"DHEC confirms https:\u002F\u002Fpostandcourier.com\u002F... via @postandcourier 😢\"\nnormalized_tweet = normalizeTweet(raw_tweet)\n\ninput_ids = torch.tensor([tokenizer.encode(normalized_tweet)])\n```\n\n> ⚠️ 注意：必须使用 `emoji==0.6.0` 或 `0.5.4` 版本，否则表情符号映射将不一致。\n\n---\n\n现在你可以基于 BERTweet 构建自己的推文理解应用了！","某电商品牌的市场分析团队需要实时监测 Twitter 上数百万条关于新产品的用户反馈，以快速识别潜在的公关危机和流行趋势。\n\n### 没有 BERTweet 时\n- **语义理解偏差大**：通用模型无法准确解析推特特有的缩写（如\"smh\"、\"imo\"）、表情符号及非正式语法，导致大量中性或正面评论被误判为负面。\n- **讽刺检测失效**：面对推特用户高频使用的反讽语气（例如“这产品质量真好，才用一次就坏了”），传统工具往往只能识别表面褒义词，完全漏掉真实的投诉意图。\n- **领域适应性差**：在涉及突发公共卫生事件（如疫情期间的口罩讨论）时，通用模型缺乏相关语境训练，无法精准提取关键实体和情感倾向。\n- **人工复核成本高**：由于自动化分析准确率不足 60%，团队不得不投入大量人力逐条人工校验数据，严重拖慢了决策响应速度。\n\n### 使用 BERTweet 后\n- **原生推特语境精通**：BERTweet 基于 8.5 亿条推文预训练，能完美理解网络俚语、特殊标点及表情符号，将情感分类准确率提升至行业领先水平。\n- **精准捕捉反讽情绪**：得益于对推特语言风格的深度建模，BERTweet 能有效识别隐含的讽刺与幽默，确保真实负面反馈不被遗漏。\n- **专项场景即时可用**：直接调用针对 COVID-19 等特定事件微调的模型版本，无需额外训练即可在突发热点事件中实现高精度的实体识别与情感分析。\n- **全流程自动化提效**：分析准确率大幅跃升，减少了 90% 的人工复核工作，使团队能从小时级的延迟缩短到分钟级的实时预警。\n\nBERTweet 通过将通用的语言理解能力转化为专为推特生态定制的洞察力，让企业在嘈杂的社交媒体数据中真正听清了用户的声音。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FVinAIResearch_BERTweet_60d690f6.png","VinAIResearch","VinAI Research","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FVinAIResearch_c5892e09.png","",null,"https:\u002F\u002Fwww.vinai.io\u002F","https:\u002F\u002Fgithub.com\u002FVinAIResearch",[80],{"name":81,"color":82,"percentage":83},"Python","#3572A5",100,606,55,"2026-03-21T14:12:05","MIT","未说明（基于 PyTorch\u002FTensorFlow，通常建议配备 NVIDIA GPU 以加速推理，但非强制）","未说明",{"notes":91,"python":89,"dependencies":92},"1. 必须安装特定版本的 emoji 库（0.5.4 或 0.6.0），新版本会导致预处理不一致。2. 输入推文在送入模型前必须使用提供的 TweetNormalizer 模块进行标准化处理（如转换用户提及为@USER，链接为 HTTPURL，处理表情符号）。3. 支持通过 Hugging Face transformers 或 fairseq 框架加载模型。4. 若需使用快速分词器（fast tokenizer），需从指定的 GitHub 分支安装 transformers。",[93,94,95,96,97],"transformers","tokenizers","torch","nltk","emoji==0.6.0",[35,15,99,100],"音频","视频",[102,103,104,93,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119],"python3","bert","roberta","fairseq","language-model","english","part-of-speech-tagging","ner","named-entity-recognition","text-classification","sentiment-analysis","irony-detection","english-tweets","covid-19","covid19","covid","bertweet","bertweet-covid19","2026-03-27T02:49:30.150509","2026-04-11T08:11:28.812600",[123,128,133,138,143,148],{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},29033,"微调 BERTweet 模型时出现 'CUDA error: device-side assert triggered' 错误怎么办？","这通常是因为设置的序列长度（max_seq_length）超过了模型训练时的最大位置嵌入数。BERTweet 模型是基于 130 的序列长度训练的，而用户可能设置为了 512。解决方法是将微调时的序列长度设置为小于或等于 130（例如 128）。","https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fissues\u002F26",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},29034,"某些表情符号（如 :cry:）无法被正确分词或报错 KeyError 怎么办？","这是因为依赖库 `emoji` 的版本不匹配。必须安装特定版本的 emoji 库（0.5.4 或 0.6.0），因为更新版本的 Emoji Charts 与预训练语料库的处理方式不一致。请运行命令：`pip3 install nltk emoji==0.6.0`。同时确保安装了 `pip3 install emoji`。","https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fissues\u002F29",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},29035,"加载模型时报错 'Model name was not found in tokenizers model name list' 或找不到 vocab.json 文件？","这通常是由于 transformers 版本过低或缓存文件损坏导致的。解决方案有两个：1. 升级 transformers 库到 3.3 或更高版本；2. 清理缓存，删除 `~\u002F.cache\u002Ftorch` 目录下的 `transformers` 文件夹，以便重新自动下载正确的模型文件。","https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fissues\u002F21",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},29036,"vinai\u002Fbertweet-covid19-base-uncased 模型是否使用与 bertweet-base 相同的分词器？","是的，它们使用完全相同的分词器。如果遇到索引越界错误，可以对比两者的分词器文件（vocab.txt, bpe.codes, tokenizer.json），确认它们是一致的。如果特定组合报错，可以尝试混合使用（例如使用 covid 模型搭配 base 分词器），因为底层词汇表是相同的。","https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fissues\u002F45",{"id":144,"question_zh":145,"answer_zh":146,"source_url":147},29037,"复现论文中 XLM-R Large 的微调结果时性能偏低，有哪些推荐的超参数设置？","建议尝试早停策略（early stopping）并增加评估频率（例如每 100 步评估一次）。推荐的超参数配置如下：MAX_LENGTH=128, NUM_EPOCHS=30, BATCH_SIZE=32, SAVE_STEPS=100, LEARNING_RATE=1e-5。此外，确保数据预处理步骤（如 soft\u002Fhard 策略）与论文描述一致。","https:\u002F\u002Fgithub.com\u002FVinAIResearch\u002FBERTweet\u002Fissues\u002F15",{"id":149,"question_zh":150,"answer_zh":151,"source_url":132},29038,"输入推文进行分词前需要进行什么特殊处理吗？","是的，输入推文必须先经过标准化（Normalization）处理。README 中的示例代码注释明确指出 'INPUT TWEET IS ALREADY NORMALIZED!'。如果直接输入原始推文（包含未转换的表情符号或非标准格式），可能会导致分词结果异常（如表情符号被拆分为未知标记）。请使用项目提供的预处理工具先将推文标准化。",[]]