[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-brightmart--roberta_zh":3,"tool-brightmart--roberta_zh":64},[4,17,25,39,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":10,"last_commit_at":23,"category_tags":24,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":26,"name":27,"github_repo":28,"description_zh":29,"stars":30,"difficulty_score":10,"last_commit_at":31,"category_tags":32,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[33,34,35,36,14,37,15,13,38],"图像","数据工具","视频","插件","其他","音频",{"id":40,"name":41,"github_repo":42,"description_zh":43,"stars":44,"difficulty_score":45,"last_commit_at":46,"category_tags":47,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,3,"2026-04-04T04:44:48",[14,33,13,15,37],{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":45,"last_commit_at":54,"category_tags":55,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74913,"2026-04-05T10:44:17",[15,33,13,37],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":45,"last_commit_at":62,"category_tags":63,"status":16},2181,"OpenHands","OpenHands\u002FOpenHands","OpenHands 是一个专注于 AI 驱动开发的开源平台，旨在让智能体（Agent）像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点，通过自动化流程显著提升开发速度。\n\n无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员，还是需要快速原型验证的技术团队，都能从中受益。OpenHands 提供了灵活多样的使用方式：既可以通过命令行（CLI）或本地图形界面在个人电脑上轻松上手，体验类似 Devin 的流畅交互；也能利用其强大的 Python SDK 自定义智能体逻辑，甚至在云端大规模部署上千个智能体并行工作。\n\n其核心技术亮点在于模块化的软件智能体 SDK，这不仅构成了平台的引擎，还支持高度可组合的开发模式。此外，OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩，证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能，支持与 Slack、Jira 等工具集成，并提供细粒度的权限管理，适合从个人开发者到大型企业的各类用户场景。",70612,"2026-04-05T11:12:22",[15,14,13,36],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":75,"owner_avatar_url":76,"owner_bio":77,"owner_company":78,"owner_location":79,"owner_email":80,"owner_twitter":81,"owner_website":78,"owner_url":82,"languages":83,"stars":92,"forks":93,"last_commit_at":94,"license":81,"difficulty_score":45,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":106,"github_topics":107,"view_count":45,"oss_zip_url":81,"oss_zip_packed_at":81,"status":16,"created_at":113,"updated_at":114,"faqs":115,"releases":155},984,"brightmart\u002Froberta_zh","roberta_zh","RoBERTa中文预训练模型: RoBERTa for Chinese ","roberta_zh 是一个针对中文优化的预训练语言模型，基于RoBERTa架构实现。它通过改进BERT的训练方法和数据处理方式，在多个自然语言处理任务上取得了更优的效果。这个模型特别适合需要处理中文文本的开发者和研究人员使用，能够帮助解决文本分类、情感分析、阅读理解等常见的NLP问题。\n\n对于想要提升中文自然语言处理效果的用户来说，roberta_zh 提供了不同规模的预训练模型选择，包括6层体验版、12层和24层的完整版，支持TensorFlow和PyTorch两种主流框架直接加载使用。模型在30G大规模中文语料上进行训练，覆盖新闻、问答和百科等多种文本类型，确保了其广泛的适用性。\n\n值得一提的是，roberta_zh 在多项基准测试中表现出色，例如在CCF互联网新闻情感分析任务中达到了81.25%的F1值，超越了BERT和XLNet等经典模型。这种性能提升主要得益于其优化的训练策略和更大的训练数据量。无论是从事NLP研究的学者，还是开发实际应用的工程师，都可以从中获得显著的效果提升。","RoBERTa for Chinese, TensorFlow & PyTorch\n\n中文预训练RoBERTa模型 \n-------------------------------------------------\nRoBERTa是BERT的改进版，通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了State of The Art的效果；可以用Bert直接加载。\n\n本项目是用TensorFlow实现了在大规模中文上RoBERTa的预训练，也会提供PyTorch的预训练模型和加载方式。\n\n*** 2019-10-12：添加【阅读理解】不同模型上测试效果对比 ***\n\n*** 2019-09-08： 添加国内下载地址、PyTorch版本、与多个模型bert-wwm、xlnet等模型效果初步对比 ***\n\n\n \u003Ca href=\"https:\u002F\u002Fwww.modelfun.cn\u002Fdemo\">NLP自动标注工具（提效最多100X）-预约\u003C\u002Fa>\n \nPre-trained model of \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Falbert_zh\">albert, chinese version\u003C\u002Fa> is also available for you now.\n\n中文预训练RoBERTa模型-下载\n-------------------------------------------------\n*** 6层RoBERTa体验版 ***\nRoBERTa-zh-Layer6: \u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1QXFqD6Qm8H9bRSbw7yZIgTGxD0O6ejUq\u002Fview?usp=sharing\"> Google Drive\u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1TfKz-d9wvfqct8vN0c-vjg\">百度网盘\u003C\u002Fa>，TensorFlow版本，Bert 直接加载, 大小为200M\n\n###### ** 推荐 RoBERTa-zh-Large 通过验证**\nRoBERTa-zh-Large: \u003Ca href='https:\u002F\u002Fdrive.google.com\u002Fopen?id=1W3WgPJWGVKlU9wpUYsdZuurAIFKvrl_Y'> Google Drive \u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1Rk_QWqd7-wBTwycr91bmug\">百度网盘\u003C\u002Fa> ，TensorFlow版本，Bert 直接加载\n\nRoBERTa-zh-Large: \u003Ca href='https:\u002F\u002Fdrive.google.com\u002Fopen?id=1yK_P8VhWZtdgzaG0gJ3zUGOKWODitKXZ'> Google Drive \u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1MRDuVqUROMdSKr6HD9x1mw\">百度网盘\u003C\u002Fa> ，PyTorch版本，Bert的PyTorch版直接加载\n\nRoBERTa 24\u002F12层版训练数据：30G原始文本，近3亿个句子，100亿个中文字(token)，产生了2.5亿个训练数据(instance)；\n\n覆盖新闻、社区问答、多个百科数据等；\n\n本项目与中文预训练24层XLNet模型 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Fxlnet_zh\">XLNet_zh\u003C\u002Fa>项目，使用相同的训练数据。\n\nRoBERTa_zh_L12: \u003Ca href='https:\u002F\u002Fdrive.google.com\u002Fopen?id=1ykENKV7dIFAqRRQbZIh0mSb7Vjc2MeFA'> Google Drive\u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1hAs7-VSn5HZWxBHQMHKkrg\">百度网盘\u003C\u002Fa> TensorFlow版本，Bert 直接加载 \n \nRoBERTa_zh_L12: \u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fopen?id=1H6f4tYlGXgug1DdhYzQVBuwIGAkAflwB\">Google Drive\u003C\u002Fa> 或\u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1AGC76N7pZOzWuo8ua1AZfw\">百度网盘\u003C\u002Fa>  PyTorch版本，Bert的PyTorch版直接加载\n\n---------------------------------------------------------------\n\n\u003Ca href='https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1cg3tVKPyUEmiI88H3gasqYC4LV4X8dNm\u002Fview?usp=sharing'>Roberta_l24_zh_base\u003C\u002Fa> TensorFlow版本，Bert 直接加载\n\n24层base版训练数据：10G文本，包含新闻、社区问答、多个百科数据等。\n\n\n\nWhat is RoBERTa:\n-------------------------------------------------\n    A robustly optimized method for pretraining natural language processing (NLP) systems that improves on Bidirectional Encoder Representations from Transformers, or BERT, the self-supervised method released by Google in 2018. \n    \n    RoBERTa, produces state-of-the-art results on the widely used NLP benchmark, General Language Understanding Evaluation (GLUE). The model delivered state-of-the-art performance on the MNLI, QNLI, RTE, STS-B, and RACE tasks and a sizable performance improvement on the GLUE benchmark. With a score of 88.5, RoBERTa reached the top position on the GLUE leaderboard, matching the performance of the previous leader, XLNet-Large. \n    \n    (Introduction from Facebook blog)\n\n发布计划 Release Plan：\n-------------------------------------------------\n1、24层RoBERTa模型(roberta_l24_zh)，使用30G文件训练，        9月8日\n\n2、12层RoBERTa模型(roberta_l12_zh)，使用30G文件训练，        9月8日\n\n3、6层RoBERTa模型(roberta_l6_zh)， 使用30G文件训练，         9月8日\n\n4、PyTorch版本的模型(roberta_l6_zh_pytorch)                9月8日\n\n5、30G中文语料，预训练格式，可直接训练(bert,xlent,gpt2)       待定\n\n6、测试集测试和效果对比                                     9月14日\n\n效果测试与对比 Performance \n-------------------------------------------------\n### 互联网新闻情感分析：CCF-Sentiment-Analysis\n\n| 模型 | 线上F1 |\n| :------- | :---------: |\n| BERT | 80.3 |\n| Bert-wwm-ext | 80.5 | \n| XLNet | 79.6 | \n| Roberta-mid | 80.5 |\n| Roberta-large (max_seq_length=512, split_num=1) | 81.25 |\n\n注：数据来源于\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fguoday\u002FCCF-BDCI-Sentiment-Analysis-Baseline\u002Fblob\u002Fmaster\u002FREADME.md\">guoday的开源项目\u003C\u002Fa>；数据集和任务介绍见：\u003Ca href=\"https:\u002F\u002Fwww.datafountain.cn\u002Fcompetitions\u002F350\u002Franking\">CCF互联网新闻情感分析\u003C\u002Fa>\n\n### 自然语言推断：XNLI\n\n| 模型 | 开发集 | 测试集 |\n| :------- | :---------: | :---------: |\n| BERT | 77.8 (77.4) | 77.8 (77.5) | \n| ERNIE | 79.7 (79.4) | 78.6 (78.2) | \n| BERT-wwm | 79.0 (78.4) | 78.2 (78.0) | \n| BERT-wwm-ext | 79.4 (78.6) | 78.7 (78.3) |\n| XLNet | 79.2  | 78.7 |\n| RoBERTa-zh-base | 79.8 |78.8  |\n| **RoBERTa-zh-Large** | **80.2 (80.0)** | **79.9 (79.5)** |\n\n注：RoBERTa_l24_zh，只跑了两次，Performance可能还会提升; \n\nBERT-wwm-ext来自于\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm\">这里\u003C\u002Fa>；XLNet来自于\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-PreTrained-XLNet\">这里\u003C\u002Fa>; RoBERTa-zh-base，指12层RoBERTa中文模型\n\n###  问题匹配语任务：LCQMC(Sentence Pair Matching)\n\n| 模型 | 开发集(Dev) | 测试集(Test) |\n| :------- | :---------: | :---------: |\n| BERT | 89.4(88.4) | 86.9(86.4) | \n| ERNIE | 89.8 (89.6) | **87.2** (87.0) | \n| BERT-wwm |89.4 (89.2) | 87.0 (86.8) | \n| BERT-wwm-ext | - |-  |\n| RoBERTa-zh-base | 88.7 | 87.0  |\n| **RoBERTa-zh-Large** | **89.9**(89.6) | **87.2**(86.7) |\n| RoBERTa-zh-Large(20w_steps) | 89.7| 87.0 |\n\n注：RoBERTa_l24_zh，只跑了两次，Performance可能还会提升。保持训练轮次和论文一致：\n\n### 阅读理解测试\n目前阅读理解类问题bert和roberta最优参数均为epoch2, batch=32, lr=3e-5, warmup=0.1\n\n#### cmrc2018(阅读理解)\n\n| models | DEV |\n| ------ | ------ |\n| sibert_base | F1:87.521(88.628) EM:67.381(69.152) |\n| sialbert_middle | F1:87.6956(87.878) EM:67.897(68.624) |\n| 哈工大讯飞 roberta_wwm_ext_base | F1:87.521(88.628) EM:67.381(69.152) |\n| brightmart roberta_middle | F1:86.841(87.242) EM:67.195(68.313) |\n| brightmart roberta_large | **F1:88.608(89.431) EM:69.935(72.538)** |\n\n#### DRCD(阅读理解)\n\n| models | DEV |\n| ------ | ------ |\n| siBert_base | F1:93.343(93.524) EM:87.968(88.28) |\n| siALBert_middle | F1:93.865(93.975) EM:88.723(88.961) |\n| 哈工大讯飞 roberta_wwm_ext_base | F1:94.257(94.48) EM:89.291(89.642) |\n| brightmart roberta_large | **F1:94.933(95.057) EM:90.113(90.238)** |\n\n#### CJRC(带有yes,no,unkown的阅读理解)\n\n| models | DEV |\n| ------ | ------ |\n| siBert_base | F1:80.714(81.14) EM:64.44(65.04) |\n| siALBert_middle | F1:80.9838(81.299) EM:63.796(64.202) |\n| 哈工大讯飞 roberta_wwm_ext_base | F1:81.510(81.684) EM:64.924(65.574) |\n| brightmart roberta_large | F1:80.16(80.475) EM:65.249(66.133) |\n\n阅读理解测试对比数据来源\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fewrfcas\u002Fbert_cn_finetune\">bert_cn_finetune\u003C\u002Fa>\n\n? 处地方，将会很快更新到具体的值\n\nRoBERTa中文版 Chinese Version\n-------------------------------------------------\n本项目所指的中文预训练RoBERTa模型只指按照RoBERTa论文主要精神训练的模型。包括：\n\n    1、数据生成方式和任务改进：取消下一个句子预测，并且数据连续从一个文档中获得(见：Model Input Format and Next Sentence Prediction，DOC-SENTENCES)\n    \n    2、更大更多样性的数据：使用30G中文训练，包含3亿个句子，100亿个字(即token）。由新闻、社区讨论、多个百科，包罗万象，覆盖数十万个主题，\n    \n    所以数据具有多样性（为了更有多样性，可以可以加入网络书籍、小说、故事类文学、微博等）。\n    \n    3、训练更久：总共训练了近20万，总共见过近16亿个训练数据(instance)； 在Cloud TPU v3-256 上训练了24小时，相当于在TPU v3-8(128G显存)上需要训练一个月。\n    \n    4、更大批次：使用了超大（8k）的批次batch size。\n    \n    5、调整优化器等超参数。\n\n除以上外，本项目中文版，使用了全词mask(whole word mask)。在全词Mask中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask，即全词Mask。\n\n本项目中并没有直接实现dynamic mask。通过复制一个训练样本得到多份数据，每份数据使用不同mask，并加大复制的份数，可间接得到dynamic mask效果。\n\n##### 使用说明 Instructions for Use\n\n当前本项目是使用sequence length为256训练的，所以可能对长度在这个范围内的效果不错；如果你的任务的输入比较长（如序列长度为512），或许效果有影响。\n\n有同学结合滑动窗口的形式，将序列做拆分，还是得到了比较好的效果，见\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F16\">#issue-16\u003C\u002Fa>\n\n##### 中文全词遮蔽 Whole Word Mask\n\n| 说明 | 样例 |\n| :------- | :--------- |\n| 原始文本 | 使用语言模型来预测下一个词的probability。 |\n| 分词文本 | 使用 语言 模型 来 预测 下 一个 词 的 probability 。 |\n| 原始Mask输入 | 使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。 |\n| 全词Mask输入 | 使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。 |\n\n模型加载（以Sentence Pair Matching即句子对任务，LCQMC为例）\n-------------------------------------------------\n\n下载\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fopen?id=1HXYMqsXjmA5uIfu_SFqP7r_vZZG-m_H0\">LCQMC\u003C\u002Fa>数据集，包含训练、验证和测试集，训练集包含24万口语化描述的中文句子对，标签为1或0。1为句子语义相似，0为语义不相似。\n\ntensorFlow版本：\n\n    1、复制本项目： git clone https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\n    \n    2、进到项目(roberta_zh)中。\n    \n      假设你将RoBERTa预训练模型下载并解压到该改项目的roberta_zh_large目录，即roberta_zh\u002Froberta_zh_large\n    \n    运行命令:\n  \n    export BERT_BASE_DIR=.\u002Froberta_zh_large\n    export MY_DATA_DIR=.\u002Fdata\u002Flcqmc\n    python run_classifier.py \\\n      --task_name=lcqmc_pair \\\n      --do_train=true \\\n      --do_eval=true \\\n      --data_dir=$MY_DATA_DIR \\\n      --vocab_file=$BERT_BASE_DIR\u002Fvocab.txt \\\n      --bert_config_file=$BERT_BASE_DIR\u002Fbert_config_large.json \\\n      --init_checkpoint=$BERT_BASE_DIR\u002Froberta_zh_large_model.ckpt \\\n      --max_seq_length=128 \\\n      --train_batch_size=64 \\\n      --learning_rate=2e-5 \\\n      --num_train_epochs=3 \\\n      --output_dir=.\u002Fcheckpoint_lcqmc\n    \n    注：task_name为lcqmc_pair。这里已经在run_classifier.py中的添加一个processor,并加到processors中，用于指定做lcqmc任务，并加载训练和验证数据。\n\nPyTorch加载方式，先参考\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F9\">issue 9\u003C\u002Fa>；将很快提供更具体方式。\n\n预训练 Pre-training\n-------------------------------------------------\n#### 1) 预训练的数据 data of pre-training\n你可以使用你的任务相关领域的数据来训练，也可以从通用的语料中筛选出一部分与你领域相关的数据做训练。\n\n通用语料数据见\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Fnlp_chinese_corpus\">nlp_chinese_corpus\u003C\u002Fa>:包含多个拥有数千万句子的语料的数据集。\n\n#### 2) 生成预训练数据 generate data for pre-training \n包括使用参照DOC-SENTENCES的形式，连续从一个文档中获得数据；以及做全词遮蔽(whole word mask)\n\nshell脚本：批量将多个txt文本转化为tfrecord的数据。\n\n    如将第1到10个txt转化为tfrecords文件：\n\n    nohup bash create_pretrain_data.sh 1 10 & \n                                                                                 \n    注：在我们的实验中使用15%的比例做全词遮蔽，模型学习难度大、收敛困难，所以我们用了10%的比例；\n\n#### 3）运行预训练命令 pre-training\n去掉next sentence prediction任务\n    \n    export BERT_BASE_DIR=\u003Cpath_of_robert_or_bert_model>\n    nohup python3 run_pretraining.py --input_file=.\u002Ftf_records_all\u002Ftf*.tfrecord  \\\n    --output_dir=my_new_model_path --do_train=True --do_eval=True --bert_config_file=$BERT_BASE_DIR\u002Fbert_config.json \\\n    --train_batch_size=8192 --max_seq_length=256 --max_predictions_per_seq=23 \\\n    --num_train_steps=200000 --num_warmup_steps=10000 --learning_rate=1e-4    \\\n    --save_checkpoints_steps=3000  --init_checkpoint=$BERT_BASE_DIR\u002Fbert_model.ckpt  &\n\n    注：如果你重头开始训练，可以不指定init_checkpoint；\n    如果你从现有的模型基础上训练，指定一下BERT_BASE_DIR的路径，并确保bert_config_file和init_checkpoint两个参数的值能对应到相应的文件上；\n    领域上的预训练，可以不用训练特别久。\n\nLearning Curve 学习曲线\n-------------------------------------------------\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbrightmart_roberta_zh_readme_70259b7b505d.png\"  width=\"70%\" height=\"60%\" \u002F>\n\n对显存的要求 Trade off between batch Size and sequence length\n-------------------------------------------------\n\nSystem       | Seq Length | Max Batch Size\n------------ | ---------- | --------------\n`RoBERTa-Base`  | 64         | 64\n...          | 128        | 32\n...          | 256        | 16\n...          | 320        | 14\n...          | 384        | 12\n...          | 512        | 6\n`RoBERTa-Large` | 64         | 12\n...          | 128        | 6\n...          | 256        | 2\n...          | 320        | 1\n...          | 384        | 0\n...          | 512        | 0\n\n\n\n#### 技术交流与问题讨论QQ群: 836811304\n\nIf you have any question, you can raise an issue, or send me an email: brightmart@hotmail.com;\n\nYou can also send pull request to report you performance on your task or add methods on how to load models for PyTorch and so on.\n\nIf you have ideas for generate best performance pre-training Chinese model, please also let me know.\n\n请报告在你的任务上的准确率情况及与其他模型的比较。\n\n\n项目贡献者，还包括：\n-------------------------------------------------\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fskyhawk1990\"> skyhawk1990\u003C\u002Fa>\n\n\n##### Research supported with Cloud TPUs from Google's TensorFlow Research Cloud (TFRC)\n\n\n\n\nReference\n-------------------------------------------------\n1、\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.11692.pdf\">RoBERTa: A Robustly Optimized BERT Pretraining Approach\u003C\u002Fa>\n\n2、\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08101.pdf\">Pre-Training with Whole Word Masking for Chinese BERT\u003C\u002Fa>\n\n3、\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.04805.pdf\">BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding\u003C\u002Fa>\n\n4、\u003Ca href=\"https:\u002F\u002Faclweb.org\u002Fanthology\u002FC18-1166\">LCQMC: A Large-scale Chinese Question Matching Corpus\u003C\u002Fa>\n","RoBERTa for Chinese, TensorFlow & PyTorch\n\n中文预训练RoBERTa模型 \n-------------------------------------------------\nRoBERTa是BERT（一种基于Transformer的双向编码器表示，由谷歌在2018年发布）的改进版，通过改进训练任务和数据生成方式、训练更久、使用更大批次、使用更多数据等获得了业界领先的效果；可以用Bert直接加载。\n\n本项目用TensorFlow实现了在大规模中文上RoBERTa的预训练，同时也会提供PyTorch的预训练模型和加载方式。\n\n*** 2019-10-12：添加【阅读理解】不同模型上测试效果对比 ***\n\n*** 2019-09-08： 添加国内下载地址、PyTorch版本、与多个模型bert-wwm、xlnet等模型效果初步对比 ***\n\n\n \u003Ca href=\"https:\u002F\u002Fwww.modelfun.cn\u002Fdemo\">NLP自动标注工具（提效最多100X）-预约\u003C\u002Fa>\n \n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Falbert_zh\">albert, 中文版本\u003C\u002Fa> 的预训练模型也已可用。\n\n中文预训练RoBERTa模型-下载\n-------------------------------------------------\n*** 6层RoBERTa体验版 ***\nRoBERTa-zh-Layer6: \u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1QXFqD6Qm8H9bRSbw7yZIgTGxD0O6ejUq\u002Fview?usp=sharing\"> Google Drive\u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1TfKz-d9wvfqct8vN0c-vjg\">百度网盘\u003C\u002Fa>，TensorFlow版本，Bert 直接加载, 大小为200M\n\n###### ** 推荐 RoBERTa-zh-Large 通过验证**\nRoBERTa-zh-Large: \u003Ca href='https:\u002F\u002Fdrive.google.com\u002Fopen?id=1W3WgPJWGVKlU9wpUYsdZuurAIFKvrl_Y'> Google Drive \u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1Rk_QWqd7-wBTwycr91bmug\">百度网盘\u003C\u002Fa> ，TensorFlow版本，Bert 直接加载\n\nRoBERTa-zh-Large: \u003Ca href='https:\u002F\u002Fdrive.google.com\u002Fopen?id=1yK_ENKV7dIFAqRRQbZIh0mSb7Vjc2MeFA'> Google Drive \u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1MRDuVqUROMdSKr6HD9x1mw\">百度网盘\u003C\u002Fa> ，PyTorch版本，Bert的PyTorch版直接加载\n\nRoBERTa 24\u002F12层版训练数据：30G原始文本，近3亿个句子，100亿个中文字(token)，产生了2.5亿个训练数据(instance)；\n\n覆盖新闻、社区问答、多个百科数据等；\n\n本项目与中文预训练24层XLNet模型 \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Fxlnet_zh\">XLNet_zh\u003C\u002Fa>项目，使用相同的训练数据。\n\nRoBERTa_zh_L12: \u003Ca href='https:\u002F\u002Fdrive.google.com\u002Fopen?id=1ykENKV7dIFAqRRQbZIh0mSb7Vjc2MeFA'> Google Drive\u003C\u002Fa> 或 \u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1hAs7-VSn5HZWxBHQMHKkrg\">百度网盘\u003C\u002Fa> TensorFlow版本，Bert 直接加载 \n \nRoBERTa_zh_L12: \u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fopen?id=1H6f4tYlGXgug1DdhYzQVBuwIGAkAflwB\">Google Drive\u003C\u002Fa> 或\u003Ca href=\"https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1AGC76N7pZOzWuo8ua1AZfw\">百度网盘\u003C\u002Fa>  PyTorch版本，Bert的PyTorch版直接加载\n\n---------------------------------------------------------------\n\n\u003Ca href='https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1cg3tVKPyUEmiI88H3gasqYC4LV4X8dNm\u002Fview?usp=sharing'>Roberta_l24_zh_base\u003C\u002Fa> TensorFlow版本，Bert 直接加载\n\n24层base版训练数据：10G文本，包含新闻、社区问答、多个百科数据等。\n\n\n\n什么是RoBERTa：\n-------------------------------------------------\n    一种用于自然语言处理 (NLP) 系统预训练的强大优化方法，改进了来自Transformer的双向编码器表示（BERT），即谷歌在2018年发布的自监督方法。\n    \n    RoBERTa在广泛使用的NLP基准——通用语言理解评估（GLUE）上取得了业界领先的结果。该模型在MNLI、QNLI、RTE、STS-B和RACE任务上表现优异，并在GLUE基准上实现了显著的性能提升。凭借88.5分的成绩，RoBERTa登上了GLUE排行榜的首位，与之前的领先者XLNet-Large持平。\n    \n    （引自Facebook博客）\n\n发布计划 Release Plan：\n-------------------------------------------------\n1、24层RoBERTa模型(roberta_l24_zh)，使用30G文件训练，        9月8日\n\n2、12层RoBERTa模型(roberta_l12_zh)，使用30G文件训练，        9月8日\n\n3、6层RoBERTa模型(roberta_l6_zh)， 使用30G文件训练，         9月8日\n\n4、PyTorch版本的模型(roberta_l6_zh_pytorch)                9月8日\n\n5、30G中文语料，预训练格式，可直接训练(bert,xlent,gpt2)       待定\n\n6、测试集测试和效果对比                                     9月14日\n\n效果测试与对比 Performance \n-------------------------------------------------\n### 互联网新闻情感分析：CCF-Sentiment-Analysis\n\n| 模型 | 线上F1 |\n| :------- | :---------: |\n| BERT | 80.3 |\n| Bert-wwm-ext | 80.5 | \n| XLNet | 79.6 | \n| Roberta-mid | 80.5 |\n| Roberta-large (max_seq_length=512, split_num=1) | 81.25 |\n\n注：数据来源于\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fguoday\u002FCCF-BDCI-Sentiment-Analysis-Baseline\u002Fblob\u002Fmaster\u002FREADME.md\">guoday的开源项目\u003C\u002Fa>；数据集和任务介绍见：\u003Ca href=\"https:\u002F\u002Fwww.datafountain.cn\u002Fcompetitions\u002F350\u002Franking\">CCF互联网新闻情感分析\u003C\u002Fa>\n\n### 自然语言推断：XNLI\n\n| 模型 | 开发集 | 测试集 |\n| :------- | :---------: | :---------: |\n| BERT | 77.8 (77.4) | 77.8 (77.5) | \n| ERNIE | 79.7 (79.4) | 78.6 (78.2) | \n| BERT-wwm | 79.0 (78.4) | 78.2 (78.0) | \n| BERT-wwm-ext | 79.4 (78.6) | 78.7 (78.3) |\n| XLNet | 79.2  | 78.7 |\n| RoBERTa-zh-base | 79.8 |78.8  |\n| **RoBERTa-zh-Large** | **80.2 (80.0)** | **79.9 (79.5)** |\n\n注：RoBERTa_l24_zh，只跑了两次，Performance可能还会提升; \n\nBERT-wwm-ext来自于\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm\">这里\u003C\u002Fa>；XLNet来自于\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-PreTrained-XLNet\">这里\u003C\u002Fa>; RoBERTa-zh-base，指12层RoBERTa中文模型\n\n###  问题匹配语任务：LCQMC(Sentence Pair Matching)\n\n| 模型 | 开发集(Dev) | 测试集(Test) |\n| :------- | :---------: | :---------: |\n| BERT | 89.4(88.4) | 86.9(86.4) | \n| ERNIE | 89.8 (89.6) | **87.2** (87.0) | \n| BERT-wwm |89.4 (89.2) | 87.0 (86.8) | \n| BERT-wwm-ext | - |-  |\n| RoBERTa-zh-base | 88.7 | 87.0  |\n| **RoBERTa-zh-Large** | **89.9**(89.6) | **87.2**(86.7) |\n| RoBERTa-zh-Large(20w_steps) | 89.7| 87.0 |\n\n注：RoBERTa_l24_zh，只跑了两次，Performance可能还会提升。保持训练轮次和论文一致：\n\n### 阅读理解测试\n目前阅读理解类问题bert和roberta最优参数均为epoch2, batch=32, lr=3e-5, warmup=0.1\n\n#### cmrc2018(阅读理解)\n\n| 模型 | DEV |\n| ------ | ------ |\n| sibert_base | F1:87.521(88.628) EM:67.381(69.152) |\n| sialbert_middle | F1:87.6956(87.878) EM:67.897(68.624) |\n| 哈工大讯飞 roberta_wwm_ext_base | F1:87.521(88.628) EM:67.381(69.152) |\n| brightmart roberta_middle | F1:86.841(87.242) EM:67.195(68.313) |\n| brightmart roberta_large | **F1:88.608(89.431) EM:69.935(72.538)** |\n\n#### DRCD(阅读理解)\n\n| 模型 | DEV |\n| ------ | ------ |\n| siBert_base | F1:93.343(93.524) EM:87.968(88.28) |\n| siALBert_middle | F1:93.865(93.975) EM:88.723(88.961) |\n| 哈工大讯飞 roberta_wwm_ext_base | F1:94.257(94.48) EM:89.291(89.642) |\n| brightmart roberta_large | **F1:94.933(95.057) EM:90.113(90.238)** |\n\n#### CJRC(带有yes,no,unkown的阅读理解)\n\n| 模型 | DEV |\n| ------ | ------ |\n| siBert_base | F1:80.714(81.14) EM:64.44(65.04) |\n| siALBert_middle | F1:80.9838(81.299) EM:63.796(64.202) |\n| 哈工大讯飞 roberta_wwm_ext_base | F1:81.510(81.684) EM:64.924(65.574) |\n| brightmart roberta_large | F1:80.16(80.475) EM:65.249(66.133) |\n\n阅读理解测试对比数据来源\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fewrfcas\u002Fbert_cn_finetune\">bert_cn_finetune\u003C\u002Fa>\n\n? 处地方，将会很快更新到具体的值\n\nRoBERTa中文版 Chinese Version\n-------------------------------------------------\n本项目所指的中文预训练RoBERTa模型只指按照RoBERTa论文主要精神训练的模型。包括：\n\n    1、数据生成方式和任务改进：取消下一个句子预测，并且数据连续从一个文档中获得(见：Model Input Format and Next Sentence Prediction，DOC-SENTENCES)\n    \n    2、更大更多样性的数据：使用30G中文训练，包含3亿个句子，100亿个字(即token）。由新闻、社区讨论、多个百科，包罗万象，覆盖数十万个主题，\n    \n    所以数据具有多样性（为了更有多样性，可以可以加入网络书籍、小说、故事类文学、微博等）。\n    \n    3、训练更久：总共训练了近20万，总共见过近16亿个训练数据(instance)； 在Cloud TPU v3-256 上训练了24小时，相当于在TPU v3-8(128G显存)上需要训练一个月。\n    \n    4、更大批次：使用了超大（8k）的批次batch size。\n    \n    5、调整优化器等超参数。\n\n除以上外，本项目中文版，使用了全词mask(whole word mask)。在全词Mask中，如果一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask，即全词Mask。\n\n本项目中并没有直接实现dynamic mask。通过复制一个训练样本得到多份数据，每份数据使用不同mask，并加大复制的份数，可间接得到dynamic mask效果。\n\n##### 使用说明 Instructions for Use\n\n当前本项目是使用sequence length为256训练的，所以可能对长度在这个范围内的效果不错；如果你的任务的输入比较长（如序列长度为512），或许效果有影响。\n\n有同学结合滑动窗口的形式，将序列做拆分，还是得到了比较好的效果，见\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F16\">#issue-16\u003C\u002Fa>\n\n##### 中文全词遮蔽 Whole Word Mask\n\n| 说明 | 样例 |\n| :------- | :--------- |\n| 原始文本 | 使用语言模型来预测下一个词的probability。 |\n| 分词文本 | 使用 语言 模型 来 预测 下 一个 词 的 probability 。 |\n| 原始Mask输入 | 使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。 |\n| 全词Mask输入 | 使 用 语 言 [MASK] [MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK] 。 |\n\n模型加载（以Sentence Pair Matching即句子对任务，LCQMC为例）\n-------------------------------------------------\n\n下载\u003Ca href=\"https:\u002F\u002Fdrive.google.com\u002Fopen?id=1HXYMqsXjmA5uIfu_SFqP7r_vZZG-m_H0\">LCQMC\u003C\u002Fa>数据集，包含训练、验证和测试集，训练集包含24万口语化描述的中文句子对，标签为1或0。1为句子语义相似，0为语义不相似。\n\ntensorFlow版本：\n\n    1、复制本项目： git clone https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\n    \n    2、进到项目(roberta_zh)中。\n    \n      假设你将RoBERTa预训练模型下载并解压到该改项目的roberta_zh_large目录，即roberta_zh\u002Froberta_zh_large\n    \n    运行命令:\n  \n    export BERT_BASE_DIR=.\u002Froberta_zh_large\n    export MY_DATA_DIR=.\u002Fdata\u002Flcqmc\n    python run_classifier.py \\\n      --task_name=lcqmc_pair \\\n      --do_train=true \\\n      --do_eval=true \\\n      --data_dir=$MY_DATA_DIR \\\n      --vocab_file=$BERT_BASE_DIR\u002Fvocab.txt \\\n      --bert_config_file=$BERT_BASE_DIR\u002Fbert_config_large.json \\\n      --init_checkpoint=$BERT_BASE_DIR\u002Froberta_zh_large_model.ckpt \\\n      --max_seq_length=128 \\\n      --train_batch_size=64 \\\n      --learning_rate=2e-5 \\\n      --num_train_epochs=3 \\\n      --output_dir=.\u002Fcheckpoint_lcqmc\n    \n    注：task_name为lcqmc_pair。这里已经在run_classifier.py中的添加一个processor,并加到processors中，用于指定做lcqmc任务，并加载训练和验证数据。\n\nPyTorch加载方式，先参考\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F9\">issue 9\u003C\u002Fa>；将很快提供更具体方式。\n\n预训练 Pre-training\n-------------------------------------------------\n#### 1) 预训练的数据 data of pre-training\n你可以使用你的任务相关领域的数据来训练，也可以从通用的语料中筛选出一部分与你领域相关的数据做训练。\n\n通用语料数据见\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Fnlp_chinese_corpus\">nlp_chinese_corpus\u003C\u002Fa>:包含多个拥有数千万句子的语料的数据集。\n\n#### 2) 生成预训练数据 generate data for pre-training \n包括使用参照DOC-SENTENCES的形式，连续从一个文档中获得数据；以及做全词遮蔽(whole word mask)\n\nshell脚本：批量将多个txt文本转化为tfrecord的数据。\n\n    如将第1到10个txt转化为tfrecords文件：\n\n    nohup bash create_pretrain_data.sh 1 10 & \n                                                                                 \n    注：在我们的实验中使用15%的比例做全词遮蔽，模型学习难度大、收敛困难，所以我们用了10%的比例；\n\n#### 3）运行预训练命令 pre-training\n去掉next sentence prediction任务\n    \n    export BERT_BASE_DIR=\u003Cpath_of_robert_or_bert_model>\n    nohup python3 run_pretraining.py --input_file=.\u002Ftf_records_all\u002Ftf*.tfrecord  \\\n    --output_dir=my_new_model_path --do_train=True --do_eval=True --bert_config_file=$BERT_BASE_DIR\u002Fbert_config.json \\\n    --train_batch_size=8192 --max_seq_length=256 --max_predictions_per_seq=23 \\\n    --num_train_steps=200000 --num_warmup_steps=10000 --learning_rate=1e-4    \\\n    --save_checkpoints_steps=3000  --init_checkpoint=$BERT_BASE_DIR\u002Fbert_model.ckpt  &\n\n    注：如果你重头开始训练，可以不指定init_checkpoint；\n    如果你从现有的模型基础上训练，指定一下BERT_BASE_DIR的路径，并确保bert_config_file和init_checkpoint两个参数的值能对应到相应的文件上；\n    领域上的预训练，可以不用训练特别久。\n\n学习曲线 Learning Curve\n-------------------------------------------------\n\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbrightmart_roberta_zh_readme_70259b7b505d.png\"  width=\"70%\" height=\"60%\" \u002F>\n\n对显存的要求 Trade off between batch Size and sequence length\n-------------------------------------------------\n\n系统       | 序列长度 | 最大批处理大小\n------------ | ---------- | --------------\n`RoBERTa-Base`  | 64         | 64\n...          | 128        | 32\n...          | 256        | 16\n...          | 320        | 14\n...          | 384        | 12\n...          | 512        | 6\n`RoBERTa-Large` | 64         | 12\n...          | 128        | 6\n...          | 256        | 2\n...          | 320        | 1\n...          | 384        | 0\n...          | 512        | 0\n\n\n\n#### 技术交流与问题讨论QQ群: 836811304\n\n如果有任何问题，可以提出issue，或者发送邮件至：brightmart@hotmail.com;\n\n您也可以发送pull request来报告您在任务上的性能，或添加如何为PyTorch加载模型的方法等。\n\n如果您有关于生成最佳性能的中文预训练模型的想法，请也告知我。\n\n请报告在您的任务上的准确率情况及与其他模型的比较。\n\n\n项目贡献者，还包括：\n-------------------------------------------------\n\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fskyhawk1990\"> skyhawk1990\u003C\u002Fa>\n\n\n##### Research supported with Cloud TPUs from Google's TensorFlow Research Cloud (TFRC)\n\n\n\n\n参考文献 Reference\n-------------------------------------------------\n1、\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.11692.pdf\">RoBERTa: A Robustly Optimized BERT Pretraining Approach\u003C\u002Fa>\n\n2、\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08101.pdf\">Pre-Training with Whole Word Masking for Chinese BERT\u003C\u002Fa>\n\n3、\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.04805.pdf\">BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding\u003C\u002Fa>\n\n4、\u003Ca href=\"https:\u002F\u002Faclweb.org\u002Fanthology\u002FC18-1166\">LCQMC: A Large-scale Chinese Question Matching Corpus\u003C\u002Fa>","# roberta_zh 快速上手指南\n\n中文预训练RoBERTa模型，支持TensorFlow和PyTorch框架。\n\n## 环境准备\n\n### 系统要求\n- Python 3.6+\n- TensorFlow 或 PyTorch\n- 推荐使用GPU\u002FCPU环境，TPU也可支持\n\n### 前置依赖\n```bash\npip install tensorflow==1.15   # 对于TensorFlow版本\npip install torch transformers # 对于PyTorch版本\n```\n\n建议使用国内镜像加速安装：\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple tensorflow==1.15\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple torch transformers\n```\n\n## 安装步骤\n\n1. 克隆项目代码\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\ncd roberta_zh\n```\n\n2. 下载预训练模型\n\n推荐使用百度网盘下载（国内用户更快）：\n\n| 模型 | 下载地址 |\n| ---- | -------- |\n| RoBERTa-zh-Large (推荐) | [百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1Rk_QWqd7-wBTwycr91bmug) |\n| RoBERTa-zh-Large (PyTorch版) | [百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1MRDuVqUROMdSKr6HD9x1mw) |\n| RoBERTa-zh-Layer6 | [百度网盘](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1TfKz-d9wvfqct8vN0c-vjg) |\n\n将下载的模型解压到项目目录下，例如：`roberta_zh\u002Froberta_zh_large`\n\n## 基本使用\n\n以下以句子对匹配任务（LCQMC）为例展示基本用法：\n\n### TensorFlow 版本\n\n1. 下载数据集\n```bash\nwget https:\u002F\u002Fdrive.google.com\u002Fopen?id=1HXYMqsXjmA5uIfu_SFqP7r_vZZG-m_H0 -O lcqmc.zip\nunzip lcqmc.zip -d .\u002Fdata\u002Flcqmc\n```\n\n2. 运行训练命令\n```bash\nexport BERT_BASE_DIR=.\u002Froberta_zh_large\nexport MY_DATA_DIR=.\u002Fdata\u002Flcqmc\n\npython run_classifier.py \\\n  --task_name=lcqmc_pair \\\n  --do_train=true \\\n  --do_eval=true \\\n  --data_dir=$MY_DATA_DIR \\\n  --vocab_file=$BERT_BASE_DIR\u002Fvocab.txt \\\n  --bert_config_file=$BERT_BASE_DIR\u002Fbert_config_large.json \\\n  --init_checkpoint=$BERT_BASE_DIR\u002Froberta_zh_large_model.ckpt \\\n  --max_seq_length=128 \\\n  --train_batch_size=64 \\\n  --learning_rate=2e-5 \\\n  --num_train_epochs=3 \\\n  --output_dir=.\u002Fcheckpoint_lcqmc\n```\n\n### PyTorch 版本\n\n参考 [issue 9](https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F9) 加载方式。\n\n加载示例：\n```python\nfrom transformers import BertTokenizer, BertModel\n\ntokenizer = BertTokenizer.from_pretrained('path_to_roberta_zh_large')\nmodel = BertModel.from_pretrained('path_to_roberta_zh_large')\n\ninputs = tokenizer(\"使用语言模型来预测下一个词的probability。\", return_tensors=\"pt\")\noutputs = model(**inputs)\n```\n\n以上即为快速上手 roberta_zh 的基本流程，更多高级用法请参考官方文档。","一家电商公司正在开发智能客服系统，希望通过自然语言处理技术提升用户咨询的响应效率和准确性。\n\n### 没有 roberta_zh 时\n- 客服系统对用户提问的理解能力有限，经常出现答非所问的情况，导致客户满意度下降\n- 自行训练的语言模型需要大量标注数据，而公司内部缺乏足够的语料资源，效果难以保证\n- 处理复杂的中文表达时，如多义词、口语化表述，模型表现不稳定，错误率较高\n- 开发团队在模型优化上耗费大量时间，却难以达到预期效果，项目进度严重滞后\n- 系统对新出现的商品名称和专业术语识别能力差，需要频繁更新模型\n\n### 使用 roberta_zh 后\n- 借助预训练模型的强大语义理解能力，客服系统能够更准确地理解用户意图，回答正确率提升15%\n- 直接使用预训练模型，大幅减少数据准备和训练时间，让团队可以专注于业务逻辑开发\n- 在处理复杂中文表达时表现出色，特别是对口语化和多义词的理解，显著降低错误率\n- 预训练模型的优异性能让团队能快速完成原型验证，将产品上线时间提前了3个月\n- 模型对新领域术语的适应性更强，通过少量微调即可快速支持新产品线\n\nroberta_zh 的强大预训练能力帮助电商公司快速构建起高效的智能客服系统，显著提升了用户体验和运营效率。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fbrightmart_roberta_zh_83258736.png","brightmart","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fbrightmart_e93d5e1a.jpg","Liang Xu, NLP with deep learning. \r\nMainly focus on text classification, intention recognition, QA & task oriented dialogue, pre-trained models.","https:\u002F\u002Fwww.CLUEbenchmarks.com","hangzhou,china","brightmart@hotmail.com",null,"https:\u002F\u002Fgithub.com\u002Fbrightmart",[84,88],{"name":85,"color":86,"percentage":87},"Python","#3572A5",99.7,{"name":89,"color":90,"percentage":91},"Shell","#89e051",0.3,2782,408,"2026-04-05T06:43:12","Linux, macOS, Windows","需要 NVIDIA GPU，显存需求视模型大小而定，推荐 16GB+，CUDA 版本未说明","最低 16GB，推荐 32GB+",{"notes":99,"python":100,"dependencies":101},"建议使用 conda 管理环境；运行预训练任务需较大存储空间；首次运行需下载模型文件，具体大小视模型版本而定；支持全词遮蔽（Whole Word Mask）和滑动窗口处理长序列。","未说明",[102,103,104,105],"tensorflow","torch","transformers","bert",[15],[108,109,105,110,111,112],"roberta","chinese","pre-trained-language-models","pre-trained","gpt2","2026-03-27T02:49:30.150509","2026-04-06T05:36:34.153642",[116,121,126,130,135,140,145,150],{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},4374,"如何将 TensorFlow 的 RoBERTa 模型转换为 PyTorch 格式？","pytorch-transformer 中的 convert_roberta_checkpoint_to_pytorch 工具是用于转换 fairseq 模型的，而不是 TensorFlow 模型。对于 RoBERTa 和 BERT 模型，可以使用转换 BERT 的方法进行操作。","https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F9",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},4375,"为什么 RoBERTa-large 在 CMRC2018 数据集上的表现比 RoBERTa-middle 差很多？","可以通过划窗技术解决长度限制问题，具体实现可以参考 Google 官方 SQuAD 代码或 https:\u002F\u002Fgithub.com\u002Fewrfcas\u002Fbert_cn_finetune\u002Fblob\u002Fmaster\u002Fpreprocess\u002Fcmrc2018_preprocess.py。","https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F16",{"id":127,"question_zh":128,"answer_zh":129,"source_url":120},4376,"如何加载 PyTorch 版本的 RoBERTa 模型？","可以使用 Transformer2.0 库加载模型，示例代码如下：\n```python\nfrom transformers import BertTokenizer, BertConfig, BertForSequenceClassification\n\ntokenizer = BertTokenizer.from_pretrained('RoBERTa\u002Fvocab.txt')\nconfig = BertConfig.from_pretrained('RoBERTa\u002Fconfig.json')\nmodel = BertForSequenceClassification.from_pretrained('RoBERTa\u002Fpytorch_model.bin', config=config)\n```\n注意中文版 RoBERTa 模型不能用 Roberta 相关类加载。",{"id":131,"question_zh":132,"answer_zh":133,"source_url":134},4377,"为什么在测试句子的困惑度（PPL）时，RoBERTa 模型的概率值较低？","RoBERTa_zh_large 模型不包含语言模型权重，因此测试时可能是随机结果。可以尝试使用包含 MLM 参数的版本（roeberta_zh_L-24_H-1024_A-16_lm_layer.zip），下载地址为：https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1MmVWOGTsCdeUMfeCePDcatsui9zL3lND\u002Fview。","https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F24",{"id":136,"question_zh":137,"answer_zh":138,"source_url":139},4378,"如何解决加载 PyTorch 模型时出现的错误？","可以参考以下代码加载模型：\n```python\nmodel_bert.load_state_dict(torch.load(init_checkpoint, map_location='cpu'), strict=False)\n```\n如果仍然有问题，可以参考 https:\u002F\u002Fgithub.com\u002Fguoday\u002FCCF-BDCI-Sentiment-Analysis-Baseline 的实现。","https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F20",{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},4379,"如何解决 RoBERTa 模型中 [CLS] 和 [SEP] 特殊标记的问题？","RoBERTa 模型的特殊标记与 BERT 不同，默认设置为 `bos_token=\"\u003Cs>\", eos_token=\"\u003C\u002Fs>\", sep_token=\"\u003C\u002Fs>\", cls_token=\"\u003Cs>\"`。需要确保在预处理时兼容这些标记，可以参考 `run_glue` 示例代码中的预处理部分。","https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F35",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},4380,"如何解决无法下载 RoBERTa-zh-Large 模型的问题？","如果无法通过原链接下载，可以使用百度网盘地址：https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1Rk_QWqd7-wBTwycr91bmug。如果仍然无法访问，可能需要科学上网。","https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F14",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},4381,"如何获取包含 Mask Language Model 参数的 RoBERTa 模型？","可以使用包含 LM 参数的模型版本，下载地址为：https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1MmVWOGTsCdeUMfeCePDcatsui9zL3lND\u002Fview?usp=sharing。使用后请反馈效果。","https:\u002F\u002Fgithub.com\u002Fbrightmart\u002Froberta_zh\u002Fissues\u002F8",[]]