[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-ymcui--Chinese-ELECTRA":3,"tool-ymcui--Chinese-ELECTRA":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,2,"2026-04-05T11:33:21",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":81,"owner_email":82,"owner_twitter":83,"owner_website":84,"owner_url":85,"languages":86,"stars":91,"forks":92,"last_commit_at":93,"license":94,"difficulty_score":23,"env_os":95,"env_gpu":96,"env_ram":97,"env_deps":98,"category_tags":103,"github_topics":104,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":114,"updated_at":115,"faqs":116,"releases":167},902,"ymcui\u002FChinese-ELECTRA","Chinese-ELECTRA","Pre-trained Chinese ELECTRA（中文ELECTRA预训练模型）","Chinese-ELECTRA 是由哈工大讯飞联合实验室（HFL）发布的一款中文预训练语言模型，基于谷歌与斯坦福大学提出的 ELECTRA 框架开发而成。它主要用于理解和生成中文文本，能够为各类自然语言处理任务提供强大的语义表示基础。\n\n该模型解决了在中文场景下高效、轻量级预训练模型的需求。传统 BERT 等模型虽然效果出色，但参数量大、计算成本高。而 Chinese-ELECTRA 通过创新的“替换词检测”训练方式，在保持优异性能的同时显著减少了模型体积。例如，其最小的 ELECTRA-small 模型参数量仅为 BERT-base 的约十分之一，但在多项任务上仍可达到相近甚至更好的效果，有效平衡了效果与效率。\n\nChinese-ELECTRA 主要面向人工智能领域的研究人员和开发者，特别是从事中文自然语言处理相关工作的工程师、学者以及学生。无论是进行文本分类、情感分析、阅读理解，还是构建智能问答、信息抽取等应用，都可以基于此模型进行微调和部署，从而加速开发流程并提升模型性能。\n\n其核心的技术亮点在于采用了 ELECTRA 的预训练策略，使用生成器-判别器架构进行训练，让判别器直接学","Chinese-ELECTRA 是由哈工大讯飞联合实验室（HFL）发布的一款中文预训练语言模型，基于谷歌与斯坦福大学提出的 ELECTRA 框架开发而成。它主要用于理解和生成中文文本，能够为各类自然语言处理任务提供强大的语义表示基础。\n\n该模型解决了在中文场景下高效、轻量级预训练模型的需求。传统 BERT 等模型虽然效果出色，但参数量大、计算成本高。而 Chinese-ELECTRA 通过创新的“替换词检测”训练方式，在保持优异性能的同时显著减少了模型体积。例如，其最小的 ELECTRA-small 模型参数量仅为 BERT-base 的约十分之一，但在多项任务上仍可达到相近甚至更好的效果，有效平衡了效果与效率。\n\nChinese-ELECTRA 主要面向人工智能领域的研究人员和开发者，特别是从事中文自然语言处理相关工作的工程师、学者以及学生。无论是进行文本分类、情感分析、阅读理解，还是构建智能问答、信息抽取等应用，都可以基于此模型进行微调和部署，从而加速开发流程并提升模型性能。\n\n其核心的技术亮点在于采用了 ELECTRA 的预训练策略，使用生成器-判别器架构进行训练，让判别器直接学习区分输入词是否被替换，相比传统的掩码语言建模方法，训练效率更高，且在下游任务中表现稳健。项目提供了多种规模的模型选择，并支持通过 Transformers、PaddleHub 等主流工具快速加载，方便集成到现有代码中。\n\n此外，Chinese-ELECTRA 是哈工大讯飞联合实验室开源系列模型中的重要组成部分，与中文 BERT、XLNet、MacBERT 等模型共同丰富了中文预训练生态，持续推动中文自然语言处理技术的进步与应用落地。","[**中文说明**](.\u002FREADME.md) | [**English**](.\u002FREADME_EN.md)\n\n\u003Cp align=\"center\">\n    \u003Cbr>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fymcui_Chinese-ELECTRA_readme_821618f6e8da.png\" width=\"500\"\u002F>\n    \u003Cbr>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fblob\u002Fmaster\u002FLICENSE\">\n        \u003Cimg alt=\"GitHub\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fymcui\u002FChinese-ELECTRA.svg?color=blue&style=flat-square\">\n    \u003C\u002Fa>\n\u003C\u002Fp>\n谷歌与斯坦福大学共同研发的最新预训练模型ELECTRA因其小巧的模型体积以及良好的模型性能受到了广泛关注。\n为了进一步促进中文预训练模型技术的研究与发展，哈工大讯飞联合实验室基于官方ELECTRA训练代码以及大规模的中文数据训练出中文ELECTRA预训练模型供大家下载使用。\n其中ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相媲美，而参数量仅为BERT-base的1\u002F10。\n\n本项目基于谷歌&斯坦福大学官方的ELECTRA：[https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Felectra](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Felectra)\n\n----\n\n[中文LERT](https:\u002F\u002Fgithub.com\u002Fymcui\u002FLERT) | [中英文PERT](https:\u002F\u002Fgithub.com\u002Fymcui\u002FPERT) | [中文MacBERT](https:\u002F\u002Fgithub.com\u002Fymcui\u002FMacBERT) | [中文ELECTRA](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA) | [中文XLNet](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-XLNet) | [中文BERT](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm) | [知识蒸馏工具TextBrewer](https:\u002F\u002Fgithub.com\u002Fairaria\u002FTextBrewer) | [模型裁剪工具TextPruner](https:\u002F\u002Fgithub.com\u002Fairaria\u002FTextPruner)\n\n查看更多哈工大讯飞联合实验室（HFL）发布的资源：https:\u002F\u002Fgithub.com\u002Fymcui\u002FHFL-Anthology\n\n## 新闻\n**2023\u002F3\u002F28 开源了中文LLaMA&Alpaca大模型，可快速在PC上部署体验，查看：https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca**\n\n2022\u002F10\u002F29 我们提出了一种融合语言学信息的预训练模型LERT。查看：https:\u002F\u002Fgithub.com\u002Fymcui\u002FLERT\n\n2022\u002F3\u002F30 我们开源了一种新预训练模型PERT。查看：https:\u002F\u002Fgithub.com\u002Fymcui\u002FPERT\n\n2021\u002F12\u002F17 哈工大讯飞联合实验室推出模型裁剪工具包TextPruner。查看：https:\u002F\u002Fgithub.com\u002Fairaria\u002FTextPruner\n\n2021\u002F10\u002F24 哈工大讯飞联合实验室发布面向少数民族语言的预训练模型CINO。查看：https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-Minority-PLM\n\n2021\u002F7\u002F21 由哈工大SCIR多位学者撰写的[《自然语言处理：基于预训练模型的方法》](https:\u002F\u002Fitem.jd.com\u002F13344628.html)已出版，欢迎大家选购。\n\n2020\u002F12\u002F13 基于大规模法律文书数据，我们训练了面向司法领域的中文ELECTRA系列模型，查看[模型下载](#模型下载)，[司法任务效果](#司法任务效果)。\n\n\u003Cdetails>\n\u003Csummary>点击这里查看历史新闻\u003C\u002Fsummary>\n2020\u002F10\u002F22 ELECTRA-180g已发布，增加了CommonCrawl的高质量数据，查看[模型下载](#模型下载)。\n\n2020\u002F9\u002F15 我们的论文[\"Revisiting Pre-Trained Models for Chinese Natural Language Processing\"](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.13922)被[Findings of EMNLP](https:\u002F\u002F2020.emnlp.org)录用为长文。\n\n2020\u002F8\u002F27 哈工大讯飞联合实验室在通用自然语言理解评测GLUE中荣登榜首，查看[GLUE榜单](https:\u002F\u002Fgluebenchmark.com\u002Fleaderboard)，[新闻](http:\u002F\u002Fdwz.date\u002FckrD)。\n\n2020\u002F5\u002F29 Chinese ELECTRA-large\u002Fsmall-ex已发布，请查看[模型下载](#模型下载)，目前只提供Google Drive下载地址，敬请谅解。\n\n2020\u002F4\u002F7 PyTorch用户可通过[🤗Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)加载模型，查看[快速加载](#快速加载)。\n\n2020\u002F3\u002F31 本目录发布的模型已接入[飞桨PaddleHub](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleHub)，查看[快速加载](#快速加载)。\n\n2020\u002F3\u002F25 Chinese ELECTRA-small\u002Fbase已发布，请查看[模型下载](#模型下载)。\n\u003C\u002Fdetails>\n\n## 内容导引\n| 章节 | 描述 |\n|-|-|\n| [简介](#简介) | 介绍ELECTRA基本原理 |\n| [模型下载](#模型下载) | 中文ELECTRA预训练模型下载 |\n| [快速加载](#快速加载) | 介绍了如何使用[🤗Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)、[PaddleHub](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleHub)快速加载模型 |\n| [基线系统效果](#基线系统效果) | 中文基线系统效果：阅读理解、文本分类等 |\n| [使用方法](#使用方法) | 模型的详细使用方法 |\n| [FAQ](#FAQ) | 常见问题答疑 |\n| [引用](#引用) | 本目录的技术报告 |\n\n## 简介\n**ELECTRA**提出了一套新的预训练框架，其中包括两个部分：**Generator**和**Discriminator**。\n\n- **Generator**: 一个小的MLM，在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。\n- **Discriminator**: 判断输入句子中的每个词是否被替换，即使用Replaced Token Detection (RTD)预训练任务，取代了BERT原始的Masked Language Model (MLM)。需要注意的是这里并没有使用Next Sentence Prediction (NSP)任务。\n\n在预训练阶段结束之后，我们只使用Discriminator作为下游任务精调的基模型。\n\n更详细的内容请查阅ELECTRA论文：[ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fymcui_Chinese-ELECTRA_readme_13dd78b56b4c.png)\n\n\n## 模型下载\n* **`ELECTRA-large, Chinese`**: 24-layer, 1024-hidden, 16-heads, 324M parameters   \n* **`ELECTRA-base, Chinese`**: 12-layer, 768-hidden, 12-heads, 102M parameters   \n* **`ELECTRA-small-ex, Chinese`**: 24-layer, 256-hidden, 4-heads, 25M parameters\n* **`ELECTRA-small, Chinese`**: 12-layer, 256-hidden, 4-heads, 12M parameters\n\n#### 大语料版（新版，180G数据）\n\n| 模型简称 | 🤗HF下载 | 百度网盘下载 | 压缩包大小 |\n| :------- | :---------: | :---------: | :---------: |\n| **`ELECTRA-180g-large, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-180g-large-discriminator) | [TensorFlow（密码2v5r）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F13UJIG2G0lASjjCvPmh13RQ?pwd=2v5r) | 1G |\n| **`ELECTRA-180g-base, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-180g-base-discriminator) | [TensorFlow（密码3vg1）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F15PQdeh7nRxCgXp9YmjqgsQ?pwd=3vg1) | 383M |\n| **`ELECTRA-180g-small-ex, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-180g-small-ex-discriminator) | [TensorFlow（密码93n8）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1UV83d2LNp5HHwK7X14HjPQ?pwd=93n8) | 92M |\n| **`ELECTRA-180g-small, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-180g-small-discriminator) | [TensorFlow（密码k9iu）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1J5DXcehcNtX0iBXNRKLWBw?pwd=k9iu) | 46M |\n\n#### 基础版（原版，20G数据）\n\n| 模型简称 | 🤗HF下载 | 百度网盘下载 | 压缩包大小 |\n| :------- | :---------: | :---------: | :---------: |\n| **`ELECTRA-large, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-large-discriminator) | [TensorFlow（密码1e14）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1M5pSqDRbb3Vsv5r3TfviBQ?pwd=1e14) | 1G |\n| **`ELECTRA-base, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-base-discriminator) | [TensorFlow（密码f32j）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HOzCBNaoIEULj_s-q3dDzA?pwd=f32j) | 383M |\n| **`ELECTRA-small-ex, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-small-ex-discriminator) | [TensorFlow（密码gfb1）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dOLw4feMJcsgZL07V-koWA?pwd=gfb1) | 92M |\n| **`ELECTRA-small, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-small-discriminator) | [TensorFlow（密码1r4r）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1UIosBYOHVA3bDuJrFqU0NQ?pwd=1r4r) | 46M |\n\n#### 司法领域版\n\n| 模型简称 | 🤗HF下载 | 百度网盘下载 | 压缩包大小 |\n| :------- | :---------: | :---------: | :---------: |\n| **`legal-ELECTRA-large, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-legal-electra-large-discriminator) | [TensorFlow（密码q4gv）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F180cloQ0A3m3VqpLPeKpPYg?pwd=q4gv) | 1G |\n| **`legal-ELECTRA-base, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-legal-electra-base-discriminator) | [TensorFlow（密码8gcv）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1OWwSsr-jCWq3vb7Js4B2vg?pwd=8gcv) | 383M |\n| **`legal-ELECTRA-small, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-legal-electra-small-discriminator) | [TensorFlow（密码kmrj）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1FIblX4EU23KSQWft3DWL0g?pwd=kmrj) | 46M |\n\n### 使用须知\n\n中国大陆境内建议使用百度网盘下载点，境外用户建议使用谷歌下载点。 \n以TensorFlow版`ELECTRA-small, Chinese`为例，下载完毕后对zip文件进行解压得到如下文件。\n\n```\nchinese_electra_small_L-12_H-256_A-4.zip\n    |- electra_small.data-00000-of-00001    # 模型权重\n    |- electra_small.meta                   # 模型meta信息\n    |- electra_small.index                  # 模型index信息\n    |- vocab.txt                            # 词表\n    |- discriminator.json                   # 配置文件：discriminator（若没有可从本repo中的config目录获取）\n    |- generator.json                       # 配置文件：generator（若没有可从本repo中的config目录获取）\n```\n\n### 训练细节\n\n我们采用了大规模中文维基以及通用文本训练了ELECTRA模型，总token数达到5.4B，与[RoBERTa-wwm-ext系列模型](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm)一致。词表方面沿用了谷歌原版BERT的WordPiece词表，包含21,128个token。其他细节和超参数如下（未提及的参数保持默认）：\n- `ELECTRA-large`: 24层，隐层1024，16个注意力头，学习率1e-4，batch96，最大长度512，训练2M步\n- `ELECTRA-base`: 12层，隐层768，12个注意力头，学习率2e-4，batch256，最大长度512，训练1M步\n- `ELECTRA-small-ex`: 24层，隐层256，4个注意力头，学习率5e-4，batch384，最大长度512，训练2M步\n- `ELECTRA-small`: 12层，隐层256，4个注意力头，学习率5e-4，batch1024，最大长度512，训练1M步\n\n\n## 快速加载\n### 使用Huggingface-Transformers\n\n[Huggingface-Transformers 2.8.0](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Freleases\u002Ftag\u002Fv2.8.0)版本已正式支持ELECTRA模型，可通过如下命令调用。\n```python\ntokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)\nmodel = AutoModel.from_pretrained(MODEL_NAME) \n```\n\n其中`MODEL_NAME`对应列表如下：\n\n| 模型名 | 组件 | MODEL_NAME |\n| - | - | - |\n| ELECTRA-180g-large, Chinese | discriminator | hfl\u002Fchinese-electra-180g-large-discriminator |\n| ELECTRA-180g-large, Chinese | generator | hfl\u002Fchinese-electra-180g-large-generator |\n| ELECTRA-180g-base, Chinese | discriminator | hfl\u002Fchinese-electra-180g-base-discriminator |\n| ELECTRA-180g-base, Chinese | generator | hfl\u002Fchinese-electra-180g-base-generator |\n| ELECTRA-180g-small-ex, Chinese | discriminator | hfl\u002Fchinese-electra-180g-small-ex-discriminator |\n| ELECTRA-180g-small-ex, Chinese | generator | hfl\u002Fchinese-electra-180g-small-ex-generator |\n| ELECTRA-180g-small, Chinese | discriminator | hfl\u002Fchinese-electra-180g-small-discriminator |\n| ELECTRA-180g-small, Chinese | generator | hfl\u002Fchinese-electra-180g-small-generator |\n| ELECTRA-large, Chinese | discriminator | hfl\u002Fchinese-electra-large-discriminator |\n| ELECTRA-large, Chinese | generator | hfl\u002Fchinese-electra-large-generator |\n| ELECTRA-base, Chinese | discriminator | hfl\u002Fchinese-electra-base-discriminator |\n| ELECTRA-base, Chinese | generator | hfl\u002Fchinese-electra-base-generator |\n| ELECTRA-small-ex, Chinese | discriminator | hfl\u002Fchinese-electra-small-ex-discriminator |\n| ELECTRA-small-ex, Chinese | generator | hfl\u002Fchinese-electra-small-ex-generator |\n| ELECTRA-small, Chinese | discriminator | hfl\u002Fchinese-electra-small-discriminator |\n| ELECTRA-small, Chinese | generator | hfl\u002Fchinese-electra-small-generator |\n\n司法领域版本：\n\n| 模型名 | 组件 | MODEL_NAME |\n| - | - | - |\n| legal-ELECTRA-large, Chinese | discriminator | hfl\u002Fchinese-legal-electra-large-discriminator |\n| legal-ELECTRA-large, Chinese | generator | hfl\u002Fchinese-legal-electra-large-generator |\n| legal-ELECTRA-base, Chinese | discriminator | hfl\u002Fchinese-legal-electra-base-discriminator |\n| legal-ELECTRA-base, Chinese | generator | hfl\u002Fchinese-legal-electra-base-generator |å\n| legal-ELECTRA-small, Chinese | discriminator | hfl\u002Fchinese-legal-electra-small-discriminator |\n| legal-ELECTRA-small, Chinese | generator | hfl\u002Fchinese-legal-electra-small-generator |\n\n\n### 使用PaddleHub\n依托[PaddleHub](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleHub)，我们只需一行代码即可完成模型下载安装，十余行代码即可完成文本分类、序列标注、阅读理解等任务。\n\n```\nimport paddlehub as hub\nmodule = hub.Module(name=MODULE_NAME)\n```\n\n其中`MODULE_NAME`对应列表如下：\n\n| 模型名 | MODULE_NAME |\n| - | - |\n| ELECTRA-base, Chinese | [chinese-electra-base](https:\u002F\u002Fpaddlepaddle.org.cn\u002Fhubdetail?name=chinese-electra-base&en_category=SemanticModel) |\n| ELECTRA-small, Chinese  | [chinese-electra-small](https:\u002F\u002Fpaddlepaddle.org.cn\u002Fhubdetail?name=chinese-electra-small&en_category=SemanticModel) |\n\n\n## 基线系统效果\n我们将`ELECTRA-small\u002Fbase`与[`BERT-base`](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert)、[`BERT-wwm`、`BERT-wwm-ext`、`RoBERTa-wwm-ext`、`RBT3`](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm)进行了效果对比，包括以下六个任务：  \n- [**CMRC 2018 (Cui et al., 2019)**：篇章片段抽取型阅读理解（简体中文）](https:\u002F\u002Fgithub.com\u002Fymcui\u002Fcmrc2018)\n- [**DRCD (Shao et al., 2018)**：篇章片段抽取型阅读理解（繁体中文）](https:\u002F\u002Fgithub.com\u002FDRCSolutionService\u002FDRCD)\n- [**XNLI (Conneau et al., 2018)**：自然语言推断](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert\u002Fblob\u002Fmaster\u002Fmultilingual.md)\n- [**ChnSentiCorp**：情感分析](https:\u002F\u002Fgithub.com\u002Fpengming617\u002Fbert_classification)\n- [**LCQMC (Liu et al., 2018)**：句对匹配](http:\u002F\u002Ficrc.hitsz.edu.cn\u002Finfo\u002F1037\u002F1146.htm)\n- [**BQ Corpus (Chen et al., 2018)**：句对匹配](http:\u002F\u002Ficrc.hitsz.edu.cn\u002FArticle\u002Fshow\u002F175.html)\n\n对于ELECTRA-small\u002Fbase模型，我们使用原论文默认的`3e-4`和`1e-4`的学习率。\n**需要注意的是，我们没有针对任何任务进行参数精调，所以通过调整学习率等超参数可能获得进一步性能提升。**\n为了保证结果的可靠性，对于同一模型，我们使用不同随机种子训练10遍，汇报模型性能的最大值和平均值（括号内为平均值）。\n\n\n### 简体中文阅读理解：CMRC 2018\n[**CMRC 2018数据集**](https:\u002F\u002Fgithub.com\u002Fymcui\u002Fcmrc2018)是哈工大讯飞联合实验室发布的中文机器阅读理解数据。\n根据给定问题，系统需要从篇章中抽取出片段作为答案，形式与[SQuAD](http:\u002F\u002Farxiv.org\u002Fabs\u002F1606.05250)相同。\n评价指标为：EM \u002F F1\n\n| 模型 | 开发集 | 测试集 | 挑战集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: | :---------: |\n| BERT-base | 65.5 (64.4) \u002F 84.5 (84.0) | 70.0 (68.7) \u002F 87.0 (86.3) | 18.6 (17.0) \u002F 43.3 (41.3) | 102M |\n| BERT-wwm | 66.3 (65.0) \u002F 85.6 (84.7) | 70.5 (69.1) \u002F 87.4 (86.7) | 21.0 (19.3) \u002F 47.0 (43.9) | 102M |\n| BERT-wwm-ext | 67.1 (65.6) \u002F 85.7 (85.0) | 71.4 (70.0) \u002F 87.7 (87.0) | 24.0 (20.0) \u002F 47.3 (44.6) | 102M |\n| RoBERTa-wwm-ext | 67.4 (66.5) \u002F 87.2 (86.5) | 72.6 (71.4) \u002F 89.4 (88.8) | 26.2 (24.6) \u002F 51.0 (49.1) | 102M |\n| RBT3 | 57.0 \u002F 79.0 | 62.2 \u002F 81.8 | 14.7 \u002F 36.2 | 38M |\n| **ELECTRA-small** | 63.4 (62.9) \u002F 80.8 (80.2) | 67.8 (67.4) \u002F 83.4 (83.0) | 16.3 (15.4) \u002F 37.2 (35.8) | 12M |\n| **ELECTRA-180g-small** | 63.8 \u002F 82.7 | 68.5 \u002F 85.2 | 15.1 \u002F 35.8 | 12M |\n| **ELECTRA-small-ex** | 66.4 \u002F 82.2 | 71.3 \u002F 85.3 | 18.1 \u002F 38.3 | 25M |\n| **ELECTRA-180g-small-ex** | 68.1 \u002F 85.1 | 71.8 \u002F 87.2 | 20.6 \u002F 41.7 | 25M |\n| **ELECTRA-base** | 68.4 (68.0) \u002F 84.8 (84.6) | 73.1 (72.7) \u002F 87.1 (86.9) | 22.6 (21.7) \u002F 45.0 (43.8) | 102M |\n| **ELECTRA-180g-base** | 69.3 \u002F 87.0 | 73.1 \u002F 88.6 | 24.0 \u002F 48.6 | 102M |\n| **ELECTRA-large** | 69.1 \u002F 85.2 | 73.9 \u002F 87.1 | 23.0 \u002F 44.2 | 324M |\n| **ELECTRA-180g-large** | 68.5 \u002F 86.2 | 73.5 \u002F 88.5 | 21.8 \u002F 42.9 | 324M |\n\n\n### 繁体中文阅读理解：DRCD\n[**DRCD数据集**](https:\u002F\u002Fgithub.com\u002FDRCKnowledgeTeam\u002FDRCD)由中国台湾台达研究院发布，其形式与SQuAD相同，是基于繁体中文的抽取式阅读理解数据集。\n评价指标为：EM \u002F F1\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT-base | 83.1 (82.7) \u002F 89.9 (89.6) | 82.2 (81.6) \u002F 89.2 (88.8) | 102M |\n| BERT-wwm | 84.3 (83.4) \u002F 90.5 (90.2) | 82.8 (81.8) \u002F 89.7 (89.0) | 102M |\n| BERT-wwm-ext | 85.0 (84.5) \u002F 91.2 (90.9) | 83.6 (83.0) \u002F 90.4 (89.9) | 102M |\n| RoBERTa-wwm-ext | 86.6 (85.9) \u002F 92.5 (92.2) | 85.6 (85.2) \u002F 92.0 (91.7) | 102M |\n| RBT3 | 76.3 \u002F 84.9 | 75.0 \u002F 83.9 | 38M |\n| **ELECTRA-small** | 79.8 (79.4) \u002F 86.7 (86.4) | 79.0 (78.5) \u002F 85.8 (85.6) | 12M |\n| **ELECTRA-180g-small** | 83.5 \u002F 89.2 | 82.9 \u002F 88.7 | 12M |\n| **ELECTRA-small-ex** | 84.0 \u002F 89.5 | 83.3 \u002F 89.1 | 25M |\n| **ELECTRA-180g-small-ex** | 87.3 \u002F 92.3 | 86.5 \u002F 91.3 | 25M |\n| **ELECTRA-base** | 87.5 (87.0) \u002F 92.5 (92.3) | 86.9 (86.6) \u002F 91.8 (91.7) | 102M |\n| **ELECTRA-180g-base** | 89.6 \u002F 94.2 | 88.9 \u002F 93.7 | 102M |\n| **ELECTRA-large** | 88.8 \u002F 93.3 | 88.8 \u002F 93.6 | 324M |\n| **ELECTRA-180g-large** | 90.1 \u002F 94.8 | 90.5 \u002F 94.7 | 324M |\n\n### 自然语言推断：XNLI\n在自然语言推断任务中，我们采用了[**XNLI**数据](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert\u002Fblob\u002Fmaster\u002Fmultilingual.md)，需要将文本分成三个类别：`entailment`，`neutral`，`contradictory`。\n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT-base | 77.8 (77.4) | 77.8 (77.5) | 102M |\n| BERT-wwm | 79.0 (78.4) | 78.2 (78.0) | 102M |\n| BERT-wwm-ext | 79.4 (78.6) | 78.7 (78.3) | 102M |\n| RoBERTa-wwm-ext | 80.0 (79.2) | 78.8 (78.3) | 102M |\n| RBT3 | 72.2 | 72.3 | 38M |\n| **ELECTRA-small** | 73.3 (72.5) | 73.1 (72.6) | 12M |\n| **ELECTRA-180g-small** | 74.6 | 74.6 | 12M |\n| **ELECTRA-small-ex** | 75.4 | 75.8 | 25M |\n| **ELECTRA-180g-small-ex** | 76.5 | 76.6 | 25M |\n| **ELECTRA-base** | 77.9 (77.0) | 78.4 (77.8) | 102M |\n| **ELECTRA-180g-base** | 79.6 | 79.5 | 102M |\n| **ELECTRA-large** | 81.5 | 81.0 | 324M |\n| **ELECTRA-180g-large** | 81.2 | 80.4 | 324M |\n\n### 情感分析：ChnSentiCorp\n在情感分析任务中，二分类的情感分类数据集[**ChnSentiCorp**](https:\u002F\u002Fgithub.com\u002Fpengming617\u002Fbert_classification)。\n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT-base | 94.7 (94.3) | 95.0 (94.7) | 102M |\n| BERT-wwm | 95.1 (94.5) | 95.4 (95.0) | 102M |\n| BERT-wwm-ext | 95.4 (94.6) | 95.3 (94.7) | 102M |\n| RoBERTa-wwm-ext | 95.0 (94.6) | 95.6 (94.8) | 102M |\n| RBT3 | 92.8 | 92.8 | 38M |\n| **ELECTRA-small** | 92.8 (92.5) | 94.3 (93.5) | 12M |\n| **ELECTRA-180g-small** | 94.1 | 93.6 | 12M |\n| **ELECTRA-small-ex** | 92.6 | 93.6 | 25M |\n| **ELECTRA-180g-small-ex** | 92.8 | 93.4 | 25M |\n| **ELECTRA-base** | 93.8 (93.0) | 94.5 (93.5) | 102M |\n| **ELECTRA-180g-base** | 94.3 | 94.8 | 102M |\n| **ELECTRA-large** | 95.2 | 95.3 | 324M |\n| **ELECTRA-180g-large** | 94.8 | 95.2 | 324M |\n\n### 句对分类：LCQMC\n以下两个数据集均需要将一个句对进行分类，判断两个句子的语义是否相同（二分类任务）。\n\n[**LCQMC**](http:\u002F\u002Ficrc.hitsz.edu.cn\u002Finfo\u002F1037\u002F1146.htm)由哈工大深圳研究生院智能计算研究中心发布。 \n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT | 89.4 (88.4) | 86.9 (86.4) | 102M |\n| BERT-wwm | 89.4 (89.2) | 87.0 (86.8) | 102M |\n| BERT-wwm-ext | 89.6 (89.2) | 87.1 (86.6) | 102M |\n| RoBERTa-wwm-ext | 89.0 (88.7) | 86.4 (86.1) | 102M |\n| RBT3 | 85.3 | 85.1 | 38M |\n| **ELECTRA-small** | 86.7 (86.3) | 85.9 (85.6) | 12M |\n| **ELECTRA-180g-small** | 86.6 | 85.8 | 12M |\n| **ELECTRA-small-ex** | 87.5 | 86.0 | 25M |\n| **ELECTRA-180g-small-ex** | 87.6 | 86.3 | 25M |\n| **ELECTRA-base** | 90.2 (89.8) | 87.6 (87.3) | 102M |\n| **ELECTRA-180g-base** | 90.2 | 87.1 | 102M |\n| **ELECTRA-large** | 90.7 | 87.3 | 324M |\n| **ELECTRA-180g-large** | 90.3 | 87.3 | 324M |\n\n\n### 句对分类：BQ Corpus \n[**BQ Corpus**](http:\u002F\u002Ficrc.hitsz.edu.cn\u002FArticle\u002Fshow\u002F175.html)由哈工大深圳研究生院智能计算研究中心发布，是面向银行领域的数据集。\n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT | 86.0 (85.5) | 84.8 (84.6) | 102M |\n| BERT-wwm | 86.1 (85.6) | 85.2 (84.9) | 102M |\n| BERT-wwm-ext | 86.4 (85.5) | 85.3 (84.8) | 102M |\n| RoBERTa-wwm-ext | 86.0 (85.4) | 85.0 (84.6) | 102M |\n| RBT3 | 84.1 | 83.3 | 38M |\n| **ELECTRA-small** | 83.5 (83.0) | 82.0 (81.7) | 12M |\n| **ELECTRA-180g-small** | 83.3 | 82.1 | 12M |\n| **ELECTRA-small-ex** | 84.0 | 82.6 | 25M |\n| **ELECTRA-180g-small-ex** | 84.6 | 83.4 | 25M |\n| **ELECTRA-base** | 84.8 (84.7) | 84.5 (84.0) | 102M |\n| **ELECTRA-180g-base** | 85.8 | 84.5 | 102M |\n| **ELECTRA-large** | 86.7 | 85.1 | 324M |\n| **ELECTRA-180g-large** | 86.4 | 85.4 | 324M |\n\n\n### 司法任务效果\n我们使用CAIL 2018司法评测的[罪名预测数据](https:\u002F\u002Fgithub.com\u002Fliuhuanyong\u002FCrimeKgAssitant)对司法ELECTRA进行了测试。small\u002Fbase\u002Flarge学习率分别为：5e-4\u002F3e-4\u002F1e-4。\n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| ELECTRA-small | 78.84 | 76.35 | 12M |\n| **legal-ELECTRA-small** | **79.60** | **77.03** | 12M |\n| ELECTRA-base | 80.94 | 78.41 | 102M |\n| **legal-ELECTRA-base** | **81.71** | **79.17** | 102M |\n| ELECTRA-large | 81.53 | 78.97 | 324M |\n| **legal-ELECTRA-large** | **82.60** | **79.89** | 324M |\n\n\n## 使用方法\n用户可以基于已发布的上述中文ELECTRA预训练模型进行下游任务精调。\n在这里我们只介绍最基本的用法，更详细的用法请参考[ELECTRA官方介绍](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Felectra)。\n\n本例中，我们使用`ELECTRA-small`模型在CMRC 2018任务上进行精调，相关步骤如下。假设，  \n- `data-dir`：工作根目录，可按实际情况设置。\n- `model-name`：模型名称，本例中为`electra-small`。\n- `task-name`：任务名称，本例中为`cmrc2018`。本目录中的代码已适配了以上六个中文任务，`task-name`分别为`cmrc2018`，`drcd`，`xnli`，`chnsenticorp`，`lcqmc`，`bqcorpus`。\n\n### 第一步：下载预训练模型并解压\n在[模型下载](#模型下载)章节中，下载ELECTRA-small模型，并解压至`${data-dir}\u002Fmodels\u002F${model-name}`。\n该目录下应包含`electra_model.*`，`vocab.txt`，`checkpoint`，共计5个文件。\n\n### 第二步：准备任务数据\n下载[CMRC 2018训练集和开发集](https:\u002F\u002Fgithub.com\u002Fymcui\u002Fcmrc2018\u002Ftree\u002Fmaster\u002Fsquad-style-data)，并重命名为`train.json`和`dev.json`。\n将两个文件放到`${data-dir}\u002Ffinetuning_data\u002F${task-name}`。\n\n### 第三步：运行训练命令\n```shell\npython run_finetuning.py \\\n    --data-dir ${data-dir} \\\n    --model-name ${model-name} \\\n    --hparams params_cmrc2018.json\n```\n其中`data-dir`和`model-name`在上面已经介绍。`hparams`是一个JSON词典，在本例中的`params_cmrc2018.json`包含了精调相关超参数，例如：\n```json\n{\n    \"task_names\": [\"cmrc2018\"],\n    \"max_seq_length\": 512,\n    \"vocab_size\": 21128,\n    \"model_size\": \"small\",\n    \"do_train\": true,\n    \"do_eval\": true,\n    \"write_test_outputs\": true,\n    \"num_train_epochs\": 2,\n    \"learning_rate\": 3e-4,\n    \"train_batch_size\": 32,\n    \"eval_batch_size\": 32,\n}\n```\n在上述JSON文件中，我们只列举了最重要的一些参数，完整参数列表请查阅[configure_finetuning.py](.\u002Fconfigure_finetuning.py)。\n\n运行完毕后，  \n1. 对于阅读理解任务，生成的预测JSON数据`cmrc2018_dev_preds.json`保存在`${data-dir}\u002Fresults\u002F${task-name}_qa\u002F`。可以调用外部评测脚本来得到最终评测结果，例如：`python cmrc2018_drcd_evaluate.py dev.json cmrc2018_dev_preds.json`\n2. 对于分类任务，相关accuracy信息会直接打印在屏幕，例如：`xnli: accuracy: 72.5 - loss: 0.67`\n\n\n## FAQ\n**Q: 在下游任务精调的时候ELECTRA模型的学习率怎么设置？**  \nA: 我们建议使用原论文使用的学习率作为初始基线（small是3e-4，base是1e-4）然后适当增减学习率进行调试。\n需要注意的是，相比BERT、RoBERTa一类的模型来说ELECTRA的学习率要相对大一些。\n\n**Q: 有没有PyTorch版权重？**  \nA: 有，[模型下载](#模型下载)。\n\n**Q: 预训练用的数据能共享一下吗？**  \nA: 很遗憾，不可以。\n\n**Q: 未来计划？**  \nA: 敬请关注。\n\n## 引用\n如果本目录中的内容对你的研究工作有所帮助，欢迎在论文中引用下述论文。\n- 首选：https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9599397\n```\n@journal{cui-etal-2021-pretrain,\n  title={Pre-Training with Whole Word Masking for Chinese BERT},\n  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},\n  journal={IEEE Transactions on Audio, Speech and Language Processing},\n  year={2021},\n  url={https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9599397},\n  doi={10.1109\u002FTASLP.2021.3124365},\n }\n```\n\n- 或者：https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.findings-emnlp.58\n```\n@inproceedings{cui-etal-2020-revisiting,\n    title = \"Revisiting Pre-Trained Models for {C}hinese Natural Language Processing\",\n    author = \"Cui, Yiming  and\n      Che, Wanxiang  and\n      Liu, Ting  and\n      Qin, Bing  and\n      Wang, Shijin  and\n      Hu, Guoping\",\n    booktitle = \"Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings\",\n    month = nov,\n    year = \"2020\",\n    address = \"Online\",\n    publisher = \"Association for Computational Linguistics\",\n    url = \"https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.findings-emnlp.58\",\n    pages = \"657--668\",\n}\n```\n\n\n## 关注我们\n欢迎关注**哈工大讯飞联合实验室**官方微信公众号，了解最新的技术动态。\n\n![qrcode.png](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fymcui_Chinese-ELECTRA_readme_a467d80e8c8d.jpg)\n\n\n## 问题反馈\nBefore you submit an issue:\n\n- **You are advised to read [FAQ](https:\u002F\u002Fgithub.com\u002Fymcui\u002FMacBERT#FAQ) first before you submit an issue.**\n- Repetitive and irrelevant issues will be ignored and closed by [stable-bot](stale · GitHub Marketplace). Thank you for your understanding and support.\n- We cannot acommodate EVERY request, and thus please bare in mind that there is no guarantee that your request will be met.\n- Always be polite when you submit an issue.","[**中文说明**](.\u002FREADME.md) | [**English**](.\u002FREADME_EN.md)\n\n\u003Cp align=\"center\">\n    \u003Cbr>\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fymcui_Chinese-ELECTRA_readme_821618f6e8da.png\" width=\"500\"\u002F>\n    \u003Cbr>\n\u003C\u002Fp>\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fblob\u002Fmaster\u002FLICENSE\">\n        \u003Cimg alt=\"GitHub\" src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Flicense\u002Fymcui\u002FChinese-ELECTRA.svg?color=blue&style=flat-square\">\n    \u003C\u002Fa>\n\u003C\u002Fp>\n\n谷歌与斯坦福大学共同研发的最新预训练模型ELECTRA因其小巧的模型体积以及良好的模型性能受到了广泛关注。\n为了进一步促进中文预训练模型技术的研究与发展，哈工大讯飞联合实验室基于官方ELECTRA训练代码以及大规模的中文数据训练出中文ELECTRA预训练模型供大家下载使用。\n其中ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相媲美，而参数量仅为BERT-base的1\u002F10。\n\n本项目基于谷歌&斯坦福大学官方的ELECTRA：[https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Felectra](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Felectra)\n\n----\n\n[中文LERT](https:\u002F\u002Fgithub.com\u002Fymcui\u002FLERT) | [中英文PERT](https:\u002F\u002Fgithub.com\u002Fymcui\u002FPERT) | [中文MacBERT](https:\u002F\u002Fgithub.com\u002Fymcui\u002FMacBERT) | [中文ELECTRA](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA) | [中文XLNet](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-XLNet) | [中文BERT](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm) | [知识蒸馏工具TextBrewer](https:\u002F\u002Fgithub.com\u002Fairaria\u002FTextBrewer) | [模型裁剪工具TextPruner](https:\u002F\u002Fgithub.com\u002Fairaria\u002FTextPruner)\n\n查看更多哈工大讯飞联合实验室（HFL）发布的资源：https:\u002F\u002Fgithub.com\u002Fymcui\u002FHFL-Anthology\n\n## 新闻\n**2023\u002F3\u002F28 开源了中文LLaMA&Alpaca大模型，可快速在PC上部署体验，查看：https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-LLaMA-Alpaca**\n\n2022\u002F10\u002F29 我们提出了一种融合语言学信息的预训练模型LERT。查看：https:\u002F\u002Fgithub.com\u002Fymcui\u002FLERT\n\n2022\u002F3\u002F30 我们开源了一种新预训练模型PERT。查看：https:\u002F\u002Fgithub.com\u002Fymcui\u002FPERT\n\n2021\u002F12\u002F17 哈工大讯飞联合实验室推出模型裁剪工具包TextPruner。查看：https:\u002F\u002Fgithub.com\u002Fairaria\u002FTextPruner\n\n2021\u002F10\u002F24 哈工大讯飞联合实验室发布面向少数民族语言的预训练模型CINO。查看：https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-Minority-PLM\n\n2021\u002F7\u002F21 由哈工大SCIR多位学者撰写的[《自然语言处理：基于预训练模型的方法》](https:\u002F\u002Fitem.jd.com\u002F13344628.html)已出版，欢迎大家选购。\n\n2020\u002F12\u002F13 基于大规模法律文书数据，我们训练了面向司法领域的中文ELECTRA系列模型，查看[模型下载](#模型下载)，[司法任务效果](#司法任务效果)。\n\n\u003Cdetails>\n\u003Csummary>点击这里查看历史新闻\u003C\u002Fsummary>\n2020\u002F10\u002F22 ELECTRA-180g已发布，增加了CommonCrawl的高质量数据，查看[模型下载](#模型下载)。\n\n2020\u002F9\u002F15 我们的论文[\"Revisiting Pre-Trained Models for Chinese Natural Language Processing\"](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.13922)被[Findings of EMNLP](https:\u002F\u002F2020.emnlp.org)录用为长文。\n\n2020\u002F8\u002F27 哈工大讯飞联合实验室在通用自然语言理解评测GLUE中荣登榜首，查看[GLUE榜单](https:\u002F\u002Fgluebenchmark.com\u002Fleaderboard)，[新闻](http:\u002F\u002Fdwz.date\u002FckrD)。\n\n2020\u002F5\u002F29 Chinese ELECTRA-large\u002Fsmall-ex已发布，请查看[模型下载](#模型下载)，目前只提供Google Drive下载地址，敬请谅解。\n\n2020\u002F4\u002F7 PyTorch用户可通过[🤗Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)加载模型，查看[快速加载](#快速加载)。\n\n2020\u002F3\u002F31 本目录发布的模型已接入[飞桨PaddleHub](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleHub)，查看[快速加载](#快速加载)。\n\n2020\u002F3\u002F25 Chinese ELECTRA-small\u002Fbase已发布，请查看[模型下载](#模型下载)。\n\u003C\u002Fdetails>\n\n## 内容导引\n| 章节 | 描述 |\n|-|-|\n| [简介](#简介) | 介绍ELECTRA基本原理 |\n| [模型下载](#模型下载) | 中文ELECTRA预训练模型下载 |\n| [快速加载](#快速加载) | 介绍了如何使用[🤗Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)、[PaddleHub](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleHub)快速加载模型 |\n| [基线系统效果](#基线系统效果) | 中文基线系统效果：阅读理解、文本分类等 |\n| [使用方法](#使用方法) | 模型的详细使用方法 |\n| [FAQ](#FAQ) | 常见问题答疑 |\n| [引用](#引用) | 本目录的技术报告 |\n\n## 简介\n**ELECTRA**提出了一套新的预训练框架，其中包括两个部分：**Generator**（生成器）和**Discriminator**（判别器）。\n\n- **Generator**: 一个小的MLM（掩码语言模型），在[MASK]的位置预测原来的词。Generator将用来把输入文本做部分词的替换。\n- **Discriminator**: 判断输入句子中的每个词是否被替换，即使用Replaced Token Detection (RTD，替换词检测)预训练任务，取代了BERT原始的Masked Language Model (MLM，掩码语言模型)。需要注意的是这里并没有使用Next Sentence Prediction (NSP，下一句预测)任务。\n\n在预训练阶段结束之后，我们只使用Discriminator作为下游任务精调的基模型。\n\n更详细的内容请查阅ELECTRA论文：[ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)\n\n![](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fymcui_Chinese-ELECTRA_readme_13dd78b56b4c.png)\n\n\n## 模型下载\n* **`ELECTRA-large, Chinese`**: 24-layer, 1024-hidden, 16-heads, 324M parameters   \n* **`ELECTRA-base, Chinese`**: 12-layer, 768-hidden, 12-heads, 102M parameters   \n* **`ELECTRA-small-ex, Chinese`**: 24-layer, 256-hidden, 4-heads, 25M parameters\n* **`ELECTRA-small, Chinese`**: 12-layer, 256-hidden, 4-heads, 12M parameters\n\n#### 大语料版（新版，180G数据）\n\n| 模型简称 | 🤗HF下载 | 百度网盘下载 | 压缩包大小 |\n| :------- | :---------: | :---------: | :---------: |\n| **`ELECTRA-180g-large, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-180g-large-discriminator) | [TensorFlow（密码2v5r）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F13UJIG2G0lASjjCvPmh13RQ?pwd=2v5r) | 1G |\n| **`ELECTRA-180g-base, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-180g-base-discriminator) | [TensorFlow（密码3vg1）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F15PQdeh7nRxCgXp9YmjqgsQ?pwd=3vg1) | 383M |\n| **`ELECTRA-180g-small-ex, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-180g-small-ex-discriminator) | [TensorFlow（密码93n8）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1UV83d2LNp5HHwK7X14HjPQ?pwd=93n8) | 92M |\n| **`ELECTRA-180g-small, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-180g-small-discriminator) | [TensorFlow（密码k9iu）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1J5DXcehcNtX0iBXNRKLWBw?pwd=k9iu) | 46M |\n\n#### 基础版（原版，20G数据）\n\n| 模型简称 | 🤗HF下载 | 百度网盘下载 | 压缩包大小 |\n| :------- | :---------: | :---------: | :---------: |\n| **`ELECTRA-large, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-large-discriminator) | [TensorFlow（密码1e14）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1M5pSqDRbb3Vsv5r3TfviBQ?pwd=1e14) | 1G |\n| **`ELECTRA-base, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-base-discriminator) | [TensorFlow（密码f32j）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1HOzCBNaoIEULj_s-q3dDzA?pwd=f32j) | 383M |\n| **`ELECTRA-small-ex, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-small-ex-discriminator) | [TensorFlow（密码gfb1）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1dOLw4feMJcsgZL07V-koWA?pwd=gfb1) | 92M |\n| **`ELECTRA-small, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-small-discriminator) | [TensorFlow（密码1r4r）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1UIosBYOHVA3bDuJrFqU0NQ?pwd=1r4r) | 46M |\n\n#### 司法领域版\n\n| 模型简称 | 🤗HF下载 | 百度网盘下载 | 压缩包大小 |\n| :------- | :---------: | :---------: | :---------: |\n| **`legal-ELECTRA-large, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-legal-electra-large-discriminator) | [TensorFlow（密码q4gv）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F180cloQ0A3m3VqpLPeKpPYg?pwd=q4gv) | 1G |\n| **`legal-ELECTRA-base, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-legal-electra-base-discriminator) | [TensorFlow（密码8gcv）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1OWwSsr-jCWq3vb7Js4B2vg?pwd=8gcv) | 383M |\n| **`legal-ELECTRA-small, Chinese`** | [HF link](https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-legal-electra-small-discriminator) | [TensorFlow（密码kmrj）](https:\u002F\u002Fpan.baidu.com\u002Fs\u002F1FIblX4EU23KSQWft3DWL0g?pwd=kmrj) | 46M |\n\n### 使用须知\n\n中国大陆境内建议使用百度网盘下载点，境外用户建议使用谷歌下载点。 \n以TensorFlow版`ELECTRA-small, Chinese`为例，下载完毕后对zip文件进行解压得到如下文件。\n\n```\nchinese_electra_small_L-12_H-256_A-4.zip\n    |- electra_small.data-00000-of-00001    # 模型权重\n    |- electra_small.meta                   # 模型meta信息\n    |- electra_small.index                  # 模型index信息\n    |- vocab.txt                            # 词表\n    |- discriminator.json                   # 配置文件：discriminator（若没有可从本repo中的config目录获取）\n    |- generator.json                       # 配置文件：generator（若没有可从本repo中的config目录获取）\n```\n\n### 训练细节\n\n我们采用了大规模中文维基以及通用文本训练了ELECTRA模型，总token数达到5.4B，与[RoBERTa-wwm-ext系列模型](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm)一致。词表方面沿用了谷歌原版BERT的WordPiece词表，包含21,128个token。其他细节和超参数如下（未提及的参数保持默认）：\n- `ELECTRA-large`: 24层，隐层1024，16个注意力头，学习率1e-4，batch96，最大长度512，训练2M步\n- `ELECTRA-base`: 12层，隐层768，12个注意力头，学习率2e-4，batch256，最大长度512，训练1M步\n- `ELECTRA-small-ex`: 24层，隐层256，4个注意力头，学习率5e-4，batch384，最大长度512，训练2M步\n- `ELECTRA-small`: 12层，隐层256，4个注意力头，学习率5e-4，batch1024，最大长度512，训练1M步\n\n\n## 快速加载\n### 使用Huggingface-Transformers\n\n[Huggingface-Transformers 2.8.0](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers\u002Freleases\u002Ftag\u002Fv2.8.0)版本已正式支持ELECTRA模型，可通过如下命令调用。\n```python\ntokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)\nmodel = AutoModel.from_pretrained(MODEL_NAME) \n```\n\n其中`MODEL_NAME`对应列表如下：\n\n| 模型名 | 组件 | MODEL_NAME |\n| - | - | - |\n| ELECTRA-180g-large, Chinese | discriminator | hfl\u002Fchinese-electra-180g-large-discriminator |\n| ELECTRA-180g-large, Chinese | generator | hfl\u002Fchinese-electra-180g-large-generator |\n| ELECTRA-180g-base, Chinese | discriminator | hfl\u002Fchinese-electra-180g-base-discriminator |\n| ELECTRA-180g-base, Chinese | generator | hfl\u002Fchinese-electra-180g-base-generator |\n| ELECTRA-180g-small-ex, Chinese | discriminator | hfl\u002Fchinese-electra-180g-small-ex-discriminator |\n| ELECTRA-180g-small-ex, Chinese | generator | hfl\u002Fchinese-electra-180g-small-ex-generator |\n| ELECTRA-180g-small, Chinese | discriminator | hfl\u002Fchinese-electra-180g-small-discriminator |\n| ELECTRA-180g-small, Chinese | generator | hfl\u002Fchinese-electra-180g-small-generator |\n| ELECTRA-large, Chinese | discriminator | hfl\u002Fchinese-electra-large-discriminator |\n| ELECTRA-large, Chinese | generator | hfl\u002Fchinese-electra-large-generator |\n| ELECTRA-base, Chinese | discriminator | hfl\u002Fchinese-electra-base-discriminator |\n| ELECTRA-base, Chinese | generator | hfl\u002Fchinese-electra-base-generator |\n| ELECTRA-small-ex, Chinese | discriminator | hfl\u002Fchinese-electra-small-ex-discriminator |\n| ELECTRA-small-ex, Chinese | generator | hfl\u002Fchinese-electra-small-ex-generator |\n| ELECTRA-small, Chinese | discriminator | hfl\u002Fchinese-electra-small-discriminator |\n| ELECTRA-small, Chinese | generator | hfl\u002Fchinese-electra-small-generator |\n\n司法领域版本：\n\n| 模型名 | 组件 | MODEL_NAME |\n| - | - | - |\n| legal-ELECTRA-large, Chinese | discriminator | hfl\u002Fchinese-legal-electra-large-discriminator |\n| legal-ELECTRA-large, Chinese | generator | hfl\u002Fchinese-legal-electra-large-generator |\n| legal-ELECTRA-base, Chinese | discriminator | hfl\u002Fchinese-legal-electra-base-discriminator |\n| legal-ELECTRA-base, Chinese | generator | hfl\u002Fchinese-legal-electra-base-generator |\n| legal-ELECTRA-small, Chinese | discriminator | hfl\u002Fchinese-legal-electra-small-discriminator |\n| legal-ELECTRA-small, Chinese | generator | hfl\u002Fchinese-legal-electra-small-generator |\n\n\n### 使用PaddleHub\n依托[PaddleHub](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleHub)，我们只需一行代码即可完成模型下载安装，十余行代码即可完成文本分类、序列标注、阅读理解等任务。\n\n```\nimport paddlehub as hub\nmodule = hub.Module(name=MODULE_NAME)\n```\n\n其中`MODULE_NAME`对应列表如下：\n\n| 模型名 | MODULE_NAME |\n| - | - |\n| ELECTRA-base, Chinese | [chinese-electra-base](https:\u002F\u002Fpaddlepaddle.org.cn\u002Fhubdetail?name=chinese-electra-base&en_category=SemanticModel) |\n| ELECTRA-small, Chinese  | [chinese-electra-small](https:\u002F\u002Fpaddlepaddle.org.cn\u002Fhubdetail?name=chinese-electra-small&en_category=SemanticModel) |\n\n\n## 基线系统效果\n我们将`ELECTRA-small\u002Fbase`与[`BERT-base`](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert)、[`BERT-wwm`、`BERT-wwm-ext`、`RoBERTa-wwm-ext`、`RBT3`](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm)进行了效果对比，包括以下六个任务：  \n- [**CMRC 2018 (Cui et al., 2019)**：篇章片段抽取型阅读理解（简体中文）](https:\u002F\u002Fgithub.com\u002Fymcui\u002Fcmrc2018)\n- [**DRCD (Shao et al., 2018)**：篇章片段抽取型阅读理解（繁体中文）](https:\u002F\u002Fgithub.com\u002FDRCSolutionService\u002FDRCD)\n- [**XNLI (Conneau et al., 2018)**：自然语言推断](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert\u002Fblob\u002Fmaster\u002Fmultilingual.md)\n- [**ChnSentiCorp**：情感分析](https:\u002F\u002Fgithub.com\u002Fpengming617\u002Fbert_classification)\n- [**LCQMC (Liu et al., 2018)**：句对匹配](http:\u002F\u002Ficrc.hitsz.edu.cn\u002Finfo\u002F1037\u002F1146.htm)\n- [**BQ Corpus (Chen et al., 2018)**：句对匹配](http:\u002F\u002Ficrc.hitsz.edu.cn\u002FArticle\u002Fshow\u002F175.html)\n\n对于ELECTRA-small\u002Fbase模型，我们使用原论文默认的`3e-4`和`1e-4`的学习率。\n**需要注意的是，我们没有针对任何任务进行参数精调，所以通过调整学习率等超参数可能获得进一步性能提升。**\n为了保证结果的可靠性，对于同一模型，我们使用不同随机种子训练10遍，汇报模型性能的最大值和平均值（括号内为平均值）。\n\n### 简体中文阅读理解：CMRC 2018\n[**CMRC 2018数据集**](https:\u002F\u002Fgithub.com\u002Fymcui\u002Fcmrc2018)是哈工大讯飞联合实验室发布的中文机器阅读理解数据。\n根据给定问题，系统需要从篇章中抽取出片段作为答案，形式与[SQuAD](http:\u002F\u002Farxiv.org\u002Fabs\u002F1606.05250)相同。\n评价指标为：EM \u002F F1\n\n| 模型 | 开发集 | 测试集 | 挑战集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: | :---------: |\n| BERT-base | 65.5 (64.4) \u002F 84.5 (84.0) | 70.0 (68.7) \u002F 87.0 (86.3) | 18.6 (17.0) \u002F 43.3 (41.3) | 102M |\n| BERT-wwm | 66.3 (65.0) \u002F 85.6 (84.7) | 70.5 (69.1) \u002F 87.4 (86.7) | 21.0 (19.3) \u002F 47.0 (43.9) | 102M |\n| BERT-wwm-ext | 67.1 (65.6) \u002F 85.7 (85.0) | 71.4 (70.0) \u002F 87.7 (87.0) | 24.0 (20.0) \u002F 47.3 (44.6) | 102M |\n| RoBERTa-wwm-ext | 67.4 (66.5) \u002F 87.2 (86.5) | 72.6 (71.4) \u002F 89.4 (88.8) | 26.2 (24.6) \u002F 51.0 (49.1) | 102M |\n| RBT3 | 57.0 \u002F 79.0 | 62.2 \u002F 81.8 | 14.7 \u002F 36.2 | 38M |\n| **ELECTRA-small** | 63.4 (62.9) \u002F 80.8 (80.2) | 67.8 (67.4) \u002F 83.4 (83.0) | 16.3 (15.4) \u002F 37.2 (35.8) | 12M |\n| **ELECTRA-180g-small** | 63.8 \u002F 82.7 | 68.5 \u002F 85.2 | 15.1 \u002F 35.8 | 12M |\n| **ELECTRA-small-ex** | 66.4 \u002F 82.2 | 71.3 \u002F 85.3 | 18.1 \u002F 38.3 | 25M |\n| **ELECTRA-180g-small-ex** | 68.1 \u002F 85.1 | 71.8 \u002F 87.2 | 20.6 \u002F 41.7 | 25M |\n| **ELECTRA-base** | 68.4 (68.0) \u002F 84.8 (84.6) | 73.1 (72.7) \u002F 87.1 (86.9) | 22.6 (21.7) \u002F 45.0 (43.8) | 102M |\n| **ELECTRA-180g-base** | 69.3 \u002F 87.0 | 73.1 \u002F 88.6 | 24.0 \u002F 48.6 | 102M |\n| **ELECTRA-large** | 69.1 \u002F 85.2 | 73.9 \u002F 87.1 | 23.0 \u002F 44.2 | 324M |\n| **ELECTRA-180g-large** | 68.5 \u002F 86.2 | 73.5 \u002F 88.5 | 21.8 \u002F 42.9 | 324M |\n\n\n### 繁体中文阅读理解：DRCD\n[**DRCD数据集**](https:\u002F\u002Fgithub.com\u002FDRCKnowledgeTeam\u002FDRCD)由中国台湾台达研究院发布，其形式与SQuAD相同，是基于繁体中文的抽取式阅读理解数据集。\n评价指标为：EM \u002F F1\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT-base | 83.1 (82.7) \u002F 89.9 (89.6) | 82.2 (81.6) \u002F 89.2 (88.8) | 102M |\n| BERT-wwm | 84.3 (83.4) \u002F 90.5 (90.2) | 82.8 (81.8) \u002F 89.7 (89.0) | 102M |\n| BERT-wwm-ext | 85.0 (84.5) \u002F 91.2 (90.9) | 83.6 (83.0) \u002F 90.4 (89.9) | 102M |\n| RoBERTa-wwm-ext | 86.6 (85.9) \u002F 92.5 (92.2) | 85.6 (85.2) \u002F 92.0 (91.7) | 102M |\n| RBT3 | 76.3 \u002F 84.9 | 75.0 \u002F 83.9 | 38M |\n| **ELECTRA-small** | 79.8 (79.4) \u002F 86.7 (86.4) | 79.0 (78.5) \u002F 85.8 (85.6) | 12M |\n| **ELECTRA-180g-small** | 83.5 \u002F 89.2 | 82.9 \u002F 88.7 | 12M |\n| **ELECTRA-small-ex** | 84.0 \u002F 89.5 | 83.3 \u002F 89.1 | 25M |\n| **ELECTRA-180g-small-ex** | 87.3 \u002F 92.3 | 86.5 \u002F 91.3 | 25M |\n| **ELECTRA-base** | 87.5 (87.0) \u002F 92.5 (92.3) | 86.9 (86.6) \u002F 91.8 (91.7) | 102M |\n| **ELECTRA-180g-base** | 89.6 \u002F 94.2 | 88.9 \u002F 93.7 | 102M |\n| **ELECTRA-large** | 88.8 \u002F 93.3 | 88.8 \u002F 93.6 | 324M |\n| **ELECTRA-180g-large** | 90.1 \u002F 94.8 | 90.5 \u002F 94.7 | 324M |\n\n### 自然语言推断：XNLI\n在自然语言推断任务中，我们采用了[**XNLI**数据](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert\u002Fblob\u002Fmaster\u002Fmultilingual.md)，需要将文本分成三个类别：`entailment`，`neutral`，`contradictory`。\n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT-base | 77.8 (77.4) | 77.8 (77.5) | 102M |\n| BERT-wwm | 79.0 (78.4) | 78.2 (78.0) | 102M |\n| BERT-wwm-ext | 79.4 (78.6) | 78.7 (78.3) | 102M |\n| RoBERTa-wwm-ext | 80.0 (79.2) | 78.8 (78.3) | 102M |\n| RBT3 | 72.2 | 72.3 | 38M |\n| **ELECTRA-small** | 73.3 (72.5) | 73.1 (72.6) | 12M |\n| **ELECTRA-180g-small** | 74.6 | 74.6 | 12M |\n| **ELECTRA-small-ex** | 75.4 | 75.8 | 25M |\n| **ELECTRA-180g-small-ex** | 76.5 | 76.6 | 25M |\n| **ELECTRA-base** | 77.9 (77.0) | 78.4 (77.8) | 102M |\n| **ELECTRA-180g-base** | 79.6 | 79.5 | 102M |\n| **ELECTRA-large** | 81.5 | 81.0 | 324M |\n| **ELECTRA-180g-large** | 81.2 | 80.4 | 324M |\n\n### 情感分析：ChnSentiCorp\n在情感分析任务中，二分类的情感分类数据集[**ChnSentiCorp**](https:\u002F\u002Fgithub.com\u002Fpengming617\u002Fbert_classification)。\n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT-base | 94.7 (94.3) | 95.0 (94.7) | 102M |\n| BERT-wwm | 95.1 (94.5) | 95.4 (95.0) | 102M |\n| BERT-wwm-ext | 95.4 (94.6) | 95.3 (94.7) | 102M |\n| RoBERTa-wwm-ext | 95.0 (94.6) | 95.6 (94.8) | 102M |\n| RBT3 | 92.8 | 92.8 | 38M |\n| **ELECTRA-small** | 92.8 (92.5) | 94.3 (93.5) | 12M |\n| **ELECTRA-180g-small** | 94.1 | 93.6 | 12M |\n| **ELECTRA-small-ex** | 92.6 | 93.6 | 25M |\n| **ELECTRA-180g-small-ex** | 92.8 | 93.4 | 25M |\n| **ELECTRA-base** | 93.8 (93.0) | 94.5 (93.5) | 102M |\n| **ELECTRA-180g-base** | 94.3 | 94.8 | 102M |\n| **ELECTRA-large** | 95.2 | 95.3 | 324M |\n| **ELECTRA-180g-large** | 94.8 | 95.2 | 324M |\n\n### 句对分类：LCQMC\n以下两个数据集均需要将一个句对进行分类，判断两个句子的语义是否相同（二分类任务）。\n\n[**LCQMC**](http:\u002F\u002Ficrc.hitsz.edu.cn\u002Finfo\u002F1037\u002F1146.htm)由哈工大深圳研究生院智能计算研究中心发布。 \n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT | 89.4 (88.4) | 86.9 (86.4) | 102M |\n| BERT-wwm | 89.4 (89.2) | 87.0 (86.8) | 102M |\n| BERT-wwm-ext | 89.6 (89.2) | 87.1 (86.6) | 102M |\n| RoBERTa-wwm-ext | 89.0 (88.7) | 86.4 (86.1) | 102M |\n| RBT3 | 85.3 | 85.1 | 38M |\n| **ELECTRA-small** | 86.7 (86.3) | 85.9 (85.6) | 12M |\n| **ELECTRA-180g-small** | 86.6 | 85.8 | 12M |\n| **ELECTRA-small-ex** | 87.5 | 86.0 | 25M |\n| **ELECTRA-180g-small-ex** | 87.6 | 86.3 | 25M |\n| **ELECTRA-base** | 90.2 (89.8) | 87.6 (87.3) | 102M |\n| **ELECTRA-180g-base** | 90.2 | 87.1 | 102M |\n| **ELECTRA-large** | 90.7 | 87.3 | 324M |\n| **ELECTRA-180g-large** | 90.3 | 87.3 | 324M |\n\n\n### 句对分类：BQ Corpus \n[**BQ Corpus**](http:\u002F\u002Ficrc.hitsz.edu.cn\u002FArticle\u002Fshow\u002F175.html)由哈工大深圳研究生院智能计算研究中心发布，是面向银行领域的数据集。\n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| BERT | 86.0 (85.5) | 84.8 (84.6) | 102M |\n| BERT-wwm | 86.1 (85.6) | 85.2 (84.9) | 102M |\n| BERT-wwm-ext | 86.4 (85.5) | 85.3 (84.8) | 102M |\n| RoBERTa-wwm-ext | 86.0 (85.4) | 85.0 (84.6) | 102M |\n| RBT3 | 84.1 | 83.3 | 38M |\n| **ELECTRA-small** | 83.5 (83.0) | 82.0 (81.7) | 12M |\n| **ELECTRA-180g-small** | 83.3 | 82.1 | 12M |\n| **ELECTRA-small-ex** | 84.0 | 82.6 | 25M |\n| **ELECTRA-180g-small-ex** | 84.6 | 83.4 | 25M |\n| **ELECTRA-base** | 84.8 (84.7) | 84.5 (84.0) | 102M |\n| **ELECTRA-180g-base** | 85.8 | 84.5 | 102M |\n| **ELECTRA-large** | 86.7 | 85.1 | 324M |\n| **ELECTRA-180g-large** | 86.4 | 85.4 | 324M |\n\n\n### 司法任务效果\n我们使用CAIL 2018司法评测的[罪名预测数据](https:\u002F\u002Fgithub.com\u002Fliuhuanyong\u002FCrimeKgAssitant)对司法ELECTRA进行了测试。small\u002Fbase\u002Flarge学习率分别为：5e-4\u002F3e-4\u002F1e-4。\n评价指标为：Accuracy\n\n| 模型 | 开发集 | 测试集 | 参数量 |\n| :------- | :---------: | :---------: | :---------: |\n| ELECTRA-small | 78.84 | 76.35 | 12M |\n| **legal-ELECTRA-small** | **79.60** | **77.03** | 12M |\n| ELECTRA-base | 80.94 | 78.41 | 102M |\n| **legal-ELECTRA-base** | **81.71** | **79.17** | 102M |\n| ELECTRA-large | 81.53 | 78.97 | 324M |\n| **legal-ELECTRA-large** | **82.60** | **79.89** | 324M |\n\n\n## 使用方法\n用户可以基于已发布的上述中文ELECTRA预训练模型进行下游任务精调。\n在这里我们只介绍最基本的用法，更详细的用法请参考[ELECTRA官方介绍](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Felectra)。\n\n本例中，我们使用`ELECTRA-small`模型在CMRC 2018任务上进行精调，相关步骤如下。假设，  \n- `data-dir`：工作根目录，可按实际情况设置。\n- `model-name`：模型名称，本例中为`electra-small`。\n- `task-name`：任务名称，本例中为`cmrc2018`。本目录中的代码已适配了以上六个中文任务，`task-name`分别为`cmrc2018`，`drcd`，`xnli`，`chnsenticorp`，`lcqmc`，`bqcorpus`。\n\n### 第一步：下载预训练模型并解压\n在[模型下载](#模型下载)章节中，下载ELECTRA-small模型，并解压至`${data-dir}\u002Fmodels\u002F${model-name}`。\n该目录下应包含`electra_model.*`，`vocab.txt`，`checkpoint`，共计5个文件。\n\n### 第二步：准备任务数据\n下载[CMRC 2018训练集和开发集](https:\u002F\u002Fgithub.com\u002Fymcui\u002Fcmrc2018\u002Ftree\u002Fmaster\u002Fsquad-style-data)，并重命名为`train.json`和`dev.json`。\n将两个文件放到`${data-dir}\u002Ffinetuning_data\u002F${task-name}`。\n\n### 第三步：运行训练命令\n```shell\npython run_finetuning.py \\\n    --data-dir ${data-dir} \\\n    --model-name ${model-name} \\\n    --hparams params_cmrc2018.json\n```\n其中`data-dir`和`model-name`在上面已经介绍。`hparams`是一个JSON词典，在本例中的`params_cmrc2018.json`包含了精调相关超参数，例如：\n```json\n{\n    \"task_names\": [\"cmrc2018\"],\n    \"max_seq_length\": 512,\n    \"vocab_size\": 21128,\n    \"model_size\": \"small\",\n    \"do_train\": true,\n    \"do_eval\": true,\n    \"write_test_outputs\": true,\n    \"num_train_epochs\": 2,\n    \"learning_rate\": 3e-4,\n    \"train_batch_size\": 32,\n    \"eval_batch_size\": 32,\n}\n```\n在上述JSON文件中，我们只列举了最重要的一些参数，完整参数列表请查阅[configure_finetuning.py](.\u002Fconfigure_finetuning.py)。\n\n运行完毕后，  \n1. 对于阅读理解任务，生成的预测JSON数据`cmrc2018_dev_preds.json`保存在`${data-dir}\u002Fresults\u002F${task-name}_qa\u002F`。可以调用外部评测脚本来得到最终评测结果，例如：`python cmrc2018_drcd_evaluate.py dev.json cmrc2018_dev_preds.json`\n2. 对于分类任务，相关accuracy信息会直接打印在屏幕，例如：`xnli: accuracy: 72.5 - loss: 0.67`\n\n\n## FAQ\n**Q: 在下游任务精调的时候ELECTRA模型的学习率怎么设置？**  \nA: 我们建议使用原论文使用的学习率作为初始基线（small是3e-4，base是1e-4）然后适当增减学习率进行调试。\n需要注意的是，相比BERT、RoBERTa一类的模型来说ELECTRA的学习率要相对大一些。\n\n**Q: 有没有PyTorch版权重？**  \nA: 有，[模型下载](#模型下载)。\n\n**Q: 预训练用的数据能共享一下吗？**  \nA: 很遗憾，不可以。\n\n**Q: 未来计划？**  \nA: 敬请关注。\n\n## 引用\n如果本目录中的内容对你的研究工作有所帮助，欢迎在论文中引用下述论文。\n- 首选：https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9599397\n```\n@journal{cui-etal-2021-pretrain,\n  title={Pre-Training with Whole Word Masking for Chinese BERT},\n  author={Cui, Yiming and Che, Wanxiang and Liu, Ting and Qin, Bing and Yang, Ziqing},\n  journal={IEEE Transactions on Audio, Speech and Language Processing},\n  year={2021},\n  url={https:\u002F\u002Fieeexplore.ieee.org\u002Fdocument\u002F9599397},\n  doi={10.1109\u002FTASLP.2021.3124365},\n }\n```\n\n- 或者：https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.findings-emnlp.58\n```\n@inproceedings{cui-etal-2020-revisiting,\n    title = \"Revisiting Pre-Trained Models for {C}hinese Natural Language Processing\",\n    author = \"Cui, Yiming  and\n      Che, Wanxiang  and\n      Liu, Ting  and\n      Qin, Bing  and\n      Wang, Shijin  and\n      Hu, Guoping\",\n    booktitle = \"Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings\",\n    month = nov,\n    year = \"2020\",\n    address = \"Online\",\n    publisher = \"Association for Computational Linguistics\",\n    url = \"https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.findings-emnlp.58\",\n    pages = \"657--668\",\n}\n```\n\n## 关注我们\n欢迎关注**哈工大讯飞联合实验室**官方微信公众号，了解最新的技术动态。\n\n![qrcode.png](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fymcui_Chinese-ELECTRA_readme_a467d80e8c8d.jpg)\n\n\n## 问题反馈\n在提交 issue 前，请注意：\n\n- **建议您在提交 issue 前先阅读 [FAQ](https:\u002F\u002Fgithub.com\u002Fymcui\u002FMacBERT#FAQ)。**\n- 重复或无关的 issue 将被 [stable-bot](stale · GitHub Marketplace) 忽略并关闭。感谢您的理解与支持。\n- 我们无法满足每一个请求，因此请理解，您的请求不一定能得到满足。\n- 提交 issue 时请始终保持礼貌。","# Chinese-ELECTRA 快速上手指南\n\n## 环境准备\n\n### 系统要求\n- Python 3.6 或更高版本\n- 支持 CUDA 的 GPU（可选，用于加速训练和推理）\n\n### 前置依赖\n安装必要的 Python 库：\n```bash\npip install torch transformers\n```\n如需使用 TensorFlow 版本，请安装：\n```bash\npip install tensorflow\n```\n\n## 安装步骤\n\n### 方法一：使用 Hugging Face Transformers（推荐）\n这是加载预训练模型最简便的方式。\n\n1.  安装 transformers 库（如果尚未安装）：\n    ```bash\n    pip install transformers\n    ```\n\n2.  在您的 Python 代码中，使用以下方式加载模型和分词器：\n    ```python\n    from transformers import AutoTokenizer, AutoModel\n    MODEL_NAME = \"hfl\u002Fchinese-electra-base-discriminator\" # 示例：基础版判别器\n    tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)\n    model = AutoModel.from_pretrained(MODEL_NAME)\n    ```\n\n**可选的模型名称 (`MODEL_NAME`)：**\n您可以根据需要替换为以下任一模型：\n- `hfl\u002Fchinese-electra-180g-large-discriminator` (大语料版-Large)\n- `hfl\u002Fchinese-electra-180g-base-discriminator` (大语料版-Base)\n- `hfl\u002Fchinese-electra-base-discriminator` (基础版-Base)\n- `hfl\u002Fchinese-electra-small-discriminator` (基础版-Small)\n- `hfl\u002Fchinese-legal-electra-base-discriminator` (司法领域版-Base)\n*(更多模型名称请参考 README 中的完整列表)*\n\n### 方法二：使用 PaddleHub\n如果您偏好 PaddlePaddle 生态，可以使用 PaddleHub 安装。\n\n1.  安装 PaddleHub：\n    ```bash\n    pip install paddlehub\n    ```\n\n2.  在代码中加载模块：\n    ```python\n    import paddlehub as hub\n    module = hub.Module(name=\"chinese-electra-base\")\n    ```\n\n### 方法三：手动下载模型文件\n对于需要离线使用或自定义训练的开发者，可以从百度网盘（国内推荐）或 Hugging Face Hub 手动下载模型权重文件。\n\n1.  **从百度网盘下载**：\n    - 访问 README 中提供的百度网盘链接（例如基础版 Base 模型链接）。\n    - 下载对应的 `zip` 压缩包（例如 `chinese_electra_base_L-12_H-768_A-12.zip`）。\n    - 解压后得到 TensorFlow 格式的检查点文件。\n\n2.  **从 Hugging Face Hub 下载**：\n    - 使用 `git clone` 或直接在网站下载模型文件。\n    - 例如：`git clone https:\u002F\u002Fhuggingface.co\u002Fhfl\u002Fchinese-electra-base-discriminator`\n\n## 基本使用\n\n以下是一个使用 Hugging Face `transformers` 库进行文本特征提取的简单示例：\n\n```python\nfrom transformers import AutoTokenizer, AutoModel\nimport torch\n\n# 1. 加载模型和分词器\nmodel_name = \"hfl\u002Fchinese-electra-base-discriminator\"\ntokenizer = AutoTokenizer.from_pretrained(model_name)\nmodel = AutoModel.from_pretrained(model_name)\n\n# 2. 准备输入文本\ntext = \"ELECTRA是一个高效的预训练语言模型。\"\ninputs = tokenizer(text, return_tensors=\"pt\") # 返回PyTorch张量\n\n# 3. 获取模型输出\nwith torch.no_grad():\n    outputs = model(**inputs)\n\n# 4. 提取句子表征（使用[CLS]位置的向量）\nlast_hidden_state = outputs.last_hidden_state\npooled_output = last_hidden_state[:, 0, :] # 取第一个token ([CLS]) 的向量\nprint(pooled_output.shape) # 例如：torch.Size([1, 768])\n```\n\n您可以将得到的向量用于下游任务，如文本分类、句子相似度计算等。","一家金融科技公司的算法团队正在开发一个智能客服系统，需要快速构建一个能够准确理解用户关于理财产品咨询意图的文本分类模型，并部署在资源受限的边缘服务器上。\n\n### 没有 Chinese-ELECTRA 时\n- **模型选择困难**：团队最初尝试使用参数量大的 BERT-base 模型，虽然效果尚可，但模型体积庞大，推理速度慢，难以满足边缘服务器对响应延迟的严格要求。\n- **计算资源消耗大**：在有限的 GPU 内存下，微调和部署 BERT-base 模型非常吃力，经常需要牺牲批处理大小或进行复杂的模型压缩，增加了开发和运维成本。\n- **定制化成本高**：为了提升速度，团队考虑过训练更小的自定义模型，但这需要从零开始准备海量中文语料进行预训练，时间和算力投入巨大，项目周期被严重拉长。\n- **效果与效率难以兼得**：在尝试其他轻量级模型时，往往发现模型性能（如分类准确率）相比 BERT-base 有显著下降，导致需要在模型效果和系统效率之间做出痛苦权衡。\n\n### 使用 Chinese-ELECTRA 后\n- **获得高性能轻量级模型**：团队选择了 Chinese-ELECTRA-small 模型，其参数量仅为 BERT-base 的约1\u002F10，但官方基准测试显示其性能可与之媲美，完美匹配了资源受限场景的需求。\n- **大幅降低部署与推理成本**：小体积的 ELECTRA-small 模型轻松部署在边缘服务器的有限资源中，推理速度显著提升，满足了实时交互的低延迟要求，同时减少了硬件成本。\n- **开箱即用，加速开发**：直接下载预训练好的 Chinese-ELECTRA 模型，在自家的理财产品问答数据上进行快速微调即可，省去了从零预训练的漫长过程和巨大开销，项目得以快速推进。\n- **实现效果与效率的平衡**：在实际的意图分类任务中，使用 ELECTRA-small 微调后的模型准确率与之前使用 BERT-base 的结果相近，同时推理速度提升了数倍，成功在保持高精度的前提下满足了性能指标。\n\nChinese-ELECTRA 通过提供效果优异且体积小巧的预训练模型，使开发团队能够在资源受限的生产环境中，高效地获得先进的自然语言理解能力。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fymcui_Chinese-ELECTRA_3f728925.png","ymcui","Yiming Cui","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fymcui_27303d50.jpg","NLP Researcher. Mainly interested in Pre-trained Language Model, Machine Reading Comprehension, Question Answering, etc.",null,"Beijing, China","conandiy@vip.qq.com","KCrosner","http:\u002F\u002Fymcui.github.io","https:\u002F\u002Fgithub.com\u002Fymcui",[87],{"name":88,"color":89,"percentage":90},"Python","#3572A5",100,1440,166,"2026-03-18T07:39:07","Apache-2.0","Linux, macOS, Windows","非必需，但推荐用于训练和推理。支持 NVIDIA GPU，CUDA 版本未明确说明。","未说明",{"notes":99,"python":97,"dependencies":100},"模型可通过 Hugging Face Transformers 或 PaddleHub 快速加载。模型文件大小从 46M 到 1G 不等，需预留相应磁盘空间。中国大陆用户建议使用百度网盘下载模型。",[101,102],"transformers","paddlepaddle",[26,13],[105,106,107,108,109,110,111,112,113],"nlp","bert","electra","pre-trained-model","chinese","chinese-electra","language-model","pytorch","tensorflow","2026-03-27T02:49:30.150509","2026-04-06T07:12:03.421757",[117,122,127,132,137,142,147,152,157,162],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},3920,"ELECTRA-base 模型的配置文件参数是什么？README 里只提供了 ELECTRA-small 的配置。","ELECTRA-base 模型的配置参数为：12 层，768 隐藏层维度，12 个头，102M 参数。具体的 `params_cmrc2018.json` 配置文件内容可以参考项目中的相关文件或根据 base 模型的通用配置进行设置。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F46",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},3921,"预训练数据文件的格式应该是怎样的？是一行一个句子还是一行一个文档？","预训练数据文件格式通常是一行一个包含多个句子的文档。虽然 ELECTRA 没有 NSP 任务，但在构建序列时仍可能使用两个 segment，具体实现需参考代码。建议在预训练前对所有语料文本行进行 shuffle 处理以提高训练效果。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F90",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},3922,"在领域数据集上继续预训练后，微调效果很差，准确率很低，是什么原因？","继续预训练需要初始化模型未提供的参数。如果直接使用提供的 base 模型参数继续预训练，由于优化器状态等未保存，会导致不工作。需要确保所有必要参数都被正确初始化和加载。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F38",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},3923,"预训练后模型大小与提供的不一样，调用时出现权重形状不兼容错误，如何处理？","预训练保存的权重可能包含优化器参数（如 adam_v、adam_m）。可以尝试将优化器改为 SGD，重新加载模型，这样会保存一套去掉 adam_* 的权重，从而解决形状不兼容问题。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F22",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},3924,"中文预训练时，为什么使用字符粒度（字粒度）进行掩码，而不是词粒度？","中文使用字符粒度（字粒度）进行掩码，类似于 BPE 算法，因为中文的词与英文的词在结构和划分上存在差异，字粒度能更好地处理中文的灵活性和复杂性。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F53",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},3925,"在自己的语料上继续预训练速度很慢，如何优化？","预训练速度慢可能是因为默认生成 1000 个 tfrecord 文件，而数据量较少导致性能瓶颈。可以尝试减少生成的 tfrecord 文件数量，以适应数据规模，提升训练效率。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F23",{"id":148,"question_zh":149,"answer_zh":150,"source_url":151},3926,"ELECTRA 相比 BERT\u002FRoBERTa 收敛更快吗？效果如何？","在相同训练步数下，ELECTRA 在部分任务上效果优于 RoBERTa。例如在 CMRC 2018 开发集上，ELECTRA-small 达到 63.4\u002F80.8，而 RoBERTa-small 为 58.5\u002F80.0。但在不同任务上表现可能有所差异，需根据具体任务评估。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F2",{"id":153,"question_zh":154,"answer_zh":155,"source_url":156},3927,"HuggingFace 上的 hfl\u002Fchinese-legal-electra-base-discriminator 模型缺失 vocab.txt 文件，导致加载失败，怎么办？","模型缺失 vocab.txt 文件会导致 `AutoTokenizer.from_pretrained` 报错。可以尝试从其他来源获取该文件，或使用完整的模型包。ELECTRA 作为 BERT 变体，同样适用于 NER 等任务。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F87",{"id":158,"question_zh":159,"answer_zh":160,"source_url":161},3928,"复现 LCQMC 任务时，只输出 loss 没有 Accuracy，如何解决？","在代码中增加 LCQMC 任务支持后，可能还需要调整评估逻辑以确保正确计算和输出 Accuracy。参考项目文档或示例代码，确保任务配置和评估步骤正确。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F67",{"id":163,"question_zh":164,"answer_zh":165,"source_url":166},3929,"加载 chinese-electra-small-ex-generator 模型时，提示部分权重未使用，是否正常？","使用 transformers 库加载生成器模型时，如果用于分类任务，可能会提示部分权重未使用，这是正常的，因为生成器和判别器（或分类器）的架构不同，部分权重不匹配。","https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fissues\u002F63",[]]