[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-monologg--KoELECTRA":3,"tool-monologg--KoELECTRA":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":10,"last_commit_at":59,"category_tags":60,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":74,"owner_avatar_url":75,"owner_bio":76,"owner_company":77,"owner_location":78,"owner_email":79,"owner_twitter":76,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":90,"difficulty_score":32,"env_os":91,"env_gpu":92,"env_ram":93,"env_deps":94,"category_tags":100,"github_topics":101,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":110,"updated_at":111,"faqs":112,"releases":142},5036,"monologg\u002FKoELECTRA","KoELECTRA","Pretrained ELECTRA Model for Korean","KoELECTRA 是一款专为韩语自然语言处理打造的预训练模型，基于先进的 ELECTRA 架构开发。它主要解决了传统韩语模型在训练效率和性能上的瓶颈：不同于 BERT 等模型仅学习预测被掩盖的词汇，KoELECTRA 采用“替换令牌检测”机制，能够利用输入文本中的每一个令牌进行训练，从而在更少的计算资源下实现更优的理解与生成能力。\n\n该工具基于 34GB 的高质量韩语文本数据训练而成，提供\"Base\"和\"Small\"两种规格，分别适用于对精度要求较高的复杂任务和资源受限的快速部署场景。其独特的技术亮点在于完全兼容主流的 Transformers 库，并坚持使用 Wordpiece 分词方案，摒弃了 SentencePiece 或 Mecab 等外部依赖。这意味着开发者无需配置复杂的操作系统环境或安装额外的分词工具，只需几行代码即可直接调用。\n\nKoELECTRA 非常适合从事韩语文本分析、情感识别、机器翻译等任务的 AI 研究人员和软件开发者使用。无论是希望复现前沿论文成果的学术团队，还是致力于构建韩语智能应用的企业工程师，都能通过它轻松获得强大的语言理解基座，大幅降低模型开发与落地","KoELECTRA 是一款专为韩语自然语言处理打造的预训练模型，基于先进的 ELECTRA 架构开发。它主要解决了传统韩语模型在训练效率和性能上的瓶颈：不同于 BERT 等模型仅学习预测被掩盖的词汇，KoELECTRA 采用“替换令牌检测”机制，能够利用输入文本中的每一个令牌进行训练，从而在更少的计算资源下实现更优的理解与生成能力。\n\n该工具基于 34GB 的高质量韩语文本数据训练而成，提供\"Base\"和\"Small\"两种规格，分别适用于对精度要求较高的复杂任务和资源受限的快速部署场景。其独特的技术亮点在于完全兼容主流的 Transformers 库，并坚持使用 Wordpiece 分词方案，摒弃了 SentencePiece 或 Mecab 等外部依赖。这意味着开发者无需配置复杂的操作系统环境或安装额外的分词工具，只需几行代码即可直接调用。\n\nKoELECTRA 非常适合从事韩语文本分析、情感识别、机器翻译等任务的 AI 研究人员和软件开发者使用。无论是希望复现前沿论文成果的学术团队，还是致力于构建韩语智能应用的企业工程师，都能通过它轻松获得强大的语言理解基座，大幅降低模型开发与落地的门槛。","[한국어](.\u002FREADME.md) | [English](.\u002FREADME_EN.md)\n\n# KoELECTRA\n\n\u003Cp float=\"left\" align=\"center\">\n    \u003Cimg width=\"900\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmonologg_KoELECTRA_readme_9f3f26e935a9.png\" \u002F>  \n\u003C\u002Fp>\n\n[ELECTRA](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)는 `Replaced Token Detection`, 즉 generator에서 나온 token을 보고 discriminator에서 \"real\" token인지 \"fake\" token인지 판별하는 방법으로 학습을 합니다. 이 방법은 모든 input token에 대해 학습할 수 있다는 장점을 가지며, BERT 등과 비교했을 때 더 좋은 성능을 보였습니다.\n\nKoELECTRA는 **34GB의 한국어 text**로 학습하였고, 이를 통해 나온 `KoELECTRA-Base`와 `KoELECTRA-Small` 두 가지 모델을 배포하게 되었습니다.\n\n또한 KoELECTRA는 **Wordpiece 사용**, **모델 s3 업로드** 등을 통해 OS 상관없이 `Transformers` 라이브러리만 설치하면 곧바로 사용할 수 있습니다.\n\n## Download Link\n\n| Model                |                                                                     Discriminator |                                                                 Generator |                                                                                                         Tensorflow-v1 |\n| -------------------- | --------------------------------------------------------------------------------: | ------------------------------------------------------------------------: | --------------------------------------------------------------------------------------------------------------------: |\n| `KoELECTRA-Base-v1`  |     [Discriminator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-discriminator) |     [Generator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-generator) |      [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-base-v1.tar.gz) |\n| `KoELECTRA-Small-v1` |    [Discriminator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-discriminator) |    [Generator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-generator) |    [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-small-v1.tar.gz) |\n| `KoELECTRA-Base-v2`  |  [Discriminator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v2-discriminator) |  [Generator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v2-generator) |   [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v2-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-base-v2.tar.gz) |\n| `KoELECTRA-Small-v2` | [Discriminator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v2-discriminator) | [Generator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v2-generator) | [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v2-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-small-v2.tar.gz) |\n| `KoELECTRA-Base-v3`  |  [Discriminator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v3-discriminator) |  [Generator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v3-generator) |   [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v3-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-base-v3.tar.gz) |\n| `KoELECTRA-Small-v3` | [Discriminator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v3-discriminator) | [Generator](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v3-generator) | [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v3-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-small-v3.tar.gz) |\n\n## About KoELECTRA\n\n|                   |               | Layers | Embedding Size | Hidden Size | # heads |\n| ----------------- | ------------: | -----: | -------------: | ----------: | ------: |\n| `KoELECTRA-Base`  | Discriminator |     12 |            768 |         768 |      12 |\n|                   |     Generator |     12 |            768 |         256 |       4 |\n| `KoELECTRA-Small` | Discriminator |     12 |            128 |         256 |       4 |\n|                   |     Generator |     12 |            128 |         256 |       4 |\n\n### Vocabulary\n\n- 이번 프로젝트의 가장 큰 목적은 **Transformers 라이브러리만 있으면 모델을 곧바로 사용 가능하게 만드는 것**이었고, 이에 Sentencepiece, Mecab을 사용하지 않고 원 논문과 코드에서 사용한 `Wordpiece`를 사용하였습니다.\n- 자세한 내용은 [[Wordpiece Vocabulary]](.\u002Fdocs\u002Fwordpiece_vocab.md) 참고\n\n|     | Vocab Len | do_lower_case |\n| --- | --------: | ------------: |\n| v1  |     32200 |         False |\n| v2  |     32200 |         False |\n| v3  |     35000 |         False |\n\n### Data\n\n- `v1`, `v2`의 경우 **약 14G Corpus** (2.6B tokens)를 사용했습니다. (뉴스, 위키, 나무위키)\n- `v3`의 경우 **약 20G의 모두의 말뭉치**를 추가적으로 사용했습니다. (신문, 문어, 구어, 메신저, 웹)\n\n### Pretraining Details\n\n| Model        | Batch Size | Train Steps |   LR | Max Seq Len | Generator Size | Train Time |\n| :----------- | ---------: | ----------: | ---: | ----------: | -------------: | ---------: |\n| `Base v1,2`  |        256 |        700K | 2e-4 |         512 |           0.33 |         7d |\n| `Base v3`    |        256 |        1.5M | 2e-4 |         512 |           0.33 |        14d |\n| `Small v1,2` |        512 |        300K | 5e-4 |         512 |            1.0 |         3d |\n| `Small v3`   |        512 |        800K | 5e-4 |         512 |            1.0 |         7d |\n\n- `KoELECTRA-Small` 모델의 경우 원 논문에서의 `ELECTRA-Small++`와 **동일한 옵션**을 사용하였습니다.\n\n  - 이는 공식 ELECTRA에서 배포한 Small 모델과 설정이 동일합니다.\n  - 또한 `KoELECTRA-Base`와는 달리, Generator와 Discriminator의 모델 사이즈(=`generator_hidden_size`)가 동일합니다.\n\n- `Batch size`와 `Train steps`을 제외하고는 **원 논문의 Hyperparameter와 동일**하게 가져갔습니다.\n\n  - 다른 hyperparameter를 변경하여 돌려봤지만 원 논문과 동일하게 가져간 것이 성능이 가장 좋았습니다.\n\n- **TPU v3-8**을 이용하여 학습하였고, GCP에서의 TPU 사용법은 [[Using TPU for Pretraining]](.\u002Fdocs\u002Ftpu_training.md)에 정리하였습니다.\n\n## KoELECTRA on 🤗 Transformers 🤗\n\n- `Transformers v2.8.0`부터 `ElectraModel`을 공식 지원합니다.\n\n- **Huggingface S3**에 모델이 이미 업로드되어 있어서, **모델을 직접 다운로드할 필요 없이** 곧바로 사용할 수 있습니다.\n\n- `ElectraModel`은 `pooled_output`을 리턴하지 않는 것을 제외하고 `BertModel`과 유사합니다.\n\n- ELECTRA는 finetuning시에 `discriminator`를 사용합니다.\n\n### 1. Pytorch Model & Tokenizer\n\n```python\nfrom transformers import ElectraModel, ElectraTokenizer\n\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-discriminator\")  # KoELECTRA-Base\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-small-discriminator\")  # KoELECTRA-Small\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v2-discriminator\")  # KoELECTRA-Base-v2\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-small-v2-discriminator\")  # KoELECTRA-Small-v2\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")  # KoELECTRA-Base-v3\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-small-v3-discriminator\")  # KoELECTRA-Small-v3\n```\n\n### 2. Tensorflow v2 Model\n\n```python\nfrom transformers import TFElectraModel\n\nmodel = TFElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\", from_pt=True)\n```\n\n### 3. Tokenizer Example\n\n```python\n>>> from transformers import ElectraTokenizer\n>>> tokenizer = ElectraTokenizer.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\n>>> tokenizer.tokenize(\"[CLS] 한국어 ELECTRA를 공유합니다. [SEP]\")\n['[CLS]', '한국어', 'EL', '##EC', '##TRA', '##를', '공유', '##합니다', '.', '[SEP]']\n>>> tokenizer.convert_tokens_to_ids(['[CLS]', '한국어', 'EL', '##EC', '##TRA', '##를', '공유', '##합니다', '.', '[SEP]'])\n[2, 11229, 29173, 13352, 25541, 4110, 7824, 17788, 18, 3]\n```\n\n## Result on Subtask\n\n**config의 세팅을 그대로 하여 돌린 결과이며, hyperparameter tuning을 추가적으로 할 시 더 좋은 성능이 나올 수 있습니다.**\n\n코드 및 자세한 내용은 [[Finetuning]](.\u002Ffinetune\u002FREADME.md) 참고\n\n### Base Model\n\n|                       | **NSMC**\u003Cbr\u002F>(acc) | **Naver NER**\u003Cbr\u002F>(F1) | **PAWS**\u003Cbr\u002F>(acc) | **KorNLI**\u003Cbr\u002F>(acc) | **KorSTS**\u003Cbr\u002F>(spearman) | **Question Pair**\u003Cbr\u002F>(acc) | **KorQuaD (Dev)**\u003Cbr\u002F>(EM\u002FF1) | **Korean-Hate-Speech (Dev)**\u003Cbr\u002F>(F1) |\n| :-------------------- | :----------------: | :--------------------: | :----------------: | :------------------: | :-----------------------: | :-------------------------: | :---------------------------: | :-----------------------------------: |\n| KoBERT                |       89.59        |         87.92          |       81.25        |        79.62         |           81.59           |            94.85            |         51.75 \u002F 79.15         |                 66.21                 |\n| XLM-Roberta-Base      |       89.03        |         86.65          |       82.80        |        80.23         |           78.45           |            93.80            |         64.70 \u002F 88.94         |                 64.06                 |\n| HanBERT               |       90.06        |         87.70          |       82.95        |        80.32         |           82.73           |            94.72            |         78.74 \u002F 92.02         |               **68.32**               |\n| KoELECTRA-Base        |       90.33        |         87.18          |       81.70        |        80.64         |           82.00           |            93.54            |         60.86 \u002F 89.28         |                 66.09                 |\n| KoELECTRA-Base-v2     |       89.56        |         87.16          |       80.70        |        80.72         |           82.30           |            94.85            |         84.01 \u002F 92.40         |                 67.45                 |\n| **KoELECTRA-Base-v3** |     **90.63**      |       **88.11**        |     **84.45**      |      **82.24**       |         **85.53**         |          **95.25**          |       **84.83 \u002F 93.45**       |                 67.61                 |\n\n### Small Model\n\n|                        | **NSMC**\u003Cbr\u002F>(acc) | **Naver NER**\u003Cbr\u002F>(F1) | **PAWS**\u003Cbr\u002F>(acc) | **KorNLI**\u003Cbr\u002F>(acc) | **KorSTS**\u003Cbr\u002F>(spearman) | **Question Pair**\u003Cbr\u002F>(acc) | **KorQuaD (Dev)**\u003Cbr\u002F>(EM\u002FF1) | **Korean-Hate-Speech (Dev)**\u003Cbr\u002F>(F1) |\n| :--------------------- | :----------------: | :--------------------: | :----------------: | :------------------: | :-----------------------: | :-------------------------: | :---------------------------: | :-----------------------------------: |\n| DistilKoBERT           |       88.60        |         84.65          |       60.50        |        72.00         |           72.59           |            92.48            |         54.40 \u002F 77.97         |                 60.72                 |\n| KoELECTRA-Small        |       88.83        |         84.38          |       73.10        |        76.45         |           76.56           |            93.01            |         58.04 \u002F 86.76         |                 63.03                 |\n| KoELECTRA-Small-v2     |       88.83        |         85.00          |       72.35        |        78.14         |           77.84           |            93.27            |         81.43 \u002F 90.46         |                 60.14                 |\n| **KoELECTRA-Small-v3** |     **89.36**      |       **85.40**        |     **77.45**      |      **78.60**       |         **80.79**         |          **94.85**          |       **82.11 \u002F 91.13**       |               **63.07**               |\n\n## Updates\n\n**April 27, 2020**\n\n- 2개의 Subtask (`KorSTS`, `QuestionPair`)에 대해 추가적으로 finetuning을 진행하였고, 기존 5개의 Subtask에 대해서도 결과를 업데이트하였습니다.\n\n**June 3, 2020**\n\n- [EnlipleAI PLM](https:\u002F\u002Fgithub.com\u002Fenlipleai\u002Fkor_pratrain_LM)에서 사용된 vocabulary를 이용하여 `KoELECTRA-v2`를 제작하였습니다. Base 모델과 Small 모델 모두 `KorQuaD`에서 성능 향상을 보였습니다.\n\n**October 9, 2020**\n\n- `모두의 말뭉치`를 추가적으로 사용하여 `KoELECTRA-v3`를 제작하였습니다. Vocab도 `Mecab`과 `Wordpiece`를 이용하여 새로 제작하였습니다.\n- `Huggingface Transformers`의 `ElectraForSequenceClassification` 공식 지원 등을 고려하여 기존 Subtask 결과를 새로 Update하였습니다. 또한 [Korean-Hate-Speech](https:\u002F\u002Fgithub.com\u002Fkocohub\u002Fkorean-hate-speech)의 결과도 추가했습니다.\n\n```python\nfrom transformers import ElectraModel, ElectraTokenizer\n\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\ntokenizer = ElectraTokenizer.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\n```\n\n**May 26, 2021**\n\n- `torch\u003C=1.4` 에서 로딩이 되지 않는 이슈 해결 (모델 수정 후 재업로드 완료) ([Related Issue](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch\u002Fissues\u002F48915))\n- huggingface hub에 `tensorflow v2` 모델 업로드 (`tf_model.h5`)\n\n**Oct 20, 2021**\n\n- `tf_model.h5`에서 바로 로딩하는 부분이 여러 이슈가 존재하여 제거 (`from_pt=True`로 로딩하는 것으로 되돌림)\n\n## Acknowledgement\n\nKoELECTRA은 **Tensorflow Research Cloud (TFRC)** 프로그램의 Cloud TPU 지원으로 제작되었습니다. 또한 `KoELECTRA-v3`는 **모두의 말뭉치**의 도움으로 제작되었습니다.\n\n## Citation\n\n이 코드를 연구용으로 사용하는 경우 아래와 같이 인용해주세요.\n\n```bibtex\n@misc{park2020koelectra,\n  author = {Park, Jangwon},\n  title = {KoELECTRA: Pretrained ELECTRA Model for Korean},\n  year = {2020},\n  publisher = {GitHub},\n  journal = {GitHub repository},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fmonologg\u002FKoELECTRA}}\n}\n```\n\n## Reference\n\n- [ELECTRA](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Felectra)\n- [Huggingface Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [Tensorflow Research Cloud](https:\u002F\u002Fwww.tensorflow.org\u002Ftfrc?hl=ko)\n- [Chinese ELECTRA](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fblob\u002Fmaster\u002FREADME_EN.md)\n- [Enliple AI Korean PLM](https:\u002F\u002Fgithub.com\u002Fenlipleai\u002Fkor_pratrain_LM)\n- [모두의 말뭉치](https:\u002F\u002Fcorpus.korean.go.kr\u002F)\n","[韩语](.\u002FREADME.md) | [英语](.\u002FREADME_EN.md)\n\n# KoELECTRA\n\n\u003Cp float=\"left\" align=\"center\">\n    \u003Cimg width=\"900\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmonologg_KoELECTRA_readme_9f3f26e935a9.png\" \u002F>  \n\u003C\u002Fp>\n\n[ELECTRA](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)通过`替换标记检测`的方式进行训练，即判别器根据生成器输出的标记来判断其是“真实”标记还是“虚假”标记。这种方法的优势在于可以对所有输入标记进行训练，并且与BERT等模型相比表现出更好的性能。\n\nKoELECTRA使用**34GB的韩语文本**进行训练，由此发布了`KoELECTRA-Base`和`KoELECTRA-Small`两种模型。\n\n此外，KoELECTRA采用了**Wordpiece分词**、**将模型上传至S3存储**等技术，使得用户只需安装`Transformers`库即可在任何操作系统上直接使用该模型。\n\n## 下载链接\n\n| 模型                |                                                                     判别器 |                                                                 生成器 |                                                                                                         Tensorflow-v1 |\n| -------------------- | --------------------------------------------------------------------------------: | ------------------------------------------------------------------------: | --------------------------------------------------------------------------------------------------------------------: |\n| `KoELECTRA-Base-v1`  |     [判别器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-discriminator) |     [生成器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-generator) |      [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-base-v1.tar.gz) |\n| `KoELECTRA-Small-v1` |    [判别器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-discriminator) |    [生成器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-generator) |    [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-small-v1.tar.gz) |\n| `KoELECTRA-Base-v2`  |  [判别器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v2-discriminator) |  [生成器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v2-generator) |   [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v2-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-base-v2.tar.gz) |\n| `KoELECTRA-Small-v2` | [判别器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v2-discriminator) | [生成器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v2-generator) | [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v2-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-small-v2.tar.gz) |\n| `KoELECTRA-Base-v3`  |  [判别器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v3-discriminator) |  [生成器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v3-generator) |   [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-base-v3-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-base-v3.tar.gz) |\n| `KoELECTRA-Small-v3` | [判别器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v3-discriminator) | [生成器](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v3-generator) | [Tensorflow-v1](https:\u002F\u002Fhuggingface.co\u002Fmonologg\u002Fkoelectra-small-v3-discriminator\u002Fblob\u002Ftfv1\u002Fkoelectra-small-v3.tar.gz) |\n\n## 关于KoELECTRA\n\n|                   |               | 层数 | 嵌入维度 | 隐藏层大小 | 注意力头数 |\n| ----------------- | ------------: | -----: | -------------: | ----------: | ------: |\n| `KoELECTRA-Base`  | 判别器        |     12 |            768 |         768 |      12 |\n|                   | 生成器        |     12 |            768 |         256 |       4 |\n| `KoELECTRA-Small` | 判别器        |     12 |            128 |         256 |       4 |\n|                   | 生成器        |     12 |            128 |         256 |       4 |\n\n### 词汇表\n\n- 本项目最大的目标是使用户仅需`Transformers`库即可直接使用模型，因此我们未使用Sentencepiece或Mecab，而是沿用了原论文及代码中使用的`Wordpiece`分词方式。\n- 更多详细信息请参阅[[Wordpiece词汇表]](.\u002Fdocs\u002Fwordpiece_vocab.md)\n\n|     | 词汇表大小 | 是否小写转换 |\n| --- | --------: | ------------: |\n| v1  |     32200 |         False |\n| v2  |     32200 |         False |\n| v3  |     35000 |         False |\n\n### 数据\n\n- 对于`v1`和`v2`版本，我们使用了约**14G的语料库**（26亿个标记），包括新闻、维基百科和Namuwiki等内容。\n- 而对于`v3`版本，则额外增加了约**20G的“大家的语料库”**，涵盖了报纸、书面语、口语、即时通讯以及网络文本等多种来源。\n\n### 预训练细节\n\n| 模型        | 批量大小 | 训练步数 |   学习率 | 最大序列长度 | 生成器规模 | 训练时长 |\n| :----------- | ---------: | ----------: | ---: | ----------: | -------------: | ---------: |\n| `Base v1,2`  |        256 |        70万 | 2e-4 |         512 |           0.33 |         7天 |\n| `Base v3`    |        256 |        150万 | 2e-4 |         512 |           0.33 |        14天 |\n| `Small v1,2` |        512 |        30万 | 5e-4 |         512 |            1.0 |         3天 |\n| `Small v3`   |        512 |        80万 | 5e-4 |         512 |            1.0 |         7天 |\n\n- 对于`KoELECTRA-Small`模型，我们采用了与原论文中`ELECTRA-Small++`完全相同的配置选项。\n  \n  - 这意味着其设置与官方ELECTRA发布的Small模型一致。\n  - 另外，与`KoELECTRA-Base`不同的是，该模型的生成器和判别器具有相同的模型尺寸（=`generator_hidden_size`）。\n\n- 除了`批量大小`和`训练步数`之外，其余超参数均与原论文保持一致。\n\n  - 尽管我们也尝试过调整其他超参数，但最终发现按照原论文的设定表现最佳。\n\n- 我们使用了**TPU v3-8**进行训练，并将GCP上使用TPU的方法整理在[[使用TPU进行预训练]](.\u002Fdocs\u002Ftpu_training.md)中。\n\n## KoELECTRA在🤗 Transformers🤗中的应用\n\n- 自`Transformers v2.8.0`起，官方开始支持`ElectraModel`。\n\n- 模型已上传至**Huggingface S3**，因此用户无需手动下载即可直接使用。\n\n- `ElectraModel`与`BertModel`类似，唯一的区别在于它不返回`pooled_output`。\n\n- 在微调阶段，ELECTRA通常使用`判别器`。\n\n### 1. PyTorch模型与分词器\n\n```python\nfrom transformers import ElectraModel, ElectraTokenizer\n\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-discriminator\")  # KoELECTRA-Base\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-small-discriminator\")  # KoELECTRA-Small\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v2-discriminator\")  # KoELECTRA-Base-v2\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-small-v2-discriminator\")  # KoELECTRA-Small-v2\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")  # KoELECTRA-Base-v3\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-small-v3-discriminator\")  # KoELECTRA-Small-v3\n```\n\n### 2. TensorFlow v2模型\n\n```python\nfrom transformers import TFElectraModel\n\nmodel = TFElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\", from_pt=True)\n```\n\n### 3. 分词器示例\n\n```python\n>>> from transformers import ElectraTokenizer\n>>> tokenizer = ElectraTokenizer.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\n>>> tokenizer.tokenize(\"[CLS] 한국어 ELECTRA를 공유합니다. [SEP]\")\n['[CLS]', '한국어', 'EL', '##EC', '##TRA', '##를', '공유', '##합니다', '.', '[SEP]']\n>>> tokenizer.convert_tokens_to_ids(['[CLS]', '한국어', 'EL', '##EC', '##TRA', '##를', '공유', '##합니다', '.', '[SEP]'])\n[2, 11229, 29173, 13352, 25541, 4110, 7824, 17788, 18, 3]\n```\n\n## 子任务结果\n\n**这是在保持config设置不变的情况下运行的结果，如果进一步进行超参数调优，可能会获得更好的性能。**\n\n代码及详细内容请参考[[Finetuning]](.\u002Ffinetune\u002FREADME.md)\n\n### 基础模型\n\n|                       | **NSMC**\u003Cbr\u002F>(准确率) | **Naver NER**\u003Cbr\u002F>(F1值) | **PAWS**\u003Cbr\u002F>(准确率) | **KorNLI**\u003Cbr\u002F>(准确率) | **KorSTS**\u003Cbr\u002F>(斯皮尔曼相关系数) | **问题对**\u003Cbr\u002F>(准确率) | **KorQuaD (Dev)**\u003Cbr\u002F>(EM\u002FF1) | **韩语仇恨言论 (Dev)**\u003Cbr\u002F>(F1值) |\n| :-------------------- | :----------------: | :--------------------: | :----------------: | :------------------: | :-----------------------: | :-------------------------: | :---------------------------: | :-----------------------------------: |\n| KoBERT                |       89.59        |         87.92          |       81.25        |        79.62         |           81.59           |            94.85            |         51.75 \u002F 79.15         |                 66.21                 |\n| XLM-Roberta-Base      |       89.03        |         86.65          |       82.80        |        80.23         |           78.45           |            93.80            |         64.70 \u002F 88.94         |                 64.06                 |\n| HanBERT               |       90.06        |         87.70          |       82.95        |        80.32         |           82.73           |            94.72            |         78.74 \u002F 92.02         |               **68.32**               |\n| KoELECTRA-Base        |       90.33        |         87.18          |       81.70        |        80.64         |           82.00           |            93.54            |         60.86 \u002F 89.28         |                 66.09                 |\n| KoELECTRA-Base-v2     |       89.56        |         87.16          |       80.70        |        80.72         |           82.30           |            94.85            |         84.01 \u002F 92.40         |                 67.45                 |\n| **KoELECTRA-Base-v3** |     **90.63**      |       **88.11**        |     **84.45**      |      **82.24**       |         **85.53**         |          **95.25**          |       **84.83 \u002F 93.45**       |                 67.61                 |\n\n### 小型模型\n\n|                        | **NSMC**\u003Cbr\u002F>(准确率) | **Naver NER**\u003Cbr\u002F>(F1值) | **PAWS**\u003Cbr\u002F>(准确率) | **KorNLI**\u003Cbr\u002F>(准确率) | **KorSTS**\u003Cbr\u002F>(斯皮尔曼相关系数) | **问题对**\u003Cbr\u002F>(准确率) | **KorQuaD (Dev)**\u003Cbr\u002F>(EM\u002FF1) | **韩语仇恨言论 (Dev)**\u003Cbr\u002F>(F1值) |\n| :--------------------- | :----------------: | :--------------------: | :----------------: | :------------------: | :-----------------------: | :-------------------------: | :---------------------------: | :-----------------------------------: |\n| DistilKoBERT           |       88.60        |         84.65          |       60.50        |        72.00         |           72.59           |            92.48            |         54.40 \u002F 77.97         |                 60.72                 |\n| KoELECTRA-Small        |       88.83        |         84.38          |       73.10        |        76.45         |           76.56           |            93.01            |         58.04 \u002F 86.76         |                 63.03                 |\n| KoELECTRA-Small-v2     |       88.83        |         85.00          |       72.35        |        78.14         |           77.84           |            93.27            |         81.43 \u002F 90.46         |                 60.14                 |\n| **KoELECTRA-Small-v3** |     **89.36**      |       **85.40**        |     **77.45**      |      **78.60**       |         **80.79**         |          **94.85**          |       **82.11 \u002F 91.13**       |               **63.07**               |\n\n## 更新\n\n**2020年4月27日**\n\n- 针对两个子任务（`KorSTS`、`QuestionPair`）进行了额外的微调，并更新了原有5个子任务的结果。\n\n**2020年6月3日**\n\n- 使用[EnlipleAI PLM](https:\u002F\u002Fgithub.com\u002Fenlipleai\u002Fkor_pratrain_LM)中使用的词汇表制作了`KoELECTRA-v2`。基础模型和小型模型在`KorQuaD`任务上均表现出性能提升。\n\n**2020年10月9日**\n\n- 进一步使用了`大家的语料库`制作了`KoELECTRA-v3`。词汇表也重新基于`Mecab`和`Wordpiece`制作。\n- 考虑到`Huggingface Transformers`对`ElectraForSequenceClassification`的官方支持等因素，对原有的子任务结果进行了更新。此外，还增加了[Korean-Hate-Speech](https:\u002F\u002Fgithub.com\u002Fkocohub\u002Fkorean-hate-speech)的结果。\n\n```python\nfrom transformers import ElectraModel, ElectraTokenizer\n\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\ntokenizer = ElectraTokenizer.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\n```\n\n**2021年5月26日**\n\n- 解决了在`torch\u003C=1.4`下无法加载的问题（模型修改后已重新上传）([相关问题](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Fpytorch\u002Fissues\u002F48915))\n- 将`tensorflow v2`模型上传至huggingface hub(`tf_model.h5`)\n\n**2021年10月20日**\n\n- 由于直接从`tf_model.h5`加载存在多个问题，因此移除了该功能（恢复为通过`from_pt=True`加载）\n\n## 致谢\n\nKoELECTRA是在**Tensorflow Research Cloud (TFRC)**项目的Cloud TPU支持下制作的。此外，`KoELECTRA-v3`是在**大家的语料库**的帮助下制作的。\n\n## 引用\n\n若将此代码用于研究目的，请按以下方式引用：\n\n```bibtex\n@misc{park2020koelectra,\n  author = {Park, Jangwon},\n  title = {KoELECTRA: 韩语预训练ELECTRA模型},\n  year = {2020},\n  publisher = {GitHub},\n  journal = {GitHub仓库},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002Fmonologg\u002FKoELECTRA}}\n}\n```\n\n## 参考文献\n\n- [ELECTRA](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Felectra)\n- [Huggingface Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [Tensorflow Research Cloud](https:\u002F\u002Fwww.tensorflow.org\u002Ftfrc?hl=ko)\n- [中文ELECTRA](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-ELECTRA\u002Fblob\u002Fmaster\u002FREADME_EN.md)\n- [Enliple AI 韩语PLM](https:\u002F\u002Fgithub.com\u002Fenlipleai\u002Fkor_pratrain_LM)\n- [大家的语料库](https:\u002F\u002Fcorpus.korean.go.kr\u002F)","# KoELECTRA 快速上手指南\n\nKoELECTRA 是基于 ELECTRA 架构预训练的韩语语言模型，使用 34GB 韩语文本训练而成。它支持通过 Hugging Face `transformers` 库直接加载，无需手动下载模型文件，适用于各类韩语 NLP 任务。\n\n## 环境准备\n\n- **操作系统**：Linux \u002F macOS \u002F Windows（无限制）\n- **Python 版本**：推荐 Python 3.7+\n- **依赖库**：\n  - `transformers >= 2.8.0`\n  - `torch` (PyTorch) 或 `tensorflow` (可选)\n- **安装命令**：\n```bash\npip install transformers torch\n```\n> 如在中国大陆地区，可使用清华镜像加速安装：\n```bash\npip install -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple transformers torch\n```\n\n## 安装步骤\n\n无需额外安装模型文件，所有模型已托管在 Hugging Face Hub，可直接通过代码加载。\n\n确保已安装 `transformers` 库后，即可开始使用。\n\n## 基本使用\n\n### 1. 加载模型与分词器（PyTorch）\n\n```python\nfrom transformers import ElectraModel, ElectraTokenizer\n\n# 加载 KoELECTRA-Base-v3 判别器模型\nmodel = ElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\ntokenizer = ElectraTokenizer.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\n\n# 编码输入文本\ninputs = tokenizer(\"[CLS] 한국어 ELECTRA 를 공유합니다. [SEP]\", return_tensors=\"pt\")\n\n# 获取模型输出\noutputs = model(**inputs)\nprint(outputs.last_hidden_state.shape)\n```\n\n### 2. 分词示例\n\n```python\nfrom transformers import ElectraTokenizer\n\ntokenizer = ElectraTokenizer.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\")\ntokens = tokenizer.tokenize(\"[CLS] 한국어 ELECTRA 를 공유합니다. [SEP]\")\nids = tokenizer.convert_tokens_to_ids(tokens)\n\nprint(tokens)\nprint(ids)\n```\n\n### 3. TensorFlow v2 用户（可选）\n\n```python\nfrom transformers import TFElectraModel\n\nmodel = TFElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v3-discriminator\", from_pt=True)\n```\n\n> 注意：微调任务时请使用 `discriminator` 模型；`generator` 模型仅用于预训练阶段。\n\n---\n\n现在你可以开始在韩语分类、命名实体识别、问答等任务中微调 KoELECTRA 模型了。","一家韩国电商初创公司的数据团队正致力于构建智能客服系统，需要让机器准确理解并分类海量的韩语用户咨询文本。\n\n### 没有 KoELECTRA 时\n- **语义理解偏差大**：直接使用通用多语言模型或未经韩语深度预训练的模型，难以捕捉韩语复杂的助词变化和敬语体系，导致意图识别准确率低下。\n- **训练成本高昂**：若从零开始训练专用模型，需要收集数百 GB 的韩语语料并耗费数周时间在昂贵 GPU 集群上进行预训练，初创团队无力承担。\n- **工程部署复杂**：依赖 Mecab 等外部分词工具会增加环境配置难度，不同操作系统间的兼容性问题频发，阻碍了快速迭代上线。\n- **推理速度慢**：传统大型模型参数量过大，在实时客服场景中响应延迟高，无法满足高并发下的即时回复需求。\n\n### 使用 KoELECTRA 后\n- **精准掌握韩语特性**：利用在 34GB 韩语语料上预训练的 KoELECTRA，模型天然精通韩语语法结构，意图分类准确率显著提升，能轻松区分细微的语气差异。\n- **即插即用省资源**：团队直接调用 Hugging Face 上的 `KoELECTRA-Base` 判别器模型，跳过漫长的预训练阶段，仅需少量标注数据微调即可投入生产。\n- **简化开发流程**：基于 Wordpiece 分词且原生支持 Transformers 库，无需安装额外分词软件，实现了跨平台无缝部署，大幅降低了运维门槛。\n- **高效实时响应**：得益于 ELECTRA 独特的替换令牌检测机制，在保持高性能的同时模型更轻量，推理速度更快，完美支撑实时对话场景。\n\nKoELECTRA 通过提供开箱即用的高性能韩语预训练模型，将自然语言处理任务的开发周期从数周缩短至数天，同时显著提升了韩语场景下的理解精度。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmonologg_KoELECTRA_d9fcde71.png","monologg","Jangwon Park","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmonologg_10292d94.jpg",null,"@bhsn-ai","Seoul, Republic of Korea","adieujw@gmail.com","monologg.kr\u002Fabout","https:\u002F\u002Fgithub.com\u002Fmonologg",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,633,136,"2026-03-31T22:39:10","Apache-2.0","Linux, macOS, Windows","未说明 (预训练使用 TPU v3-8，微调未明确指定 GPU 型号或显存要求)","未说明",{"notes":95,"python":93,"dependencies":96},"该工具跨平台兼容，只需安装 Transformers 库即可直接使用，无需手动下载模型（自动从 Hugging Face 加载）。预训练阶段使用了 TPU v3-8。提供 Discriminator 和 Generator 两种模型权重。支持 PyTorch 和 TensorFlow (v1\u002Fv2) 后端。v3 版本使用了额外的'모두의 말뭉치'数据集并更新了词表。",[97,98,99],"transformers>=2.8.0","tensorflow (可选，用于 TF v1\u002Fv2 模型)","torch (可选，用于 PyTorch 模型)",[14,35],[102,103,104,105,106,107,108,109],"electra","korean-nlp","pytorch","transformers","tensorflow2","tensorflow","nlp","language-model","2026-03-27T02:49:30.150509","2026-04-07T22:51:02.496509",[113,118,122,127,132,137],{"id":114,"question_zh":115,"answer_zh":116,"source_url":117},22899,"为什么使用 TensorFlow (TFElectraModel) 加载 Hugging Face 上的 KoELECTRA 模型会报错，而 PyTorch 版本可以正常加载？","由于转换为 TensorFlow 格式的检查点文件 (`tf_model.h5`) 存在多个已知 Bug，维护者已从 Hugging Face Hub 中移除了该文件。解决方案是直接使用 PyTorch 版本的模型，并在加载时添加 `from_pt=True` 参数。例如：`TFElectraModel.from_pretrained(\"monologg\u002Fkoelectra-base-v2-discriminator\", from_pt=True)`。","https:\u002F\u002Fgithub.com\u002Fmonologg\u002FKoELECTRA\u002Fissues\u002F23",{"id":119,"question_zh":120,"answer_zh":121,"source_url":117},22900,"项目中的 fine-tuning 代码应该使用哪个版本的 transformers 库？","为了复现评估结果，fine-tuning 代码原本固定使用了 `transformers==3.3.1`。但由于 Hugging Face 在 v3.5.0 版本更改了 URL 导致部分功能异常，建议将 `requirements.txt` 和文档中的版本更新为 `3.5.1` 或更高兼容版本以解决加载问题。",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},22901,"是否有基于 KoELECTRA 的 Hugging Face Pipeline 实现，支持情感分析或命名实体识别 (NER)？","维护者已专门创建了 [KoELECTRA-Pipeline](https:\u002F\u002Fgithub.com\u002Fmonologg\u002FKoELECTRA-Pipeline) 仓库来提供此功能。该 Pipeline 支持 NSMC 情感分析和 Naver NER 任务。关于 NER 结果中是否包含 'B-' 前缀标签的问题，测试表明微调后的模型能够正确提取 'B-' 标签（如 `PER-B`），但在处理多词实体时仍需注意 F1-Score 带来的误差。","https:\u002F\u002Fgithub.com\u002Fmonologg\u002FKoELECTRA\u002Fissues\u002F2",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},22902,"如何使用 KoELECTRA 进行多分类（Multi-class Classification）任务，而不是二分类？","不需要专门的 `ElectraForMultiSequenceClassification` 类。只需使用标准的 `ElectraForSequenceClassification` (PyTorch) 或 `TFElectraForSequenceClassification` (TensorFlow)，并在配置中将 `num_labels` 设置为你需要的类别数量即可。代码逻辑与二分类相同，参考 `finetune\u002Frun_seq_cls.py` 中的实现。","https:\u002F\u002Fgithub.com\u002Fmonologg\u002FKoELECTRA\u002Fissues\u002F18",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},22903,"加载预训练模型时出现 \"Unable to load weights from pytorch checkpoint file\" 错误，提示需要设置 from_tf=True，但实际使用的是 PyTorch 模型，如何解决？","这通常是由于 PyTorch 版本不兼容导致的。特别是当模型是在较高版本的 Torch 中转换保存，而在较低版本（如 1.4.0）中加载时会出现此问题。建议将 PyTorch 升级到 1.7 或更高版本即可解决该加载错误。","https:\u002F\u002Fgithub.com\u002Fmonologg\u002FKoELECTRA\u002Fissues\u002F17",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},22904,"在使用 XLM-RoBERTa-large 模型进行 KorQuAD (问答) 任务微调时，结果接近于 0，而 Base 版本或其他任务正常，原因是什么？","如果 `xlm-roberta-base` 能正常收敛而 `large` 版本失败，这通常是 `large` 模型在特定任务上的收敛问题，而非代码错误。建议尝试调整学习率 (learning rate) 和随机种子 (seed)。此外，确保在 `run_squad.py` 中针对 `xlm-roberta-large` 正确移除了 `token_type_ids`，并在 `src\u002Futil.py` 中注册了对应的 Config、Tokenizer 和 Model 类。","https:\u002F\u002Fgithub.com\u002Fmonologg\u002FKoELECTRA\u002Fissues\u002F19",[]]