BERT_Paper_Chinese_Translation
BERT_Paper_Chinese_Translation 是一个专注于将 Google 发布的经典论文《BERT:预训练的深度双向 Transformer 语言模型》完整翻译成中文的优质资源。它主要解决了非英语母语者在研读前沿 NLP 技术时的语言门槛问题,让复杂的 Transformer 双向编码原理变得通俗易懂。
这份资源非常适合自然语言处理领域的研究人员、算法工程师以及对深度学习感兴趣的学生使用。除了完整的译文外,它还贴心地整理了论文中所有参考文献的链接,并提供 PDF 下载版本,极大便利了深度学习和知识溯源。特别值得一提的是,译者基于 2018 年初版论文进行了细致翻译,同时注明了与后续版本的细微差异,确保了技术理解的准确性。如果你希望无障碍地掌握 BERT 的核心思想,这个翻译项目是极佳的辅助材料。
使用场景
某电商平台的自然语言处理工程师小李,为了提升商品评论情感分析的准确率,决定基于 BERT 架构进行模型微调,首先需要吃透其底层原理。
没有 BERT_Paper_Chinese_Translation 时
- 面对全英文原版论文,专业术语理解困难,频繁查阅字典严重拖慢学习进度。
- 文中提到的参考文献分散在脚注中,需要逐个点击跳转并确认有效性,容易遗漏关键背景资料。
- 复杂的 Transformer 架构图和数学公式缺乏中文注释,导致对双向上下文掩码机制理解模糊。
- 团队内部技术分享前,需花费数小时自行翻译整理材料,不仅效率低还容易产生歧义。
使用 BERT_Paper_Chinese_Translation 后
- 直接阅读完整且流畅的中文译文,迅速厘清预训练与微调的核心逻辑差异及优势。
- 资源包内已整合所有引用资料的网络连接,一键即可访问原始文献进行深度溯源研究。
- 提供高清 PDF 版及清晰图表预览,支持离线阅读并在关键段落做笔记标注,方便复习。
- 省去翻译环节,将精力集中在模型参数调优上,大幅缩短从理论理解到代码落地的周期。
BERT_Paper_Chinese_Translation 通过消除语言障碍并提供完整索引,让中文开发者能高效吸收前沿 NLP 技术精髓。
运行环境要求
- 未说明
未说明
未说明

快速开始
BERT: 用于语言理解的深度双向 Transformer 预训练 论文的中文翻译
本资源完整地翻译了论文,并且给出了论文中所有引用资料的网络连接,方便对 BERT 感兴趣的朋友们进一步研究 BERT。
- 原文 BERT: 用于语言理解的深度双向 Transformer 预训练,这是 BERT 在 2018 年 11 月发布的版本,与 2019 年 5 月版本 v2 有稍许不同。
- 以下内容是部分预览内容,完整内容查看本资源中的 [Bidirectional_Encoder_Representations_Transformers 翻译.md](Bidirectional_Encoder_Representations_Transformers 翻译.md);
- BERT 论文翻译 [PDF 版下载](BERT 中文翻译 PDF 版.pdf);
- 转载请注明出处,商用请联系译者 袁宵 wangzichaochaochao@gmail.com;
- 未来将继续翻译和解析深度学习相关论文,特别是自然语言处理(NLP)方向的论文。
- 如果你喜欢我的工作,请点亮右上角星星,谢谢 :smiley:
手机扫码阅读:

BERT:预训练的深度双向 Transformer 语言模型
Jacob Devlin;Ming-Wei Chang;Kenton Lee;Kristina Toutanova Google AI 语言团队 {jacobdevlin,mingweichang,kentonl,kristout}@google.com

图 1:预训练模型结构的不同。BERT 使用双向 Transformer。OpenAI GPT 使用从左到右的 Transformer。ELMo 使用独立训练的从左到右和从右到左的 LSTM 的连接来为下游任务生成特征。其中,只有 BERT 表示在所有层中同时受到左右语境的制约。

图 2:BERT 的输入表示。输入嵌入是标记嵌入(词嵌入)、句子嵌入和位置嵌入的总和。
摘要
我们提出了一种新的称为 BERT 的语言表示模型,BERT 代表来自 Transformer 的双向编码器表示(Bidirectional Encoder Representations from Transformers)。不同于最近的语言表示模型(Peters et al., 2018,Radford et al., 2018),BERT 旨在通过联合调节所有层中的左右上下文来预训练深度双向表示。因此,只需要一个额外的输出层,就可以对预训练的 BERT 表示进行微调,从而为广泛的任务(比如回答问题和语言推断任务)创建最先进的模型,而无需对特定于任务进行大量模型结构的修改。
BERT 的概念很简单,但实验效果很强大。它刷新了 11 个自然语言处理(NLP)任务的当前最优结果,包括将 GLUE 基准提升至 80.4%(7.6% 的绝对改进)、将 MultiNLI 的准确率提高到 86.7%(5.6% 的绝对改进),以及将 SQuAD v1.1 的问答测试 F1 得分提高至 93.2 分(提高 1.5 分)——比人类表现还高出 2 分。
1. 介绍
语言模型预训练可以显著提高许多自然语言处理任务的效果(Dai and Le, 2015;Peters et al., 2018;Radford et al., 2018;Howard and Ruder, 2018)。这些任务包括句子级任务,如自然语言推理(Bow-man et al., 2015;Williams et al., 2018)和释义(Dolan and Brockett, 2005),目的是通过对句子的整体分析来预测句子之间的关系,以及标记级任务,如命名实体识别(Tjong Kim Sang and De Meulder, 2003)和 SQuAD 问答(Rajpurkar et al., 2016),模型需要在标记级生成细粒度的输出。
现有的两种方法可以将预训练好的语言模型表示应用到下游任务中:基于特征的和微调。基于特征的方法,如 ELMo(Peters et al., 2018),使用特定于任务的模型结构,其中包含预训练的表示作为附加特征。微调方法,如生成预训练 Transformer (OpenAI GPT)(Radford et al., 2018)模型,然后引入最小的特定于任务的参数,并通过简单地微调预训练模型的参数对下游任务进行训练。在之前的工作中,两种方法在预训练任务中都具有相同的目标函数,即使用单向的语言模型来学习通用的语言表达。
我们认为,当前的技术严重地限制了预训练表示的效果,特别是对于微调方法。主要的局限性是标准语言模型是单向的,这就限制了可以在预训练期间可以使用的模型结构的选择。例如,在 OpenAI GPT 中,作者使用了从左到右的模型结构,其中每个标记只能关注 Transformer 的自注意层中该标记前面的标记(Williams et al., 2018)。这些限制对于句子级别的任务来说是次优的(还可以接受),但当把基于微调的方法用来处理标记级别的任务(如 SQuAD 问答)时可能会造成不良的影响(Rajpurkar et al., 2016),因为在标记级别的任务下,从两个方向分析上下文是至关重要的。
在本文中,我们通过提出 BERT 改进了基于微调的方法:来自 Transformer 的双向编码器表示。受完形填空任务的启发,BERT 通过提出一个新的预训练任务来解决前面提到的单向约束:“遮蔽语言模型”(MLM masked language model)(Taylor, 1953)。遮蔽语言模型从输入中随机遮蔽一些标记,目的是仅根据被遮蔽标记的上下文来预测它对应的原始词汇的 ID(标识符)。与从左到右的语言模型预训练不同,MLM 目标允许表示融合左右上下文,这允许我们预训练一个深层双向 Transformer。除了遮蔽语言模型之外,我们还提出了一个联合预训练文本对来进行“下一个句子预测”的任务。
本文的贡献如下:
- 我们论证了双向预训练对语言表征的重要性。与 Radford et al., 2018 使用单向语言模型进行预训练不同,BERT 使用遮蔽语言模型来实现预训练深层双向表示。这也与 Peters et al., 2018 的研究形成了对比,他们使用了一个由左到右和由右到左的独立训练语言模型的浅层连接。
- 我们表明,预训练的表示消除了许多特定于任务的高度工程化的模型结构的需求。BERT 是第一个基于微调的表示模型,它在大量的句子级和标记级任务上实现了最先进的性能,优于许多特定于任务的结构的模型。
- BERT 为 11 个自然语言处理(NLP)任务提供了最先进的技术。我们还进行大量的消融研究,证明了我们模型的双向本质是最重要的新贡献。代码和预训练模型将可在 goo.gl/language/bert 获取。
……
参考文献
所有参考文献按论文各小节中引用顺序排列,多次引用会多次出现在下面的列表中。
摘要中的参考文献
| BERT 文中简写 | 原始论文标题 | 备注 |
|---|---|---|
| Peters et al., 2018 | 深度上下文词表示 | ELMo |
| Radford et al., 2018 | 利用无监督学习改进语言理解 | OpenAI GPT |
1. 介绍中的参考文献
| BERT 文中简写 | 原始论文标题 | 备注 |
|---|---|---|
| Peters et al., 2018 | 深度上下文词表示 | ELMo |
| Radford et al., 2018 | 利用无监督学习改进语言理解 | OpenAI GPT |
| Dai and Le, 2015 | 半监督序列学习。在神经信息处理系统进展,第 3079–3087 页 | Andrew M. Dai 和 Quoc V Le. 2015 |
| Howard and Ruder, 2018 | 文本分类的通用语言模型微调 | ULMFiT;Jeremy Howard 和 Sebastian Ruder. |
| Bow-man et al., 2015 | 用于学习自然语言推理的大型标注语料库 | Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. |
| Williams et al., 2018 | 通过推理进行句子理解的广泛覆盖挑战语料库 | Adina Williams, Nikita Nangia, and Samuel R Bowman. |
| Dolan and Brockett, 2005 | 自动构建句子释义语料库 | William B Dolan and Chris Brockett. 2005. |
| Tjong Kim Sang and De Meulder, 2003 | CoNLL-2003 共享任务介绍:与语言无关的命名实体识别 | Erik F Tjong Kim Sang and Fien De Meulder. 2003. |
| Rajpurkar et al., 2016 | SQuAD:机器阅读理解的一万多个问题 | SQuAD |
| Taylor, 1953 | “完形填空程序”:一种测量可读性的新工具 | Wilson L Taylor. 1953. |
2. 相关工作中的参考文献
| BERT 文中简写 | 原始论文标题 | 其它 |
|---|---|---|
| Brown et al., 1992 | 基于类别的自然语言 n-gram 模型 | Peter F Brown, Peter V Desouza, Robert L Mercer, Vincent J Della Pietra, and Jenifer C Lai. 1992. |
| Ando and Zhang, 2005 | 从多任务和无标签数据中学习预测结构的框架 | Rie Kubota Ando and Tong Zhang. 2005. |
| Blitzer et al., 2006 | 具有结构对应学习的领域自适应 | John Blitzer, Ryan McDonald, and Fernando Pereira. 2006. |
| Collobert and Weston, 2008 | 自然语言处理 (Natural Language Processing) 的统一架构 | Ronan Collobert and Jason Weston. 2008. |
| Mikolov et al., 2013 | 单词和短语的分布式表示及其组合性 | CBOW 模型;Skip-gram 模型 |
| Pennington et al., 2014 | GloVe:用于单词表示的全局向量 | GloVe |
| Turian et al., 2010 | 单词表示:一种简单通用的半监督学习方法 | Joseph Turian, Lev Ratinov, and Yoshua Bengio. 2010. |
| Kiros et al., 2015 | Skip-Thought 向量 | Skip-Thought 向量 |
| Logeswaran and Lee, 2018 | 学习句子表示的高效框架 | Lajanugen Logeswaran and Honglak Lee. 2018. |
| Le and Mikolov, 2014 | 句子和文档的分布式表示 | Quoc Le and Tomas Mikolov. 2014. |
| Peters et al., 2017 | 使用双向语言模型进行半监督序列标注 | Matthew Peters, Waleed Ammar, Chandra Bhagavatula, and Russell Power. 2017. |
| Peters et al., 2018 | 深度上下文化单词表示 | ELMo |
| Rajpurkar et al., 2016 | SQuAD:机器阅读理解 (Machine Comprehension of Text) 的 10 万 + 个问题 | SQuAD |
| Socher et al., 2013 | 深度移动:用于情感分析 (Sentiment Analysis) 的深度学习 | SST-2 |
| Tjong Kim Sang and De Meulder, 2003 | CoNLL-2003 共享任务介绍:语言无关的命名实体识别 (Named Entity Recognition) | Erik F Tjong Kim Sang and Fien De Meulder. 2003. |
| Dai and Le, 2015 | 半监督序列学习。In Advances in neural information processing systems, pages 3079–3087 | Andrew M Dai and Quoc V Le. 2015 |
| Howard and Ruder, 2018 | 用于文本分类的通用语言模型微调 (Fine-tuning) | ULMFiT;Jeremy Howard and Sebastian Ruder. |
| Radford et al., 2018 | 利用无监督学习 (Unsupervised Learning) 改进语言理解 | OpenAI GPT |
| Wang et al.(2018) | GLUE:自然语言理解的多任务基准和分析平台 | GLUE |
| Con-neau et al., 2017 | 从自然语言推理 (Natural Language Inference) 数据中监督学习通用句子表示 | Alexis Conneau, Douwe Kiela, Holger Schwenk, Loic Barrault, and Antoine Bordes. 2017. |
| McCann et al., 2017 | 翻译中学习:上下文化单词向量 | Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. 2017. |
| Deng et al. | ImageNet:大规模分层图像数据库 | J. Deng,W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. 2009. |
| Yosinski et al., 2014 | 深度神经网络 (Deep Neural Networks) 中的特征可迁移性如何? | Jason Yosinski, Jeff Clune, Yoshua Bengio, and Hod Lipson. 2014. |
3. BERT 中的参考文献
| BERT 文中简写 | 原始论文标题 | 其它 |
|---|---|---|
| Vaswani et al. (2017) | 注意力机制 (Attention Is All You Need) | Transformer |
| Wu et al., 2016 | Google 神经机器翻译 (Neural Machine Translation) 系统:弥合人类与机器翻译之间的差距 | WordPiece |
| Taylor, 1953 | ["Cloze 程序"]:测量可读性 (Readability) 的新工具](https://www.researchgate.net/publication/232539913_Cloze_Procedure_A_New_Tool_For_Measuring_Readability) | Wilson L Taylor. 1953. |
| Vincent et al., 2008 | 提取和组合鲁棒特征的去噪自编码器 (denoising auto-encoders) | 去噪自编码器 |
| Zhu et al., 2015 | 对齐书籍和电影:通过看电影和读书实现故事般的视觉解释 | BooksCorpus (800M 单词) |
| Chelba et al., 2013 | 衡量统计语言建模 (Statistical Language Modeling) 进展的十亿词基准 | Billion Word Benchmark corpus |
| Hendrycks and Gimpel, 2016 | 高斯误差线性单元 (GELUs) | GELU |
4. 实验中的参考文献
5. 消融研究(Ablation Studies)参考文献
| BERT 文中简写 | 原始论文标题 | 其他 |
|---|---|---|
| Vaswani et al. (2017) | Attention Is All You Need | Transformer |
| Al-Rfou et al., 2018 | Character-Level Language Modeling with Deeper Self-Attention |
常见问题
相似工具推荐
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。
PaddleOCR
PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来,转换成计算机可读取的结构化数据,让机器真正“看懂”图文内容。 面对海量纸质或电子文档,PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域,它扮演着连接图像与大型语言模型(LLM)的桥梁角色,能将视觉信息直接转化为文本输入,助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显:不仅支持全球 100 多种语言的识别,还能在 Windows、Linux、macOS 等多个系统上运行,并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目,PaddleOCR 既能满足快速集成的需求,也能支撑前沿的视觉语言研究,是处理文字识别任务的理想选择。
OpenHands
OpenHands 是一个专注于 AI 驱动开发的开源平台,旨在让智能体(Agent)像人类开发者一样理解、编写和调试代码。它解决了传统编程中重复性劳动多、环境配置复杂以及人机协作效率低等痛点,通过自动化流程显著提升开发速度。 无论是希望提升编码效率的软件工程师、探索智能体技术的研究人员,还是需要快速原型验证的技术团队,都能从中受益。OpenHands 提供了灵活多样的使用方式:既可以通过命令行(CLI)或本地图形界面在个人电脑上轻松上手,体验类似 Devin 的流畅交互;也能利用其强大的 Python SDK 自定义智能体逻辑,甚至在云端大规模部署上千个智能体并行工作。 其核心技术亮点在于模块化的软件智能体 SDK,这不仅构成了平台的引擎,还支持高度可组合的开发模式。此外,OpenHands 在 SWE-bench 基准测试中取得了 77.6% 的优异成绩,证明了其解决真实世界软件工程问题的能力。平台还具备完善的企业级功能,支持与 Slack、Jira 等工具集成,并提供细粒度的权限管理,适合从个人开发者到大型企业的各类用户场景。