[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-thunlp--PLMpapers":3,"tool-thunlp--PLMpapers":64},[4,17,27,35,48,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",141543,2,"2026-04-06T11:32:54",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85013,"2026-04-06T11:09:19",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":23,"last_commit_at":54,"category_tags":55,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[14,26,13,15,46],{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":23,"last_commit_at":62,"category_tags":63,"status":16},519,"PaddleOCR","PaddlePaddle\u002FPaddleOCR","PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。\n\n面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。\n\nPaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。",74963,"2026-04-06T11:16:39",[15,26,13,46],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":80,"owner_twitter":79,"owner_website":81,"owner_url":82,"languages":79,"stars":83,"forks":84,"last_commit_at":85,"license":86,"difficulty_score":87,"env_os":88,"env_gpu":89,"env_ram":89,"env_deps":90,"category_tags":93,"github_topics":79,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":94,"updated_at":95,"faqs":96,"releases":97},4652,"thunlp\u002FPLMpapers","PLMpapers","Must-read Papers on pre-trained language models.","PLMpapers 是一个专注于预训练语言模型（PLM）的开源知识宝库，旨在为自然语言处理领域的探索者梳理必读经典论文。自 2018 年 PLM 技术爆发以来，相关研究层出不穷，初学者往往难以把握发展脉络。PLMpapers 通过精选代表性工作，并提供一张清晰的家族演进图谱，直观展示了从早期的 ELMo、ULMFiT 到 BERT、GPT 系列等关键模型的技术传承与演变关系，有效解决了文献检索困难和知识体系碎片化的问题。\n\n除了论文清单，该项目还整理了清华大学团队开源的 CPM 系列等大型模型资源，并收录了关于预训练模型过去、现在与未来的权威综述，为深入理解技术全貌提供了坚实支撑。其独特的可视化图表不仅逻辑严密，还开放了 PPT 源文件，方便用户直接用于学术汇报或教学分享。\n\nPLMpapers 特别适合 NLP 领域的研究人员、算法工程师以及高校师生使用。无论是希望快速入门的新手，还是需要追踪前沿动态的资深专家，都能从中高效获取核心资讯，构建系统的知识框架。作为一个由社区共同维护的项目，它始终以开放的态度欢迎修正与建议，是学习预训练语言模型不可或缺的指南针。","# Must-Read Papers on Pre-trained Language Models (PLMs)\n\nContributed by [Xiaozhi Wang](https:\u002F\u002Fbakser.github.io\u002F) and [Zhengyan Zhang](https:\u002F\u002Fgithub.com\u002Fzzy14).\n\n## Introduction\n\nPre-trained Languge Model (PLM) has achieved great success in NLP since 2018. In this repo, we list some representative work on PLMs and show their relationship with a diagram. Feel free to distribute or use it! [Here](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPLMpapers\u002Fblob\u002Fmaster\u002FPLMfamily.pptx) you can get the source PPT file of the diagram if you want to use it in your presentation.\n\n![PLMfamiily](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthunlp_PLMpapers_readme_e8185b951a04.jpg)\n\nCorrections and suggestions are welcomed.\n\n## Open PLMs\n\nWe keep training and releasing large-scale PLMs in recent years, which are listed as follows. Welcome to try them. \n\n1. **CPM-2**. Cost-Effective Pre-trained Language Models, 2021. [[Model&Code](https:\u002F\u002Fgithub.com\u002FTsinghuaAI\u002FCPM-2)]\n2. **CPM-1**. Chinese Pre-trained Language Model, 2020. [[Model&Code](https:\u002F\u002Fgithub.com\u002FTsinghuaAI\u002FCPM-Generate)] [[Paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.00413)]\n3. **OpenCLap**. Open-source Chinese Language Pre-Trained Model Zoo, 2019. [[Link](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FOpenCLaP)]\n\n## Survey\n\n**Pre-Trained Models: Past, Present and Future**. *Xu Han, Zhengyan Zhang, Ning Ding, Yuxian Gu, Xiao Liu, Yuqi Huo, Jiezhong Qiu, Liang Zhang, Wentao Han, Minlie Huang, Qin Jin, Yanyan Lan, Yang Liu, Zhiyuan Liu, Zhiwu Lu, Xipeng Qiu, Ruihua Song, Jie Tang, Ji-Rong Wen, Jinhui Yuan, Wayne Xin Zhao, Jun Zhu*. arXiv:2106.07139 2021. [[pdf](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.07139)]\n\n## Papers on PLMs Models\n\n1. **Semi-supervised Sequence Learning**. *Andrew M. Dai, Quoc V. Le*. NIPS 2015. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1511.01432.pdf)]\n2. **context2vec: Learning Generic Context Embedding with Bidirectional LSTM**. *Oren Melamud, Jacob Goldberger, Ido Dagan*. CoNLL 2016. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FK16-1006.pdf)] [[project](http:\u002F\u002Fu.cs.biu.ac.il\u002F~nlp\u002Fresources\u002Fdownloads\u002Fcontext2vec\u002F)] (**context2vec**)\n3. **Unsupervised Pretraining for Sequence to Sequence Learning**. *Prajit Ramachandran, Peter J. Liu, Quoc V. Le*. EMNLP 2017. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1611.02683.pdf)] (**Pre-trained seq2seq**)\n4. **Deep contextualized word representations**. *Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee and Luke Zettlemoyer*. NAACL 2018. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.05365.pdf)] [[project](https:\u002F\u002Fallennlp.org\u002Felmo)] (**ELMo**)\n5. **Universal Language Model Fine-tuning for Text Classification**. *Jeremy Howard and Sebastian Ruder*. ACL 2018. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP18-1031)] [[project](http:\u002F\u002Fnlp.fast.ai\u002Fcategory\u002Fclassification.html)] (**ULMFiT**)\n6. **Improving Language Understanding by Generative Pre-Training**. *Alec Radford, Karthik Narasimhan, Tim Salimans and Ilya Sutskever*. Preprint. [[pdf](https:\u002F\u002Fs3-us-west-2.amazonaws.com\u002Fopenai-assets\u002Fresearch-covers\u002Flanguage-unsupervised\u002Flanguage_understanding_paper.pdf)] [[project](https:\u002F\u002Fopenai.com\u002Fblog\u002Flanguage-unsupervised\u002F)] (**GPT**)\n7. **BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding**. *Jacob Devlin, Ming-Wei Chang, Kenton Lee and Kristina Toutanova*. NAACL 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.04805.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert)]\n8. **Language Models are Unsupervised Multitask Learners**. *Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei and Ilya Sutskever*. Preprint. [[pdf](https:\u002F\u002Fd4mucfpksywv.cloudfront.net\u002Fbetter-language-models\u002Flanguage_models_are_unsupervised_multitask_learners.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgpt-2)] (**GPT-2**)\n9. **ERNIE: Enhanced Language Representation with Informative Entities**. *Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun and Qun Liu*. ACL 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1139)] [[code & model](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FERNIE)] (**ERNIE (Tsinghua)** )\n10. **ERNIE: Enhanced Representation through Knowledge Integration**. *Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian and Hua Wu*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09223.pdf)] [[code](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FERNIE\u002Ftree\u002Fdevelop\u002FERNIE)] (**ERNIE (Baidu)** )\n11. **Defending Against Neural Fake News**. *Rowan Zellers, Ari Holtzman, Hannah Rashkin, Yonatan Bisk, Ali Farhadi, Franziska Roesner, Yejin Choi*. NeurIPS 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.12616.pdf)] [[project](https:\u002F\u002Frowanzellers.com\u002Fgrover\u002F)] (**Grover**)\n12. **Cross-lingual Language Model Pretraining**. *Guillaume Lample, Alexis Conneau*. NeurIPS 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1901.07291.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FXLM)] (**XLM**)\n13. **Multi-Task Deep Neural Networks for Natural Language Understanding**. *Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao*. ACL 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1441)] [[code & model](https:\u002F\u002Fgithub.com\u002Fnamisan\u002Fmt-dnn)] (**MT-DNN**)\n14. **MASS: Masked Sequence to Sequence Pre-training for Language Generation**. *Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu*. ICML 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.02450.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FMASS)]\n15. **Unified Language Model Pre-training for Natural Language Understanding and Generation**. *Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou, Hsiao-Wuen Hon*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.03197.pdf)] (**UniLM**)\n16. **XLNet: Generalized Autoregressive Pretraining for Language Understanding**. *Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le*. NeurIPS 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08237.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fzihangdai\u002Fxlnet)]\n17. **RoBERTa: A Robustly Optimized BERT Pretraining Approach**. *Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.11692.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ffairseq)]\n18. **SpanBERT: Improving Pre-training by Representing and Predicting Spans**. *Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.10529.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FSpanBERT)]\n19. **Knowledge Enhanced Contextual Word Representations**. *Matthew E. Peters, Mark Neumann, Robert L. Logan IV, Roy Schwartz, Vidur Joshi, Sameer Singh, Noah A. Smith*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.04164.pdf)] (**KnowBert**) \n20. **VisualBERT: A Simple and Performant Baseline for Vision and Language**. *Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.03557.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fuclanlp\u002Fvisualbert)]\n21. **ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks**. *Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee*. NeurIPS 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.02265.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fjiasenlu\u002Fvilbert_beta)]\n22. **VideoBERT: A Joint Model for Video and Language Representation Learning**. *Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid*. ICCV 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.01766.pdf)] \n23. **LXMERT: Learning Cross-Modality Encoder Representations from Transformers**. *Hao Tan, Mohit Bansal*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.07490.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fairsplay\u002Flxmert)]\n24. **VL-BERT: Pre-training of Generic Visual-Linguistic Representations**. *Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, Jifeng Dai*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.08530.pdf)]\n25. **Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training**. *Gen Li, Nan Duan, Yuejian Fang, Ming Gong, Daxin Jiang, Ming Zhou*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.06066.pdf)]\n26. **K-BERT: Enabling Language Representation with Knowledge Graph**. *Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, Ping Wang*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.07606.pdf)]\n27. **Fusion of Detected Objects in Text for Visual Question Answering**. *Chris Alberti, Jeffrey Ling, Michael Collins, David Reitter*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.05054.pdf)] (**B2T2**)\n28. **Contrastive Bidirectional Transformer for Temporal Representation Learning**. *Chen Sun, Fabien Baradel, Kevin Murphy, Cordelia Schmid*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.05743.pdf)] (**CBT**)\n29. **ERNIE 2.0: A Continual Pre-training Framework for Language Understanding**. *Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.12412v1.pdf)] [[code](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FERNIE\u002Fblob\u002Fdevelop\u002FREADME.md)] \n30. **75 Languages, 1 Model: Parsing Universal Dependencies Universally**. *Dan Kondratyuk, Milan Straka*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.02099.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fhyperparticle\u002Fudify)] (**UDify**)\n31. **Pre-Training with Whole Word Masking for Chinese BERT**. *Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, Guoping Hu*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08101.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm\u002Fblob\u002Fmaster\u002FREADME_EN.md)] (**Chinese-BERT-wwm**)\n32. **UNITER: Learning UNiversal Image-TExt Representations**. *Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11740.pdf)]\n34. **MultiFiT: Efficient Multi-lingual Language Model Fine-tuning**.  *Julian Eisenschlos, Sebastian Ruder, Piotr Czapla, Marcin Kardas, Sylvain Gugger, Jeremy Howard*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.04761.pdf)] [[code & model](http:\u002F\u002Fnlp.fast.ai\u002Fclassification\u002F2019\u002F09\u002F10\u002Fmultifit.html)]\n35. **Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer**.  *Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.10683.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Ftext-to-text-transfer-transformer)] (**T5**)\n36. **BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension**. *Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer*. ACL 2020. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.13461.pdf)]\n37. **ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators**. *Kevin Clark, Minh-Thang Luong, Quoc V. Le, Christopher D. Manning*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)]\n38. **A Mutual Information Maximization Perspective of Language Representation Learning**. *Lingpeng Kong, Cyprien de Masson d'Autume, Lei Yu, Wang Ling, Zihang Dai, Dani Yogatama*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=Syx79eBKwr)]\n39. **StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding**. *Wei Wang, Bin Bi, Ming Yan, Chen Wu, Jiangnan Xia, Zuyi Bao, Liwei Peng, Luo Si*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=BJgQ4lSFPH)]\n41. **Poly-encoders: Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scorings**. *Samuel Humeau, Kurt Shuster, Marie-Anne Lachaux, Jason Weston*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=SkxgnnNFvH)]\n43. **FreeLB: Enhanced Adversarial Training for Language Understanding**. *Chen Zhu, Yu Cheng, Zhe Gan, Siqi Sun, Thomas Goldstein, Jingjing Liu*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=BygzbyHFvB)]\n44. **Multilingual Alignment of Contextual Word Representations**. *Steven Cao, Nikita Kitaev, Dan Klein*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xCMyBtPS)]\n45. **TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data**. *Pengcheng Yin, Graham Neubig, Wen-tau Yih, Sebastian Riedel*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.745.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FTaBERT)]\n46. **BERTRAM: Improved Word Embeddings Have Big Impact on Contextualized Model Performance**. *Timo Schick, Hinrich Schutze*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.368.pdf)]\n47. **TAPAS: Weakly Supervised Table Parsing via Pre-training**. *Jonathan Herzig, Paweł Krzysztof Nowak, Thomas Müller, Francesco Piccinno, Julian Martin Eisenschlos*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.398.pdf)]\n48. **On the Sentence Embeddings from Pre-trained Language Models**. *Bohan Li, Hao Zhou, Junxian He, Mingxuan Wang, Yiming Yang, Lei Li*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.733)]\n49. **An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training**. *Kristjan Arumae, Qing Sun, Parminder Bhatia*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.394.pdf)]\n50. **Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information**. *Zehui Lin, Xiao Pan, Mingxuan Wang, Xipeng Qiu, Jiangtao Feng, Hao Zhou, Lei Li*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.210.pdf)]\n51. **Pre-Training Transformers as Energy-Based Cloze Models**. *Kevin Clark, Minh-Thang Luong, Quoc Le, Christopher D. Manning*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.20)]\n52. **PatchBERT: Just-in-Time, Out-of-Vocabulary Patching**. *Sangwhan Moon, Naoaki Okazaki*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.631.pdf)]\n53. **Pre-training via Paraphrasing**. *Mike Lewis, Marjan Ghazvininejad, Gargi Ghosh, Armen Aghajanyan, Sida Wang, Luke Zettlemoyer*. NeurIPS 2020. [[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002Fd6f1dd034aabde7657e6680444ceff62-Paper.pdf)]\n54. **ConvBERT: Improving BERT with Span-based Dynamic Convolution**. *Zi-Hang Jiang, Weihao Yu, Daquan Zhou, Yunpeng Chen, Jiashi Feng, Shuicheng Yan*. NeurIPS 2020. [[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002F96da2f590cd7246bbde0051047b0d6f7-Paper.pdf)]\n\n## Papers on Model Compression & Acceleration\n\n1. **TinyBERT: Distilling BERT for Natural Language Understanding**. *Xiaoqi Jiao, Yichun Yin, Lifeng Shang, Xin Jiang, Xiao Chen, Linlin Li, Fang Wang, Qun Liu*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.10351v2.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fhuawei-noah\u002FPretrained-Language-Model\u002Ftree\u002Fmaster\u002FTinyBERT)]\n2. **Distilling Task-Specific Knowledge from BERT into Simple Neural Networks**. *Raphael Tang, Yao Lu, Linqing Liu, Lili Mou, Olga Vechtomova, Jimmy Lin*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.12136.pdf)]\n3. **Patient Knowledge Distillation for BERT Model Compression**. *Siqi Sun, Yu Cheng, Zhe Gan, Jingjing Liu*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.09355.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fintersun\u002FPKD-for-BERT-Model-Compression)]\n4. **Model Compression with Multi-Task Knowledge Distillation for Web-scale Question Answering System**. *Ze Yang, Linjun Shou, Ming Gong, Wutao Lin, Daxin Jiang*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09636.pdf)]\n5. **PANLP at MEDIQA 2019: Pre-trained Language Models, Transfer Learning and Knowledge Distillation**. *Wei Zhu, Xiaofeng Zhou, Keqiang Wang, Xun Luo, Xiepeng Li, Yuan Ni, Guotong Xie*. The 18th BioNLP workshop. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW19-5040)]\n6. **Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding**. *Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09482.pdf)] [[code & model](https:\u002F\u002Fgithub.com\u002Fnamisan\u002Fmt-dnn)]\n7. **Well-Read Students Learn Better: The Impact of Student Initialization on Knowledge Distillation**. *Iulia Turc, Ming-Wei Chang, Kenton Lee, Kristina Toutanova*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.08962.pdf)]\n8. **Small and Practical BERT Models for Sequence Labeling**. *Henry Tsai, Jason Riesa, Melvin Johnson, Naveen Arivazhagan, Xin Li, Amelia Archer*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.00100.pdf)]\n9. **Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT**. *Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.05840.pdf)]\n10. **ALBERT: A Lite BERT for Self-supervised Learning of Language Representations**.  *Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=H1eA7AEtvS)]\n11. **Extreme Language Model Compression with Optimal Subwords and Shared Projections**. *Sanqiang Zhao, Raghav Gupta, Yang Song, Denny Zhou*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11687)]\n12. **DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter**. *Victor Sanh, Lysandre Debut, Julien Chaumond, Thomas Wolf*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.01108)]\n13. **Reducing Transformer Depth on Demand with Structured Dropout**.  *Angela Fan, Edouard Grave, Armand Joulin*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=SylO2yStDr)]\n14. **Thieves on Sesame Street! Model Extraction of BERT-based APIs**. *Kalpesh Krishna, Gaurav Singh Tomar, Ankur P. Parikh, Nicolas Papernot, Mohit Iyyer*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=Byl5NREFDr)]\n15. **DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference**. *Ji Xin, Raphael Tang, Jaejun Lee, Yaoliang Yu, Jimmy Lin*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.204.pdf)]\n16. **Contrastive Distillation on Intermediate Representations for Language Model Compression**. *Siqi Sun, Zhe Gan, Yuwei Fang, Yu Cheng, Shuohang Wang, Jingjing Liu*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.36)]\n17. **BERT-of-Theseus: Compressing BERT by Progressive Module Replacing**. *Canwen Xu, Wangchunshu Zhou, Tao Ge, Furu Wei, Ming Zhou*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.633.pdf)]\n18. **TernaryBERT: Distillation-aware Ultra-low Bit BERT**. *Wei Zhang, Lu Hou, Yichun Yin, Lifeng Shang, Xiao Chen, Xin Jiang, Qun Liu*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.37)]\n19. **When BERT Plays the Lottery, All Tickets Are Winning**. *Sai Prasanna, Anna Rogers, Anna Rumshisky*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.259.pdf)]\n20. **Funnel-Transformer: Filtering out Sequential Redundancy for Efficient Language Processing**. *Zihang Dai, Guokun Lai, Yiming Yang, Quoc Le*. NeurIPS 2020. [[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002F2cd2915e69546904e4e5d4a2ac9e1652-Paper.pdf)]\n21. **DynaBERT: Dynamic BERT with Adaptive Width and Depth**. *Lu Hou, Zhiqi Huang, Lifeng Shang, Xin Jiang, Xiao Chen, Qun Liu*. NeurIPS 2020. [[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002F6f5216f8d89b086c18298e043bfe48ed-Paper.pdf)]\n22. **BERT Loses Patience: Fast and Robust Inference with Early Exit**. *Wangchunshu Zhou, Canwen Xu, Tao Ge, Julian McAuley, Ke Xu, Furu Wei*. NeurIPS 2020. [[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002Fd4dd111a4fd973394238aca5c05bebe3-Paper.pdf)]\n\n## Papers on Model Analysis\n\n1. **Revealing the Dark Secrets of BERT**. *Olga Kovaleva, Alexey Romanov, Anna Rogers, Anna Rumshisky*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.08593)] \n2. **How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations**. *Betty van Aken, Benjamin Winter, Alexander Löser, Felix A. Gers*. CIKM 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.04925.pdf)]\n3. **Are Sixteen Heads Really Better than One?**. *Paul Michel, Omer Levy, Graham Neubig*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.10650.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fpmichel31415\u002Fare-16-heads-really-better-than-1)]\n4. **Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment**. *Di Jin, Zhijing Jin, Joey Tianyi Zhou, Peter Szolovits*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.11932.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fjind11\u002FTextFooler)]\n5. **BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model**. *Alex Wang, Kyunghyun Cho*. NeuralGen 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1902.04094.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fnyu-dl\u002Fbert-gen)]\n6. **Linguistic Knowledge and Transferability of Contextual Representations**. *Nelson F. Liu, Matt Gardner, Yonatan Belinkov, Matthew E. Peters, Noah A. Smith*. NAACL 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FN19-1112)]\n7. **What Does BERT Look At? An Analysis of BERT's Attention**. *Kevin Clark, Urvashi Khandelwal, Omer Levy, Christopher D. Manning*. BlackBoxNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.04341.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fclarkkev\u002Fattention-analysis)]\n8. **Open Sesame: Getting Inside BERT's Linguistic Knowledge**. *Yongjie Lin, Yi Chern Tan, Robert Frank*. BlackBoxNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.01698.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fyongjie-lin\u002Fbert-opensesame)]\n9. **Analyzing the Structure of Attention in a Transformer Language Model**. *Jesse Vig, Yonatan Belinkov*. BlackBoxNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.04284.pdf)]\n10. **Blackbox meets blackbox: Representational Similarity and Stability Analysis of Neural Language Models and Brains**. *Samira Abnar, Lisa Beinborn, Rochelle Choenni, Willem Zuidema*. BlackBoxNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.01539.pdf)]\n11. **BERT Rediscovers the Classical NLP Pipeline**. *Ian Tenney, Dipanjan Das, Ellie Pavlick*. ACL 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1452)]\n12. **How multilingual is Multilingual BERT?**. *Telmo Pires, Eva Schlinger, Dan Garrette*. ACL 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1493)]\n13. **What Does BERT Learn about the Structure of Language?**. *Ganesh Jawahar, Benoît Sagot, Djamé Seddah*. ACL 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1356)]\n14. **Beto, Bentz, Becas: The Surprising Cross-Lingual Effectiveness of BERT**. *Shijie Wu, Mark Dredze*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09077.pdf)]\n15. **How Contextual are Contextualized Word Representations? Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings**. *Kawin Ethayarajh*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.00512.pdf)]\n16. **Probing Neural Network Comprehension of Natural Language Arguments**. *Timothy Niven, Hung-Yu Kao*. ACL 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1459)] [[code](https:\u002F\u002Fgithub.com\u002FIKMLab\u002Farct2)]\n17. **Universal Adversarial Triggers for Attacking and Analyzing NLP**. *Eric Wallace, Shi Feng, Nikhil Kandpal, Matt Gardner, Sameer Singh*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.07125.pdf)] [[code](https:\u002F\u002Fgithub.com\u002FEric-Wallace\u002Funiversal-triggers)]\n18. **The Bottom-up Evolution of Representations in the Transformer: A Study with Machine Translation and Language Modeling Objectives**. *Elena Voita, Rico Sennrich, Ivan Titov*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.01380.pdf)]\n19. **Do NLP Models Know Numbers? Probing Numeracy in Embeddings**. *Eric Wallace, Yizhong Wang, Sujian Li, Sameer Singh, Matt Gardner*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.07940.pdf)]\n20. **Investigating BERT's Knowledge of Language: Five Analysis Methods with NPIs**. *Alex Warstadt, Yu Cao, Ioana Grosu, Wei Peng, Hagen Blix, Yining Nie, Anna Alsop, Shikha Bordia, Haokun Liu, Alicia Parrish, Sheng-Fu Wang, Jason Phang, Anhad Mohananey, Phu Mon Htut, Paloma Jeretič, Samuel R. Bowman*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.02597.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Falexwarstadt\u002Fdata_generation)]\n21. **Visualizing and Understanding the Effectiveness of BERT**. *Yaru Hao, Li Dong, Furu Wei, Ke Xu*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.05620.pdf)]\n22. **Visualizing and Measuring the Geometry of BERT**. *Andy Coenen, Emily Reif, Ann Yuan, Been Kim, Adam Pearce, Fernanda Viégas, Martin Wattenberg*. NeurIPS 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.02715.pdf)]\n23. **On the Validity of Self-Attention as Explanation in Transformer Models**. *Gino Brunner, Yang Liu, Damián Pascual, Oliver Richter, Roger Wattenhofer*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.04211.pdf)]\n24. **Transformer Dissection: An Unified Understanding for Transformer's Attention via the Lens of Kernel**. *Yao-Hung Hubert Tsai, Shaojie Bai, Makoto Yamada, Louis-Philippe Morency, Ruslan Salakhutdinov*. EMNLP 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.11775.pdf)]\n25. **Language Models as Knowledge Bases?** *Fabio Petroni, Tim Rocktäschel, Patrick Lewis, Anton Bakhtin, Yuxiang Wu, Alexander H. Miller, Sebastian Riedel*. EMNLP 2019, [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.01066.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FLAMA)]\n26. **To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks**. *Matthew E. Peters, Sebastian Ruder, Noah A. Smith*. RepL4NLP 2019, [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW19-4302.pdf)]\n27. **On the Cross-lingual Transferability of Monolingual Representations**. *Mikel Artetxe, Sebastian Ruder, Dani Yogatama*. Preprint, [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.11856.pdf)] [[dataset](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002FXQuAD)]\n28. **A Structural Probe for Finding Syntax in Word Representations**. *John Hewitt, Christopher D. Manning*. NAACL 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FN19-1419.pdf)]\n29. **Assessing BERT’s Syntactic Abilities**. *Yoav Goldberg*. Technical Report. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1901.05287.pdf)]\n30. **What do you learn from context? Probing for sentence structure in contextualized word representations**. *Ian Tenney, Patrick Xia, Berlin Chen, Alex Wang, Adam Poliak, R. Thomas McCoy, Najoung Kim, Benjamin Van Durme, Samuel R. Bowman,\nDipanjan Das, and Ellie Pavlick*. ICLR 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.06316.pdf)]\n31. **Can You Tell Me How to Get Past Sesame Street? Sentence-Level Pretraining Beyond Language Modeling**. *Alex Wang, Jan Hula, Patrick Xia, Raghavendra Pappagari, R. Thomas McCoy, Roma Patel, Najoung Kim, Ian Tenney, Yinghui Huang, Katherin Yu, Shuning Jin, Berlin Chen, Benjamin Van Durme, Edouard Grave, Ellie Pavlick, Samuel R. Bowman*. ACL 2019. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.10860.pdf)]\n31. **BERT is Not an Interlingua and the Bias of Tokenization**. *Jasdeep Singh, Bryan McCann, Richard Socher, and Caiming Xiong*. DeepLo 2019. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FD19-6106.pdf)] [[dataset](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002Fxnli_extension)]\n32. **What BERT is not: Lessons from a new suite of psycholinguistic diagnostics for language models**. *Allyson Ettinger*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.13528)] [[code](https:\u002F\u002Fgithub.com\u002Faetting\u002Flm-diagnostics)]\n33. **How Language-Neutral is Multilingual BERT?**. *Jindřich Libovický, Rudolf Rosa, and Alexander Fraser*. Preprint. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1911.03310)]\n34. **Cross-Lingual Ability of Multilingual BERT: An Empirical Study**. *Karthikeyan K, Zihan Wang, Stephen Mayhew, Dan Roth*. ICLR 2020. [[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=HJeT3yrtDr)]\n35. **Finding Universal Grammatical Relations in Multilingual BERT**. *Ethan A. Chi, John Hewitt, Christopher D. Manning*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.493.pdf)]\n36. **Negated and Misprimed Probes for Pretrained Language Models: Birds Can Talk, But Cannot Fly**. *Nora Kassner, Hinrich Schütze*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.698.pdf)]\n36. **Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT**. *Zhiyong Wu, Yun Chen, Ben Kao, Qun Liu*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.383.pdf)]\n37. **Birds have four legs?! NumerSense: Probing Numerical Commonsense Knowledge of Pre-trained Language Models**. *Bill Yuchen Lin, Seyeon Lee, Rahul Khanna and Xiang Ren*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.557)]\n38. **Identifying Elements Essential for BERT’s Multilinguality**. *Philipp Dufter, Hinrich Schütze*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.358.pdf)]\n39. **AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts**. *Taylor Shin, Yasaman Razeghi, Robert L Logan IV, Eric Wallace, Sameer Singh*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.346.pdf)]\n39. **The Lottery Ticket Hypothesis for Pre-trained BERT Networks**. *Tianlong Chen, Jonathan Frankle, Shiyu Chang, Sijia Liu, Yang Zhang, Zhangyang Wang, Michael Carbin*. NeurIPS 2020. [[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002Fb6af2c9703f203a2794be03d443af2e3-Paper.pdf)]\n\n## Papers on Finetuning or Adaptation\n\n1. **SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization**. *Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, Tuo Zhao*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.197.pdf)]\n2. **Do you have the right scissors? Tailoring Pre-trained Language Models via Monte-Carlo Methods**. *Ning Miao, Yuxuan Song, Hao Zhou, Lei Li*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.314.pdf)]\n3. **ExpBERT: Representation Engineering with Natural Language Explanations**. *Shikhar Murty, Pang Wei Koh, Percy Liang*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.190.pdf)]\n4. **Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks**. *Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey, Noah A. Smith*. ACL 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.740.pdf)]\n5. **Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting**. *Sanyuan Chen, Yutai Hou, Yiming Cui, Wanxiang Che, Ting Liu, Xiangzhan Yu*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.634.pdf)]\n6. **Masking as an Efficient Alternative to Finetuning for Pretrained Language Models**. *Mengjie Zhao, Tao Lin, Fei Mi, Martin Jaggi, Hinrich Schütze*. EMNLP 2020. [[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.174.pdf)]\n7. **CogLTX: Applying BERT to Long Texts**. *Ming Ding, Chang Zhou, Hongxia Yang, Jie Tang*. NeurIPS 2020. [[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002F96671501524948bc3937b4b30d0e57b9-Paper.pdf)]\n\n## Papers on Prompt-based Tuning\n\nHere is our new paper list on prompt-based tuning for pre-trained language models. [[repo](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPromptPapers)]\n\n## Tutorial & Resource\n\n1. **Transfer Learning in Natural Language Processing**. *Sebastian Ruder, Matthew E. Peters, Swabha Swayamdipta, Thomas Wolf*. NAACL 2019. [[slides](https:\u002F\u002Fdocs.google.com\u002Fpresentation\u002Fd\u002F1fIhGikFPnb7G5kr58OvYC3GN4io7MznnM0aAgadvJfc\u002Fedit?usp=sharing)] \n2. **Transformers: State-of-the-art Natural Language Processing**. *Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, Jamie Brew*. EMNLP 2020. [[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.03771.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)]\n","# 预训练语言模型（PLMs）必读论文\n\n由 [Xiaozhi Wang](https:\u002F\u002Fbakser.github.io\u002F) 和 [Zhengyan Zhang](https:\u002F\u002Fgithub.com\u002Fzzy14) 贡献。\n\n## 简介\n\n自2018年以来，预训练语言模型（PLM）在自然语言处理领域取得了巨大成功。在这个仓库中，我们列出了一些具有代表性的PLM相关工作，并通过一张图展示了它们之间的关系。欢迎大家分享或使用！[这里](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPLMpapers\u002Fblob\u002Fmaster\u002FPLMfamily.pptx)可以获取该图的PPT源文件，以便在您的演示文稿中使用。\n\n![PLMfamiily](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthunlp_PLMpapers_readme_e8185b951a04.jpg)\n\n欢迎大家提出修正和建议。\n\n## 开源PLMs\n\n近年来，我们持续训练并发布了多个大规模PLM，具体如下。欢迎尝试使用！\n\n1. **CPM-2**。经济高效的预训练语言模型，2021年。[[模型&代码](https:\u002F\u002Fgithub.com\u002FTsinghuaAI\u002FCPM-2)]\n2. **CPM-1**。中文预训练语言模型，2020年。[[模型&代码](https:\u002F\u002Fgithub.com\u002FTsinghuaAI\u002FCPM-Generate)] [[论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.00413)]\n3. **OpenCLap**。开源中文语言预训练模型库，2019年。[[链接](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FOpenCLaP)]\n\n## 综述\n\n**预训练模型：过去、现在与未来**。*Xu Han, Zhengyan Zhang, Ning Ding, Yuxian Gu, Xiao Liu, Yuqi Huo, Jiezhong Qiu, Liang Zhang, Wentao Han, Minlie Huang, Qin Jin, Yanyan Lan, Yang Liu, Zhiyuan Liu, Zhiwu Lu, Xipeng Qiu, Ruihua Song, Jie Tang, Ji-Rong Wen, Jinhui Yuan, Wayne Xin Zhao, Jun Zhu*。arXiv:2106.07139 2021年。[[pdf](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.07139)]\n\n## PLMs相关论文\n\n1. **半监督序列学习**。*安德鲁·M·戴、阮文魁*。NIPS 2015。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1511.01432.pdf)]\n2. **context2vec：使用双向LSTM学习通用上下文嵌入**。*奥伦·梅拉穆德、雅各布·戈德伯格、伊多·达甘*。CoNLL 2016。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FK16-1006.pdf)] [[项目](http:\u002F\u002Fu.cs.biu.ac.il\u002F~nlp\u002Fresources\u002Fdownloads\u002Fcontext2vec\u002F)] (**context2vec**)\n3. **面向序列到序列学习的无监督预训练**。*普拉吉特·拉马昌德兰、彼得·J·刘、阮文魁*。EMNLP 2017。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1611.02683.pdf)] (**预训练seq2seq**)\n4. **深度上下文化词表示**。*马修·E·彼得斯、马克·诺伊曼、莫希特·伊耶尔、马特·加德纳、克里斯托弗·克拉克、肯顿·李和卢克·泽特勒莫耶*。NAACL 2018。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.05365.pdf)] [[项目](https:\u002F\u002Fallennlp.org\u002Felmo)] (**ELMo**)\n5. **用于文本分类的通用语言模型微调**。*杰里米·霍华德和塞巴斯蒂安·鲁德尔*。ACL 2018。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP18-1031)] [[项目](http:\u002F\u002Fnlp.fast.ai\u002Fcategory\u002Fclassification.html)] (**ULMFiT**)\n6. **通过生成式预训练提升语言理解能力**。*亚历克·拉德福德、卡尔提克·纳拉西曼、蒂姆·萨利曼斯和伊利亚·苏茨克维尔*。预印本。[[pdf](https:\u002F\u002Fs3-us-west-2.amazonaws.com\u002Fopenai-assets\u002Fresearch-covers\u002Flanguage-unsupervised\u002Flanguage_understanding_paper.pdf)] [[项目](https:\u002F\u002Fopenai.com\u002Fblog\u002Flanguage-unsupervised\u002F)] (**GPT**)\n7. **BERT：面向语言理解的深度双向Transformer预训练**。*雅各布·德夫林、明伟·张、肯顿·李和克里斯蒂娜·陶塔诺娃*。NAACL 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.04805.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Fbert)]\n8. **语言模型是无监督的多任务学习者**。*亚历克·拉德福德、杰弗里·吴、雷文·柴尔德、大卫·卢安、达里奥·阿莫迪和伊利亚·苏茨克维尔*。预印本。[[pdf](https:\u002F\u002Fd4mucfpksywv.cloudfront.net\u002Fbetter-language-models\u002Flanguage_models_are_unsupervised_multitask_learners.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fopenai\u002Fgpt-2)] (**GPT-2**)\n9. **ERNIE：融入信息实体的增强语言表示**。*郑燕章、许汉、智远刘、辛江、孙茂松和刘群*。ACL 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1139)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FERNIE)] (**清华ERNIE**)\n10. **ERNIE：通过知识融合增强表示**。*孙宇、王书焕、李玉坤、冯世坤、陈旭义、张汉、田鑫、朱丹曦、田浩和吴华*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09223.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FERNIE\u002Ftree\u002Fdevelop\u002FERNIE)] (**百度ERNIE**)\n11. **防御神经网络生成的假新闻**。*罗温·泽勒斯、阿里·霍尔茨曼、汉娜·拉什金、约纳坦·比斯克、阿里·法哈迪、弗兰齐斯卡·罗斯纳、叶津·崔*。NeurIPS 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.12616.pdf)] [[项目](https:\u002F\u002Frowanzellers.com\u002Fgrover\u002F)] (**Grover**)\n12. **跨语言语言模型预训练**。*纪尧姆·朗普尔、阿莱克西斯·孔纽*。NeurIPS 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1901.07291.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FXLM)] (**XLM**)\n13. **面向自然语言理解的多任务深度神经网络**。*刘晓东、何鹏程、陈维珠、高建峰*。ACL 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1441)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fnamisan\u002Fmt-dnn)] (**MT-DNN**)\n14. **MASS：面向语言生成的掩码序列到序列预训练**。*宋凯涛、谭旭、秦涛、陆建峰、刘铁岩*。ICML 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.02450.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002FMASS)]\n15. **面向自然语言理解和生成的统一语言模型预训练**。*李东、南洋、王文辉、魏福如、刘晓东、王宇、高建峰、周明、韩锡文*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.03197.pdf)] (**UniLM**)\n16. **XLNet：面向语言理解的广义自回归预训练**。*杨志林、戴子航、杨一鸣、海梅·卡博内尔、鲁斯兰·萨拉胡丁诺夫、阮文魁*。NeurIPS 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08237.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fzihangdai\u002Fxlnet)]\n17. **RoBERTa：稳健优化的BERT预训练方法**。*尹涵刘、迈尔·奥特、纳曼·戈亚尔、杜静菲、曼达尔·乔希、陈丹琪、奥默·列维、迈克·刘易斯、卢克·泽特勒莫耶、维塞林·斯托亚诺夫*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.11692.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fpytorch\u002Ffairseq)]\n18. **SpanBERT：通过表示和预测跨度改进预训练**。*曼达尔·乔希、陈丹琪、尹涵刘、丹尼尔·S·韦尔德、卢克·泽特勒莫耶、奥默·列维*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.10529.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FSpanBERT)]\n19. **知识增强的上下文词表示**。*马修·E·彼得斯、马克·诺伊曼、罗伯特·L·洛根四世、罗伊·施瓦茨、维杜尔·乔希、萨米尔·辛格、诺亚·A·史密斯*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.04164.pdf)] (**KnowBert**)\n20. **VisualBERT：视觉与语言任务的简单高效基线**。*李云年·哈罗德·李、马克·亚茨卡尔、达·殷、谢志睿、常凯威*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.03557.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fuclanlp\u002Fvisualbert)]\n21. **ViLBERT：面向视觉-语言任务的预训练无关任务视觉语言表示**。*陆嘉森、德拉夫·巴特拉、黛薇·帕里克、斯蒂芬·李*。NeurIPS 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.02265.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fjiasenlu\u002Fvilbert_beta)]\n22. **VideoBERT：视频与语言表示学习的联合模型**。*孙晨、奥斯汀·迈尔斯、卡尔·冯德里克、凯文·墨菲、科黛莉亚·施密德*。ICCV 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.01766.pdf)]\n23. **LXMERT：从Transformer中学习跨模态编码器表示**。*谭浩、莫希特·班萨尔*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.07490.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fairsplay\u002Flxmert)]\n24. **VL-BERT：通用视觉-语言表示的预训练**。*苏伟杰、朱锡洲、曹岳、李彬、陆磊威、魏福如、戴继丰*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.08530.pdf)]\n25. **Unicoder-VL：通过跨模态预训练实现视觉与语言的通用编码器**。*李根、段楠、方跃坚、龚明、蒋大新、周明*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.06066.pdf)]\n26. **K-BERT：利用知识图谱实现语言表示**。*刘伟杰、周鹏、赵哲、王志若、鞠奇、邓浩唐、王平*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.07606.pdf)]\n27. **用于视觉问答的文本中检测到的对象融合**。*克里斯·阿尔伯蒂、杰弗里·凌、迈克尔·柯林斯、大卫·赖特*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.05054.pdf)] (**B2T2**)\n28. **用于时间表示学习的对比双向Transformer**。*孙晨、法比安·巴拉德尔、凯文·墨菲、科黛莉亚·施密德*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.05743.pdf)] (**CBT**)\n29. **ERNIE 2.0：面向语言理解的持续预训练框架**。*孙宇、王书焕、李玉坤、冯世坤、田浩、吴华、王海峰*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.12412v1.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FERNIE\u002Fblob\u002Fdevelop\u002FREADME.md)]\n30. **75种语言，1个模型：通用解析通用依存关系**。*丹·孔德拉秋克、米兰·斯特拉卡*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.02099.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fhyperparticle\u002Fudify)] (**UDify**)\n31. **面向中文BERT的全词掩码预训练**。*崔一鸣、车万祥、刘婷、秦兵、杨子青、王士瑾、胡国平*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08101.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fymcui\u002FChinese-BERT-wwm\u002Fblob\u002Fmaster\u002FREADME_EN.md)] (**中文BERT-wwm**)\n32. **UNITER：学习通用图像-文本表示**。*陈彦纯、李林洁、于立成、艾哈迈德·埃尔·霍利、费萨尔·艾哈迈德、甘哲、程宇、刘晶晶*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11740.pdf)]\n34. **MultiFiT：高效的多语言语言模型微调**。*朱利安·艾森施洛斯、塞巴斯蒂安·鲁德尔、皮奥特·查普拉、马尔钦·卡尔达斯、西尔万·古格尔、杰里米·霍华德*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.04761.pdf)] [[代码与模型](http:\u002F\u002Fnlp.fast.ai\u002Fclassification\u002F2019\u002F09\u002F10\u002Fmultifit.html)]\n35. **探索统一文本到文本Transformer的迁移学习极限**。*科林·拉菲尔、诺姆·沙泽尔、亚当·罗伯茨、凯瑟琳·李、沙兰·纳兰格、迈克尔·马特纳、颜琦周、李伟、彼得·J·刘*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.10683.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fgoogle-research\u002Ftext-to-text-transfer-transformer)] (**T5**)\n36. **BART：面向自然语言生成、翻译和理解的去噪序列到序列预训练**。*迈克·刘易斯、尹涵刘、纳曼·戈亚尔、马尔詹·加兹维涅贾德、阿卜杜勒拉赫曼·穆罕默德、奥默·列维、维斯·斯托亚诺夫、卢克·泽特勒莫耶*。ACL 2020。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.13461.pdf)]\n37. **ELECTRA：将文本编码器作为判别器而非生成器进行预训练**。*凯文·克拉克、明堂隆、阮文魁、克里斯托弗·D·曼宁*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xMH1BtvB)]\n38. **语言表示学习的互信息最大化视角**。*孔令鹏、西普里安·德·马松·达图姆、于雷、王玲、戴子航、尤加塔玛*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=Syx79eBKwr)]\n39. **StructBERT：将语言结构融入预训练以实现深度语言理解**。*王伟、毕斌、严明、吴辰、夏江南、鲍祖义、彭立伟、罗思*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=BJgQ4lSFPH)]\n41. **Poly-encoders：用于快速准确多句评分的架构和预训练策略**。*塞缪尔·于莫、库尔特·舒斯特、玛丽-安妮·拉绍、杰森·韦斯顿*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=SkxgnnNFvH)]\n43. **FreeLB：增强的语言理解对抗训练**。*朱晨、程宇、甘哲、孙思琪、托马斯·戈德斯坦、刘晶晶*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=BygzbyHFvB)]\n44. **上下文词表示的多语言对齐**。*史蒂文·曹、尼基塔·基塔耶夫、丹·克莱因*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=r1xCMyBtPS)]\n45. **TaBERT：面向文本和表格数据联合理解的预训练**。*尹鹏程、格雷厄姆·诺伊比格、易文涛、塞巴斯蒂安·里德尔*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.745.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FTaBERT)]\n46. **BERTRAM：改进的词嵌入对上下文化模型性能有重大影响**。*蒂莫·希克、欣里希·舒策*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.368.pdf)]\n47. **TAPAS：通过预训练实现弱监督的表格解析**。*乔纳森·赫尔齐格、帕韦乌·克日什托夫·诺瓦克、托马斯·穆勒、弗朗切斯科·皮奇诺、朱利安·马丁·艾森施洛斯*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.398.pdf)]\n48. **关于预训练语言模型的句子嵌入**。*李波翰、周浩、何俊贤、王明轩、杨一鸣、李雷*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.733)]\n49. **面向高效多领域语言模型预训练的实证研究**。*克里斯蒂安·阿鲁梅、孙清、帕尔敏德·巴蒂亚*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.394.pdf)]\n50. **利用对齐信息进行多语言神经机器翻译的预训练**。*林泽辉、潘晓、王明轩、邱锡鹏、冯江涛、周浩、李雷*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.210.pdf)]\n51. **将Transformer作为基于能量的完形填空模型进行预训练**。*凯文·克拉克、明堂隆、阮文魁、克里斯托弗·D·曼宁*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.20.pdf)]\n52. **PatchBERT：即时、词汇外补丁**。*文尚焕、冈崎直晃*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.631.pdf)]\n53. **通过释义进行预训练**。*迈克·刘易斯、马尔詹·加兹维涅贾德、加尔吉·戈什、阿尔门·阿加贾尼扬、王思达、卢克·泽特勒莫耶*。NeurIPS 2020。[[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002Fd6f1dd034aabde7657e6680444ceff62-Paper.pdf)]\n54. **ConvBERT：基于跨度的动态卷积改进BERT**。*蒋子航、于伟豪、周大泉、陈云鹏、冯家仕、严水成*。NeurIPS 2020。[[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002F96da2f590cd7246bbde0051047b0d6f7-Paper.pdf)]\n\n## 模型压缩与加速相关论文\n\n1. **TinyBERT：为自然语言理解蒸馏BERT**。*Xiaoqi Jiao、Yichun Yin、Lifeng Shang、Xin Jiang、Xiao Chen、Linlin Li、Fang Wang、Qun Liu*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.10351v2.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fhuawei-noah\u002FPretrained-Language-Model\u002Ftree\u002Fmaster\u002FTinyBERT)]\n2. **将特定任务知识从BERT蒸馏到简单神经网络**。*Raphael Tang、Yao Lu、Linqing Liu、Lili Mou、Olga Vechtomova、Jimmy Lin*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.12136.pdf)]\n3. **用于BERT模型压缩的耐心知识蒸馏**。*Siqi Sun、Yu Cheng、Zhe Gan、Jingjing Liu*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.09355.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fintersun\u002FPKD-for-BERT-Model-Compression)]\n4. **面向大规模问答系统的多任务知识蒸馏模型压缩**。*Ze Yang、Linjun Shou、Ming Gong、Wutao Lin、Daxin Jiang*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09636.pdf)]\n5. **PANLP在MEDIQA 2019上的应用：预训练语言模型、迁移学习与知识蒸馏**。*Wei Zhu、Xiaofeng Zhou、Keqiang Wang、Xun Luo、Xiepeng Li、Yuan Ni、Guotong Xie*。第18届BioNLP研讨会。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW19-5040)]\n6. **通过知识蒸馏改进用于自然语言理解的多任务深度神经网络**。*Xiaodong Liu、Pengcheng He、Weizhu Chen、Jianfeng Gao*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09482.pdf)] [[代码与模型](https:\u002F\u002Fgithub.com\u002Fnamisan\u002Fmt-dnn)]\n7. **学识渊博的学生学得更好：学生初始化对知识蒸馏的影响**。*Iulia Turc、Ming-Wei Chang、Kenton Lee、Kristina Toutanova*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.08962.pdf)]\n8. **用于序列标注的小型实用BERT模型**。*Henry Tsai、Jason Riesa、Melvin Johnson、Naveen Arivazhagan、Xin Li、Amelia Archer*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.00100.pdf)]\n9. **Q-BERT：基于Hessian矩阵的超低精度量化BERT**。*Sheng Shen、Zhen Dong、Jiayu Ye、Linjian Ma、Zhewei Yao、Amir Gholami、Michael W. Mahoney、Kurt Keutzer*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.05840.pdf)]\n10. **ALBERT：用于自监督语言表示学习的轻量级BERT**。*Zhenzhong Lan、Mingda Chen、Sebastian Goodman、Kevin Gimpel、Piyush Sharma、Radu Soricut*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=H1eA7AEtvS)]\n11. **利用最优子词和共享投影实现极端的语言模型压缩**。*Sanqiang Zhao、Raghav Gupta、Yang Song、Denny Zhou*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11687)]\n12. **DistilBERT：BERT的蒸馏版本——更小、更快、更便宜、更轻**。*Victor Sanh、Lysandre Debut、Julien Chaumond、Thomas Wolf*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.01108)]\n13. **通过结构化Dropout按需减少Transformer深度**。*Angela Fan、Edouard Grave、Armand Joulin*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=SylO2yStDr)]\n14. **芝麻街上的窃贼！基于BERT的API模型提取**。*Kalpesh Krishna、Gaurav Singh Tomar、Ankur P. Parikh、Nicolas Papernot、Mohit Iyyer*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=Byl5NREFDr)]\n15. **DeeBERT：动态提前退出以加速BERT推理**。*Ji Xin、Raphael Tang、Jaejun Lee、Yaoliang Yu、Jimmy Lin*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.204.pdf)]\n16. **针对语言模型压缩的中间表示对比蒸馏**。*Siqi Sun、Zhe Gan、Yuwei Fang、Yu Cheng、Shuohang Wang、Jingjing Liu*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.36)]\n17. **忒修斯之船式的BERT：通过渐进式模块替换压缩BERT**。*Canwen Xu、Wangchunshu Zhou、Tao Ge、Furu Wei、Ming Zhou*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.633.pdf)]\n18. **TernaryBERT：感知蒸馏的超低比特BERT**。*Wei Zhang、Lu Hou、Yichun Yin、Lifeng Shang、Xiao Chen、Xin Jiang、Qun Liu*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.37)]\n19. **当BERT参与彩票时，所有彩票都是中奖的**。*Sai Prasanna、Anna Rogers、Anna Rumshisky*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.259.pdf)]\n20. **Funnel-Transformer：过滤序列冗余以实现高效语言处理**。*Zihang Dai、Guokun Lai、Yiming Yang、Quoc Le*。NeurIPS 2020。[[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002F2cd2915e69546904e4e5d4a2ac9e1652-Paper.pdf)]\n21. **DynaBERT：具有自适应宽度和深度的动态BERT**。*Lu Hou、Zhiqi Huang、Lifeng Shang、Xin Jiang、Xiao Chen、Qun Liu*。NeurIPS 2020。[[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002F6f5216f8d89b086c18298e043bfe48ed-Paper.pdf)]\n22. **BERT失去耐心：通过提前退出实现快速且鲁棒的推理**。*Wangchunshu Zhou、Canwen Xu、Tao Ge、Julian McAuley、Ke Xu、Furu Wei*。NeurIPS 2020。[[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002Fd4dd111a4fd973394238aca5c05bebe3-Paper.pdf)]\n\n## 模型分析相关论文\n\n1. **揭示BERT的黑暗秘密**。*奥尔加·科瓦列娃、阿列克谢·罗曼诺夫、安娜·罗杰斯、安娜·鲁姆希斯基*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.08593)]\n2. **BERT是如何回答问题的？对Transformer表示的逐层分析**。*贝蒂·范·阿肯、本杰明·温特、亚历山大·勒瑟、菲利克斯·A·格斯*。CIKM 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.04925.pdf)]\n3. **十六个注意力头真的比一个更好吗？**。*保罗·米歇尔、奥默·列维、格雷厄姆·纽比*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.10650.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fpmichel31415\u002Fare-16-heads-really-better-than-1)]\n4. **BERT真的稳健吗？针对文本分类和蕴含任务的自然语言攻击强基准**。*季进、金志静、周天一、彼得·索洛维茨*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.11932.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fjind11\u002FTextFooler)]\n5. **BERT有嘴巴，它必须说话：将BERT视为马尔可夫随机场语言模型**。*亚历克斯·王、权赫贤*。NeuralGen 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1902.04094.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fnyu-dl\u002Fbert-gen)]\n6. **上下文表示的语言学知识与迁移性**。*尼尔森·F·刘、马特·加德纳、约纳坦·贝林科夫、马修·E·彼得斯、诺亚·A·史密斯*。NAACL 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FN19-1112)]\n7. **BERT在关注什么？对BERT注意力机制的分析**。*凯文·克拉克、乌尔瓦希·坎德尔瓦尔、奥默·列维、克里斯托弗·D·曼宁*。BlackBoxNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.04341.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fclarkkev\u002Fattention-analysis)]\n8. **芝麻开门：深入BERT的语言学知识**。*林永杰、陈义琛、罗伯特·弗兰克*。BlackBoxNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.01698.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Fyongjie-lin\u002Fbert-opensesame)]\n9. **分析Transformer语言模型中注意力结构**。*杰西·维格、约纳坦·贝林科夫*。BlackBoxNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.04284.pdf)]\n10. **黑盒遇见黑盒：神经语言模型与大脑的表征相似性和稳定性分析**。*萨米拉·阿布纳尔、丽莎·贝因博恩、罗谢尔·乔埃尼、威廉·祖伊德玛*。BlackBoxNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.01539.pdf)]\n11. **BERT重新发现经典的NLP流水线**。*伊恩·滕尼、迪潘詹·达斯、艾莉·帕夫利克*。ACL 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1452)]\n12. **多语言BERT到底有多“多语言”？**。*泰尔莫·皮雷斯、伊娃·施林格、丹·加雷特*。ACL 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1493)]\n13. **BERT学到了关于语言结构的哪些知识？**。*加内什·贾瓦哈尔、贝努瓦·萨戈、贾梅·塞达*。ACL 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1356)]\n14. **Beto、Bentz、Becas：BERT令人惊讶的跨语言有效性**。*吴世杰、马克·德雷兹*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09077.pdf)]\n15. **上下文化词表示究竟有多“上下文”？比较BERT、ELMo和GPT-2嵌入的几何特性**。*卡温·埃塔亚拉吉*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.00512.pdf)]\n16. **探测神经网络对自然语言论证的理解**。*蒂莫西·尼文、洪宇·考*。ACL 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP19-1459)] [[代码](https:\u002F\u002Fgithub.com\u002FIKMLab\u002Farct2)]\n17. **用于攻击和分析NLP的通用对抗触发器**。*埃里克·华莱士、石峰、尼基尔·坎德帕尔、马特·加德纳、萨米尔·辛格*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.07125.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002FEric-Wallace\u002Funiversal-triggers)]\n18. **Transformer中表示的自底向上演化：基于机器翻译和语言建模目标的研究**。*埃琳娜·沃伊塔、里科·森尼希、伊万·季托夫*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.01380.pdf)]\n19. **NLP模型知道数字吗？嵌入中的数感能力探测**。*埃里克·华莱士、王一中、李素坚、萨米尔·辛格、马特·加德纳*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.07940.pdf)]\n20. **探究BERT的语言知识：使用NPIs的五种分析方法**。*亚历克斯·沃斯塔特、曹宇、伊欧娜·格罗苏、魏鹏、哈根·布利克斯、倪颖宁、安娜·阿尔索普、希卡·博尔迪亚、刘浩坤、艾丽西亚·帕里什、王圣富、杰森·庞、安哈德·莫哈内、蒲蒙·胡特、帕洛玛·耶雷蒂奇、塞缪尔·R·鲍曼*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.02597.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Falexwarstadt\u002Fdata_generation)]\n21. **可视化并理解BERT的有效性**。*郝雅茹、董丽、魏福儒、许科*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.05620.pdf)]\n22. **BERT几何特性的可视化与度量**。*安迪·科嫩、艾米丽·赖夫、安妮·袁、彬·金、亚当·皮尔斯、费尔南达·维埃加斯、马丁·瓦滕伯格*。NeurIPS 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.02715.pdf)]\n23. **作为Transformer模型解释的自注意力机制的有效性探讨**。*吉诺·布鲁纳、刘洋、达米安·帕斯夸尔、奥利弗·里希特、罗杰·瓦滕霍费尔*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.04211.pdf)]\n24. **Transformer剖析：通过核函数视角统一理解Transformer的注意力机制**。*姚宏·蔡、白绍杰、山田诚、路易斯-菲利普·莫伦西、鲁斯兰·萨拉胡丁诺夫*。EMNLP 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.11775.pdf)]\n25. **语言模型能作为知识库吗？** *法比奥·佩特罗尼、蒂姆·罗克塔谢尔、帕特里克·刘易斯、安东·巴赫京、吴宇翔、亚历山大·H·米勒、塞巴斯蒂安·里德尔*。EMNLP 2019，[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.01066.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002FLAMA)]\n26. **微调还是不微调？将预训练表示适配到多样化任务**。*马修·E·彼得斯、塞巴斯蒂安·鲁德尔、诺亚·A·史密斯*。RepL4NLP 2019，[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW19-4302.pdf)]\n27. **单语表示的跨语言迁移性研究**。*米克尔·阿特切、塞巴斯蒂安·鲁德尔、丹尼·约加塔马*。预印本，[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.11856.pdf)] [[数据集](https:\u002F\u002Fgithub.com\u002Fdeepmind\u002FXQuAD)]\n28. **一种用于在词表示中寻找句法的结构性探针**。*约翰·休伊特、克里斯托弗·D·曼宁*。NAACL 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FN19-1419.pdf)]\n29. **评估BERT的句法能力**。*约阿夫·戈德堡*。技术报告。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1901.05287.pdf)]\n30. **从上下文中你能学到什么？对上下文化词表示中句子结构的探测**。*伊恩·滕尼、帕特里克·夏、柏林·陈、亚历克斯·王、亚当·波利亚克、R·托马斯·麦科伊、金娜琼、本杰明·范·杜尔梅、塞缪尔·R·鲍曼、迪潘詹·达斯和艾莉·帕夫利克*。ICLR 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.06316.pdf)]\n31. **你能告诉我如何穿过芝麻街吗？超越语言建模的句子级预训练**。*亚历克斯·王、扬·胡拉、帕特里克·夏、拉格文德拉·帕帕加里、R·托马斯·麦科伊、罗马·帕特尔、金娜琼、伊恩·滕尼、黄英辉、于嘉婷、金淑宁、柏林·陈、本杰明·范·杜尔梅、爱德华·格雷夫、艾莉·帕夫利克、塞缪尔·R·鲍曼*。ACL 2019。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1812.10860.pdf)]\n31. **BERT不是中间语，以及分词的偏差**。*贾斯迪普·辛格、布莱恩·麦肯、理查德·索彻和熊才明*。DeepLo 2019。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FD19-6106.pdf)] [[数据集](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002Fxnli_extension)]\n32. **BERT并非如此：来自一套新的心理语言学诊断工具对语言模型的启示**。*艾莉森·埃廷格*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.13528.pdf)] [[代码](https:\u002F\u002Fgithub.com\u002Faetting\u002Flm-diagnostics)]\n33. **多语言BERT到底有多“语言中性”？**。*金德里希·利博维茨基、鲁道夫·罗萨和亚历山大·弗雷泽*。预印本。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1911.03310)]\n34. **多语言BERT的跨语言能力：一项实证研究**。*卡尔提凯扬·K、王子涵、斯蒂芬·梅休、丹·罗斯*。ICLR 2020。[[pdf](https:\u002F\u002Fopenreview.net\u002Fpdf?id=HJeT3yrtDr)]\n35. **在多语言BERT中寻找通用语法关系**。*伊桑·A·奇、约翰·休伊特、克里斯托弗·D·曼宁*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.493.pdf)]\n36. **针对预训练语言模型的否定式和误引导探针：鸟会说话，但不会飞**。*诺拉·卡斯纳、欣里希·舒策*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.698.pdf)]\n36. **扰动掩码：无需参数的探针，用于分析和解释BERT**。*吴志勇、陈云、郭斌、刘群*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.383.pdf)]\n37. **鸟有四条腿？！NumSense：探测预训练语言模型的数值常识知识**。*比尔·余晨林、李世妍、拉胡尔·坎纳和任翔*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.557.pdf)]\n38. **识别BERT多语言能力的关键要素**。*菲利普·杜夫特、欣里希·舒策*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.358.pdf)]\n39. **AUTOPROMPT：利用自动生成的提示从语言模型中提取知识**。*泰勒·申、亚萨曼·拉泽吉、罗伯特·L·洛根四世、埃里克·华莱士、萨米尔·辛格*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.346.pdf)]\n39. **预训练BERT网络的彩票假说**。*陈天龙、乔纳森·弗兰克尔、常诗宇、刘思佳、张阳、王章阳、迈克尔·卡宾*。NeurIPS 2020。[[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002Fb6af2c9703f203a2794be03d443af2e3-Paper.pdf)]\n\n## 关于微调或适配的论文\n\n1. **SMART：通过原则性正则化优化实现预训练自然语言模型的鲁棒高效微调**。*姜浩明、何鹏程、陈伟柱、刘晓东、高剑锋、赵拓*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.197.pdf)]\n2. **你有合适的剪刀吗？基于蒙特卡洛方法裁剪预训练语言模型**。*苗宁、宋宇轩、周浩、李磊*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.314.pdf)]\n3. **ExpBERT：利用自然语言解释进行表征工程**。*希卡尔·穆尔蒂、庞伟科、珀西·梁*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.190.pdf)]\n4. **不要停止预训练：将语言模型适配到特定领域和任务**。*苏钦·古鲁兰根、安娜·马拉索维奇、斯瓦巴·斯瓦扬迪普塔、凯尔·洛、伊兹·贝尔塔吉、道格·唐尼、诺亚·A·史密斯*。ACL 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.acl-main.740.pdf)]\n5. **回忆与学习：减少遗忘的深度预训练语言模型微调方法**。*陈三元、侯宇泰、崔一鸣、车万祥、刘挺、于向展*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.634.pdf)]\n6. **掩码机制：作为预训练语言模型微调的高效替代方案**。*赵孟杰、林涛、米飞、马丁·雅吉、欣里希·舒策*。EMNLP 2020。[[pdf](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002F2020.emnlp-main.174.pdf)]\n7. **CogLTX：将BERT应用于长文本**。*丁明、周畅、杨红霞、唐杰*。NeurIPS 2020。[[pdf](https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F2020\u002Ffile\u002F96671501524948bc3937b4b30d0e57b9-Paper.pdf)]\n\n## 基于提示的微调相关论文\n\n这是我们关于预训练语言模型基于提示微调的新论文列表。[[repo](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPromptPapers)]\n\n## 教程与资源\n\n1. **自然语言处理中的迁移学习**。*塞巴斯蒂安·鲁德尔、马修·E·彼得斯、斯瓦巴·斯瓦扬迪普塔、托马斯·沃尔夫*。NAACL 2019。[[slides](https:\u002F\u002Fdocs.google.com\u002Fpresentation\u002Fd\u002F1fIhGikFPnb7G5kr58OvYC3GN4io7MznnM0aAgadvJfc\u002Fedit?usp=sharing)] \n2. **Transformers：最先进的自然语言处理工具**。*托马斯·沃尔夫、利桑德雷·德布特、维克多·桑、朱利安·肖蒙、克莱芒·德拉昂、安东尼·莫伊、皮埃里克·西斯塔克、蒂姆·罗尔特、雷米·卢夫、摩根·芬托维茨、杰米·布鲁*。EMNLP 2020。[[pdf](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.03771.pdf)] [[code](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)]","# PLMpapers 快速上手指南\n\nPLMpapers 并非一个可直接安装运行的软件库，而是一个**预训练语言模型（PLM）必读论文清单与资源索引**。它整理了从 2015 年至今具有代表性的 PLM 工作（如 BERT, GPT, ERNIE, T5 等），并提供了论文链接、代码仓库及模型地址。\n\n本指南将指导你如何利用该资源快速定位所需模型并进行环境搭建。\n\n## 环境准备\n\n由于本仓库主要提供论文索引和外部模型链接，你需要根据具体想复现的模型（如 BERT, RoBERTa, CPM 等）准备相应的深度学习环境。以下是通用的基础环境要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+), macOS, 或 Windows (WSL2)\n*   **Python**: 3.7 或更高版本\n*   **深度学习框架**: PyTorch (1.6+) 或 TensorFlow (2.0+)，具体取决于目标模型\n*   **依赖管理**: `pip` 或 `conda`\n*   **网络环境**: 访问 GitHub 和 arXiv 可能需要加速工具；部分国内模型（如 CPM, ERNIE）支持国内源下载。\n\n## 安装步骤\n\nPLMpapers 本身无需安装，只需克隆仓库获取论文列表和架构图源码。若需运行具体模型，请跳转至对应模型的官方仓库进行安装。\n\n### 1. 获取论文清单与资源索引\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPLMpapers.git\ncd PLMpapers\n```\n\n### 2. 安装通用 NLP 开发环境（以 Hugging Face Transformers 为例）\n\n大多数现代 PLM（如 BERT, RoBERTa, T5, BART）可通过 `transformers` 库直接加载。推荐使用国内镜像源加速安装：\n\n```bash\n# 使用清华源安装 transformers 及相关依赖\npip install transformers torch torchvision torchaudio -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. 获取特定国产模型（可选）\n\n如果你关注列表中提到的国产开源模型（如 CPM 系列或清华\u002F百度 ERNIE），需单独克隆其仓库：\n\n**示例：安装清华 CPM-2**\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FTsinghuaAI\u002FCPM-2.git\ncd CPM-2\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n**示例：安装百度 ERNIE**\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FERNIE.git\ncd ERNIE\n# 需先安装 PaddlePaddle (推荐使用国内源)\npip install paddlepaddle -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n\n### 1. 查阅论文与架构图\n进入克隆后的目录，查看 `README.md` 获取完整论文列表。如需在汇报中使用经典的 **PLM 家族演进图**，可直接使用根目录下的图片文件或 PPT 源码：\n*   图片路径：`PLMfamily.jpg`\n*   PPT 源码：[下载链接](https:\u002F\u002Fgithub.com\u002Fthunlp\u002FPLMpapers\u002Fblob\u002Fmaster\u002FPLMfamily.pptx)\n\n### 2. 快速加载一个经典模型 (以 BERT 为例)\n根据列表中第 7 项 **BERT** 的指引，使用 `transformers` 库即可快速加载预训练模型进行推理：\n\n```python\nfrom transformers import BertTokenizer, BertModel\n\n# 加载分词器和模型\ntokenizer = BertTokenizer.from_pretrained('bert-base-uncased')\nmodel = BertModel.from_pretrained('bert-base-uncased')\n\n# 输入文本\ntext = \"Pre-trained language models are powerful.\"\ninputs = tokenizer(text, return_tensors=\"pt\")\n\n# 前向传播\noutputs = model(**inputs)\nlast_hidden_states = outputs.last_hidden_state\n\nprint(last_hidden_states.shape)\n```\n\n### 3. 加载国产模型 (以 CPM-1 为例)\n根据列表中第 2 项 **CPM-1** 的指引，使用其官方接口：\n\n```python\n# 假设已按照 CPM-1 仓库要求安装好环境\nimport cpm_generate\n\n# 初始化模型 (具体参数需参考 CPM-1 官方文档)\n# 此处仅为伪代码示例，展示如何结合列表中的资源进行使用\nmodel = cpm_generate.load_model(\"path\u002Fto\u002Fcpm-1-checkpoint\")\noutput = model.generate(\"人工智能是\")\nprint(output)\n```\n\n> **提示**：对于列表中列出的其他模型（如 XLNet, RoBERTa, UniLM 等），请直接点击 README 中对应的 `[code & model]` 链接，前往官方仓库获取最准确的运行脚本和权重文件。","某高校 NLP 实验室的研究生正在撰写关于“预训练语言模型演进”的综述论文，急需梳理从 ELMo 到 BERT 再到 CPM 的技术脉络。\n\n### 没有 PLMpapers 时\n- **文献检索零散低效**：需要在 Google Scholar、arXiv 和各个会议官网间反复切换搜索，难以一次性找全从 2015 年半监督序列学习到最新大模型的关键论文。\n- **技术演进关系模糊**：面对海量独立论文，难以直观理清模型间的继承与改进关系（如 GPT 系列与 BERT 的区别，或 ERNIE 的不同版本），导致综述逻辑混乱。\n- **资源获取成本高**：找到论文后，还需单独寻找对应的开源代码、预训练模型权重或项目主页，常因链接失效或信息缺失而浪费数小时。\n- **缺乏权威筛选**：容易陷入非核心工作的细节中，难以快速识别出像 ULMFiT、BERT 这样真正具有里程碑意义的“必读”工作。\n\n### 使用 PLMpapers 后\n- **一站式核心库构建**：直接利用整理好的清单，瞬间获取从早期 context2vec 到最新 CPM-2 的代表性论文列表，覆盖完整发展史。\n- **可视化脉络梳理**：借助仓库提供的家族图谱（PLMfamily）及 PPT 源文件，清晰掌握各模型间的演化逻辑，迅速搭建起论文的叙述框架。\n- **资源链路直达**：每个条目均附带论文 PDF、代码仓库及模型下载链接，实现了从理论阅读到复现实验的无缝衔接。\n- **精准聚焦重点**：基于清华 NLP 团队的专业筛选，直接锁定高价值文献，避免了在低质量研究中浪费时间，显著提升科研效率。\n\nPLMpapers 将原本需要数天整理的碎片化信息浓缩为一张清晰的知识地图，让研究者能专注于创新而非资料搜集。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fthunlp_PLMpapers_c64144ff.png","thunlp","THUNLP","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fthunlp_13da7b2e.png","Natural Language Processing Lab at Tsinghua University",null,"thunlp@gmail.com","http:\u002F\u002Fnlp.csai.tsinghua.edu.cn","https:\u002F\u002Fgithub.com\u002Fthunlp",3362,432,"2026-04-02T09:47:35","MIT",1,"","未说明",{"notes":91,"python":89,"dependencies":92},"该仓库主要是一个预训练语言模型（PLM）的论文列表和资源汇总，并非一个可直接运行的单一软件工具。文中列出的模型（如 CPM-2, BERT, GPT-2 等）各自拥有独立的代码仓库和运行环境要求，需参考文中提供的具体链接获取相应模型的部署指南。",[],[15,46],"2026-03-27T02:49:30.150509","2026-04-07T06:14:05.117026",[],[]]