[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-DengBoCong--nlp-paper":3,"tool-DengBoCong--nlp-paper":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",151918,2,"2026-04-12T11:33:05",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":72,"owner_avatar_url":73,"owner_bio":74,"owner_company":75,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":86,"forks":87,"last_commit_at":88,"license":89,"difficulty_score":90,"env_os":91,"env_gpu":91,"env_ram":91,"env_deps":92,"category_tags":96,"github_topics":98,"view_count":32,"oss_zip_url":78,"oss_zip_packed_at":78,"status":17,"created_at":107,"updated_at":108,"faqs":109,"releases":110},6863,"DengBoCong\u002Fnlp-paper","nlp-paper","自然语言处理领域下的相关论文（附阅读笔记），复现模型以及数据处理等（代码含TensorFlow和PyTorch两版本）","nlp-paper 是一个专为自然语言处理（NLP）爱好者打造的开源知识库与实战指南。它系统性地整理了按时间排序的优质学术论文，不仅提供论文清单，更针对经典或创新思路的文章附带了详细的精读笔记，帮助读者快速把握核心思想。\n\n对于许多学习者和研究者而言，阅读论文后难以复现模型或缺乏高质量代码参考是常见痛点。nlp-paper 直击这一难题，提供了基于 TensorFlow 和 PyTorch 双框架的模型复现代码及数据处理脚本，覆盖从文本相似度、对话系统到大模型、预训练等数十个细分领域。此外，项目还内置了便捷的本地搜索工具，让用户能高效检索和归档海量文献。\n\n无论是希望深入钻研算法原理的科研人员，还是急需代码参考进行项目开发的工程师，亦或是想要系统构建 NLP 知识体系的学生，都能从中获益。其独特的“论文笔记 + 双版本代码 + 分类索引”模式，极大地降低了前沿技术的学习门槛，是连接理论研究与工程实践的优秀桥梁。","\u003Ch1 align=\"center\">NLP-Paper\u003C\u002Fh1>\n\u003Cdiv align=\"center\">\n\n[![Blog](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fblog-@DengBoCong-blue.svg?style=social)](https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fdengbocong)\n[![Paper Support](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpaper-repo-blue.svg?style=social)](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)\n![Stars Thanks](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FStars-thanks-brightgreen.svg?style=social&logo=trustpilot)\n![PRs Welcome](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPRs-welcome-brightgreen.svg?style=social&logo=appveyor)\n\n\u003C\u002Fdiv>\n\n\n更新一些在我学习过程中阅读过的且感觉不错的论文，对于一些经典或思路很新奇的论文，会进行精读，并写一些阅读笔记同步上传更新。(内容同步更新到[知乎](https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fdengbocong)、[CSDN](https:\u002F\u002Fdengbocong.blog.csdn.net\u002F))，**论文按照时间顺序排放**。\n\n**注：**\n+ 文本相似度计算相关的复现代码以及工具包（Tf\u002FPytorch双版本）在这个仓库 ☞ [Text-Similarity](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Ftext-similarity)\n+ 对话系统构建项目在这个仓库 ☞ [Nlp-Dialogue](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-dialogue)\n+ 对部分复现论文代码以及NLP其他工具代码放在这 ☞ [paper-code](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fpaper\u002Ftree\u002Fmaster\u002Fpaper-code)\n\n为了方便查找论文以及归档，提供了搜索工具，使用方式如下：\n```\npython3 search_kits.py\n```\n\u003Cdiv align=center>\n\u003Cimg height=\"350\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDengBoCong_nlp-paper_readme_8015c547d9e9.gif\" alt=\"Search kits\" title=\"Search kits\">\n\u003C\u002Fdiv>\u003Cbr>\n\n# Contents | 内容\n\u003Cdiv align=\"center\">\n    \n&nbsp;&nbsp;[大模型](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[聚类](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[向量召回](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话系统](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话状态管理](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[机器学习](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[语言模型](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[数据集](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[文本相似度\u002F匹配\u002F分类](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[深度学习](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[语音系统](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[语音识别](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[模型](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[预训练](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[Subword](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[任务型对话](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话状态跟踪](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话意图识别](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话槽位填充](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[GNN](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[检索式对话系统](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[语音合成](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[综述](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[无监督](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[数据增强](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[阅读理解模型](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[可解释性](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[Prompt](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[评估](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话策略学习](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[关系抽取](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[蒸馏](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[异常检测](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[自监督](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[损失函数](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[半监督](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[社区发现](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[图算法](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[搜排](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[文本摘要](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\n\n\u003C\u002Fdiv>\n\n# Paper List | 论文列表\n```\n注：论文按时间排序，并进行分类归档，可直接在本页Ctrl+F查询，或使用上述搜索工具查询（推荐）\n    下述列表项格式：\u003C标签 | 论文 | 阅读笔记 | 简述 | 作者时间>\n```\n+ [图算法-搜排] | [The PageRank Citation Ranking: Bringing Order to the Web](http:\u002F\u002Filpubs.stanford.edu:8090\u002F422\u002F1\u002F1999-66.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F137561088) | 经典的PageRank算法，最初是作为互联网网页的重要度计算方法，被用于谷歌搜索引擎网页排序。该算法的核心思想就是在有向图（带权）上定义一个随机游走模型（一阶马尔可夫链），在一定的条件下，使得极限情况访问每个节点的概率收敛到平稳分布，节点上的平稳概率值就是PageRank值，用于表示节点的重要度 | L Page et al, 1998\n\n+ [聚类] | [Accelerating exact k-means algorithms with geometric reasoning](http:\u002F\u002Fportal.acm.org\u002Fcitation.cfm?doid=312129.312248) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | K-Means引入计算机中的那片论文，K-Means属于Partition-based methods，思想是初始化中心点，然后通过启发式算法，达到”类内的点都足够近，类间的点都足够远“的目标 | et al Dan Pelleg,1999\n\n+ [异常检测-机器学习] | [LOF: Identifying Density-Based Local Outliers](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F342009.335388) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F28178476) | 本文提出的LOF算法是基于密度的算法，其优势在于同时考虑了数据集的局部和全局属性（其中局部可达密度的定义其实暗含了一个假设，即不存在大于等于K个重复的点），异常值不是按绝对值确定的，而是相对于它们的领域点密度确定的。因此，当数据集中存在不同密度的不同集群时，LOF算法表现良好，比较适合中等高维的数据集 | Markus M. Breunig et al, 2000\n\n+ [聚类] | [Mean Shift: A Robust Approach toward Feature Space Analysis](http:\u002F\u002Fciteseerx.ist.psu.edu\u002Fviewdoc\u002Fdownload?doi=10.1.1.76.8968&rep=rep1&type=pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | 实现的方法是滑动窗口的算法，在每次迭代中，通过将中心点移动到窗口内所有点的平均值位置（因此得名），将滑动窗口中心移向密度较高的区域。滑动窗口内的密度与其内部的点数成正比。通过转换到窗口内点的平均值位置，窗口将逐渐移动到有着更高点密度的区域。优点：Mean-Shift的最大优势就是可以自动发现簇的数量而不需要人工选择；簇的中心向最大密度点聚合的事实也是非常令人满意的，因为它可被非常直观地理解并很自然地契合数据驱动；可以处理任意形状的簇类；算法只需设置半径这一个参数，半径影响数据集的核密度估计；算法结果稳定，不需要进行类似K均值的样本初始化；缺点：不足就是窗口大小\u002F半径“r”的选择可能是非平凡的；半径设置的太小，收敛太慢，簇类个数过多；半径设置的太大，一些簇类可能会丢失。对于较大的特征空间，计算量非常大 | Dorin Comaniciu et al,2002\n\n+ [向量召回] | [similarity estimation techniques from rounding algorithms](https:\u002F\u002Fwww.cs.princeton.edu\u002Fcourses\u002Farchive\u002Fspring04\u002Fcos598B\u002Fbib\u002FCharikarEstim.pdf) | [阅读笔记](http:\u002F\u002Ftangxman.github.io\u002F2015\u002F12\u002F01\u002Fsimhash\u002F) | 论文提出的SimHash是当年Google用来文本去重的算法。主要做法是将文档提取出一定数量的关键词，然后转换成哈希码并按列相加，1+weight，0-weight，得到的结果按照整数为1，负数为0得到最终的哈希码，然后将哈希码分为m个table，并分别记性计算检索 | Moses S. Charikar et al,2002\n\n+ [图算法-文本摘要-无监督] | [TextRank: Bringing Order into Texts](https:\u002F\u002Faclanthology.org\u002FW04-3252.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F126733456) | 本文提出的是一种基于图的用于关键词抽取和文档摘要的排序算法，由PageRank算法改进而来，它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词，并使用抽取式的自动文摘方法抽取出该文本的关键句，相对于TF-IDF方法，可以更充分的利用文本元素之间的关系。当然，它也同样存在受分词、停用词、文本清洗的影响 | Rada Mihalcea et al, 2004\n\n+ [聚类] | [k-means++: The Advantages of Careful Seeding](http:\u002F\u002Filpubs.stanford.edu:8090\u002F778\u002F1\u002F2006-13.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | 原始K-Means（随机选择簇中心）对于初始化簇中心敏感，因此k-means++进行了改进，随机选择第一个初始中心点，计算其他点与该中心点的距离，按照距离远的以较大的概率被选中来选择第二个初始中心点，一次类推 | et al David Arthur,2006\n\n+ [聚类] | [Clustering by Passing Messages Between Data Points](https:\u002F\u002Fwarwick.ac.uk\u002Ffac\u002Fsci\u002Fdcs\u002Fresearch\u002Fcombi\u002Fseminars\u002Ffreydueck_affinitypropagation_science2007.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | 其基本思想是将全部样本看作网络的节点，然后通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中，共有两种消息在各节点间传递，分别是responsibility和availability 。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的Exemplar。优点是无需指定聚类“数量”参数；聚类中心点由实际的样本点中产生；初始值不敏感，且对距离矩阵的对称性没要求。AP通过输入相似度矩阵来启动算法，因此允许数据呈非对称，数据适用范围非常大，鲁棒性很好；误差低；缺点是AP聚类应用中需要手动指定Preference和Damping factor，这其实是原有的聚类“数量”控制的变体，且算法复杂度较高 | Brendan J. Frey et al，2007\n\n+ [聚类-社区发现-图算法] | [Maps of random walks on complex networks reveal community structure](https:\u002F\u002Farxiv.org\u002Fpdf\u002F0707.0609.pdf) | [阅读笔记1](https:\u002F\u002Fkexue.fm\u002Farchives\u002F7006) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F53085574) | 经典的infomap算法，其属于动态社区发现算法。infoma的核心思想是通过构造转移概率，在图上进行随机游走来生成序列，再通过对序列做层次编码，最小化目标，从而完成聚类。其中有几个点需要说明的是：（1）转移概率的构造，例如在带权图的基础上，通过对权重的归一化得到概率（由于优化目标中只看相对概率，所以事实上归不归一化都行）；（2）随机游走是指在图中按照概率，从一个点跳到另一点，从而得到的路径序列（实现上不需要真的生成序列，解概率方程就行，目标就是优化到这个随机序列达到平稳）；（3）所谓最小化的目标，是使用层次编码的方案下，得到的最小信息熵（最短编码长度）目标函数；（4）节点合并到类的环节，是按顺序依次尝试将每个节点赋给邻居节点所在的类，取平均比特下降最大时的类赋给该节点，如果没有下降，该节点的类不变。infomap算法有很清晰的信息论解释，还几乎没有任何超参（唯一一个“穿越概率”参数） | M. Rosvall et al, 2007\n\n+ [社区发现-聚类-图算法] | [Near linear time algorithm to detect community structures in large-scale networks](https:\u002F\u002Fjournals.aps.org\u002Fpre\u002Fpdf\u002F10.1103\u002FPhysRevE.76.036106) | [阅读笔记](https:\u002F\u002Fwww.cnblogs.com\u002FLittleHann\u002Fp\u002F10699988.html) | LPA是基于标签传播的社区发现算法，其核心的思想不复杂，通过给图中节点初始化唯一标签（PUSH算法），然后再每次迭代中随机选取节点，根据与其相连的节点所属的标签改变自己的标签，选择方式可以根据数量、权重等，如果存在多个相同则随机选取，直到多次迭代后稳定。LPA算法简单，且不需要指定社区个数，但是缺点在于算法过程中的更新顺序和随机选择，使得算法并不稳定，改进的切入点自然就是从这两个方面入手 | Usha Nandini Raghavan et al, 2007\n\n+ [聚类] | [A Tutorial on Spectral Clustering](https:\u002F\u002Farxiv.org\u002Fpdf\u002F0711.0189.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | 不是原论文，但是这一篇对Spectral Clustering讲的非常好，谱聚类（Spectral Clustering），就是先用Laplacian eigenmaps对数据降维（简单地说，就是先将数据转换成邻接矩阵或相似性矩阵，再转换成Laplacian矩阵，再对Laplacian矩阵进行特征分解，把最小的K个特征向量排列在一起），然后再使用k-means完成聚类。谱聚类是个很好的方法，效果通常比k-means好，计算复杂度还低，这都要归功于降维的作用。优点：谱聚类只需要数据之间的相似度矩阵，因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到；由于使用了降维，因此在处理高维数据聚类时的复杂度比传统聚类算法好。缺点：如果最终聚类的维度非常高，则由于降维的幅度不够，谱聚类的运行速度和最后的聚类效果均不好；聚类效果依赖于相似矩阵，不同的相似矩阵得到的最终聚类效果可能很不同 | Ulrike von Luxburg et al,2007\n\n+ [异常检测-模型-机器学习] | [Isolation Forest](https:\u002F\u002Fcs.nju.edu.cn\u002Fzhouzh\u002Fzhouzh.files\u002Fpublication\u002Ficdm08b.pdf?q=isolation-forest) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F492469453) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F25040651) \u002F [阅读笔记3](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F74508141) | 经典的孤立森林算法的初版paper，2012发表了扩充版本（Isolation-based anomaly detection）。孤立森林是一个基于Ensemble的快速离群点检测方法，主要针对的是连续型结构化数据中的异常点，具有线性的时间复杂度和高精准度。它的理论基础是（1）异常数据占样本量的比例很小；（2）异常点的特征值与正常点的差异很大。孤立森林简单高效，但是在一些情况下，比如说数据的分布不是沿着特征轴，而是随意分布，或者流型分布，孤立森林效果就不好，就需要考虑选择别的方式了 | Fei Tony Liu et al, 2008\n\n+ [社区发现-图算法] | [Fast unfolding of communities in large networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F0803.0476.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F178790546) | [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F556291759) | 经典的Louvain算法，其是基于模块度优化的社区发现算法，且是一种启发式贪婪算法。流程是：（1）初始时将每个顶点当作一个社区，社区个数与顶点个数相同；（2）依次将每个顶点与之相邻顶点合并在一起，计算它们最大的模块度增益是否大于0，如果大于0，就将该结点放入模块度增量最大的相邻结点所在社区；（3）迭代第二步，直至算法稳定，即所有顶点所属社区不再变化；（4）将各个社区所有节点压缩成为一个结点，社区内点的权重转化为新结点环的权重，社区间权重转化为新结点边的权重；（5）重复步骤1-3，直至算法稳定。一般认为用于评估效果的模块化指数在0.3~0.7就有明显的社区结构出现。Louvain算法的优点是时间复杂度低（nlogn），适合大规模的网络、社区划分结果稳定且有具体指标、天然自带层次化。而缺点在于容易导致”过拟合“。 | Vincent D. Blondel et al, 2008\n\n+ [对话系统-对话状态管理] | [The Hidden Information State model: A practical framework for POMDP-based spoken dialogue management](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002FS0885230809000230) | 关于对话状态管理的文章，可以用来补充相关背景知识 | Young et al,2010\n\n+ [向量召回] | [Product quantization for nearest neighbor search](https:\u002F\u002Flear.inrialpes.fr\u002Fpubs\u002F2011\u002FJDS11\u002Fjegou_searching_with_quantization.pdf) | [阅读笔记](http:\u002F\u002Fvividfree.github.io\u002F%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0\u002F2017\u002F08\u002F05\u002Funderstanding-product-quantization) | 这篇Paper是PQ算法的成功开始，PQ是一种量化方法，本质上是数据的一种压缩表达方式（本篇论文使用了KMeans算法，得到质心的codebook），先将向量分成m段，每段分别根据codebook转换成压缩向量，然后使用SDC或ADC算法进行相似搜索。不过论文中进一步进行了改进，提出了IVFADC算法，一种基于倒排索引的ADC算法，分两步，第一步是PQ一遍（成为coarse quantizer），然后用向量减去量化后的向量得到残差，第二步就是在所有得到的残差集合上在进行一次PQ，最后用得到的向量建立倒排索引 | Herve Jegou et al,2011\n\n+ [聚类] | [Scalable K-Means++](https:\u002F\u002Ftheory.stanford.edu\u002F~sergei\u002Fpapers\u002Fvldb12-kmpar.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | K-Means++由于它的采样策略，所以难以并行，限制了其用于大规模数据集上。为了解决这个问题，k-means II 改变取样策略（以oversampling的方式），初始化一个中心点，然后循环log(n)次，每次按照一个概率计算公式选择多个point加入到中心集，最后得到的候选中心集再通过k-means++对候选中心集进行聚类，选出k个簇中心 | Bahman Bahmani et al,2012\n  \n+ [向量召回] | [Fast Search in Hamming Space with Multi-Index Hashing](https:\u002F\u002Fwww.cs.toronto.edu\u002F~norouzi\u002Fresearch\u002Fpapers\u002Fmulti_index_hashing.pdf) | [阅读笔记](https:\u002F\u002Ftangxman.github.io\u002F2015\u002F12\u002F03\u002Fmih\u002F) | 主要是解决在汉明空间上的R-Neighbors of query和KNN query，论文提出了一种多分段索引的哈希方法，查询效率达到了次线性，做法是r为查询的汉明距离，将汉明码切分成m段，快速找出每段中汉明距离小于r\u002Fm的结果，合并所有结果即为候选集 | Mohammad Norouzi et al,2012\n\n+ [向量召回] | [Learning Deep Structured Semantic Models for Web Search using Clickthrough Data](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fwp-content\u002Fuploads\u002F2016\u002F02\u002Fcikm2013_DSSM_fullversion.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F421944601) | 经典的DSSM语义相似度匹配模型，就是通常我们所说的双塔模型。使用Word Hashing的n-gram，在那个时候还是很独到的，其核心思想是将query和doc映射到到共同维度的语义空间中，通过最大化query和doc语义向量之间的余弦相似度，从而训练得到隐含语义模型，达到检索的目的。负采样1:4 | Po-Sen Huang et al,2013\n\n+ [机器学习] | [Parameter Server for Distributed Machine Learning](http:\u002F\u002Fwww.cs.cmu.edu\u002F~feixia\u002Ffiles\u002Fps.pdf) | [阅读笔记](https:\u002F\u002Fwww.zybuluo.com\u002FDounm\u002Fnote\u002F517675) | 论文里说本篇所介绍的Parameter Server属于第三代PS，提供了更加通用的设计，架构上包括一个Server Group和若干个Worker Group，提供了如下几个特点：Efficient Communication、Elastic Scalability、Fault Tolerance and Durability、Ease of Use | Mu Li et al,2013\n\n+ [向量召回] | [Optimized Product Quantization](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fwp-content\u002Fuploads\u002F2013\u002F11\u002Fpami13opq.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F213395313) | PQ的做法是直接简单粗暴的分割原始特征向量，并没有去除相关性，而如果去除相关性之后再进行PQ可以使得检索效果更好，OPQ就提供了是的每个子空间信息均衡的方法，即使用一个正交矩阵来对聚类中心进行旋转，并提供了Non-Parametric和Parametric的两种算法思路 | Tiezheng Ge et al,2013\n  \n+ [语言模型] | [Efficient Estimation of Word Representations in Vector Space](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1301.3781.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F26306795) | Word2vec开山之作之一，专门讲训练中的两个trick：hierarchical softmax 和 negative sampling | Tomas Mikolov et al,2013\n\n+ [语言模型] | [Distributed Representations of Words and Phrases and their Compositionality](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1310.4546.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F26306795) | Word2vec开山之作之一，在前人基础上提出更精简的语言模型框架并用于生成词向量，这个框架就是 Word2vec | Tomas Mikolov et al,2013\n\n+ [向量召回] | [Speeding Up the Xbox Recommender System Using a Euclidean Transformation for Inner-Product Spaces](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fwp-content\u002Fuploads\u002F2016\u002F02\u002FXboxInnerProduct.pdf) | 微软的Inner Product快速计算的方法，主要解决的是Inner Product Top-K Search的问题。通过各种公式证明，将问题简化到一个欧氏距离搜索问题后，使用一个PCA-Tree来求解 | Yoram Bachrach et al,2014\n\n+ [机器学习] | [Scaling Distributed Machine Learning with the Parameter Server](https:\u002F\u002Fwww.cs.cmu.edu\u002F~muli\u002Ffile\u002Fparameter_server_osdi14.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F21569493) | 在PS中，每个 server 实际上都只负责分到的部分参数（servers共同维持一个全局的共享参数），而每个 work 也只分到部分数据和处理任务。较它之前一篇PS进行了更加细节的描述，并对一些细节进行了扩展，两篇结合起来看受益颇多 | Mu Li et al,2014\n\n+ [向量召回] | [Approximate nearest neighbor algorithm based on navigable small world graphs](sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002FS0306437913001300) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fu011233351\u002Farticle\u002Fdetails\u002F85116719) | 经典的NSW算法，在构建近似DG图的基础上，加入Expressway mechanism。构建时，在朴素插入选近邻连接的思路上，使用废弃列表和动态列表提速 Yury Malkov et al,2014\n\n+ [数据集] | [The Second Dialog State Tracking Challenge](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW14-4337.pdf) | DSTC系列语料是专门用于对话状态跟踪的，非常经典，不过它的官网貌似无用了 |  Henderson et al,2014\n\n+ [向量召回] | [Locally Optimized Product Quantization for Approximate Nearest Neighbor Search](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2014\u002Fpapers\u002FKalantidis_Locally_Optimized_Product_2014_CVPR_paper.pdf) | LOPQ实在OPQ的基础上进一步优化，OPQ仅考虑了CodeBook的旋转问题，LOPQ考虑的是每个子空间进行不同的旋转 | Yannis Kalantidis et al,2014\n\n+ [向量召回] | [Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1405.5869.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F111502331) | 传统的MIPS问题找不到LSH函数，为此论文提出了一种“非对称LSH”的算法，其核心技巧就是通过“非对称变换”构造向量从而消除待查集合X的向量模长对MIPS结果的影响。巧妙的将问题转换为欧氏距离下，通过LSH函数求出NN的近似解的问题 | Anshumali Shrivastava et al,2014\n\n+ [图算法-GNN-模型-无监督] | [DeepWalk: Online Learning of Social Representations](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1403.6652.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F45167021) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56380812) | 本文提出的DeepWalk是我们了解Graph Embedding无法绕过的一个方法。其核心思想是通过使用随机游走(RandomWalk)的方式在图中进行节点采样，从而使用图中节点与节点的共现关系来学习节点的向量表示（思想来源于Word2Vec的skip-gram）。总体分为两步，第一步就是随机游走采样节点序列，然后使用skip-gram来学习表示向量 | Bryan Perozzi et al, 2014\n\n+ [语言模型-文本相似度\u002F匹配\u002F分类] | [Convolutional Neural Networks for Sentence Classification](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1408.5882.pdf) | 经典的TextCNN，static\u002Fnon-static几种特征向量学习方式 | Yoon Kim et al,2014\n\n+ [深度学习] | [Neural Machine Translation Bu Jointly Learning To Align And Translate](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1409.0473.pdf) | Bahdanau Attention的原文 | Bahdanau et al,2014\n\n+ [深度学习] | [Convolutional Neural Networks at Constrained Time Cost](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1412.1710.pdf) | 针对卷积网络很好地概述了计算成本以及深度，过滤器尺寸之间的权衡 | Kaiming He et al,2014\n\n+ [语音系统-语音识别-模型] | [Attention-Based Models for Speech Recognition](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2015\u002Ffile\u002F1068c6e4c8051cfd4e9ea8072e3189e2-Paper.pdf) | Tacotron2使用的Location Sensitive Attention  |  Chorowski et al,2015\n  \n+ [对话系统] | [Context Sensitive Spoken Language Understanding Using Role Dependent LSTM Layers](https:\u002F\u002Fwww.merl.com\u002Fpublications\u002Fdocs\u002FTR2015-134.pdf) | 使用LSTM在SLU方面做的工作，通过agent和client角色划分，能够解决多轮对话中的歧义问题 | Hori et al,2015\n  \n+ [深度学习] | [Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1502.03167.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F340219662) | 经典的Batch Normalization原论文 | Sergey et al,2015\n\n+ [蒸馏-预训练] | [Distilling the Knowledge in a Neural Network](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1503.02531.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F75031938) | 蒸馏方法的开山之作啦，将一个复杂模型的knowledge，transfer到一个简单的模型上。具体做法是给复杂分类模型（teacher）的softmax加上一个temperature参数，然后用hard target训练好，模型的softmax的输出就是我们需要的soft target。然后用一个simple模型，基于soft和hard target进行训练，simple模型在soft target训练时，softmax的temperature设置和teacher一样，在hard target训练时，temperature设置1即可，然后loss计算取两个目标的交叉熵的加权平均（soft targets和小模型的输出数据的交叉熵，hard targets和小模型的输出数据的交叉熵）。除此之外，通过梯度计算公式转换，我当temperature特别大的时候（且模型产生的logits为0），知识蒸馏就相当于大模型的logits和小模型的logits的MSE | Geoffrey Hinton et al,2015\n\n+ [GNN-图算法-模型-无监督] | [LINE: Large-scale Information Network Embedding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1503.03578.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56478167) | 本文提出的LINE方法是应用于graph embedding，是一种采用基于领域相似假设的方法。文中总共提出了两个维度的相似计算视角：（1）一度相似性（First-order）适用于无向图，是认为图中存在直接连接的两个点是相似的，因此目的是使得两个点的向量表示分布尽可能相似；（2）二度相似性（Second-order）适用于无向图或有向图，认为的是一个节点，需要学习自己的表示向量之外，还需要一个用于表示与其直接相邻节点的表示（作为上下文向量），当两个没有直接连接的节点时，如果它们的邻居节点重合，便可以将上下文向量用于计算相似性。节点数字序列编号，并用embedding层编码，两种方法都是通过KL散度作为目标函数进行优化计算 | Jian Tang et al, 2015\n  \n+ [模型] | [Highway Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1505.00387.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F279426970\u002Fanswer\u002F614880515) | Highway Networks名字取得很有意思，整个网络结构思想也是符合取名的。简单来说就是通过设置一个函数T来限制网络的输出（借鉴LSTM中gate思想），其中T取0时，输出y=x，这个时候梯度直接传到下一层，也就是说，可以通过T来控制梯度传递，从而一定程度上解决梯度消失的问题。Highway的参数较少，适合single nonlinear layer的transform | Rupesh Kumar Srivastava et al,2015\n\n+ [深度学习] | [Learning both Weights and Connections for Efficient Neural Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1506.02626.pdf) | 有一张表格，其中列出了计算与内存访问的相对成本，除此之外还讨论了怎么精简神经网络 | Song Han et al,2015\n\n+ [模型] | [Pointer Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1506.03134.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F48959800) | 原文是围绕解决凸包而设计的的网络结构，直接使用Attention的权重用于预测，能够适应输入的规模，后面许多网络结构应用发展成了Copying Mechanism来解决OOV问题 | Oriol Vinyals et al,2015\n\n+ [对话系统-模型] | [A Neural Conversational Model](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1506.05869.pdf) | Seq2Seq结构的对话模型 | Oriol et al,2015\n  \n+ [数据集] | [The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1506.08909.pdf) | Ubuntu 非结构化多轮对话数据集 |  Ryan Lowe et al,2015\n  \n+ [向量召回] | [Clustering is Efficient for Approximate Maximum Inner Product Search](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1507.05910.pdf) | K-Means Tree，使用K-Means进行建树 | Alex Auvolat et al,2015\n  \n+ [模型] | [Training Very Deep Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1507.06228.pdf) | [阅读笔记](https:\u002F\u002Fcloud.tencent.com\u002Fdeveloper\u002Farticle\u002F1148375) | 经典的Highway networks，基于深层的CNN堆叠网络，使用transform gate和carry gate（其实后来被统一称为Shortcut），将浅层特征信息带到深层中，以此来解决深度网络中梯度发散，难以训练的问题 | Rupesh Kumar Srivastava et al,2015\n\n+ [深度学习] | [Effective Approaches to Attention-based Neural Machine Translation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1508.04025.pdf) | Luong Attention的原文 | Luong et al,2015\n\n+ [预训练-语言模型] | [Character-Aware Neural Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1508.06615.pdf) | 提供一种功能强大，功能强大的语言模型，其可编码子词相关性，同时解决先前模型的罕见字问题，使用更少的参数获得可比较的表现力 | Yoon et al,2015\n\n+ [模型-Subword] | [Neural Machine Translation of Rare Words with Subword Units](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1508.07909.pdf) | 就是我们所熟知的Byte Pair Encoding，是一种使用一些出现频率高的byte pair来组成新的byte的方法 | Sennrich et al,2015\n\n+ [向量召回] | [Deep Compression: Ccompressing Deep Neural Networks With Pruning, Trained Quantization And Huffman Coding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1510.00149.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F21574328) | ICLR的best paper，主要内容是关于深度学习网络参数的压缩。分为三步，Network pruning，即先训练一个网络，然后把一些权重很小的连接进行剪枝（通过阈值来决定），然后retrain网络。第二步，量化权重；第三步则是使用Huffman coding进行无损编码 | Song Han et al,2015\n\n+ [机器学习] | [Optimal Whitening and Decorrelation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1512.00809.pdf) | 提供五种白化方法的数学证明 | Agnan Kessy et al,2015\n\n+ [深度学习] | [Strategies for Training Large Vocabulary Neural Language Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1512.04906.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | 主要是对当时的一些Softmax和Sampling进行总结，顺便提出了Differentiated Softmax方法 | Wenlin Chen et al,2015\n\n+ [机器学习-模型] | [XGBoost: A Scalable Tree Boosting System](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F2939672.2939785) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F89572181) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F87885678) | 本文提出的XGBoost是基于Boosting的集成算法，更确切的说，XGBoost包括了数学原理和工程实现的优化，有着包括精度更高、灵活性强、并行化计算的诸多优点。一般在一些业务场景作为baseline（在数据科学竞赛做集成更是可以无脑上一波），实现包xgboost | Tianqi Chen et al, 2016\n\n+ [聚类] | [Approximate K-Means++ in Sublinear Time](https:\u002F\u002Fwww.aaai.org\u002Focs\u002Findex.php\u002FAAAI\u002FAAAI16\u002Fpaper\u002FviewFile\u002F12147\u002F11759) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | K-MC2区别于k-means II的采样方法，使用MCMC采样，其主要思想是将K-Means++中的采样方法替换为基于MCMC（马尔科夫链蒙特卡洛）采样方法（MCMC的介绍可以参考：[MCMC随机采样](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F30003899)）。用MCMC的方法采样出长为M的数列，取最后（K-1）个数作为中心点初始化，target distribution是距离的函数，满足距离越远，概率越大(表达的含义同k-means++)，proposal distribution是一个常函数，1\u002F样本数。 | Olivier Bachem et al,2016\n\n+ [聚类] | [Fast and Provably Good Seedings for k-Means](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2016\u002Ffile\u002Fd67d8ab4f4c10bf22aa353e27879133c-Paper.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | AFK-MC2基于K-MC2改进，由于K-MC2的proposal distribution是常函数，不够鲁棒，因此AFK-MC2将与距离有关的分布作为一个term加入原始的分布中，优化proposal distribution | Olivier Bachem et al,2016\n\n+ [模型] | [Deep Residual Learning for Image Recognition](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2016\u002Fpapers\u002FHe_Deep_Residual_Learning_CVPR_2016_paper.pdf) [阅读笔记](https:\u002F\u002Fcloud.tencent.com\u002Fdeveloper\u002Farticle\u002F1148375) | 经典的ResNet，基于深层的CNN堆叠网络，利用了残差连接（ResNet中是跨越了2层或3层），解决深度模型中的退化问题，最优的残差结构是把BN和ReLU都提前，成为pre-activation | Kaiming He et al,2016\n\n+ [模型-文本相似度\u002F匹配\u002F分类] | [Siamese Recurrent Architectures for Learning Sentence Similarity](https:\u002F\u002Fscholar.google.com\u002Fscholar_url?url=https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F10350\u002F10209&hl=zh-CN&sa=T&oi=gsb-gga&ct=res&cd=0&d=7393466935379636447&ei=KQWzYNL5OYz4yATXqJ6YCg&scisig=AAGBfm0zNEZZez8zh5ZB_iG7UTrwXmhJWg) | Siamese LSTM，一个用来计算句对相似度的模型 | Jonas Mueller et al,2016\n\n+ [模型-文本相似度\u002F匹配\u002F分类] | [Learning Text Similarity with Siamese Recurrent Networks](https:\u002F\u002Faclanthology.org\u002FW16-1617.pdf) | 网络包含4层BiLSTM（64-d hidden），最后一层的BiLSTM的hidden state和cell state进行concat，然后在timestep维度进行average处理，并接一个Dense层（激活函数为tanh），得到的两个Embedding Space进行Cosine sim计算，得到的相似度分数E用于损失函数计算，损失函数使用对比损失函数，计算方法为，损失函数正例：1\u002F4(1-E)^2，负例：E^2(如果E\u003Cm)，否则0 | Paul Neculoiu et al,2016\n\n+ [深度学习] | [Exploring the Limits of Language Modeling](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1602.02410.pdf) | CNN Softmax方法，虽然还是离不开原始的Softmax，但是换了一个视角效果很好 | Rafal Jozefowicz et al,2016\n\n+ [深度学习] | [Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1602.07868.pdf) | Weight Normalization是一种在权值维度上进行归一化的方法 | Tim Salimans et al,2016\n\n+ [模型] | [Incorporating Copying Mechanism in Sequence-to-Sequence Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1603.06393.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F415502906) | CopyNet模型，使用Copying Mechanism来缓解未登录词问题的模型，在文本摘要等生成词多含输入词的任务中，效果不错 | Jiatao Gu et al,2016\n  \n+ [向量召回] | [Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1603.09320.pdf) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fu011233351\u002Farticle\u002Fdetails\u002F85116719) | HNSW算法，在NSW的基础上，引入层次结构实现Expressway mechanism，达到顶层粗查，底层细查的思路 | Yu. A. Malkov et al,2016\n  \n+ [模型-Subword] | [Achieving Open Vocabulary Neural Machine Translation with Hybrid Word-Character Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.00788.pdf) | 一个非常出色的框架，主要是在word-level进行翻译，但是在有需要的时候可以很方便的使用Character-level的输入 | Luong et al,2016\n\n+ [对话系统-任务型对话] | [A Network-based End-to-End Trainable Task-oriented Dialogue System](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.04562.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F261701071) | 非常值得一读的任务型对话模型架构 | Wen et al,2016\n  \n+ [深度学习] | [Training Deep Nets with Sublinear Memory Cost](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06174.pdf) | [keras_recompute](https:\u002F\u002Fgithub.com\u002Fbojone\u002Fkeras_recompute) | 这篇论文整体上讲了一个以时间换空间的省显存的trick，即gradient checkpointing，通过丢弃低运算成本操作的结果，也就是把中间结果feature map 一个都不保留，全部干掉，反向传播时重新计算出来（当然，论文折中是每隔 sqrt(n)保留一个feature map）。能够把内存降低 sqrt(n) 分之一，超越大多数节省内存的奇淫巧技，具体实现可参考tf.recompute_grad，或者的一个开源实现 | Tianqi Chen et al,2016\n  \n+ [模型-Subword] | [Learning Character-level Representations for Part-of-Speech Tagging](http:\u002F\u002Fproceedings.mlr.press\u002Fv32\u002Fsantos14.pdf) | Character-level去构建word-level，该网络结构主要是对字符进行卷积以生成单词嵌入，同时使用固定窗口对PoS标记的字嵌入进行操作 | Jason et al,2016\n\n+ [语言模型-文本相似度\u002F匹配\u002F分类] | [Very Deep Convolutional Networks for Text Classification](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1606.01781.pdf) | VDCNN，character level，只利用小尺度的卷积核池化操作，包含了29个卷积层。效果提升并不是很明显吧，不过亮点在于CNN层数比较深，从某种程度上证明了类似ResNet那样的Shortcut connections可以降低梯度消失带来的影响，从而提升效果 | Alexis Conneau et al, 2016\n  \n+ [模型-语言模型] | [A Joint Model for Word Embedding and Word Morphology](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1606.02601.pdf) | 该模型的目标与word2vec相同，但是使用的是Character-level的输入，它使用了双向的LSTM结构尝试捕获形态并且能够推断出词根 | Kris et al,2016\n\n+ [对话系统-对话状态跟踪] | [Neural Belief Tracker: Data-Driven Dialogue State Tracking](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1606.03777.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F262289823) | NBT框架，理解Belief state和tracking的好文 | Young et al,2016\n  \n+ [机器学习] | [Gaussian Error Linear Units (GELUS)](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1606.08415.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F349492378) | GELU的目标就是希望在激活（拥有非线性拟合的能力）中加入正则化的思想。ReLU会确定性的将输入乘上一个0或者1，Dropout则是随机乘上0。而GELU也是通过将输入乘上0或1来实现这个功能，但是输入是乘以0还是1，是在同时取决于输入自身分布的情况下随机选择的。换句话说，是0还是1取决于当前的输入有多大的概率大于其余的输入。而由于神经元的输入x往往遵循正态分布（尤其是深度网络中普遍存在Normalization），所以GELU就可以被定义为“标准正态分布的累积分布函数”，利用erf就可以得到公式：x\u002F2*(1+erf(x\u002Fsqrt(2))) | Dan Hendrycks et al,2016\n\n+ [GNN-图算法-模型-无监督] | [node2vec: Scalable Feature Learning for Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.00653.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56542707) \u002F [阅读笔记2](https:\u002F\u002Ftoutiao.io\u002Fposts\u002Fy84ifco\u002Fpreview) | 本文提出的node2vec是一种综合考虑DFS邻域和BFS邻域的graph embedding方法，整体算法思路框架继承了DeepWalk，通过随机游走获取序列，并通过Word2Vec学习表示向量。不同于DeepWalk的是，其使用了有偏的随机游走，同时通过p和q两个参数，以alias采样的方式来控制序列游走的方向（是选择邻接节点还是二度节点） | Aditya Grover et al, 2016\n\n+ [GNN-图算法-模型-无监督] | [Structural Deep Network Embedding](http:\u002F\u002Fwww.shichuan.org\u002Fhin\u002Ftime\u002F2016.%20Structural%20Deep%20Network%20Embedding.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56637181) \u002F [阅读笔记2](https:\u002F\u002Fmp.weixin.qq.com\u002Fs?__biz=MzIzOTU0NTQ0MA==&mid=2247486868&idx=1&sn=c2d3e38e9ab7cc61f2a2ffaeecf0febe&chksm=e929309bde5eb98dfa657c7fd1bf7e80495f9c9ad0cde2ee78b36a1f0a453d2cc322948cb3a3&mpshare=1&scene=1&srcid=0213HJqpvPzBLS7AW7L6K3Zz#rd) | 本文提出的SDNE模型是和Node2Vec同年提出的graph embedding方法，可以看作是基于LINE方法的扩展。SDNE使用一个自动编码器结构来同时优化1阶和2阶相似度(LINE是分别优化的)，学习得到的向量表示能够保留局部和全局结构，并且对稀疏网络具有鲁棒性。通过输入的邻接矩阵和网络重构出的邻接矩阵计算一阶二阶损失函数，并配合一个正则项组成联合损失函数进行优化 | Daixin Wang et al, 2016\n  \n+ [模型-文本相似度\u002F匹配\u002F分类] | [Bag of Tricks for Efficient Text Classification](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.01759.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F31118235) | 比较经典的FastText，比较依赖Word Embedding的质量（槽点本身难点就在于embedding，结果文章不谈这个），整个网络结构使用N-gram，对得到的Embedding求和，并过两个Dense然后输出，本身网络结构就那没啥，当然fast啦，外加论文具体加了hashing trick，hierarchical softmax等进行加速、内存优化 | Armand Joulin et al,2016\n  \n+ [模型-语言模型] | [Enriching Word Vectors with Subword Information](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.04606.pdf) | word2vec的升级版，对于具有大量形态学的稀有词和语言有更好的表征，它也可以说是带有字符n-gram的w2v skip-gram模型的扩展 | Piotr et al,2016\n\n+ [深度学习] | [Layer Normalization](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.06450.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F258977332) | 层归一化方法，针对Batch Normalization的改进 | Jimmy et al,2016\n\n+ [深度学习] | [Instance Normalization:The Missing Ingredient for Fast Stylization](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.08022.pdf) | Instance Normalization是一种不受限于批量大小的算法专门用于Texture Network中的生成器网络 | Dmitry Ulyanov et al,2016\n\n+ [对话系统-对话意图识别-对话槽位填充] | [Attention-Based Recurrent Neural Network Models for Joint Intent Detection and Slot Filling](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.01454.pdf) | 使用Attention-Based的RNN模型进行联合意图识别和槽位填充，达到不错的效果 | Bing Liu et al,2016\n  \n+ [GNN-文本相似度\u002F匹配\u002F分类-图算法] | [Semi-supervised classification with graph convolutional networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.02907.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F78466344) \u002F [阅读笔记2](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F54504471\u002Fanswer\u002F332657604) | 这就是非常经典的GCN啦，GCN对非结构化数据构造特征节点，进而构造graph，通过使用邻接矩阵、度矩阵等图结构对输入的节点embedding进行优化学习（本质上是一种局部加权求和的方式，类似Attention的思想，不过有很多trick在里面，比如对称归一化等），能够通过相邻节点传递特征信息。GCN能够有效地提取空间特征来进行机器学习，虽然目前在NLP任务中的表现不算特别突出，但是它的功劳在于提供一种处理、研究的模型，扩广了解决方案的思路 | Thomas N. Kipf et al,2016\n  \n+ [深度学习] | [Efficient softmax approximation for GPUs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.04309.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | Adaptive Softmax，针对GPU的矩阵计算，实现了多倍与普通Softmax计算效率的提升，值得一看 | Edouard Grave et al,2016\n  \n+ [机器学习] | [An overview of gradient descent optimization algorithms](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.04747.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F343564175) | 对当前主流的梯度下降算法进行概述 | Sebastian Ruder et al,2016\n  \n+ [模型-Subword] | [Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.08144.pdf) | wordpiece作为BERT使用的分词方式，其生成词表的方式和BPE非常相近，区别在于BPE选择频率最高的相邻字符对进行合并，而wordpiece是基于概率生成的 | Yonghui et al,2016\n\n+ [模型-Subword] | [Fully Character-Level Neural Machine Translation without Explicit Segmentation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1610.03017.pdf) | 比较经典的Character-Level的Subword算法模型 | Jason et al,2016\n\n+ [深度学习] | [Categorical Reparameterization With Gumbel-Softmax](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1611.01144.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F422373907\u002Fanswer\u002F2260975090) | Gumbel Max由来已久，而这篇文章就是基于Gumbel Max，首次提出并应用Gumbel Softmax的。目标就是使用梯度估计的方法，来解决Categorical Distribution中，使用类似argmax操作导致网络不可微的问题。文章主要探讨了部分隐变量是离散型变量的变分推断问题，比如基于VAE的半监督学习 | Eric Jang et al,2016\n\n+ [对话系统-检索式对话系统] | [Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval-Based Chatbots](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1612.01627v2.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F270554147) | SMN检索式对话模型，多层多粒度提取信息 | Devlin et al,2016\n  \n+ [深度学习] | [Large-Margin Softmax Loss for Convolutional Neural Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1612.02295.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | L-Softmax在原Softmax的基础上增加了控制系数m，使得类内距离尽可能小，类间距离尽可能大 | Weiyang Liu et al,2016\n  \n+ [深度学习] | [An empirical analysis of the optimization of deep network loss surfaces](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1612.04010.pdf) | 论文中得出一个结论，即Batch Normalization更有利于梯度下降 | Shibani et al,2016\n  \n+ [模型-语言模型] | [Language Modeling with Gated Convolutional Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1612.08083.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F395977833) | 受LSTM门控机制的启发，将线性门控机制应用于卷积结构，文中对比GLU、GTU等结构性能 | Yann N. Dauphin et al,2016\n  \n+ [语音系统-语音合成] | [Tacotron: A Fully End-To-End Text-To-Speech Synthesis Model](http:\u002F\u002Fbengio.abracadoudou.com\u002Fcv\u002Fpublications\u002Fpdf\u002Fwang_2017_arxiv.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F337042442) | Tacotron，端到端的语音合成系统 | Yuxuan et al,2017\n  \n+ [模型] | [Densely Connected Convolutional Networks](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2017\u002Fpapers\u002FHuang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf) | [阅读笔记](https:\u002F\u002Fcloud.tencent.com\u002Fdeveloper\u002Farticle\u002F1148375) | CVPR 2017的Best Paper，提出了DenseNet，借鉴highway networks和ResNet的思路，DenseNet将shortcut用到了“极致”——每两层之间都添加shortcut，当然具体实现中使用了一些tricks防止模型过大的问题 | Gao Huang et al,2017\n  \n+ [模型-语言模型] | [A Simple But Tough-To-Beat Baseline For Sentence Embeddings](https:\u002F\u002Fopenreview.net\u002Fpdf?id=SyK00v5xx) | Smooth Inverse Frequency，一种简单但是效果好的Sentence Embedding方法 | Sanjeev Arora et al,2017\n\n+ [深度学习] | [Sigmoid-Weighted Linear Units for Neural Network Function Approximation in Reinforcement Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1702.03118.pdf) | 提出SILU激活函数，其实从某种角度讲就是GELU激活的一种近似，x*sigmoid(x) | Stefan Elfwing et al,2017\n\n+ [深度学习] | [Cosine Normalization: Using Cosine Similarity Instead of Dot Product in Neural Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1702.05870v5.pdf) | Cosine Normalization是一种将unbounded的向量点积换成夹角余弦操作，从而进行归一化的方法 | Luo Chunjie et al, 2017\n\n+ [深度学习] | [Massive Exploration of Neural Machine Translation Architectures](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1703.03906.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F328801239) | 展示了以NMT架构超参数为例的首次大规模分析，实验为构建和扩展NMT体系结构带来了新颖的见解和实用建议。 | Denny et al,2017\n\n+ [GNN-图算法-模型-无监督] | [struc2vec: Learning Node Representations from Structural Identity](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.03165.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F63175042) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56733145) | | 本文提出的struc2vec方法是用于graph embedding，相较于经典的DeepWalk和Node2Vec方法（关注存在直连节点的相似性），struc2vec如它名字一样，关注的是节点的结构相似性，这使得它可以表示两个距离很远但结构（连接度，局部拓扑结构）相似的节点。大体的流程分为四步：（1）根据不同距离的邻居信息分别算出每个节点对的结构相似度，这涉及到了不同层次的结构相似度的计算，其中使用DTW（一种动态规划方法）计算有序度序列的距离；（2）构建一个多层次的带权重网络M，每个层次中的节点皆由原网络中的节点构成，距离计算对应其层数的有序度序列的距离；（3）在M中生成随机游走，为每个节点采样出上下文；（4）使用word2vec的方法对采样出的随机游走序列学习出每个节点的节点表示 | Leonardo F. R. Ribeiro et al, 2017\n\n+ [模型] | [Get To The Point: Summarization with Pointer-Generator Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.04368.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F419659043) | 结合Copying Mechanism和Coverage mechanism两种技巧的LSTM-Base模型，一定程度上解决OOV和重复词问题，经典值得一读 | Abigail See et al,2017\n\n+ [深度学习] | [SphereFace: Deep Hypersphere Embedding for Face Recognition](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.08063.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | A-Softmax，思路和L-Softmax差不多，区别是对权重进行了归一化 | Weiyang Liu et al,2017\n\n+ [模型-语言模型] | [Supervised Learning of Universal Sentence Representations from Natural Language Inference Data](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.02364.pdf) | InferSent，通过不同的encoder得到Sentence Embedding，并计算两者差值、点乘得到交互向量，从而得到相似度 | Alexis Conneau et al,2017\n\n+ [对话系统-对话意图识别] | [Latent Intention Dialogue Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.10229.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F263034049) | 离散潜在变量模型学习对话意图的框架 | Wen et al,2017\n  \n+ [模型-预训练-语言模型] | [Attention Is All You Need](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1706.03762.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F250946855) | Transformer的开山之作，值得精读 | Ashish et al,2017\n\n+ [社区发现-综述] | [Network Community Detection: A Review and Visual Survey](https:\u002F\u002Farxiv.org\u002Fftp\u002Farxiv\u002Fpapers\u002F1708\u002F1708.00977.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F141401358) | 一篇关于社区发现的综述，文章对社区发现概念和发展进行了介绍，并对当下社区发现算法按照分类进行了细致的介绍，包括传统的社区发现技术、基于分裂的社区发现技术、基于模块化优化的社区发现技术、重叠社区发现技术、动态社区发现技术等 | Bisma S. Khan et al, 2017\n  \n+ [深度学习] | [ProjectionNet: Learning Efficient On-Device Deep Networks Using Neural Projections](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1708.00630.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F295636122) | 一种叫ProjectionNet的联合框架，可以为不同机器学习模型架构训练轻量的设备端模型。 | Google et al,2017\n\n+ [深度学习-损失函数] | [Focal Loss for Dense Object Detection](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1708.02002.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F260407405) | 分类问题我们一般使用交叉熵损失函数，交叉熵损失函数是平等对待正负样本的，当正负样本不均衡的时候，正样本总的损失会淹没小量负样本总的损失，导致模型最终的学习方向并不会把重点放在负样本上，解决方案就是增加负样本的权重，减少正样本的权重，从而是模型重点倾向于学习负样本的规律。这种方式还是不能解决easy\u002Fheard samples的问题，Focal loss对交叉熵损失函数增加了一个调制因子，实现对easy samples的降权，从而使模型训练的损失可以集中在比较难学习的负样本上 | Tsung-Yi Lin et al,2017\n  \n+ [对话系统-任务型对话-对话状态跟踪] | [An End-to-End Trainable Neural Network Model with Belief Tracking for Task-Oriented Dialog](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1708.05956.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F260345363) | 面向任务的对话系统的新型端到端可训练神经网络模型 | Liu et al,2017\n  \n+ [数据集] | [DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1710.03957.pdf) | [数据集地址](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1sj3Z_GZfYzrhmleWazA-QawhUEhlNmJd\u002Fview?usp=sharing) | 包含对话意图和情感信息的多轮对话数据集 | Yanran Li et al, 2017\n  \n+ [机器学习] | [Swish: A Self-Gated Activation Function](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1710.05941v1.pdf) | 提出的Swish激活函数，通SILU激活函数一样，没啥差别，x*sigmoid(x) | Prajit Ramachandran et al,2017\n  \n+ [综述-对话系统] | [A Survey on Dialogue Systems:Recent Advances and New Frontiers](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1711.01731.pdf) | 对话系统的最新研究和方向 | Chen et al,2017\n\n+ [语音系统-语音合成] | [Natural TTS Synthesis By Conditioning Wavenet On Mel Spectrogram Predictions](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1712.05884.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F337042442) | Tacotron2，相较于Tacotron有着更好的性能，使用WaveNet作为Vocoder | Jonathan et al,2017\n\n+ [异常检测-机器学习] | [XGBOD: Improving Supervised Outlier Detection with Unsupervised Representation Learning](https:\u002F\u002Farxiv.org\u002Fftp\u002Farxiv\u002Fpapers\u002F1912\u002F1912.00290.pdf) | 本文主要是提出一种通过无监督算法来增广特征，进而融合原始特征用于XGB的有监督的训练思路，命名为XGBOD。在ADBench中，半监督的总体效果来讲好于直接使用XGB，监督学习的情况下，指标提升差不了多少（然后XGBOD在训练代价上更大），因此在有监督的情况下，直接使用XGB作为baseline更加简单直接一些 | Yue Zhao et al, 2018\n\n+ [数据集] | [LCQMC: A Large-scale Chinese Question Matching Corpus](https:\u002F\u002Faclanthology.org\u002FC18-1166.pdf) | LCQMC，开放域的中文语义相似度语料，更加侧重于intent相似，总共26万的文本对 | Xin Liu et al,2018\n\n+ [数据集] | [The BQ Corpus: A Large-scale Domain-specific Chinese Corpus For Sentence Semantic Equivalence Identification](https:\u002F\u002Faclanthology.org\u002FD18-1536.pdf) | 关于Bank Question的中文语义相似度语料，总共12万的文本对 | Jing Chen et al,2018\n\n+ [聚类] | [Robust and Rapid Clustering of KPIs for Large-Scale Anomaly Detection](https:\u002F\u002Fnetman.aiops.org\u002F~peidan\u002FANM2018\u002F8.DependencyDiscovery\u002FLectureCoverage\u002F2018IWQOS_ROCKA.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F50698719) | 关于快速时序聚类的文章，提出ROCKA系统架构，包括了数据预处理、基线提取、相似性度量、基于密度的聚类算法。ROCKA算法仅仅是使用了派发策略，单是并未在有效的利用过程中的计算结果，导致在派发过程中复杂度较高 | Zhihan Li et al,2018\n\n+ [对话系统-检索式对话系统] | [Multi-Turn Response Selection for Chatbots with Deep Attention Matching Network](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP18-1103.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F306846122) | DAM检索式对话模型，完全基于注意力机制的多层多粒度提取信息 | Xiangyang et al,2018\n  \n+ [对话系统-对话意图识别-对话槽位填充] | [Slot-Gated Modeling for Joint Slot Filling and Intent Prediction](https:\u002F\u002Faclanthology.org\u002FN18-2118.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F413261222) | 提出了Slot-Gated机制，联合意图识别和槽位填充效果提升 | Chih-Wen Goo et al,2018\n  \n+ [模型-语言模型-无监督] | [Unsupervised Random Walk Sentence Embeddings: A Strong but Simple Baseline](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW18-3012.pdf) | Unsupervised Smooth Inverse Frequency，USIF改进SIF对句向量长度敏感，在相似度任务上提升很大 | Kawin Ethayarajh Arora et al,2018\n  \n+ [深度学习] | [Fixing Weight Decay Regularization in Adam](https:\u002F\u002Fopenreview.net\u002Fpdf?id=rk6qdGgCZ) | [原英文版阅读笔记](https:\u002F\u002Fwww.fast.ai\u002F2018\u002F07\u002F02\u002Fadam-weight-decay\u002F) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F39543160) | 论文提出Adam在算法实现上的改进方法--AdamW（注意是算法实现）。Adam相较于传统的GD算法来说，增加了一阶动量（各时刻方向的指数移动平均值）和二阶动量（历史梯度平方和），在算法库的具体实现中，一般是通过在计算梯度之初就加上了正则项，这就导致这个正则项随着梯度一同计算，而AdamW的做法则是在梯度计算完之后，在加上这个正则项（称为weight decay）。论文中比较了SGD和SGDW、Adam和AdamW，通过实验证明了weight decay相较于一般实现的l2正则效果更好 | Anonymous authors et al, 2018\n  \n+ [深度学习] | [Additive Margin Softmax for Face Verification](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1801.05599.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | AM-Softmax在A-Softmax的最大区别是AM是角度距离，A是余弦距离\n\n+ [预训练-语言模型] | [Deep contextualized word representations](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.05365.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F51679783) | ELMo模型原paper，想了想还是放在预训练里吧。ELMo模型很经典了，在Transformer这个大杀器提出后，依旧以LSTM为核心结构提出新的SOTA语义编码结构，还是尤其独到之处（ps：同年BERT也被提出了）。ELMo的结构可以分为两侧各一个多层LSTM，左侧的多层LSTM负责编码文本的正向语义，右侧的负责编码反向语义，然后对左右两边每一层的输出进行concat并乘上一个权重，最后的ELMo向量就是每一层输出的和。ELMo最大的亮点就是编码了文本的双向语义，因此相对于一些单向、静态编码器来讲，效果更好，但是问题也在这，这种将正反向的语义分开编码方式，就比不上BERT这种融合式的双向编码了，事实上也证明了这一点 | Matthew E. Peters et al,2018\n\n+ [深度学习] | [Self-Attention with Relative Position Representations](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.02155.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F268649069) | 对Transformer里面用到的位置编码进行讨论，对自注意力进行改造，从而使用相对位置编码代替硬位置编码 | Mihaylova et al,2018\n\n+ [深度学习] | [Group Normalization](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.08494.pdf) | Group Normalization是将输入的通道分成较小的子组，并根据其均值和方差归一化这些值 | Yuxin Wu et al,2018\n\n+ [语音系统-语音识别-预训练] | [Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1804.10752.pdf) | 使用Transformer应用在普通话语音识别，数据集是HKUST datasets  |  Shiyu et al,2018\n  \n+ [模型-Subword] | [Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1804.10959.pdf) | unigram在给定词表及对应概率值下，直接以最大化句子的likelihood为目标来直接构建整个词表 | Kudo et al,2018\n\n+ [对话系统-对话状态跟踪] | [Global-Locally Self-Attentive Dialogue State Tracker](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.09655.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F266982344) | 全局-局部自注意力状态跟踪 | Zhong et al,2018\n  \n+ [深度学习] | [How Does Batch Normalization Help Optimization?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.11604.pdf) | 讨论Batch Normalization是如何帮助优化器工作的，主要结论是BN层能够让损失函数更加平滑 | Shibani et al,2018\n  \n+ [模型-对话系统] | [Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1806.00778.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F349369847) | 一种用于通用序列对建模的整体架构，结合多种注意力机制进行特征增强 | Yi Tay et al,2018\n\n+ [对话系统-数据增强] | [Sequence-to-Sequence Data Augmentation for Dialogue Language Understanding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.01554.pdf) | 使用seq2seq生成模型对语义文本进行数据增强，核心步骤为Delexicalisation->Diversity rank->generation->surface realisation | Yutai Hou et al,2018\n  \n+ [模型] | [Sliced Recurrent Neural Networks](https:\u002F\u002Farxiv.org\u002Fftp\u002Farxiv\u002Fpapers\u002F1807\u002F1807.02291.pdf) | 切片RNN网络，尝试突破RNN时序限制的模型 | Zeping Yu et al,2018\n  \n+ [模型-文本相似度\u002F匹配\u002F分类-GNN-图算法] | [Graph Convolutional Networks for Text Classification](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.05679.pdf) | 将GCN应用于文本分类中，在不引入预训练模型的情况下，该方法的表现已经很优异了。该方法将每个独立的单词以及文档作为节点，即graph中包含单词级别和文档级别两类节点。初始化单词one-hot（不使用训练向量）。对于边，则包含（文档-单词）、（单词-单词）两类边，其中（文档-单词）使用tf-idf进行度量，（单词-单词）使用PMI指数。本文的模型结构的缺点在于，只考虑到共现度方面的信息，因此语义方面很低（作者原意就是不使用预训练embedding），而且可能会受到长尾问题的影响，因此可以使用注意力来辅助提升 | Liang Yao et al, 2018\n  \n+ [语音系统-语音合成] | [Neural Speech Synthesis with Transformer Network](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.08895.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F332316226) | 本文受Transformer启发，使用多头自注意力机制取代Tacotron2中的RNN结构和原始注意力机制。 | Naihan et al,2018\n\n+ [预训练-语言模型] | [BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.04805.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F269997771) | 顶顶大名的BERT，单独抽离Transformer的Encoder架构，并提出NSP、MLM预训练方式，也是基于此，是的BERT拥有强大的表征能力，并用于下游相关任务 | Devlin et al,2018\n\n+ [深度学习] | [RelGAN: Relational Generative Adversarial Networks For Text Generation](https:\u002F\u002Fopenreview.net\u002Fpdf?id=rJedV3R5tm) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F87605995) | 提出了新型的生成器和判别器结构，使得直接用Gumbel Softmax训练出的文本GAN大幅度超过了以往的各种文本GAN模型。主要由三个模块组成，分别是：在生成器上，利用relational memory，使得具有更强表达能力和在长文本上更好的模型能力；在离散数据上，训练GAN利用Gumbel-Softmax Relaxation模型，使得模型简化，替代强化学习启发式算法；在判别器上利用多层词向量表示，使得生成器往更具多样性方面更新 Weili Nie et al, 2019\n\n+ [异常检测-综述] | [Deep Learning for Anomaly Detection: A Review](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.02500.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F419161328) | 本篇综述将异常检测归纳到三个框架（deep learning generic feature extraction、learning representations of normality、end-to-end anomaly score learning），共十一种类别中，并对每个类别的目标、流程、优缺点等进行了详细的阐述。最后给出了代表性的算法和数据集，并分析了当下和未来的发展方向，是一篇非常值得一读的异常检测综述 | Guansong Pang et al, 2019\n\n+ [机器学习] | [Covariate Shift: A Review and Analysis on Classifiers](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8978471) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F339719861) | 通过几种分类算法，在四种不同的数据集下验证几种方法处理Covariate Shift问题后的性能分析 | Geeta et al, 2019\n\n+ [深度学习] | [Language Models as Knowledge Bases?](https:\u002F\u002Faclanthology.org\u002FD19-1250.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F94470840) | 一篇讨论性的文章，主要提出的观点是认为像BERT等类似的预训练语言模型是另一种形式的knowledge database，能够保存大量的知识信息。作者通过效仿MLM的方式，将已有的NLP数据集进行整合，并挖空成完形填空的提问形式（以推理实体关系），文中实验了两种单向语言模型和两种双向语言模型，结果显示预训练模型的确包含了知识库中的信息。ps：这种观点也不一定对的，也有文章反对说BERT等模型只是由于对实体名称（表面形式）进行推理，如果过滤掉一些容易猜测的事实，那么模型精度将会急剧下降 | Fabio Petroni et al, 2019\n\n+ [深度学习-预训练] | [What does BERT learn about the structure of language?](https:\u002F\u002Fhal.inria.fr\u002Fhal-02131630\u002Fdocument) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F74515580) | 本文主要是通过一些实验来补充验证BERT的不同层学习到的信息（具体没啥新结论，只是补充验证而已）。BERT的底层学习到的主要是token的表层信息，中层学习到的是语言学特征信息（句法结构之类的），顶层学习到的是语义特征信息。文中还进一步探索了BERT能够学习到组合结构的特征，使用了Tensor Product Decomposition Networks（TPDN）来设计实验，从自注意力机制的权重中推导出对应的依赖树，印证了BERT的组合建模方式和传统的句法分析相似 | Ganesh Jawahar et al,2019\n\n+ [模型] | [Pay Less Attention With Lightweight And Dynamic Convolutions](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1901.10430.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F396143249) | 论文研究Lightweight、Dynamic Convolutions，卷积结构同样能够达到和Self-Attention媲美的效果 | Felix Wu et al,2019\n\n+ [蒸馏-预训练-语言模型] | [Distilling Task-Specific Knowledge from BERT into Simple Neural Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.12136.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F351319938) | 对BERT进行蒸馏，训练一个TextCNN模型，相比于直接使用BERT，TextCNN虽然有一定的损失，但是参数量和速度都大大提升。本文在知识蒸馏的方式上没有特别的创新，核心点在于（1）添加了额外的逻辑回归的目标，在标注数据下，hard label的交叉熵+teacher 模型的logits的MSE；在无标注数据下，teacher模型的softlabel的交叉熵+teacher模型的logits的MSE（2）数据增强，提出了多种方法；随机mask一个token；pos tag替换；n-gram sampling；mask_prob，执行mask增强，mask_prob \u003C\u003C pos_prob，执行pos替换，最后执行n-gram sampling | Raphael Tang et al,2019\n  \n+ [深度学习] | [On the Convergence of Adam and Beyond](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09237.pdf) | [原英文版阅读笔记](https:\u002F\u002Fwww.fast.ai\u002F2018\u002F07\u002F02\u002Fadam-weight-decay\u002F) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F39543160) | Amsgrad，ICLR2018的最佳论文，主要是算法证明Adam在收敛性上存在的缺陷，并设计了理论实验，证明了这一点，同时提出了很简单的优化方法（实际的算法实现中，这个优化方法在相当多的实验中效果并不好）。Adam的收敛性缺陷在于，学习率通常是恒定的或降低的，所以随着训练过程的进行，二阶动量会随之减少，所以具体做法是增加一个变量来记录最大值，使用这个二阶动量的最大值替换原来的二阶动量进行计算，即v = max(avg_squared, max_squared) | Sashank J. Reddi et al, 2019\n  \n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [Poly-encoders: Transformer Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.01969v2.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F119444637) | Poly-encoder主要的出发点就是想要保持Bi-encoder的推理速度的同时，兼顾Cross-encoder精准匹配的潜力。思想上比较好理解，Bi-encoder的主要问题在于它要求encoder将query的所有信息都塞进一个固定的比较general的向量中，而Cross-encoder为了得到更加均衡的语义表示，需要将句子对关联起来进行推理计算，导致在检索时速度极慢。因此Poly-encoder的方案就是每个query产生m个不同的vec，利用这m个vec动态的和candidate vec计算，得到最终的final_vec（作为query的最终表示），用final_vec和candidate vec进行计算得到分数 | Samuel Humeau et al,2019\n  \n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [How to Fine-Tune BERT for Text Classification?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.05583.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F358516009) | BERT在Text Classification上的一些微调实验 | Xipeng Qiu et al,2019\n\n+ [预训练-对话系统] | [Pretraining Methods for Dialog Context Representation Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.00414.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F240742891) | 作者列举了四种针对对话上下文表示的预训练方法，其中两种是作者新提出的 | Shikib et al,2019\n\n+ [深度学习] | [Scheduled Sampling for Transformers](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07651.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F267146739) | 在Transformer应用Scheduled Sampling | Mihaylova et al,2019\n\n+ [预训练-语言模型] | [XLNet: Generalized Autoregressive Pretraining for Language Understanding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08237.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F361737484) | XLNet--自回归语言模型的复兴，30多项任务超越BERT | Zhilin Yang et al,2019\n\n+ [机器学习] | [Monte Carlo Gradient Estimation in Machine Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.10652.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F110588068) | 本文是一篇关于Monte Carlo gradient estimation的survey，本文主要总结的内容是：随机梯度估计方法的相关背景知识，包括蒙特卡洛采样和随机优化；几种经典应用，包括变分推断、强化学习中的Policy gradient、敏感性分析、实验设计；两类经典的梯度估计算法 | Shakir Mohamed et al,2019\n\n+ [预训练-语言模型] | [RoBERTa: A Robustly Optimized BERT Pretraining Approach](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.11692.pdf) | 论文发现原BERT的预训练并不充分，因此作者提出了四点Bert的改进：1）：使用更大的batch在更大的数据集上对Bert进行深度训练；2）：不在使用NSP(Next Sentence Prediction)任务；3）：使用更长的序列进行训练；4）：动态改变训练数据的MASK模式；其中动态MASK就是在每次数据输入的时候进行MASK，而不是在数据预处理的时候就预先MASK好，这种方式相当于不重复看数据，使模型学习到更多的pattern | Yinhan Liu et al,2019\n\n+ [模型-文本相似度\u002F匹配\u002F分类] | [Simple and Effective Text Matching with Richer Alignment Features](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.00300.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F84703949) | 本文模型主打的是参数少，推理速度快（实际复现也确实很快，效果也不错）。模型的结果不复杂，采用对称结构，使用Encoder、Alignment、Fusion三个模块组成的block（模型是多block结构）进行Representation，其核心应该是对于网络中三个向量的使用，residual vectors, embedding vectors 和 encoded vectors。全文的模型结构不复杂，效果不错，值得一试的模型 | Runqi Yang et al,2019\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.10084.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F113133510) | 和之前提出的InferSent结构如出一辙，妥妥的双塔结构，只是换成了Bert来进行特征表示。模型结构没有什么创新点，但是这个结构用起来效果挺好，速度也快，很适合工业界使用。论文中在针对句向量表示计算策略分别使用了CLS向量策略、平均池化策略、最大值池化策略三个策略进行实验，实验结果中平均池化策略最优 | Nils Reimers et al,2019\n\n+ [对话系统-数据增强] | [Data Augmentation with Atomic Templates for Spoken Language Understanding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.10770.pdf) | 使用Atomic Templates（act-slot-value）进行对话数据增强，使用seq2seq生成模型进行语句生成 | Zijian Zhao et al,2019\n  \n+ [预训练-语言模型] | [NEZHA: Neural Contextualized Representation For Chinese Language Understanding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.00204.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F100044919) | 具体来说没有啥特别的创新点吧，在位置编码部分改成了相对位置编码。其他的比如WWM、混合精度训练、优化器自适应学习率，都是屡见不鲜的东西，整体效果而言也没有令人惊艳 | Junqiu Wei et al,2019\n\n+ [预训练-语言模型] | [CTRL: A Conditional Transformer Language Model For Controllable Generation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.05858.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F405493225) | CTRL语言模型，提供Control Code进行定向文本生成，相较于GPT可对文本风格进行控制 | Keskar et al,2019\n\n+ [语音系统] | [A Comparative Study on Transformer vs RNN in Speech Applications](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.06317.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F309390439) | Transformer应用在语音领域上与RNN对比的论文，并在ESPnet上面开源了模型代码 | Nanxin et al,2019\n\n+ [蒸馏-预训练-语言模型] | [TinyBERT: Distilling BERT for Natural Language Understanding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.10351.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F84827596) | 本文提出的TinyBERT模型大小只有BERT的13.3%，推理速度是BERT的9倍，效果下降了2-3个点左右。具体细节分为基础蒸馏：（1）Embedding蒸馏，先用权重矩阵转换一下T模型的Embedding，然后在计算两个模型的Embedding的MSE loss（2）attention层蒸馏，计算S模型和T模型的单个头Attention的MSE loss；（3）hidden层蒸馏，同Embedding的蒸馏方式，先用权重矩阵转换一下；（4）Prediction层蒸馏，计算T模型输出的logits和S模型输出 logits的交叉熵，加一个temperature控制平滑。在训练的时候，分成了两段式学习框架，包含通用蒸馏和特定于任务的蒸馏，就是分别在通用语料和在下游任务语料上分别蒸馏 | Xiaoqi Jiao et al,2019\n\n+ [预训练-语言模型] | [ALBERT: A Lite BERT For Self-superpised Learning Of Language Representations](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11942.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F84273154) | Albert大大缩小了模型参数量，并且加快了训练速度，增加了模型效果。其主要对BERT做了3点改进，第一：把embedding size(E)和hidden size(H)分开可以更高效地利用参数，因为理论上存储了context信息的H要远大于E。第二：跨层参数共享，就是不管12层还是24层都只用一个transformer。第三：使用Inter-sentence coherence loss，即SOP(sentence order prediction) | Zhenzhong Lan et al,2019\n\n+ [蒸馏-预训练-语言模型] | [DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.01108.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F348244612) | 本文提出的DistilBERT，相比BERT减少40%大小，保持了97%的精度，快了60%，结果还是很棒的。DistilBERT实在预训练阶段进行蒸馏：（1）S模型结构方面，和原始BERT保持一致，token-type和pooler去掉了，然后block layer数量只有T模型的一般（两层蒸一层）；（2）在损失设计方面，分为原语言模型的loss（MLM）+蒸馏loss（就是T和S输出的logits的交叉熵）+cos距离loss（T和S在block layer间的hidden对齐）。一些小tricks方面，S模型的初始化选自T模型每两层中的一层；Batch size竟可能的大；引用RoBERTa的优化策略，动态mask | Victor SANH et al,2019\n\n+ [对话系统-对话意图识别-数据增强] | [A Closer Look At Feature Space Data Augmentation For Few-Shot Intent Classification](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.04176.pdf) | 针对SLU的Intent分类任务，对其文本数据进行数据增强并比较效果，其中Linear+Transfer learning效果最佳 | Varun Kumar et al,2019\n\n+ [异常检测-半监督] | [Deep Weakly-supervised Anomaly Detection](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.13601.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F431687085) | 本文提出的PReNet或PRO模型结构上不复杂，通过双塔结构的全连接层（也可以是其他的特征表示层）融合特征，最后通过全连接层缩放维度输出回归分数。本文主要在于对标签数据的组合训练策略，即成对关系预测任务。通过对带标签的异常样本和未带标签的样本进行组合，构成三个类型：两个样本都是已知的异常样本（标签为较大的分值8）、两个样本都是未标记的样本（可能是正常样本，也可能是未知的异常样本，标签为较小的分值0）、两个样本中一个是已知异常样本另一个是未标记样本（标签为中等的分值4）。通过这样做，预测值可以被定义为这些样本对的异常分数，并使用MAE进行训练。预测时，分别从标记异常数据和未标记数据中随机取等量样本，和预测样本进行计算分数 | Guansong Pang et al, 2019\n\n+ [预训练-语言模型] | [CogLTX: Applying BERT to Long Texts](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Ffile\u002F96671501524948bc3937b4b30d0e57b9-Paper.pdf) | 本文主要介绍如何优雅且有效的的使用BERT处理长文本。一般用BERT处理长文本的方式有截断法、Pooling法、压缩法，本文介绍的就是压缩法的一种（三种效果最好的）。从直观的角度来讲，长文本中的核心语义可以由某个短文本替换（相当于长句总结），因此需要找到这个短文本。具体的做法就是（1）首先使用动态规划算法将长文本划分长文本块；（2）然后使用一个叫做MemRecall的模块对这些块进行打分（本质上是concat），从而选出分数最高的子句组成短文本；（3）然后再用这个短文本用于后续的NLP任务。总结来讲就是COGLTX相当于使用了了两个bert，MemRecall中bert就是负责打分，另一个bert执行原本的NLP任务 | Ming Ding et al,2020\n  \n+ [数据集] | [Improving Dialog Evaluation with a Multi-reference Adversarial Dataset and Large Scale Pretraining](https:\u002F\u002Fscholar.google.com\u002Fscholar_url?url=https:\u002F\u002Fdirect.mit.edu\u002Ftacl\u002Farticle-pdf\u002Fdoi\u002F10.1162\u002Ftacl_a_00347\u002F1923874\u002Ftacl_a_00347.pdf&hl=zh-CN&sa=T&oi=gsb-gga&ct=res&cd=0&d=13355199831609160829&ei=hXzkYNupCsyO6rQPkrG1wAo&scisig=AAGBfm39FeIrjR-BGf074wiUqDueImjYeA) | [数据集地址](https:\u002F\u002Fgithub.com\u002Fiitmnlp\u002FDialogue-Evaluation-with-BERT) | DailyDialog数据集的升级版，11K的多轮对话上下文，每个上下文包括五个标准的参考回复、五个不相关的回复、五个随机挑选的回复 | Ananya B. Sai et al, 2020\n  \n+ [模型-预训练] | [Reformer: The Efficient Transformer](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2001.04451.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F411882151) | 使用LSH Attention、Reversible layers、Chunking FFN layers，降低Transformer计算复杂度和内存空间消耗 | Nikita Kitaev et al,2020\n\n+ [Prompt-预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2001.07676.pdf) | 比较早研究Prompt的工作之一，PET使用了基于手工设计模板的Prompt进行训练，对无标签数据使用了简单的prompt ensemble，即将多种prompt集成在一起计算预测结果，按不同pattern的模型acc对应权重对所有的预测进行归一化，作为soft label蒸馏一个最终模型。PET在计算loss的时候主要计算目标词的cross entropy（MLM loss作为附加，Loss=(1-a)*L_CE+a*L_MLM），而忽略了词表中其他备选词，这种方式在后续的工作当中是被认为不妥的，还是使用原生的MLM loss更好。论文还在PET的基础上，提出了迭代式的PET训练，即iPET。其实就是进行多代交叉的蒸馏，随机选取每一代的模型为无标签数据进行标记，并基于此进一步训练下一代的模型，最终和PET一样，用不同模型标注的无标签数据进行预测，蒸馏一个统一的模型。PET这种手动设计Prompt的方式本身难度较大，而且是基于人为经验的，这种方式使得模型比较依赖prompt，导致稍加改动就影响模型性能，因此后续工作也朝着auto prompt方向发展 | Timo Schick et al,2020\n\n+ [深度学习] | [Consistency of a Recurrent Language Model With Respect to Incomplete Decoding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2002.02492.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F349675973) | 讨论Seq2Seq模型解码停不下来的原因 | Sean Welleck et al,2020\n\n+ [深度学习] | [GLU Variants Improve Transformer](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2002.05202.pdf) | 本文借助门控线性单元(Gated Linear Unit,GLU)对模型的FeedForward层进行了修改，同时在训练的时候去掉了Dropout，并增加了解码器输出端的Embedding（这些改动增加了模型参数，但效果更佳）。文中主要对比了Bilinear、relu、gelu、swish激活函数下，使用GLU的效果，其中gelu和swish表现最佳。总得来说，实验证明了GLU的有效性，可以应用在模型里试试 | Noam Shazeer et al,2020\n\n+ [数据集] | [CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue Dataset](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2002.11893.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F259861746) | 第一个大规模的中文跨域任务导向对话数据集 | Qi Zhu et al,2020\n\n+ [综述-对话系统-任务型对话] | [Recent Advances and Challenges in Task-oriented Dialog Systems](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.07490.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F260194067) | 面向任务型对话系统的最新研究和方向 | Zhang et al,2020\n\n+ [深度学习] | [PowerNorm: Rethinking Batch Normalization in Transformers](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.07845.pdf) | 对于Transformer中BN表现不好的原因做了一定的empirical和theoretical的分析 | Sheng Shen et al,2020\n\n+ [综述-预训练] | [Pre-trained Models for Natural Language Processing: A Survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.08271.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F352152573) | 超详细的NLP预训练语言模型总结清单 | Xipeng Qiu et al,2020\n\n+ [预训练-语言模型] | [ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.10555.pdf) | [阅读笔记](https:\u002F\u002Fkexue.fm\u002Farchives\u002F7846#how_to_cite) | BERT使用MLM进行训练，而ELECTRA考虑到BERT的MLM模型随机选择一部分Token进行Mask的这个操作过于简单了，想要增加一下它的难度。所以它借鉴了GAN的思想，用普通的方式训练一个MLM模型（生成器），然后根据MLM模型对输入句子进行采样替换，将处理后的句子输入到另外一个模型（判别器）中，判断句子哪些部分是被替换过的，哪些部分是被没被替换的。生成器和判别器是同步训练的，因此随着生成器的训练，判断难度会慢慢增加，直观想象有利于模型学到更有价值的内容。最后只保留判别器的Encoder来用，生成器一般就不要了。由于这种渐进式的模式使得训练过程会更有针对性，所以ELECTRA的主要亮点是训练效率更高了 | Kevin Clark et al,2020\n\n+ [数据集] | [MuTual: A Dataset for Multi-Turn Dialogue Reasoning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.04494.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F282843192) | MuTual 数据集，用于针对性地评测模型在多轮对话中的推理能力 |  L Cui et al,2020\n\n+ [对话系统-检索式对话系统] | [Dense Passage Retrieval for Open-Domain Question Answering](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.04906.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F403589222) | DPR一种高效的开放域问答检索技术，应用了BERT进行编码 | Karpukhin et al,2020\n  \n+ [预训练-语言模型-对话系统-任务型对话] | [TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.06871.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F377845426) | 任务导向型对话的预训练自然语言理解模型 | Chien-Sheng Wu et al,2020\n\n+ [深度学习] | [Shortcut Learning in Deep Neural Networks](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.07780.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F421175552) | 对Shortcut Learning问题进行比较详细的解释和剖析，虽然最后没有给出实际的解决方案（Shortcut Learning问题本身就没有一个体系化的策略，需要根据实际任务而定），不过提供了几种解决的视角 | Robert Geirhos et al,2020\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.12832.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F376475610) | 和前面的Poly-encoder出发点都是一样的，为了就是在获得BERT representation能力的同时，提高文本计算的效率。按照本文的说法，就是尽可能离线计算好Embedding，在通过Late Interaction的方式，弥补因为query和doc分离计算导致的效果损失。本文具体的模型结构是使用原生的BERT，对query和doc进行Embedding，不同之处是为了区分query和doc，分别在输入的seq的起始位置加上[Q]和[D]。Bert是编码器，CNN做维度变换，用来对BERT的隐层输出进行降维处理，Normalize是为后面计算余弦相似度做l2正则化处理，对于doc加个标点符号的mask | Omar Khattab et al,2020\n\n+ [综述-文本相似度\u002F匹配\u002F分类] | [Evolution of Semantic Similarity - A Survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.13820.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F138636605) | 一篇语义相似度的综述，整体文章从数据集开始，将技术体系分为：基于知识的语义相似性方法、基于语料的语义相似性方法、基于深度神经网络的方法、基于混合模型方法四类进行分析 | Dhivya Chandrasekaran et al,2020\n\n+ [模型-预训练-语言模型] | [Synthesizer: Rethinking Self-Attention for Transformer Models](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2005.00743.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F380602965) | 在Transformer架构下，对Self-Attention计算的探索研究，看完会对Self-Attention有个新认识 | Yi Tay et al,2020\n  \n+ [综述-文本相似度\u002F匹配\u002F分类] | [Measurement of Text Similarity: A Survey](https:\u002F\u002Fscholar.google.com\u002Fscholar_url?url=https:\u002F\u002Fwww.mdpi.com\u002F2078-2489\u002F11\u002F9\u002F421\u002Fpdf&hl=zh-CN&sa=T&oi=gsb-gga&ct=res&cd=0&d=6927655514883966546&ei=Ftg9Yqm4D4TQmAGcuKOgCw&scisig=AAGBfm0m8ZuluCOz6UpEoMRcxqYN9oQl8A) | 语义相似度的综述，大体上从独立度量到模型计算的模型概述的比较广，但不是很全，不过从了解相似度计算来讲，还是值得一看的 | Jiapeng Wang et al,2020\n\n+ [深度学习] | [Beyond Accuracy: Behavioral Testing of NLP Models with CheckList](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2005.04118.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F421175552) | ACL2020的Best Paper，基于NLP领域提出了测试体系来指导我们了解 NLP 模型的能力，也能够指导我们去理解问题、解决问题。不同于现代 NLP 模型常常仅关注特定的任务，CheckList 希望去评估一个模型的多方面能力，这些能力有的是模型通用的，有的则是面向特定的任务或领域 | Marco Tulio Ribeiro et al,2020\n\n+ [预训练-语言模型] | [DeBERTa: Decoding-Enhanced Bert With Disentangled Attention](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2006.03654.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F348522530) | DeBERTa的一大亮点在于改动位置编码的介入时机，在论文中叫作Disentangled Attention。具体做法是将原本和输入embedding混合相加的pos embedding（relative）单独拎出来，然后再用位置编码和content 编码计算attention，进而增加了“位置-内容” 和 “内容-位置” 注意力的分散Disentangled Attention。然后一些其他的改动比如：1) | 因为我们在精调时一般会在 BERT 的输出后接一个特定任务的 Decoder，但是在预训练时却并没有这个 Decoder，所以本文在预训练时用一个两层的 Transformer decoder 和一个 SoftMax 作为 Decoder；2) | 为了弥补一下只有相对位置的损失，因此在decoder前加入一层绝对位置embedding；3) | bert的训练策略中，mask有10%的情况是不做任何替换，而DeBeta将不做替换改成了换位该位置词绝对位置的pos embeding | Pengcheng He et al,2020\n\n+ [对话系统-阅读理解模型-检索式对话系统] | [Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.01282.pdf) | Fusion-in-Decoder生成式阅读理解模型 | Izacard et al,2020\n\n+ [数据集] | [MultiWOZ 2.2: A Dialogue Dataset with Additional Annotation Corrections and State Tracking Baselines](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.12720.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F260097352) | MultiWOZ是一个著名的面向任务的对话数据集，被广泛用作对话状态跟踪的基准，MultiWOZ 2.2是目前最新版本 | Zang et al,2020\n\n+ [预训练-语言模型] | [Glancing Transformer for Non-Autoregressive Neural Machine Translation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2008.07905.pdf) | [阅读笔记](https:\u002F\u002Fwww.linkresearcher.com\u002Ftheses\u002F5970ead3-229c-4193-9f67-f39dc16219f5) | 本文提出的GLAT是一种Non-Autoregressive翻译模型（摆脱BeamSearch），主要着重于并行化Decoder以及提高翻译质量，实际的效果速度快且在一些翻译方向上（英德）达到了SOTA。模型的核心结构沿用Transformer结构，参考预训练语言模型的MLM的做法，提出一种叫作GLM（Glancing LM）的方案，即使用两遍Decoder（同一个Decoder），第一遍的Decoder中，不加任何干预的获得模型的自然输出，这个时候将输出与Gold output进行对比，然后随机采样（也可以尝试其他的）目标词的词嵌入替换模型输出对应的hidden，然后再次喂入Decoder得到最终输出（注意，这里采样的词数量是根据训练情况好坏反比的，模型输出效果越好，采样的目标词越少，最终模型收敛到一次并行推理）。原理就是在第一次并行推理比较难学习到词与词之间的依赖关系，因此在第二次并行推理时，适当的引入目标词进行修正，进行增强训练 | Lihua Qian et al,2020\n\n+ [异常检测-模型-机器学习-无监督] | [COPOD: Copula-Based Outlier Detection](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2009.09463.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F338189299) | 本文主要是基于copula统计概率函数，提出了COPOD的异常检测方法，COPOD使用了非参数（non-parametric）的方法，通过经验累积分布（Empirical CDF）来得到empirical copula，在这之后我们就可以简单的通过empirical copula来估算所有维度上的联合分布的尾端概率。因此COPOD不需要进行样本间的距离计算，从而节省运行开销且速度快，同时，该方法不需要调参，直接使用即可 | Zheng Li et al, 2020\n\n+ [预训练-语言模型-关系抽取] | [A Frustratingly Easy Approach for Entity and Relation Extraction](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.12812.pdf) | [阅读笔记](http:\u002F\u002Fwww.sohu.com\u002Fa\u002F430031845_129720) | 提出了一种非常简单的方法，该方法可以学习基于深度预训练语言模型构建的两个编码器，这两个模型分别被称为实体模型和关系模型（实体模型和关系模型的语境表示本质上捕获了不同的信息，因此共享其表示会损害性能）。同时，为了加快模型推断速度，该研究提出了一种新颖而有效的近似方法，该方法可实现 8-16 倍的推断加速，而准确率只有很小的降低 | Zexuan Zhong et al,2020\n\n+ [预训练-语言模型-Prompt] | [AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.15980.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F366771566) | 本篇论文提出一种基于梯度的prompt搜索方案，方法比较直观，将通过梯度找出trigger word和mask拼接在文本中，形成一个语义上不通顺，但是对模型而言却具有合理prompt的样本，并且将label预测转换为masked token的预测。方法的核心在于选取trigger word，说白了就是选定一个已确定token数量的template，比如论文中{sentence}[T][T][T][T][T][P]，其中T就代表trigger word，P代表label，在这个例子中，准备使用五个token作为prompt，做法就是将这五个token标识为mask token，然后通过MLM的方式预测出token，然后选前k个最大化输入与梯度乘积的token，选出的token候选一次加入到prompt并评估预测的概率。在预测prompt token之外，还拿了mask token的hidden states过一个线性层预测label，并加上原本label位置mask token的loss进行训练。AutoPrompt的方法总的来说简单粗暴，不过带来的也是可解释性差，具体效果一般 | Taylor Shin et al,2020\n\n+ [预训练-语言模型] | [Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.07436.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F351321328) | 一种效果远超Transformer的长序列预测模型，针对LSTF问题上的研究改进 | Haoyi Zhou et al,2020\n  \n+ [综述-可解释性] | [A Survey on Neural Network Interpretability](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.14261.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F341153242) | 关于神经网络可解释性的一篇综述，整理的挺不错的，不过就是相关领域前沿探索不足 | Yu Zhang et al,2020\n\n+ [深度学习] | [A Theoretical Analysis of the Repetition Problem in Text Generation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.14660.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F349675973) | 讨论Seq2Seq模型解码重复生成的原因 | Zihao Fu et al,2020\n\n+ [预训练-语言模型-Prompt] | [Making Pre-trained Language Models Better Few-shot Learners](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.15723.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F386470305) | 文中提出的LM-BFF是一套简单的技术组合，用于仅在少量训练样本上对预训练的LM进行微调，其中包括：（1）基于Prompt的微调以及自动生成prompt的新方法；（2）一种动态的、有选择的在上下文中引入demonstration的方法。这里稍微介绍一下背景概念，Prompt方法主要分两种不同的研究方向：（1）基于prompt的fine-tuning（被认为是更适合小LM的few-shot learner）；（2）而对于大模型，fine-tuning比较困难，因此是希望固定他们的参数，通过不同的prompt将它们应用在不同的任务上。对于第二个研究方向，prompt分为Discrete Prompts和Soft Prompts，可以简单的认为discrete是选随机token，而soft则是直接用随机向量替换Embedding。然后还有除了Prompt之外，还有demonstration（in-context learning， 一种新的meta-learning方式），prompt和demonstration都是GPT-3很成功的设计，demonstration是多sample+input text作为模型输入，其中也有很多优化的方法 | Tianyu Gao et al,2020\n\n+ [对话系统-预训练-检索式对话系统] | [Distilling Knowledge From Reader To Retriever For Question Answering](https:\u002F\u002Fopenreview.net\u002Fpdf?id=NTEz-6wysdb) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F372694270) | 一种模型训练模型的开放域问答方法 | Izacard et al,2021\n\n+ [预训练-语言模型-Prompt] | [Prefix-Tuning: Optimizing Continuous Prompts for Generation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2101.00190.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F386073664) | 本篇论文核心是针对离散的Prompt难以优化的问题，提出了参数化的prompt，仅微调prompt，freeze住LM。在小样本任务重，这种方法极大的减小的模型的参数，减少了过拟合的风险，这种参数化的prompt在小样本场景中，能够优于fine-tune的方法。这篇文章的做法和P-tuning差不多，都是设计了非自然语言的模板，只不过Prefix-tuning主要关心的是NLG的应用，而P-tuning更加关心NLU的应用 | Xiang Lisa Li et al,2021\n\n+ [综述-向量召回] | [A Comprehensive Survey and Experimental Comparison of Graph-Based Approximate Nearest Neighbor Search](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2101.12631.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F415320221) | 论文是一篇关于graph-base的向量召回综述，聚焦实现了效率和精度最优权衡的近邻图索引，综述了 13 种具有代表性相关算法，包括NSW、HNSW等在内的优秀算法，并提出一个统一评估的pipeline | Mengzhao Wang et al,2021\n  \n+ [预训练-评估] | [LogME: Practical Assessment of Pre-trained Models for Transfer Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.11005.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F358844524) | 一种通用且快速的评估选择适合下游任务的预训练模型的打分方法，logME | Kaichao You et al,2021\n\n+ [Prompt-预训练-语言模型] | [GPT Understands, Too](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.10385.pdf) | [阅读笔记](https:\u002F\u002Fkexue.fm\u002Farchives\u002F8295) | 在本文之前的Prompt思路呢，要么是通过人工设计Prompt（如PET），要么是探索通过自动化搜索Prompt进行（如AutoPrompt、LM-BFF等），思路都限于搜索token来组成Prompt template（Discrete Prompt Search），而本文提出的P-tuning思路是不用关心template由哪些token word组成，对于模型而言，只需要token embedding，直观点说就是在template中，除了目标词正常以Mask token出现，prompt token则是[unused*]（也就是从未见过的token来构成模板，这里的token会过一层LSTM进行编码），其中token数目是一个超参数可以调整，这种方式极大的提升了template的搜索空间（连续）。小样本的时候固定模型权重，只优化[unused*]的Embedding，这样即使样本少也能学到prompt template，不容易过拟合。标注数据足够的话就直接放开所有权重一同训练微调就行 | Xiao Liu et al,2021\n\n+ [Prompt-预训练-语言模型] | [The Power of Scale for Parameter-Efficient Prompt Tuning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08691.pdf) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fc9Yv2cf9I06K2A9E\u002Farticle\u002Fdetails\u002F121112298) | 本文的方法和p-tuning相似，是固定LM，只训练prefix，这篇文章主要是验证了全量数据情况下，仅微调prompt相关的参数，能够达到fine-tune的效果（p-tuning的prompt token人为的选用[unused*]，而本文对prompt token的初始化分两种：置零和采用词表的一些预训练token embedding）。论文的最终结论有：1）：在一般模型大小的情况下，prompt token越多，效果越好（超过20增益减小），但是在超大模型的情况下，单个prompt token也能达到前面20个token以上的效果；2）：随机初始化、词表采样、用label标签初始化，其中label的方式效果最好；3）：LM Adaptation steps 越多，效果越好；4）：同时训练多个prompt进行ensemble，效果优于单一prompt | Brian Lester et al,2021\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [SimCSE: Simple Contrastive Learning of Sentence Embeddings](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08821.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F368353121) | 基于Sentence-Bert，引入对比学习的思想，在无监督与有监督语义相似度计算任务达到SOTA。主要围绕对比学习质量指标Alignment和Uniformity来进行优化，对于Unsupervised，核心是使用dropout mask生成正样本，负样本是in-batch negatives。而Supervised则是NLI中entailment关系样例对。负例：a) in-batch negatives b)NLI中关系为contradiction的样例对 | Tianyu Gao et al,2021\n\n+ [预训练-语言模型] | [Are Pre-trained Convolutions Better than Pre-trained Transformers?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2105.03322.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F380195756) | 将Transformer的Attention换成了卷积，尝试预训练模型新方式 | Yi Tay et al,2021\n\n+ [综述-对话系统] | [Recent Advances in Deep Learning Based Dialogue Systems: A Systematic Survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2105.04387.pdf) | 对话系统综述：新进展新前沿 | JinJie Ni et al,2021\n\n+ [对话系统-评估] | [Towards Quantifiable Dialogue Coherence Evaluation](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.00507.pdf) | QuantiDCE，一种实现可量化的对话连贯性评估指标模型 | Zheng Ye et al,2021\n\n+ [对话系统-对话策略学习] | [Retrieve & Memorize: Dialog Policy Learning with Multi-Action Memory](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.02317.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F415170940) | 联合检索和记忆块的多action的Dialog Policy Learning模型，在action生成和response生成上效果SOTA | Yunhao Li et al,2021\n  \n+ [对话系统] | [Increasing Faithfulness in Knowledge-Grounded Dialogue with Controllable Features](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2107.06963.pdf) | 通过可控特征来增加知识对话系统的学习 | Rashkin et al,2021\n  \n+ [综述-Prompt-预训练] | [Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2107.13586.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F409541189) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F461825791) | 关于Prompt-based learning的一篇综述，Prompt（提示\u002F题词）和之前的MLM有些相似，通过定义template的方式，基于语言模型的特性直接估计出文本的概率，从而生成答案。相较于传统的语言模型依赖于针对特定下游任务的fine-tune，Prompt更加关注模型的迁移能力（它的目标就是希望对不同下游任务建立一个统一的范例），除了便捷和泛化能力之外，这样做的一个明显优势就是不同任务之间的数据可以共享，减少标注数据，随着数据累积，新的任务可以达到zero-shot learning的目的 | Pengfei Liu et al,2021\n\n+ [文本相似度\u002F匹配\u002F分类-Prompt-预训练-语言模型] | [Noisy Channel Language Model Prompting for Few-Shot Text Classification](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2108.04106.pdf) | 本篇论文以实验探索为主，含有大量的实验对比，主要出发点就是在few-shot问题中，探讨控制训练参数对于direct model和channel model效果的影响，最终的论文的结论是Noisy Channel model明显优于direct model。论文中的direct model主要是指一般的P(c|x)，其中x是输入，c是label，而direct++ model则是基于direct，强化文本间的差异，引入空文本，即P(c|x)\u002FP(c|null)，而channel model则是指使用贝叶斯公式重新参数化direct，P(c|x)=P(x|c)P(c)\u002FP(x)，其中P(c)就是label数分之一，即P(1\u002FC)，而P(x)独立于c，所以最终只需要计算P(x|c)。那么最后用形象一点的例子来解释direct和channel的差异就是，direct=x->c，channel=c->x。论文中对参数的控制采用了all finetuning、head tuning、transformation tuning和Prompt tuning（这里可以认为是soft prompt，即只需在输入序列中放入一些随机向量，与词汇表中的特定word embedding无关，并进行调整，同时固定预训练模型的其他部分）。在direct和channel的方法间，channel明显优于direct。在direct model的参数控制实验中，head tuning是最优的，但是当channel model配合soft prompt时，效果是最好的 | Sewon Min et al,2021\n\n+ [对话系统-预训练] | [General-Purpose Question-Answering with MACAW](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.02593.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F425427299) | 生成式多角度问答模型，参数量只有GPT-3的十六分之一，作者主打的亮点是通过整合7种不同的任务范式（问题生成、答案生成...），使得模型能够通过不同角度学习到QA相关的内容，目的就是得到一个强大的QA版本预训练模型。输入的话就是通过\"$s1$;$s2$..\"的slot方式进行文本拼接，得到的解码输出也是如此输出的，模型内核还是基于transformer的改造 | Oyvind Tafjord et al,2021\n\n+ [预训练-语言模型-Prompt] | [PPT: Pre-trained Prompt Tuning for Few-shot Learning](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.04332.pdf) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fc9Yv2cf9I06K2A9E\u002Farticle\u002Fdetails\u002F121112298) | 之前的工作都是在finetune阶段去使用prompt，这篇文章第一次提出了prompt pretraining的过程。一开始是因为观察了prompt tuning中的大模型尽管在全量数据下能够媲美finetune，但是在少样本情况下并不好，作者认为是因为在大模型上soft prompt对初始化很敏感，所以设计了一系列预训练的prompt task来给soft prompt提供一个很好的初始化。论文的结论是，通过 prompt 的预训练，在少样本情况下，大模型的 prompt tuning 同样能媲美 fine-tuning 的效果 | Yuxian Gu et al,2021\n\n+ [对话系统-任务型对话-预训练] | [Constraint based Knowledge Base Distillation in End-to-End Task Oriented Dialogs](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.07396.pdf) | 基于KB的End2End的Task-Oriented的对话系统，使用pairwise相似度过滤相关信息来获得KB中的n元结构，就这一点上倒没有什么新奇，只不过相对于之前的方式修改的entity格式。不过在避免检索到部分entity相似但并不是目标的record的情况，作者加入了辅助的损失函数用于embedding constraint，这种做法确实减少了相同entity之间的相似性，从而提高record的可靠性，值得借鉴。基于现有的F1指标的缺点，提出multiset entity F1 | Dinesh Raghu et al,2021\n  \n+ [综述] | [Paradigm Shift in Natural Language Processing](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.12575.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F415867930) | 总结归纳NLP中任务范式并分析的综述，论文给出了七种范式的定义，针对此分析一些具体任务（范式迁移）的例子，并指出四种可能大一统的NLP任务范式：LM，matching，MRC，Seq2Seq（LM减少工程量，MRC具有更高的可解释性，seq2seq在处理复杂任务时具有更高的灵活性），但是没有把Prompt纳进去（狗头） | Tianxiang Sun et al,2021\n\n+ [综述-数据增强] | [Data Augmentation Approaches in Natural Language Processing: A Survey](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.01852.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F420295576) | 哈工大的工作，对15中NLP数据增强方法进行了总结和对比，有详细的优缺点说明，还有一些使用技巧，实用性非常强，需要的时候可以详细的参考原文以及相关的文献的应用细节。几个开源工具：Easy DA、UNsupervised DA、nlpaug、eda_nlp_for_Chinese | Bohan Li et al,2021\n\n+ [预训练-语言模型-Prompt] | [SPoT: Better Frozen Model Adaptation through Soft Prompt Transfer](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.07904.pdf) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fc9Yv2cf9I06K2A9E\u002Farticle\u002Fdetails\u002F121112298) | 之前的工作证明了prompt 的初始化很重要，而在PPT（Pre-trained Prompt）那篇论文中提出的预训练方法能够给 prompt 提供一个很好的初始化，但是有没有其他预训练的方式，比如不用设计预训练任务的，因此本文提出了一种prompt transfer（SPoT）的方法，即学习一个或者多个源任务的  prompt 来初始化目标任务的 prompt，这种方式能够使得 prompt tuning 在不同模型尺寸（包括小模型）上都能媲美甚至优于 fine-tuning（注意，无法超过 multi-task fine-tuning 的效果）。论文的结论是在全量数据 + 仅微调 prompt 的情况下，SPoT 能够在多个模型尺寸（包括小模型）下媲美和优于 model tuning 的效果，并能在使用超大模型情况下媲美强基线 Multi-task Tuning | Tu Vu et al,2021\n\n+ [异常检测-模型-机器学习-无监督] | [ECOD: Unsupervised Outlier Detection Using Empirical Cumulative Distribution Functions](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.00382.pdf) | 本文作者和2020年提出的COPOD算法同作者，本文提出的ECOD算法是COPOD算法的扩展版本。ECOD算法使用经验累计分布函数的无监督离群值检测，通过类似集成的方法（结合同一样本不同维度的离群分，假设各维度特征相互独立），计算每个样本的离群分，分值越高是异常值的可能性越大。另外，在计算各特征维度的左尾和右尾ECDF，并得到对应离群分后，通过skewness（偏度）来矫正集群分得到最终结果 | Zheng Li et al, 2022\n\n+ [预训练-语言模型-Prompt] | [Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2202.12837.pdf) | [阅读笔记](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FqdCuPWsNg_lOxUkap1dQ9Q) | 本文主要探讨分析Prompt范式下，预训练语言模型是如何学习并work的。主要的结论是在in-context learning 学习中，学习并不是输入与标注之间的关联，而是通过展示数据形式，来激活与训练模型的能力。此外附带两个结论：在meta learning环境下，in-context leanring的这个特点更为明显；因为标签不重要，所以可以用无标注领域内数据做in-context zero shot learning | Sewon Min et al,2022\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [How Different are Pre-trained Transformers for Text Ranking?](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.07233.pdf) | [阅读笔记](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FJaP7FjQeHyHURj1qh3rKQg) | 本文主要对BERT（Cross-Encoder，即软匹配）和传统稀疏排序方法的BM25（精确匹配）进行query-doc排序结果的比较分析，尝试搞清楚Cross-Encoder和BM25的区别，弄清CE的运作原理。论文得到的结论就是：（1）精确匹配是一个重要的基础排序策略，而CE的软匹配能力是BM25不具备的；（2）对于高度相关的doc排序，CE和BM25各自的相关性定义有着很大的不同，且BM25明显低估了许多文档的相关性；（3）CE的潜力在于，它可以召回BM25非常不看好而实际却是高度相关的doc；（4）CE通过考虑上下文信息客服了对term匹配的依赖，能够找到“不可能相关”的结果，即语义泛化能力。从整个实验中也可以明显的看出CE和BM25各自都有着自己的优势，CE并不能完全替代BM25，不管是在召回还是在排序阶段，这两者依旧是相辅相成的关系（别忘了个事实，CE方法上百亿的参数，BM25相比之下“弱小”很多） | David Rau et al,2022\n\n+ [异常检测-综述-自监督] | [Self-Supervised Anomaly Detection: A Survey and Outlook](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.05173.pdf) | 一篇关于异常检测的综述论文，主要是围绕自监督形式的异常检测方法进行介绍，论文中大部分方法的切入视角是图像，搞文本或者多模态的话也可以看看，说不定有所启发。全文主要的内容大体可以分为：（1）对目前自监督形式的异常检测方法和其应用的场景进行介绍和讨论；（2）根据异常检测算法所针对的数据样本的不同，提出对这些算法进行划分，有利于根据不同场景进行算法的选择；（3）最后对未来的发展进行了讨论 | Hadi Hojjati et al, 2022\n\n+ [异常检测-评估] | [ADBench: Anomaly Detection Benchmark](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.09426.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F565458918) | 一篇很全面的针对Tabular Data的异常检测方法的实验论文，通过设计Benchmark对30种算法（包括许多传统机器学习算法也加入了实验）进行实验分析。其主要贡献就是设计了Benchmark，设计切入的角度分为三个：（1）从完全无监督异常检测到完全监督的异常检测，标签的数量有多重要？（2）对于不同种类的异常，如何分析算法的优劣？（3）对于数据质量中面临的问题，比如噪音、重复、错误等，哪些算法更加鲁棒？ | Songqiao Han et al, 2022\n\n\n# Blog Article | 文章\n\n+ [用ALBERT和ELECTRA之前，请确认你真的了解它们](https:\u002F\u002Fkexue.fm\u002Farchives\u002F7846\u002Fcomment-page-1) | 文章对ALBERT和ELECTRA的优缺点进行了思考，并于BERT进行的比较分析，得到两点结论：（1）如果不到xlarge版，那么没必要用ALBERT，同一速度的ALBERT效果比BERT差，同一效果的ALBERT速度比BERT慢；（2）ELECTRA的预训练速度是加快了，但从目前的实验来看，它相比同级别的BERT在下游任务上的效果并没有突出优势，可以试用，但是效果变差了也不用太失望 | 苏剑林, 2020\n\n","\u003Ch1 align=\"center\">NLP论文\u003C\u002Fh1>\n\u003Cdiv align=\"center\">\n\n[![博客](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fblog-@DengBoCong-blue.svg?style=social)](https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fdengbocong)\n[![论文支持](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpaper-repo-blue.svg?style=social)](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)\n![Stars 感谢](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FStars-thanks-brightgreen.svg?style=social&logo=trustpilot)\n![欢迎PR](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FPRs-welcome-brightgreen.svg?style=social&logo=appveyor)\n\n\u003C\u002Fdiv>\n\n\n更新一些在我学习过程中阅读过的且感觉不错的论文，对于一些经典或思路很新奇的论文，会进行精读，并写一些阅读笔记同步上传更新。(内容同步更新到[知乎](https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fdengbocong)、[CSDN](https:\u002F\u002Fdengbocong.blog.csdn.net\u002F))，**论文按照时间顺序排放**。\n\n**注：**\n+ 文本相似度计算相关的复现代码以及工具包（Tf\u002FPytorch双版本）在这个仓库 ☞ [Text-Similarity](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Ftext-similarity)\n+ 对话系统构建项目在这个仓库 ☞ [Nlp-Dialogue](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-dialogue)\n+ 对部分复现论文代码以及NLP其他工具代码放在这 ☞ [paper-code](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fpaper\u002Ftree\u002Fmaster\u002Fpaper-code)\n\n为了方便查找论文以及归档，提供了搜索工具，使用方式如下：\n```\npython3 search_kits.py\n```\n\u003Cdiv align=center>\n\u003Cimg height=\"350\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDengBoCong_nlp-paper_readme_8015c547d9e9.gif\" alt=\"Search kits\" title=\"Search kits\">\n\u003C\u002Fdiv>\u003Cbr>\n\n# Contents | 内容\n\u003Cdiv align=\"center\">\n    \n&nbsp;&nbsp;[大模型](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[聚类](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[向量召回](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话系统](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话状态管理](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[机器学习](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[语言模型](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[数据集](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[文本相似度\u002F匹配\u002F分类](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[深度学习](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[语音系统](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[语音识别](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[模型](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[预训练](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[Subword](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[任务型对话](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话状态跟踪](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话意图识别](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话槽位填充](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[GNN](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[检索式对话系统](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[语音合成](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[综述](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[无监督](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[数据增强](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[阅读理解模型](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[可解释性](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[Prompt](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[评估](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[对话策略学习](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[关系抽取](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[蒸馏](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[异常检测](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[自监督](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[损失函数](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[半监督](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[社区发现](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\u003Cbr>&nbsp;&nbsp;[图算法](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[搜排](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;•&nbsp;&nbsp;[文本摘要](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper)&nbsp;&nbsp;\n\n\u003C\u002Fdiv>\n\n# Paper List | 论文列表\n```\n注：论文按时间排序，并进行分类归档，可直接在本页Ctrl+F查询，或使用上述搜索工具查询（推荐）\n    下述列表项格式：\u003C标签 | 论文 | 阅读笔记 | 简述 | 作者时间>\n```\n+ [图算法-搜排] | [The PageRank Citation Ranking: Bringing Order to the Web](http:\u002F\u002Filpubs.stanford.edu:8090\u002F422\u002F1\u002F1999-66.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F137561088) | 经典的PageRank算法，最初是作为互联网网页的重要度计算方法，被用于谷歌搜索引擎网页排序。该算法的核心思想就是在有向图（带权）上定义一个随机游走模型（一阶马尔可夫链），在一定的条件下，使得极限情况访问每个节点的概率收敛到平稳分布，节点上的平稳概率值就是PageRank值，用于表示节点的重要度 | L Page et al, 1998\n\n+ [聚类] | [Accelerating exact k-means algorithms with geometric reasoning](http:\u002F\u002Fportal.acm.org\u002Fcitation.cfm?doid=312129.312248) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | K-Means引入计算机中的那片论文，K-Means属于Partition-based methods，思想是初始化中心点，然后通过启发式算法，达到”类内的点都足够近，类间的点都足够远“的目标 | et al Dan Pelleg,1999\n\n+ [异常检测-机器学习] | [LOF: Identifying Density-Based Local Outliers](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F342009.335388) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F28178476) | 本文提出的LOF算法是基于密度的算法，其优势在于同时考虑了数据集的局部和全局属性（其中局部可达密度的定义其实暗含了一个假设，即不存在大于等于K个重复的点），异常值不是按绝对值确定的，而是相对于它们的领域点密度确定的。因此，当数据集中存在不同密度的不同集群时，LOF算法表现良好，比较适合中等高维的数据集 | Markus M. Breunig et al, 2000\n\n+ [聚类] | [Mean Shift: A Robust Approach toward Feature Space Analysis](http:\u002F\u002Fciteseerx.ist.psu.edu\u002Fviewdoc\u002Fdownload?doi=10.1.1.76.8968&rep=rep1&type=pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | 实现的方法是滑动窗口的算法，在每次迭代中，通过将中心点移动到窗口内所有点的平均值位置（因此得名），将滑动窗口中心移向密度较高的区域。滑动窗口内的密度与其内部的点数成正比。通过转换到窗口内点的平均值位置，窗口将逐渐移动到有着更高点密度的区域。优点：Mean-Shift的最大优势就是可以自动发现簇的数量而不需要人工选择；簇的中心向最大密度点聚合的事实也是非常令人满意的，因为它可被非常直观地理解并很自然地契合数据驱动；可以处理任意形状的簇类；算法只需设置半径这一个参数，半径影响数据集的核密度估计；算法结果稳定，不需要进行类似K均值的样本初始化；缺点：不足就是窗口大小\u002F半径“r”的选择可能是非平凡的；半径设置的太小，收敛太慢，簇类个数过多；半径设置的太大，一些簇类可能会丢失。对于较大的特征空间，计算量非常大 | Dorin Comaniciu et al,2002\n\n+ [向量召回] | [similarity estimation techniques from rounding algorithms](https:\u002F\u002Fwww.cs.princeton.edu\u002Fcourses\u002Farchive\u002Fspring04\u002Fcos598B\u002Fbib\u002FCharikarEstim.pdf) | [阅读笔记](http:\u002F\u002Ftangxman.github.io\u002F2015\u002F12\u002F01\u002Fsimhash\u002F) | 论文提出的SimHash是当年Google用来文本去重的算法。主要做法是将文档提取出一定数量的关键词，然后转换成哈希码并按列相加，1+weight，0-weight，得到的结果按照整数为1，负数为0得到最终的哈希码，然后将哈希码分为m个table，并分别记性计算检索 | Moses S. Charikar et al,2002\n\n+ [图算法-文本摘要-无监督] | [TextRank: Bringing Order into Texts](https:\u002F\u002Faclanthology.org\u002FW04-3252.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F126733456) | 本文提出的是一种基于图的用于关键词抽取和文档摘要的排序算法，由PageRank算法改进而来，它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词，并使用抽取式的自动文摘方法抽取出该文本的关键句，相对于TF-IDF方法，可以更充分的利用文本元素之间的关系。当然，它也同样存在受分词、停用词、文本清洗的影响 | Rada Mihalcea et al, 2004\n\n+ [聚类] | [k-means++: The Advantages of Careful Seeding](http:\u002F\u002Filpubs.stanford.edu:8090\u002F778\u002F1\u002F2006-13.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | 原始K-Means（随机选择簇中心）对于初始化簇中心敏感，因此k-means++进行了改进，随机选择第一个初始中心点，计算其他点与该中心点的距离，按照距离远的以较大的概率被选中来选择第二个初始中心点，一次类推 | et al David Arthur,2006\n\n+ [聚类] | [通过数据点间消息传递进行聚类](https:\u002F\u002Fwarwick.ac.uk\u002Ffac\u002Fsci\u002Fdcs\u002Fresearch\u002Fcombi\u002Fseminars\u002Ffreydueck_affinitypropagation_science2007.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | 其基本思想是将全部样本看作网络的节点，然后通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中，共有两种消息在各节点间传递，分别是responsibility和availability 。AP算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的Exemplar。优点是无需指定聚类“数量”参数；聚类中心点由实际的样本点中产生；初始值不敏感，且对距离矩阵的对称性没要求。AP通过输入相似度矩阵来启动算法，因此允许数据呈非对称，数据适用范围非常大，鲁棒性很好；误差低；缺点是AP聚类应用中需要手动指定Preference和Damping factor，这其实是原有的聚类“数量”控制的变体，且算法复杂度较高 | Brendan J. Frey et al，2007\n\n+ [聚类-社区发现-图算法] | [复杂网络上的随机游走地图揭示社区结构](https:\u002F\u002Farxiv.org\u002Fpdf\u002F0707.0609.pdf) | [阅读笔记1](https:\u002F\u002Fkexue.fm\u002Farchives\u002F7006) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F53085574) | 经典的infomap算法，其属于动态社区发现算法。infoma的核心思想是通过构造转移概率，在图上进行随机游走来生成序列，再通过对序列做层次编码，最小化目标，从而完成聚类。其中有几个点需要说明的是：（1）转移概率的构造，例如在带权图的基础上，通过对权重的归一化得到概率（由于优化目标中只看相对概率，所以事实上归不归一化都行）；（2）随机游走是指在图中按照概率，从一个点跳到另一点，从而得到的路径序列（实现上不需要真的生成序列，解概率方程就行，目标就是优化到这个随机序列达到平稳）；（3）所谓最小化的目标，是使用层次编码的方案下，得到的最小信息熵（最短编码长度）目标函数；（4）节点合并到类的环节，是按顺序依次尝试将每个节点赋给邻居节点所在的类，取平均比特下降最大时的类赋给该节点，如果没有下降，该节点的类不变。infomap算法有很清晰的信息论解释，还几乎没有任何超参（唯一一个“穿越概率”参数） | M. Rosvall et al, 2007\n\n+ [社区发现-聚类-图算法] | [大规模网络中检测社区结构的近线性时间算法](https:\u002F\u002Fjournals.aps.org\u002Fpre\u002Fpdf\u002F10.1103\u002FPhysRevE.76.036106) | [阅读笔记](https:\u002F\u002Fwww.cnblogs.com\u002FLittleHann\u002Fp\u002F10699988.html) | LPA是基于标签传播的社区发现算法，其核心的思想不复杂，通过给图中节点初始化唯一标签（PUSH算法），然后再每次迭代中随机选取节点，根据与其相连的节点所属的标签改变自己的标签，选择方式可以根据数量、权重等，如果存在多个相同则随机选取，直到多次迭代后稳定。LPA算法简单，且不需要指定社区个数，但是缺点在于算法过程中的更新顺序和随机选择，使得算法并不稳定，改进的切入点自然就是从这两个方面入手 | Usha Nandini Raghavan et al, 2007\n\n+ [聚类] | [谱聚类教程](https:\u002F\u002Farxiv.org\u002Fpdf\u002F0711.0189.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | 不是原论文，但是这一篇对Spectral Clustering讲的非常好，谱聚类（Spectral Clustering），就是先用Laplacian eigenmaps对数据降维（简单地说，就是先将数据转换成邻接矩阵或相似性矩阵，再转换成Laplacian矩阵，再对Laplacian矩阵进行特征分解，把最小的K个特征向量排列在一起），然后再使用k-means完成聚类。谱聚类是个很好的方法，效果通常比k-means好，计算复杂度还低，这都要归功于降维的作用。优点：谱聚类只需要数据之间的相似度矩阵，因此对于处理稀疏数据的聚类很有效。这点传统聚类算法比如K-Means很难做到；由于使用了降维，因此在处理高维数据聚类时的复杂度比传统聚类算法好。缺点：如果最终聚类的维度非常高，则由于降维的幅度不够，谱聚类的运行速度和最后的聚类效果均不好；聚类效果依赖于相似矩阵，不同的相似矩阵得到的最终聚类效果可能很不同 | Ulrike von Luxburg et al,2007\n\n+ [异常检测-模型-机器学习] | [孤立森林](https:\u002F\u002Fcs.nju.edu.cn\u002Fzhouzh\u002Fzhouzh.files\u002Fpublication\u002Ficdm08b.pdf?q=isolation-forest) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F492469453) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F25040651) \u002F [阅读笔记3](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F74508141) | 经典的孤立森林算法的初版paper，2012发表了扩充版本（Isolation-based anomaly detection）。孤立森林是一个基于Ensemble的快速离群点检测方法，主要针对的是连续型结构化数据中的异常点，具有线性的时间复杂度和高精准度。它的理论基础是（1）异常数据占样本量的比例很小；（2）异常点的特征值与正常点的差异很大。孤立森林简单高效，但是在一些情况下，比如说数据的分布不是沿着特征轴，而是随意分布，或者流型分布，孤立森林效果就不好，就需要考虑选择别的方式了 | Fei Tony Liu et al, 2008\n\n+ [社区发现-图算法] | [大规模网络中社区的快速展开](https:\u002F\u002Farxiv.org\u002Fpdf\u002F0803.0476.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F178790546) | [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F556291759) | 经典的Louvain算法，其是基于模块度优化的社区发现算法，且是一种启发式贪婪算法。流程是：（1）初始时将每个顶点当作一个社区，社区个数与顶点个数相同；（2）依次将每个顶点与之相邻顶点合并在一起，计算它们最大的模块度增益是否大于0，如果大于0，就将该结点放入模块度增量最大的相邻结点所在社区；（3）迭代第二步，直至算法稳定，即所有顶点所属社区不再变化；（4）将各个社区所有节点压缩成为一个结点，社区内点的权重转化为新结点环的权重，社区间权重转化为新结点边的权重；（5）重复步骤1-3，直至算法稳定。一般认为用于评估效果的模块化指数在0.3~0.7就有明显的社区结构出现。Louvain算法的优点是时间复杂度低（nlogn），适合大规模的网络、社区划分结果稳定且有具体指标、天然自带层次化。而缺点在于容易导致”过拟合“。 | Vincent D. Blondel et al,2008\n\n+ [对话系统-对话状态管理] | [隐藏信息状态模型：基于POMDP的语音对话管理实用框架](https:\u002F\u002Fwww.sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002FS0885230809000230) | 关于对话状态管理的文章，可以用来补充相关背景知识 | Young et al,2010\n\n+ [向量召回] | [用于最近邻搜索的产品量化](https:\u002F\u002Flear.inrialpes.fr\u002Fpubs\u002F2011\u002FJDS11\u002Fjegou_searching_with_quantization.pdf) | [阅读笔记](http:\u002F\u002Fvividfree.github.io\u002F%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0\u002F2017\u002F08\u002F05\u002Funderstanding-product-quantization) | 这篇Paper是PQ算法的成功开始，PQ是一种量化方法，本质上是数据的一种压缩表达方式（本篇论文使用了KMeans算法，得到质心的codebook），先将向量分成m段，每段分别根据codebook转换成压缩向量，然后使用SDC或ADC算法进行相似搜索。不过论文中进一步进行了改进，提出了IVFADC算法，一种基于倒排索引的ADC算法，分两步，第一步是PQ一遍（成为coarse quantizer），然后用向量减去量化后的向量得到残差，第二步就是在所有得到的残差集合上在进行一次PQ，最后用得到的向量建立倒排索引 | Herve Jegou et al,2011\n\n+ [聚类] | [可扩展的K-Means++](https:\u002F\u002Ftheory.stanford.edu\u002F~sergei\u002Fpapers\u002Fvldb12-kmpar.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | K-Means++由于它的采样策略，所以难以并行，限制了其用于大规模数据集上。为了解决这个问题，k-means II 改变取样策略（以oversampling的方式），初始化一个中心点，然后循环log(n)次，每次按照一个概率计算公式选择多个point加入到中心集，最后得到的候选中心集再通过k-means++对候选中心集进行聚类，选出k个簇中心 | Bahman Bahmani et al,2012\n  \n+ [向量召回] | [利用多索引哈希法在汉明空间中快速搜索](https:\u002F\u002Fwww.cs.toronto.edu\u002F~norouzi\u002Fresearch\u002Fpapers\u002Fmulti_index_hashing.pdf) | [阅读笔记](https:\u002F\u002Ftangxman.github.io\u002F2015\u002F12\u002F03\u002Fmih\u002F) | 主要是解决在汉明空间上的R-Neighbors of query和KNN query，论文提出了一种多分段索引的哈希方法，查询效率达到了次线性，做法是r为查询的汉明距离，将汉明码切分成m段，快速找出每段中汉明距离小于r\u002Fm的结果，合并所有结果即为候选集 | Mohammad Norouzi et al,2012\n\n+ [向量召回] | [利用点击率数据学习用于网络搜索的深度结构化语义模型](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fwp-content\u002Fuploads\u002F2016\u002F02\u002Fcikm2013_DSSM_fullversion.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F421944601) | 经典的DSSM语义相似度匹配模型，就是通常我们所说的双塔模型。使用Word Hashing的n-gram，在那个时候还是很独到的，其核心思想是将query和doc映射到到共同维度的语义空间中，通过最大化query和doc语义向量之间的余弦相似度，从而训练得到隐含语义模型，达到检索的目的。负采样1:4 | Po-Sen Huang et al,2013\n\n+ [机器学习] | [分布式机器学习的参数服务器](http:\u002F\u002Fwww.cs.cmu.edu\u002F~feixia\u002Ffiles\u002Fps.pdf) | [阅读笔记](https:\u002F\u002Fwww.zybuluo.com\u002FDounm\u002Fnote\u002F517675) | 论文里说本篇所介绍的Parameter Server属于第三代PS，提供了更加通用的设计，架构上包括一个Server Group和若干个Worker Group，提供了如下几个特点：Efficient Communication、Elastic Scalability、Fault Tolerance and Durability、Ease of Use | Mu Li et al,2013\n\n+ [向量召回] | [优化的产品量化](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fwp-content\u002Fuploads\u002F2013\u002F11\u002Fpami13opq.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F213395313) | PQ的做法是直接简单粗暴的分割原始特征向量，并没有去除相关性，而如果去除相关性之后再进行PQ可以使得检索效果更好，OPQ就提供了是的每个子空间信息均衡的方法，即使用一个正交矩阵来对聚类中心进行旋转，并提供了Non-Parametric和Parametric的两种算法思路 | Tiezheng Ge et al,2013\n  \n+ [语言模型] | [向量空间中词表示的有效估计](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1301.3781.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F26306795) | Word2vec开山之作之一，专门讲训练中的两个trick：hierarchical softmax 和 negative sampling | Tomas Mikolov et al,2013\n\n+ [语言模型] | [词语和短语及其组合性的分布式表示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1310.4546.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F26306795) | Word2vec开山之作之一，在前人基础上提出更精简的语言模型框架并用于生成词向量，这个框架就是 Word2vec | Tomas Mikolov et al,2013\n\n+ [向量召回] | [利用欧氏变换加速Xbox推荐系统的内积计算](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fwp-content\u002Fuploads\u002F2016\u002F02\u002FXboxInnerProduct.pdf) | 微软的Inner Product快速计算的方法，主要解决的是Inner Product Top-K Search的问题。通过各种公式证明，将问题简化到一个欧氏距离搜索问题后，使用一个PCA-Tree来求解 | Yoram Bachrach et al,2014\n\n+ [机器学习] | [使用参数服务器扩展分布式机器学习](https:\u002F\u002Fwww.cs.cmu.edu\u002F~muli\u002Ffile\u002Fparameter_server_osdi14.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F21569493) | 在参数服务器架构中，每个服务器仅负责分配到的部分参数（各服务器共同维护全局共享参数），而每个工作节点也只分配到部分数据和处理任务。相比之前的一篇关于参数服务器的论文，本文进行了更为详细的描述，并对一些细节进行了扩展，两篇结合阅读收益颇丰 | Mu Li等，2014年\n\n+ [向量召回] | [基于可导航小世界图的近似最近邻算法](sciencedirect.com\u002Fscience\u002Farticle\u002Fabs\u002Fpii\u002FS0306437913001300) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fu011233351\u002Farticle\u002Fdetails\u002F85116719) | 经典的NSW算法，在构建近似DG图的基础上，加入了Expressway机制。在构建过程中，基于朴素的插入选取近邻连接的方式，通过使用废弃列表和动态列表来加速构建过程。Yury Malkov等，2014年\n\n+ [数据集] | [第二届对话状态跟踪挑战赛](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW14-4337.pdf) | DSTC系列语料专门用于对话状态跟踪任务，非常经典，但其官网似乎已无法访问 | Henderson等，2014年\n\n+ [向量召回] | [针对近似最近邻搜索的局部优化产品量化](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2014\u002Fpapers\u002FKalantidis_Locally_Optimized_Product_2014_CVPR_paper.pdf) | LOPQ是在OPQ基础上进一步优化的，OPQ仅考虑了码本的旋转问题，而LOPQ则进一步考虑了在每个子空间中进行不同的旋转操作 | Yannis Kalantidis等，2014年\n\n+ [向量召回] | [用于次线性时间最大内积搜索的非对称LSH（ALSH）](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1405.5869.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F111502331) | 传统MIPS问题难以找到合适的LSH函数，为此论文提出了一种“非对称LSH”算法，其核心技巧是通过“非对称变换”构造向量，从而消除待查询集合X中向量模长对MIPS结果的影响。巧妙地将问题转化为在欧氏距离下，通过LSH函数求解近似NN的问题 | Anshumali Shrivastava等，2014年\n\n+ [图算法-GNN-模型-无监督] | [DeepWalk：社交表示的在线学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1403.6652.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F45167021) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56380812) | 本文提出的DeepWalk是我们理解图嵌入时不可绕过的经典方法之一。其核心思想是通过随机游走（RandomWalk）在图中进行节点采样，利用节点之间的共现关系来学习节点的向量表示（这一思想来源于Word2Vec的skip-gram）。整个过程分为两步：首先通过随机游走采样节点序列，然后使用skip-gram模型学习节点的表示向量 | Bryan Perozzi等，2014年\n\n+ [语言模型-文本相似度\u002F匹配\u002F分类] | [用于句子分类的卷积神经网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1408.5882.pdf) | 经典的TextCNN，包括static\u002Fnon-static等多种特征向量学习方式 | Yoon Kim等，2014年\n\n+ [深度学习] | [联合学习对齐与翻译的神经机器翻译](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1409.0473.pdf) | Bahdanau注意力机制的原始论文 | Bahdanau等，2014年\n\n+ [深度学习] | [受限计算成本下的卷积神经网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1412.1710.pdf) | 针对卷积网络很好地概述了计算成本以及深度、滤波器尺寸之间的权衡 | Kaiming He等，2014年\n\n+ [语音系统-语音识别-模型] | [基于注意力的语音识别模型](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2015\u002Ffile\u002F1068c6e4c8051cfd4e9ea8072e3189e2-Paper.pdf) | Tacotron2使用的Location Sensitive Attention | Chorowski等，2015年\n\n+ [对话系统] | [基于角色依赖LSTM层的上下文敏感口语理解](https:\u002F\u002Fwww.merl.com\u002Fpublications\u002Fdocs\u002FTR2015-134.pdf) | 使用LSTM在SLU方面的研究工作，通过划分agent和client角色，能够解决多轮对话中的歧义问题 | Hori等，2015年\n\n+ [深度学习] | [批归一化：通过减少内部协变量偏移加速深度网络训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1502.03167.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F340219662) | 经典的批归一化原论文 | Sergey等，2015年\n\n+ [蒸馏-预训练] | [蒸馏神经网络中的知识](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1503.02531.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F75031938) | 蒸馏方法的开创性工作，将复杂模型的知识迁移到简单模型中。具体做法是给复杂分类模型（教师模型）的softmax加上一个temperature参数，然后用hard target训练好，模型的softmax输出即为所需的soft target。接着用一个简单模型，基于soft和hard target进行训练，简单模型在soft target训练时，softmax的temperature设置与教师模型相同；而在hard target训练时，temperature设置为1即可。损失函数采用两种目标的交叉熵加权平均（soft targets与小模型输出的交叉熵，hard targets与小模型输出的交叉熵）。此外，通过梯度计算公式的转换可知，当temperature特别大时（且模型产生的logits为0），知识蒸馏就相当于大模型和小模型logits的MSE | Geoffrey Hinton等，2015年\n\n+ [GNN-图算法-模型-无监督] | [LINE：大规模信息网络嵌入](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1503.03578.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56478167) | 本文提出的LINE方法应用于图嵌入，是一种基于领域相似假设的方法。文中提出了两个维度的相似性计算视角：（1）一阶相似性适用于无向图，认为图中存在直接连接的两个点是相似的，因此目标是使这两个点的向量表示尽可能相似；（2）二阶相似性适用于无向图或有向图，认为一个节点除了需要学习自己的表示向量外，还需要一个用于表示与其直接相邻节点的表示（作为上下文向量）。当两个没有直接连接的节点时，如果它们的邻居节点重合，则可以利用上下文向量来计算相似性。节点按数字序列编号，并用embedding层编码，两种方法均以KL散度为目标函数进行优化计算 | Jian Tang等，2015年\n\n+ [模型] | [高速公路网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1505.00387.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F279426970\u002Fanswer\u002F614880515) | “高速公路网络”这个名字非常有趣，整个网络结构的思想也与其命名相符。简单来说，就是通过设置一个函数T来限制网络的输出（借鉴LSTM中gate思想），其中T取0时，输出y=x，此时梯度会直接传递到下一层，也就是说，可以通过T来控制梯度的传递，从而在一定程度上解决梯度消失的问题。Highway Networks参数较少，适合单个非线性层的变换 | Rupesh Kumar Srivastava等，2015年\n\n+ [深度学习] | [高效神经网络的权重与连接同时学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1506.02626.pdf) | 其中有一张表格列出了计算与内存访问的相对成本，除此之外还讨论了如何精简神经网络 | Song Han等，2015年\n\n+ [模型] | [指针网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1506.03134.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F48959800) | 原文是围绕解决凸包问题设计的网络结构，直接使用Attention的权重进行预测，能够适应输入规模的变化。后来许多网络结构在此基础上发展出Copying Mechanism来解决OOV问题 | Oriol Vinyals等，2015年\n\n+ [对话系统-模型] | [神经对话模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1506.05869.pdf) | 基于Seq2Seq结构的对话模型 | Oriol等，2015年\n\n+ [数据集] | [Ubuntu对话语料库：用于非结构化多轮对话系统研究的大规模数据集](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1506.08909.pdf) | Ubuntu非结构化多轮对话数据集 | Ryan Lowe等，2015年\n\n+ [向量召回] | [聚类对于近似最大内积搜索是高效的](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1507.05910.pdf) | K-Means Tree，使用K-Means进行建树 | Alex Auvolat等，2015年\n\n+ [模型] | [训练超深层网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1507.06228.pdf) | [阅读笔记](https:\u002F\u002Fcloud.tencent.com\u002Fdeveloper\u002Farticle\u002F1148375) | 经典的Highway networks，基于深层的CNN堆叠网络，使用transform gate和carry gate（后来被统一称为Shortcut），将浅层特征信息带到深层中，以此来解决深度网络中梯度发散、难以训练的问题 | Rupesh Kumar Srivastava等，2015年\n\n+ [深度学习] | [基于注意力的神经机器翻译的有效方法](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1508.04025.pdf) | Luong注意力机制的原始论文 | Luong等，2015年\n\n+ [预训练-语言模型] | [字符感知神经语言模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1508.06615.pdf) | 提供一种功能强大、能够编码子词相关性的同时解决先前模型罕见字问题的语言模型，且使用更少的参数即可达到相当的表达能力 | Yoon等，2015年\n\n+ [模型-Subword] | [使用子词单元进行罕见词的神经机器翻译](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1508.07909.pdf) | 即我们熟知的Byte Pair Encoding，是一种利用高频出现的字节对组成新字节的方法 | Sennrich等，2015年\n\n+ [向量召回] | [深度压缩：通过剪枝、量化和哈夫曼编码压缩深度神经网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1510.00149.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F21574328) | ICLR最佳论文，主要内容是关于深度学习网络参数的压缩。分为三步：首先是网络剪枝，即先训练一个网络，然后将一些权重较小的连接进行剪枝（通过阈值决定），再重新训练网络；第二步是量化权重；第三步则是使用哈夫曼编码进行无损压缩 | Song Han等，2015年\n\n+ [机器学习] | [最优白化与去相关](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1512.00809.pdf) | 提供五种白化方法的数学证明 | Agnan Kessy等，2015年\n\n+ [深度学习] | [训练大规模词汇量神经语言模型的策略](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1512.04906.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | 主要总结了当时的一些Softmax和Sampling方法，并提出了Differentiated Softmax方法 | Wenlin Chen等，2015年\n\n+ [机器学习-模型] | [XGBoost：一种可扩展的树提升系统](https:\u002F\u002Fdl.acm.org\u002Fdoi\u002Fpdf\u002F10.1145\u002F2939672.2939785) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F89572181) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F87885678) | 本文提出的XGBoost是一种基于Boosting的集成算法，更准确地说，它结合了数学原理与工程实现的优化，在精度、灵活性和并行计算等方面具有显著优势。通常在实际业务场景中用作基准模型（尤其是在数据科学竞赛中作为集成模型时效果尤为突出），其对应的实现库为xgboost | Tianqi Chen等，2016年\n\n+ [聚类] | [亚线性时间内的近似K-Means++](https:\u002F\u002Fwww.aaai.org\u002Focs\u002Findex.php\u002FAAAI\u002FAAAI16\u002Fpaper\u002FviewFile\u002F12147\u002F11759) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | K-MC2是对k-means II采样方法的改进，采用MCMC采样技术。其核心思想是将k-means++中的采样方式替换为基于MCMC（马尔科夫链蒙特卡洛）的采样方法（关于MCMC的介绍可参考：[MCMC随机采样](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F30003899)）。通过MCMC方法生成长度为M的序列，取最后（K-1）个数作为初始中心点，目标分布为距离的函数——距离越远，概率越大（这与k-means++的含义一致），而提议分布则是一个常数函数，即每个样本被选中的概率相等。 | Olivier Bachem等，2016年\n\n+ [聚类] | [快速且理论上性能良好的k-Means种子初始化方法](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2016\u002Ffile\u002Fd67d8ab4f4c10bf22aa353e27879133c-Paper.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F494753171\u002Fanswer\u002F2204649294) | AFK-MC2是在K-MC2基础上进一步改进的算法。由于K-MC2的提议分布为常数函数，鲁棒性不足，AFK-MC2将与距离相关的分布作为一个项加入原始分布中，从而优化了提议分布。 | Olivier Bachem等，2016年\n\n+ [模型] | [用于图像识别的深度残差学习](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2016\u002Fpapers\u002FHe_Deep_Residual_Learning_CVPR_2016_paper.pdf) [阅读笔记](https:\u002F\u002Fcloud.tencent.com\u002Fdeveloper\u002Farticle\u002F1148375) | 经典的ResNet模型，基于深层CNN堆叠网络，利用残差连接（ResNet中通常跨越2层或3层）来解决深度模型中的退化问题。最优的残差结构是将BN和ReLU提前到激活之前，形成预激活机制。 | Kaiming He等，2016年\n\n+ [模型-文本相似度\u002F匹配\u002F分类] | [用于学习句子相似度的暹罗循环架构](https:\u002F\u002Fscholar.google.com\u002Fscholar_url?url=https:\u002F\u002Fojs.aaai.org\u002Findex.php\u002FAAAI\u002Farticle\u002Fview\u002F10350\u002F10209&hl=zh-CN&sa=T&oi=gsb-gga&ct=res&cd=0&d=7393466935379636447&ei=KQWzYNL5OYz4yATXqJ6YCg&scisig=AAGBfm0zNEZZez8zh5ZB_iG7UTrwXmhJWg) | 暹罗LSTM模型，用于计算句对相似度 | Jonas Mueller等，2016年\n\n+ [模型-文本相似度\u002F匹配\u002F分类] | [使用暹罗循环网络学习文本相似度](https:\u002F\u002Faclanthology.org\u002FW16-1617.pdf) | 该网络包含4层BiLSTM（隐藏层维度为64），最后一层的BiLSTM的隐藏状态和细胞状态被拼接在一起，然后沿时间步维度进行平均处理，再接一个Dense层（激活函数为tanh）。最终得到的两个嵌入空间通过余弦相似度计算相似度分数E，该分数用于损失函数的计算。损失函数采用对比损失，具体计算方式为：正例损失为1\u002F4(1-E)^2，负例损失为E^2（若E\u003Cm），否则为0。 | Paul Neculoiu等，2016年\n\n+ [深度学习] | [探索语言模型的极限](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1602.02410.pdf) | CNN Softmax方法虽然仍基于原始的Softmax，但通过改变视角取得了很好的效果。 | Rafal Jozefowicz等，2016年\n\n+ [深度学习] | [权重归一化：一种加速深度神经网络训练的简单重参数化方法](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1602.07868.pdf) | 权重归一化是一种在权重维度上进行归一化的技术。 | Tim Salimans等，2016年\n\n+ [模型] | [在序列到序列学习中引入复制机制](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1603.06393.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F415502906) | CopyNet模型利用复制机制来缓解未登录词问题，在文本摘要等需要生成大量包含输入词的任务中表现出色。 | Jiatao Gu等，2016年\n\n+ [向量召回] | [使用分层可导航小世界图高效稳健地进行近似最近邻搜索](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1603.09320.pdf) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fu011233351\u002Farticle\u002Fdetails\u002F85116719) | HNSW算法在NSW的基础上引入层次结构，实现了“高速公路”机制，从而实现高层粗查、低层细查的检索思路。 | Yu. A. Malkov等，2016年\n\n+ [模型-子词] | [通过混合词-字符模型实现开放词汇量的神经机器翻译](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.00788.pdf) | 这是一个非常出色的框架，主要在词级别进行翻译，但在必要时可以方便地使用字符级别的输入。 | Luong等，2016年\n\n+ [对话系统-任务型对话] | [基于网络的端到端可训练任务型对话系统](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.04562.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F261701071) | 这是一个非常值得深入研究的任务型对话模型架构。 | Wen等，2016年\n\n+ [深度学习] | [以亚线性内存成本训练深度网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1604.06174.pdf) | [keras_recompute](https:\u002F\u002Fgithub.com\u002Fbojone\u002Fkeras_recompute) | 本文主要介绍了一种以时间换空间的省显存技巧——梯度检查点技术。通过丢弃低运算成本操作的结果，即不保留任何中间特征图，仅在反向传播时重新计算这些结果（当然，论文中也提出了一种折中的方案，即每隔sqrt(n)层保留一个特征图）。这种方法可以将内存占用降低至原来的sqrt(n)分之一，超越了大多数传统的内存优化方法。具体的实现可以参考tf.recompute_grad，或者开源实现。 | Tianqi Chen等，2016年\n\n+ [模型-子词] | [学习词性标注的字符级表示](http:\u002F\u002Fproceedings.mlr.press\u002Fv32\u002Fsantos14.pdf) | 该网络结构通过字符级卷积生成单词嵌入，同时使用固定窗口对词性标注的字嵌入进行操作。 | Jason等，2016年\n\n+ [语言模型-文本相似度\u002F匹配\u002F分类] | [用于文本分类的超深卷积神经网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1606.01781.pdf) | VDCNN采用字符级处理，仅使用小尺度的卷积核和池化操作，包含29个卷积层。虽然效果提升并不明显，但其亮点在于卷积层数较多，从一定程度上证明了类似ResNet的捷径连接可以缓解梯度消失问题，从而提升模型性能。 | Alexis Conneau等，2016年\n\n+ [模型-语言模型] | [词嵌入与词形学的联合模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1606.02601.pdf) | 该模型的目标与word2vec相同，但采用了字符级输入。它使用双向LSTM结构来捕捉词形信息，并能够推断出词根。 | Kris等，2016年\n\n+ [对话系统-对话状态跟踪] | [神经信念追踪器：数据驱动的对话状态跟踪](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1606.03777.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F262289823) | NBT框架是一篇理解信念状态和状态跟踪的重要文献。 | Young等，2016年\n\n+ [机器学习] | [高斯误差线性单元（GELUs）](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1606.08415.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F349492378) | GELU的设计理念是在激活函数中引入正则化思想。ReLU会确定性地将输入乘以0或1，而Dropout则是随机乘以0。GELU同样通过将输入乘以0或1来实现这一功能，但究竟乘以0还是1，则取决于输入自身的分布情况并随机决定。换句话说，选择0还是1取决于当前输入相对于其他输入的概率大小。由于神经元的输入x通常遵循正态分布（尤其是在深度网络中广泛使用的归一化操作下），因此GELU可以被定义为“标准正态分布的累积分布函数”，其公式为：x\u002F2*(1+erf(x\u002Fsqrt(2)))。 | Dan Hendrycks等，2016年\n\n+ [GNN-图算法-模型-无监督] | [node2vec：面向网络的可扩展特征学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.00653.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56542707) \u002F [阅读笔记2](https:\u002F\u002Ftoutiao.io\u002Fposts\u002Fy84ifco\u002Fpreview) | 本文提出的node2vec是一种综合考虑DFS邻域和BFS邻域的图嵌入方法，其整体算法框架继承自DeepWalk，通过随机游走获取序列，并利用Word2Vec学习表示向量。与DeepWalk不同的是，node2vec采用有偏的随机游走，并通过p和q两个参数以别名采样的方式控制序列游走的方向（是选择邻接节点还是二度节点）。 | Aditya Grover等，2016年\n\n+ [GNN-图算法-模型-无监督] | [结构化深度网络嵌入](http:\u002F\u002Fwww.shichuan.org\u002Fhin\u002Ftime\u002F2016.%20Structural%20Deep%20Network%20Embedding.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56637181) \u002F [阅读笔记2](https:\u002F\u002Fmp.weixin.qq.com\u002Fs?__biz=MzIzOTU0NTQ0MA==&mid=2247486868&idx=1&sn=c2d3e38e9ab7cc61f2a2ffaeecf0febe&chksm=e929309bde5eb98dfa657c7fd1bf7e80495f9c9ad0cde2ee78b36a1f0a453d2cc322948cb3a3&mpshare=1&scene=1&srcid=0213HJqpvPzBLS7AW7L6K3Zz#rd) | 本文提出的SDNE模型是和Node2Vec同年提出的graph embedding方法，可以看作是基于LINE方法的扩展。SDNE使用一个自动编码器结构来同时优化1阶和2阶相似度(LINE是分别优化的)，学习得到的向量表示能够保留局部和全局结构，并且对稀疏网络具有鲁棒性。通过输入的邻接矩阵和网络重构出的邻接矩阵计算一阶二阶损失函数，并配合一个正则项组成联合损失函数进行优化 | Daixin Wang et al, 2016\n  \n+ [模型-文本相似度\u002F匹配\u002F分类] | [高效文本分类技巧集](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.01759.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F31118235) | 比较经典的FastText，比较依赖Word Embedding的质量（槽点本身难点就在于embedding，结果文章不谈这个），整个网络结构使用N-gram，对得到的Embedding求和，并过两个Dense然后输出，本身网络结构就那没啥，当然fast啦，外加论文具体加了hashing trick，hierarchical softmax等进行加速、内存优化 | Armand Joulin et al,2016\n  \n+ [模型-语言模型] | [用子词信息丰富词向量](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.04606.pdf) | word2vec的升级版，对于具有大量形态学的稀有词和语言有更好的表征，它也可以说是带有字符n-gram的w2v skip-gram模型的扩展 | Piotr et al,2016\n\n+ [深度学习] | [层归一化](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.06450.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F258977332) | 层归一化方法，针对Batch Normalization的改进 | Jimmy et al,2016\n\n+ [深度学习] | [实例归一化：快速风格化所缺失的要素](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1607.08022.pdf) | Instance Normalization是一种不受限于批量大小的算法专门用于Texture Network中的生成器网络 | Dmitry Ulyanov et al,2016\n\n+ [对话系统-对话意图识别-对话槽位填充] | [基于注意力机制的循环神经网络模型用于联合意图识别和槽位填充](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.01454.pdf) | 使用Attention-Based的RNN模型进行联合意图识别和槽位填充，达到不错的效果 | Bing Liu et al,2016\n  \n+ [GNN-文本相似度\u002F匹配\u002F分类-图算法] | [基于图卷积网络的半监督分类](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.02907.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F78466344) \u002F [阅读笔记2](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F54504471\u002Fanswer\u002F332657604) | 这就是非常经典的GCN啦，GCN对非结构化数据构造特征节点，进而构造graph，通过使用邻接矩阵、度矩阵等图结构对输入的节点embedding进行优化学习（本质上是一种局部加权求和的方式，类似Attention的思想，不过有很多trick在里面，比如对称归一化等），能够通过相邻节点传递特征信息。GCN能够有效地提取空间特征来进行机器学习，虽然目前在NLP任务中的表现不算特别突出，但是它的功劳在于提供一种处理、研究的模型，扩广了解决方案的思路 | Thomas N. Kipf et al,2016\n  \n+ [深度学习] | [面向GPU的高效Softmax近似](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.04309.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | Adaptive Softmax，针对GPU的矩阵计算，实现了多倍与普通Softmax计算效率的提升，值得一看 | Edouard Grave et al,2016\n  \n+ [机器学习] | [梯度下降优化算法综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.04747.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F343564175) | 对当前主流的梯度下降算法进行概述 | Sebastian Ruder et al,2016\n  \n+ [模型-Subword] | [谷歌神经机器翻译系统：弥合人机翻译的鸿沟](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1609.08144.pdf) | wordpiece作为BERT使用的分词方式，其生成词表的方式和BPE非常相近，区别在于BPE选择频率最高的相邻字符对进行合并，而wordpiece是基于概率生成的 | Yonghui et al,2016\n\n+ [模型-Subword] | [无需显式分词的全字符级神经机器翻译](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1610.03017.pdf) | 比较经典的Character-Level的Subword算法模型 | Jason et al,2016\n\n+ [深度学习] | [基于Gumbel-Softmax的类别型重参数化](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1611.01144.pdf) | [阅读笔记](https:\u002F\u002Fwww.zhihu.com\u002Fquestion\u002F422373907\u002Fanswer\u002F2260975090) | Gumbel Max由来已久，而这篇文章就是基于Gumbel Max，首次提出并应用Gumbel Softmax的。目标就是使用梯度估计的方法，来解决Categorical Distribution中，使用类似argmax操作导致网络不可微的问题。文章主要探讨了部分隐变量是离散型变量的变分推断问题，比如基于VAE的半监督学习 | Eric Jang et al,2016\n\n+ [对话系统-检索式对话系统] | [序列匹配网络：基于检索的聊天机器人中多轮响应选择的新架构](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1612.01627v2.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F270554147) | SMN检索式对话模型，多层多粒度提取信息 | Devlin et al,2016\n  \n+ [深度学习] | [卷积神经网络的大间隔Softmax损失](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1612.02295.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | L-Softmax在原Softmax的基础上增加了控制系数m，使得类内距离尽可能小，类间距离尽可能大 | Weiyang Liu et al,2016\n  \n+ [深度学习] | [深度网络损失曲面优化的实证分析](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1612.04010.pdf) | 论文中得出一个结论，即Batch Normalization更有利于梯度下降 | Shibani et al,2016\n  \n+ [模型-语言模型] | [门控卷积网络的语言建模](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1612.08083.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F395977833) | 受LSTM门控机制的启发，将线性门控机制应用于卷积结构，文中对比GLU、GTU等结构性能 | Yann N. Dauphin et al,2016\n  \n+ [语音系统-语音合成] | [Tacotron：端到端的文语转换合成模型](http:\u002F\u002Fbengio.abracadoudou.com\u002Fcv\u002Fpublications\u002Fpdf\u002Fwang_2017_arxiv.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F337042442) | Tacotron，端到端的语音合成系统 | Yuxuan et al,2017\n  \n+ [模型] | [密集连接卷积网络](https:\u002F\u002Fopenaccess.thecvf.com\u002Fcontent_cvpr_2017\u002Fpapers\u002FHuang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf) | [阅读笔记](https:\u002F\u002Fcloud.tencent.com\u002Fdeveloper\u002Farticle\u002F1148375) | CVPR 2017的Best Paper，提出了DenseNet，借鉴highway networks和ResNet的思路，DenseNet将shortcut用到了“极致”——每两层之间都添加shortcut，当然具体实现中使用了一些tricks防止模型过大的问题 | Gao Huang et al,2017\n\n+ [模型-语言模型] | [句子嵌入的一个简单但难以超越的基线](https:\u002F\u002Fopenreview.net\u002Fpdf?id=SyK00v5xx) | Smooth Inverse Frequency，一种简单但是效果好的Sentence Embedding方法 | Sanjeev Arora et al,2017\n\n+ [深度学习] | [用于强化学习中神经网络函数逼近的Sigmoid加权线性单元](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1702.03118.pdf) | 提出SILU激活函数，其实从某种角度讲就是GELU激活的一种近似，x*sigmoid(x) | Stefan Elfwing et al,2017\n\n+ [深度学习] | [余弦归一化：在神经网络中用余弦相似度代替点积](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1702.05870v5.pdf) | Cosine Normalization是一种将unbounded的向量点积换成夹角余弦操作，从而进行归一化的方法 | Luo Chunjie et al, 2017\n\n+ [深度学习] | [神经机器翻译架构的大规模探索](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1703.03906.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F328801239) | 展示了以NMT架构超参数为例的首次大规模分析，实验为构建和扩展NMT体系结构带来了新颖的见解和实用建议。 | Denny et al,2017\n\n+ [GNN-图算法-模型-无监督] | [struc2vec：从结构身份中学习节点表示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.03165.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F63175042) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F56733145) | | 本文提出的struc2vec方法是用于graph embedding，相较于经典的DeepWalk和Node2Vec方法（关注存在直连节点的相似性），struc2vec如它名字一样，关注的是节点的结构相似性，这使得它可以表示两个距离很远但结构（连接度，局部拓扑结构）相似的节点。大体的流程分为四步：（1）根据不同距离的邻居信息分别算出每个节点对的结构相似度，这涉及到了不同层次的结构相似度的计算，其中使用DTW（一种动态规划方法）计算有序度序列的距离；（2）构建一个多层次的带权重网络M，每个层次中的节点皆由原网络中的节点构成，距离计算对应其层数的有序度序列的距离；（3）在M中生成随机游走，为每个节点采样出上下文；（4）使用word2vec的方法对采样出的随机游走序列学习出每个节点的节点表示 | Leonardo F. R. Ribeiro et al, 2017\n\n+ [模型] | [直奔主题：基于指针-生成器网络的摘要生成](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.04368.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F419659043) | 结合Copying Mechanism和Coverage机制两种技巧的LSTM-Base模型，一定程度上解决OOV和重复词问题，经典值得一读 | Abigail See et al,2017\n\n+ [深度学习] | [SphereFace: 用于人脸识别的深度超球嵌入](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1704.08063.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | A-Softmax与L-Softmax思路相似，区别在于对权重进行了归一化 | Weiyang Liu等,2017\n\n+ [模型-语言模型] | [基于自然语言推理数据的通用句子表示监督学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.02364.pdf) | InferSent通过不同的编码器得到句子嵌入，并计算两者差值、点乘得到交互向量，从而得到相似度 | Alexis Conneau等,2017\n\n+ [对话系统-对话意图识别] | [潜在意图对话模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1705.10229.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F263034049) | 基于离散潜在变量的框架，用于学习对话意图 | Wen等,2017\n\n+ [模型-预训练-语言模型] | [注意力就是一切](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1706.03762.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F250946855) | Transformer的开创性论文，值得深入研读 | Ashish等,2017\n\n+ [社区发现-综述] | [网络社区发现：综述与可视化调查](https:\u002F\u002Farxiv.org\u002Fftp\u002Farxiv\u002Fpapers\u002F1708\u002F1708.00977.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F141401358) | 一篇关于社区发现的综述，文章介绍了社区发现的概念和发展，并按分类详细阐述了当前的社区发现算法，包括传统社区发现技术、基于分裂的社区发现技术、基于模块化优化的社区发现技术、重叠社区发现技术、动态社区发现技术等 | Bisma S. Khan等,2017\n\n+ [深度学习] | [ProjectionNet：利用神经投影学习高效的设备端深度网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1708.00630.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F295636122) | 一种名为ProjectionNet的联合框架，可以为不同机器学习模型架构训练轻量的设备端模型。 | Google等,2017\n\n+ [深度学习-损失函数] | [密集目标检测中的焦点损失](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1708.02002.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F260407405) | 在分类问题中，我们通常使用交叉熵损失函数，该损失函数对正负样本一视同仁。当正负样本分布不均衡时，正样本的总损失会掩盖少量负样本的总损失，导致模型的学习重点偏向正样本。解决方案是增加负样本的权重，减少正样本的权重，从而使模型更关注负样本的特征。然而，这种方法仍无法解决易分样本和难分样本的问题。Focal loss在交叉熵损失函数的基础上引入了一个调制因子，降低易分样本的权重，使模型的训练重点集中在较难学习的负样本上 | Tsung-Yi Lin等,2017\n\n+ [对话系统-任务型对话-对话状态跟踪] | [面向任务型对话的端到端可训练神经网络模型及信念跟踪](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1708.05956.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F260345363) | 面向任务型对话系统的新型端到端可训练神经网络模型 | Liu等,2017\n\n+ [数据集] | [DailyDialog：人工标注的多轮对话数据集](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1710.03957.pdf) | [数据集地址](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1sj3Z_GZfYzrhmleWazA-QawhUEhlNmJd\u002Fview?usp=sharing) | 包含对话意图和情感信息的多轮对话数据集 | Yanran Li等,2017\n\n+ [机器学习] | [Swish：一种自门控激活函数](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1710.05941v1.pdf) | 提出的Swish激活函数，与SILU激活函数类似，本质上都是x*sigmoid(x) | Prajit Ramachandran等,2017\n\n+ [综述-对话系统] | [对话系统综述：最新进展与新前沿](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1711.01731.pdf) | 对话系统的最新研究和方向 | Chen等,2017\n\n+ [语音系统-语音合成] | [基于梅尔谱预测条件的WaveNet自然TTS合成](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1712.05884.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F337042442) | Tacotron2相比Tacotron性能更好，使用WaveNet作为声码器 | Jonathan等,2017\n\n+ [异常检测-机器学习] | [XGBOD：通过无监督表征学习改进有监督异常检测](https:\u002F\u002Farxiv.org\u002Fftp\u002Farxiv\u002Fpapers\u002F1912\u002F1912.00290.pdf) | 本文提出了一种通过无监督算法增广特征，再将增广特征与原始特征融合用于XGB有监督训练的方法，命名为XGBOD。在ADBench基准测试中，半监督方法的整体效果优于直接使用XGB；而在有监督情况下，指标提升并不显著（且XGBOD的训练成本更高）。因此，在有监督场景下，直接使用XGB作为基线更为简单直接 | Yue Zhao等,2018\n\n+ [数据集] | [LCQMC：大规模中文问题匹配语料库](https:\u002F\u002Faclanthology.org\u002FC18-1166.pdf) | LCQMC是一个开放领域的中文语义相似度语料库，侧重于意图相似性，共包含26万对文本 | Xin Liu等,2018\n\n+ [数据集] | [BQ语料库：大规模领域特定中文语句语义等价性识别语料库](https:\u002F\u002Faclanthology.org\u002FD18-1536.pdf) | 关于银行试题的中文语义相似度语料库，共包含12万对文本 | Jing Chen等,2018\n\n+ [聚类] | [用于大规模异常检测的鲁棒快速KPI聚类](https:\u002F\u002Fnetman.aiops.org\u002F~peidan\u002FANM2018\u002F8.DependencyDiscovery\u002FLectureCoverage\u002F2018IWQOS_ROCKA.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F50698719) | 关于快速时序聚类的文章，提出了ROCKA系统架构，包括数据预处理、基线提取、相似性度量以及基于密度的聚类算法。ROCKA算法仅采用了派发策略，未能有效利用中间计算结果，导致派发过程复杂度较高 | Zhihan Li等,2018\n\n+ [对话系统-检索式对话系统] | [基于深度注意力匹配网络的聊天机器人多轮响应选择](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FP18-1103.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F306846122) | DAM检索式对话模型，完全基于注意力机制进行多层次、多粒度的信息提取 | Xiangyang等,2018\n\n+ [对话系统-对话意图识别-对话槽位填充] | [用于联合槽位填充和意图预测的槽位门控建模](https:\u002F\u002Faclanthology.org\u002FN18-2118.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F413261222) | 提出了槽位门控机制，显著提升了意图识别和槽位填充的效果 | Chih-Wen Goo等,2018\n\n+ [模型-语言模型-无监督] | [无监督随机游走句子嵌入：强大而简单的基线](https:\u002F\u002Fwww.aclweb.org\u002Fanthology\u002FW18-3012.pdf) | Unsupervised Smooth Inverse Frequency，USIF改进了SIF对句向量长度的敏感性，在相似度任务上表现大幅提升 | Kawin Ethayarajh Arora等,2018\n\n+ [深度学习] | [修正Adam中的权重衰减正则化](https:\u002F\u002Fopenreview.net\u002Fpdf?id=rk6qdGgCZ) | [原文英文版阅读笔记](https:\u002F\u002Fwww.fast.ai\u002F2018\u002F07\u002F02\u002Fadam-weight-decay\u002F) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F39543160) | 论文提出了一种改进Adam算法实现的方法——AdamW（注意是算法实现上的改进）。与传统的GD算法相比，Adam增加了—阶动量（各时刻方向的指数移动平均值）和二阶动量（历史梯度平方和）。在实际的算法库实现中，通常是在计算梯度之初就加入正则项，这会导致正则项随梯度一同被计算。而AdamW的做法是在梯度计算完成后才加入这一正则项（称为权重衰减）。论文比较了SGD与SGDW、Adam与AdamW，并通过实验证明了权重衰减相较于一般实现的l2正则效果更好 | Anonymous authors等,2018\n\n+ [深度学习] | [用于人脸验证的加性边距Softmax](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1801.05599.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F397084135) | AM-Softmax与A-Softmax的最大区别在于AM使用角度距离，而A使用余弦距离。\n\n+ [预训练-语言模型] | [深度上下文词表示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1802.05365.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F51679783) | ELMo模型的原论文，考虑到其重要性，还是将其放在预训练部分。ELMo模型非常经典，在Transformer这一强大模型出现后，仍然以LSTM为核心结构提出了新的SOTA语义编码架构，具有独特之处（注：同年BERT也被提出）。ELMo的结构可分为两侧各一个多层LSTM，左侧的多层LSTM负责编码文本的正向语义，右侧则负责编码反向语义，然后将左右两侧每一层的输出拼接并乘以一个权重，最终得到ELMo向量。ELMo最大的亮点在于它能够编码文本的双向语义，因此相对于一些单向、静态编码器而言，效果更好。然而，这也正是它的局限性：这种将正反向语义分开编码的方式，不如BERT这种融合式的双向编码。事实也证明了这一点 | Matthew E. Peters等,2018\n\n+ [深度学习] | [带有相对位置表示的自注意力](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.02155.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F268649069) | 讨论了Transformer中使用的位置编码，并对自注意力机制进行了改造，用相对位置编码替代硬性位置编码 | Mihaylova等,2018\n\n+ [深度学习] | [组归一化](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1803.08494.pdf) | 组归一化是将输入通道分成较小的子组，并根据其均值和方差对这些值进行归一化 | Yuxin Wu等,2018\n\n+ [语音系统-语音识别-预训练] | [基于音节的序列到序列汉语普通话语音识别Transformer模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1804.10752.pdf) | 使用Transformer应用于普通话语音识别，数据集来自HKUST | Shiyu等,2018\n\n+ [模型-子词] | [子词正则化：通过多个子词候选改进神经网络翻译模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1804.10959.pdf) | unigram在给定词表及对应概率值下，直接以最大化句子的似然为目标来构建整个词表 | Kudo等,2018\n\n+ [对话系统-对话状态跟踪] | [全局-局部自注意力对话状态跟踪器](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.09655.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F266982344) | 全局-局部自注意力状态跟踪 | Zhong et al,2018\n  \n+ [深度学习] | [批归一化如何帮助优化？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1805.11604.pdf) | 讨论批归一化是如何帮助优化器工作的，主要结论是BN层能够让损失函数更加平滑 | Shibani et al,2018\n  \n+ [模型-对话系统] | [用于基于检索的问题回答和响应预测的多播注意力网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1806.00778.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F349369847) | 一种用于通用序列对建模的整体架构，结合多种注意力机制进行特征增强 | Yi Tay et al,2018\n\n+ [对话系统-数据增强] | [面向对话语言理解的序列到序列数据增强](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1807.01554.pdf) | 使用seq2seq生成模型对语义文本进行数据增强，核心步骤为去词汇化->多样性排序->生成->表面实现 | Yutai Hou et al,2018\n  \n+ [模型] | [切片循环神经网络](https:\u002F\u002Farxiv.org\u002Fftp\u002Farxiv\u002Fpapers\u002F1807\u002F1807.02291.pdf) | 切片RNN网络，尝试突破RNN时序限制的模型 | Zeping Yu et al,2018\n  \n+ [模型-文本相似度\u002F匹配\u002F分类-GNN-图算法] | [用于文本分类的图卷积网络](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.05679.pdf) | 将GCN应用于文本分类中，在不引入预训练模型的情况下，该方法的表现已经很优异了。该方法将每个独立的单词以及文档作为节点，即graph中包含单词级别和文档级别两类节点。初始化单词one-hot（不使用训练向量）。对于边，则包含（文档-单词）、（单词-单词）两类边，其中（文档-单词）使用tf-idf进行度量，（单词-单词）使用PMI指数。本文的模型结构的缺点在于，只考虑到共现度方面的信息，因此语义方面很低（作者原意就是不使用预训练embedding），而且可能会受到长尾问题的影响，因此可以使用注意力来辅助提升 | Liang Yao et al, 2018\n  \n+ [语音系统-语音合成] | [基于Transformer网络的神经语音合成](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1809.08895.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F332316226) | 本文受Transformer启发，使用多头自注意力机制取代Tacotron2中的RNN结构和原始注意力机制。 | Naihan et al,2018\n\n+ [预训练-语言模型] | [BERT：面向语言理解的深度双向Transformer预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1810.04805.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F269997771) | 大名鼎鼎的BERT，单独抽离Transformer的Encoder架构，并提出NSP、MLM预训练方式，也是基于此，是的BERT拥有强大的表征能力，并用于下游相关任务 | Devlin et al,2018\n\n+ [深度学习] | [RelGAN：用于文本生成的关联式生成对抗网络](https:\u002F\u002Fopenreview.net\u002Fpdf?id=rJedV3R5tm) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F87605995) | 提出了新型的生成器和判别器结构，使得直接用Gumbel Softmax训练出的文本GAN大幅度超过了以往的各种文本GAN模型。主要由三个模块组成，分别是：在生成器上，利用relational memory，使得具有更强表达能力和在长文本上更好的模型能力；在离散数据上，训练GAN利用Gumbel-Softmax Relaxation模型，使得模型简化，替代强化学习启发式算法；在判别器上利用多层词向量表示，使得生成器往更具多样性方面更新 Weili Nie et al, 2019\n\n+ [异常检测-综述] | [面向异常检测的深度学习：综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.02500.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F419161328) | 本篇综述将异常检测归纳到三个框架（深度学习通用特征提取、正常性表示学习、端到端异常分数学习），共十一种类别中，并对每个类别的目标、流程、优缺点等进行了详细的阐述。最后给出了代表性的算法和数据集，并分析了当下和未来的发展方向，是一篇非常值得一读的异常检测综述 | Guansong Pang et al, 2019\n\n+ [机器学习] | [协变量移位：分类器的回顾与分析](https:\u002F\u002Fieeexplore.ieee.org\u002Fabstract\u002Fdocument\u002F8978471) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F339719861) | 通过几种分类算法，在四种不同的数据集下验证几种方法处理Covariate Shift问题后的性能分析 | Geeta et al, 2019\n\n+ [深度学习] | [语言模型是知识库吗？](https:\u002F\u002Faclanthology.org\u002FD19-1250.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F94470840) | 一篇讨论性的文章，主要提出的观点是认为像BERT等类似的预训练语言模型是另一种形式的knowledge database，能够保存大量的知识信息。作者通过效仿MLM的方式，将已有的NLP数据集进行整合，并挖空成完形填空的提问形式（以推理实体关系），文中实验了两种单向语言模型和两种双向语言模型，结果显示预训练模型的确包含了知识库中的信息。ps：这种观点也不一定对的，也有文章反对说BERT等模型只是由于对实体名称（表面形式）进行推理，如果过滤掉一些容易猜测的事实，那么模型精度将会急剧下降 | Fabio Petroni et al, 2019\n\n+ [深度学习-预训练] | [BERT学到了语言结构的什么？](https:\u002F\u002Fhal.inria.fr\u002Fhal-02131630\u002Fdocument) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F74515580) | 本文主要是通过一些实验来补充验证BERT的不同层学习到的信息（具体没啥新结论，只是补充验证而已）。BERT的底层学习到的主要是token的表层信息，中层学习到的是语言学特征信息（句法结构之类的），顶层学习到的是语义特征信息。文中还进一步探索了BERT能够学习到组合结构的特征，使用了Tensor Product Decomposition Networks（TPDN）来设计实验，从自注意力机制的权重中推导出对应的依赖树，印证了BERT的组合建模方式和传统的句法分析相似 | Ganesh Jawahar et al,2019\n\n+ [模型] | [通过轻量级和动态卷积减少注意力消耗](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1901.10430.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F396143249) | 论文研究Lightweight、Dynamic Convolutions，卷积结构同样能够达到和Self-Attention媲美的效果 | Felix Wu et al,2019\n\n+ [蒸馏-预训练-语言模型] | [将BERT中的特定任务知识蒸馏到简单神经网络中](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1903.12136.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F351319938) | 对BERT进行蒸馏，训练一个TextCNN模型，相比于直接使用BERT，TextCNN虽然有一定的损失，但是参数量和速度都大大提升。本文在知识蒸馏的方式上没有特别的创新，核心点在于（1）添加了额外的逻辑回归的目标，在标注数据下，hard label的交叉熵+teacher 模型的logits的MSE；在无标注数据下，teacher模型的softlabel的交叉熵+teacher模型的logits的MSE（2）数据增强，提出了多种方法；随机mask一个token；pos tag替换；n-gram sampling；mask_prob，执行mask增强，mask_prob \u003C\u003C pos_prob，执行pos替换，最后执行n-gram sampling | Raphael Tang et al,2019\n  \n+ [深度学习] | [关于Adam的收敛性及超越](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1904.09237.pdf) | [原英文版阅读笔记](https:\u002F\u002Fwww.fast.ai\u002F2018\u002F07\u002F02\u002Fadam-weight-decay\u002F) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F39543160) | Amsgrad，ICLR2018的最佳论文，主要是算法证明Adam在收敛性上存在的缺陷，并设计了理论实验，证明了这一点，同时提出了很简单的优化方法（实际的算法实现中，这个优化方法在相当多的实验中效果并不好）。Adam的收敛性缺陷在于，学习率通常是恒定的或降低的，所以随着训练过程的进行，二阶动量会随之减少，所以具体做法是增加一个变量来记录最大值，使用这个二阶动量的最大值替换原来的二阶动量进行计算，即v = max(avg_squared, max_squared) | Sashank J. Reddi et al, 2019\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [Poly-encoders：用于快速准确的多句评分的Transformer架构和预训练策略](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.01969v2.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F119444637) | Poly-encoder主要的出发点就是想要保持Bi-encoder的推理速度的同时，兼顾Cross-encoder精准匹配的潜力。思想上比较好理解，Bi-encoder的主要问题在于它要求encoder将query的所有信息都塞进一个固定的比较general的向量中，而Cross-encoder为了得到更加均衡的语义表示，需要将句子对关联起来进行推理计算，导致在检索时速度极慢。因此Poly-encoder的方案就是每个query产生m个不同的vec，利用这m个vec动态的和candidate vec计算，得到最终的final_vec（作为query的最终表示），用final_vec和candidate vec进行计算得到分数 | Samuel Humeau et al,2019\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [如何针对文本分类微调BERT？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1905.05583.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F358516009) | BERT在Text Classification上的一些微调实验 | Xipeng Qiu et al,2019\n\n+ [预训练-对话系统] | [用于对话上下文表示学习的预训练方法](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.00414.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F240742891) | 作者列举了四种针对对话上下文表示的预训练方法，其中两种是作者新提出的 | Shikib et al,2019\n\n+ [深度学习] | [适用于Transformer的调度采样](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.07651.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F267146739) | 在Transformer应用Scheduled Sampling | Mihaylova et al,2019\n\n+ [预训练-语言模型] | [XLNet：面向语言理解的广义自回归预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.08237.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F361737484) | XLNet--自回归语言模型的复兴，30多项任务超越BERT | Zhilin Yang et al,2019\n\n+ [机器学习] | [机器学习中的蒙特卡洛梯度估计](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1906.10652.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F110588068) | 本文是一篇关于Monte Carlo gradient estimation的survey，本文主要总结的内容是：随机梯度估计方法的相关背景知识，包括蒙特卡洛采样和随机优化；几种经典应用，包括变分推断、强化学习中的Policy gradient、敏感性分析、实验设计；两类经典的梯度估计算法 | Shakir Mohamed et al,2019\n\n+ [预训练-语言模型] | [RoBERTa: 一种鲁棒优化的BERT预训练方法](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1907.11692.pdf) | 论文指出原BERT的预训练并不充分，因此作者提出了四项改进措施：1）使用更大的批次在更大的数据集上对BERT进行深度训练；2）不再使用NSP（下一句预测）任务；3）采用更长的序列进行训练；4）动态调整训练数据的MASK模式。其中，动态MASK是指每次输入数据时才进行MASK操作，而非在预处理阶段就预先完成，这种方式相当于让模型不重复看到相同的数据，从而学习到更多模式。| Yinhan Liu等，2019年\n\n+ [模型-文本相似度\u002F匹配\u002F分类] | [利用更丰富的对齐特征实现简单高效的文本匹配](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.00300.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F84703949) | 该模型以参数量少、推理速度快著称（实际复现速度确实很快，效果也不错）。模型结构较为简洁，采用对称设计，由Encoder、Alignment和Fusion三个模块组成的block构成表示层，其核心在于对网络中三种向量——残差向量、嵌入向量和编码向量——的运用。整体结构简单但效果良好，值得尝试。| Runqi Yang等，2019年\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [Sentence-BERT：基于Siamese BERT网络的句子嵌入](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.10084.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F113133510) | 该模型与此前提出的InferSent结构如出一辙，同样是双塔架构，只是将特征表示部分替换为BERT。模型本身并无太多创新点，但其效果较好且速度快，非常适合工业界应用。论文分别采用了CLS向量、平均池化和最大值池化三种策略来计算句子向量表示，并通过实验发现平均池化策略表现最优。| Nils Reimers等，2019年\n\n+ [对话系统-数据增强] | [基于原子模板的口语理解数据增强](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1908.10770.pdf) | 使用原子模板（act-slot-value）对对话数据进行增强，并借助seq2seq生成模型生成新语句。| Zijian Zhao等，2019年\n\n+ [预训练-语言模型] | [NEZHA：面向中文理解的神经上下文表示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.00204.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F100044919) | 具体而言，该模型并无特别突出的创新点，仅在位置编码部分改用相对位置编码。其他如WWM、混合精度训练、优化器自适应学习率等技术均较为常见，整体效果也未能令人惊艳。| Junqiu Wei等，2019年\n\n+ [预训练-语言模型] | [CTRL：用于可控生成的条件Transformer语言模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.05858.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F405493225) | CTRL语言模型通过提供控制代码实现定向文本生成，相较于GPT能够更好地控制文本风格。| Keskar等，2019年\n\n+ [语音系统] | [Transformer与RNN在语音应用中的比较研究](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.06317.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F309390439) | 该论文对比了Transformer与RNN在语音领域的应用，并在ESPnet平台上开源了相关模型代码。| Nanxin等，2019年\n\n+ [蒸馏-预训练-语言模型] | [TinyBERT：用于自然语言理解的BERT知识蒸馏模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.10351.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F84827596) | TinyBERT的模型规模仅为BERT的13.3%，推理速度却达到BERT的9倍，而性能仅下降2-3个百分点。具体蒸馏过程包括：（1）嵌入蒸馏，先通过权重矩阵转换T模型的嵌入表示，再计算S模型与T模型嵌入之间的MSE损失；（2）注意力层蒸馏，计算S模型和T模型单头注意力机制的MSE损失；（3）隐藏层蒸馏，方式同嵌入蒸馏，先通过权重矩阵进行转换；（4）预测层蒸馏，计算T模型输出logits与S模型输出logits之间的交叉熵，并引入温度参数进行平滑。训练过程中采用两阶段学习框架，分别进行通用蒸馏和特定任务蒸馏，即分别在通用语料和下游任务语料上进行蒸馏。| Xiaoqi Jiao等，2019年\n\n+ [预训练-语言模型] | [ALBERT：用于自监督语言表示学习的轻量级BERT](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1909.11942.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F84273154) | ALBERT大幅减少了模型参数量，同时加快了训练速度并提升了模型效果。其主要改进包括三点：第一，将嵌入维度（E）和隐藏层维度（H）分离，以便更高效地利用参数，因为理论上存储上下文信息的H应远大于E；第二，跨层参数共享，无论12层还是24层都只使用一个Transformer模块；第三，引入句间连贯性损失，即SOP（句子顺序预测）任务。| Zhenzhong Lan等，2019年\n\n+ [蒸馏-预训练-语言模型] | [DistilBERT：BERT的蒸馏版——更小、更快、更便宜、更轻](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.01108.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F348244612) | DistilBERT相比BERT体积缩小40%，保持了97%的精度，速度提升了60%，效果非常出色。DistilBERT在预训练阶段进行蒸馏：（1）S模型结构方面，与原始BERT保持一致，去除了token-type和pooler，且block层数仅为T模型的一半；（2）损失设计方面，分为原语言模型的损失（MLM）+蒸馏损失（即T模型和S模型输出logits之间的交叉熵）+cos距离损失（T模型和S模型在block层间的隐藏状态对齐）。此外，S模型的初始化选自T模型每两层中的一层；尽可能使用较大的batch大小；并借鉴RoBERTa的优化策略，采用动态mask。| Victor SANH等，2019年\n\n+ [对话系统-对话意图识别-数据增强] | [少样本意图分类中的特征空间数据增强再探](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.04176.pdf) | 针对SLU中的意图分类任务，对文本数据进行增强并比较效果，其中Linear+迁移学习的效果最佳。| Varun Kumar等，2019年\n\n+ [异常检测-半监督] | [深度弱监督异常检测](https:\u002F\u002Farxiv.org\u002Fpdf\u002F1910.13601.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F431687085) | 本文提出的PReNet或PRO模型结构并不复杂，通过双塔架构的全连接层（也可使用其他特征表示层）融合特征，最后再通过全连接层缩放维度输出回归分数。其核心在于标签数据的组合训练策略，即成对关系预测任务。通过将带标签的异常样本与未标签样本进行组合，形成三类情况：两个样本均为已知异常样本（标签为较高的8分）、两个样本均为未标记样本（可能是正常样本，也可能是未知的异常样本，标签为较低的0分）、以及一个样本为已知异常样本，另一个为未标记样本（标签为中等的4分）。通过这种方式，可以将预测值定义为这些样本对的异常分数，并使用MAE进行训练。预测时，则分别从标记异常数据和未标记数据中随机抽取等量样本，与待预测样本进行分数计算。| Guansong Pang等，2019年\n\n+ [预训练-语言模型] | [CogLTX：将BERT应用于长文本](https:\u002F\u002Fproceedings.neurips.cc\u002Fpaper\u002F2020\u002Ffile\u002F96671501524948bc3937b4b30d0e57b9-Paper.pdf) | 本文主要介绍如何优雅且有效地使用BERT处理长文本。通常处理长文本的方法有截断法、Pooling法和压缩法，而本文介绍的是压缩法的一种（被认为效果最好）。从直观上看，长文本中的核心语义可以用一段短文来替代（相当于长句总结），因此需要找到这段短文。具体做法是：（1）首先使用动态规划算法将长文本划分为多个文本块；（2）然后使用名为MemRecall的模块对这些块进行打分（本质上是拼接操作），从而选出得分最高的子句组成短文；（3）再用这段短文进行后续的NLP任务。总的来说，COGLTX相当于使用了两套BERT，其中MemRecall中的BERT负责打分，另一套BERT则执行原本的NLP任务。| Ming Ding等，2020年\n\n+ [数据集] | [利用多参考对抗性数据集和大规模预训练提升对话评估](https:\u002F\u002Fscholar.google.com\u002Fscholar_url?url=https:\u002F\u002Fdirect.mit.edu\u002Ftacl\u002Farticle-pdf\u002Fdoi\u002F10.1162\u002Ftacl_a_00347\u002F1923874\u002Ftacl_a_00347.pdf&hl=zh-CN&sa=T&oi=gsb-gga&ct=res&cd=0&d=13355199831609160829&ei=hXzkYNupCsyO6rQPkrG1wAo&scisig=AAGBfm39FeIrjR-BGf074wiUqDueImjYeA) | [数据集地址](https:\u002F\u002Fgithub.com\u002Fiitmnlp\u002FDialogue-Evaluation-with-BERT) | 这是DailyDialog数据集的升级版，包含11,000条多轮对话上下文，每个上下文中配有五个标准参考回复、五个无关回复和五个随机挑选的回复。| Ananya B. Sai等，2020年\n\n+ [模型-预训练] | [Reformer：高效的Transformer](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2001.04451.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F411882151) | 通过LSH Attention、可逆层和分块FFN层，降低Transformer的计算复杂度和内存消耗。| Nikita Kitaev等，2020年\n\n+ [Prompt-预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [利用完形填空问题进行少样本文本分类和自然语言推理](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2001.07676.pdf) | 这是较早研究Prompt的工作之一，PET使用基于手工设计模板的Prompt进行训练，并对无标签数据采用简单的prompt集成策略，即将多种prompt整合后计算预测结果，再根据不同模型的准确率对所有预测进行加权归一化，作为软标签蒸馏出最终模型。PET在计算loss时主要关注目标词的交叉熵（MLM loss作为附加，Loss=(1-a)*L_CE+a*L_MLM），而忽略了词表中其他备选词，这种方式在后续工作中被认为不够理想，仍建议使用原生的MLM loss。此外，论文还在PET的基础上提出了迭代式的PET训练，即iPET。其实质是进行多代交叉蒸馏，每一代随机选取部分模型对无标签数据进行标注，再以此为基础训练下一代模型，最终与PET一样，利用不同模型标注的无标签数据进行预测，蒸馏出统一的模型。然而，这种手动设计Prompt的方式难度较大，且依赖于人为经验，容易导致模型对Prompt过于敏感，稍作改动便会影响性能，因此后续研究逐渐转向自动Prompt方向。| Timo Schick等，2020年\n\n+ [深度学习] | [循环语言模型在不完全解码情况下的一致性问题](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2002.02492.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F349675973) | 探讨Seq2Seq模型解码无法停止的原因。| Sean Welleck等，2020年\n\n+ [深度学习] | [GLU变体提升Transformer性能](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2002.05202.pdf) | 本文借助门控线性单元（GLU）对模型的FeedForward层进行了修改，同时在训练过程中取消了Dropout，并增加了解码器输出端的嵌入表示（这些改动虽然增加了模型参数，但效果更为显著）。文中主要对比了Bilinear、ReLU、GELU和Swish四种激活函数下使用GLU的效果，其中GELU和Swish表现最佳。总体而言，实验证明了GLU的有效性，值得在模型中尝试应用。| Noam Shazeer等，2020年\n\n+ [数据集] | [CrossWOZ: 一个大规模的中文跨领域任务导向对话数据集](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2002.11893.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F259861746) | 第一个大规模的中文跨域任务导向对话数据集 | Qi Zhu 等, 2020\n\n+ [综述-对话系统-任务型对话] | [面向任务型对话系统的最新研究和方向](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.07490.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F260194067) | 面向任务型对话系统的最新研究进展与挑战 | Zhang 等, 2020\n\n+ [深度学习] | [PowerNorm: 重新思考Transformer中的批归一化](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.07845.pdf) | 对于Transformer中BN表现不好的原因做了一定的empirical和theoretical的分析 | Sheng Shen 等, 2020\n\n+ [综述-预训练] | [自然语言处理中的预训练模型：综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.08271.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F352152573) | 超详细的NLP预训练语言模型总结清单 | Xipeng Qiu 等, 2020\n\n+ [预训练-语言模型] | [ELECTRA: 将文本编码器作为判别器而非生成器进行预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2003.10555.pdf) | [阅读笔记](https:\u002F\u002Fkexue.fm\u002Farchives\u002F7846#how_to_cite) | BERT使用MLM进行训练，而ELECTRA考虑到BERT的MLM模型随机选择一部分Token进行Mask的这个操作过于简单了，想要增加一下它的难度。所以它借鉴了GAN的思想，用普通的方式训练一个MLM模型（生成器），然后根据MLM模型对输入句子进行采样替换，将处理后的句子输入到另外一个模型（判别器）中，判断句子哪些部分是被替换过的，哪些部分是被没被替换的。生成器和判别器是同步训练的，因此随着生成器的训练，判断难度会慢慢增加，直观想象有利于模型学到更有价值的内容。最后只保留判别器的Encoder来用，生成器一般就不要了。由于这种渐进式的模式使得训练过程会更有针对性，所以ELECTRA的主要亮点是训练效率更高了 | Kevin Clark 等, 2020\n\n+ [数据集] | [MuTual: 一个多轮对话推理的数据集](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.04494.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F282843192) | MuTual 数据集，用于针对性地评测模型在多轮对话中的推理能力 | L Cui 等, 2020\n\n+ [对话系统-检索式对话系统] | [开放域问答中的密集段落检索](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.04906.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F403589222) | DPR一种高效的开放域问答检索技术，应用了BERT进行编码 | Karpukhin 等, 2020\n\n+ [预训练-语言模型-对话系统-任务型对话] | [TOD-BERT: 面向任务导向对话的预训练自然语言理解模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.06871.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F377845426) | 任务导向型对话的预训练自然语言理解模型 | Chien-Sheng Wu 等, 2020\n\n+ [深度学习] | [深度神经网络中的捷径学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.07780.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F421175552) | 对Shortcut Learning问题进行比较详细的解释和剖析，虽然最后没有给出实际的解决方案（Shortcut Learning问题本身就没有一个体系化的策略，需要根据实际任务而定），不过提供了几种解决的视角 | Robert Geirhos 等, 2020\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [ColBERT: 基于BERT的上下文晚期交互实现高效且有效的段落搜索](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.12832.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F376475610) | 和前面的Poly-encoder出发点都是一样的，为了就是在获得BERT representation能力的同时，提高文本计算的效率。按照本文的说法，就是尽可能离线计算好Embedding，在通过Late Interaction的方式，弥补因为query和doc分离计算导致的效果损失。本文具体的模型结构是使用原生的BERT，对query和doc进行Embedding，不同之处是为了区分query和doc，分别在输入的seq的起始位置加上[Q]和[D]。Bert是编码器，CNN做维度变换，用来对BERT的隐层输出进行降维处理，Normalize是为后面计算余弦相似度做l2正则化处理，对于doc加个标点符号的mask | Omar Khattab 等, 2020\n\n+ [综述-文本相似度\u002F匹配\u002F分类] | [语义相似度的发展——综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.13820.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F138636605) | 一篇语义相似度的综述，整体文章从数据集开始，将技术体系分为：基于知识的语义相似性方法、基于语料的语义相似性方法、基于深度神经网络的方法、基于混合模型方法四类进行分析 | Dhivya Chandrasekaran 等, 2020\n\n+ [模型-预训练-语言模型] | [Synthesizer: 重新思考Transformer模型中的自注意力机制](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2005.00743.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F380602965) | 在Transformer架构下，对Self-Attention计算的探索研究，看完会对Self-Attention有个新认识 | Yi Tay 等, 2020\n\n+ [综述-文本相似度\u002F匹配\u002F分类] | [文本相似度的测量：综述](https:\u002F\u002Fscholar.google.com\u002Fscholar_url?url=https:\u002F\u002Fwww.mdpi.com\u002F2078-2489\u002F11\u002F9\u002F421\u002Fpdf&hl=zh-CN&sa=T&oi=gsb-gga&ct=res&cd=0&d=6927655514883966546&ei=Ftg9Yqm4D4TQmAGcuKOgCw&scisig=AAGBfm0m8ZuluCOz6UpEoMRcxqYN9oQl8A) | 语义相似度的综述，大体上从独立度量到模型计算的模型概述的比较广，但不是很全，不过从了解相似度计算来讲，还是值得一看的 | Jiapeng Wang 等, 2020\n\n+ [深度学习] | [超越准确率：利用CheckList对NLP模型进行行为测试](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2005.04118.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F421175552) | ACL2020的Best Paper，基于NLP领域提出了测试体系来指导我们了解 NLP 模型的能力，也能够指导我们去理解问题、解决问题。不同于现代 NLP 模型常常仅关注特定的任务，CheckList 希望去评估一个模型的多方面能力，这些能力有的是模型通用的，有的则是面向特定的任务或领域 | Marco Tulio Ribeiro 等, 2020\n\n+ [预训练-语言模型] | [DeBERTa: 增强解码能力的BERT，采用解耦注意力机制](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2006.03654.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F348522530) | DeBERTa的一大亮点在于改动位置编码的介入时机，在论文中叫作Disentangled Attention。具体做法是将原本和输入embedding混合相加的pos embedding（relative）单独拎出来，然后再用位置编码和content 编码计算attention，进而增加了“位置-内容” 和 “内容-位置” 注意力的分散Disentangled Attention。然后一些其他的改动比如：1) | 因为我们在精调时一般会在 BERT 的输出后接一个特定任务的 Decoder，但是在预训练时却并没有这个 Decoder，所以本文在预训练时用一个两层的 Transformer decoder 和一个 SoftMax 作为 Decoder；2) | 为了弥补一下只有相对位置的损失，因此在decoder前加入一层绝对位置embedding；3) | bert的训练策略中，mask有10%的情况是不做任何替换，而DeBeta将不做替换改成了换位该位置词绝对位置的pos embeding | Pengcheng He 等, 2020\n\n+ [对话系统-阅读理解模型-检索式对话系统] | [利用生成式模型结合段落检索进行开放域问答](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.01282.pdf) | Fusion-in-Decoder生成式阅读理解模型 | Izacard 等, 2020\n\n+ [数据集] | [MultiWOZ 2.2: 一个包含额外标注修正和对话状态跟踪基准的数据集](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.12720.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F260097352) | MultiWOZ是一个著名的面向任务的对话数据集，被广泛用作对话状态跟踪的基准，MultiWOZ 2.2是目前最新版本 | Zang 等, 2020\n\n+ [预训练-语言模型] | [非自回归神经机器翻译中的GLAT模型](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2008.07905.pdf) | [阅读笔记](https:\u002F\u002Fwww.linkresearcher.com\u002Ftheses\u002F5970ead3-229c-4193-9f67-f39dc16219f5) | 本文提出的GLAT是一种非自回归翻译模型（摆脱BeamSearch），主要着重于并行化Decoder以及提高翻译质量，实际的效果速度快且在一些翻译方向上（英德）达到了SOTA。模型的核心结构沿用Transformer结构，参考预训练语言模型的MLM的做法，提出一种叫作GLM（Glancing LM）的方案，即使用两遍Decoder（同一个Decoder），第一遍的Decoder中，不加任何干预的获得模型的自然输出，这个时候将输出与Gold output进行对比，然后随机采样（也可以尝试其他的）目标词的词嵌入替换模型输出对应的hidden，然后再次喂入Decoder得到最终输出（注意，这里采样的词数量是根据训练情况好坏反比的，模型输出效果越好，采样的目标词越少，最终模型收敛到一次并行推理）。原理就是在第一次并行推理比较难学习到词与词之间的依赖关系，因此在第二次并行推理时，适当的引入目标词进行修正，进行增强训练 | Lihua Qian 等, 2020\n\n+ [异常检测-模型-机器学习-无监督] | [基于Copula的异常检测方法COPOD](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2009.09463.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F338189299) | 本文主要是基于copula统计概率函数，提出了COPOD的异常检测方法，COPOD使用了非参数（non-parametric）的方法，通过经验累积分布（Empirical CDF）来得到empirical copula，在这之后我们就可以简单的通过empirical copula来估算所有维度上的联合分布的尾端概率。因此COPOD不需要进行样本间的距离计算，从而节省运行开销且速度快，同时，该方法不需要调参，直接使用即可 | Zheng Li 等, 2020\n\n+ [预训练-语言模型-关系抽取] | [一种令人沮丧的简单实体与关系抽取方法](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.12812.pdf) | [阅读笔记](http:\u002F\u002Fwww.sohu.com\u002Fa\u002F430031845_129720) | 提出了一种非常简单的方法，该方法可以学习基于深度预训练语言模型构建的两个编码器，这两个模型分别被称为实体模型和关系模型（实体模型和关系模型的语境表示本质上捕获了不同的信息，因此共享其表示会损害性能）。同时，为了加快模型推断速度，该研究提出了一种新颖而有效的近似方法，该方法可实现 8-16 倍的推断加速，而准确率只有很小的降低 | Zexuan Zhong 等, 2020\n\n+ [预训练-语言模型-Prompt] | [AutoPrompt: 通过自动生成的提示从语言模型中提取知识](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2010.15980.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F366771566) | 本论文提出了一种基于梯度的prompt搜索方案，方法比较直观，将通过梯度找出trigger word和mask拼接在文本中，形成一个语义上不通顺，但是对模型而言却具有合理prompt的样本，并且将label预测转换为masked token的预测。方法的核心在于选取trigger word，说白了就是选定一个已确定token数量的template，比如论文中{sentence}[T][T][T][T][T][P]，其中T就代表trigger word，P代表label，在这个例子中，准备使用五个token作为prompt，做法就是将这五个token标识为mask token，然后通过MLM的方式预测出token，然后选前k个最大化输入与梯度乘积的token，选出的token候选一次加入到prompt并评估预测的概率。在预测prompt token之外，还拿了mask token的hidden states过一个线性层预测label，并加上原本label位置mask token的loss进行训练。AutoPrompt的方法总的来说简单粗暴，不过带来的也是可解释性差，具体效果一般 | Taylor Shin et al,2020\n\n+ [预训练-语言模型] | [Informer: 超越高效Transformer的长序列时间序列预测](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.07436.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F351321328) | 一种效果远超Transformer的长序列预测模型，针对LSTF问题上的研究改进 | Haoyi Zhou et al,2020\n  \n+ [综述-可解释性] | [神经网络可解释性综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.14261.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F341153242) | 关于神经网络可解释性的一篇综述，整理的挺不错的，不过就是相关领域前沿探索不足 | Yu Zhang et al,2020\n\n+ [深度学习] | [文本生成中重复问题的理论分析](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.14660.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F349675973) | 讨论Seq2Seq模型解码重复生成的原因 | Zihao Fu et al,2020\n\n+ [预训练-语言模型-Prompt] | [使预训练语言模型成为更好的少样本学习者](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2012.15723.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F386470305) | 文中提出的LM-BFF是一套简单的技术组合，用于仅在少量训练样本上对预训练的LM进行微调，其中包括：（1）基于Prompt的微调以及自动生成prompt的新方法；（2）一种动态的、有选择的在上下文中引入demonstration的方法。这里稍微介绍一下背景概念，Prompt方法主要分两种不同的研究方向：（1）基于prompt的fine-tuning（被认为是更适合小LM的few-shot learner）；（2）而对于大模型，fine-tuning比较困难，因此是希望固定他们的参数，通过不同的prompt将它们应用在不同的任务上。对于第二个研究方向，prompt分为Discrete Prompts和Soft Prompts，可以简单的认为discrete是选随机token，而soft则是直接用随机向量替换Embedding。然后还有除了Prompt之外，还有demonstration（in-context learning， 一种新的meta-learning方式），prompt和demonstration都是GPT-3很成功的设计，demonstration是多sample+input text作为模型输入，其中也有很多优化的方法 | Tianyu Gao et al,2020\n\n+ [对话系统-预训练-检索式对话系统] | [从阅读器到检索器的知识蒸馏用于问答](https:\u002F\u002Fopenreview.net\u002Fpdf?id=NTEz-6wysdb) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F372694270) | 一种模型训练模型的开放域问答方法 | Izacard et al,2021\n\n+ [预训练-语言模型-Prompt] | [Prefix-Tuning: 优化连续提示以用于生成](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2101.00190.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F386073664) | 本篇论文核心是针对离散的Prompt难以优化的问题，提出了参数化的prompt，仅微调prompt，freeze住LM。在小样本任务重，这种方法极大的减小的模型的参数，减少了过拟合的风险，这种参数化的prompt在小样本场景中，能够优于fine-tune的方法。这篇文章的做法和P-tuning差不多，都是设计了非自然语言的模板，只不过Prefix-tuning主要关心的是NLG的应用，而P-tuning更加关心NLU的应用 | Xiang Lisa Li et al,2021\n\n+ [综述-向量召回] | [基于图的近邻搜索综合综述与实验比较](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2101.12631.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F415320221) | 论文是一篇关于graph-base的向量召回综述，聚焦实现了效率和精度最优权衡的近邻图索引，综述了 13 种具有代表性相关算法，包括NSW、HNSW等在内的优秀算法，并提出一个统一评估的pipeline | Mengzhao Wang et al,2021\n  \n+ [预训练-评估] | [LogME: 针对迁移学习的预训练模型实用评估](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2102.11005.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F358844524) | 一种通用且快速的评估选择适合下游任务的预训练模型的打分方法，logME | Kaichao You et al,2021\n\n+ [Prompt-预训练-语言模型] | [GPT 也懂得](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2103.10385.pdf) | [阅读笔记](https:\u002F\u002Fkexue.fm\u002Farchives\u002F8295) | 在本文之前的Prompt思路呢，要么是通过人工设计Prompt（如PET），要么是探索通过自动化搜索Prompt进行（如AutoPrompt、LM-BFF等），思路都限于搜索token来组成Prompt template（Discrete Prompt Search），而本文提出的P-tuning思路是不用关心template由哪些token word组成，对于模型而言，只需要token embedding，直观点说就是在template中，除了目标词正常以Mask token出现，prompt token则是[unused*]（也就是从未见过的token来构成模板，这里的token会过一层LSTM进行编码），其中token数目是一个超参数可以调整，这种方式极大的提升了template的搜索空间（连续）。小样本的时候固定模型权重，只优化[unused*]的Embedding，这样即使样本少也能学到prompt template，不容易过拟合。标注数据足够的话就直接放开所有权重一同训练微调就行 | Xiao Liu et al,2021\n\n+ [Prompt-预训练-语言模型] | [参数高效提示调优的规模效应](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08691.pdf) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fc9Yv2cf9I06K2A9E\u002Farticle\u002Fdetails\u002F121112298) | 本文的方法和p-tuning相似，是固定LM，只训练prefix，这篇文章主要是验证了全量数据情况下，仅微调prompt相关的参数，能够达到fine-tune的效果（p-tuning的prompt token人为的选用[unused*]，而本文对prompt token的初始化分两种：置零和采用词表的一些预训练token embedding）。论文的最终结论有：1）：在一般模型大小的情况下，prompt token越多，效果越好（超过20增益减小），但是在超大模型的情况下，单个prompt token也能达到前面20个token以上的效果；2）：随机初始化、词表采样、用label标签初始化，其中label的方式效果最好；3）：LM Adaptation steps 越多，效果越好；4）：同时训练多个prompt进行ensemble，效果优于单一prompt | Brian Lester et al,2021\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [SimCSE: 句子嵌入的简单对比学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2104.08821.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F368353121) | 基于Sentence-Bert，引入对比学习的思想，在无监督与有监督语义相似度计算任务达到SOTA。主要围绕对比学习质量指标Alignment和Uniformity来进行优化，对于Unsupervised，核心是使用dropout mask生成正样本，负样本是in-batch negatives。而Supervised则是NLI中entailment关系样例对。负例：a) in-batch negatives b)NLI中关系为contradiction的样例对 | Tianyu Gao et al,2021\n\n+ [预训练-语言模型] | [预训练卷积是否优于预训练Transformer？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2105.03322.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F380195756) | 将Transformer的Attention换成了卷积，尝试预训练模型新方式 | Yi Tay et al,2021\n\n+ [综述-对话系统] | [基于深度学习的对话系统最新进展：系统综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2105.04387.pdf) | 对话系统综述：新进展新前沿 | JinJie Ni et al,2021\n\n+ [对话系统-评估] | [迈向可量化的对话连贯性评估](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.00507.pdf) | QuantiDCE，一种实现可量化的对话连贯性评估指标模型 | Zheng Ye et al,2021\n\n+ [对话系统-对话策略学习] | [检索与记忆：多动作记忆的对话策略学习](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2106.02317.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F415170940) | 联合检索和记忆块的多action的Dialog Policy Learning模型，在action生成和response生成上效果SOTA | Yunhao Li et al,2021\n  \n+ [对话系统] | [通过可控特征提高知识增强型对话系统的忠实度](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2107.06963.pdf) | 通过可控特征来增加知识对话系统的学习 | Rashkin et al,2021\n  \n+ [综述-Prompt-预训练] | [预训练、提示与预测：自然语言处理中提示方法的系统综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2107.13586.pdf) | [阅读笔记1](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F409541189) \u002F [阅读笔记2](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F461825791) | 关于Prompt-based learning的一篇综述，Prompt（提示\u002F题词）和之前的MLM有些相似，通过定义template的方式，基于语言模型的特性直接估计出文本的概率，从而生成答案。相较于传统的语言模型依赖于针对特定下游任务的fine-tune，Prompt更加关注模型的迁移能力（它的目标就是希望对不同下游任务建立一个统一的范例），除了便捷和泛化能力之外，这样做的一个明显优势就是不同任务之间的数据可以共享，减少标注数据，随着数据累积，新的任务可以达到zero-shot learning的目的 | Pengfei Liu et al,2021\n\n+ [文本相似度\u002F匹配\u002F分类-Prompt-预训练-语言模型] | [用于少样本文本分类的噪声信道语言模型提示](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2108.04106.pdf) | 本篇论文以实验探索为主，含有大量的实验对比，主要出发点就是在few-shot问题中，探讨控制训练参数对于direct model和channel model效果的影响，最终的论文的结论是Noisy Channel model明显优于direct model。论文中的direct model主要是指一般的P(c|x)，其中x是输入，c是label，而direct++ model则是基于direct，强化文本间的差异，引入空文本，即P(c|x)\u002FP(c|null)，而channel model则是指使用贝叶斯公式重新参数化direct，P(c|x)=P(x|c)P(c)\u002FP(x)，其中P(c)就是label数分之一，即P(1\u002FC)，而P(x)独立于c，所以最终只需要计算P(x|c)。那么最后用形象一点的例子来解释direct和channel的差异就是，direct=x->c，channel=c->x。论文中对参数的控制采用了all finetuning、head tuning、transformation tuning和Prompt tuning（这里可以认为是soft prompt，即只需在输入序列中放入一些随机向量，与词汇表中的特定word embedding无关，并进行调整，同时固定预训练模型的其他部分）。在direct和channel的方法间，channel明显优于direct。在direct model的参数控制实验中，head tuning是最优的，但是当channel model配合soft prompt时，效果是最好的 | Sewon Min et al,2021\n\n+ [对话系统-预训练] | [通用问答模型MACAW](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.02593.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F425427299) | 生成式多角度问答模型，参数量只有GPT-3的十六分之一，作者主打的亮点是通过整合7种不同的任务范式（问题生成、答案生成...），使得模型能够通过不同角度学习到QA相关的内容，目的就是得到一个强大的QA版本预训练模型。输入的话就是通过\"$s1$;$s2$..\"的slot方式进行文本拼接，得到的解码输出也是如此输出的，模型内核还是基于transformer的改造 | Oyvind Tafjord et al,2021\n\n+ [预训练-语言模型-Prompt] | [PPT: 用于少样本学习的预训练提示调优](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.04332.pdf) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fc9Yv2cf9I06K2A9E\u002Farticle\u002Fdetails\u002F121112298) | 之前的工作都是在finetune阶段去使用prompt，这篇文章第一次提出了prompt pretraining的过程。一开始是因为观察了prompt tuning中的大模型尽管在全量数据下能够媲美finetune，但是在少样本情况下并不好，作者认为是因为在大模型上soft prompt对初始化很敏感，所以设计了一系列预训练的prompt task来给soft prompt提供一个很好的初始化。论文的结论是，通过 prompt 的预训练，在少样本情况下，大模型的 prompt tuning 同样能媲美 fine-tuning 的效果 | Yuxian Gu et al,2021\n\n+ [对话系统-任务型对话-预训练] | [端到端任务导向对话中基于约束的知识库蒸馏](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.07396.pdf) | 基于KB的End2End的Task-Oriented的对话系统，使用pairwise相似度过滤相关信息来获得KB中的n元结构，就这一点上倒没有什么新奇，只不过相对于之前的方式修改的entity格式。不过在避免检索到部分entity相似但并不是目标的record的情况，作者加入了辅助的损失函数用于embedding constraint，这种做法确实减少了相同entity之间的相似性，从而提高record的可靠性，值得借鉴。基于现有的F1指标的缺点，提出multiset entity F1 | Dinesh Raghu et al,2021\n  \n+ [综述] | [自然语言处理的范式转变](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2109.12575.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F415867930) | 总结归纳NLP中任务范式并分析的综述，论文给出了七种范式的定义，针对此分析一些具体任务（范式迁移）的例子，并指出四种可能大一统的NLP任务范式：LM，matching，MRC，Seq2Seq（LM减少工程量，MRC具有更高的可解释性，seq2seq在处理复杂任务时具有更高的灵活性），但是没有把Prompt纳进去（狗头） | Tianxiang Sun et al,2021\n\n+ [综述-数据增强] | [自然语言处理中的数据增强方法综述](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.01852.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F420295576) | 哈工大的工作，对15中NLP数据增强方法进行了总结和对比，有详细的优缺点说明，还有一些使用技巧，实用性非常强，需要的时候可以详细的参考原文以及相关的文献的应用细节。几个开源工具：Easy DA、UNsupervised DA、nlpaug、eda_nlp_for_Chinese | Bohan Li et al,2021\n\n+ [预训练-语言模型-Prompt] | [SPoT: 通过软提示迁移实现更好的冻结模型适应](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.07904.pdf) | [阅读笔记](https:\u002F\u002Fblog.csdn.net\u002Fc9Yv2cf9I06K2A9E\u002Farticle\u002Fdetails\u002F121112298) | 之前的工作证明了prompt 的初始化很重要，而在PPT（Pre-trained Prompt）那篇论文中提出的预训练方法能够给 prompt 提供一个很好的初始化，但是有没有其他预训练的方式，比如不用设计预训练任务的，因此本文提出了一种prompt transfer（SPoT）的方法，即学习一个或者多个源任务的  prompt 来初始化目标任务的 prompt，这种方式能够使得 prompt tuning 在不同模型尺寸（包括小模型）上都能媲美甚至优于 fine-tuning（注意，无法超过 multi-task fine-tuning 的效果）。论文的结论是在全量数据 + 仅微调 prompt 的情况下，SPoT 能够在多个模型尺寸（包括小模型）下媲美和优于 model tuning 的效果，并能在使用超大模型情况下媲美强基线 Multi-task Tuning | Tu Vu et al,2021\n\n+ [异常检测-模型-机器学习-无监督] | [ECOD: 基于经验累积分布函数的无监督离群点检测](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2201.00382.pdf) | 本文作者和2020年提出的COPOD算法同作者，本文提出的ECOD算法是COPOD算法的扩展版本。ECOD算法使用经验累计分布函数的无监督离群值检测，通过类似集成的方法（结合同一样本不同维度的离群分，假设各维度特征相互独立），计算每个样本的离群分，分值越高是异常值的可能性越大。另外，在计算各特征维度的左尾和右尾ECDF，并得到对应离群分后，通过skewness（偏度）来矫正集群分得到最终结果 | Zheng Li et al, 2022\n\n+ [预训练-语言模型-Prompt] | [重新思考演示的作用：上下文学习为何有效？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2202.12837.pdf) | [阅读笔记](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FqdCuPWsNg_lOxUkap1dQ9Q) | 本文主要探讨分析Prompt范式下，预训练语言模型是如何学习并work的。主要的结论是在in-context learning 学习中，学习并不是输入与标注之间的关联，而是通过展示数据形式，来激活与训练模型的能力。此外附带两个结论：在meta learning环境下，in-context leanring的这个特点更为明显；因为标签不重要，所以可以用无标注领域内数据做in-context zero shot learning | Sewon Min et al,2022\n\n+ [预训练-语言模型-文本相似度\u002F匹配\u002F分类] | [预训练的文本排序Transformer究竟有多不同？](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2204.07233.pdf) | [阅读笔记](https:\u002F\u002Fmp.weixin.qq.com\u002Fs\u002FJaP7FjQeHyHURj1qh3rKQg) | 本文主要对BERT（Cross-Encoder，即软匹配）和传统稀疏排序方法的BM25（精确匹配）进行query-doc排序结果的比较分析，尝试搞清楚Cross-Encoder和BM25的区别，弄清CE的运作原理。论文得到的结论就是：（1）精确匹配是一个重要的基础排序策略，而CE的软匹配能力是BM25不具备的；（2）对于高度相关的doc排序，CE和BM25各自的相关性定义有着很大的不同，且BM25明显低估了许多文档的相关性；（3）CE的潜力在于，它可以召回BM25非常不看好而实际却是高度相关的doc；（4）CE通过考虑上下文信息客服了对term匹配的依赖，能够找到“不可能相关”的结果，即语义泛化能力。从整个实验中也可以明显的看出CE和BM25各自都有着自己的优势，CE并不能完全替代BM25，不管是在召回还是在排序阶段，这两者依旧是相辅相成的关系（别忘了个事实，CE方法上百亿的参数，BM25相比之下“弱小”很多） | David Rau et al,2022\n\n+ [异常检测-综述-自监督] | [自监督异常检测：综述与展望](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.05173.pdf) | 一篇关于异常检测的综述论文，主要是围绕自监督形式的异常检测方法进行介绍，论文中大部分方法的切入视角是图像，搞文本或者多模态的话也可以看看，说不定有所启发。全文主要的内容大体可以分为：（1）对目前自监督形式的异常检测方法和其应用的场景进行介绍和讨论；（2）根据异常检测算法所针对的数据样本的不同，提出对这些算法进行划分，有利于根据不同场景进行算法的选择；（3）最后对未来的发展进行了讨论 | Hadi Hojjati et al, 2022\n\n+ [异常检测-评估] | [ADBench: 异常检测基准测试](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2206.09426.pdf) | [阅读笔记](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F565458918) | 一篇很全面的针对Tabular Data的异常检测方法的实验论文，通过设计Benchmark对30种算法（包括许多传统机器学习算法也加入了实验）进行实验分析。其主要贡献就是设计了Benchmark，设计切入的角度分为三个：（1）从完全无监督异常检测到完全监督的异常检测，标签的数量有多重要？（2）对于不同种类的异常，如何分析算法的优劣？（3）对于数据质量中面临的问题，比如噪音、重复、错误等，哪些算法更加鲁棒？ | Songqiao Han et al, 2022\n\n\n\n\n# 博客文章 | 文章\n\n+ [用ALBERT和ELECTRA之前，请确认你真的了解它们](https:\u002F\u002Fkexue.fm\u002Farchives\u002F7846\u002Fcomment-page-1) | 文章对ALBERT和ELECTRA的优缺点进行了思考，并于BERT进行的比较分析，得到两点结论：（1）如果不到xlarge版，那么没必要用ALBERT，同一速度的ALBERT效果比BERT差，同一效果的ALBERT速度比BERT慢；（2）ELECTRA的预训练速度是加快了，但从目前的实验来看，它相比同级别的BERT在下游任务上的效果并没有突出优势，可以试用，但是效果变差了也不用太失望 | 苏剑林, 2020","# NLP-Paper 快速上手指南\n\nNLP-Paper 是一个专注于自然语言处理（NLP）领域的论文归档与精读项目。它按时间顺序整理了大量经典与创新论文，并提供阅读笔记、代码复现链接及本地搜索工具，适合开发者快速查找文献和学习前沿算法。\n\n## 环境准备\n\n本项目主要包含论文列表、笔记链接及搜索脚本，对系统环境要求较低。\n\n- **操作系统**：Linux \u002F macOS \u002F Windows\n- **Python 版本**：推荐 Python 3.6 及以上\n- **前置依赖**：\n  - Git（用于克隆仓库）\n  - 基础 Python 库（通常仅需标准库，具体依赖请参考 `search_kits.py` 头部引入）\n\n> **提示**：国内用户建议使用 Gitee 镜像或配置 Git 代理以加速克隆过程。\n\n## 安装步骤\n\n1. **克隆仓库**\n   使用 Git 将项目克隆到本地：\n   ```bash\n   git clone https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-paper.git\n   ```\n   \n   *（可选）国内加速方案：*\n   ```bash\n   git clone https:\u002F\u002Fgitee.com\u002Fmirrors\u002Fnlp-paper.git\n   ```\n\n2. **进入项目目录**\n   ```bash\n   cd nlp-paper\n   ```\n\n3. **检查依赖**\n   大多数功能无需额外安装。若运行搜索工具报错，请根据报错信息安装缺失库（如 `pandas`, `fuzzywuzzy` 等，具体视 `search_kits.py` 实现而定）：\n   ```bash\n   pip install -r requirements.txt\n   ```\n   *(注：若根目录无 requirements.txt，请直接尝试运行搜索脚本，按需安装)*\n\n## 基本使用\n\n### 1. 浏览论文列表\n项目核心内容为 `README.md` 中的论文列表。你可以直接在 GitHub 页面浏览，或在本地用 Markdown 编辑器打开。\n- **分类导航**：支持大模型、聚类、向量召回、对话系统、图算法等多个领域。\n- **快速检索**：在浏览器中打开 README 页面，使用 `Ctrl + F` (Windows) 或 `Cmd + F` (Mac) 搜索关键词（如\"PageRank\"、“聚类”）。\n\n### 2. 使用本地搜索工具\n项目提供了一个交互式搜索脚本，方便在终端中快速查找论文和笔记。\n\n**运行命令：**\n```bash\npython3 search_kits.py\n```\n\n**操作说明：**\n- 运行后进入交互界面。\n- 输入关键词即可筛选相关论文、查看简述及跳转阅读笔记链接。\n- 支持按标签、作者、年份等多维度检索。\n\n### 3. 获取代码复现\n对于部分提供代码复现的论文，请参考 README 中提到的关联仓库：\n- **文本相似度**：[Text-Similarity](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Ftext-similarity)\n- **对话系统**：[Nlp-Dialogue](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fnlp-dialogue)\n- **通用复现代码**：[paper-code](https:\u002F\u002Fgithub.com\u002FDengBoCong\u002Fpaper\u002Ftree\u002Fmaster\u002Fpaper-code)","某初创公司算法团队正紧急研发一款垂直领域的智能客服系统，需要在两周内完成从技术选型到基线模型复现的全过程。\n\n### 没有 nlp-paper 时\n- **文献检索效率低下**：工程师需在 arXiv、Google Scholar 等多个平台漫无目的地搜索“对话状态跟踪”或“槽位填充”相关论文，耗时数天仍难以筛选出高价值文章。\n- **复现门槛极高**：找到论文后，缺乏官方代码或只有单一框架版本，团队需自行推导公式并编写 TensorFlow 或 PyTorch 代码，极易因细节疏忽导致模型不收敛。\n- **核心逻辑理解困难**：面对复杂的数学推导和新颖的网络结构，团队成员需反复研读原文才能吃透思路，缺乏配套的中文精读笔记辅助快速上手。\n- **知识体系碎片化**：收集的资料散落在不同文件夹和书签中，缺乏按时间线和技术类别（如大模型、向量召回）整理的系统化归档，难以形成完整的技术图谱。\n\n### 使用 nlp-paper 后\n- **精准定位前沿方案**：直接利用 nlp-paper 内置的搜索工具和分类目录，几分钟内即可锁定“任务型对话”和“对话策略学习”领域的经典与最新论文。\n- **双框架代码即用**：直接调用仓库中提供的 TensorFlow 和 PyTorch 双版本复现代码，将原本需要一周的模型搭建工作缩短至几小时，立即进入调优阶段。\n- **笔记辅助深度理解**：参考作者同步上传的精读笔记，快速掌握论文的核心创新点与实现细节，大幅降低团队的学习成本和沟通成本。\n- **系统化知识管理**：依托 nlp-paper 按时间顺序排列的论文列表和清晰的内容索引，团队迅速构建起从数据预处理到模型评估的完整技术链路。\n\nnlp-paper 通过提供“论文 + 笔记 + 可运行代码”的一站式资源，将算法团队的调研与复现周期从数周压缩至数天，显著加速了产品落地进程。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FDengBoCong_nlp-paper_158ad1ff.png","DengBoCong","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FDengBoCong_648cf914.jpg","Deep Learning | NLP | Java","@ByteDance","Beijing, China","bocongdeng@gmail.com",null,"http:\u002F\u002Fdengbocong.cn\u002F","https:\u002F\u002Fgithub.com\u002FDengBoCong",[82],{"name":83,"color":84,"percentage":85},"Python","#3572A5",100,1330,188,"2026-04-07T04:56:18","Apache-2.0",1,"未说明",{"notes":93,"python":94,"dependencies":95},"该项目主要是一个 NLP 论文阅读笔记和归档仓库，而非一个需要复杂训练环境的深度学习模型库。文中提到的搜索工具 (search_kits.py) 仅需基础 Python 环境即可运行。具体的复现代码、工具包（如 Tf\u002FPytorch 双版本）及对话系统项目分别位于作者的其他独立仓库中（Text-Similarity, Nlp-Dialogue, paper-code），本仓库 README 未列出那些子项目的具体依赖和环境需求。","3.x (根据命令 'python3 search_kits.py' 推断)",[91],[97,14,35],"音频",[99,100,101,102,103,104,105,106],"dialogue","speech","nlp-machine-learning","paper","tensorflow2","pytorch","nlp","bert","2026-03-27T02:49:30.150509","2026-04-12T20:07:47.400612",[],[]]