[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-microsoft--unilm":3,"tool-microsoft--unilm":61},[4,18,26,36,44,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",157379,2,"2026-04-15T23:32:42",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":32,"last_commit_at":50,"category_tags":51,"status":17},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[52,13,15,14],"插件",{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":32,"last_commit_at":59,"category_tags":60,"status":17},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[52,14],{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":79,"owner_url":80,"languages":81,"stars":120,"forks":121,"last_commit_at":122,"license":123,"difficulty_score":124,"env_os":125,"env_gpu":126,"env_ram":126,"env_deps":127,"category_tags":131,"github_topics":133,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":153,"updated_at":154,"faqs":155,"releases":185},7861,"microsoft\u002Funilm","unilm","Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities","unilm 是微软推出的一套大规模自监督预训练开源项目，旨在打破任务、语言和模态之间的壁垒，构建通用的基础人工智能模型。它主要解决了传统 AI 模型往往只能处理单一任务（如仅文本或仅图像）、多语言支持不足以及难以在理解与生成之间灵活切换的痛点。\n\nunilm 非常适合从事自然语言处理、计算机视觉、语音识别及多模态研究的科研人员，以及希望基于先进基座模型开发应用的开发者使用。其核心亮点在于“大融合”理念：支持超过 100 种语言的跨语言学习，并能同时处理文本、图像、音频及文档布局等多种数据形式。在技术架构上，unilm 不仅提供了 UniLM、InfoXLM 等经典的统一预训练模型，还持续探索前沿方向，如将 Transformer 扩展至千层甚至十亿 token 的 DeepNet 与 LongNet，以及追求极致效率的 1-bit 量化模型 BitNet 和稀疏专家混合架构 X-MoE。此外，Kosmos 系列多模态大模型也包含其中，实现了模型对现实世界的感知与接地。无论是需要轻量级边缘部署，还是追求超大规模参数性能，unilm 都提供了丰富的模型选择与技术积累。","\u003C!--# Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities-->\n## [aka.ms\u002FGeneralAI](https:\u002F\u002Faka.ms\u002FGeneralAI)\n# Hiring\nWe are hiring at all levels (including FTE researchers and interns)! If you are interested in working with us on Foundation Models (aka large-scale pre-trained models) and General AI, NLP, MT, Speech, Document AI and Multimodal AI, please send your resume to \u003Ca href=\"mailto:fuwei@microsoft.com\" class=\"x-hidden-focus\">fuwei@microsoft.com\u003C\u002Fa>.\n\n# Foundation Architecture\n### TorchScale - A Library of Foundation Architectures ([repo](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Ftorchscale))\n\nFundamental research to develop new architectures for foundation models and AI, focusing on modeling generality and capability, as well as training stability and efficiency.\n\n> Stability - [**DeepNet**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeepnet): scaling Transformers to 1,000 Layers and beyond\n\n> Generality - [**Foundation Transformers (Magneto)**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06423): towards true general-purpose modeling across tasks and modalities (including language, vision, speech, and multimodal)\n\n> Capability - A [**Length-Extrapolatable**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10554) Transformer\n\n> Efficiency & Transferability - [**X-MoE**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxmoe): scalable & finetunable sparse Mixture-of-Experts (MoE)\n\n### The Revolution of Model Architecture\n\n> [**BitNet**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11453): 1-bit Transformers for Large Language Models\n\n> [**RetNet**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.08621): Retentive Network: A Successor to Transformer for Large Language Models\n\n> [**LongNet**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02486): Scaling Transformers to 1,000,000,000 Tokens\n\n# Foundation Models\n\n### The Evolution of (M)LLM (Multimodal LLM)\n\n> [**Kosmos-2.5**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fkosmos-2.5): **A Multimodal Literate Model**\n\n> [**Kosmos-2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fkosmos-2): **Grounding Multimodal Large Language Models to the World**\n\n> [**Kosmos-1**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14045): **A Multimodal Large Language Model (MLLM)**\n\n> [**MetaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmetalm): **Language Models are General-Purpose Interfaces**\n\n**The Big Convergence** - Large-scale self-supervised pre-training across ```tasks``` (predictive and generative), ```languages``` (100+ languages), and ```modalities``` (language, image, audio, layout\u002Fformat + language, vision + language, audio + language, etc.)\n\n\u003C!--## Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities-->\n\n### Language & Multilingual\n> [**UniLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm): unified pre-training for language understanding and generation\n\n> [**InfoXLM\u002FXLM-E**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Finfoxlm): multilingual\u002Fcross-lingual pre-trained models for 100+ languages\n\n> [**DeltaLM\u002FmT6**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeltalm): encoder-decoder pre-training for language generation and translation for 100+ languages\n\n> [**MiniLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm): small and fast pre-trained models for language understanding and generation\n\n> [**AdaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fadalm): domain, language, and task adaptation of pre-trained models\n\n> [**EdgeLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fedgelm)(```NEW```): small pre-trained models on edge\u002Fclient devices\n\n> [**SimLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fsimlm) (```NEW```): large-scale pre-training for similarity matching\n\n> [**E5**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fe5) (```NEW```): text embeddings\n\n> [**MiniLLM**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.08543) (```NEW```): Knowledge Distillation of Large Language Models\n\n### Vision\n> [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit)\u002F[**BEiT-2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit2): generative self-supervised pre-training for vision \u002F BERT Pre-Training of Image Transformers\n\n> [**DiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdit): self-supervised pre-training for Document Image Transformers\n\n> [**TextDiffuser**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftextdiffuser)\u002F[**TextDiffuser-2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftextdiffuser-2) (```NEW```): Diffusion Models as Text Painters\n\n### Speech\n> [**WavLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm): speech pre-training for full stack tasks\n\n> [**VALL-E**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvalle): a neural codec language model for TTS\n\n### Multimodal (X + Language)\n> [**LayoutLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlm)\u002F[**LayoutLMv2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2)\u002F[**LayoutLMv3**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3): multimodal (text + layout\u002Fformat + image) **Document Foundation Model** for [Document AI](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fproject\u002Fdocument-ai\u002F) (e.g. scanned documents, PDF, etc.)\n\n> [**LayoutXLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm): multimodal (text + layout\u002Fformat + image) **Document Foundation Model** for multilingual Document AI\n\n> [**MarkupLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmarkuplm): markup language model pre-training for visually-rich document understanding\n\n> [**XDoc**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxdoc): unified pre-training for cross-format document understanding\n\n> [**UniSpeech**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.07597): unified pre-training for self-supervised learning and supervised learning for ASR\n\n> [**UniSpeech-SAT**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.05752.pdf): universal speech representation learning with speaker-aware pre-training\n\n> [**SpeechT5**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07205): encoder-decoder pre-training for spoken language processing\n\n> [**SpeechLM**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.15329): Enhanced Speech Pre-Training with Unpaired Textual Data\n\n> [**VLMo**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvlmo): Unified vision-language pre-training \n\n> [**VL-BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvl-beit) (```NEW```): Generative Vision-Language Pre-training - evolution of **BEiT** to multimodal\n\n> [**BEiT-3**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit3) (```NEW```): a general-purpose multimodal foundation model, and a major milestone of **The Big Convergence** of Large-scale Pre-training Across Tasks, Languages, and Modalities.\n### Toolkits\n> [**s2s-ft**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fs2s-ft): sequence-to-sequence fine-tuning toolkit\n\n> [**Aggressive Decoding**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.10350.pdf) (```NEW```): lossless and efficient sequence-to-sequence decoding algorithm\n\n### Applications\n> [**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr): transformer-based OCR w\u002F pre-trained models\n \n> [**LayoutReader**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutreader): pre-training of text and layout for reading order detection\n\n> [**XLM-T**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxlmt): multilingual NMT w\u002F pretrained cross-lingual encoders\n\n## Links\n### LLMOps ([repo](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Flmops))\nGeneral technology for enabling AI capabilities w\u002F LLMs and MLLMs.\n\n### RedStone ([repo](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fredstone))\nCurating General, Code, Math, and QA Data for Large Language Models.\n\n## News\n- December, 2024: [**RedStone**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fredstone) was released!\n- December, 2023: [**LongNet**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flongnet) and [**LongViT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flongvit) released\n- [Model Release] Dec, 2023: [**TextDiffuser-2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftextdiffuser-2) models, code and [demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FJingyeChen22\u002FTextDiffuser-2). \n- Sep, 2023: [**Kosmos-2.5**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.11419) - a multimodal literate model for machine reading of text-intensive images.\n- [Model Release] May, 2023: [**TextDiffuser**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftextdiffuser) models and code.\n- [Model Release] March, 2023: [**BEiT-3**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit3) pretrained models and code.\n- March, 2023: [**Kosmos-1**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14045) - a Multimodal Large Language Model (MLLM) that can perceive general modalities, learn in context (i.e., few-shot), and follow instructions (i.e., zero-shot).\n- January, 2023: [**VALL-E**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.02111) a language modeling approach for text to speech synthesis (TTS), which achieves state-of-the-art zero-shot TTS performance. See https:\u002F\u002Faka.ms\u002Fvalle for demos of our work.\n- [Model Release] January, 2023: [**E5**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fe5) - Text Embeddings by Weakly-Supervised Contrastive Pre-training.\n- November, 2022: [**TorchScale 0.1.1**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Ftorchscale) was released!\n- November, 2022: [**TrOCR**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.10282) was accepted by AAAI 2023.\n- [Model Release] November, 2022: [**XDoc**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxdoc) **BASE** models for cross-format document understanding.\n- [Model Release] September, 2022: [**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) **BASE** and **LARGE** models for Scene Text Recognition (STR).\n- [Model Release] September, 2022: [**BEiT v2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit2) code and pretrained models.\n- August, 2022: [**BEiT-3**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.10442) - a general-purpose multimodal foundation model, which achieves state-of-the-art transfer performance on both vision and vision-language tasks\n- July, 2022: [**SimLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fsimlm) - Large-scale self-supervised pre-training for similarity matching\n- June, 2022: [**DiT**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02378) and [**LayoutLMv3**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.08387) were accepted by ACM Multimedia 2022.\n- June, 2022: [**MetaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmetalm) - Language models are general-purpose interfaces to foundation models (language\u002Fmultilingual, vision, speech, and multimodal)\n- June, 2022: [**VL-BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvl-beit) - bidirectional multimodal Transformer learned from scratch with one unified pretraining task, one shared backbone, and one-stage training, supporting both vision and vision-language tasks.\n- [Model Release] June, 2022: [**LayoutLMv3 Chinese**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3#form-understanding-on-xfund) - Chinese version of LayoutLMv3\n- [Code Release] May, 2022: [**Aggressive Decoding**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdecoding) - Lossless Speedup for Seq2seq Generation\n- April, 2022: **Transformers at Scale** = [DeepNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.00555) + [X-MoE](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.09179)\n- [Model Release] April, 2022: [**LayoutLMv3**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3) - Pre-training for Document AI with Unified Text and Image Masking\n- [Model Release] March, 2022: [**EdgeFormer**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fedgelm) - Parameter-efficient Transformer for On-device Seq2seq Generation\n- [Model Release] March, 2022: [**DiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdit) - Self-supervised Document Image Transformer. Demos: [Document Layout Analysis](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fnielsr\u002Fdit-document-layout-analysis), [Document Image Classification](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmicrosoft\u002Fdocument-image-transformer)\n- January, 2022: [**BEiT**](https:\u002F\u002Fopenreview.net\u002Fforum?id=p-BhZSz59o4) was accepted by **ICLR 2022 as Oral presentation** (54 out of 3391).\n- [Model Release] December 16th, 2021: [**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) **small** models for handwritten and printed texts, with 3x inference speedup.\n- November 24th, 2021: [**VLMo**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvlmo) as the new SOTA on the [VQA Challenge](https:\u002F\u002Feval.ai\u002Fweb\u002Fchallenges\u002Fchallenge-page\u002F830\u002Fleaderboard\u002F2278)\n- November, 2021: [Multilingual translation at scale: 10000 language pairs and beyond](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Ftranslator\u002Fblog\u002F2021\u002F11\u002F22\u002Fmultilingual-translation-at-scale-10000-language-pairs-and-beyond\u002F)\n- [Model Release] November, 2021: [**MarkupLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmarkuplm) - Pre-training for text and markup language (e.g. HTML\u002FXML)\n- [Model Release] November, 2021: [**VLMo**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvlmo) - Unified vision-language pre-training w\u002F [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit)\n- October, 2021: [**WavLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm) Large achieves state-of-the-art performance on the [SUPERB](https:\u002F\u002Fsuperbbenchmark.org\u002Fleaderboard) benchmark\n- [Model Release] October, 2021: [**WavLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm) - Large-scale self-supervised pre-trained models for speech. \n- [Model Release] October 2021: [**TrOCR**](https:\u002F\u002Fhuggingface.co\u002Ftransformers\u002Fmaster\u002Fmodel_doc\u002Ftrocr.html) is on [HuggingFace](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- September 28th, 2021: T-ULRv5 (aka \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.16138\" target=\"_blank\">XLM-E\u003C\u002Fa>\u002F\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.07834\" target=\"_blank\">InfoXLM\u003C\u002Fa>) as the SOTA on the \u003Ca href=\"https:\u002F\u002Fsites.research.google\u002Fxtreme\" target=\"_blank\">XTREME\u003C\u002Fa> leaderboard. \u002F\u002F \u003Ca href=\"https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fblog\u002Fmicrosoft-turing-universal-language-representation-model-t-ulrv5-tops-xtreme-leaderboard-and-trains-100x-faster\u002F\" target=\"_blank\">Blog\u003C\u002Fa>\n- [Model Release] September, 2021: [**LayoutLM-cased**](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002Flayoutlm-base-cased) are on [HuggingFace](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [Model Release] September, 2021: [**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) - Transformer-based OCR w\u002F pre-trained [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) and RoBERTa models.\n- August 2021: [**LayoutLMv2**](https:\u002F\u002Fhuggingface.co\u002Ftransformers\u002Fmaster\u002Fmodel_doc\u002Flayoutlmv2.html) and [**LayoutXLM**](https:\u002F\u002Fhuggingface.co\u002Ftransformers\u002Fmaster\u002Fmodel_doc\u002Flayoutxlm.html) are on [HuggingFace](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [Model Release] August, 2021: [**LayoutReader**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutreader) - Built with LayoutLM to improve general reading order detection.\n- [Model Release] August, 2021: [**DeltaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeltalm) - Encoder-decoder pre-training for language generation and translation.\n- August 2021: [**BEiT**](https:\u002F\u002Fhuggingface.co\u002Ftransformers\u002Fmaster\u002Fmodel_doc\u002Fbeit.html) is on [HuggingFace](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)\n- [Model Release] July, 2021: [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) - Towards BERT moment for CV\n- [Model Release] June, 2021: [**LayoutLMv2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2), [**LayoutXLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm), [**MiniLMv2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm), and [**AdaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fadalm).\n- May, 2021: [LayoutLMv2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2), InfoXLMv2, MiniLMv2, UniLMv3, and AdaLM were accepted by ACL 2021.\n- April, 2021: [LayoutXLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm) is coming by extending the LayoutLM into multilingual support! A multilingual form understanding benchmark [XFUND](https:\u002F\u002Fgithub.com\u002Fdoc-analysis\u002FXFUND) is also introduced, which includes forms with human labeled key-value pairs in 7 languages (Chinese, Japanese, Spanish, French, Italian, German, Portuguese).\n- March, 2021: [InfoXLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Finfoxlm) was accepted by NAACL 2021.\n- December 29th, 2020: [LayoutLMv2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.14740) is coming with the new SOTA on a wide variety of document AI tasks, including [DocVQA](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=17&com=evaluation&task=1) and [SROIE](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=13&com=evaluation&task=3) leaderboard.\n- October 8th, 2020: T-ULRv2 (aka [InfoXLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.07834)) as the SOTA on the [XTREME](https:\u002F\u002Fsites.research.google\u002Fxtreme) leaderboard. \u002F\u002F [Blog](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fblog\u002Fmicrosoft-turing-universal-language-representation-model-t-ulrv2-tops-xtreme-leaderboard\u002F)\n- September, 2020: [MiniLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) was accepted by NeurIPS 2020.\n- July 16, 2020: [**InfoXLM** (Multilingual UniLM)](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Finfoxlm) [arXiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.07834.pdf)\n- June, 2020: [UniLMv2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm) was accepted by ICML 2020; [LayoutLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlm) was accepted by KDD 2020.\n- April 5, 2020: [**Multilingual MiniLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) released!\n- September, 2019: [UniLMv1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm-v1) was accepted by NeurIPS 2019.\n\n\u003C!--\n## Release\n\n**\\*\\*\\*\\*\\* ```New October, 2022```: [XDoc](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxdoc) release \\*\\*\\*\\*\\***\n\n- [x] [**XDoc**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxdoc) (October 7, 2022): XDoc, a unified pre-trained model which deals with different document formats in a single model. For parameter efficiency, we share backbone parameters for different formats such as the word embedding layer and the Transformer layers. Meanwhile, we introduce adaptive layers with lightweight parameters to enhance the distinction across different formats. Experimental results have demonstrated that with only 36.7% parameters, XDoc achieves comparable or even better performance on a variety of downstream tasks compared with the individual pre-trained models, which is cost effective for real-world deployment. \"[XDoc: Unified Pre-training for Cross-Format Document Understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02849) ```EMNLP 2022```\"\n\n**\\*\\*\\*\\*\\* ```New May, 2022```: [Aggressive Decoding](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdecoding) release \\*\\*\\*\\*\\***\n\n- [x] [**Aggressive Decoding**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdecoding) (May 20, 2022): Aggressive Decoding, a novel decoding paradigm for lossless speedup for seq2seq generation. Unlike the previous efforts (e.g., non-autoregressive decoding) speeding up seq2seq generation at the cost of quality loss, Aggressive Decoding aims to yield the identical (or better) generation compared with autoregressive decoding but in a significant speedup: For the seq2seq tasks characterized by highly similar inputs and outputs (e.g., Grammatical Error Correction and Text Simplification), the Input-guided Aggressive Decoding can introduce a 7x-9x speedup for the popular 6-layer Transformer on GPU with the identical results as greedy decoding; For other general seq2seq tasks (e.g., Machine Translation and Abstractive Summarization), the Generalized Aggressive Decoding can have a 3x-5x speedup with the identical or even better quality. \"[Lossless Acceleration for Seq2seq Generation with Aggressive Decoding](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.10350.pdf)\"\n\n**\\*\\*\\*\\*\\* ```New April, 2022```: [LayoutLMv3](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3) release \\*\\*\\*\\*\\***\n\n- [x] [**LayoutLM 3.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3) (April 19, 2022): LayoutLMv3, a multimodal pre-trained Transformer for Document AI with unified text and image masking. Additionally, it is also pre-trained with a word-patch alignment objective to learn cross-modal alignment by predicting whether the corresponding image patch of a text word is masked. The simple unified architecture and training objectives make LayoutLMv3 a general-purpose pre-trained model for both text-centric and image-centric Document AI tasks. Experimental results show that LayoutLMv3 achieves state-of-the-art performance not only in text-centric tasks, including form understanding, receipt understanding, and document visual question answering, but also in image-centric tasks such as document image classification and document layout analysis. \"[LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.08387) ```ACM MM 2022```\"\n\n**\\*\\*\\*\\*\\* ```March, 2022```: [EdgeFormer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fedgelm) release \\*\\*\\*\\*\\***\n\n- [x] [**EdgeFormer**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fedgelm) (March 18, 2022): EdgeFormer, the first publicly available pretrained parameter-efficient Transformer for on-device seq2seq generation. EdgeFormer has only 11 million parameters, taking up less than 15MB disk size after int8 quantization and compression, which can process a sentence of the length of 20-30 tokens with acceptable latency on two middle-to-high end CPU cores and less than 50MB memory footprint. The pretrained EdgeFormer can be fine-tuned to English seq2seq tasks and achieve promising results -- significantly better than the strong paramter-efficient Transformer baseline (pretrained Universal Transformer) and full-parameterized Transformer-base model without pretraining, which we believe can largely facilitate on-device seq2seq generation in practice. \"[EdgeFormer: A Parameter-Efficient Transformer for On-Device Seq2seq Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.07959)\"\n\n\n**\\*\\*\\*\\*\\* ```March, 2022```: [DiT](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdit) release \\*\\*\\*\\*\\***\n\n- [x] [**DiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdit) (March 4, 2022): DiT, a self-supervised pre-trained Document Image Transformer model using large-scale unlabeled text images for Document AI tasks, which is essential since no supervised counterparts ever exist due to the lack of human labeled document images. We leverage DiT as the backbone network in a variety of vision-based Document AI tasks, including document image classification, document layout analysis, table detection as well as text detection for OCR. Experiment results have illustrated that the self-supervised pre-trained DiT model achieves new state-of-the-art results on these downstream tasks, e.g. document image classification (91.11 → 92.69), document layout analysis (91.0 → 94.9), table detection (94.23 → 96.55) and text detection for OCR (93.07 → 94.29). \"[DiT: Self-supervised Pre-training for Document Image Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02378) ```ACM MM 2022```\"\n\n\n**\\*\\*\\*\\*\\* ```October, 2021```: [WavLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm) release \\*\\*\\*\\*\\***\n\n- [x] [**WavLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm) (October 27, 2021):  WavLM, a new pre-trained speech model, to solve full-stack downstream speech tasks. \nWavLM integrates the gated relative position embedding structure and the utterance mixing method, to model both spoken content and speaker identity preservation. WavLM is trained on  94k hours of public audio data, which is larger than other released checkpoints for English Speech modeling. WavLM Large achieves state-of-the-art performance on the SUPERB benchmark, and brings significant improvements for various speech processing tasks on their representative benchmarks. \"[WavLM: Large-Scale Self-Supervised  Pre-training   for Full Stack Speech Processing](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.13900.pdf)\"\n\n**\\*\\*\\*\\*\\* ```October, 2021```: [MarkupLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmarkuplm) release \\*\\*\\*\\*\\***\n\n- [x] [**MarkupLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmarkuplm) (October 19, 2021): MarkupLM, a simple yet effective pre-training approach for text and markup language. With the Transformer architecture, MarkupLM integrates different input embeddings including text embeddings, position embeddings, and XPath embeddings. Furthermore, we also propose new pre-training objectives that are specially designed for understanding the markup language. We evaluate the pre-trained MarkupLM model on the WebSRC and SWDE datasets. Experiments show that MarkupLM significantly outperforms several SOTA baselines in these tasks. \"[MarkupLM: Pre-training of Text and Markup Language for Visually-rich Document Understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.08518) ```ACL 2022```\"\n\n**\\*\\*\\*\\*\\* ```September, 2021```: [TrOCR](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) release \\*\\*\\*\\*\\***\n\n- [x] [**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) (September 22, 2021): Transformer-based OCR with pre-trained models, which leverages the Transformer architecture for both image understanding and bpe-level text generation. The TrOCR model is simple but effective (convolution free), and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. \"[TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.10282) ```AAAI 2023```\"\n\n**\\*\\*\\*\\*\\* ```August, 2021```: [LayoutReader](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutreader) release \\*\\*\\*\\*\\***\n\n- [x] [**LayoutReader**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutreader) (August 26, 2021): pre-training of text and layout for reading order detection. The pre-trained LayoutReader significantly improves both open-source and commercial OCR engines in ordering text lines. Meanwhile, we also created a reading order benchmark dataset [ReadingBank](https:\u002F\u002Fgithub.com\u002Fdoc-analysis\u002FReadingBank) to further empower the research in this area. \"[LayoutReader: Pre-training of Text and Layout for Reading Order Detection](https:\u002F\u002Farxiv.org\u002Fabs\u002F2108.11591) ```EMNLP 2021```\"\n\n**\\*\\*\\*\\*\\* ```August, 2021```: [DeltaLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeltalm) release \\*\\*\\*\\*\\***\n\n- [x] [**DeltaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeltalm) (August, 2021): encoder-decoder pre-training for language generation and translation. DeltaLM **ranks first** on the [WMT21 multilingual translation task](http:\u002F\u002Fwww.statmt.org\u002Fwmt21\u002Flarge-scale-multilingual-translation-task.html). The task requires a model to translate between 102 languages. \"[DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders.](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.13736)\"\n\n**\\*\\*\\*\\*\\* ```July, 2021```: [BEiT](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) release \\*\\*\\*\\*\\***\n\n- [x] [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) (June 15, 2021): BERT Pre-Training of Image Transformers. BEiT-large achieves **[state-of-the-art results on ADE20K](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k) (a big jump to 57.0 mIoU) for semantic segmentation**. BEiT-large achieves **state-of-the-art ImageNet top-1 accuracy (88.6%) under the setting without extra data other than ImageNet-22k**. \"[BEiT: BERT Pre-Training of Image Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.08254)\"\n\n\n\n**\\*\\*\\*\\*\\* ```June, 2021```: [LayoutXLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm) | [AdaLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fadalm) | [MiniLMv2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) release \\*\\*\\*\\*\\***\n\n- [x] [**LayoutXLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm) (April 17, 2021): multimodal pre-training for multilingual visually-rich document understanding. The pre-trained LayoutXLM model has significantly outperformed the existing SOTA cross-lingual pre-trained models on the FUNSD and multilingual [XFUND](https:\u002F\u002Fgithub.com\u002Fdoc-analysis\u002FXFUND) dataset including 7 languages (Chinese, Japanese, Spanish, French, Italian, German, Portuguese). \"[LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.08836)\"\n- [x] [**AdaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fadalm) (June 2021): a simple yet effective approach for domain adaptation of pre-trained models. Biomedical specific pre-trained models are released. \"[Adapt-and-Distill: Developing Small, Fast and Effective Pretrained Language Models for Domains](#) ```ACL 2021```\"\n- [x] [**MiniLMv2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) (December, 2020): a simple yet effective task-agnostic knowledge distillation method, namely multi-head self-attention relation distillation, for compressing large pre-trained Transformers into small and fast pre-trained models. MiniLMv2 significantly outperforms MiniLMv1. Both English and multilingual MiniLM models are released. \"[MiniLMv2: Multi-Head Self-Attention Relation Distillation for Compressing Pretrained Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.15828) ```ACL 2021```\"\n\n**\\*\\*\\*\\*\\* ```May, 2021```: [LayoutLMv2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2) | [LayoutXLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm) release \\*\\*\\*\\*\\***\n\n- [x] [**LayoutLM 2.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2) (December 29, 2020): multimodal pre-training for visually-rich document understanding by leveraging text, layout and image information in a single framework. It is coming with new SOTA on a wide range of document understanding tasks, including FUNSD (0.7895 -> 0.8420), CORD (0.9493 -> 0.9601), SROIE (0.9524 -> 0.9781), Kleister-NDA (0.834 -> 0.852), RVL-CDIP (0.9443 -> 0.9564), and DocVQA (0.7295 -> 0.8672). \"[LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.14740) ```ACL 2021```\"\n\n**\\*\\*\\*\\*\\* ```February, 2020```: [UniLM v2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm) | [MiniLM v1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) | [LayoutLM v1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlm) | [s2s-ft v1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fs2s-ft) release \\*\\*\\*\\*\\***\n\n- [x] [**LayoutLM 1.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlm) (February 18, 2020): pre-trained models for document (image) understanding (e.g. receipts, forms, etc.) . It achieves new SOTA results in several downstream tasks, including form understanding (the FUNSD dataset from 70.72 to 79.27), receipt understanding (the [ICDAR 2019 SROIE leaderboard](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=13&com=evaluation&task=3) from 94.02 to 95.24) and document image classification (the RVL-CDIP dataset from 93.07 to 94.42). \"[LayoutLM: Pre-training of Text and Layout for Document Image Understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.13318) ```KDD 2020```\"\n- [x] [**s2s-ft 1.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fs2s-ft) (February 26, 2020): A PyTorch package used to fine-tune pre-trained Transformers for sequence-to-sequence language generation. \"[s2s-ft: Fine-Tuning Pre-Trained Transformers for Sequence-to-Sequence Learning](#)\"\n- [x] [**MiniLM 1.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) (February 26, 2020): deep self-attention distillation is all you need (for task-agnostic knowledge distillation of pre-trained Transformers). MiniLM (12-layer, 384-hidden) achieves 2.7x speedup and comparable results over BERT-base (12-layer, 768-hidden) on NLU tasks as well as strong results on NLG tasks. The even smaller MiniLM (6-layer, 384-hidden) obtains 5.3x speedup and produces very competitive results. \"[MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.10957) ```NeurIPS 2020```\"\n- [x] [**UniLM 2.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm) (February 28, 2020): **unified pre-training** of bi-directional LM (via autoencoding) and sequence-to-sequence LM (via partially autoregressive) w\u002F **Pseudo-Masked Language Model** for language understanding and generation. UniLM v2 achieves new SOTA in a wide range of natural language understanding and generation tasks. \"[UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.12804) ```ICML 2020```\"\n\n\n\n**\\*\\*\\*\\*\\* October 1st, 2019: UniLM v1 release \\*\\*\\*\\*\\***\n\n- [x] [**UniLM v1**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm-v1) (September 30, 2019): the code and pre-trained models for the ```NeurIPS 2019``` paper entitled \"[Unified Language Model Pre-training for Natural Language Understanding and Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.03197)\". UniLM (v1) achieves the **new SOTA results** in **NLG** (especially **sequence-to-sequence generation**) tasks, including abstractive summarization (the Gigaword and CNN\u002FDM datasets), question generation (the SQuAD QG dataset), etc. \n\n-->\n\n## License\nThis project is licensed under the license found in the LICENSE file in the root directory of this source tree.\nPortions of the source code are based on the [transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers) project.\n\n[Microsoft Open Source Code of Conduct](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct)\n\n### Contact Information\n\nFor help or issues using the pre-trained models, please submit a GitHub issue.\n\nFor other communications, please contact [Furu Wei](https:\u002F\u002Fthegenerality.com) (`fuwei@microsoft.com`).\n","\u003C!--# 跨任务、跨语言、跨模态的大规模自监督预训练-->\n## [aka.ms\u002FGeneralAI](https:\u002F\u002Faka.ms\u002FGeneralAI)\n# 招聘\n我们正在招聘各层级人才（包括全职研究员和实习生）！如果您对与我们一起从事基础模型（即大规模预训练模型）以及通用人工智能、自然语言处理、机器翻译、语音、文档智能和多模态人工智能相关的工作感兴趣，请将您的简历发送至 \u003Ca href=\"mailto:fuwei@microsoft.com\" class=\"x-hidden-focus\">fuwei@microsoft.com\u003C\u002Fa>。\n\n# 基础架构\n### TorchScale - 一套基础架构库 ([repo](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Ftorchscale))\n\n开展基础研究，以开发用于基础模型和人工智能的新架构，重点在于建模通用性和能力，以及训练的稳定性和效率。\n\n> 稳定性 - [**DeepNet**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeepnet)：将Transformer扩展到1,000层及以上\n\n> 通用性 - [**Foundation Transformers (Magneto)**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.06423)：朝着真正跨任务和跨模态的通用建模迈进（包括语言、视觉、语音和多模态）\n\n> 功能性 - 一种[**可外推长度的**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2212.10554) Transformer\n\n> 效率与可迁移性 - [**X-MoE**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxmoe)：可扩展且可微调的稀疏专家混合（MoE）\n\n### 模型架构的革命\n\n> [**BitNet**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2310.11453)：用于大型语言模型的1位Transformer\n\n> [**RetNet**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.08621)：保留网络：大型语言模型中Transformer的继任者\n\n> [**LongNet**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2307.02486)：将Transformer扩展至10亿个标记\n\n# 基础模型\n\n### 多模态LLM的发展历程\n\n> [**Kosmos-2.5**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fkosmos-2.5)：**一个多模态通识模型**\n\n> [**Kosmos-2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fkosmos-2)：**将多模态大型语言模型与世界连接起来**\n\n> [**Kosmos-1**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14045)：**一个多模态大型语言模型（MLLM）**\n\n> [**MetaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmetalm)：**语言模型是通用接口**\n\n**大融合** - 跨```任务```（预测性和生成性）、```语言```（100多种语言）和```模态```（语言、图像、音频、版面\u002F格式+语言、视觉+语言、音频+语言等）的大规模自监督预训练。\n\n\u003C!--## 跨任务、跨语言、跨模态的大规模自监督预训练-->\n\n### 语言与多语言\n> [**UniLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm)：统一的语言理解和生成预训练\n\n> [**InfoXLM\u002FXLM-E**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Finfoxlm)：面向100多种语言的多语言\u002F跨语言预训练模型\n\n> [**DeltaLM\u002FmT6**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeltalm)：面向100多种语言的语言生成和翻译的编码器-解码器预训练\n\n> [**MiniLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm)：小型快速的语言理解和生成预训练模型\n\n> [**AdaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fadalm)：预训练模型的领域、语言和任务适应\n\n> [**EdgeLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fedgelm)(```NEW```): 边缘\u002F客户端设备上的小型预训练模型\n\n> [**SimLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fsimlm) (```NEW```): 大规模的相似度匹配预训练\n\n> [**E5**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fe5) (```NEW```): 文本嵌入\n\n> [**MiniLLM**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.08543) (```NEW```): 大型语言模型的知识蒸馏\n\n### 视觉\n> [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit)\u002F[**BEiT-2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit2)：面向视觉的生成式自监督预训练 \u002F 图像Transformer的BERT预训练\n\n> [**DiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdit)：面向文档图像Transformer的自监督预训练\n\n> [**TextDiffuser**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftextdiffuser)\u002F[**TextDiffuser-2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftextdiffuser-2) (```NEW```): 扩散模型作为文本画家\n\n### 语音\n> [**WavLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm)：面向全栈任务的语音预训练\n\n> [**VALL-E**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvalle)：用于TTS的神经编解码语言模型\n\n### 多模态（X + 语言）\n> [**LayoutLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlm)\u002F[**LayoutLMv2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2)\u002F[**LayoutLMv3**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3)：多模态（文本+版面\u002F格式+图像）的**文档基础模型**，用于[文档智能](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fproject\u002Fdocument-ai\u002F)（例如扫描文档、PDF等）。\n\n> [**LayoutXLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm)：多模态（文本+版面\u002F格式+图像）的**文档基础模型**，适用于多语言文档智能。\n\n> [**MarkupLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmarkuplm)：面向视觉丰富文档理解的标记语言模型预训练\n\n> [**XDoc**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxdoc)：统一的跨格式文档理解预训练\n\n> [**UniSpeech**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2101.07597)：面向ASR的自监督学习和有监督学习的统一预训练\n\n> [**UniSpeech-SAT**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.05752.pdf)：具有说话人感知的通用语音表示学习预训练\n\n> [**SpeechT5**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2110.07205)：面向口语语言处理的编码器-解码器预训练\n\n> [**SpeechLM**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2209.15329)：利用未配对文本数据增强的语音预训练\n\n> [**VLMo**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvlmo)：统一的视觉-语言预训练\n\n> [**VL-BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvl-beit) (```NEW```): 生成式视觉-语言预训练——**BEiT**向多模态的演进\n\n> [**BEiT-3**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit3) (```NEW```): 一款通用的多模态基础模型，也是跨越任务、语言和模态的大规模预训练**大融合**进程中的一个重要里程碑。\n### 工具包\n> [**s2s-ft**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fs2s-ft)：序列到序列微调工具包\n\n> [**激进解码**](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.10350.pdf) (```NEW```): 无损且高效的序列到序列解码算法\n\n### 应用\n> [**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr)：基于 Transformer 的 OCR，附带预训练模型\n \n> [**LayoutReader**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutreader)：用于阅读顺序检测的文本与版面布局预训练\n\n> [**XLM-T**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxlmt)：多语言 NMT，配备预训练的跨语言编码器\n\n## 链接\n### LLMOps ([仓库](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Flmops))\n用于借助大语言模型和多模态大语言模型实现 AI 能力的通用技术。\n\n### RedStone ([仓库](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fredstone))\n为大型语言模型整理通用、代码、数学及问答数据。\n\n## 新闻\n- 2024年12月：[**RedStone**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Fredstone) 发布！\n- 2023年12月：[**LongNet**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flongnet) 和 [**LongViT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flongvit) 发布\n- [模型发布] 2023年12月：[**TextDiffuser-2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftextdiffuser-2) 模型、代码及 [demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FJingyeChen22\u002FTextDiffuser-2)。\n- 2023年9月：[**Kosmos-2.5**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2309.11419) - 一种多模态文本理解模型，用于对密集文本图像的机器阅读。\n- [模型发布] 2023年5月：[**TextDiffuser**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftextdiffuser) 模型和代码。\n- [模型发布] 2023年3月：[**BEiT-3**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit3) 预训练模型和代码。\n- 2023年3月：[**Kosmos-1**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2302.14045) - 一种多模态大型语言模型 (MLLM)，能够感知多种模态，在上下文中学习（即少样本学习），并遵循指令（即零样本学习）。\n- 2023年1月：[**VALL-E**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2301.02111) 是一种基于语言模型的文本到语音合成 (TTS) 方法，实现了最先进的零样本 TTS 性能。请访问 https:\u002F\u002Faka.ms\u002Fvalle 查看我们的演示。\n- [模型发布] 2023年1月：[**E5**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fe5) - 基于弱监督对比预训练的文本嵌入。\n- 2022年11月：[**TorchScale 0.1.1**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Ftorchscale) 发布！\n- 2022年11月：[**TrOCR**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.10282) 被 AAAI 2023 接受。\n- [模型发布] 2022年11月：[**XDoc**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxdoc) **BASE** 模型，用于跨格式文档理解。\n- [模型发布] 2022年9月：[**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) **BASE** 和 **LARGE** 模型，用于场景文本识别 (STR)。\n- [模型发布] 2022年9月：[**BEiT v2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit2) 代码和预训练模型。\n- 2022年8月：[**BEiT-3**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2208.10442) - 一种通用多模态基础模型，可在视觉和视觉-语言任务上均达到最先进的迁移性能。\n- 2022年7月：[**SimLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fsimlm) - 大规模自监督预训练，用于相似度匹配。\n- 2022年6月：[**DiT**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02378) 和 [**LayoutLMv3**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.08387) 被 ACM Multimedia 2022 接受。\n- 2022年6月：[**MetaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmetalm) - 语言模型是基础模型的通用接口（语言\u002F多语言、视觉、语音和多模态）。\n- 2022年6月：[**VL-BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvl-beit) - 双向多模态 Transformer，从头开始训练，采用统一的预训练任务、共享骨干网络和单阶段训练，同时支持视觉和视觉-语言任务。\n- [模型发布] 2022年6月：[**LayoutLMv3 中文版**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3#form-understanding-on-xfund) - LayoutLMv3 的中文版本。\n- [代码发布] 2022年5月：[**Aggressive Decoding**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdecoding) - 序列到序列生成的无损加速。\n- 2022年4月：**大规模 Transformer** = [DeepNet](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.00555) + [X-MoE](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.09179)。\n- [模型发布] 2022年4月：[**LayoutLMv3**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3) - 使用统一的文本和图像掩码进行文档 AI 的预训练。\n- [模型发布] 2022年3月：[**EdgeFormer**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fedgelm) - 参数高效的设备端序列到序列生成 Transformer。\n- [模型发布] 2022年3月：[**DiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdit) - 自监督文档图像 Transformer。演示：[文档布局分析](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fnielsr\u002Fdit-document-layout-analysis)、[文档图像分类](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002Fmicrosoft\u002Fdocument-image-transformer)。\n- 2022年1月：[**BEiT**](https:\u002F\u002Fopenreview.net\u002Fforum?id=p-BhZSz59o4) 被 **ICLR 2022** 以口头报告形式接受（在3391篇论文中仅54篇）。\n- [模型发布] 2021年12月16日：[**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) **small** 模型，适用于手写和印刷文本，推理速度提升3倍。\n- 2021年11月24日：[**VLMo**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvlmo) 在 [VQA Challenge](https:\u002F\u002Feval.ai\u002Fweb\u002Fchallenges\u002Fchallenge-page\u002F830\u002Fleaderboard\u002F2278) 上成为新的 SOTA。\n- 2021年11月：[大规模多语言翻译：10000种语言对及以上](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Ftranslator\u002Fblog\u002F2021\u002F11\u002F22\u002Fmultilingual-translation-at-scale-10000-language-pairs-and-beyond\u002F)。\n- [模型发布] 2021年11月：[**MarkupLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmarkuplm) - 文本和标记语言（如 HTML\u002FXML）的预训练。\n- [模型发布] 2021年11月：[**VLMo**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fvlmo) - 结合 [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) 的统一视觉-语言预训练。\n- 2021年10月：[**WavLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm) Large 在 [SUPERB](https:\u002F\u002Fsuperbbenchmark.org\u002Fleaderboard) 基准测试中达到最先进的性能。\n- [模型发布] 2021年10月：[**WavLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm) - 大规模自监督预训练的语音模型。\n- [模型发布] 2021年10月：[**TrOCR**](https:\u002F\u002Fhuggingface.co\u002Ftransformers\u002Fmaster\u002Fmodel_doc\u002Ftrocr.html) 已上线 [HuggingFace](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)。\n- 2021年9月28日：T-ULRv5（又名 \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2106.16138\" target=\"_blank\">XLM-E\u003C\u002Fa>\u002F\u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.07834\" target=\"_blank\">InfoXLM\u003C\u002Fa>) 在 \u003Ca href=\"https:\u002F\u002Fsites.research.google\u002Fxtreme\" target=\"_blank\">XTREME\u003C\u002Fa> 排行榜上成为 SOTA。\u002F\u002F \u003Ca href=\"https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fblog\u002Fmicrosoft-turing-universal-language-representation-model-t-ulrv5-tops-xtreme-leaderboard-and-trains-100x-faster\u002F\" target=\"_blank\">博客\u003C\u002Fa>\n- [模型发布] 2021年9月：[**LayoutLM-cased**](https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002Flayoutlm-base-cased) 已上线 [HuggingFace](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)。\n- [模型发布] 2021年9月：[**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) - 基于 Transformer 的 OCR，使用预训练的 [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) 和 RoBERTa 模型。\n- 2021年8月：[**LayoutLMv2**](https:\u002F\u002Fhuggingface.co\u002Ftransformers\u002Fmaster\u002Fmodel_doc\u002Flayoutlmv2.html) 和 [**LayoutXLM**](https:\u002F\u002Fhuggingface.co\u002Ftransformers\u002Fmaster\u002Fmodel_doc\u002Flayoutxlm.html) 已上线 [HuggingFace](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)。\n- [模型发布] 2021年8月：[**LayoutReader**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutreader) - 基于 LayoutLM 构建，用于改进通用阅读顺序检测。\n- [模型发布] 2021年8月：[**DeltaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeltalm) - 用于语言生成和翻译的编码器-解码器预训练。\n- 2021年8月：[**BEiT**](https:\u002F\u002Fhuggingface.co\u002Ftransformers\u002Fmaster\u002Fmodel_doc\u002Fbeit.html) 已上线 [HuggingFace](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)。\n- [模型发布] 2021年7月：[**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) - 向 CV 领域的 BERT 时刻迈进。\n- [模型发布] 2021年6月：[**LayoutLMv2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2)、[**LayoutXLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm)、[**MiniLMv2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) 和 [**AdaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fadalm)。\n- 2021年5月：[LayoutLMv2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2)、InfoXLMv2、MiniLMv2、UniLMv3 和 AdaLM 被 ACL 2021 接受。\n- 2021年4月：[LayoutXLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm) 即将推出，它将 LayoutLM 扩展至多语言支持！同时引入了一个多语言表单理解基准 [XFUND](https:\u002F\u002Fgithub.com\u002Fdoc-analysis\u002FXFUND)，其中包括用7种语言（中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语）标注了关键-值对的表单。\n- 2021年3月：[InfoXLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Finfoxlm) 被 NAACL 2021 接受。\n- 2020年12月29日：[LayoutLMv2](https:\u002F\u002Farxiv.org\u002Fabs\u002F2012.14740) 即将问世，它将在包括 [DocVQA](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=17&com=evaluation&task=1) 和 [SROIE](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=13&com=evaluation&task=3) 在内的各种文档 AI 任务上达到新的 SOTA。\n- 2020年10月8日：T-ULRv2（又称 [InfoXLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2007.07834)）在 [XTREME](https:\u002F\u002Fsites.research.google\u002Fxtreme) 排行榜上成为 SOTA。\u002F\u002F [博客](https:\u002F\u002Fwww.microsoft.com\u002Fen-us\u002Fresearch\u002Fblog\u002Fmicrosoft-turing-universal-language-representation-model-t-ulrv2-tops-xtreme-leaderboard\u002F)\n- 2020年9月：[MiniLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) 被 NeurIPS 2020 接受。\n- 2020年7月16日：[**InfoXLM（多语言 UniLM）**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Finfoxlm) [arXiv](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2007.07834.pdf)。\n- 2020年6月：[UniLMv2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm) 被 ICML 2020 接受；[LayoutLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlm) 被 KDD 2020 接受。\n- 2020年4月5日：[**多语言 MiniLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) 发布！\n- 2019年9月：[UniLMv1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm-v1) 被 NeurIPS 2019 接受。\n\n\u003C!--\n\n\n## 发布\n\n**\\*\\*\\*\\*\\* ```新：2022年10月```：[XDoc](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxdoc)发布 \\*\\*\\*\\*\\***\n\n- [x] [**XDoc**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fxdoc)（2022年10月7日）：XDoc是一种统一的预训练模型，能够在单个模型中处理不同文档格式。为了参数效率，我们为不同格式共享骨干网络参数，例如词嵌入层和Transformer层。同时，我们引入了具有轻量级参数的自适应层，以增强不同格式之间的区分能力。实验结果表明，仅使用36.7%的参数，XDoc在多种下游任务上就能达到与单独预训练模型相当甚至更好的性能，这对于实际部署来说非常经济高效。“[XDoc：跨格式文档理解的统一预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2210.02849)” ```EMNLP 2022```\n\n**\\*\\*\\*\\*\\* ```新：2022年5月```：[Aggressive Decoding](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdecoding)发布 \\*\\*\\*\\*\\***\n\n- [x] [**Aggressive Decoding**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdecoding)（2022年5月20日）：Aggressive Decoding是一种新颖的解码范式，可在不损失质量的情况下实现序列到序列生成的无损加速。与以往通过牺牲质量来加速序列到序列生成的工作（如非自回归解码）不同，Aggressive Decoding旨在以显著加快的速度产生与自回归解码相同（或更好）的输出：对于输入和输出高度相似的序列到序列任务（如语法错误修正和文本简化），基于输入引导的Aggressive Decoding可以在GPU上对流行的6层Transformer实现7至9倍的加速，且结果与贪婪解码完全一致；对于其他通用序列到序列任务（如机器翻译和摘要生成），广义的Aggressive Decoding则可在保持相同甚至更好质量的前提下实现3至5倍的加速。“[利用Aggressive Decoding实现序列到序列生成的无损加速](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2205.10350.pdf)”\n\n**\\*\\*\\*\\*\\* ```新：2022年4月```：[LayoutLMv3](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3)发布 \\*\\*\\*\\*\\***\n\n- [x] [**LayoutLM 3.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv3)（2022年4月19日）：LayoutLMv3是一种用于文档AI的多模态预训练Transformer，采用统一的文本和图像掩码策略。此外，它还通过预测某个文本单词对应的图像块是否被掩码，以学习跨模态对齐，从而进行预训练。这种简洁的统一架构和训练目标使LayoutLMv3成为一种适用于以文本为中心和以图像为中心的文档AI任务的通用预训练模型。实验结果表明，LayoutLMv3不仅在以文本为中心的任务中取得了最先进的性能，包括表单理解、收据理解以及文档视觉问答等，而且在以图像为中心的任务中，如文档图像分类和文档布局分析，也同样表现出色。“[LayoutLMv3：采用统一文本和图像掩码的文档AI预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2204.08387)” ```ACM MM 2022```\n\n**\\*\\*\\*\\*\\* ```2022年3月```：[EdgeFormer](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fedgelm)发布 \\*\\*\\*\\*\\***\n\n- [x] [**EdgeFormer**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fedgelm)（2022年3月18日）：EdgeFormer是首个公开可用的、参数高效的设备端序列到序列生成预训练Transformer。EdgeFormer仅有1100万参数，经过int8量化和压缩后，磁盘占用小于15MB，在两颗中高端CPU核心上即可以可接受的延迟处理长度为20至30个标记的句子，且内存占用低于50MB。该预训练模型可以针对英语序列到序列任务进行微调，并取得令人鼓舞的结果——显著优于强大的参数高效Transformer基线（预训练的Universal Transformer）以及未进行预训练的全参数Transformer基础模型，我们认为这将大大促进实际应用中的设备端序列到序列生成。“[EdgeFormer：面向设备端序列到序列生成的参数高效Transformer](https:\u002F\u002Farxiv.org\u002Fabs\u002F2202.07959)”\n\n**\\*\\*\\*\\*\\* ```2022年3月```：[DiT](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdit)发布 \\*\\*\\*\\*\\***\n\n- [x] [**DiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdit)（2022年3月4日）：DiT是一种自监督预训练的文档图像Transformer模型，使用大规模未标注的文本图像数据进行训练，专为文档AI任务而设计。由于缺乏人工标注的文档图像数据，此类任务一直缺乏有监督的对标模型，因此DiT显得尤为重要。我们将DiT作为骨干网络应用于多种基于视觉的文档AI任务，包括文档图像分类、文档布局分析、表格检测以及OCR用的文本检测等。实验结果表明，这款自监督预训练的DiT模型在这些下游任务中均取得了新的最先进水平，例如文档图像分类（从91.11%提升至92.69%）、文档布局分析（从91.0%提升至94.9%）、表格检测（从94.23%提升至96.55%）以及OCR用文本检测（从93.07%提升至94.29%）。“[DiT：面向文档图像Transformer的自监督预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F2203.02378)” ```ACM MM 2022```\n\n**\\*\\*\\*\\*\\* ```2021年10月```：[WavLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm)发布 \\*\\*\\*\\*\\***\n\n- [x] [**WavLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fwavlm)（2021年10月27日）：WavLM是一种新型的预训练语音模型，旨在解决全栈式的下游语音任务。\nWavLM结合了门控相对位置嵌入结构和话语混合方法，能够同时建模语音内容和说话人身份的保留。WavLM基于9.4万小时的公开音频数据进行训练，这一规模超过了目前发布的其他英语语音建模检查点。WavLM Large在SUPERB基准测试中达到了最先进的水平，并在其代表性基准上显著提升了各类语音处理任务的性能。“[WavLM：面向全栈语音处理的大规模自监督预训练](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2110.13900.pdf)”\n\n**\\*\\*\\*\\*\\* ```2021年10月```：[MarkupLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmarkuplm)发布 \\*\\*\\*\\*\\***\n\n- [x] [**MarkupLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fmarkuplm) (2021年10月19日): MarkupLM 是一种简单而有效的文本与标记语言预训练方法。该模型基于 Transformer 架构，整合了文本嵌入、位置嵌入和 XPath 嵌入等多种输入表示。此外，我们还提出了专为理解标记语言设计的新预训练目标。我们在 WebSRC 和 SWDE 数据集上评估了预训练的 MarkupLM 模型，实验结果表明，在这些任务中，MarkupLM 显著优于多个 SOTA 基线模型。“MarkupLM：面向视觉丰富文档理解的文本与标记语言预训练”[arXiv:2110.08518] ```ACL 2022```\n\n**\\*\\*\\*\\*\\* ```2021年9月```：[TrOCR](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) 发布 \\*\\*\\*\\*\\***\n\n- [x] [**TrOCR**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Ftrocr) (2021年9月22日): 基于 Transformer 的预训练 OCR 模型，同时利用 Transformer 架构进行图像理解和 bpe 级别的文本生成。TrOCR 模型结构简洁但效果显著（无卷积层），可通过大规模合成数据进行预训练，并结合人工标注数据集进行微调。“TrOCR：基于 Transformer 的预训练光学字符识别”[arXiv:2109.10282] ```AAAI 2023```\n\n**\\*\\*\\*\\*\\* ```2021年8月```：[LayoutReader](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutreader) 发布 \\*\\*\\*\\*\\***\n\n- [x] [**LayoutReader**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutreader) (2021年8月26日): 针对阅读顺序检测的文本与版面布局预训练模型。该预训练模型显著提升了开源及商业 OCR 引擎在文本行排序方面的性能。同时，我们还创建了一个阅读顺序基准数据集 [ReadingBank](https:\u002F\u002Fgithub.com\u002Fdoc-analysis\u002FReadingBank)，以进一步推动该领域的研究。“LayoutReader：用于阅读顺序检测的文本与版面布局预训练”[arXiv:2108.11591] ```EMNLP 2021```\n\n**\\*\\*\\*\\*\\* ```2021年8月```：[DeltaLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeltalm) 发布 \\*\\*\\*\\*\\***\n\n- [x] [**DeltaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fdeltalm) (2021年8月): 用于语言生成和翻译的编码器-解码器预训练模型。DeltaLM 在 [WMT21 多语言翻译任务](http:\u002F\u002Fwww.statmt.org\u002Fwmt21\u002Flarge-scale-multilingual-translation-task.html) 中 **排名第一**，该任务要求模型能够在 102 种语言之间进行互译。“DeltaLM：通过增强多语言预训练编码器实现语言生成与翻译的编码器-解码器预训练”[arXiv:2106.13736]\n\n**\\*\\*\\*\\*\\* ```2021年7月```：[BEiT](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) 发布 \\*\\*\\*\\*\\***\n\n- [x] [**BEiT**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fbeit) (2021年6月15日): 图像 Transformer 的 BERT 预训练。BEiT-large 在语义分割任务上取得了 **[ADE20K 数据集上的最先进结果](https:\u002F\u002Fpaperswithcode.com\u002Fsota\u002Fsemantic-segmentation-on-ade20k)（mIoU 提升至 57.0）**。此外，在仅使用 ImageNet-22k 数据的情况下，BEiT-large 还达到了 **ImageNet 数据集上最先进的 Top-1 准确率（88.6%）**。“BEiT：图像 Transformer 的 BERT 预训练”[arXiv:2106.08254]\n\n\n\n**\\*\\*\\*\\*\\* ```2021年6月```：[LayoutXLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm) | [AdaLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fadalm) | [MiniLMv2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) 发布 \\*\\*\\*\\*\\***\n\n- [x] [**LayoutXLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm) (2021年4月17日): 用于多语言视觉丰富文档理解的多模态预训练模型。该预训练模型在 FUNSD 数据集以及包含中文、日语、西班牙语、法语、意大利语、德语和葡萄牙语在内的多语言 [XFUND](https:\u002F\u002Fgithub.com\u002Fdoc-analysis\u002FXFUND) 数据集上，均显著超越了现有的跨语言 SOTA 预训练模型。“LayoutXLM：面向多语言视觉丰富文档理解的多模态预训练”[arXiv:2104.08836]\n- [x] [**AdaLM**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fadalm) (2021年6月): 一种简单而有效的预训练模型领域适应方法。发布了针对生物医学领域的特定预训练模型。“Adapt-and-Distill：为特定领域开发小型、快速且高效的预训练语言模型”[#] ```ACL 2021```\n- [x] [**MiniLMv2**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) (2020年12月): 一种简单而有效、与具体任务无关的知识蒸馏方法——即多头自注意力关系蒸馏，用于将大型预训练 Transformer 压缩为小型、快速的预训练模型。MiniLMv2 显著优于 MiniLMv1。同时发布了英文和多语言版本的 MiniLM 模型。“MiniLMv2：用于压缩预训练 Transformer 的多头自注意力关系蒸馏”[arXiv:2012.15828] ```ACL 2021```\n\n**\\*\\*\\*\\*\\* ```2021年5月```：[LayoutLMv2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2) | [LayoutXLM](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutxlm) 发布 \\*\\*\\*\\*\\***\n\n- [x] [**LayoutLM 2.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlmv2) (2020年12月29日): 基于单一框架，融合文本、版面布局和图像信息的多模态预训练模型，用于视觉丰富文档的理解。该模型在一系列文档理解任务上取得了新的 SOTA 成绩，包括 FUNSD（从 0.7895 提升至 0.8420）、CORD（从 0.9493 提升至 0.9601）、SROIE（从 0.9524 提升至 0.9781）、Kleister-NDA（从 0.834 提升至 0.852）、RVL-CDIP（从 0.9443 提升至 0.9564）以及 DocVQA（从 0.7295 提升至 0.8672）。“LayoutLMv2：面向视觉丰富文档理解的多模态预训练”[arXiv:2012.14740] ```ACL 2021```\n\n**\\*\\*\\*\\*\\* ```2020年2月```：[UniLM v2](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm) | [MiniLM v1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm) | [LayoutLM v1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlm) | [s2s-ft v1](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fs2s-ft) 发布 \\*\\*\\*\\*\\***\n\n- [x] [**LayoutLM 1.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Flayoutlm)（2020年2月18日）：用于文档（图像）理解的预训练模型（例如收据、表格等）。它在多个下游任务中取得了新的SOTA结果，包括表单理解（FUNSD数据集从70.72提升至79.27）、收据理解（[ICDAR 2019 SROIE排行榜](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=13&com=evaluation&task=3)从94.02提升至95.24）以及文档图像分类（RVL-CDIP数据集从93.07提升至94.42）。“[LayoutLM：面向文档图像理解的文本与版面预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F1912.13318)” ```KDD 2020```\n- [x] [**s2s-ft 1.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fs2s-ft)（2020年2月26日）：一个用于微调预训练Transformer以进行序列到序列语言生成的PyTorch工具包。“[s2s-ft：为序列到序列学习微调预训练Transformer](#)”\n- [x] [**MiniLM 1.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Fminilm)（2020年2月26日）：深度自注意力蒸馏就是全部所需（用于预训练Transformer的任务无关知识蒸馏）。MiniLM（12层，384隐藏单元）在NLU任务上相比BERT-base（12层，768隐藏单元）实现了2.7倍的速度提升，且效果相当；在NLG任务上也表现强劲。更小的MiniLM（6层，384隐藏单元）则获得了5.3倍的速度提升，并能产生非常有竞争力的结果。“[MiniLM：面向任务无关压缩的预训练Transformer的深度自注意力蒸馏](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.10957)” ```NeurIPS 2020```\n- [x] [**UniLM 2.0**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm)（2020年2月28日）：通过**伪掩码语言模型**实现双向LM（基于自编码）和序列到序列LM（部分自回归）的**统一预训练**，用于语言理解和生成。UniLM v2在广泛的自然语言理解和生成任务中取得了新的SOTA。 “[UniLMv2：用于统一语言模型预训练的伪掩码语言模型](https:\u002F\u002Farxiv.org\u002Fabs\u002F2002.12804)” ```ICML 2020```\n\n\n\n**\\*\\*\\*\\*\\* 2019年10月1日：UniLM v1发布 \\*\\*\\*\\*\\***\n\n- [x] [**UniLM v1**](https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Ftree\u002Fmaster\u002Funilm-v1)（2019年9月30日）：这是发表于```NeurIPS 2019```会议上的论文“[面向自然语言理解和生成的统一语言模型预训练](https:\u002F\u002Farxiv.org\u002Fabs\u002F1905.03197)”的代码及预训练模型。UniLM (v1) 在**NLG**（尤其是**序列到序列生成**）任务中取得了**新的SOTA结果**，包括摘要式总结（Gigaword和CNN\u002FDM数据集）、问题生成（SQuAD QG数据集）等。\n\n-->\n\n\n\n## 许可证\n本项目采用根目录下LICENSE文件中所载明的许可证进行授权。部分源代码基于[huggingface\u002Ftransformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)项目。\n\n[微软开源行为准则](https:\u002F\u002Fopensource.microsoft.com\u002Fcodeofconduct)\n\n### 联系方式\n\n如在使用预训练模型时遇到任何问题或需要帮助，请提交GitHub Issue。\n\n其他沟通事宜请联系[Furu Wei](https:\u002F\u002Fthegenerality.com)（`fuwei@microsoft.com`）。","# UniLM 快速上手指南\n\nUniLM 是微软研究院推出的大规模自监督预训练模型库，涵盖语言、视觉、语音及多模态任务。本指南将帮助您快速搭建环境并运行基础示例。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04\u002F20.04) 或 Windows (WSL2 推荐)。\n*   **Python**: 版本 3.8 或更高。\n*   **GPU**: 推荐使用 NVIDIA GPU (显存建议 16GB 以上以运行大型模型)，并安装对应的 CUDA 驱动。\n*   **前置依赖**:\n    *   PyTorch (建议 1.10+)\n    *   Transformers (Hugging Face)\n    *   Git\n\n> **国内加速建议**：\n> 建议使用清华或阿里镜像源加速 Python 包和模型下载：\n> *   Pip 镜像：`https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple`\n> *   Hugging Face 镜像：设置环境变量 `export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com`\n\n## 安装步骤\n\n### 1. 创建虚拟环境（推荐）\n```bash\npython -m venv unilm_env\nsource unilm_env\u002Fbin\u002Factivate  # Windows 用户请使用: unilm_env\\Scripts\\activate\n```\n\n### 2. 安装 PyTorch\n请访问 [PyTorch 官网](https:\u002F\u002Fpytorch.org\u002Fget-started\u002Flocally\u002F) 获取适合您 CUDA 版本的安装命令。例如：\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n### 3. 克隆 UniLM 仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm.git\ncd unilm\n```\n\n### 4. 安装依赖库\n根据您具体想使用的子模块（如 BEiT, LayoutLM, UniLM 等），依赖可能略有不同。通用安装方式如下：\n\n```bash\n# 安装基础依赖\npip install -r requirements.txt\n\n# 如果特定子目录有独立要求，进入对应目录安装\n# 例如安装 BEiT 相关依赖：\ncd beit\npip install timm opencv-python\ncd ..\n```\n\n> **注意**：部分高级架构（如 TorchScale）可能需要单独安装：\n> ```bash\n> pip install torchscale\n> ```\n\n## 基本使用\n\nUniLM 包含多个独立的模型项目。以下以 **BEiT** (视觉基础模型) 和 **UniLM** (语言理解与生成) 为例展示最简单的使用方法。\n\n### 示例 1：使用 BEiT 进行图像特征提取\n\nBEiT 是一个基于 Masked Image Modeling 的视觉预训练模型。\n\n```python\nimport torch\nfrom PIL import Image\nimport requests\nfrom transformers import BeitFeatureExtractor, BeitModel\n\n# 加载预处理器和模型\nmodel_name = \"microsoft\u002Fbeit-base-patch16-224\"\nfeature_extractor = BeitFeatureExtractor.from_pretrained(model_name)\nmodel = BeitModel.from_pretrained(model_name)\n\n# 准备图像\nurl = \"http:\u002F\u002Fimages.cocodataset.org\u002Fval2017\u002F000000039769.jpg\"\nimage = Image.open(requests.get(url, stream=True).raw)\n\n# 预处理并推理\ninputs = feature_extractor(images=image, return_tensors=\"pt\")\nwith torch.no_grad():\n    outputs = model(**inputs)\n    last_hidden_states = outputs.last_hidden_state\n\nprint(f\"输出特征维度: {last_hidden_states.shape}\")\n```\n\n### 示例 2：使用 UniLM 进行文本生成\n\nUniLM 统一了语言理解和生成任务。以下展示使用序列到序列（Seq2Seq）微调工具 `s2s-ft` 的逻辑示例（需先下载具体检查点）。\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForSeq2SeqLM\n\n# 以 DeltaLM 或类似的 UniLM 变体为例\nmodel_name = \"microsoft\u002Fdeltalm-large\" \ntokenizer = AutoTokenizer.from_pretrained(model_name)\nmodel = AutoModelForSeq2SeqLM.from_pretrained(model_name)\n\ninput_text = \"Translate to Chinese: Hello, how are you?\"\ninputs = tokenizer(input_text, return_tensors=\"pt\")\n\n# 生成\noutputs = model.generate(**inputs, max_length=50)\nresult = tokenizer.decode(outputs[0], skip_special_tokens=True)\n\nprint(result)\n```\n\n### 示例 3：使用 LayoutLMv3 处理文档\n\n针对扫描文档或 PDF 的多模态理解。\n\n```python\nfrom transformers import LayoutLMv3Processor, LayoutLMv3ForTokenClassification\nfrom PIL import Image\n\n# 加载模型\nprocessor = LayoutLMv3Processor.from_pretrained(\"microsoft\u002Flayoutlmv3-base\")\nmodel = LayoutLMv3ForTokenClassification.from_pretrained(\"microsoft\u002Flayoutlmv3-base\")\n\n# 准备数据 (需要图像、words、boxes)\n# 此处仅为伪代码示意，实际需配合 OCR 工具获取 words 和 boxes\nimage = Image.open(\"document.png\").convert(\"RGB\")\nwords = [\"Invoice\", \"Date\", \"2023\"]\nboxes = [[10, 10, 50, 30], [60, 10, 100, 30], [110, 10, 150, 30]] \n\nencoding = processor(image, words, boxes=boxes, return_tensors=\"pt\")\n\n# 推理\noutputs = model(**encoding)\n```\n\n> **提示**：对于更复杂的训练任务（如从头预训练或大规模微调），请参考各子目录（如 `unilm\u002F`, `beit\u002F`, `layoutlmv3\u002F`）下的 `README.md` 获取具体的训练脚本和参数配置。","一家跨国电商团队正致力于构建一个能同时处理全球百种语言客服工单、自动识别商品图片并生成多语种描述的智能中台系统。\n\n### 没有 unilm 时\n- **模型堆砌严重**：团队需分别维护翻译、图像识别、文本生成等多套独立模型，导致服务器资源占用极高且推理延迟大。\n- **跨语言效果差**：针对小语种（如泰语、越南语）缺乏高质量预训练数据，单独训练的模型在理解上下文和俚语时错误率频发。\n- **多模态割裂**：图片内容与文字描述无法深度对齐，系统难以理解“红色碎花裙”这类结合视觉特征与文本属性的复杂指令。\n- **开发周期漫长**：每新增一个业务场景（如从客服扩展到营销文案），都需重新收集数据并从头训练专用模型，耗时数周。\n\n### 使用 unilm 后\n- **架构统一精简**：利用 unilm 的跨任务、跨模态预训练能力，一套模型即可覆盖理解、生成及多模态任务，大幅降低算力成本与部署复杂度。\n- **百语种无缝支持**：依托 InfoXLM 等组件在 100+ 语言上的大规模自监督预训练，小语种任务的准确率显著提升，无需额外标注数据。\n- **深层多模态融合**：通过 Kosmos 系列模型实现视觉与语言的底层对齐，系统能精准根据商品图片生成符合当地文化习惯的多语种营销文案。\n- **快速场景迁移**：借助其强大的通用性，新业务仅需少量样本微调即可上线，将原本数周的开发周期缩短至几天。\n\nunilm 通过“一次预训练，处处通用”的范式，彻底打破了任务、语言与模态间的壁垒，让企业能以最低成本构建真正的通用人工智能应用。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fmicrosoft_unilm_cab7430c.png","microsoft","Microsoft","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fmicrosoft_4900709c.png","Open source projects and samples from Microsoft",null,"opensource@microsoft.com","OpenAtMicrosoft","https:\u002F\u002Fopensource.microsoft.com","https:\u002F\u002Fgithub.com\u002Fmicrosoft",[82,86,90,94,98,102,106,110,114,117],{"name":83,"color":84,"percentage":85},"Python","#3572A5",84,{"name":87,"color":88,"percentage":89},"Jupyter Notebook","#DA5B0B",12.5,{"name":91,"color":92,"percentage":93},"Shell","#89e051",2.3,{"name":95,"color":96,"percentage":97},"Cuda","#3A4E3A",0.6,{"name":99,"color":100,"percentage":101},"C++","#f34b7d",0.3,{"name":103,"color":104,"percentage":105},"Cython","#fedf5b",0.2,{"name":107,"color":108,"percentage":109},"Lua","#000080",0.1,{"name":111,"color":112,"percentage":113},"HTML","#e34c26",0,{"name":115,"color":116,"percentage":113},"Batchfile","#C1F12E",{"name":118,"color":119,"percentage":113},"Makefile","#427819",22090,2697,"2026-04-14T13:13:50","MIT",4,"","未说明",{"notes":128,"python":126,"dependencies":129},"该 README 为 UniLM 项目总览，包含多个子模型（如 BEiT, LayoutLM, VALL-E 等）。具体运行环境需求需参考各子模型目录下的独立文档。核心架构依赖微软开源的 TorchScale 库。",[130],"torchscale",[132,35,14,15],"其他",[134,135,64,136,137,138,139,140,141,142,143,144,145,146,147,148,149,150,151,152],"nlp","pre-trained-model","minilm","layoutlm","layoutxlm","beit","document-ai","trocr","beit-3","foundation-models","xlm-e","deepnet","llm","multimodal","mllm","kosmos","kosmos-1","textdiffuser","bitnet","2026-03-27T02:49:30.150509","2026-04-16T08:17:11.712075",[156,161,166,171,176,181],{"id":157,"question_zh":158,"answer_zh":159,"source_url":160},35214,"Kosmos-2.5 模型是否已发布？在哪里可以下载？","是的，Kosmos-2.5 已经发布。该模型现在以 Safetensors 格式托管在 Hugging Face 上。您可以访问 https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002Fkosmos-2.5 获取模型权重和相关资源。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Fissues\u002F1297",{"id":162,"question_zh":163,"answer_zh":164,"source_url":165},35215,"LongNet 的代码在哪里可以找到？","LongNet 的相关架构代码并未直接包含在此仓库中。请参考 Microsoft 的 TorchScale 仓库 (https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Ftorchscale) 以获取相关的架构实现细节。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Fissues\u002F1182",{"id":167,"question_zh":168,"answer_zh":169,"source_url":170},35216,"LayoutLM 系列模型可以用于商业用途吗？许可证有何区别？","根据社区讨论，LayoutLM V2 和 V3 通常不允许用于商业目的。虽然 LayoutLM V1 可能允许商用，但其性能较旧且不如新版本。如果您使用他人提供的预训练模型（如 Docbank），需特别注意许可证限制；如果是使用自己的数据从头训练，生成的权重可能有所不同，但仍建议仔细查阅具体版本的许可证条款。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Fissues\u002F352",{"id":172,"question_zh":173,"answer_zh":174,"source_url":175},35217,"在 LayoutLM 序列标注任务中，B-ANSWER、I-ANSWER、E-ANSWER 和 S-ANSWER 标签代表什么含义？","这些标签遵循 BIOES 标注体系：'B' 代表实体开始 (Beginning)，'I' 代表实体中间 (Inside)，'E' 代表实体结束 (End)，'S' 代表单个字符组成的实体 (Single)。例如，B-ANSWER 表示答案实体的起始字，I-ANSWER 表示中间部分，E-ANSWER 表示结束字，S-ANSWER 表示该答案仅由一个字组成。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Fissues\u002F134",{"id":177,"question_zh":178,"answer_zh":179,"source_url":180},35218,"如何在 LayoutLMv3 中处理无对象（no-object）类别的标签填充？","在使用 LayoutLMv3 进行目标检测时，通常使用 -100 作为填充令牌 (Pad_token) 来忽略某些输入。需要注意的是，DETR 及其衍生模型（如 YOLOs）通常保留最高索引的标签作为“无对象”类。如果您的类别是 0,1,2,3，而填充值为 -100，请确保在数据处理时正确映射，避免将 -100 误认为是有效类别。通常不需要专门传递“无对象”类的样本，而是通过掩码机制处理。","https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Fissues\u002F800",{"id":182,"question_zh":183,"answer_zh":184,"source_url":175},35219,"运行 LayoutLM 序列标注预测时，如何配置输入输出路径及解决显存溢出问题？","在运行预测脚本时，需明确指定 `--model_name_or_path`（训练好的模型位置）、`--data_dir`（测试输入数据目录）和 `--output_dir`（预测结果输出目录）。如果遇到 CUDA 显存溢出 (OOM) 错误，尝试将 `--max_seq_length` 参数减小（例如从 512 调整为 128），这通常能解决显存不足的问题。",[186,191,196,201],{"id":187,"version":188,"summary_zh":189,"released_at":190},280254,"yoco.v0","https:\u002F\u002Farxiv.org\u002Fabs\u002F2405.05254","2024-05-09T01:28:42",{"id":192,"version":193,"summary_zh":194,"released_at":195},280255,"s2s-ft.v0.3","修复在 CPU 上运行时的问题：https:\u002F\u002Fgithub.com\u002Fmicrosoft\u002Funilm\u002Fcommit\u002F13641268b59df5cf90d27b451d87ab58b6a07055","2020-04-02T10:46:23",{"id":197,"version":198,"summary_zh":199,"released_at":200},280256,"s2s-ft.v0.2","- 在 s2s-ft 中支持 MiniLM","2020-03-13T00:30:06",{"id":202,"version":203,"summary_zh":204,"released_at":205},280257,"s2s-ft.v0.0","使用 UniLMv1\u002FUniLMv2 进行序列到序列微调","2020-03-10T01:27:10"]