unilm

GitHub
22.1k 2.7k 较难 1 次阅读 昨天MIT其他语言模型开发框架图像
AI 解读 由 AI 自动生成,仅供参考

unilm 是微软推出的一套大规模自监督预训练开源项目,旨在打破任务、语言和模态之间的壁垒,构建通用的基础人工智能模型。它主要解决了传统 AI 模型往往只能处理单一任务(如仅文本或仅图像)、多语言支持不足以及难以在理解与生成之间灵活切换的痛点。

unilm 非常适合从事自然语言处理、计算机视觉、语音识别及多模态研究的科研人员,以及希望基于先进基座模型开发应用的开发者使用。其核心亮点在于“大融合”理念:支持超过 100 种语言的跨语言学习,并能同时处理文本、图像、音频及文档布局等多种数据形式。在技术架构上,unilm 不仅提供了 UniLM、InfoXLM 等经典的统一预训练模型,还持续探索前沿方向,如将 Transformer 扩展至千层甚至十亿 token 的 DeepNet 与 LongNet,以及追求极致效率的 1-bit 量化模型 BitNet 和稀疏专家混合架构 X-MoE。此外,Kosmos 系列多模态大模型也包含其中,实现了模型对现实世界的感知与接地。无论是需要轻量级边缘部署,还是追求超大规模参数性能,unilm 都提供了丰富的模型选择与技术积累。

使用场景

一家跨国电商团队正致力于构建一个能同时处理全球百种语言客服工单、自动识别商品图片并生成多语种描述的智能中台系统。

没有 unilm 时

  • 模型堆砌严重:团队需分别维护翻译、图像识别、文本生成等多套独立模型,导致服务器资源占用极高且推理延迟大。
  • 跨语言效果差:针对小语种(如泰语、越南语)缺乏高质量预训练数据,单独训练的模型在理解上下文和俚语时错误率频发。
  • 多模态割裂:图片内容与文字描述无法深度对齐,系统难以理解“红色碎花裙”这类结合视觉特征与文本属性的复杂指令。
  • 开发周期漫长:每新增一个业务场景(如从客服扩展到营销文案),都需重新收集数据并从头训练专用模型,耗时数周。

使用 unilm 后

  • 架构统一精简:利用 unilm 的跨任务、跨模态预训练能力,一套模型即可覆盖理解、生成及多模态任务,大幅降低算力成本与部署复杂度。
  • 百语种无缝支持:依托 InfoXLM 等组件在 100+ 语言上的大规模自监督预训练,小语种任务的准确率显著提升,无需额外标注数据。
  • 深层多模态融合:通过 Kosmos 系列模型实现视觉与语言的底层对齐,系统能精准根据商品图片生成符合当地文化习惯的多语种营销文案。
  • 快速场景迁移:借助其强大的通用性,新业务仅需少量样本微调即可上线,将原本数周的开发周期缩短至几天。

unilm 通过“一次预训练,处处通用”的范式,彻底打破了任务、语言与模态间的壁垒,让企业能以最低成本构建真正的通用人工智能应用。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该 README 为 UniLM 项目总览,包含多个子模型(如 BEiT, LayoutLM, VALL-E 等)。具体运行环境需求需参考各子模型目录下的独立文档。核心架构依赖微软开源的 TorchScale 库。
python未说明
torchscale
unilm hero image

快速开始

aka.ms/GeneralAI

招聘

我们正在招聘各层级人才(包括全职研究员和实习生)!如果您对与我们一起从事基础模型(即大规模预训练模型)以及通用人工智能、自然语言处理、机器翻译、语音、文档智能和多模态人工智能相关的工作感兴趣,请将您的简历发送至 fuwei@microsoft.com

基础架构

TorchScale - 一套基础架构库 (repo)

开展基础研究,以开发用于基础模型和人工智能的新架构,重点在于建模通用性和能力,以及训练的稳定性和效率。

稳定性 - DeepNet:将Transformer扩展到1,000层及以上

通用性 - Foundation Transformers (Magneto):朝着真正跨任务和跨模态的通用建模迈进(包括语言、视觉、语音和多模态)

功能性 - 一种可外推长度的 Transformer

效率与可迁移性 - X-MoE:可扩展且可微调的稀疏专家混合(MoE)

模型架构的革命

BitNet:用于大型语言模型的1位Transformer

RetNet:保留网络:大型语言模型中Transformer的继任者

LongNet:将Transformer扩展至10亿个标记

基础模型

多模态LLM的发展历程

Kosmos-2.5一个多模态通识模型

Kosmos-2将多模态大型语言模型与世界连接起来

Kosmos-1一个多模态大型语言模型(MLLM)

MetaLM语言模型是通用接口

大融合 - 跨任务(预测性和生成性)、语言(100多种语言)和模态(语言、图像、音频、版面/格式+语言、视觉+语言、音频+语言等)的大规模自监督预训练。

语言与多语言

UniLM:统一的语言理解和生成预训练

InfoXLM/XLM-E:面向100多种语言的多语言/跨语言预训练模型

DeltaLM/mT6:面向100多种语言的语言生成和翻译的编码器-解码器预训练

MiniLM:小型快速的语言理解和生成预训练模型

AdaLM:预训练模型的领域、语言和任务适应

EdgeLM(NEW): 边缘/客户端设备上的小型预训练模型

SimLM (NEW): 大规模的相似度匹配预训练

E5 (NEW): 文本嵌入

MiniLLM (NEW): 大型语言模型的知识蒸馏

视觉

BEiT/BEiT-2:面向视觉的生成式自监督预训练 / 图像Transformer的BERT预训练

DiT:面向文档图像Transformer的自监督预训练

TextDiffuser/TextDiffuser-2 (NEW): 扩散模型作为文本画家

语音

WavLM:面向全栈任务的语音预训练

VALL-E:用于TTS的神经编解码语言模型

多模态(X + 语言)

LayoutLM/LayoutLMv2/LayoutLMv3:多模态(文本+版面/格式+图像)的文档基础模型,用于文档智能(例如扫描文档、PDF等)。

LayoutXLM:多模态(文本+版面/格式+图像)的文档基础模型,适用于多语言文档智能。

MarkupLM:面向视觉丰富文档理解的标记语言模型预训练

XDoc:统一的跨格式文档理解预训练

UniSpeech:面向ASR的自监督学习和有监督学习的统一预训练

UniSpeech-SAT:具有说话人感知的通用语音表示学习预训练

SpeechT5:面向口语语言处理的编码器-解码器预训练

SpeechLM:利用未配对文本数据增强的语音预训练

VLMo:统一的视觉-语言预训练

VL-BEiT (NEW): 生成式视觉-语言预训练——BEiT向多模态的演进

BEiT-3 (NEW): 一款通用的多模态基础模型,也是跨越任务、语言和模态的大规模预训练大融合进程中的一个重要里程碑。

工具包

s2s-ft:序列到序列微调工具包

激进解码 (NEW): 无损且高效的序列到序列解码算法

应用

TrOCR:基于 Transformer 的 OCR,附带预训练模型

LayoutReader:用于阅读顺序检测的文本与版面布局预训练

XLM-T:多语言 NMT,配备预训练的跨语言编码器

链接

LLMOps (仓库)

用于借助大语言模型和多模态大语言模型实现 AI 能力的通用技术。

RedStone (仓库)

为大型语言模型整理通用、代码、数学及问答数据。

新闻

  • 2024年12月:RedStone 发布!
  • 2023年12月:LongNetLongViT 发布
  • [模型发布] 2023年12月:TextDiffuser-2 模型、代码及 demo
  • 2023年9月:Kosmos-2.5 - 一种多模态文本理解模型,用于对密集文本图像的机器阅读。
  • [模型发布] 2023年5月:TextDiffuser 模型和代码。
  • [模型发布] 2023年3月:BEiT-3 预训练模型和代码。
  • 2023年3月:Kosmos-1 - 一种多模态大型语言模型 (MLLM),能够感知多种模态,在上下文中学习(即少样本学习),并遵循指令(即零样本学习)。
  • 2023年1月:VALL-E 是一种基于语言模型的文本到语音合成 (TTS) 方法,实现了最先进的零样本 TTS 性能。请访问 https://aka.ms/valle 查看我们的演示。
  • [模型发布] 2023年1月:E5 - 基于弱监督对比预训练的文本嵌入。
  • 2022年11月:TorchScale 0.1.1 发布!
  • 2022年11月:TrOCR 被 AAAI 2023 接受。
  • [模型发布] 2022年11月:XDoc BASE 模型,用于跨格式文档理解。
  • [模型发布] 2022年9月:TrOCR BASELARGE 模型,用于场景文本识别 (STR)。
  • [模型发布] 2022年9月:BEiT v2 代码和预训练模型。
  • 2022年8月:BEiT-3 - 一种通用多模态基础模型,可在视觉和视觉-语言任务上均达到最先进的迁移性能。
  • 2022年7月:SimLM - 大规模自监督预训练,用于相似度匹配。
  • 2022年6月:DiTLayoutLMv3 被 ACM Multimedia 2022 接受。
  • 2022年6月:MetaLM - 语言模型是基础模型的通用接口(语言/多语言、视觉、语音和多模态)。
  • 2022年6月:VL-BEiT - 双向多模态 Transformer,从头开始训练,采用统一的预训练任务、共享骨干网络和单阶段训练,同时支持视觉和视觉-语言任务。
  • [模型发布] 2022年6月:LayoutLMv3 中文版 - LayoutLMv3 的中文版本。
  • [代码发布] 2022年5月:Aggressive Decoding - 序列到序列生成的无损加速。
  • 2022年4月:大规模 Transformer = DeepNet + X-MoE
  • [模型发布] 2022年4月:LayoutLMv3 - 使用统一的文本和图像掩码进行文档 AI 的预训练。
  • [模型发布] 2022年3月:EdgeFormer - 参数高效的设备端序列到序列生成 Transformer。
  • [模型发布] 2022年3月:DiT - 自监督文档图像 Transformer。演示:文档布局分析文档图像分类
  • 2022年1月:BEiTICLR 2022 以口头报告形式接受(在3391篇论文中仅54篇)。
  • [模型发布] 2021年12月16日:TrOCR small 模型,适用于手写和印刷文本,推理速度提升3倍。
  • 2021年11月24日:VLMoVQA Challenge 上成为新的 SOTA。
  • 2021年11月:大规模多语言翻译:10000种语言对及以上
  • [模型发布] 2021年11月:MarkupLM - 文本和标记语言(如 HTML/XML)的预训练。
  • [模型发布] 2021年11月:VLMo - 结合 BEiT 的统一视觉-语言预训练。
  • 2021年10月:WavLM Large 在 SUPERB 基准测试中达到最先进的性能。
  • [模型发布] 2021年10月:WavLM - 大规模自监督预训练的语音模型。
  • [模型发布] 2021年10月:TrOCR 已上线 HuggingFace
  • 2021年9月28日:T-ULRv5(又名 XLM-E/InfoXLM) 在 XTREME 排行榜上成为 SOTA。// 博客
  • [模型发布] 2021年9月:LayoutLM-cased 已上线 HuggingFace
  • [模型发布] 2021年9月:TrOCR - 基于 Transformer 的 OCR,使用预训练的 BEiT 和 RoBERTa 模型。
  • 2021年8月:LayoutLMv2LayoutXLM 已上线 HuggingFace
  • [模型发布] 2021年8月:LayoutReader - 基于 LayoutLM 构建,用于改进通用阅读顺序检测。
  • [模型发布] 2021年8月:DeltaLM - 用于语言生成和翻译的编码器-解码器预训练。
  • 2021年8月:BEiT 已上线 HuggingFace
  • [模型发布] 2021年7月:BEiT - 向 CV 领域的 BERT 时刻迈进。
  • [模型发布] 2021年6月:LayoutLMv2LayoutXLMMiniLMv2AdaLM
  • 2021年5月:LayoutLMv2、InfoXLMv2、MiniLMv2、UniLMv3 和 AdaLM 被 ACL 2021 接受。
  • 2021年4月:LayoutXLM 即将推出,它将 LayoutLM 扩展至多语言支持!同时引入了一个多语言表单理解基准 XFUND,其中包括用7种语言(中文、日语、西班牙语、法语、意大利语、德语、葡萄牙语)标注了关键-值对的表单。
  • 2021年3月:InfoXLM 被 NAACL 2021 接受。
  • 2020年12月29日:LayoutLMv2 即将问世,它将在包括 DocVQASROIE 在内的各种文档 AI 任务上达到新的 SOTA。
  • 2020年10月8日:T-ULRv2(又称 InfoXLM)在 XTREME 排行榜上成为 SOTA。// 博客
  • 2020年9月:MiniLM 被 NeurIPS 2020 接受。
  • 2020年7月16日:InfoXLM(多语言 UniLM) arXiv
  • 2020年6月:UniLMv2 被 ICML 2020 接受;LayoutLM 被 KDD 2020 接受。
  • 2020年4月5日:多语言 MiniLM 发布!
  • 2019年9月:UniLMv1 被 NeurIPS 2019 接受。

许可证

本项目采用根目录下LICENSE文件中所载明的许可证进行授权。部分源代码基于huggingface/transformers项目。

微软开源行为准则

联系方式

如在使用预训练模型时遇到任何问题或需要帮助,请提交GitHub Issue。

其他沟通事宜请联系Furu Weifuwei@microsoft.com)。

版本历史

yoco.v02024/05/09
s2s-ft.v0.32020/04/02
s2s-ft.v0.22020/03/13
s2s-ft.v0.02020/03/10

常见问题

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|1周前
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|1周前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

156.8k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

108.3k|★★☆☆☆|5天前
开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具,它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言,它提供了一条从输入提示词到获取模型响应的最短路径,无需切换窗口即可享受智能辅助。 这款工具主要解决了开发过程中频繁上下文切换的痛点,让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用,还是执行复杂的 Git 操作,gemini-cli 都能通过自然语言指令高效处理。 它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口,具备出色的逻辑推理能力;内置 Google 搜索、文件操作及 Shell 命令执行等实用工具;更独特的是,它支持 MCP(模型上下文协议),允许用户灵活扩展自定义集成,连接如图像生成等外部能力。此外,个人谷歌账号即可享受免费的额度支持,且项目基于 Apache 2.0 协议完全开源,是提升终端工作效率的理想助手。

100.8k|★★☆☆☆|6天前
插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|1周前
插件开发框架