AliceMind

GitHub
2k 299 较难 1 次阅读 1周前Apache-2.0开发框架语言模型
AI 解读 由 AI 自动生成,仅供参考

AliceMind 是阿里巴巴达摩院机器智能技术实验室(MinD)推出的开源项目,汇聚了一系列先进的编码器 - 解码器预训练模型及相关优化技术。它旨在解决多模态理解、跨语言处理及大规模数据生成等复杂人工智能难题,为开发者提供从基础语言理解到视频 - 语言协同的全栈能力支持。

无论是从事前沿算法研究的研究人员,还是希望快速构建智能应用的开发者,都能从中获益。AliceMind 不仅提供了如 PLUG、StructBERT 等经典的中文理解与生成模型,更在多模态领域取得了突破性进展。其独特的技术亮点包括:首个无需 OCR 即可实现通用文档理解的 mPLUG-DocOwl 模型,支持通过模态协作增强大语言能力的 mPLUG-Owl2,以及拥有模块化设计的大型多模态训练范式。此外,项目还涵盖了 ChildTuning 等高效微调方法和 ContrastivePruning 模型压缩技术,帮助用户在降低资源消耗的同时提升模型性能。凭借丰富的模型家族和扎实的学术成果,AliceMind 成为了探索下一代人工智能技术的重要基石。

使用场景

某跨境电商团队需要构建一个智能系统,自动解析全球供应商上传的复杂多语言产品手册(含图表、表格及混合排版),并提取关键参数录入数据库。

没有 AliceMind 时

  • 流程割裂且成本高:必须先调用独立的 OCR 引擎识别文字,再用翻译模型处理多语言内容,最后用 NLP 模型提取信息,链路长且维护昂贵。
  • 复杂版面理解差:传统模型难以处理图文混排或跨页表格,经常错乱行序或丢失图表中的关键数据。
  • 中文场景支持弱:通用开源模型对中文特有的细粒度语义(如成语、行业术语)理解不足,导致参数提取准确率低。
  • 部署资源压力大:串联多个大模型导致显存占用极高,无法在有限的服务器资源上实现高并发实时处理。

使用 AliceMind 后

  • 端到端统一处理:利用 mPLUG-DocOwl 实现无 OCR 的多模态文档理解,直接输入图片即可输出结构化数据,大幅简化技术栈。
  • 深度图文协同分析:基于 mPLUG-Owl2 的模态协作机制,模型能精准关联图表与上下文,完美解析复杂排版和跨页表格。
  • 中文能力显著增强:依托 PLUG 和 LatticeBERT 等预训练成果,系统对中文专业术语和多粒度输入的理解达到业界领先水平。
  • 高效推理与压缩:结合 ChildTuning 微调与 ContrastivePruning 压缩技术,在保持高精度的同时将推理速度提升数倍,降低硬件成本。

AliceMind 通过其模块化多模态基座模型,将原本繁琐的文档解析流水线转化为单一高效智能体,彻底解决了复杂文档理解中的精度与效率瓶颈。

运行环境要求

GPU

未说明

内存

未说明

依赖
notesREADME 主要介绍了 AliceMind 包含的多种预训练模型(如 mPLUG-Owl, PLUG, StructBERT 等)及其相关论文和微调/压缩方法。文中提到发布了支持标准代码的 SOFA 建模工具包,并可直接在 transformers 中使用,但未在提供的片段中列出具体的操作系统、硬件配置、Python 版本或详细的依赖库版本要求。用户需访问各子模型的具体仓库链接以获取详细的运行环境指南。
python未说明
transformers
AliceMind hero image

快速开始

AliceMind

AliceMind:阿里巴巴达摩院机器智能实验室的编码器-解码器模型集合

本仓库提供了由阿里巴巴达摩院机器智能实验室开发的预训练编码器-解码器模型及其相关优化技术。

AliceMind 系列包括:

  • 预训练模型:
    • 发布首个通过模态协作增强 LLM 和 MLLM 的多模态大语言模型:mPLUG-Owl2CVPR 2024
    • 发布首个无 OCR 的多模态大语言模型,用于通用文档理解:mPLUG-DocOwlEMNLP 2023
    • 发布首个也是最大的公开中文视频-语言预训练数据集及基准:Youku-mPLUG,以及名为 mPLUG-video 的中文视频大语言模型。
    • 面向大型多模态语言模型的、采用 模块化设计 的全新训练范式:mPLUG-Owl
    • 面向数字人的大规模中文开放域对话系统:ChatPLUG
    • 一个跨文本、图像和视频的模块化多模态基础模型:mPLUG-2ICML 2023
    • 大规模视觉-语言理解和生成模型:mPLUGEMNLP 2022
    • 大规模中文理解和生成模型:PLUG
    • 表格预训练模型:SDCUP审稿中
    • 具有多粒度输入的中文语言理解模型:LatticeBERTNAACL 2021
    • 结构化语言模型:StructuralLMACL 2021
    • 跨模态语言模型:StructVBERTCVPR 2020 VQA 挑战赛亚军
    • 跨语言语言模型:VECOACL 2021
    • 生成式语言模型:PALMEMNLP 2020
    • 语言理解模型:StructBERTICLR 2020
  • 微调方法:
    • 参数高效的稀疏化方法 PSTIJCAI 2022
    • 高效且具有泛化能力的微调方法 ChildTuningEMNLP 2021
  • 模型压缩:

新闻

  • 2023年11月9日:mPLUG-Owl2,首个通过模态协作增强 LLM 和 MLLM 的多模态大语言模型,已被 CVPR 2024 接受。
  • 2023年7月7日:mPLUG-DocOwl,首个无 OCR 的多模态大语言模型,用于通用文档理解,已被 EMNLP 2023 接受。
  • 2023年6月8日:Youku-mPLUG,发布了首个也是最大的公开中文视频-语言预训练数据集及基准,以及名为 mPLUG-video 的中文视频大语言模型。
  • 2023年4月27日:mPLUG-Owl,一种面向大型多模态语言模型的模块化设计新训练范式发布。
  • 2023年4月25日:mPLUG-2 被 ICML 2023 接受。
  • 2023年4月16日:ChatPLUG,面向数字人应用的中文开放域对话系统发布。
  • 2022年10月:mPLUG 被 EMNLP 2022 接受。
  • 2022年5月:PST 被 IJCAI 2022 接受。
  • 2022年4月:SOFA 建模工具包发布,支持标准化代码和直接在 Transformers 中使用这些模型与技术!
  • 2021年12月:ContrastivePruning 被 AAAI 2022 接受。
  • 2021年10月:ChildTuning 被 EMNLP 2021 接受。
  • 2021年9月:首个中文表格预训练模型 SDCUP 发布!
  • 2021年5月:VECOStructuralLM 被 ACL 2021 接受。
  • 2021年3月:AliceMind 正式发布!

预训练模型

  • mPLUG-Owl(2023年4月27日):一种面向大型多模态语言模型的模块化设计新训练范式。在学习视觉知识的同时,支持由不同模态组成的多轮对话。展现出多图像关联、场景文本理解以及基于视觉的文档理解等能力。发布了与视觉相关的指令评估数据集OwlEval。mPLUG-Owl:模块化赋能大型语言模型的多模态能力

  • ChatPLUG(2023年4月16日):一款面向数字人应用的中文开放域对话系统,通过统一的互联网增强格式对多种对话任务进行指令微调。不同于其他专注于大规模预训练及扩大模型规模或对话语料库的开放域对话模型,我们旨在通过互联网增强的指令微调,构建一个功能强大且实用、具备多样化技能并具有良好多任务泛化的数字人对话系统。ChatPLUG:面向数字人的互联网增强指令微调开放域生成式对话系统

  • mPLUG(2022年9月1日):用于视觉—语言理解和生成的大规模预训练模型。mPLUG在大规模图文对上以端到端方式同时采用判别式和生成式目标进行预训练。它在广泛的视觉—语言下游任务中取得了最先进的性能,包括图像字幕生成、图文检索、视觉定位和视觉问答等。mPLUG:通过跨模态跳跃连接实现高效的多模态学习EMNLP 2022

  • PLUG(2022年9月1日):用于理解和生成的大规模中文预训练模型。PLUG(27B)是一款面向语言理解和生成的大规模中文预训练模型。其训练分为两个阶段:第一阶段为24层的StructBERT编码器,第二阶段为24–6层的PALM编码器—解码器。

  • SDCUP(2021年9月6日):用于表格理解的预训练模型。我们设计了一种基于模式依赖的预训练目标,以在表格预训练的表征学习中引入期望的归纳偏置。进一步提出了一种基于模式感知的课程学习方法,以缓解噪声影响,并按照由易到难的方式高效地从预训练数据中学习。在SQUALL和Spider数据集上的实验结果表明,与多种基线相比,我们的预训练目标和课程学习方法均具有效性。“SDCUP:基于模式依赖的课程式预训练用于表格语义解析”审稿中

  • LatticeBERT(2021年3月15日):我们提出了一种针对中文的新型预训练范式——Lattice-BERT,该模型显式地将词级表示与字符级表示相结合,从而能够以多粒度方式建模句子。“Lattice-BERT:在中文预训练语言模型中利用多粒度表示”NAACL 2021

  • StructuralLM(2021年3月15日):用于文档—图像理解的预训练模型。我们提出了一种新的预训练方法——StructuralLM,可联合利用扫描文档中的单元格和版面信息。预训练后的StructuralLM在不同类型下游任务中均取得了新的最先进成果。“StructuralLM:用于表单理解的结构化预训练”ACL 2021

  • StructVBERT(2021年3月15日):用于视觉—语言理解的预训练模型。我们提出了一种新的单流视觉—语言预训练方案,结合多阶段渐进式预训练和多任务学习。StructVBERT获得了2020年VQA挑战赛亚军,并在2020年6月的VQA公开测试标准基准上取得了SOTA结果。“演讲幻灯片”CVPR 2020 VQA挑战赛亚军

  • VECO v0(2021年3月15日):用于跨语言(x)自然语言理解(x-NLU)和生成(x-NLG)的预训练模型。VECO(v0)在XTREME基准的各种跨语言理解任务中取得了新的SOTA结果,涵盖文本分类、序列标注、问答和句子检索等任务。对于跨语言生成任务,它在WMT14英德和英法翻译数据集上也超越了所有现有跨语言模型及最先进的Transformer变体,BLEU得分提升高达1~2点。“VECO:用于跨语言理解和生成的可变编码器—解码器预训练”ACL 2021

  • PALM(2021年3月15日):用于**自然语言生成(NLG)**的预训练模型。我们提出了一种新颖的方案,即在一个大型未标注语料库上联合预训练自编码和自回归语言模型,专门用于根据上下文条件生成新文本。该模型在多个下游任务中取得了新的SOTA结果。“PALM:用于上下文条件生成的自编码与自回归语言模型预训练”EMNLP 2020

  • StructBERT(2021年3月15日):用于**自然语言理解(NLU)**的预训练模型。我们通过在预训练中融入语言结构,将BERT扩展为一种新模型——StructBERT。具体而言,我们使用两项辅助任务对StructBERT进行预训练,以充分利用单词和句子的顺序,分别在词级和句级层面利用语言结构。“StructBERT:将语言结构融入预训练以实现深度语言理解”ICLR 2020

微调方法

模型压缩

  • ContrastivePruning(2021年12月17日): ContrAstive Pruning (CAP) 是一种 在预训练与微调范式下的通用剪枝框架,旨在剪枝过程中同时保留任务特定知识和任务无关知识。CAP 被设计为一个通用框架,兼容结构化剪枝和非结构化剪枝。通过对比学习的统一视角,CAP 鼓励剪枝后的模型分别从预训练模型、剪枝过程中的快照(中间模型)以及微调后的模型中学习。“从稠密到稀疏:用于更好预训练语言模型压缩的对比剪枝”(AAAI 2022

  • PST(2022年5月23日): 参数高效的稀疏训练(PST)旨在下游任务的稀疏感知训练过程中减少可训练参数的数量。它结合了无数据和数据驱动两种标准,以高效且准确地衡量权重的重要性,并深入研究数据驱动权重重要性的内在冗余性,从而提炼出低秩性和结构性这两个显著特征,使稀疏训练既节省资源又节约参数。“大型语言模型微调中的参数高效稀疏性”(IJCAI 2022

建模工具包

  • SOFA SOFA 的目标是方便用户使用和分发来自阿里巴巴达摩院 AliceMind 项目的预训练语言模型。此外,项目中的详细示例也让任何终端用户都能轻松访问这些模型。

联系方式

AliceMind 官方网站https://nlp.aliyun.com/portal#/alice

AliceMind 开放平台https://alicemind.aliyuncs.com

如果您需要帮助或在使用 ALICE 时遇到问题,请提交 GitHub 问题。

如需更多信息,您可以通过钉钉加入 AliceMind 用户群 与我们联系。钉钉群号为 35738533。

其他商务沟通请联系 nlp-support@list.alibaba-inc.com

许可证

AliceMind 根据 Apache 2.0 许可证 发布。

版权所有 © 1999–2020 阿里巴巴集团控股有限公司。

本软件根据 Apache 许可证第 2.0 版(“许可证”)授权使用;
除非符合许可证的规定,否则不得使用本文件。
您可以在以下链接获取许可证副本:

     http://www.apache.org/licenses/LICENSE-2.0

除非适用法律另有规定或双方另有约定,否则本软件按“原样”分发,
不提供任何形式的保证或条件。有关权限和限制的具体内容,请参阅许可证。

版本历史

v1.02021/05/27

常见问题

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

139k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|今天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|昨天
Agent图像开发框架