[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-alibaba--AliceMind":3,"similar-alibaba--AliceMind":120},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":15,"owner_avatar_url":16,"owner_bio":17,"owner_company":18,"owner_location":18,"owner_email":18,"owner_twitter":18,"owner_website":19,"owner_url":20,"languages":21,"stars":55,"forks":56,"last_commit_at":57,"license":58,"difficulty_score":59,"env_os":60,"env_gpu":61,"env_ram":61,"env_deps":62,"category_tags":66,"github_topics":69,"view_count":74,"oss_zip_url":18,"oss_zip_packed_at":18,"status":75,"created_at":76,"updated_at":77,"faqs":78,"releases":114},3549,"alibaba\u002FAliceMind","AliceMind","ALIbaba's Collection of Encoder-decoders from MinD (Machine IntelligeNce of Damo) Lab","AliceMind 是阿里巴巴达摩院机器智能技术实验室（MinD）推出的开源项目，汇聚了一系列先进的编码器 - 解码器预训练模型及相关优化技术。它旨在解决多模态理解、跨语言处理及大规模数据生成等复杂人工智能难题，为开发者提供从基础语言理解到视频 - 语言协同的全栈能力支持。\n\n无论是从事前沿算法研究的研究人员，还是希望快速构建智能应用的开发者，都能从中获益。AliceMind 不仅提供了如 PLUG、StructBERT 等经典的中文理解与生成模型，更在多模态领域取得了突破性进展。其独特的技术亮点包括：首个无需 OCR 即可实现通用文档理解的 mPLUG-DocOwl 模型，支持通过模态协作增强大语言能力的 mPLUG-Owl2，以及拥有模块化设计的大型多模态训练范式。此外，项目还涵盖了 ChildTuning 等高效微调方法和 ContrastivePruning 模型压缩技术，帮助用户在降低资源消耗的同时提升模型性能。凭借丰富的模型家族和扎实的学术成果，AliceMind 成为了探索下一代人工智能技术的重要基石。","# AliceMind\n#### AliceMind: ALIbaba's Collection of Encoder-decoders from MinD (Machine IntelligeNce of Damo) Lab\nThis repository provides pre-trained encoder-decoder models and its related optimization techniques developed by Alibaba's MinD (Machine IntelligeNce of Damo) Lab.\n\nThe family of AliceMind:\n* Pre-trained Models:\n     * Release the first multimodal large language model for enhancing LLM and MLLM through modal collaboration: [mPLUG-Owl2](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl\u002Ftree\u002Fmain\u002FmPLUG-Owl2)(```CVPR 2024```)\n     * Release the first ocr-free multimodal large language model for universal document understanding: [mPLUG-DocOwl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-DocOwl)(```EMNLP 2023```)\n     * Release the first and largest public Chinese Video-language pretraining dataset and benchmarks: [Youku-mPLUG](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FYouku-mPLUG), and the Chinese video large language model named [mPLUG-video](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FYouku-mPLUG)\n     * A new training paradigm with a **modularized design** for large multi-modal language models: [mPLUG-Owl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl)\n     * Large-scale Chinese open-domain dialogue system for digital human: [ChatPLUG](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FChatPLUG)\n     * A Modularized Multi-modal Foundation Model Across Text, Image and Video: [mPLUG-2](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-2)(```ICML 2023```)\n     * Large-scale vision-language understanding and generation model: [mPLUG](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FmPLUG)(```EMNLP 2022```)\n     * Large-scale chinese understanding and generation model: [PLUG](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FPLUG)\n     * Pre-training table model: [SDCUP](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FSDCUP) (```Under Review```)\n     * Chinese language understanding model with multi-granularity inputs: [LatticeBERT](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FLatticeBERT) (```NAACL 2021```)\n     * Structural language model: [StructuralLM](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FStructuralLM) (```ACL 2021```)\n     * Cross-modal language model: [StructVBERT](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FStructVBERT) (```CVPR 2020 VQA Challenge Runner-up```)\n     * Cross-lingual language model: [VECO](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FVECO) (```ACL 2021```)\n     * Generative language model: [PALM](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FPALM) (```EMNLP 2020```)\n     * Language understanding model: [StructBERT](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FStructBERT) (```ICLR 2020```)\n* Fine-tuning Methods:\n     * Parameter-Efficient Sparsity methods [PST](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FS4\u002FPST) (```IJCAI 2022```)\n     * Effective and generalizable fine-tuning method [ChildTuning](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FChildTuning) (```EMNLP 2021```)\n* Model Compression:\n     * Language model compression methods [ContrastivePruning](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FContrastivePruning) (```AAAI 2022```)\n\n## News\n- **November 9, 2023: [mPLUG-Owl2](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl\u002Ftree\u002Fmain\u002FmPLUG-Owl2), the first multimodal large language model for enhancing LLM and MLLM through modal collaboration, were accepted by CVPR 2024.**\n- **July 7, 2023: [mPLUG-DocOwl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-DocOwl), the first ocr-free multimodal large language model for universal document understanding, were accepted by EMNLP 2023.**\n- **June 8, 2023: [Youku-mPLUG](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FYouku-mPLUG), release the first and largest public Chinese Video-language pretraining dataset and benchmarks, and the Chinese video large language model named [mPLUG-video](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FYouku-mPLUG).**\n- **April 27, 2023: [mPLUG-Owl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl), a new training paradigm with a modularized design for large multi-modal language models released.**\n- **April 25, 2023: [mPLUG-2](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-2) were accepted by ICML 2023.**\n- **April 16, 2023: [ChatPLUG](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FChatPLUG), the Chinese open-domain dialogue system for digital human applications released.**\n- October, 2022: [mPLUG](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12005) were accepted by EMNLP 2022.\n- May, 2022: [PST](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11005) were accepted by IJCAI 2022.\n- April, 2022: The SOFA modeling toolkit released which supports models&techs standard code and the direct use of them in transformers!\n- December, 2021: [ContrastivePruning](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FContrastivePruning) were accepted by AAAI 2022.\n- October, 2021: [ChildTuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.05687) were accepted by EMNLP 2021.\n- September, 2021: The first Chinese pre-training table model [SDCUP](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.04399) released!\n- May, 2021: [VECO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.16046) and [StructuralLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.11210) were accepted by ACL 2021.\n- March, 2021: AliceMind released!\n\n\n## Pre-trained Models\n\n- [**mPLUG-Owl**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl) (April 27, 2023): a new training paradigm with a modularized design for large multi-modal language models. Learns visual knowledge while support multi-turn conversation consisting of different modalities. Observed abilities such as multi-image correlation and scene text understanding, vision-based document comprehension. Release a visually-related instruction evaluation set OwlEval. [mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14178)\n\n- [**ChatPLUG**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FChatPLUG) (April 16, 2023): a Chinese open-domain dialogue system for digital human applications that instruction finetunes on a wide range of dialogue tasks in a unified internet-augmented format. Different from other open-domain dialogue models that focus on large-scale pre-training and scaling up model size or dialogue corpus, we aim to build a powerful and practical dialogue system for digital human with diverse skills and good multi-task generalization by internet-augmented instruction tuning. [ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented Instruction Tuning for Digital Human](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07849)\n\n- [**mPLUG**](mPLUG) (September 1, 2022): large-scale pre-trained model for vision-language **understanding and generation**. mPLUG is pre-trained end-to-end on large scale image-text pairs with both discriminative and generative objectives. It achieves state-of-the-art results on a wide range of vision-language downstream tasks, including image-captioning, image-text retrieval, visual grounding and visual question answering. [mPLUG: Effective Multi-Modal Learning by Cross-Modal Skip Connections](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12005)(```EMNLP 2022```)\n\n- [**PLUG**](PLUG) (September 1, 2022): large-scale chinese pre-trained model for **understanding and generation**. PLUG (27B) is a large-scale chinese pre-training model for language understanding and generation. The training of PLUG is two-stage, the first stage is a 24-layer [StructBERT](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.04577) encoder, and the second stage is a 24-6-layer [PALM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.07159.pdf?fbclid=IwAR0BNl1IzR5bhcuEbyfNw2UN7MApHFoFP3BN40FKkW8x3bqolK_HilU293I) encoder-decoder.\n\n- [**SDCUP**](SDCUP) (September 6, 2021): pre-trained models for **table understanding**. We design a schema dependency pre-training objective to impose the desired inductive bias into the learned representations for table pre-training. We further propose a schema-aware curriculum learning approach to alleviate the impact of noise and learn effectively from the pre-training data in an easy-to-hard manner. The experiment results on SQUALL and Spider demonstrate the effectiveness of our pre-training objective and curriculum in comparison to a variety of baselines. \"[SDCUP: Schema Dependency Enhanced Curriculum Pre-Training for Table Semantic Parsing]()\" (```Under Review```) \n\n- [**LatticeBERT**](LatticeBERT) (March 15, 2021): we propose a novel pre-training paradigm for Chinese — Lattice-BERT which explicitly incorporates word representations with those of characters, thus can model a sentence in a multi-granularity manner. \"[Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.07204)\" (`NAACL 2021`)\n\n\n- [**StructuralLM**](StructuralLM) (March 15, 2021): pre-trained models for **document-image understanding**. We propose a new pre-training approach, StructuralLM, to jointly leverage cell and layout information from scanned documents. The pre-trained StructuralLM achieves new state-of-the-art results in different types of downstream tasks. \"[StructuralLM: Structural Pre-training for Form Understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.11210)\" (```ACL 2021```)\n\n- [**StructVBERT**](StructVBERT) (March 15, 2021): pre-trained models for **vision-language understanding**. We propose a new single-stream visual-linguistic pre-training scheme by leveraging multi-stage progressive pre-training and multi-task learning. StructVBERT obtained the 2020 VQA Challenge Runner-up award, and SOTA result on VQA 2020 public Test-standard benchmark (June 2020). \"[Talk Slides](StructVBERT\u002FStructVBERT-talk.pdf)\" (```CVPR 2020 VQA Challenge Runner-up```).\n\n- [**VECO v0**](VECO) (March 15, 2021): pre-trained models for **cross-lingual (x) natural language understanding (x-NLU) and generation (x-NLG)**. VECO (v0) achieves the **new SOTA results** on various cross-lingual understanding tasks of the XTREME benchmark, covering text classification, sequence labeling, question answering, and sentence retrieval.  For cross-lingual generation tasks, it also outperforms all existing cross-lingual models and state-of-the-art Transformer variants on WMT14 English-to-German and English-to-French translation datasets, with gains of up to 1~2 BLEU. “[VECO: Variable Encoder-decoder Pre-training for Cross-lingual Understanding and Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.16046)\" (```ACL 2021```)\n\n- [**PALM**](PALM) (March 15, 2021): pre-trained models for **natural language generation (NLG)**. We propose a novel scheme that jointly pre-trains an autoencoding and autoregressive language model on a large unlabeled corpus, specifically designed for generating new text conditioned on context. It achieves new SOTA results in several downstream tasks. \"[PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.07159)\" (```EMNLP 2020```)\n\n- [**StructBERT**](StructBERT) (March 15, 2021): pre-trained models for **natural language understanding (NLU)**. We extend BERT to a new model, StructBERT, by incorporating language structures into pre-training. Specifically, we pre-train StructBERT with two auxiliary tasks to make the most of the sequential order of words and sentences, which leverage language structures at the word and sentence levels, respectively. \"[StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.04577)\" (```ICLR 2020```)\n\n## Fine-tuning Methods\n- [**ChildTuning**](ChildTuning) (October 25, 2021): To mitigate the overfitting problem and improve generalization for fine-tuning large-scale PLMs, we\npropose a **straightforward yet effective fine-tuning technique**, ChildTuning, which only updates the child network during fine-tuning via strategically masking out the gradients of the non-child network. “[Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.05687)\" (```EMNLP 2021```)\n\n## Model Compression\n- [**ContrastivePruning**](ContrastivePruning) (December 17, 2021): \nContrAstive Pruning (CAP) is a **general pruning framework under the pre-training and fine-tuning paradigm**, which aims at maintaining both task-specific and task-agnostic knowledge during pruning. CAP is designed as a general framework, compatible with both structured and unstructured pruning. Unified in contrastive learning, CAP encourage the pruned model to learn from the pre-trained model, the snapshots (intermediate models during pruning), and the fine-tuned model, respectively. “[From Dense to Sparse: Contrastive Pruning for Better Pre-trained Language Model Compression](https:\u002F\u002Farxiv.org\u002Fabs\u002F2112.07198)\" (```AAAI 2022```)\n\n- [**PST**](S4\u002FPST) (May 23, 2022): \nParameter-efficient Sparse Training (PST) is to reduce the number of trainable parameters during sparse-aware training in downstream tasks. It combines the data-free and data-driven criteria to efficiently and accurately measures the importance of weights, and investigates the intrinsic redundancy of data-driven weight importance and derive two obvious characteristics i.e., low-rankness and structuredness, which therefore makes the sparse training resource-efficient and parameter-efficient. “[Parameter-Efficient Sparsity for Large Language Models Fine-Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11005)\" (```IJCAI 2022```)\n\n## Modeling toolkit\n- [**SOFA**](SOFA\u002FREADME.md) SOFA aims to faciliate easy use and distribution of the pretrained language models from Alibaba DAMO Academy AliceMind project. \nIn addition, detail examples in the project make it simple for any end-user to access those models.\n\n## Contact Information\n**AliceMind Official Website**: [https:\u002F\u002Fnlp.aliyun.com\u002Fportal#\u002Falice](https:\u002F\u002Fnlp.aliyun.com\u002Fportal#\u002Falice) \n\n**AliceMind Open Platform**: [https:\u002F\u002Falicemind.aliyuncs.com](https:\u002F\u002Falicemind.aliyuncs.com\u002F#\u002Fhome)\n\nPlease submit a GitHub issue if you have want help or have issues using ALICE.\n\nFor more information, you can join the ``AliceMind Users Group`` on DingTalk to contact us. The number of the DingTalk group is 35738533.\n\nFor other business communications, please contact nlp-support@list.alibaba-inc.com\n\n\n## *License*\n\nAliceMind is released under the [Apache 2.0 license](LICENSE).\n\n```\nCopyright 1999-2020 Alibaba Group Holding Ltd.\n\nLicensed under the Apache License, Version 2.0 (the \"License\");\nyou may not use this file except in compliance with the License.\nYou may obtain a copy of the License at the following link.\n\n     http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\n\nUnless required by applicable law or agreed to in writing, software\ndistributed under the License is distributed on an \"AS IS\" BASIS,\nWITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.\nSee the License for the specific language governing permissions and\nlimitations under the License.\n```\n\n","# AliceMind\n#### AliceMind：阿里巴巴达摩院机器智能实验室的编码器-解码器模型集合\n本仓库提供了由阿里巴巴达摩院机器智能实验室开发的预训练编码器-解码器模型及其相关优化技术。\n\nAliceMind 系列包括：\n* 预训练模型：\n     * 发布首个通过模态协作增强 LLM 和 MLLM 的多模态大语言模型：[mPLUG-Owl2](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl\u002Ftree\u002Fmain\u002FmPLUG-Owl2)（```CVPR 2024```）\n     * 发布首个无 OCR 的多模态大语言模型，用于通用文档理解：[mPLUG-DocOwl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-DocOwl)（```EMNLP 2023```）\n     * 发布首个也是最大的公开中文视频-语言预训练数据集及基准：[Youku-mPLUG](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FYouku-mPLUG)，以及名为 [mPLUG-video](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FYouku-mPLUG) 的中文视频大语言模型。\n     * 面向大型多模态语言模型的、采用 **模块化设计** 的全新训练范式：[mPLUG-Owl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl)\n     * 面向数字人的大规模中文开放域对话系统：[ChatPLUG](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FChatPLUG)\n     * 一个跨文本、图像和视频的模块化多模态基础模型：[mPLUG-2](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-2)（```ICML 2023```）\n     * 大规模视觉-语言理解和生成模型：[mPLUG](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FmPLUG)（```EMNLP 2022```）\n     * 大规模中文理解和生成模型：[PLUG](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FPLUG)\n     * 表格预训练模型：[SDCUP](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FSDCUP)（```审稿中```）\n     * 具有多粒度输入的中文语言理解模型：[LatticeBERT](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FLatticeBERT)（```NAACL 2021```）\n     * 结构化语言模型：[StructuralLM](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FStructuralLM)（```ACL 2021```）\n     * 跨模态语言模型：[StructVBERT](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FStructVBERT)（```CVPR 2020 VQA 挑战赛亚军```）\n     * 跨语言语言模型：[VECO](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FVECO)（```ACL 2021```）\n     * 生成式语言模型：[PALM](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FPALM)（```EMNLP 2020```）\n     * 语言理解模型：[StructBERT](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FStructBERT)（```ICLR 2020```）\n* 微调方法：\n     * 参数高效的稀疏化方法 [PST](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FS4\u002FPST)（```IJCAI 2022```）\n     * 高效且具有泛化能力的微调方法 [ChildTuning](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FChildTuning)（```EMNLP 2021```）\n* 模型压缩：\n     * 语言模型压缩方法 [ContrastivePruning](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FContrastivePruning)（```AAAI 2022```）\n\n## 新闻\n- **2023年11月9日：[mPLUG-Owl2](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl\u002Ftree\u002Fmain\u002FmPLUG-Owl2)，首个通过模态协作增强 LLM 和 MLLM 的多模态大语言模型，已被 CVPR 2024 接受。**\n- **2023年7月7日：[mPLUG-DocOwl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-DocOwl)，首个无 OCR 的多模态大语言模型，用于通用文档理解，已被 EMNLP 2023 接受。**\n- **2023年6月8日：[Youku-mPLUG](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FYouku-mPLUG)，发布了首个也是最大的公开中文视频-语言预训练数据集及基准，以及名为 [mPLUG-video](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FYouku-mPLUG) 的中文视频大语言模型。**\n- **2023年4月27日：[mPLUG-Owl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl)，一种面向大型多模态语言模型的模块化设计新训练范式发布。**\n- **2023年4月25日：[mPLUG-2](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-2) 被 ICML 2023 接受。**\n- **2023年4月16日：[ChatPLUG](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FChatPLUG)，面向数字人应用的中文开放域对话系统发布。**\n- 2022年10月：[mPLUG](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12005) 被 EMNLP 2022 接受。\n- 2022年5月：[PST](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.11005) 被 IJCAI 2022 接受。\n- 2022年4月：SOFA 建模工具包发布，支持标准化代码和直接在 Transformers 中使用这些模型与技术！\n- 2021年12月：[ContrastivePruning](https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Ftree\u002Fmain\u002FContrastivePruning) 被 AAAI 2022 接受。\n- 2021年10月：[ChildTuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.05687) 被 EMNLP 2021 接受。\n- 2021年9月：首个中文表格预训练模型 [SDCUP](https:\u002F\u002Farxiv.org\u002Fabs\u002F2103.04399) 发布！\n- 2021年5月：[VECO](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.16046) 和 [StructuralLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.11210) 被 ACL 2021 接受。\n- 2021年3月：AliceMind 正式发布！\n\n## 预训练模型\n\n- [**mPLUG-Owl**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl)（2023年4月27日）：一种面向大型多模态语言模型的模块化设计新训练范式。在学习视觉知识的同时，支持由不同模态组成的多轮对话。展现出多图像关联、场景文本理解以及基于视觉的文档理解等能力。发布了与视觉相关的指令评估数据集OwlEval。[mPLUG-Owl：模块化赋能大型语言模型的多模态能力](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.14178)\n\n- [**ChatPLUG**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FChatPLUG)（2023年4月16日）：一款面向数字人应用的中文开放域对话系统，通过统一的互联网增强格式对多种对话任务进行指令微调。不同于其他专注于大规模预训练及扩大模型规模或对话语料库的开放域对话模型，我们旨在通过互联网增强的指令微调，构建一个功能强大且实用、具备多样化技能并具有良好多任务泛化的数字人对话系统。[ChatPLUG：面向数字人的互联网增强指令微调开放域生成式对话系统](https:\u002F\u002Farxiv.org\u002Fabs\u002F2304.07849)\n\n- [**mPLUG**](mPLUG)（2022年9月1日）：用于视觉—语言**理解和生成**的大规模预训练模型。mPLUG在大规模图文对上以端到端方式同时采用判别式和生成式目标进行预训练。它在广泛的视觉—语言下游任务中取得了最先进的性能，包括图像字幕生成、图文检索、视觉定位和视觉问答等。[mPLUG：通过跨模态跳跃连接实现高效的多模态学习](https:\u002F\u002Farxiv.org\u002Fabs\u002F2205.12005)（```EMNLP 2022```）\n\n- [**PLUG**](PLUG)（2022年9月1日）：用于**理解和生成**的大规模中文预训练模型。PLUG（27B）是一款面向语言理解和生成的大规模中文预训练模型。其训练分为两个阶段：第一阶段为24层的[StructBERT](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.04577)编码器，第二阶段为24–6层的[PALM](https:\u002F\u002Farxiv.org\u002Fpdf\u002F2004.07159.pdf?fbclid=IwAR0BNl1IzR5bhcuEbyfNw2UN7MApHFoFP3BN40FKkW8x3bqolK_HilU293I)编码器—解码器。\n\n- [**SDCUP**](SDCUP)（2021年9月6日）：用于**表格理解**的预训练模型。我们设计了一种基于模式依赖的预训练目标，以在表格预训练的表征学习中引入期望的归纳偏置。进一步提出了一种基于模式感知的课程学习方法，以缓解噪声影响，并按照由易到难的方式高效地从预训练数据中学习。在SQUALL和Spider数据集上的实验结果表明，与多种基线相比，我们的预训练目标和课程学习方法均具有效性。[“SDCUP：基于模式依赖的课程式预训练用于表格语义解析”]()（```审稿中```）\n\n- [**LatticeBERT**](LatticeBERT)（2021年3月15日）：我们提出了一种针对中文的新型预训练范式——Lattice-BERT，该模型显式地将词级表示与字符级表示相结合，从而能够以多粒度方式建模句子。[“Lattice-BERT：在中文预训练语言模型中利用多粒度表示”](https:\u002F\u002Farxiv.org\u002Fabs\u002F2104.07204)（```NAACL 2021```）\n\n- [**StructuralLM**](StructuralLM)（2021年3月15日）：用于**文档—图像理解**的预训练模型。我们提出了一种新的预训练方法——StructuralLM，可联合利用扫描文档中的单元格和版面信息。预训练后的StructuralLM在不同类型下游任务中均取得了新的最先进成果。[“StructuralLM：用于表单理解的结构化预训练”](https:\u002F\u002Farxiv.org\u002Fabs\u002F2105.11210)（```ACL 2021```）\n\n- [**StructVBERT**](StructVBERT)（2021年3月15日）：用于**视觉—语言理解**的预训练模型。我们提出了一种新的单流视觉—语言预训练方案，结合多阶段渐进式预训练和多任务学习。StructVBERT获得了2020年VQA挑战赛亚军，并在2020年6月的VQA公开测试标准基准上取得了SOTA结果。[“演讲幻灯片”](StructVBERT\u002FStructVBERT-talk.pdf)（```CVPR 2020 VQA挑战赛亚军```）\n\n- [**VECO v0**](VECO)（2021年3月15日）：用于**跨语言（x）自然语言理解（x-NLU）和生成（x-NLG）**的预训练模型。VECO（v0）在XTREME基准的各种跨语言理解任务中取得了**新的SOTA结果**，涵盖文本分类、序列标注、问答和句子检索等任务。对于跨语言生成任务，它在WMT14英德和英法翻译数据集上也超越了所有现有跨语言模型及最先进的Transformer变体，BLEU得分提升高达1~2点。[“VECO：用于跨语言理解和生成的可变编码器—解码器预训练”](https:\u002F\u002Farxiv.org\u002Fabs\u002F2010.16046)（```ACL 2021```）\n\n- [**PALM**](PALM)（2021年3月15日）：用于**自然语言生成（NLG）**的预训练模型。我们提出了一种新颖的方案，即在一个大型未标注语料库上联合预训练自编码和自回归语言模型，专门用于根据上下文条件生成新文本。该模型在多个下游任务中取得了新的SOTA结果。[“PALM：用于上下文条件生成的自编码与自回归语言模型预训练”](https:\u002F\u002Farxiv.org\u002Fabs\u002F2004.07159)（```EMNLP 2020```）\n\n- [**StructBERT**](StructBERT)（2021年3月15日）：用于**自然语言理解（NLU）**的预训练模型。我们通过在预训练中融入语言结构，将BERT扩展为一种新模型——StructBERT。具体而言，我们使用两项辅助任务对StructBERT进行预训练，以充分利用单词和句子的顺序，分别在词级和句级层面利用语言结构。[“StructBERT：将语言结构融入预训练以实现深度语言理解”](https:\u002F\u002Farxiv.org\u002Fabs\u002F1908.04577)（```ICLR 2020```）\n\n## 微调方法\n- [**ChildTuning**](ChildTuning)（2021年10月25日）：为缓解大规模PLM微调中的过拟合问题并提升泛化能力，我们提出了一种**简单却有效的微调技术**——ChildTuning，该方法仅在微调过程中更新子网络，通过策略性地屏蔽非子网络的梯度来实现。[“在大型语言模型中培养‘孩子’：迈向高效且可泛化的微调”](https:\u002F\u002Farxiv.org\u002Fabs\u002F2109.05687)（```EMNLP 2021```）\n\n## 模型压缩\n- [**ContrastivePruning**](ContrastivePruning)（2021年12月17日）：\nContrAstive Pruning (CAP) 是一种 **在预训练与微调范式下的通用剪枝框架**，旨在剪枝过程中同时保留任务特定知识和任务无关知识。CAP 被设计为一个通用框架，兼容结构化剪枝和非结构化剪枝。通过对比学习的统一视角，CAP 鼓励剪枝后的模型分别从预训练模型、剪枝过程中的快照（中间模型）以及微调后的模型中学习。“从稠密到稀疏：用于更好预训练语言模型压缩的对比剪枝”（```AAAI 2022```）\n\n- [**PST**](S4\u002FPST)（2022年5月23日）：\n参数高效的稀疏训练（PST）旨在下游任务的稀疏感知训练过程中减少可训练参数的数量。它结合了无数据和数据驱动两种标准，以高效且准确地衡量权重的重要性，并深入研究数据驱动权重重要性的内在冗余性，从而提炼出低秩性和结构性这两个显著特征，使稀疏训练既节省资源又节约参数。“大型语言模型微调中的参数高效稀疏性”（```IJCAI 2022```）\n\n## 建模工具包\n- [**SOFA**](SOFA\u002FREADME.md) SOFA 的目标是方便用户使用和分发来自阿里巴巴达摩院 AliceMind 项目的预训练语言模型。此外，项目中的详细示例也让任何终端用户都能轻松访问这些模型。\n\n## 联系方式\n**AliceMind 官方网站**：[https:\u002F\u002Fnlp.aliyun.com\u002Fportal#\u002Falice](https:\u002F\u002Fnlp.aliyun.com\u002Fportal#\u002Falice)\n\n**AliceMind 开放平台**：[https:\u002F\u002Falicemind.aliyuncs.com](https:\u002F\u002Falicemind.aliyuncs.com\u002F#\u002Fhome)\n\n如果您需要帮助或在使用 ALICE 时遇到问题，请提交 GitHub 问题。\n\n如需更多信息，您可以通过钉钉加入 ``AliceMind 用户群`` 与我们联系。钉钉群号为 35738533。\n\n其他商务沟通请联系 nlp-support@list.alibaba-inc.com\n\n\n## *许可证*\n\nAliceMind 根据 [Apache 2.0 许可证](LICENSE) 发布。\n\n```\n版权所有 © 1999–2020 阿里巴巴集团控股有限公司。\n\n本软件根据 Apache 许可证第 2.0 版（“许可证”）授权使用；\n除非符合许可证的规定，否则不得使用本文件。\n您可以在以下链接获取许可证副本：\n\n     http:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0\n\n除非适用法律另有规定或双方另有约定，否则本软件按“原样”分发，\n不提供任何形式的保证或条件。有关权限和限制的具体内容，请参阅许可证。\n```","# AliceMind 快速上手指南\n\nAliceMind 是阿里巴巴达摩院机器智能技术实验室（MinD Lab）推出的开源项目，汇集了多种预训练编码器 - 解码器模型及相关优化技术。本项目涵盖了从多模态大模型（如 mPLUG-Owl2、mPLUG-DocOwl）到中文语言理解与生成模型（如 PLUG、StructBERT）的完整生态，并提供高效的微调（ChildTuning）和模型压缩（ContrastivePruning）方案。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 18.04+) 或 macOS。\n*   **Python 版本**: Python 3.7 或更高版本。\n*   **深度学习框架**: PyTorch 1.8.0+ (建议根据具体模型文档确认版本兼容性)。\n*   **硬件要求**: \n    *   推理：建议配备 NVIDIA GPU (显存 >= 8GB)，部分大模型需要更大显存或多卡环境。\n    *   训练\u002F微调：建议配备多张高性能 NVIDIA GPU (如 A100\u002FV100)。\n*   **前置依赖**: \n    *   `git`\n    *   `pip` 或 `conda`\n\n> **提示**：由于 AliceMind 包含多个独立子项目（如 mPLUG-Owl, ChatPLUG, PLUG 等），不同模型的具体依赖可能略有差异。建议进入具体模型目录后，优先查看该目录下的 `requirements.txt`。\n\n## 安装步骤\n\n### 1. 克隆仓库\n使用 git 克隆 AliceMind 主仓库：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind.git\ncd AliceMind\n```\n\n> **国内加速**：如果访问 GitHub 较慢，可以使用 Gitee 镜像（如有）或通过配置代理加速。\n> ```bash\n> git clone https:\u002F\u002Fgitee.com\u002Fmirrors\u002FAliceMind.git  # 示例镜像地址，请以实际可用镜像为准\n> ```\n\n### 2. 创建虚拟环境 (推荐)\n建议使用 conda 创建独立的 Python 环境：\n\n```bash\nconda create -n alicemind python=3.8\nconda activate alicemind\n```\n\n### 3. 安装基础依赖\n安装 PyTorch 及其他通用依赖。以下命令以 CUDA 11.8 为例，请根据您的显卡驱动调整：\n\n```bash\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n```\n\n### 4. 安装特定模型依赖\nAliceMind 采用模块化设计，不同模型位于不同子目录。请进入您想要使用的模型目录安装专属依赖。\n\n**示例：安装 mPLUG-Owl 相关依赖**\n```bash\ncd mPLUG-Owl\npip install -r requirements.txt\n```\n\n**示例：安装 ChildTuning 微调工具依赖**\n```bash\ncd ChildTuning\npip install -r requirements.txt\n```\n\n> **注意**：部分最新多模态模型（如 mPLUG-Owl2, mPLUG-DocOwl）已迁移至独立的 `X-PLUG` 组织仓库。如需使用这些最新模型，请直接克隆对应仓库：\n> ```bash\n> git clone https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl.git\n> cd mPLUG-Owl\u002FmPLUG-Owl2\n> pip install -r requirements.txt\n> ```\n\n## 基本使用\n\nAliceMind 的不同模型使用方式略有不同，以下提供两个典型场景的最简使用示例。\n\n### 场景一：使用 PLUG 进行中文文本生成\n\n假设您已下载好 PLUG 模型权重，以下是一个简单的加载与生成示例（基于 Transformers 接口）：\n\n```python\nfrom transformers import AutoTokenizer, AutoModelForSeq2SeqLM\nimport torch\n\n# 1. 加载分词器和模型 (路径替换为本地模型路径)\nmodel_path = \".\u002FPLUG\" \ntokenizer = AutoTokenizer.from_pretrained(model_path)\nmodel = AutoModelForSeq2SeqLM.from_pretrained(model_path).to(\"cuda\")\n\n# 2. 准备输入文本\ninput_text = \"杭州是一座美丽的城市，\"\ninputs = tokenizer(input_text, return_tensors=\"pt\").to(\"cuda\")\n\n# 3. 生成文本\nwith torch.no_grad():\n    outputs = model.generate(**inputs, max_length=50)\n\n# 4. 解码输出\nresult = tokenizer.decode(outputs[0], skip_special_tokens=True)\nprint(result)\n```\n\n### 场景二：使用 ChildTuning 进行高效微调\n\nChildTuning 是一种通用的微调策略，可应用于多种预训练模型以减少过拟合。以下展示如何在训练脚本中启用 ChildTuning 模式（伪代码逻辑）：\n\n```python\n# 假设您正在使用 HuggingFace Trainer 或自定义训练循环\n# 引入 ChildTuning 相关逻辑 (需参考 ChildTuning 目录下的具体实现)\n\nfrom childtuning import ChildTuningOptimizer\n\n# 1. 定义普通优化器\noptimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)\n\n# 2. 包装为 ChildTuning 优化器\n# reserve_rate: 保留梯度的比例，例如 0.2 表示只更新 20% 的参数\nchild_optimizer = ChildTuningOptimizer(optimizer, reserve_rate=0.2)\n\n# 3. 在训练步骤中使用 child_optimizer 进行 step\nfor batch in dataloader:\n    loss = compute_loss(model, batch)\n    loss.backward()\n    \n    # 使用 ChildTuning 进行梯度掩码和更新\n    child_optimizer.step()\n    child_optimizer.zero_grad()\n```\n\n### 场景三：运行 mPLUG-Owl2 多模态对话 (需前往 X-PLUG 仓库)\n\n对于最新的多模态模型，通常提供专门的推理脚本：\n\n```bash\n# 进入 mPLUG-Owl2 目录\ncd ..\u002FmPLUG-Owl\u002FmPLUG-Owl2\n\n# 运行推理脚本 (需指定模型路径和图片路径)\npython inference.py \\\n    --model_path .\u002Fpretrained\u002Fmplug-owl2-llama2-7b \\\n    --image_path .\u002Fimages\u002Fexample.jpg \\\n    --query \"请描述这张图片中的内容。\"\n```\n\n> **提示**：更多详细的使用案例、数据集准备及分布式训练命令，请参阅各子项目目录下的 `README.md` 文件。","某跨境电商团队需要构建一个智能系统，自动解析全球供应商上传的复杂多语言产品手册（含图表、表格及混合排版），并提取关键参数录入数据库。\n\n### 没有 AliceMind 时\n- **流程割裂且成本高**：必须先调用独立的 OCR 引擎识别文字，再用翻译模型处理多语言内容，最后用 NLP 模型提取信息，链路长且维护昂贵。\n- **复杂版面理解差**：传统模型难以处理图文混排或跨页表格，经常错乱行序或丢失图表中的关键数据。\n- **中文场景支持弱**：通用开源模型对中文特有的细粒度语义（如成语、行业术语）理解不足，导致参数提取准确率低。\n- **部署资源压力大**：串联多个大模型导致显存占用极高，无法在有限的服务器资源上实现高并发实时处理。\n\n### 使用 AliceMind 后\n- **端到端统一处理**：利用 mPLUG-DocOwl 实现无 OCR 的多模态文档理解，直接输入图片即可输出结构化数据，大幅简化技术栈。\n- **深度图文协同分析**：基于 mPLUG-Owl2 的模态协作机制，模型能精准关联图表与上下文，完美解析复杂排版和跨页表格。\n- **中文能力显著增强**：依托 PLUG 和 LatticeBERT 等预训练成果，系统对中文专业术语和多粒度输入的理解达到业界领先水平。\n- **高效推理与压缩**：结合 ChildTuning 微调与 ContrastivePruning 压缩技术，在保持高精度的同时将推理速度提升数倍，降低硬件成本。\n\nAliceMind 通过其模块化多模态基座模型，将原本繁琐的文档解析流水线转化为单一高效智能体，彻底解决了复杂文档理解中的精度与效率瓶颈。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Falibaba_AliceMind_7f6fa7b6.png","alibaba","Alibaba","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Falibaba_f65f7221.png","Alibaba Open Source",null,"https:\u002F\u002Fopensource.alibaba.com\u002F","https:\u002F\u002Fgithub.com\u002Falibaba",[22,26,30,34,38,41,45,49,52],{"name":23,"color":24,"percentage":25},"Python","#3572A5",97.9,{"name":27,"color":28,"percentage":29},"Shell","#89e051",1.1,{"name":31,"color":32,"percentage":33},"Cuda","#3A4E3A",0.4,{"name":35,"color":36,"percentage":37},"Jupyter Notebook","#DA5B0B",0.2,{"name":39,"color":40,"percentage":37},"C++","#f34b7d",{"name":42,"color":43,"percentage":44},"Cython","#fedf5b",0.1,{"name":46,"color":47,"percentage":48},"Lua","#000080",0,{"name":50,"color":51,"percentage":48},"Batchfile","#C1F12E",{"name":53,"color":54,"percentage":48},"Makefile","#427819",2048,299,"2026-03-27T17:36:10","Apache-2.0",4,"","未说明",{"notes":63,"python":61,"dependencies":64},"README 主要介绍了 AliceMind 包含的多种预训练模型（如 mPLUG-Owl, PLUG, StructBERT 等）及其相关论文和微调\u002F压缩方法。文中提到发布了支持标准代码的 SOFA 建模工具包，并可直接在 transformers 中使用，但未在提供的片段中列出具体的操作系统、硬件配置、Python 版本或详细的依赖库版本要求。用户需访问各子模型的具体仓库链接以获取详细的运行环境指南。",[65],"transformers",[67,68],"开发框架","语言模型",[70,71,72,73],"nlp","bert","natural-language-processing","deep-learning",2,"ready","2026-03-27T02:49:30.150509","2026-04-06T06:45:30.305423",[79,84,89,94,99,104,109],{"id":80,"question_zh":81,"answer_zh":82,"source_url":83},16265,"加载 structbert.en.large 模型复现 GLUE 结果时出现 state_dict 键不匹配错误怎么办？","该问题通常是因为未安装 apex 库导致的。若要复现正确的结果，必须先安装 apex 以支持混合精度训练。\n\n未安装 apex 时，MRPC 任务的准确率仅为 0.57；安装 apex 后，准确率可提升至 0.875。\n\n运行命令示例：\npython run_classifier_multi_task.py --task_name CoLA,MNLI,MRPC,QNLI,QQP,RTE,SST-2,STS-B,WNLI --do_train --do_eval --amp_type O1 --lr_decay_factor 1 --dropout 0.1 --do_lower_case --detach_index -1 --core_encoder bert --data_dir GLUE --vocab_file config\u002Fvocab.txt --bert_config_file config\u002Flarge_bert_config.json --init_checkpoint pretrained_model\u002Fen_model --max_seq_length 128 --train_batch_size 16 --learning_rate 2e-5 --num_train_epochs 3 --fast_train --save_model --gradient_accumulation_steps 1 --output_dir output\n\n注意日志提示：\"Install apex first if you want to use mix precition.\"","https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Fissues\u002F27",{"id":85,"question_zh":86,"answer_zh":87,"source_url":88},16266,"StructBERT 的核心创新代码在哪里？其网络架构与 BERT 有何不同？","StructBERT 的神经网络架构与 BERT 完全相同。其核心创新在于预训练代码（pre-training code），但这部分代码目前尚未开源。仓库中提供的代码主要用于基于各种数据集的微调（fine-tuning）。","https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Fissues\u002F11",{"id":90,"question_zh":91,"answer_zh":92,"source_url":93},16267,"关于 StructBERT 预训练细节：是否支持多个三元组？WSO loss 如何计算？MLM 和 WSO 是否共用头部？","根据官方回复：\n1. 是的，可以存在多个三元组。论文第 2.4 节提到：“5% 的三元组被选中进行随机打乱”。\n2. WSO loss 是从句子序列中计算得出的。\n3. 是的，MLM（掩码语言模型）和 WSO（词序预测）任务使用相同的头部（head）。","https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Fissues\u002F7",{"id":95,"question_zh":96,"answer_zh":97,"source_url":98},16268,"如何使用 mPLUG 对单个图像或单个视频文件进行推理生成标题？","对于单张图像或单个视频的推理，可以参考以下代码文件了解如何加载输入和预训练模型：\n1. 视频推理逻辑参考：mPLUG\u002Fvideocap_mplug.py\n2. 视频数据集加载逻辑（用于加载视频输入）参考：mPLUG\u002Fdataset\u002Fvideo_dataset.py\n\n虽然维护者未直接提供单文件测试脚本，但通过阅读上述数据加载和推理脚本，可以自行构建针对单个文件的推理流程。","https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Fissues\u002F78",{"id":100,"question_zh":101,"answer_zh":102,"source_url":103},16269,"StructuralLM 与 LayoutLMv2 在相关工作引用上为何如此相似？是否存在抄袭？","官方回应指出，StructuralLM 和 LayoutLM 提出了不同的解决方案，在文档类型、模型架构和研究发现上是原创且 distinct 的。\n引用相似的原因是：两者都针对“视觉丰富文档建模”这一新兴且过去研究有限的课题。StructuralLM 论文正确引用了 LayoutLM (v1) 及其使用的基线模型（如 RoBERTa）。LayoutLM (v2) 后来将基线从 RoBERTa 替换为 UniLMv2，导致了模型名称上的差异，但相关工作的引用部分因研究领域重叠而显得相似。","https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Fissues\u002F31",{"id":105,"question_zh":106,"answer_zh":107,"source_url":108},16270,"mPLUG-2 论文中与 SOTA 方法的对比是否公平？特别是关于 CLIP 初始化和视频动作识别部分。","针对公平性质疑，官方回复如下：\n1. 视频 - 文本检索：mPLUG-2 Base 在 MSRVTT 数据集上的 R1 指标比 Singularity (17M 预训练) 高出 7% (48.3 vs 41.5)，且在 DiDeMo 数据集的 R5 和 R10 上也表现更好。相关内容将在更新版本中包含。\n2. 视频动作识别：X-CLIP 和 UniFormerV2 等方法是为通用视频动作识别设计的，需遵循标准协议。由于某些预训练方法（如 CoCa, InternVideo）使用了大量额外视频数据，难以确保公平比较的合理性。官方承诺将在更新版本中引用 UniFormerV2，并明确标注模型是在 Kinetics-710 上进行微调的，以避免误导。","https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Fissues\u002F73",{"id":110,"question_zh":111,"answer_zh":112,"source_url":113},16271,"在 mPLUG 图文检索代码中，self.distill、_momentum_update 和 _dequeue_and_enqueue 函数的作用是什么？","这些组件用于实现蒸馏（Distillation）和动量对比学习（Momentum Contrastive Learning）：\n1. self.distill：代表是否启用蒸馏损失，用于将教师模型的知识迁移到学生模型。\n2. self._momentum_update()：用于更新动量编码器（Momentum Encoder）的参数，使其平滑地跟随主编码器变化，这是对比学习中的常见技巧。\n3. self._dequeue_and_enqueue(...)：这是动量对比学习队列（Queue）的操作。它将当前的特征（image_feat_m, text_feat_m）加入队列，并移除最旧的特征，以维持一个固定大小的负样本池，用于计算对比损失。","https:\u002F\u002Fgithub.com\u002Falibaba\u002FAliceMind\u002Fissues\u002F64",[115],{"id":116,"version":117,"summary_zh":118,"released_at":119},98567,"v1.0","首次发布。","2021-05-27T09:45:50",[121,132,140,148,156,169],{"id":122,"name":123,"github_repo":124,"description_zh":125,"stars":126,"difficulty_score":127,"last_commit_at":128,"category_tags":129,"status":75},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[67,130,131],"图像","Agent",{"id":133,"name":134,"github_repo":135,"description_zh":136,"stars":137,"difficulty_score":74,"last_commit_at":138,"category_tags":139,"status":75},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",138956,"2026-04-05T11:33:21",[67,131,68],{"id":141,"name":142,"github_repo":143,"description_zh":144,"stars":145,"difficulty_score":74,"last_commit_at":146,"category_tags":147,"status":75},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[67,130,131],{"id":149,"name":150,"github_repo":151,"description_zh":152,"stars":153,"difficulty_score":74,"last_commit_at":154,"category_tags":155,"status":75},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[67,68],{"id":157,"name":158,"github_repo":159,"description_zh":160,"stars":161,"difficulty_score":74,"last_commit_at":162,"category_tags":163,"status":75},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[130,164,165,166,131,167,68,67,168],"数据工具","视频","插件","其他","音频",{"id":170,"name":171,"github_repo":172,"description_zh":173,"stars":174,"difficulty_score":127,"last_commit_at":175,"category_tags":176,"status":75},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[131,130,67,68,167]]