[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"tool-PaddlePaddle--PaddleMIX":3,"similar-PaddlePaddle--PaddleMIX":137},{"id":4,"github_repo":5,"name":6,"description_en":7,"description_zh":8,"ai_summary_zh":8,"readme_en":9,"readme_zh":10,"quickstart_zh":11,"use_case_zh":12,"hero_image_url":13,"owner_login":14,"owner_name":14,"owner_avatar_url":15,"owner_bio":16,"owner_company":17,"owner_location":17,"owner_email":17,"owner_twitter":17,"owner_website":18,"owner_url":19,"languages":20,"stars":44,"forks":45,"last_commit_at":46,"license":47,"difficulty_score":48,"env_os":49,"env_gpu":50,"env_ram":51,"env_deps":52,"category_tags":60,"github_topics":66,"view_count":87,"oss_zip_url":17,"oss_zip_packed_at":17,"status":88,"created_at":89,"updated_at":90,"faqs":91,"releases":121},6477,"PaddlePaddle\u002FPaddleMIX","PaddleMIX","Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.","PaddleMIX 是百度飞桨推出的多模态集成与探索平台，旨在为开发者提供一站式的大规模多模态模型开发与部署体验。它全面支持主流的多模态任务，涵盖从端到端的预训练大模型到先进的扩散模型工具箱，能够高效处理图文理解、文档分析、视频生成及文生图等复杂场景。\n\n针对多模态领域模型种类繁多、训练推理门槛高且资源消耗大的痛点，PaddleMIX 提供了丰富的模型库和全流程开发工具。它不仅内置了 Qwen2.5VL、DeepSeek-VL2 等前沿模型，还推出了自研的 PP-DocBee 文档理解模型和 PP-VCtrl 视频控制模型，在多项评测中达到业界领先水平。此外，其最新发布的 Fast-Diffusers 工具包通过多种免训练加速算法和蒸馏技术，显著提升了扩散模型的推理速度，同时保证生成质量。\n\n这款工具非常适合人工智能研究人员、算法工程师以及希望快速落地多模态应用的企业开发者使用。凭借高性能的分布式训推能力和灵活的架构设计，PaddleMIX 帮助用户轻松实现从模型微调、优化到最终部署的全链路闭环，让多模态技术的创新与应用变得更加简单高效。","简体中文 | [English](README_EN.md)\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_5e8e4cbc2a55.png\" align=\"middle\" width = \"600\" \u002F>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMix\u002Freleases\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002FPaddlePaddle\u002FPaddleMix?color=ffa\">\u003C\u002Fa>\n    \u003Ca href=\".\u002FLICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202-dfd.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.7+-aff.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fos-linux-pink.svg\">\u003C\u002Fa>\n    \u003Ca href=\"#📌社区交流\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F微信-小助手加群-green?logo=wechat&amp\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fstargazers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPaddlePaddle\u002FPaddleMIX?color=ccf\">\u003C\u002Fa>\n\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## 💌目录\n- [💌目录](#目录)\n- [📰新闻](#新闻)\n- [📣最新进展](#最新进展)\n- [🌈简介](#简介)\n  - [特色应用效果示例如下（点击标题可快速跳转在线体验）：](#特色应用效果示例如下点击标题可快速跳转在线体验)\n- [✨主要特性](#主要特性)\n  - [📱丰富的多模态模型库](#丰富的多模态模型库)\n  - [🧩全流程开发体验](#全流程开发体验)\n  - [💡高性能分布式训推能力](#高性能分布式训推能力)\n  - [🔧特色模型与工具](#特色模型与工具)\n- [🔍安装](#安装)\n  - [1. 克隆PaddleMIX仓库](#1-克隆paddlemix仓库)\n  - [2. 创建虚拟环境](#2-创建虚拟环境)\n  - [3. ‼️安装PaddlePaddle](#3-️安装paddlepaddle)\n    - [方法 1: 一键安装（GPU\u002FCPU推荐）](#方法-1-一键安装gpucpu推荐)\n    - [方法 2: 手动安装](#方法-2-手动安装)\n  - [4. ‼️安装依赖](#4-️安装依赖)\n    - [方法 1: 一键安装（推荐）](#方法-1-一键安装推荐)\n    - [方法 2: 手动安装](#方法-2-手动安装-1)\n  - [5. ‼️验证安装](#5-️验证安装)\n- [🔥教程](#教程)\n- [📱模型库](#模型库)\n- [🏆特色模型|工具](#特色模型工具)\n  - [💎PP-DocBee文档理解特色模型](#pp-docbee文档理解特色模型)\n  - [💎PP-VCtrl视频生成控制模型](#pp-vctrl视频生成控制模型)\n  - [💎多模态数据处理工具箱DataCopilot](#多模态数据处理工具箱datacopilot)\n- [🤔FAQ](#faq)\n- [❤️致谢](#️致谢)\n- [📝许可证书](#许可证书)\n- [📌社区交流](#社区交流)\n- [🎯引用](#引用)\n\n## 📰新闻\n**🔥2025.04.21日FLUX多模态文生图大模型功能抢先体验**\n\n- 🔥🔥多模态大模型PaddleMIX产业实战精品课第五弹：《FLUX多模态文生图大模型功能抢先体验》。本期课程将带你在PaddleMIX框架中快速体验FLUX系列模型的多模态文生图能力。深度解析模型实现细节与技术创新，带您实操多模态生成任务处理。4月21日正式开营，名额有限，先到先得：https:\u002F\u002Fwww.wjx.top\u002Fvm\u002FQTuwoyG.aspx?udsid=997416\n\n\n\n## 📣最新进展\n**🔥2025.07.14 发布[Fast-Diffusers](ppdiffusers\u002Fexamples\u002FFast-Diffusers)扩散模型推理加速工具包**\n* Training-Free：新增[T-gate](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Ftgate)，[PAB](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fpab)，[TeaCache](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fteacache)，[TaylorSeer](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Ftaylorseer)，[BlockDance](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fblockdance)等SOTA Training-Free算法。发布了自研算法[SortBlock](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fsortblock)，[TeaBlockCache](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fteablockcache), [CG-Taylor](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002FCG-Taylor\u002F)和[FirstBlockTaylor](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Ffirstblock_taylorseer)算法，在保证生成图像质量的同时，实现2倍以上的端到端推理加速效果\n* 扩散模型时间步蒸馏：新增[PCM](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002Fdiffusion-distill\u002Fphased_consistency_distillation)，[DMD2](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002Fdiffusion-distill\u002F\u002Fdmd2)等蒸馏算法，并提供了多种蒸馏loss供开发者灵活搭配。同时基于上述蒸馏算法，发布了基于FLUX-dev的4步蒸馏模型，配合飞桨深度学习编译器，推理时延降低至1.66秒。\n\n\n**🔥2025.05.09 发布PaddleMIX v3.0-beta**\n* 多模态理解：新增Qwen2.5VL系列，DeepSeek-VL2等；发布自研[PP-DocBee](.\u002Fpaddlemix\u002Fexamples\u002Fppdocbee)文档理解多模态大模型，新增[Qwen2.5VL高性能推理部署](deploy\u002Fqwen2_5_vl)，性能领先vllm 11.5%\n* 多模态生成：发布[PPDiffusers 0.29.1](.\u002Fppdiffusers\u002FREADME.md)版本，发布自研可控视频模型[PP-VCtrl](.\u002Fppdiffusers\u002Fexamples\u002Fppvctrl\u002FREADME_CN.md)，新增对SD3 ControlNet和SD3.5的支持。\n\n\n**🎉 2025.01.08 发布自研[PP-VCtrl](.\u002Fppdiffusers\u002Fexamples\u002Fppvctrl\u002FREADME_CN.md)视频生成控制模型**\n* PP-VCtrl 是一个通用的视频生成控制模型，可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。\n\n\n**🎉 2025.01.02 发布自研[PP-DocBee](.\u002Fpaddlemix\u002Fexamples\u002Fppdocbee)文档理解多模态大模型**\n* PP-DocBee是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上，PP-DocBee均达到同参数量级别模型的SOTA水平。\n\n\n\n\u003Cdetails>\n\u003Csummary>点击展开更多\u003C\u002Fsummary>\n\n**🎉 2024.10.31 喜迎外部开发者的[创作教程页面](paddlemix_applications.md)更新**\n\n* 🌟 自9月6日发起大模型套件精品项目征集活动以来,我们收到了30个优质开发者项目,其中25个精品项目已通过平台评估并成功加精。\n\n* 🙏 衷心感谢各位开发者基于套件的精彩创作！🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或[飞桨AI Studio](https:\u002F\u002Faistudio.baidu.com\u002Faistudio\u002Fcommunity\u002Fmultimodal?from=singlemessage)社区！\n\n**🔥2024.10.11 发布PaddleMIX v2.1**\n* 支持[PaddleNLP 3.0 beta](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleNLP\u002Freleases\u002Ftag\u002Fv3.0.0-beta0)版本，抢先体验其最新功能。\n* 新增[Qwen2-VL](.\u002Fpaddlemix\u002Fexamples\u002Fqwen2_vl\u002F)、[InternVL2](.\u002Fpaddlemix\u002Fexamples\u002Finternvl2\u002F)、[Stable Diffusion 3 (SD3)](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fblob\u002Fdevelop\u002Fppdiffusers\u002Fexamples\u002Fdreambooth\u002FREADME_sd3.md)等前沿模型。\n* 发布自研多模数据能力标签模型[PP-InsCapTagger](.\u002Fpaddlemix\u002Fdatacopilot\u002Fexample\u002Fpp_inscaptagger\u002F)；可用于数据的分析和过滤，试验案例表明在保持模型效果的条件下可减少50%的数据量，大幅提高训练效率。\n\n* 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B，提供国产计算芯片上的训推能力。\n\n\n**2024.07.25 发布PaddleMIX v2.0**\n* 多模态理解：新增LLaVA系列，Qwen-VL等；新增Auto模块统一SFT训练流程；新增mixtoken训练策略，SFT吞吐量提升5.6倍。\n* 多模态生成：发布[PPDiffusers 0.24.1](.\u002Fppdiffusers\u002FREADME.md)版本，支持视频生成能力，文生图模型新增LCM。新增飞桨版peft，accelerate后端。提供基于飞桨开发的ComfyUI插件。\n* 多模态数据处理工具箱[DataCopilot](.\u002Fpaddlemix\u002Fdatacopilot\u002F)：支持自定义数据结构，数据转换，离线格式检查；支持基本的统计信息，数据可视化功能。\n\n**2023.10.7 发布 PaddleMIX v1.0**\n* 新增图文预训练模型分布式训练能力，BLIP-2支持千亿规模训练\n* 新增跨模态应用流水线[AppFlow](.\u002Fapplications\u002FREADME.md)，一键支持自动标注，图像编辑，音生图等11种跨模态应用\n* [PPDiffusers](.\u002Fppdiffusers\u002FREADME.md)发布 0.19.3 版本，新增SDXL及相关任务\n\n\u003C\u002Fdetails>\n\n---\n\n## 🌈简介\n\nPaddleMIX是基于飞桨的多模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖视觉语言预训练，微调，文生图，文生视频，多模态理解等丰富的多模态任务。它提供开箱即用的开发体验，同时支持灵活定制，满足不同需求，助力探索通用人工智能。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_251a04d1f84c.png\" align=\"middle\" width = 100% \u002F>\n\u003C\u002Fp>\n\n\n\n\n### 特色应用效果示例如下（点击标题可快速跳转在线体验）：\n|                                                  [**ComfyUI创作工作流**](https:\u002F\u002Faistudio.baidu.com\u002Fcommunity\u002Fapp\u002F106043)                                                  |                                                [**R1+MIX多模态应用**](https:\u002F\u002Faistudio.baidu.com\u002Fapplication\u002Fdetail\u002F65916)                                                |                                                  [**多模态文档理解**](https:\u002F\u002Faistudio.baidu.com\u002Fapplication\u002Fdetail\u002F60135)                                                  |\n| :--------------------------------------------------------------------------------------------------------------------------------------------: | :----------------------------------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------------------------: |\n| \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_d08de375a128.png' width=\"300px\"> | \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_82225e9459cd.png'  width=\"300px\"> | \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_93e5bbe6a3ac.png'  width=\"300px\"> |\n|                                                  [**二次元文生图**](https:\u002F\u002Faistudio.baidu.com\u002Fcommunity\u002Fapp\u002F2\u002FwebUI?source=appCenter)                                                   |                                                     [**AI绘画｜50+Lora风格叠加**](https:\u002F\u002Faistudio.baidu.com\u002Fcommunity\u002Fapp\u002F2848\u002FwebUI?source=appCenter)                                                     |                                               [**视频编辑**](https:\u002F\u002Faistudio.baidu.com\u002Fcommunity\u002Fapp\u002F1981\u002FwebUI?source=appCenter)                                               |\n| \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_05f55b4dea2d.png' width=\"180px\"> | \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_ff9848594d76.png'  width=\"180px\"> | \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_754c2e4880d5.png'  width=\"200px\"> |\n\n\n其他特色应用示例，请查看[PaddleMIX精品项目](.\u002Fpaddlemix_applications.md)\n\n-----\n\n## ✨主要特性\n\n### 📱丰富的多模态模型库\nPaddleMIX支持大量最新主流的算法基准以及预训练模型，覆盖图文预训练，文生图，跨模态视觉任务，实现图像编辑、图像描述、数据标注等多样功能。`传送门`：[📱模型库](#模型库)\n\n### 🧩全流程开发体验\nPaddleMIX 向开发者提供全流程多模态大模型开发体验，包括数据处理，模型开发，预训练，精调，推理部署。并针对不同任务提供了推荐模型最佳实践。`传送门`：[📱最佳实践](#最佳实践)\n\n### 💡高性能分布式训推能力\nPaddleMIX提供高性能分布式训练与推理能力，基于飞桨4D混合并行策略、算子融合等优化策略，显著提升多模态大模型训练推理性能。`传送门`：[📱benchmark](#benchmark)\n\n\n### 🔧特色模型与工具\nPaddleMIX发布文档理解模型PP-DocBee，统一可控视频生成模型PP-VCtrl，特色数据处理工具箱DataCopilot，加速多模态大模型产业应用落地，`传送门`：[🏆特色模型工具](#特色模型工具)\n\n\n## 🔍安装\n### 1. 克隆PaddleMIX仓库\n```\ngit clone https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\ncd PaddleMIX\n```\n\n### 2. 创建虚拟环境\n```\nconda create -n paddlemix python=3.10 -y\nconda activate paddlemix\n```\n### 3. ‼️安装PaddlePaddle\n\n#### 方法 1: 一键安装（GPU\u002FCPU推荐）\n\n- CUDA 11.x或12.x\n- PaddlePaddle 3.1.0\n```\nsh build_paddle_env.sh\n```\n\n#### 方法 2: 手动安装\n关于PaddlePaddle安装的详细教程请查看[Installation](https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Finstall\u002Fquick?docurl=\u002Fdocumentation\u002Fdocs\u002Fzh\u002Fdevelop\u002Finstall\u002Fpip\u002Flinux-pip.html)。\n\n### 4. ‼️安装依赖\n\n#### 方法 1: 一键安装（推荐）\n\n运行以下命令来自动安装所有必要的依赖:\n```\nsh build_env.sh\n```\n\n#### 方法 2: 手动安装\n```bash\n# 安装 PaddleMIX\npip install -e .\n# 安装 ppdiffusers\ncd ppdiffusers\npip install -e .\ncd ..\n```\n### 5. ‼️验证安装\n```bash\nsh check_env.sh\n\n环境和依赖推荐版本:\n- paddlepaddle: 3.1.0或develop版本\n- paddlenlp: 3.0.0b4\n- ppdiffusers: 0.30.0\n- huggingface_hub: 0.23.0\n```\n\n## 🔥教程\n\n**多模态大模型入门教程**\n- [零基础入门深度学习](https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Ftutorials\u002Fprojectdetail\u002F5604804)\n- [多模态前沿模型入门教程](.\u002Fdocs\u002Ftutorial\u002Falgorithm_tutorial.md)\n\n\n**快速开始**\n- [图像摘要快速体验](.\u002Fdocs\u002Fquick_start\u002Fimage_caption.ipynb)\n- [图像生成快速体验](.\u002Fdocs\u002Fquick_start\u002Fquick_start_SD3.ipynb)\n- [PaddleMIX WebUI使用](.\u002Fpaddlemix\u002FMULLM_WebUI\u002FREADME.md)\n\n\n**最佳实践**\n- [热门任务和推荐模型](.\u002Fdocs\u002Ftutorial\u002Fmodel_recommandation.md)\n- 多模态理解\n  - [Qwen2.5-VL最佳实践](.\u002Fpaddlemix\u002Fexamples\u002Fqwen2_5_vl\u002FREADME.md)\n  - [Qwen2-VL最佳实践](.\u002Fpaddlemix\u002Fexamples\u002Fqwen2_vl\u002FREADME.md)\n  - [Intern-VL2最佳实践](.\u002Fpaddlemix\u002Fexamples\u002Finternvl2\u002FREADME.md)\n  - [LLaVA最佳实践](.\u002Fpaddlemix\u002Fexamples\u002Fllava\u002FREADME.md)\n- 多模态生成\n  - [Stable Diffusion 3最佳实践](.\u002Fppdiffusers\u002Fexamples\u002Fstable_diffusion\u002Fstable-diffusion-3.md)\n  - [Stable Diffusion最佳实践](.\u002Fppdiffusers\u002Fexamples\u002Fstable_diffusion\u002FREADME.md)\n  - [ControlNet最佳实践](.\u002Fppdiffusers\u002Fexamples\u002Fcontrolnet\u002FREADME.md)\n  - [CogVideoX最佳实践](.\u002Fppdiffusers\u002Fexamples\u002Fcogvideo\u002FREADME.md)\n\n\n**benchmark**\n- [训练benchmark](.\u002Fdocs\u002Fbenchmark\u002Ftrain_benchmark.md)\n- [推理部署benchmark](.\u002Fdocs\u002Fbenchmark\u002Finference_benchmark.md)\n\n\n**多模态应用案例**\n\n- [SDXL应用：打造专属奥运海报生成器](https:\u002F\u002Faistudio.baidu.com\u002Fprojectdetail\u002F8251202)\n- [PaddleMIX 多模态大模型创意工坊](.\u002Fapplications\u002FMULLM\u002FREADME.md)\n- [飞桨PaddleMIX跨模态AI应用：项目分类汇总](.\u002Fpaddlemix_applications.md)\n\n\n**多硬件使用**\n- 昇腾910B支持的模型列表和使用方式，可以参考[昇腾硬件使用](.\u002Fdocs\u002Fhardware_support\u002Fascend_usage.md)\n- 昆仑P800支持的模型列表和使用方式，可以参考[昆仑硬件使用](.\u002Fdocs\u002Fhardware_support\u002FKL_usage.md)\n\n\n## 📱模型库\n\u003Ctable align=\"center\">\n  \u003Ctbody>\n    \u003Ctr align=\"center\" valign=\"center\">\n      \u003Ctd>\n        \u003Cb>多模态理解\u003C\u002Fb>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cb>多模态生成\u003C\u002Fb>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cb>多模态大一统\u003C\u002Fb>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr valign=\"top\">\n      \u003Ctd>\n        \u003Cul>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>图文预训练\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fclip\">CLIP\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fevaclip\">EVA-CLIP\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava\">LLaVA-1.5\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava\">LLaVA-1.6\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava\">LLaVA-NeXT\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava_onevision\">LLaVA-onevision\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava_onevision\">Aquila-VL-2B-llava-qwen\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava_critic\">LLaVA-Critic\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava_denseconnector\">LLaVA-DenseConnector\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fqwen_vl\">Qwen-VL\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fqwen2_vl\">Qwen2-VL\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fqwen2_5_vl\">Qwen2.5-VL\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Finternvl2\">InternVL2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fminimonkey\">Mini-Monkey\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fcoca\">CoCa\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fblip2\">BLIP-2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fminigpt4\">miniGPT-4\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fvisualglm\">VIsualGLM\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fcogvlm\">CogVLM && CogAgent\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Finternlm_xcomposer2\">InternLM-XComposer2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fdeepseek_vl2\">DeepSeek-VL2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Faria\">Aria\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002FGOT_OCR_2_0\">GOT_OCR 2.0\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fppdocbee\">PP-DocBee\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ful>\n          \u003Cli>\u003Cb>开放世界视觉模型\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fgroundingdino\">Grounding DINO\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fsam\">SAM\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fsam2\">SAM2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002FYOLO-World\">YOLO-World\u003C\u002Fa>\u003C\u002Fli>\n      \u003C\u002Ful>\n      \u003C\u002Ful>\n          \u003Cli>\u003Cb>更多模态预训练模型\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fimagebind\">ImageBind\u003C\u002Fa>\u003C\u002Fli>\n      \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>文生图\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fstable_diffusion\">Stable Diffusion\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fstable_diffusion_xl\">SDXL\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fdreambooth\u002FREADME_sd3.md\">Stable Diffusion 3 (SD3)\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fcontrolnet\">ControlNet\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Ft2i-adapter\">T2I-Adapter\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Ftext_to_image_laion400m\">LDM\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fconsistency_models\">Consistency Models\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fdeepfloyd_if\">DeepFloyd IF\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fshap_e\">Shap-E\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fkandinsky2_2\">Kandinsky-2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fwuerstchen\">Würstchen\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fhotshot_xl\">Hotshot-XL\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Flatent_consistency_models\">LCMs\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Funidiffuser\">Unidiffuser\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fclass_conditional_image_generation\u002FDiT\">DiT\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002FHunyuanDiT\">HunyuanDiT\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>文生视频\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Ftext_to_video_lvdm\">LVDM\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fstable_video_diffusion\">SVD\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002FAnimateAnyone\">AnimateAnyone\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002FOpen-Sora\">OpenSora\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fanimatediff\">AnimateDiff\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Ftext_to_video_synthesis\">zeroscope_v2_XL\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fcogvideo\">CogVideoX\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fppvctrl\">PP-VCtrl\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>音频生成\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Faudioldm\">AudioLDM\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Faudioldm2\">AudioLDM2\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>统一多模态模型\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n          \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fjanus\">Janus\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fshowo\">Showo\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Femu3\">Emu3\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n更多模型能力，可参考[模型能力矩阵](.\u002Fpaddlemix\u002Fexamples\u002FREADME.md)\n\n\n## 🏆特色模型|工具\n\n### 💎PP-DocBee文档理解特色模型\n\nPaddleMIX提出了[PP-DocBee](.\u002Fpaddlemix\u002Fexamples\u002Fppdocbee)，基于多模态大模型实现端到端的文档图像理解。它可以高效地应用在各类场景的文档理解、文档问答等，尤其是对中文的文档类理解的场景，达到了同参数量级别模型的SOTA水平。\n\n\n\n\n### 💎PP-VCtrl视频生成控制模型\n\nPaddleMIX提出了[PP-VCtrl](.\u002Fppdiffusers\u002Fexamples\u002Fppvctrl\u002FREADME_CN.md)，一个统一的可控视频生成模型，实现了对各类控制信号的灵活接入和精确控制。可以高效地应用在各类视频生成场景中，尤其是人物动画、场景转换、视频编辑等需要精确控制的任务。\n\n\n\n\n### 💎多模态数据处理工具箱DataCopilot\n\n\u003Csummary>\u003Cb> 简介\u003C\u002Fb>\u003C\u002Fsummary>\n\n在真实的应用场景有大量使用专有数据微调多模态大模型来提升模型效果的需求，此过程中数据要素成为核心。基于此PaddleMIX提供了数据处理和分析的工具DataCopilot，使开发者可在PaddleMIX套件完成端到端的开发体验。`传送门`：[DataCopilot使用文档](paddlemix\u002Fdatacopilot\u002Freadme.md)。\n\nPP-InsCapTagger(Instance Capability Tagger) 是 DataCopilot 基于 PaddleMIX 实现的数据集能力标签模型，用于为多模态数据实例能力打标，通过实例能力分布对数据集进行优化，可以提高模型训练效率，为数据集分析和评价提供了一种高效的方案。 结合模型推理打标结果对LLaVA SFT数据集进行优化，可以**提高LLaVA模型SFT阶段50%的训练效率。**\n\n\u003Cdetails>\n\u003Csummary>\u003Cb> PP-InsCapTagger效果(点击展开)\u003C\u002Fb>\u003C\u002Fsummary>\n\n| Model                           | ScienceQA                               | TextVQA                                | VQAv2                                  | GQA                                    | MMMU                                   | MME                                     |\n|----------------------------------|-----------------------------------------|----------------------------------------|----------------------------------------|----------------------------------------|----------------------------------------|-----------------------------------------|\n| llava-1.5-7b (origin)            | 66.8                                    | 58.2                                   | 78.5                                   | 62                                     | -                                      | -                                       |\n| llava-1.5-7b (rerun)             | 69.01                                   | 57.6                                   | 79                                     | 62.95                                  | 36.89                                  | 1521\u003Cbr>323                             |\n| llava-1.5-7b (random 50%)        | 67.31                                   | 55.6                                   | 76.89                                  | 61.01                                  | 34.67                                  | 1421\u003Cbr>286                             |\n| **llava-1.5-7b (our 50%)**       | **70.24** *(+2.93)*                     | **57.12** *(+1.52)*                    | **78.32** *(+1.43)*                    | **62.14** *(+1.13)*                    | **37.11** *(+2.44)*                    | **1476** *(+55)*\u003Cbr>**338** *(+52)*    |\n\n\n`传送门`：[pp_inscaptagger使用文档](paddlemix\u002Fdatacopilot\u002Fexample\u002Fpp_inscaptagger\u002Freadme.md)。\n\u003C\u002Fdetails>\n\n\n## 🤔FAQ\n关于我们项目的一些常见问题解答，请参考[FAQ](docs\u002FFAQ.md)。如果您的问题没有得到解答，请随时在[Issues](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fissues)中提出\n\n\n## ❤️致谢\n\n- PaddleMIX的部分模块和案例设计借鉴了 Hugging Face 的[Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)🤗关于预训练模型使用的优秀设计，在此对 Hugging Face 作者及其开源社区表示感谢。\n\n- PaddleMIX 的部分案例和代码由以下优秀社区开发者贡献，（完整的贡献者请参考: [Contributors](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fgraphs\u002Fcontributors)）：\n    [co63oc](https:\u002F\u002Fgithub.com\u002Fco63oc)，\n    [CrazyBoyM](https:\u002F\u002Fgithub.com\u002FCrazyBoyM)，\n    [KPCOFGS](https:\u002F\u002Fgithub.com\u002FKPCOFGS)，\n    [pkhk-1](https:\u002F\u002Fgithub.com\u002Fpkhk-1)，\n    [1649759610](https:\u002F\u002Fgithub.com\u002F1649759610)，\n    [DrRyanHuang](https:\u002F\u002Fgithub.com\u002FDrRyanHuang)，\n    [zhiboniu](https:\u002F\u002Fgithub.com\u002Fzhiboniu)，\n    [cocoshe](https:\u002F\u002Fgithub.com\u002Fcocoshe)，\n    [sneaxiy](https:\u002F\u002Fgithub.com\u002Fsneaxiy)，\n    [yangrongxinuser](https:\u002F\u002Fgithub.com\u002Fyangrongxinuser)，\n    [cheng221](https:\u002F\u002Fgithub.com\u002Fcheng221)，\n    [Liyulingyue](https:\u002F\u002Fgithub.com\u002FLiyulingyue)，\n    [zhoutianzi666](https:\u002F\u002Fgithub.com\u002Fzhoutianzi666)，\n    [Birdylx](https:\u002F\u002Fgithub.com\u002FBirdylx)，\n    [FeixLiu](https:\u002F\u002Fgithub.com\u002FFeixLiu)，\n    [Tsaiyue](https:\u002F\u002Fgithub.com\u002FTsaiyue)，\n    [fightfat](https:\u002F\u002Fgithub.com\u002Ffightfat)，\n    [warrentdrew](https:\u002F\u002Fgithub.com\u002Fwarrentdrew)，\n    [swagger-coder](https:\u002F\u002Fgithub.com\u002Fswagger-coder)\n    ...\n\n- 感谢星河(AIStudio)社区的项目达人们开发了众多有趣的应用，为PaddleMIX的发展创造了更多可能性。特别感谢以下活跃的项目达人（完整名单请参见[AIStudio 项目达人推荐榜](https:\u002F\u002Faistudio.baidu.com\u002Fprojectoverview)）：\n    [好想成为PPDE（已成为版）](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F2553954)，\n    [旭_1994](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F9044961)，\n    [knoka](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F2258742)，\n    [魔术师](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F710848)，\n    [非鱼子焉](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F91451)\n    ...\n\n\n## 📝许可证书\n\n本项目的发布受[Apache 2.0 license](LICENSE)许可认证。\n\n## 📌社区交流\n\n- 微信扫描二维码并填写问卷，即可加入交流群与众多社区开发者以及官方团队深度交流。\n\u003Cdiv align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_25a8ea9775b1.png\" width=\"300\" height=\"300\" \u002F>\n\u003C\u002Fdiv>\n\n\n\n## 🎯引用\n```\n@misc{paddlemix2023,\n  title={PaddleMIX, Paddle Multimodal Integration and eXploration.},\n  author={PaddlePaddle Authors},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX}},\n  year={2023}\n}\n```\n","简体中文 | [English](README_EN.md)\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_5e8e4cbc2a55.png\" align=\"middle\" width = \"600\" \u002F>\n\u003C\u002Fp>\n\n\u003Cp align=\"center\">\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMix\u002Freleases\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fv\u002Frelease\u002FPaddlePaddle\u002FPaddleMix?color=ffa\">\u003C\u002Fa>\n    \u003Ca href=\".\u002FLICENSE\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-Apache%202-dfd.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fpython-3.7+-aff.svg\">\u003C\u002Fa>\n    \u003Ca href=\"\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fos-linux-pink.svg\">\u003C\u002Fa>\n    \u003Ca href=\"#📌社区交流\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F微信-小助手加群-green?logo=wechat&amp\">\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fstargazers\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FPaddlePaddle\u002FPaddleMIX?color=ccf\">\u003C\u002Fa>\n\n\u003C\u002Fp>\n\u003C\u002Fdiv>\n\n## 💌目录\n- [💌目录](#目录)\n- [📰新闻](#新闻)\n- [📣最新进展](#最新进展)\n- [🌈简介](#简介)\n  - [特色应用效果示例如下（点击标题可快速跳转在线体验）：](#特色应用效果示例如下点击标题可快速跳转在线体验)\n- [✨主要特性](#主要特性)\n  - [📱丰富的多模态模型库](#丰富的多模态模型库)\n  - [🧩全流程开发体验](#全流程开发体验)\n  - [💡高性能分布式训推能力](#高性能分布式训推能力)\n  - [🔧特色模型与工具](#特色模型与工具)\n- [🔍安装](#安装)\n  - [1. 克隆PaddleMIX仓库](#1-克隆paddlemix仓库)\n  - [2. 创建虚拟环境](#2-创建虚拟环境)\n  - [3. ‼️安装PaddlePaddle](#3-️安装paddlepaddle)\n    - [方法 1: 一键安装（GPU\u002FCPU推荐）](#方法-1-一键安装gpucpu推荐)\n    - [方法 2: 手动安装](#方法-2-手动安装)\n  - [4. ‼️安装依赖](#4-️安装依赖)\n    - [方法 1: 一键安装（推荐）](#方法-1-一键安装推荐)\n    - [方法 2: 手动安装](#方法-2-手动安装-1)\n  - [5. ‼️验证安装](#5-️验证安装)\n- [🔥教程](#教程)\n- [📱模型库](#模型库)\n- [🏆特色模型|工具](#特色模型工具)\n  - [💎PP-DocBee文档理解特色模型](#pp-docbee文档理解特色模型)\n  - [💎PP-VCtrl视频生成控制模型](#pp-vctrl视频生成控制模型)\n  - [💎多模态数据处理工具箱DataCopilot](#多模态数据处理工具箱datacopilot)\n- [🤔FAQ](#faq)\n- [❤️致谢](#️致谢)\n- [📝许可证书](#许可证书)\n- [📌社区交流](#社区交流)\n- [🎯引用](#引用)\n\n## 📰新闻\n**🔥2025.04.21日FLUX多模态文生图大模型功能抢先体验**\n\n- 🔥🔥多模态大模型PaddleMIX产业实战精品课第五弹：《FLUX多模态文生图大模型功能抢先体验》。本期课程将带你在PaddleMIX框架中快速体验FLUX系列模型的多模态文生图能力。深度解析模型实现细节与技术创新，带您实操多模态生成任务处理。4月21日正式开营，名额有限，先到先得：https:\u002F\u002Fwww.wjx.top\u002Fvm\u002FQTuwoyG.aspx?udsid=997416\n\n\n\n## 📣最新进展\n**🔥2025.07.14 发布[Fast-Diffusers](ppdiffusers\u002Fexamples\u002FFast-Diffusers)扩散模型推理加速工具包**\n* Training-Free：新增[T-gate](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Ftgate)，[PAB](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fpab)，[TeaCache](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fteacache)，[TaylorSeer](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Ftaylorseer)，[BlockDance](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fblockdance)等SOTA Training-Free算法。发布了自研算法[SortBlock](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fsortblock)，[TeaBlockCache](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Fteablockcache), [CG-Taylor](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002FCG-Taylor\u002F)和[FirstBlockTaylor](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002FTraining-Free\u002Ffirstblock_taylorseer)算法，在保证生成图像质量的同时，实现2倍以上的端到端推理加速效果\n* 扩散模型时间步蒸馏：新增[PCM](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002Fdiffusion-distill\u002Fphased_consistency_distillation)，[DMD2](ppdiffusers\u002Fexamples\u002FFast-Diffusers\u002Fdiffusion-distill\u002F\u002Fdmd2)等蒸馏算法，并提供了多种蒸馏loss供开发者灵活搭配。同时基于上述蒸馏算法，发布了基于FLUX-dev的4步蒸馏模型，配合飞桨深度学习编译器，推理时延降低至1.66秒。\n\n\n**🔥2025.05.09 发布PaddleMIX v3.0-beta**\n* 多模态理解：新增Qwen2.5VL系列，DeepSeek-VL2等；发布自研[PP-DocBee](.\u002Fpaddlemix\u002Fexamples\u002Fppdocbee)文档理解多模态大模型，新增[Qwen2.5VL高性能推理部署](deploy\u002Fqwen2_5_vl)，性能领先vllm 11.5%\n* 多模态生成：发布[PPDiffusers 0.29.1](.\u002Fppdiffusers\u002FREADME.md)版本，发布自研可控视频模型[PP-VCtrl](.\u002Fppdiffusers\u002Fexamples\u002Fppvctrl\u002FREADME_CN.md)，新增对SD3 ControlNet和SD3.5的支持。\n\n\n**🎉 2025.01.08 发布自研[PP-VCtrl](.\u002Fppdiffusers\u002Fexamples\u002Fppvctrl\u002FREADME_CN.md)视频生成控制模型**\n* PP-VCtrl 是一个通用的视频生成控制模型，可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。\n\n\n**🎉 2025.01.02 发布自研[PP-DocBee](.\u002Fpaddlemix\u002Fexamples\u002Fppdocbee)文档理解多模态大模型**\n* PP-DocBee是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上，PP-DocBee均达到同参数量级别模型的SOTA水平。\n\n\n\n\u003Cdetails>\n\u003Csummary>点击展开更多\u003C\u002Fsummary>\n\n**🎉 2024.10.31 喜迎外部开发者的[创作教程页面](paddlemix_applications.md)更新**\n\n* 🌟 自9月6日发起大模型套件精品项目征集活动以来,我们收到了30个优质开发者项目,其中25个精品项目已通过平台评估并成功加精。\n\n* 🙏 衷心感谢各位开发者基于套件的精彩创作！🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或[飞桨AI Studio](https:\u002F\u002Faistudio.baidu.com\u002Faistudio\u002Fcommunity\u002Fmultimodal?from=singlemessage)社区！\n\n**🔥2024.10.11 发布PaddleMIX v2.1**\n* 支持[PaddleNLP 3.0 beta](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleNLP\u002Freleases\u002Ftag\u002Fv3.0.0-beta0)版本，抢先体验其最新功能。\n* 新增[Qwen2-VL](.\u002Fpaddlemix\u002Fexamples\u002Fqwen2_vl\u002F)、[InternVL2](.\u002Fpaddlemix\u002Fexamples\u002Finternvl2\u002F)、[Stable Diffusion 3 (SD3)](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fblob\u002Fdevelop\u002Fppdiffusers\u002Fexamples\u002Fdreambooth\u002FREADME_sd3.md)等前沿模型。\n* 发布自研多模数据能力标签模型[PP-InsCapTagger](.\u002Fpaddlemix\u002Fdatacopilot\u002Fexample\u002Fpp_inscaptagger\u002F)；可用于数据的分析和过滤，试验案例表明在保持模型效果的条件下可减少50%的数据量，大幅提高训练效率。\n\n* 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B，提供国产计算芯片上的训推能力。\n\n\n**2024.07.25 发布PaddleMIX v2.0**\n* 多模态理解：新增LLaVA系列，Qwen-VL等；新增Auto模块统一SFT训练流程；新增mixtoken训练策略，SFT吞吐量提升5.6倍。\n* 多模态生成：发布[PPDiffusers 0.24.1](.\u002Fppdiffusers\u002FREADME.md)版本，支持视频生成能力，文生图模型新增LCM。新增飞桨版peft，accelerate后端。提供基于飞桨开发的ComfyUI插件。\n* 多模态数据处理工具箱[DataCopilot](.\u002Fpaddlemix\u002Fdatacopilot\u002F)：支持自定义数据结构，数据转换，离线格式检查；支持基本的统计信息，数据可视化功能。\n\n**2023.10.7 发布 PaddleMIX v1.0**\n* 新增图文预训练模型分布式训练能力，BLIP-2支持千亿规模训练\n* 新增跨模态应用流水线[AppFlow](.\u002Fapplications\u002FREADME.md)，一键支持自动标注，图像编辑，音生图等11种跨模态应用\n* [PPDiffusers](.\u002Fppdiffusers\u002FREADME.md)发布 0.19.3 版本，新增SDXL及相关任务\n\n\u003C\u002Fdetails>\n\n---\n\n## 🌈简介\n\nPaddleMIX是基于飞桨的多模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖视觉语言预训练，微调，文生图，文生视频，多模态理解等丰富的多模态任务。它提供开箱即用的开发体验，同时支持灵活定制，满足不同需求，助力探索通用人工智能。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_251a04d1f84c.png\" align=\"middle\" width = 100% \u002F>\n\u003C\u002Fp>\n\n### 特色应用效果示例如下（点击标题可快速跳转在线体验）：\n|                                                  [**ComfyUI创作工作流**](https:\u002F\u002Faistudio.baidu.com\u002Fcommunity\u002Fapp\u002F106043)                                                  |                                                [**R1+MIX多模态应用**](https:\u002F\u002Faistudio.baidu.com\u002Fapplication\u002Fdetail\u002F65916)                                                |                                                  [**多模态文档理解**](https:\u002F\u002Faistudio.baidu.com\u002Fapplication\u002Fdetail\u002F60135)                                                  |\n| :--------------------------------------------------------------------------------------------------------------------------------------------: | :----------------------------------------------------------------------------------------------------------------------------------------------: | :--------------------------------------------------------------------------------------------------------------------------------------: |\n| \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_d08de375a128.png' width=\"300px\"> | \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_82225e9459cd.png'  width=\"300px\"> | \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_93e5bbe6a3ac.png'  width=\"300px\"> |\n|                                                  [**二次元文生图**](https:\u002F\u002Faistudio.baidu.com\u002Fcommunity\u002Fapp\u002F2\u002FwebUI?source=appCenter)                                                   |                                                     [**AI绘画｜50+Lora风格叠加**](https:\u002F\u002Faistudio.baidu.com\u002Fcommunity\u002Fapp\u002F2848\u002FwebUI?source=appCenter)                                                     |                                               [**视频编辑**](https:\u002F\u002Faistudio.baidu.com\u002Fcommunity\u002Fapp\u002F1981\u002FwebUI?source=appCenter)                                               |\n| \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_05f55b4dea2d.png' width=\"180px\"> | \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_ff9848594d76.png'  width=\"180px\"> | \u003Cimg src='https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_754c2e4880d5.png'  width=\"200px\"> |\n\n\n其他特色应用示例，请查看[PaddleMIX精品项目](.\u002Fpaddlemix_applications.md)\n\n-----\n\n## ✨主要特性\n\n### 📱丰富的多模态模型库\nPaddleMIX支持大量最新主流的算法基准以及预训练模型，覆盖图文预训练，文生图，跨模态视觉任务，实现图像编辑、图像描述、数据标注等多样功能。`传送门`：[📱模型库](#模型库)\n\n### 🧩全流程开发体验\nPaddleMIX 向开发者提供全流程多模态大模型开发体验，包括数据处理，模型开发，预训练，精调，推理部署。并针对不同任务提供了推荐模型最佳实践。`传送门`：[📱最佳实践](#最佳实践)\n\n### 💡高性能分布式训推能力\nPaddleMIX提供高性能分布式训练与推理能力，基于飞桨4D混合并行策略、算子融合等优化策略，显著提升多模态大模型训练推理性能。`传送门`：[📱benchmark](#benchmark)\n\n\n### 🔧特色模型与工具\nPaddleMIX发布文档理解模型PP-DocBee，统一可控视频生成模型PP-VCtrl，特色数据处理工具箱DataCopilot，加速多模态大模型产业应用落地，`传送门`：[🏆特色模型工具](#特色模型工具)\n\n\n## 🔍安装\n### 1. 克隆PaddleMIX仓库\n```\ngit clone https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\ncd PaddleMIX\n```\n\n### 2. 创建虚拟环境\n```\nconda create -n paddlemix python=3.10 -y\nconda activate paddlemix\n```\n### 3. ‼️安装PaddlePaddle\n\n#### 方法 1: 一键安装（GPU\u002FCPU推荐）\n\n- CUDA 11.x或12.x\n- PaddlePaddle 3.1.0\n```\nsh build_paddle_env.sh\n```\n\n#### 方法 2: 手动安装\n关于PaddlePaddle安装的详细教程请查看[Installation](https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Finstall\u002Fquick?docurl=\u002Fdocumentation\u002Fdocs\u002Fzh\u002Fdevelop\u002Finstall\u002Fpip\u002Flinux-pip.html)。\n\n### 4. ‼️安装依赖\n\n#### 方法 1: 一键安装（推荐）\n\n运行以下命令来自动安装所有必要的依赖:\n```\nsh build_env.sh\n```\n\n#### 方法 2: 手动安装\n```bash\n# 安装 PaddleMIX\npip install -e .\n# 安装 ppdiffusers\ncd ppdiffusers\npip install -e .\ncd ..\n```\n### 5. ‼️验证安装\n```bash\nsh check_env.sh\n\n环境和依赖推荐版本:\n- paddlepaddle: 3.1.0或develop版本\n- paddlenlp: 3.0.0b4\n- ppdiffusers: 0.30.0\n- huggingface_hub: 0.23.0\n```\n\n## 🔥教程\n\n**多模态大模型入门教程**\n- [零基础入门深度学习](https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Ftutorials\u002Fprojectdetail\u002F5604804)\n- [多模态前沿模型入门教程](.\u002Fdocs\u002Ftutorial\u002Falgorithm_tutorial.md)\n\n\n**快速开始**\n- [图像摘要快速体验](.\u002Fdocs\u002Fquick_start\u002Fimage_caption.ipynb)\n- [图像生成快速体验](.\u002Fdocs\u002Fquick_start\u002Fquick_start_SD3.ipynb)\n- [PaddleMIX WebUI使用](.\u002Fpaddlemix\u002FMULLM_WebUI\u002FREADME.md)\n\n\n**最佳实践**\n- [热门任务和推荐模型](.\u002Fdocs\u002Ftutorial\u002Fmodel_recommandation.md)\n- 多模态理解\n  - [Qwen2.5-VL最佳实践](.\u002Fpaddlemix\u002Fexamples\u002Fqwen2_5_vl\u002FREADME.md)\n  - [Qwen2-VL最佳实践](.\u002Fpaddlemix\u002Fexamples\u002Fqwen2_vl\u002FREADME.md)\n  - [Intern-VL2最佳实践](.\u002Fpaddlemix\u002Fexamples\u002Finternvl2\u002FREADME.md)\n  - [LLaVA最佳实践](.\u002Fpaddlemix\u002Fexamples\u002Fllava\u002FREADME.md)\n- 多模态生成\n  - [Stable Diffusion 3最佳实践](.\u002Fppdiffusers\u002Fexamples\u002Fstable_diffusion\u002Fstable-diffusion-3.md)\n  - [Stable Diffusion最佳实践](.\u002Fppdiffusers\u002Fexamples\u002Fstable_diffusion\u002FREADME.md)\n  - [ControlNet最佳实践](.\u002Fppdiffusers\u002Fexamples\u002Fcontrolnet\u002FREADME.md)\n  - [CogVideoX最佳实践](.\u002Fppdiffusers\u002Fexamples\u002Fcogvideo\u002FREADME.md)\n\n\n**benchmark**\n- [训练benchmark](.\u002Fdocs\u002Fbenchmark\u002Ftrain_benchmark.md)\n- [推理部署benchmark](.\u002Fdocs\u002Fbenchmark\u002Finference_benchmark.md)\n\n\n**多模态应用案例**\n\n- [SDXL应用：打造专属奥运海报生成器](https:\u002F\u002Faistudio.baidu.com\u002Fprojectdetail\u002F8251202)\n- [PaddleMIX 多模态大模型创意工坊](.\u002Fapplications\u002FMULLM\u002FREADME.md)\n- [飞桨PaddleMIX跨模态AI应用：项目分类汇总](.\u002Fpaddlemix_applications.md)\n\n\n**多硬件使用**\n- 昇腾910B支持的模型列表和使用方式，可以参考[昇腾硬件使用](.\u002Fdocs\u002Fhardware_support\u002Fascend_usage.md)\n- 昆仑P800支持的模型列表和使用方式，可以参考[昆仑硬件使用](.\u002Fdocs\u002Fhardware_support\u002FKL_usage.md)\n\n## 📱模型库\n\u003Ctable align=\"center\">\n  \u003Ctbody>\n    \u003Ctr align=\"center\" valign=\"center\">\n      \u003Ctd>\n        \u003Cb>多模态理解\u003C\u002Fb>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cb>多模态生成\u003C\u002Fb>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cb>多模态大一统\u003C\u002Fb>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr valign=\"top\">\n      \u003Ctd>\n        \u003Cul>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>图文预训练\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fclip\">CLIP\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fevaclip\">EVA-CLIP\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava\">LLaVA-1.5\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava\">LLaVA-1.6\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava\">LLaVA-NeXT\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava_onevision\">LLaVA-onevision\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava_onevision\">Aquila-VL-2B-llava-qwen\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava_critic\">LLaVA-Critic\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fllava_denseconnector\">LLaVA-DenseConnector\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fqwen_vl\">Qwen-VL\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fqwen2_vl\">Qwen2-VL\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fqwen2_5_vl\">Qwen2.5-VL\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Finternvl2\">InternVL2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fminimonkey\">Mini-Monkey\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fcoca\">CoCa\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fblip2\">BLIP-2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fminigpt4\">miniGPT-4\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fvisualglm\">VIsualGLM\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fcogvlm\">CogVLM && CogAgent\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Finternlm_xcomposer2\">InternLM-XComposer2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fdeepseek_vl2\">DeepSeek-VL2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Faria\">Aria\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002FGOT_OCR_2_0\">GOT_OCR 2.0\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fppdocbee\">PP-DocBee\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ful>\n          \u003Cli>\u003Cb>开放世界视觉模型\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fgroundingdino\">Grounding DINO\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fsam\">SAM\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fsam2\">SAM2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002FYOLO-World\">YOLO-World\u003C\u002Fa>\u003C\u002Fli>\n      \u003C\u002Ful>\n      \u003C\u002Ful>\n          \u003Cli>\u003Cb>更多模态预训练模型\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n            \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fimagebind\">ImageBind\u003C\u002Fa>\u003C\u002Fli>\n      \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>文生图\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fstable_diffusion\">Stable Diffusion\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fstable_diffusion_xl\">SDXL\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fdreambooth\u002FREADME_sd3.md\">Stable Diffusion 3 (SD3)\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fcontrolnet\">ControlNet\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Ft2i-adapter\">T2I-Adapter\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Ftext_to_image_laion400m\">LDM\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fconsistency_models\">Consistency Models\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fdeepfloyd_if\">DeepFloyd IF\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fshap_e\">Shap-E\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fkandinsky2_2\">Kandinsky-2\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fwuerstchen\">Würstchen\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fhotshot_xl\">Hotshot-XL\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Flatent_consistency_models\">LCMs\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Funidiffuser\">Unidiffuser\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fclass_conditional_image_generation\u002FDiT\">DiT\u003C\u002Fa>\u003C\u002Fli>\n            \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002FHunyuanDiT\">HunyuanDiT\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>文生视频\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Ftext_to_video_lvdm\">LVDM\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fstable_video_diffusion\">SVD\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002FAnimateAnyone\">AnimateAnyone\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002FOpen-Sora\">OpenSora\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Fanimateiff\">AnimateDiff\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Ftext_to_video_synthesis\">zeroscope_v2_XL\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fcogvideo\">CogVideoX\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fexamples\u002Fppvctrl\">PP-VCtrl\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>音频生成\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Faudioldm\">AudioLDM\u003C\u002Fa>\u003C\u002Fli>\n           \u003Cli>\u003Ca href=\"ppdiffusers\u002Fppdiffusers\u002Fpipelines\u002Faudioldm2\">AudioLDM2\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n      \u003Ctd>\n        \u003Cul>\n        \u003C\u002Ful>\n          \u003Cli>\u003Cb>统一多模态模型\u003C\u002Fb>\u003C\u002Fli>\n        \u003Cul>\n          \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fjanus\">Janus\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Fshowo\">Showo\u003C\u002Fa>\u003C\u002Fli>\n          \u003Cli>\u003Ca href=\"paddlemix\u002Fexamples\u002Femu3\">Emu3\u003C\u002Fa>\u003C\u002Fli>\n        \u003C\u002Ful>\n      \u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n更多模型能力，可参考[模型能力矩阵](.\u002Fpaddlemix\u002Fexamples\u002FREADME.md)\n\n\n## 🏆特色模型|工具\n\n### 💎PP-DocBee文档理解特色模型\n\nPaddleMIX提出了[PP-DocBee](.\u002Fpaddlemix\u002Fexamples\u002Fppdocbee)，基于多模态大模型实现端到端的文档图像理解。它可以高效地应用在各类场景的文档理解、文档问答等，尤其是对中文的文档类理解的场景，达到了同参数量级别模型的SOTA水平。\n\n\n\n\n### 💎PP-VCtrl视频生成控制模型\n\nPaddleMIX提出了[PP-VCtrl](.\u002Fppdiffusers\u002Fexamples\u002Fppvctrl\u002FREADME_CN.md)，一个统一的可控视频生成模型，实现了对各类控制信号的灵活接入和精确控制。可以高效地应用在各类视频生成场景中，尤其是人物动画、场景转换、视频编辑等需要精确控制的任务。\n\n### 💎多模态数据处理工具箱DataCopilot\n\n\u003Csummary>\u003Cb> 简介\u003C\u002Fb>\u003C\u002Fsummary>\n\n在真实的应用场景有大量使用专有数据微调多模态大模型来提升模型效果的需求，此过程中数据要素成为核心。基于此PaddleMIX提供了数据处理和分析的工具DataCopilot，使开发者可在PaddleMIX套件完成端到端的开发体验。`传送门`：[DataCopilot使用文档](paddlemix\u002Fdatacopilot\u002Freadme.md)。\n\nPP-InsCapTagger(Instance Capability Tagger) 是 DataCopilot 基于 PaddleMIX 实现的数据集能力标签模型，用于为多模态数据实例能力打标，通过实例能力分布对数据集进行优化，可以提高模型训练效率，为数据集分析和评价提供了一种高效的方案。 结合模型推理打标结果对LLaVA SFT数据集进行优化，可以**提高LLaVA模型SFT阶段50%的训练效率。**\n\n\u003Cdetails>\n\u003Csummary>\u003Cb> PP-InsCapTagger效果(点击展开)\u003C\u002Fb>\u003C\u002Fsummary>\n\n| Model                           | ScienceQA                               | TextVQA                                | VQAv2                                  | GQA                                    | MMMU                                   | MME                                     |\n|----------------------------------|-----------------------------------------|----------------------------------------|----------------------------------------|----------------------------------------|----------------------------------------|-----------------------------------------|\n| llava-1.5-7b (origin)            | 66.8                                    | 58.2                                   | 78.5                                   | 62                                     | -                                      | -                                       |\n| llava-1.5-7b (rerun)             | 69.01                                   | 57.6                                   | 79                                     | 62.95                                  | 36.89                                  | 1521\u003Cbr>323                             |\n| llava-1.5-7b (random 50%)        | 67.31                                   | 55.6                                   | 76.89                                  | 61.01                                  | 34.67                                  | 1421\u003Cbr>286                             |\n| **llava-1.5-7b (our 50%)**       | **70.24** *(+2.93)*                     | **57.12** *(+1.52)*                    | **78.32** *(+1.43)*                    | **62.14** *(+1.13)*                    | **37.11** *(+2.44)*                    | **1476** *(+55)*\u003Cbr>**338** *(+52)*    |\n\n\n`传送门`：[pp_inscaptagger使用文档](paddlemix\u002Fdatacopilot\u002Fexample\u002Fpp_inscaptagger\u002Freadme.md)。\n\u003C\u002Fdetails>\n\n\n## 🤔FAQ\n关于我们项目的一些常见问题解答，请参考[FAQ](docs\u002FFAQ.md)。如果您的问题没有得到解答，请随时在[Issues](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fissues)中提出\n\n\n## ❤️致谢\n\n- PaddleMIX的部分模块和案例设计借鉴了 Hugging Face 的[Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)🤗关于预训练模型使用的优秀设计，在此对 Hugging Face 作者及其开源社区表示感谢。\n\n- PaddleMIX 的部分案例和代码由以下优秀社区开发者贡献，（完整的贡献者请参考: [Contributors](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fgraphs\u002Fcontributors)）：\n    [co63oc](https:\u002F\u002Fgithub.com\u002Fco63oc)，\n    [CrazyBoyM](https:\u002F\u002Fgithub.com\u002FCrazyBoyM)，\n    [KPCOFGS](https:\u002F\u002Fgithub.com\u002FKPCOFGS)，\n    [pkhk-1](https:\u002F\u002Fgithub.com\u002Fpkhk-1)，\n    [1649759610](https:\u002F\u002Fgithub.com\u002F1649759610)，\n    [DrRyanHuang](https:\u002F\u002Fgithub.com\u002FDrRyanHuang)，\n    [zhiboniu](https:\u002F\u002Fgithub.com\u002Fzhiboniu)，\n    [cocoshe](https:\u002F\u002Fgithub.com\u002Fcocoshe)，\n    [sneaxiy](https:\u002F\u002Fgithub.com\u002Fsneaxiy)，\n    [yangrongxinuser](https:\u002F\u002Fgithub.com\u002Fyangrongxinuser)，\n    [cheng221](https:\u002F\u002Fgithub.com\u002Fcheng221)，\n    [Liyulingyue](https:\u002F\u002Fgithub.com\u002FLiyulingyue)，\n    [zhoutianzi666](https:\u002F\u002Fgithub.com\u002Fzhoutianzi666)，\n    [Birdylx](https:\u002F\u002Fgithub.com\u002FBirdylx)，\n    [FeixLiu](https:\u002F\u002Fgithub.com\u002FFeixLiu)，\n    [Tsaiyue](https:\u002F\u002Fgithub.com\u002FTsaiyue)，\n    [fightfat](https:\u002F\u002Fgithub.com\u002Ffightfat)，\n    [warrentdrew](https:\u002F\u002Fgithub.com\u002Fwarrentdrew)，\n    [swagger-coder](https:\u002F\u002Fgithub.com\u002Fswagger-coder)\n    ...\n\n- 感谢星河(AIStudio)社区的项目达人们开发了众多有趣的应用，为PaddleMIX的发展创造了更多可能性。特别感谢以下活跃的项目达人（完整名单请参见[AIStudio 项目达人推荐榜](https:\u002F\u002Faistudio.baidu.com\u002Fprojectoverview)）：\n    [好想成为PPDE（已成为版）](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F2553954)，\n    [旭_1994](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F9044961)，\n    [knoka](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F2258742)，\n    [魔术师](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F710848)，\n    [非鱼子焉](https:\u002F\u002Faistudio.baidu.com\u002Fpersonalcenter\u002Fthirdview\u002F91451)\n    ...\n\n\n## 📝许可证书\n\n本项目的发布受[Apache 2.0 license](LICENSE)许可认证。\n\n## 📌社区交流\n\n- 微信扫描二维码并填写问卷，即可加入交流群与众多社区开发者以及官方团队深度交流。\n\u003Cdiv align=\"center\">\n    \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_readme_25a8ea9775b1.png\" width=\"300\" height=\"300\" \u002F>\n\u003C\u002Fdiv>\n\n\n\n## 🎯引用\n```\n@misc{paddlemix2023,\n  title={PaddleMIX, Paddle Multimodal Integration and eXploration.},\n  author={PaddlePaddle Authors},\n  howpublished = {\\url{https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX}},\n  year={2023}\n}\n```","# PaddleMIX 快速上手指南\n\nPaddleMIX 是基于飞桨（PaddlePaddle）的多模态大模型开发套件，覆盖视觉语言预训练、微调、文生图、文生视频及多模态理解等任务。本指南将帮助开发者快速完成环境搭建并运行首个示例。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux\n*   **Python 版本**: 3.7 - 3.10 (推荐 3.10)\n*   **硬件支持**: \n    *   GPU: 支持 CUDA 11.x 或 12.x (推荐)\n    *   CPU: 支持纯 CPU 运行\n    *   国产芯片：支持昇腾 910B、昆仑 P800\n*   **前置工具**: Git, Conda (推荐用于环境管理)\n\n## 2. 安装步骤\n\n### 第一步：克隆代码仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\ncd PaddleMIX\n```\n\n### 第二步：创建虚拟环境\n建议使用 Conda 创建独立的 Python 环境以避免依赖冲突：\n```bash\nconda create -n paddlemix python=3.10 -y\nconda activate paddlemix\n```\n\n### 第三步：安装 PaddlePaddle 深度学习框架\n推荐使用官方提供的一键安装脚本，自动适配 GPU\u002FCPU 环境（需确保已安装对应版本的 CUDA）：\n```bash\nsh build_paddle_env.sh\n```\n> **注意**：该脚本默认安装 PaddlePaddle 3.1.0 版本。若需手动指定版本或遇到网络问题，可参考 [PaddlePaddle 官网安装文档](https:\u002F\u002Fwww.paddlepaddle.org.cn\u002Finstall\u002Fquick)。\n\n### 第四步：安装项目依赖\n运行以下脚本自动安装 PaddleMIX 及其子模块（如 ppdiffusers）所需的所有依赖：\n```bash\nsh build_env.sh\n```\n*若自动安装失败，可手动执行：*\n```bash\npip install -e .\ncd ppdiffusers\npip install -e .\ncd ..\n```\n\n### 第五步：验证安装\n运行检查脚本确认环境与依赖版本是否正确：\n```bash\nsh check_env.sh\n```\n**推荐版本参考：**\n- paddlepaddle: 3.1.0 或 develop 版本\n- paddlenlp: 3.0.0b4\n- ppdiffusers: 0.30.0\n\n## 3. 基本使用\n\n安装完成后，您可以立即体验多模态能力。以下以**图像摘要（Image Caption）**为例，展示最基础的调用流程。\n\n### 示例：生成图像描述\n\n1.  **准备测试图片**：确保当前目录下有一张测试图片（例如 `test.jpg`），或使用网络图片链接。\n2.  **运行代码**：创建一个 Python 文件（如 `demo.py`），输入以下代码：\n\n```python\nfrom paddlemix import Blip2ForConditionalGeneration, Blip2Processor\nimport paddle\nfrom PIL import Image\nimport requests\n\n# 1. 加载处理器和模型 (以 BLIP-2 为例)\n# 首次运行会自动下载模型权重\nprocessor = Blip2Processor.from_pretrained(\"blip2-itm-large-coco\")\nmodel = Blip2ForConditionalGeneration.from_pretrained(\"blip2-itm-large-coco\")\n\n# 2. 准备输入数据\n# 这里使用一张在线图片作为示例\nimage_url = \"https:\u002F\u002Fpaddlenlp.bj.bcebos.com\u002Fdata\u002Fimages\u002Fcat.png\"\nimage = Image.open(requests.get(image_url, stream=True).raw)\n\n# 3. 推理生成\ninputs = processor(images=image, return_tensors=\"pd\")\noutputs = model.generate(**inputs)\n\n# 4. 解码并打印结果\ncaption = processor.decode(outputs[0], skip_special_tokens=True)\nprint(f\"图像描述：{caption}\")\n```\n\n3.  **执行脚本**：\n```bash\npython demo.py\n```\n\n### 更多资源\n*   **文生图体验**：查看 `docs\u002Fquick_start\u002Fquick_start_SD3.ipynb`\n*   **最佳实践**：参考 `docs\u002Ftutorial\u002Fmodel_recommandation.md` 获取 Qwen2.5-VL、InternVL2 等热门模型的调优指南。\n*   **在线体验**：访问 [飞桨 AI Studio](https:\u002F\u002Faistudio.baidu.com\u002Faistudio\u002Fcommunity\u002Fmultimodal) 社区获取更多交互式案例。","某电商平台的智能运营团队需要快速构建一套系统，既能自动解析复杂的商品说明书文档，又能根据营销文案生成高质量的推广短视频。\n\n### 没有 PaddleMIX 时\n- **模型整合困难**：团队需分别寻找独立的文档理解模型和视频生成模型，不同框架间的接口适配消耗大量开发时间。\n- **文档识别精度低**：通用 OCR 模型难以处理排版复杂的商品说明书，关键参数提取错误率高，导致客服压力激增。\n- **视频生成不可控**：使用基础扩散模型生成的视频画面随机性大，无法精准控制人物动作或场景转换，需反复重绘。\n- **推理速度缓慢**：缺乏专门的加速优化，生成一段几秒的营销视频耗时过长，无法满足实时运营需求。\n\n### 使用 PaddleMIX 后\n- **全流程一站式开发**：利用 PaddleMIX 丰富的多模态模型库，团队在同一框架下直接调用 PP-DocBee 和 PP-VCtrl 模型，大幅降低集成成本。\n- **文档理解达到 SOTA**：部署自研的 PP-DocBee 模型，端到端精准解析复杂文档图像，关键信息提取准确率显著提升。\n- **视频生成精准可控**：通过 PP-VCtrl 模型，运营人员可精确指定人物动画和场景转换逻辑，一次性生成符合创意的推广视频。\n- **推理性能大幅提升**：借助 Fast-Diffusers 工具包中的 T-gate 等加速算法，视频生成端到端推理速度提升 2 倍以上，实现高效产出。\n\nPaddleMIX 通过提供高性能、全链路的多模态解决方案，让企业能够以更低成本快速落地从文档智能解析到可控视频生成的复杂业务场景。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FPaddlePaddle_PaddleMIX_82225e94.png","PaddlePaddle","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FPaddlePaddle_0457ef24.jpg","",null,"http:\u002F\u002Fpaddlepaddle.org","https:\u002F\u002Fgithub.com\u002FPaddlePaddle",[21,25,29,33,37,41],{"name":22,"color":23,"percentage":24},"Python","#3572A5",86.2,{"name":26,"color":27,"percentage":28},"Jupyter Notebook","#DA5B0B",12.3,{"name":30,"color":31,"percentage":32},"Shell","#89e051",1.3,{"name":34,"color":35,"percentage":36},"Cuda","#3A4E3A",0.2,{"name":38,"color":39,"percentage":40},"C++","#f34b7d",0,{"name":42,"color":43,"percentage":40},"Makefile","#427819",721,225,"2026-04-08T15:13:38","Apache-2.0",3,"Linux","可选（支持 CPU\u002FGPU），若使用 GPU 需 NVIDIA 显卡，支持 CUDA 11.x 或 12.x；文中提及昇腾 910B 和昆仑 P800 国产芯片支持","未说明",{"notes":53,"python":54,"dependencies":55},"建议使用 conda 创建虚拟环境（示例为 Python 3.10）。提供一键安装脚本 (build_paddle_env.sh, build_env.sh) 自动配置环境。支持国产算力卡（昇腾 910B、昆仑 P800）。","3.7+ (安装示例推荐使用 3.10)",[56,57,58,59],"paddlepaddle>=3.1.0","paddlenlp>=3.0.0b4","ppdiffusers>=0.30.0","huggingface_hub>=0.23.0",[61,62,63,64,65],"其他","插件","图像","语言模型","视频",[67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86],"aigc","stable-diffusion","clip","image-to-text","text-to-image","ppdiffusers","controlnet","multimodal","eva-clip","sd-xl","text-to-video","dit","llava","sora","stablevideodiffusion","internvl2","qwen2-vl","minicpm-v","got-ocr20","deepseek-vl",2,"ready","2026-03-27T02:49:30.150509","2026-04-11T10:02:44.554249",[92,97,102,107,112,117],{"id":93,"question_zh":94,"answer_zh":95,"source_url":96},29317,"如何参与 PaddleMIX 的快乐开源活动并认领任务？","参与流程如下：1. 在对应的 Issue 页面评论区留言报名，格式为“【报名】：任务编号”，多个任务用中文顿号分隔，连续任务可用横线表示（如 2-5）。2. 添加飞桨套件研发微信（transy-k）加入大模型开发者总群以便交流。3. 完成任务后在对应的 tracking issue 页面回复，经研发验收通过后即视为完成。提交 PR 时标题需以“【PPMix No.xxx】”开头并注明任务编号。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fissues\u002F787",{"id":98,"question_zh":99,"answer_zh":100,"source_url":101},29318,"GroundingDINO 模型导出后无法在 C++ (paddle_inference) 中推理怎么办？","该问题通常由自定义算子 `deformable_detr_ops` 引起。解决步骤：1. 如果环境中安装了该算子，先执行 `pip uninstall deformable_detr_ops` 卸载。2. 重新导出模型，确认 Python 环境下能否正常推理。3. 若 Python 正常，再尝试 C++ 推理。注意：目前该模型官方尚未专门针对 C++ 推理进行适配，若仍报错可参考 Paddle-Inference-Demo 中的其他模型示例或在其仓库提 Issue。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fissues\u002F321",{"id":103,"question_zh":104,"answer_zh":105,"source_url":106},29319,"在升级 ppdiffusers 的 attention 代码时，是否需要实现 PyTorch 2.0 特有的类（如 AttnProcessor2_0）？","取决于功能需求。如果 PyTorch 2.0 版本的类（如 `AttnAddedKVProcessor2_0`, `AttnProcessor2_0` 等）仅因版本差异存在但功能与旧版一致，则不需要在 ppdiffusers 中实现；如果是因 2.0 版本引入了新功能且需要支持，则必须进行实现。核心原则是保持功能一致性。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fissues\u002F262",{"id":108,"question_zh":109,"answer_zh":110,"source_url":111},29320,"新手不熟悉 PaddleMIX 如何快速上手参与贡献？","建议先参与“热身打卡活动”，任务是跑通 Stable-Diffusion 的训练推理流程。这能帮助开发者快速获得对文生图模型的实操感受并熟悉 PaddleMIX 框架。完成该任务并通过验收后，还可获得飞桨社区周边礼品。相关指南可参考 Issue #273。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fissues\u002F272",{"id":113,"question_zh":114,"answer_zh":115,"source_url":116},29321,"参与开源任务完成后如何确认状态更新？","完成任务代码开发后，需在任务对应的 tracking issue 页面留言回复“完成”。飞桨研发人员会对代码进行验收，验收通过后会在当天更新任务攻克排行榜及任务完成状态。","https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fissues\u002F410",{"id":118,"question_zh":119,"answer_zh":120,"source_url":96},29322,"在哪里可以找到多模态理解任务（如 MiniCPM-V, Qwen2-VL）的推理参考实现？","可以参考基于 PaddleMIX 实现的 MiniCPM-V-2_6 多模态模型推理项目，地址为：https:\u002F\u002Faistudio.baidu.com\u002Fprojectdetail\u002F8582824。此外，对于文档完善类任务，可参照 ms-swift 仓库中的最佳实践文档进行编写。",[122,127,132],{"id":123,"version":124,"summary_zh":125,"released_at":126},198103,"v3.0.0-beta","2025年5月9日 发布PaddleMIX 3.0.0-beta\n\n多模态理解\n- 新增模型：Qwen2VL\u002FQwen2.5VL系列、DeepSeek-VL2、miniCPM-V 2.6、Janus系列、LLaVA-Critic、LLaVA-DenseConnector、LLaVA-OneVision、GOT-OCR2.0、mPLUG-Owl3\n- PP系列模型：发布自研PP-DocBee文档理解多模态大模型，在学术界权威的英文文档理解评测榜单上达到同参数量级别模型SOTA\n- 工具链升级：完善高性能推理部署，新增支持Qwen2.5VL系列，A800推理性能较vllm领先11.5%。LLaVA、InternVL2模型训练和推理适配昇腾910B\n\n多模态生成\n- 新增模型：Open-MAGVIT2，文生视频模型CogVideoX、HunyuanVideo\n- PP系列模型：发布自研可控视频模型PP-VCtrl，支持在多种控制条件下的视频生成\n- 工具链升级：发布ppdiffusers 0.29.1版本，新增对SD3 ControlNet和SD3.5的支持。SD3高性能推理性能打平TensorRT。SD3、SDXL模型LoRA训练和推理适配昇腾910B","2025-05-09T11:38:56",{"id":128,"version":129,"summary_zh":130,"released_at":131},198104,"v2.1.0","## 更新内容\n\n- 发布自研多模数据能力标签模型[PP-InsCapTagger](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fblob\u002Fdevelop\u002Fpaddlemix\u002Fdatacopilot\u002Fexample\u002Fpp_inscaptagger)；可用于数据的分析和过滤，试验案例表明在保持模型效果的条件下可减少50%的数据量，大幅提高训练效率。\n\n- 新增[Qwen2-VL](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fblob\u002Fdevelop\u002Fpaddlemix\u002Fexamples\u002Fqwen2_vl)、[InternVL2](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fblob\u002Fdevelop\u002Fpaddlemix\u002Fexamples\u002Finternvl2)、[Stable Diffusion 3 (SD3)](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fblob\u002Fdevelop\u002Fppdiffusers\u002Fexamples\u002Fdreambooth\u002FREADME_sd3.md)等前沿模型。\n\n- 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B，提供国产计算芯片上的训推能力。\n\n\n## 变更内容\n* 【pir】由@xiaoguoguo626807在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F689中修改了dy2static Sd和3. Grounding DINO模型。\n* 由@pkhk-1在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F685中修复了llava预训练配置。\n* 由@chang-wenbin在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F632中重新设计了DIT网络结构，修正了一些参数，并简化了模型网络代码。\n* 由@chang-wenbin在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F693中更新了DIT文档。\n* [NPU] 由@Birdylx在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F694中添加了llava NPU相关文档。\n* SD3推理优化——避免同步，由@chang-wenbin在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F695中完成。\n* 减少重复拷贝，修复BUG，由@chang-wenbin在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F699中完成。\n* 由@nemonameless在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F698中添加了Qwen2-VL的推理代码。\n* [doc] 由@nemonameless在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F703中更新了依赖项要求。\n* Llava漏洞修复，由@LokeZhou在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F704中完成。\n* 修复推理模式问题，由@zhoutianzi666在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F711中完成。\n* 由@lyuwenyu在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F705中更新了README文件。\n* 由@westfish在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F712中更新了opensora视频保存方法。\n* 限制paddlenlp的安装版本，并修复llava-next的bug，由@luyao-cv在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F716中完成。\n* SD3变压器部分的优化，由@zhoutianzi666在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F713中完成。\n* [wip] 由@lyuwenyu在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F664中添加了混合方案。\n* [NPU] InternVL2支持NPU训练，由@Birdylx在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F714中完成。\n* 由@westfish在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F686中添加了SD3 DreamBooth相关内容。\n* 从internvl2中移除phi3并优化格式，由@nemonameless在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F715中完成。\n* 为qw2vl添加flash_atten，由@luyao-cv在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F723中完成。\n* [NPU] sdxl支持NPU训练，由@wangna11BD在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F719中完成。\n* [NPU] sdxl lora支持NPU训练，由@warrentdrew在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F718中完成。\n* 适配NPU的fa功能，由@LielinJiang在https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Fpull\u002F706中完成。\n* [NPU] 修复SDXL LoRA训练的README文档。","2024-10-22T12:42:55",{"id":133,"version":134,"summary_zh":135,"released_at":136},198105,"v2.0.0","#### 多模态理解\n\n1. 新增模型：LLaVA: v1.5-7b、v1.5-13b、v1.6-7b，CogAgent、CogVLM、Qwen-VL、InternLM-XComposer2\n2. 数据集增强：新增chatml_dataset图文对话数据读取方案，可自定义chat_template文件适配，支持混合数据集\n3. 工具链升级：新增Auto模块，统一SFT训练流程，兼容全参数、LoRA训练。新增mixtoken训练策略，SFT吞吐量提升5.6倍。支持Qwen-VL、LLaVA推理部署，较PyTorch推理性能提升2.38倍\n\n#### 多模态生成\n\n1. 视频生成能力：支持Sora相关技术，支持DiT、SiT、UViT训练推理，新增NaViT、MAGVIT-v2模型； 新增视频生成模型SVD、Open Sora，支持模型微调和推理； 新增姿态可控视频生成模型AnimateAnyone、即插即用视频生成模型AnimateDiff、GIF视频生成模型Hotshot-XL；\n2. 文生图模型库：新增高速推理文图生成模型LCM，适配SD\u002FSDXL训练和推理；\n3. 工具链升级：发布ppdiffusers 0.24.1版本，新增PEFT、Accelerate后端； 权重加载\u002F保存全面升级，支持分布式、模型切片、SafeTensors等场景。\n4. 生态兼容：提供基于ppdiffusers开发的ComfyUI插件，支持了常见的模型加载转换、文生图、图生图、图像局部修改等任务。新增Stable Diffusion 1.5系列节点；新增Stable Diffusion XL系列节点。新增4个图像生成的workflow案例。\n\n#### DataCopilot（多模态数据处理工具箱）\n\n1. 多模态数据集类型MMDataset，支持加载和导出Json、H5、Jsonl等多种数据存储格式，内置并发（map、filter）数据处理接口等\n2. 多模态数据格式工具，支持自定义数据结构、数据转换、离线格式检查\n3. 多模态数据分析工具，支持基本的统计信息、数据可视化功能，以及注册自定义功能\n","2024-07-29T14:54:15",[138,149,157,165,173,181],{"id":139,"name":140,"github_repo":141,"description_zh":142,"stars":143,"difficulty_score":48,"last_commit_at":144,"category_tags":145,"status":88},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,"2026-04-06T06:32:30",[146,147,63,148],"Agent","开发框架","数据工具",{"id":150,"name":151,"github_repo":152,"description_zh":153,"stars":154,"difficulty_score":48,"last_commit_at":155,"category_tags":156,"status":88},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[147,63,146],{"id":158,"name":159,"github_repo":160,"description_zh":161,"stars":162,"difficulty_score":87,"last_commit_at":163,"category_tags":164,"status":88},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",150037,"2026-04-10T23:33:47",[147,146,64],{"id":166,"name":167,"github_repo":168,"description_zh":169,"stars":170,"difficulty_score":87,"last_commit_at":171,"category_tags":172,"status":88},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",108322,"2026-04-10T11:39:34",[147,63,146],{"id":174,"name":175,"github_repo":176,"description_zh":177,"stars":178,"difficulty_score":87,"last_commit_at":179,"category_tags":180,"status":88},6121,"gemini-cli","google-gemini\u002Fgemini-cli","gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。\n\n这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。\n\n它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。",100752,"2026-04-10T01:20:03",[62,146,63,147],{"id":182,"name":183,"github_repo":184,"description_zh":185,"stars":186,"difficulty_score":87,"last_commit_at":187,"category_tags":188,"status":88},4721,"markitdown","microsoft\u002Fmarkitdown","MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。\n\n在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。\n\n这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器",93400,"2026-04-06T19:52:38",[62,147]]