[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenGVLab--InternVL":3,"tool-OpenGVLab--InternVL":62},[4,18,28,37,45,53],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":24,"last_commit_at":25,"category_tags":26,"status":17},9989,"n8n","n8n-io\u002Fn8n","n8n 是一款面向技术团队的公平代码（fair-code）工作流自动化平台，旨在让用户在享受低代码快速构建便利的同时，保留编写自定义代码的灵活性。它主要解决了传统自动化工具要么过于封闭难以扩展、要么完全依赖手写代码效率低下的痛点，帮助用户轻松连接 400 多种应用与服务，实现复杂业务流程的自动化。\n\nn8n 特别适合开发者、工程师以及具备一定技术背景的业务人员使用。其核心亮点在于“按需编码”：既可以通过直观的可视化界面拖拽节点搭建流程，也能随时插入 JavaScript 或 Python 代码、调用 npm 包来处理复杂逻辑。此外，n8n 原生集成了基于 LangChain 的 AI 能力，支持用户利用自有数据和模型构建智能体工作流。在部署方面，n8n 提供极高的自由度，支持完全自托管以保障数据隐私和控制权，也提供云端服务选项。凭借活跃的社区生态和数百个现成模板，n8n 让构建强大且可控的自动化系统变得简单高效。",184740,2,"2026-04-19T23:22:26",[16,14,13,15,27],"插件",{"id":29,"name":30,"github_repo":31,"description_zh":32,"stars":33,"difficulty_score":10,"last_commit_at":34,"category_tags":35,"status":17},10095,"AutoGPT","Significant-Gravitas\u002FAutoGPT","AutoGPT 是一个旨在让每个人都能轻松使用和构建 AI 的强大平台，核心功能是帮助用户创建、部署和管理能够自动执行复杂任务的连续型 AI 智能体。它解决了传统 AI 应用中需要频繁人工干预、难以自动化长流程工作的痛点，让用户只需设定目标，AI 即可自主规划步骤、调用工具并持续运行直至完成任务。\n\n无论是开发者、研究人员，还是希望提升工作效率的普通用户，都能从 AutoGPT 中受益。开发者可利用其低代码界面快速定制专属智能体；研究人员能基于开源架构探索多智能体协作机制；而非技术背景用户也可直接选用预置的智能体模板，立即投入实际工作场景。\n\nAutoGPT 的技术亮点在于其模块化“积木式”工作流设计——用户通过连接功能块即可构建复杂逻辑，每个块负责单一动作，灵活且易于调试。同时，平台支持本地自托管与云端部署两种模式，兼顾数据隐私与使用便捷性。配合完善的文档和一键安装脚本，即使是初次接触的用户也能在几分钟内启动自己的第一个 AI 智能体。AutoGPT 正致力于降低 AI 应用门槛，让人人都能成为 AI 的创造者与受益者。",183572,"2026-04-20T04:47:55",[13,36,27,14,15],"语言模型",{"id":38,"name":39,"github_repo":40,"description_zh":41,"stars":42,"difficulty_score":10,"last_commit_at":43,"category_tags":44,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":46,"name":47,"github_repo":48,"description_zh":49,"stars":50,"difficulty_score":24,"last_commit_at":51,"category_tags":52,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",161692,"2026-04-20T11:33:57",[14,13,36],{"id":54,"name":55,"github_repo":56,"description_zh":57,"stars":58,"difficulty_score":59,"last_commit_at":60,"category_tags":61,"status":17},8272,"opencode","anomalyco\u002Fopencode","OpenCode 是一款开源的 AI 编程助手（Coding Agent），旨在像一位智能搭档一样融入您的开发流程。它不仅仅是一个代码补全插件，而是一个能够理解项目上下文、自主规划任务并执行复杂编码操作的智能体。无论是生成全新功能、重构现有代码，还是排查难以定位的 Bug，OpenCode 都能通过自然语言交互高效完成，显著减少开发者在重复性劳动和上下文切换上的时间消耗。\n\n这款工具专为软件开发者、工程师及技术研究人员设计，特别适合希望利用大模型能力来提升编码效率、加速原型开发或处理遗留代码维护的专业人群。其核心亮点在于完全开源的架构，这意味着用户可以审查代码逻辑、自定义行为策略，甚至私有化部署以保障数据安全，彻底打破了传统闭源 AI 助手的“黑盒”限制。\n\n在技术体验上，OpenCode 提供了灵活的终端界面（Terminal UI）和正在测试中的桌面应用程序，支持 macOS、Windows 及 Linux 全平台。它兼容多种包管理工具，安装便捷，并能无缝集成到现有的开发环境中。无论您是追求极致控制权的资深极客，还是渴望提升产出的独立开发者，OpenCode 都提供了一个透明、可信",144296,1,"2026-04-16T14:50:03",[13,27],{"id":63,"github_repo":64,"name":65,"description_en":66,"description_zh":67,"ai_summary_zh":67,"readme_en":68,"readme_zh":69,"quickstart_zh":70,"use_case_zh":71,"hero_image_url":72,"owner_login":73,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":78,"owner_website":76,"owner_url":79,"languages":80,"stars":108,"forks":109,"last_commit_at":110,"license":111,"difficulty_score":10,"env_os":112,"env_gpu":113,"env_ram":112,"env_deps":114,"category_tags":121,"github_topics":124,"view_count":24,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":137,"updated_at":138,"faqs":139,"releases":173},10206,"OpenGVLab\u002FInternVL","InternVL","[CVPR 2024 Oral] InternVL Family: A Pioneering Open-Source Alternative to GPT-4o.  接近GPT-4o表现的开源多模态对话模型","InternVL 是一个开源的多模态大语言模型系列，旨在让 AI 既能“看”懂图片，又能像人类一样进行深度对话与逻辑推理。它主要解决了当前开源模型在复杂视觉理解、高阶推理能力上往往落后于商业闭源模型（如 GPT-4o）的痛点，通过开放源代码和权重，打破了高性能多模态 AI 的技术壁垒。\n\n无论是希望部署私有化智能助手的开发者、需要复现前沿算法的研究人员，还是寻求低成本高精度视觉分析方案的企业用户，都能从 InternVL 中获益。其独特亮点在于采用了创新的架构设计与训练策略，特别是最新的 InternVL3.5 版本，引入了混合专家（MoE）结构和级联强化学习（CascadeRL）技术，在保持高效推理的同时，显著提升了数学解题、代码生成及智能体任务的表现。作为目前开源社区中性能最接近顶尖商业模型的套件之一，InternVL 提供了从轻量级到超大规模的多种模型选择，并兼容主流开发框架，让用户能够轻松将其集成到各类应用中，自由探索多模态人工智能的无限可能。","\u003Cdiv align=\"center\">\n\n# InternVL Family: Closing the Gap to Commercial Multimodal Models with Open-Source Suites —— A Pioneering Open-Source Alternative to GPT-5\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"500\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_d6dc70469dca.png\">\n  \u003Cbr>\n\u003C\u002Fdiv>\n\n[\\[🆕 Blog\\]](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F)\n[\\[🤔 FAQs\\]](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Ffaqs.html)\n[\\[🗨️ Chat Demo\\]](https:\u002F\u002Fchat.intern-ai.org.cn\u002F)\n[\\[📖 Document\\]](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002F)\n[\\[🌐 API\\]](https:\u002F\u002Finternlm.intern-ai.org.cn\u002Fapi\u002Fdocument)\n[\\[🚀 Quick Start\\]](#quick-start-with-huggingface)\n\n[\\[🔥 InternVL3.5 Report\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2508.18265)\n[\\[📜 InternVL3.0 Report\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.10479)\n[\\[📜 InternVL2.5 MPO\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.10442)\n[\\[📜 InternVL2.5 Report\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2412.05271)\n\n[\\[📜 Mini-InternVL Paper\\]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.16261)\n[\\[📜 InternVL2 Blog\\]](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-07-02-InternVL-2.0\u002F)\n[\\[📜 InternVL 1.5 Paper\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2404.16821)\n[\\[📜 InternVL 1.0 Paper\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2312.14238)\n\n[\\[📖 2.0 中文解读\\]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F706547971)\n[\\[📖 1.5 中文解读\\]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F699439759)\n[\\[📖 1.0 中文解读\\]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F702946079)\n\n[Switch to the Chinese version (切换至中文版)](\u002FREADME_zh.md)\n\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F9803\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_1145cd82417e.png\" alt=\"OpenGVLab%2FInternVL | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\u003Cimg height=\"55\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_539985921ef0.png\">\n\n![image\u002Fjpg](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_611fc67391e8.jpg)\n\n\u003C\u002Fdiv>\n\n## News 🚀🚀🚀\n\n- `2025\u002F08\u002F30`: 🔥 We open-source the training code of [InternVL3_5-GPT-OSS-20B-A4B](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat_gpt_oss) and CascadeRL, which consists of a [offline RL stage](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fblob\u002Fmain\u002Finternvl_chat_gpt_oss\u002Fshell\u002Finternvl3_5_gpt_oss\u002Finternvl3_5_gpt_oss_20b_stage3_mpo.sh) and a [online RL stage](https:\u002F\u002Fgithub.com\u002FWeiyun1025\u002Fverl-internvl). The training data for these two stages ([MMPR-v1.2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FMMPR-v1.2) and [MMPR-Tiny](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FMMPR-Tiny)) are also open-sourced.\n- `2025\u002F08\u002F26`: 🚀 We introduce [InternVL3.5](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2508.18265),  a new family of open-source multimodal models that significantly advances versatility, reasoning capability, and inference efficiency along the InternVL series. Our largest model, i.e., [InternVL3.5-241B-A28B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B), attains state-of-the-art results among open-source MLLMs across general multimodal, reasoning, text, and agentic tasks. We also provide a 20B-A4B version (i.e., [InternVL3_5-GPT-OSS-20B-A4B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview)), which is built up on GPT-OSS-20B-A4B. Notably, we provide two model formats: [the GitHub format](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview#github-format), consistent with prior releases, and [the HF format](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview#huggingface-format), aligned with the official `transformers` standard.\n- `2025\u002F04\u002F17`: We open-source the [data construction pipeline](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Ftools\u002Freasoning_data_pipeline) and [training scripts](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Finternvl3.0\u002Fmpo) of [MPO](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.10442) and [VisualPRM](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2503.10291). Additionally, the data construction scripts for [MPO](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Finternvl3.0\u002Fmpo_data_construction) and [VisualPRM](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Finternvl3.0\u002Fvisualprm_data_construction) are also released for reference.\n- `2025\u002F04\u002F11`: We introduce [InternVL3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl3-67f7f690be79c2fe9d74fe9d), an advanced multimodal large language model (MLLM) series that demonstrates superior overall performance. InternVL3-78B achieves SoTA performance in both [perception](https:\u002F\u002Frank.opencompass.org.cn\u002Fleaderboard-multimodal\u002F?m=REALTIME) and [reasoning performance](https:\u002F\u002Frank.opencompass.org.cn\u002Fleaderboard-multimodal-reasoning\u002F?m=REALTIME) among open-source MLLMs. The key designs of InternVL3-78B include [Variable Visual Position Encoding](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2412.09616), [Native Multimodal Pre-Training](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.10479), [Mixed Preference Optimization](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.10442), and [Multimodal Test-Time Scaling](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2503.10291).\n- `2025\u002F03\u002F13`: We introduce [VisualPRM](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVisualPRM-8B), an advanced multimodal Process Reward Model (PRM) with 8B parameters, which improves the overall reasoning performance of InternVL2.5-8B and InternVL2.5-78B by 8.4 and 5.9 points, respectively. The training data for this model, termed [VisualPRM400K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FVisualPRM400K), is also open-sourced. Please refer to our [paper](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2503.10291) and [project page](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2025-03-13-VisualPRM\u002F) for more details.\n- `2024\u002F12\u002F20`: We release the [InternVL2.5-MPO](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-12-20-InternVL-2.5-MPO\u002F), which is finetuned with [Mixed Preference Optimization](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.10442) on [MMPR-v1.1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FMMPR-v1.1). **The resulting models outperform their counterparts without MPO by an average of 2 points across all model scales on the OpenCompass leaderboard.** These models are available at [HF link](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl25-mpo-6753fed98cd828219b12f849).\n- `2024\u002F12\u002F17`: [InternVL2\u002F2.5](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Ftree\u002Fdevelop\u002Fpaddlemix\u002Fexamples\u002Finternvl2) is supported in [PaddleMIX](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX) by Paddle Team.\n- `2024\u002F12\u002F05`: We release the [InternVL2.5](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl-25-673e1019b66e2218f68d7c1c), an advanced multimodal large language model (MLLM) series with parameter coverage ranging from 1B to 78B. [InternVL2_5-78B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-78B) is the first open-source MLLMs to achieve over **70%** on the **MMMU benchmark**, matching the performance of leading closed-source commercial models like GPT-4o. These models are available at [HF link](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl-25-673e1019b66e2218f68d7c1c).\n- `2024\u002F11\u002F14`: We introduce [MMPR](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FMMPR), a high-quality, large-scale multimodal reasoning preference dataset, and [MPO](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Finternvl2.0_mpo), an effective preference optimization algorithm. The resulting model, [InternVL2-8B-MPO](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-8B-MPO), achieves an accuracy of 67.0 on MathVista. Please refer to our [paper](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.10442), [project page](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-11-14-InternVL-2.0-MPO\u002F) and [document](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fpreference_optimization.html) for more details.\n\n\u003Cdetails>\n\u003Csummary>More News\u003C\u002Fsummary>\n\n\n- `2024\u002F10\u002F21`: We release the Mini-InternVL series. These models achieve impressive performance with minimal size: the 4B model achieves 90% of the performance with just 5% of the model size. For more details, please check our [project page](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Fmini_internvl) and [document](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fdomain_adaptation.html).\n- `2024\u002F08\u002F01`: The [Chartmimic](https:\u002F\u002Fchartmimic.github.io\u002F) team evaluated the InternVL2 series models on their benchmark. The InternVL2-26B and 76B models achieved the top two performances among open-source models, with the InternVL2 76B model surpassing GeminiProVision and exhibiting comparable results to Claude-3-opus.\n- `2024\u002F08\u002F01`: InternVL2-Pro achieved the SOTA performance among open-source models on the [CharXiv](https:\u002F\u002Fcharxiv.github.io\u002F#leaderboard) dataset, surpassing many closed-source models such as GPT-4V, Gemini 1.5 Flash, and Claude 3 Sonnet.\n- `2024\u002F07\u002F24`: The [MLVU](https:\u002F\u002Fgithub.com\u002FJUNJIE99\u002FMLVU) team evaluated InternVL-1.5 on their benchmark. The average performance on the multiple-choice task was 50.4%, while the performance on the generative tasks was 4.02. The performance on the multiple-choice task ranked #1 among all open-source MLLMs.\n- `2024\u002F07\u002F04`: We release the [InternVL2 series](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl-20-667d3961ab5eb12c7ed1463e). InternVL2-Pro achieved a 62.0% accuracy on the MMMU benchmark, matching the performance of leading closed-source commercial models like GPT-4o.\n- `2024\u002F07\u002F18`: InternVL2-40B achieved SOTA performance among open-source models on the [Video-MME](https:\u002F\u002Fgithub.com\u002FBradyFU\u002FVideo-MME) dataset, scoring 61.2 when inputting 16 frames and 64.4 when inputting 32 frames. It significantly outperforms other open-source models and is the closest open-source model to GPT-4o mini.\n- `2024\u002F07\u002F18`: InternVL2-Pro achieved the SOTA performance on the [DocVQA](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=17&com=evaluation&task=1) and [InfoVQA](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=17&com=evaluation&task=3) benchmarks.\n- `2024\u002F06\u002F19`: We propose Needle In A Multimodal Haystack ([MM-NIAH](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMM-NIAH)), the first benchmark designed to systematically evaluate the capability of existing MLLMs to comprehend long multimodal documents.\n- `2024\u002F05\u002F30`: We release [ShareGPT-4o](https:\u002F\u002Fsharegpt4o.github.io\u002F), a large-scale dataset that we plan to open-source with 200K images, 10K videos, and 10K audios with detailed descriptions.\n- `2024\u002F05\u002F28`: Thanks to the [lmdeploy](https:\u002F\u002Fgithub.com\u002FInternLM\u002Flmdeploy) team for providing AWQ quantization support. The 4-bit model is available at [OpenGVLab\u002FInternVL-Chat-V1-5-AWQ](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-5-AWQ).\n- `2024\u002F05\u002F13`: InternVL 1.0 can now be used as the [text encoder](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-14B-224px) for diffusion models to support multilingual generation natively in over 110 languages worldwide. See [MuLan](https:\u002F\u002Fgithub.com\u002Fmulanai\u002FMuLan) for more details.\n- `2024\u002F04\u002F18`: InternVL-Chat-V1-5 has been released at [HF link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-5), approaching the performance of GPT-4V and Gemini Pro on various benchmarks like MMMU, DocVQA, ChartQA, MathVista, etc.\n- `2024\u002F02\u002F27`: InternVL is accepted by CVPR 2024 (Oral)! 🎉\n- `2024\u002F02\u002F21`: [InternVL-Chat-V1-2-Plus](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-2-Plus) achieved SOTA performance on MathVista (59.9), MMBench (83.8), and MMVP (58.7). See our [blog](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-02-21-InternVL-1.2\u002F) for more details.\n- `2024\u002F02\u002F12`: InternVL-Chat-V1-2 has been released. It achieves 51.6 on MMMU val and 82.3 on MMBench test. For more details, please refer to our [blog](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-02-21-InternVL-1.2\u002F) and [SFT data](.\u002Finternvl_chat#prepare-training-datasets). The model is now available on [HuggingFace](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-2), and both training \u002F evaluation data and scripts are open-sourced.\n- `2024\u002F01\u002F24`: InternVL-Chat-V1-1 is released, it supports Chinese and has stronger OCR capability, see [here](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-1).\n- `2024\u002F01\u002F16`: We release our [customized mmcv\u002Fmmsegmentation\u002Fmmdetection code](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL-MMDetSeg), integrated with DeepSpeed, which can be used for training large-scale detection and segmentation models.\n\n\u003C\u002Fdetails>\n\n## Documents\n\n### 🌟 **Get Started**\n\n- **Installation**: 🌱 [Installation Guide](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Finstallation.html) | 📄 [requirements.txt](.\u002Frequirements.txt)\n- **Chat Data Format**: 📝 [Meta File](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#meta-file) | ✏️ [Text](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#pure-text-data) | 🖼️ [Single-Image](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#single-image-data) | 🖼️🖼️ [Multi-Image](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#multi-image-data) | 🎥 [Video](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#video-data)\n- **Local Chat Demo**: 🤖 [Streamlit Demo](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Flocal_chat_demo.html#streamlit-demo)\n- **InternVL-Chat API**: 🌐 [InternVL2.5 API](https:\u002F\u002Finternlm.intern-ai.org.cn\u002Fapi\u002Fdocument)\n- **Tutorials**: 🚀 [Enhancing InternVL2 on COCO Caption Using LoRA Fine-Tuning](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Fcoco_caption_finetune.html)\n\n### 🏆 **InternVL Family**\n\n- **InternVL 3.0**: 📖 [Intro](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fintroduction.html) | ⚡ [Quick Start](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fquick_start.html) | ✨ [Finetune](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Ffinetune.html) | 📊 [Evaluate](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fevaluation.html) | 📦 [Deploy](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fdeployment.html) | 🎯 [MPO](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fpreference_optimization.html)\n- **InternVL 2.5**: 📖 [Intro](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fintroduction.html) | ⚡ [Quick Start](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fquick_start.html) | ✨ [Finetune](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Ffinetune.html) | 📊 [Evaluate](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fevaluation.html) | 📦 [Deploy](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fdeployment.html) | 🎯 [MPO](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fpreference_optimization.html)\n- **InternVL 2.0**: 📖 [Intro](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fintroduction.html) | ⚡ [Quick Start](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fquick_start.html) | ✨ [Finetune](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Ffinetune.html) | 📊 [Evaluate](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fevaluation.html) | 📦 [Deploy](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fdeployment.html) | 🎯 [MPO](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fpreference_optimization.html)\n- **InternVL 1.5**: 📖 [Intro](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Fintroduction.html) | ⚡ [Quick Start](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Fquick_start.html) | ✨ [Finetune](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Ffinetune.html) | 📊 [Evaluate](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Fevaluation.html) | 📦 [Deploy](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Fdeployment.html)\n- **InternVL 1.2**: 📖 [Intro](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.2\u002Fintroduction.html) | ⚡ [Quick Start](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.2\u002Fquick_start.html) | ✨ [Finetune](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.2\u002Ffinetune.html) | 📊 [Evaluate](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.2\u002Fevaluation.html)\n- **InternVL 1.1**: 📖 [Intro](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.1\u002Fintroduction.html) | ⚡ [Quick Start](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.1\u002Fquick_start.html) | 📊 [Evaluation](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.1\u002Fevaluation.html)\n- **InternVL 1.0**: 🖼️ [Classification](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Fclassification.html) | 📊 [CLIP-Benchmark](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Fclip_benchmark.html) | 🎨 [Segmentation](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Fsegmentation.html) | 💬 [Chat-LLaVA](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Finternvl_chat_llava.html) | ✨ [InternVL-G](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Finternvl_g.html)\n\n## Model Zoo\n\n#### Multimodal Large Language Model (InternVL 3.5)\n\nTo maintain consistency with earlier generations, we provide two model formats: [the GitHub format](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B), consistent with prior releases, and [the HF format](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B-HF), aligned with the official Transformers standard.\n\n> If you want to convert the checkpoint between these two formats, please refer to the scripts about [custom2hf](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fblob\u002Fmain\u002Finternvl_chat\u002Ftools\u002Finternvl_custom2hf.py) and [hf2custom](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fblob\u002Fmain\u002Finternvl_chat\u002Ftools\u002Finternvl_hf2custom.py).\n\n**Github Format**\n| Model                 | #Vision Param | #Language Param | #Total Param | HF Link                                                                        | ModelScope Link                                                                          |\n| --------------------- | ------------- | --------------- | ------------ | ------------------------------------------------------------------------------ | ---------------------------------------------------------------------------------------- |\n| InternVL3.5-1B        | 0.3B          | 0.8B            | 1.1B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-1B)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-1B)                      |\n| InternVL3.5-2B        | 0.3B          | 2.0B            | 2.3B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-2B)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-2B)                      |\n| InternVL3.5-4B        | 0.3B          | 4.4B            | 4.7B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-4B)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-4B)                      |\n| InternVL3.5-8B        | 0.3B          | 8.2B            | 8.5B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-8B)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-8B)                      |\n| InternVL3.5-14B       | 0.3B          | 14.8B           | 15.1B        | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-14B)                     | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-14B)                     |\n| InternVL3.5-38B       | 5.5B          | 32.8B           | 38.4B        | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-38B)                     | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-38B)                     |\n| InternVL3.5-20B-A4B   | 0.3B          | 20.9B           | 21.2B-A4B    | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview) | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview) |\n| InternVL3.5-30B-A3B   | 0.3B          | 30.5B           | 30.8B-A3B    | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-30B-A3B)                 | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-30B-A3B)                 |\n| InternVL3.5-241B-A28B | 5.5B          | 235.1B          | 240.7B-A28B  | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B)               | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-241B-A28B)               |\n\n**HuggingFace Format**\n\n| Model                    | #Vision Param | #Language Param | #Total Param | HF Link                                                                           | ModelScope Link                                                                             |\n| ------------------------ | ------------- | --------------- | ------------ | --------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- |\n| InternVL3.5-1B-HF        | 0.3B          | 0.8B            | 1.1B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-1B-HF)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-1B-HF)                      |\n| InternVL3.5-2B-HF        | 0.3B          | 2.0B            | 2.3B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-2B-HF)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-2B-HF)                      |\n| InternVL3.5-4B-HF        | 0.3B          | 4.4B            | 4.7B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-4B-HF)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-4B-HF)                      |\n| InternVL3.5-8B-HF        | 0.3B          | 8.2B            | 8.5B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-8B-HF)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-8B-HF)                      |\n| InternVL3.5-14B-HF       | 0.3B          | 14.8B           | 15.1B        | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-14B-HF)                     | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-14B-HF)                     |\n| InternVL3.5-38B-HF       | 5.5B          | 32.8B           | 38.4B        | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-38B-HF)                     | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-38B-HF)                     |\n| InternVL3.5-20B-A4B-HF   | 0.3B          | 20.9B           | 21.2B-A4B    | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview-HF) | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview-HF) |\n| InternVL3.5-30B-A3B-HF   | 0.3B          | 30.5B           | 30.8B-A3B    | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-30B-A3B-HF)                 | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-30B-A3B-HF)                 |\n| InternVL3.5-241B-A28B-HF | 5.5B          | 235.1B          | 240.7B-A28B  | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B-HF)               | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-241B-A28B-HF)               |\n\n\n#### Multimodal Large Language Model (InternVL 3.0)\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Model Name\u003C\u002Fth>\n    \u003Cth>Vision Part\u003C\u002Fth>\n    \u003Cth>Language Part\u003C\u002Fth>\n    \u003Cth>HF&nbsp;Link\u003C\u002Fth>\n    \u003Cth>MS&nbsp;Link\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-1B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT&#8209;300M&#8209;448px&#8209;V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-0.5B\">Qwen2.5&#8209;0.5B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-1B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-1B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-2B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-1.5B\">Qwen2.5-1.5B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-2B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-2B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-8B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-7B\">Qwen2.5-7B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-8B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-8B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-9B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm3-8b-instruct\">internlm3-8b-instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-9B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-9B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-14B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-14B\">Qwen2.5-14B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-14B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-14B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-38B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-32B\">Qwen2.5-32B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-38B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-38B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-78B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-72B\">Qwen2.5-72B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-78B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-78B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### Multimodal Large Language Model (InternVL 2.5)\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Model Name\u003C\u002Fth>\n    \u003Cth>Vision Part\u003C\u002Fth>\n    \u003Cth>Language Part\u003C\u002Fth>\n    \u003Cth>HF&nbsp;Link\u003C\u002Fth>\n    \u003Cth>MS&nbsp;Link\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-1B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT&#8209;300M&#8209;448px&#8209;V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-0.5B-Instruct\">Qwen2.5&#8209;0.5B&#8209;Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-1B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-1B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-2B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-1_8b-chat\">internlm2_5-1_8b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-2B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-2B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-4B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-3B-Instruct\">Qwen2.5-3B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-4B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-4B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-8B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-7b-chat\">internlm2_5-7b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-8B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-8B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-26B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-20b-chat\">internlm2_5-20b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-26B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-26B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-38B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-32B-Instruct\">Qwen2.5-32B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-38B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-38B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-78B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-72B-Instruct\">Qwen2.5-72B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-78B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-78B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Model Name\u003C\u002Fth>\n    \u003Cth>Vision Part\u003C\u002Fth>\n    \u003Cth>Language Part\u003C\u002Fth>\n    \u003Cth>HF&nbsp;Link\u003C\u002Fth>\n    \u003Cth>MS&nbsp;Link\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-1B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT&#8209;300M&#8209;448px&#8209;V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-0.5B-Instruct\">Qwen2.5&#8209;0.5B&#8209;Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-1B-MPO\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-1B-MPO\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-2B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-1_8b-chat\">internlm2_5-1_8b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-2B-MPO\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-2B-MPO\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-4B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-3B-Instruct\">Qwen2.5-3B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-4B-MPO\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-4B-MPO\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-8B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-7b-chat\">internlm2_5-7b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-8B-MPO\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-8B-MPO\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-26B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-20b-chat\">internlm2_5-20b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-26B-MPO\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-26B-MPO\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-38B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-32B-Instruct\">Qwen2.5-32B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-38B-MPO\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-38B-MPO\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-78B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-72B-Instruct\">Qwen2.5-72B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-78B-MPO\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-78B-MPO\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### Multimodal Large Language Model (InternVL 2.0)\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Model Name\u003C\u002Fth>\n    \u003Cth>Vision Part\u003C\u002Fth>\n    \u003Cth>Language Part\u003C\u002Fth>\n    \u003Cth>HF&nbsp;Link\u003C\u002Fth>\n    \u003Cth>MS&nbsp;Link\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-1B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">InternViT-300M-448px\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2-0.5B-Instruct\">Qwen2-0.5B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-1B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-1B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-2B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">InternViT-300M-448px\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2-chat-1_8b\">internlm2-chat-1-8b\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-2B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-2B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-4B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">InternViT-300M-448px\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FPhi-3-mini-128k-instruct\">Phi&#8209;3&#8209;mini&#8209;128k&#8209;instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-4B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-4B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-8B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">InternViT-300M-448px\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-7b-chat\">internlm2_5-7b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-8B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-8B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-26B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">InternViT-6B-448px-V1-5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2-chat-20b\">internlm2-chat-20b\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-26B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-26B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-40B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">InternViT&#8209;6B&#8209;448px&#8209;V1&#8209;5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FNous-Hermes-2-Yi-34B\">Nous&#8209;Hermes&#8209;2&#8209;Yi&#8209;34B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-40B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-40B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2&#8209;Llama3-76B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">InternViT-6B-448px-V1-5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FHermes-2-Theta-Llama-3-70B\">Hermes‑2‑Theta‑\u003Cbr>Llama‑3‑70B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-Llama3-76B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-Llama3-76B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### Multimodal Large Language Model (InternVL 1.0-1.5)\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Model\u003C\u002Fth>\n    \u003Cth>Date\u003C\u002Fth>\n    \u003Cth>HF&nbsp;Link\u003C\u002Fth>\n    \u003Cth>MS&nbsp;Link\u003C\u002Fth>\n    \u003Cth>Note\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>Mini&#8209;InternVL&#8209;Chat&#8209;4B&#8209;V1&#8209;5\u003C\u002Ftd>\n    \u003Ctd>2024.05.28\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FMini-InternVL-Chat-4B-V1-5\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FMini-InternVL-Chat-4B-V1-5\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>🚀🚀 16% of the model size, 90% of the performance\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>Mini-InternVL-Chat-2B-V1-5\u003C\u002Ftd>\n    \u003Ctd>2024.05.19\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FMini-InternVL-Chat-2B-V1-5\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FMini-InternVL-Chat-2B-V1-5\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>🚀 8% of the model size, 80% of the performance\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-V1-5\u003C\u002Ftd>\n    \u003Ctd>2024.04.18\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-5\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-V1-5\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>support 4K image; super strong OCR; Approaching the performance of GPT-4V and Gemini Pro on various benchmarks like MMMU, DocVQA, ChartQA, MathVista, etc.\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-V1-2-Plus\u003C\u002Ftd>\n    \u003Ctd>2024.02.21\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-2-Plus\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-V1-2-Plus\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>more SFT data and stronger\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-V1-2\u003C\u002Ftd>\n    \u003Ctd>2024.02.11\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-2\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-V1-2\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>scaling up LLM to 34B\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-V1-1\u003C\u002Ftd>\n    \u003Ctd>2024.01.24\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-1\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-V1-1\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>support Chinese and stronger OCR\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-19B\u003C\u002Ftd>\n    \u003Ctd>2023.12.25\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-ViT-6B-Vicuna-13B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-ViT-6B-Vicuna-13B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>English multimodal dialogue\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-13B\u003C\u002Ftd>\n    \u003Ctd>2023.12.25\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-ViT-6B-Vicuna-7B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-ViT-6B-Vicuna-7B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>English multimodal dialogue\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### CLIP-like Model (InternVL 1.0-2.5)\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Model\u003C\u002Fth>\n    \u003Cth>Date\u003C\u002Fth>\n    \u003Cth>HF&nbsp;Link\u003C\u002Fth>\n    \u003Cth>MS&nbsp;Link\u003C\u002Fth>\n    \u003Cth>Note\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-300M-448px-V2_5\u003C\u002Ftd>\n    \u003Ctd>2024.12.05\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>🚀🚀 A more powerful lightweight visual encoder. (🔥new)\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-6B-448px-V2_5\u003C\u002Ftd>\n    \u003Ctd>2024.12.05\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>🚀🚀 A stronger visual encoder to extract visual features. (🔥new)\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-300M-448px\u003C\u002Ftd>\n    \u003Ctd>2024.05.25\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-300M-448px\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>distilled small vision foundation model with 300M parameters \u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT&#8209;6B&#8209;448px&#8209;V1&#8209;5\u003C\u002Ftd>\n    \u003Ctd>2024.04.20\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>support dynamic resolution and super strong OCR feature extraction capability by incremental pre-training\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-6B-448px-V1-2\u003C\u002Ftd>\n    \u003Ctd>2024.02.11\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-2\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-448px-V1-2\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>support 448 resolution by incremental pre-training\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-6B-448px-V1-0\u003C\u002Ftd>\n    \u003Ctd>2024.01.30\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-0\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-448px-V1-0\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>support 448 resolution by incremental pre-training\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-6B-224px\u003C\u002Ftd>\n    \u003Ctd>2023.12.22\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-224px\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-224px\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>the first version of InternViT-6B, extracted from InternVL‑14B‑224px\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### Vision-Language Foundation Model (InternVL 1.0)\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>Model\u003C\u002Fth>\n    \u003Cth>Date\u003C\u002Fth>\n    \u003Cth>HF&nbsp;Link\u003C\u002Fth>\n    \u003Cth>MS&nbsp;Link\u003C\u002Fth>\n    \u003Cth>Note\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL&#8209;14B&#8209;224px\u003C\u002Ftd>\n    \u003Ctd>2023.12.22\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-14B-224px\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-14B-224px\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>vision-language foundation model, InternViT-6B + QLLaMA, can be used for image-text retrieval like CLIP\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n## TODO List\n\n- [x] Release training \u002F evaluation code for InternVL2.5 series\n- [x] Support liger kernels to save GPU memory\n- [x] Release the code, model, and data of MPO\n- [x] Support multimodal packed dataset\n- [ ] Support vLLM and Ollama\n- [ ] Support video and PDF input in online demo\n- [ ] Release InternVL2 with VisionLLMv2 integration\n- [x] Rebuild documents using readthedocs\n- [x] Support fine-tuning different LLMs with LoRA\n- [x] Release `requirements.txt` for InternVL2\n- [x] Release training \u002F evaluation code for InternVL2 series\n- [x] Release Streamlit web UI for InternVL1.5 and InternVL2\n\n## What can InternVL do?\n\n\u003Cdetails>\n  \u003Csummary>Visual Perception (click to expand)\u003C\u002Fsummary>\n\n- Linear-Probe Image Classification [\\[see details\\]](.\u002Fclassification#-evaluation)\n\n  ViT-22B uses the private JFT-3B dataset.\n\n  | method              | #param | IN-1K | IN-ReaL | IN-V2 | IN-A  | IN-R  | IN-Sketch |\n  | ------------------- | :----: | :---: | :-----: | :---: | :---: | :---: | :-------: |\n  | OpenCLIP-G          |  1.8B  | 86.2  |  89.4   | 77.2  | 63.8  | 87.8  |   66.4    |\n  | DINOv2-g            |  1.1B  | 86.5  |  89.6   | 78.4  | 75.9  | 78.8  |   62.5    |\n  | EVA-01-CLIP-g       |  1.1B  | 86.5  |  89.3   | 77.4  | 70.5  | 87.7  |   63.1    |\n  | MAWS-ViT-6.5B       |  6.5B  | 87.8  |    -    |   -   |   -   |   -   |     -     |\n  | ViT-22B\\*           | 21.7B  | 89.5  |  90.9   | 83.2  | 83.8  | 87.4  |     -     |\n  | InternViT-6B (ours) |  5.9B  | 88.2  |  90.4   | 79.9  | 77.5  | 89.8  |   69.1    |\n\n- Semantic Segmentation [\\[see details\\]](.\u002Fsegmentation#-evaluation)\n\n  | method                | decoder | #param (train\u002Ftotal) | crop size | mIoU         |\n  | --------------------- | :-----: | :------------------: | :-------: | ------------ |\n  | OpenCLIP-G (frozen)   | Linear  |     0.3M \u002F 1.8B      |    512    | 39.3         |\n  | ViT-22B (frozen)      | Linear  |     0.9M \u002F 21.7B     |    504    | 34.6         |\n  | InternViT-6B (frozen) | Linear  |     0.5M \u002F 5.9B      |    504    | 47.2 (+12.6) |\n  | ViT-22B (frozen)      | UperNet |     0.8B \u002F 22.5B     |    504    | 52.7         |\n  | InternViT-6B (frozen) | UperNet |     0.4B \u002F 6.3B      |    504    | 54.9 (+2.2)  |\n  | ViT-22B               | UperNet |    22.5B \u002F 22.5B     |    504    | 55.3         |\n  | InternViT-6B          | UperNet |     6.3B \u002F 6.3B      |    504    | 58.9 (+3.6)  |\n\n- Zero-Shot Image Classification [\\[see details\\]](.\u002Fclip_benchmark#imagenet-variants-and-objectnet)\n\n  | method            | IN-1K | IN-A  | IN-R  | IN-V2 | IN-Sketch | ObjectNet |\n  | ----------------- | :---: | :---: | :---: | :---: | :-------: | :-------: |\n  | OpenCLIP-G        | 80.1  | 69.3  | 92.1  | 73.6  |   68.9    |   73.0    |\n  | EVA-02-CLIP-E+    | 82.0  | 82.1  | 94.5  | 75.7  |   71.6    |   79.6    |\n  | ViT-22B\\*         | 85.9  | 90.1  | 96.0  | 80.9  |     -     |   87.6    |\n  | InternVL-C (ours) | 83.2  | 83.8  | 95.5  | 77.3  |   73.9    |   80.6    |\n\n- Multilingual Zero-Shot Image Classification [\\[see details\\]](.\u002Fclip_benchmark#multilingual-imagenet-1k)\n\n  EN: English, ZH: Chinese, JP: Japanese, Ar: Arabic, IT: Italian\n\n  | method            | IN-1K (EN) | IN-1K (ZH) | IN-1K (JP) | IN-1K (AR) | IN-1K (IT) |\n  | ----------------- | :--------: | :--------: | :--------: | :--------: | :--------: |\n  | Taiyi-CLIP-ViT-H  |     -      |    54.4    |     -      |     -      |     -      |\n  | WuKong-ViT-L-G    |     -      |    57.5    |     -      |     -      |     -      |\n  | CN-CLIP-ViT-H     |     -      |    59.6    |     -      |     -      |     -      |\n  | AltCLIP-ViT-L     |    74.5    |    59.6    |     -      |     -      |     -      |\n  | EVA-02-CLIP-E+    |    82.0    |     -      |     -      |     -      |    41.2    |\n  | OpenCLIP-XLM-R-H  |    77.0    |    55.7    |    53.1    |    37.0    |    56.8    |\n  | InternVL-C (ours) |    83.2    |    64.5    |    61.5    |    44.9    |    65.7    |\n\n- Zero-Shot Video Classification\n\n  | method            | #frame | K400  | K600  | K700  |\n  | ----------------- | :----: | :---: | :---: | :---: |\n  | OpenCLIP-G        |   1    | 65.9  | 66.1  | 59.2  |\n  | EVA-02-CLIP-E+    |   1    | 69.8  | 69.3  | 63.4  |\n  | InternVL-C (ours) |   1    | 71.0  | 71.3  | 65.7  |\n  | ViCLIP            |   8    | 75.7  | 73.5  | 66.4  |\n  | InternVL-C (ours) |   8    | 79.4  | 78.8  | 71.5  |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>Cross-Modal Retrieval (click to expand)\u003C\u002Fsummary>\n\n- English Zero-Shot Image-Text Retrieval [\\[see details\\]](.\u002Fclip_benchmark#flickr30k--coco)\n\n  \u003Ctable>\n    \u003Ctr align=center>\n        \u003Ctd rowspan=\"3\" align=left>\u003Cb>model\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"6\" align=center>\u003Cb>Flickr30K\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"6\" align=center>\u003Cb>COCO\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd rowspan=\"3\" align=center>\u003Cb>avg\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n     \u003Ctr align=center>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>image-to-text\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>text-to-image\u003C\u002Fb>\u003C\u002Ftd>\n         \u003Ctd colspan=\"3\" align=center>\u003Cb>image-to-text\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>text-to-image\u003C\u002Fb>\u003C\u002Ftd>\n     \u003C\u002Ftr>\n     \u003Ctr>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>OpenCLIP-G\u003C\u002Ftd>\n        \u003Ctd>92.9\u003C\u002Ftd>\n        \u003Ctd>99.3\u003C\u002Ftd>\n        \u003Ctd>99.8\u003C\u002Ftd>\n        \u003Ctd>79.5\u003C\u002Ftd>\n        \u003Ctd>95.0\u003C\u002Ftd>\n        \u003Ctd>97.1\u003C\u002Ftd>\n        \u003Ctd>67.3\u003C\u002Ftd>\n        \u003Ctd>86.9\u003C\u002Ftd>\n        \u003Ctd>92.6\u003C\u002Ftd>\n        \u003Ctd>51.4\u003C\u002Ftd>\n        \u003Ctd>74.9\u003C\u002Ftd>\n        \u003Ctd>83.0\u003C\u002Ftd>\n        \u003Ctd>85.0\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>EVA-02-CLIP-E+\u003C\u002Ftd>\n        \u003Ctd>93.9\u003C\u002Ftd>\n        \u003Ctd>99.4\u003C\u002Ftd>\n        \u003Ctd>99.8\u003C\u002Ftd>\n        \u003Ctd>78.8\u003C\u002Ftd>\n        \u003Ctd>94.2\u003C\u002Ftd>\n        \u003Ctd>96.8\u003C\u002Ftd>\n        \u003Ctd>68.8\u003C\u002Ftd>\n        \u003Ctd>87.8\u003C\u002Ftd>\n        \u003Ctd>92.8\u003C\u002Ftd>\n        \u003Ctd>51.1\u003C\u002Ftd>\n        \u003Ctd>75.0\u003C\u002Ftd>\n        \u003Ctd>82.7\u003C\u002Ftd>\n        \u003Ctd>85.1\u003C\u002Ftd>\n     \u003C\u002Ftr>\n    \u003Ctr align=center>\n        \u003Ctd align=left>EVA-CLIP-8B\u003C\u002Ftd>\n        \u003Ctd>95.6\u003C\u002Ftd>\n        \u003Ctd>99.6\u003C\u002Ftd>\n        \u003Ctd>99.9\u003C\u002Ftd>\n        \u003Ctd>80.8\u003C\u002Ftd>\n        \u003Ctd>95.5\u003C\u002Ftd>\n        \u003Ctd>97.6\u003C\u002Ftd>\n        \u003Ctd>70.3\u003C\u002Ftd>\n        \u003Ctd>89.3\u003C\u002Ftd>\n        \u003Ctd>93.9\u003C\u002Ftd>\n        \u003Ctd>53.0\u003C\u002Ftd>\n        \u003Ctd>76.0\u003C\u002Ftd>\n        \u003Ctd>83.4\u003C\u002Ftd>\n        \u003Ctd>86.2\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>InternVL-C (ours)\u003C\u002Ftd>\n        \u003Ctd>94.7\u003C\u002Ftd>\n        \u003Ctd>99.6\u003C\u002Ftd>\n        \u003Ctd>99.9\u003C\u002Ftd>\n        \u003Ctd>81.7\u003C\u002Ftd>\n        \u003Ctd>96.0\u003C\u002Ftd>\n        \u003Ctd>98.2\u003C\u002Ftd>\n        \u003Ctd>70.6\u003C\u002Ftd>\n        \u003Ctd>89.0\u003C\u002Ftd>\n        \u003Ctd>93.5\u003C\u002Ftd>\n        \u003Ctd>54.1\u003C\u002Ftd>\n        \u003Ctd>77.3\u003C\u002Ftd>\n        \u003Ctd>84.6\u003C\u002Ftd>\n        \u003Ctd>86.6\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>InternVL-G (ours)\u003C\u002Ftd>\n        \u003Ctd>95.7\u003C\u002Ftd>\n        \u003Ctd>99.7\u003C\u002Ftd>\n        \u003Ctd>99.9\u003C\u002Ftd>\n        \u003Ctd>85.0\u003C\u002Ftd>\n        \u003Ctd>97.0\u003C\u002Ftd>\n        \u003Ctd>98.6\u003C\u002Ftd>\n        \u003Ctd>74.9\u003C\u002Ftd>\n        \u003Ctd>91.3\u003C\u002Ftd>\n        \u003Ctd>95.2\u003C\u002Ftd>\n        \u003Ctd>58.6\u003C\u002Ftd>\n        \u003Ctd>81.3\u003C\u002Ftd>\n        \u003Ctd>88.0\u003C\u002Ftd>\n        \u003Ctd>88.8\u003C\u002Ftd>\n     \u003C\u002Ftr>\n\n  \u003C\u002Ftable>\n\n- Chinese Zero-Shot Image-Text Retrieval [\\[see details\\]](.\u002Fclip_benchmark#flickr30k-cn--coco-cn)\n\n  \u003Ctable>\n    \u003Ctr  align=center>\n        \u003Ctd rowspan=\"3\" align=left>\u003Cb>model\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"6\" align=center>\u003Cb>Flickr30K-CN\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"6\" align=center>\u003Cb>COCO-CN\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd rowspan=\"3\" align=center>\u003Cb>avg\u003C\u002Fb>\u003C\u002Ftd>\n\n  \u003C\u002Ftr>\n     \u003Ctr  align=center>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>image-to-text\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>text-to-image\u003C\u002Fb>\u003C\u002Ftd>\n         \u003Ctd colspan=\"3\" align=center>\u003Cb>image-to-text\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>text-to-image\u003C\u002Fb>\u003C\u002Ftd>\n     \u003C\u002Ftr>\n     \u003Ctr>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n     \u003C\u002Ftr>\n\n  \u003Ctr align=center>\n        \u003Ctd align=left>CN-CLIP-ViT-H\u003C\u002Ftd>\n        \u003Ctd>81.6\u003C\u002Ftd>\n        \u003Ctd>97.5\u003C\u002Ftd>\n        \u003Ctd>98.8\u003C\u002Ftd>\n        \u003Ctd>71.2\u003C\u002Ftd>\n        \u003Ctd>91.4\u003C\u002Ftd>\n        \u003Ctd>95.5\u003C\u002Ftd>\n        \u003Ctd>63.0\u003C\u002Ftd>\n        \u003Ctd>86.6\u003C\u002Ftd>\n        \u003Ctd>92.9\u003C\u002Ftd>\n        \u003Ctd>69.2\u003C\u002Ftd>\n        \u003Ctd>89.9\u003C\u002Ftd>\n        \u003Ctd>96.1\u003C\u002Ftd>\n        \u003Ctd>86.1\u003C\u002Ftd>\n     \u003C\u002Ftr>\n\n  \u003Ctr align=center>\n        \u003Ctd align=left>OpenCLIP-XLM-R-H\u003C\u002Ftd>\n        \u003Ctd>86.1\u003C\u002Ftd>\n        \u003Ctd>97.5\u003C\u002Ftd>\n        \u003Ctd>99.2\u003C\u002Ftd>\n        \u003Ctd>71.0\u003C\u002Ftd>\n        \u003Ctd>90.5\u003C\u002Ftd>\n        \u003Ctd>94.9\u003C\u002Ftd>\n        \u003Ctd>70.0\u003C\u002Ftd>\n        \u003Ctd>91.5\u003C\u002Ftd>\n        \u003Ctd>97.0\u003C\u002Ftd>\n        \u003Ctd>66.1\u003C\u002Ftd>\n        \u003Ctd>90.8\u003C\u002Ftd>\n        \u003Ctd>96.0\u003C\u002Ftd>\n        \u003Ctd>87.6\u003C\u002Ftd>\n     \u003C\u002Ftr>\n\n  \u003Ctr align=center>\n        \u003Ctd align=left>InternVL-C (ours)\u003C\u002Ftd>\n        \u003Ctd>90.3\u003C\u002Ftd>\n        \u003Ctd>98.8\u003C\u002Ftd>\n        \u003Ctd>99.7\u003C\u002Ftd>\n        \u003Ctd>75.1\u003C\u002Ftd>\n        \u003Ctd>92.9\u003C\u002Ftd>\n        \u003Ctd>96.4\u003C\u002Ftd>\n        \u003Ctd>68.8\u003C\u002Ftd>\n        \u003Ctd>92.0\u003C\u002Ftd>\n        \u003Ctd>96.7\u003C\u002Ftd>\n        \u003Ctd>68.9\u003C\u002Ftd>\n        \u003Ctd>91.9\u003C\u002Ftd>\n        \u003Ctd>96.5\u003C\u002Ftd>\n        \u003Ctd>89.0\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>InternVL-G (ours)\u003C\u002Ftd>\n        \u003Ctd>92.9\u003C\u002Ftd>\n        \u003Ctd>99.4\u003C\u002Ftd>\n        \u003Ctd>99.8\u003C\u002Ftd>\n        \u003Ctd>77.7\u003C\u002Ftd>\n        \u003Ctd>94.8\u003C\u002Ftd>\n        \u003Ctd>97.3\u003C\u002Ftd>\n        \u003Ctd>71.4\u003C\u002Ftd>\n        \u003Ctd>93.9\u003C\u002Ftd>\n        \u003Ctd>97.7\u003C\u002Ftd>\n        \u003Ctd>73.8\u003C\u002Ftd>\n        \u003Ctd>94.4\u003C\u002Ftd>\n        \u003Ctd>98.1\u003C\u002Ftd>\n        \u003Ctd>90.9\u003C\u002Ftd>\n     \u003C\u002Ftr>\n\n  \u003C\u002Ftable>\n\n- Multilingual Zero-Shot Image-Text Retrieval on XTD [\\[see details\\]](.\u002Fclip_benchmark#xtd)\n\n  | method            |  EN   |  ES   |  FR   |  ZH   |  IT   |  KO   |  RU   |  JP   | average |\n  | ----------------- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :-----: |\n  | AltCLIP           | 95.4  | 94.1  | 92.9  | 95.1  | 94.2  | 94.4  | 91.8  | 91.7  |  93.7   |\n  | OpenCLIP-XLM-R-H  | 97.3  | 96.1  | 94.5  | 94.7  | 96.0  | 90.2  | 93.9  | 94.0  |  94.6   |\n  | InternVL-C (ours) | 97.3  | 95.7  | 95.1  | 95.6  | 96.0  | 92.2  | 93.3  | 95.5  |  95.1   |\n  | InternVL-G (ours) | 98.6  | 97.7  | 96.5  | 96.7  | 96.9  | 95.1  | 94.8  | 96.1  |  96.6   |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>Multimodal Dialogue\u003C\u002Fsummary>\n\n\u003C\u002Fdetails>\n\n## Quick Start with HuggingFace\n\n\u003Cdetails>\n  \u003Csummary>using InternViT-6B for visual feature extraction (click to expand)\u003C\u002Fsummary>\n\n```python\nimport torch\nfrom PIL import Image\nfrom transformers import AutoModel, CLIPImageProcessor\n\nmodel = AutoModel.from_pretrained(\n    'OpenGVLab\u002FInternViT-6B-448px-V2_5',\n    torch_dtype=torch.bfloat16,\n    low_cpu_mem_usage=True,\n    trust_remote_code=True).cuda().eval()\n\nimage = Image.open('.\u002Fexamples\u002Fimage1.jpg').convert('RGB')\n\nimage_processor = CLIPImageProcessor.from_pretrained('OpenGVLab\u002FInternViT-6B-448px-V1-5')\n\npixel_values = image_processor(images=image, return_tensors='pt').pixel_values\npixel_values = pixel_values.to(torch.bfloat16).cuda()\n\noutputs = model(pixel_values)\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>using InternVL-C(ontrastive) and InternVL-G(enerative) for cross-modal retrieval (click to expand)\u003C\u002Fsummary>\n\n```python\nimport torch\nfrom PIL import Image\nfrom transformers import AutoModel, CLIPImageProcessor\nfrom transformers import AutoTokenizer\n\n\nmodel = AutoModel.from_pretrained(\n    'OpenGVLab\u002FInternVL-14B-224px',\n    torch_dtype=torch.bfloat16,\n    low_cpu_mem_usage=True,\n    trust_remote_code=True).cuda().eval()\n\nimage_processor = CLIPImageProcessor.from_pretrained('OpenGVLab\u002FInternVL-14B-224px')\n\ntokenizer = AutoTokenizer.from_pretrained(\n    'OpenGVLab\u002FInternVL-14B-224px', use_fast=False, add_eos_token=True)\ntokenizer.pad_token_id = 0  # set pad_token_id to 0\n\nimages = [\n    Image.open('.\u002Fexamples\u002Fimage1.jpg').convert('RGB'),\n    Image.open('.\u002Fexamples\u002Fimage2.jpg').convert('RGB'),\n    Image.open('.\u002Fexamples\u002Fimage3.jpg').convert('RGB')\n]\nprefix = 'summarize:'\ntexts = [\n    prefix + 'a photo of a red panda',  # English\n    prefix + '一张熊猫的照片',  # Chinese\n    prefix + '二匹の猫の写真'  # Japanese\n]\n\npixel_values = image_processor(images=images, return_tensors='pt').pixel_values\npixel_values = pixel_values.to(torch.bfloat16).cuda()\ninput_ids = tokenizer(texts, return_tensors='pt', max_length=80,\n                      truncation=True, padding='max_length').input_ids.cuda()\n\n# InternVL-C\nlogits_per_image, logits_per_text = model(\n    image=pixel_values, text=input_ids, mode='InternVL-C')\nprobs = logits_per_image.softmax(dim=-1)\n# tensor([[9.9609e-01, 5.2185e-03, 6.0070e-08],\n#         [2.2949e-02, 9.7656e-01, 5.9903e-06],\n#         [3.2932e-06, 7.4863e-05, 1.0000e+00]], device='cuda:0',\n#        dtype=torch.bfloat16, grad_fn=\u003CSoftmaxBackward0>)\n\n# InternVL-G\nlogits_per_image, logits_per_text = model(\n    image=pixel_values, text=input_ids, mode='InternVL-G')\nprobs = logits_per_image.softmax(dim=-1)\n# tensor([[9.9609e-01, 3.1738e-03, 3.6322e-08],\n#         [8.6060e-03, 9.9219e-01, 2.8759e-06],\n#         [1.7583e-06, 3.1233e-05, 1.0000e+00]], device='cuda:0',\n#        dtype=torch.bfloat16, grad_fn=\u003CSoftmaxBackward0>)\n\n# please set add_eos_token to False for generation\ntokenizer.add_eos_token = False\nimage = Image.open('.\u002Fexamples\u002Fimage1.jpg').convert('RGB')\npixel_values = image_processor(images=image, return_tensors='pt').pixel_values\npixel_values = pixel_values.to(torch.bfloat16).cuda()\n\ntokenized = tokenizer(\"English caption:\", return_tensors='pt')\npred = model.generate(\n    pixel_values=pixel_values,\n    input_ids=tokenized.input_ids.cuda(),\n    attention_mask=tokenized.attention_mask.cuda(),\n    num_beams=5,\n    min_new_tokens=8,\n)\ncaption = tokenizer.decode(pred[0].cpu(), skip_special_tokens=True).strip()\n# English caption: a red panda sitting on top of a wooden platform\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>using InternVL 2.5 for multimodal chat (click to expand)\u003C\u002Fsummary>\n\nHere, we take the smaller `OpenGVLab\u002FInternVL2_5-8B` as an example:\n\n```python\nimport numpy as np\nimport torch\nimport torchvision.transforms as T\nfrom decord import VideoReader, cpu\nfrom PIL import Image\nfrom torchvision.transforms.functional import InterpolationMode\nfrom transformers import AutoModel, AutoTokenizer\n\nIMAGENET_MEAN = (0.485, 0.456, 0.406)\nIMAGENET_STD = (0.229, 0.224, 0.225)\n\ndef build_transform(input_size):\n    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD\n    transform = T.Compose([\n        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),\n        T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),\n        T.ToTensor(),\n        T.Normalize(mean=MEAN, std=STD)\n    ])\n    return transform\n\ndef find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):\n    best_ratio_diff = float('inf')\n    best_ratio = (1, 1)\n    area = width * height\n    for ratio in target_ratios:\n        target_aspect_ratio = ratio[0] \u002F ratio[1]\n        ratio_diff = abs(aspect_ratio - target_aspect_ratio)\n        if ratio_diff \u003C best_ratio_diff:\n            best_ratio_diff = ratio_diff\n            best_ratio = ratio\n        elif ratio_diff == best_ratio_diff:\n            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:\n                best_ratio = ratio\n    return best_ratio\n\ndef dynamic_preprocess(image, min_num=1, max_num=12, image_size=448, use_thumbnail=False):\n    orig_width, orig_height = image.size\n    aspect_ratio = orig_width \u002F orig_height\n\n    # calculate the existing image aspect ratio\n    target_ratios = set(\n        (i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) if\n        i * j \u003C= max_num and i * j >= min_num)\n    target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])\n\n    # find the closest aspect ratio to the target\n    target_aspect_ratio = find_closest_aspect_ratio(\n        aspect_ratio, target_ratios, orig_width, orig_height, image_size)\n\n    # calculate the target width and height\n    target_width = image_size * target_aspect_ratio[0]\n    target_height = image_size * target_aspect_ratio[1]\n    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]\n\n    # resize the image\n    resized_img = image.resize((target_width, target_height))\n    processed_images = []\n    for i in range(blocks):\n        box = (\n            (i % (target_width \u002F\u002F image_size)) * image_size,\n            (i \u002F\u002F (target_width \u002F\u002F image_size)) * image_size,\n            ((i % (target_width \u002F\u002F image_size)) + 1) * image_size,\n            ((i \u002F\u002F (target_width \u002F\u002F image_size)) + 1) * image_size\n        )\n        # split the image\n        split_img = resized_img.crop(box)\n        processed_images.append(split_img)\n    assert len(processed_images) == blocks\n    if use_thumbnail and len(processed_images) != 1:\n        thumbnail_img = image.resize((image_size, image_size))\n        processed_images.append(thumbnail_img)\n    return processed_images\n\ndef load_image(image_file, input_size=448, max_num=12):\n    image = Image.open(image_file).convert('RGB')\n    transform = build_transform(input_size=input_size)\n    images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)\n    pixel_values = [transform(image) for image in images]\n    pixel_values = torch.stack(pixel_values)\n    return pixel_values\n\n# If you have an 80G A100 GPU, you can put the entire model on a single GPU.\n# Otherwise, you need to load a model using multiple GPUs, please refer to the `Multiple GPUs` section.\npath = 'OpenGVLab\u002FInternVL2_5-8B'\nmodel = AutoModel.from_pretrained(\n    path,\n    torch_dtype=torch.bfloat16,\n    low_cpu_mem_usage=True,\n    trust_remote_code=True).eval().cuda()\ntokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True, use_fast=False)\n\n# set the max number of tiles in `max_num`\npixel_values = load_image('.\u002Fexamples\u002Fimage1.jpg', max_num=12).to(torch.bfloat16).cuda()\ngeneration_config = dict(max_new_tokens=1024, do_sample=False)\n\n# pure-text conversation (纯文本对话)\nquestion = 'Hello, who are you?'\nresponse, history = model.chat(tokenizer, None, question, generation_config, history=None, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\nquestion = 'Can you tell me a story?'\nresponse, history = model.chat(tokenizer, None, question, generation_config, history=history, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\n# single-image single-round conversation (单图单轮对话)\nquestion = '\u003Cimage>\\nPlease describe the image shortly.'\nresponse = model.chat(tokenizer, pixel_values, question, generation_config)\nprint(f'User: {question}\\nAssistant: {response}')\n\n# single-image multi-round conversation (单图多轮对话)\nquestion = '\u003Cimage>\\nPlease describe the image in detail.'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config, history=None, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\nquestion = 'Please write a poem according to the image.'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config, history=history, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\n# multi-image multi-round conversation, combined images (多图多轮对话，拼接图像)\npixel_values1 = load_image('.\u002Fexamples\u002Fimage1.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values2 = load_image('.\u002Fexamples\u002Fimage2.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)\n\nquestion = '\u003Cimage>\\nDescribe the two images in detail.'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               history=None, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\nquestion = 'What are the similarities and differences between these two images.'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               history=history, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\n# multi-image multi-round conversation, separate images (多图多轮对话，独立图像)\npixel_values1 = load_image('.\u002Fexamples\u002Fimage1.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values2 = load_image('.\u002Fexamples\u002Fimage2.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)\nnum_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]\n\nquestion = 'Image-1: \u003Cimage>\\nImage-2: \u003Cimage>\\nDescribe the two images in detail.'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               num_patches_list=num_patches_list,\n                               history=None, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\nquestion = 'What are the similarities and differences between these two images.'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               num_patches_list=num_patches_list,\n                               history=history, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\n# batch inference, single image per sample (单图批处理)\npixel_values1 = load_image('.\u002Fexamples\u002Fimage1.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values2 = load_image('.\u002Fexamples\u002Fimage2.jpg', max_num=12).to(torch.bfloat16).cuda()\nnum_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]\npixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)\n\nquestions = ['\u003Cimage>\\nDescribe the image in detail.'] * len(num_patches_list)\nresponses = model.batch_chat(tokenizer, pixel_values,\n                             num_patches_list=num_patches_list,\n                             questions=questions,\n                             generation_config=generation_config)\nfor question, response in zip(questions, responses):\n    print(f'User: {question}\\nAssistant: {response}')\n\n# video multi-round conversation (视频多轮对话)\ndef get_index(bound, fps, max_frame, first_idx=0, num_segments=32):\n    if bound:\n        start, end = bound[0], bound[1]\n    else:\n        start, end = -100000, 100000\n    start_idx = max(first_idx, round(start * fps))\n    end_idx = min(round(end * fps), max_frame)\n    seg_size = float(end_idx - start_idx) \u002F num_segments\n    frame_indices = np.array([\n        int(start_idx + (seg_size \u002F 2) + np.round(seg_size * idx))\n        for idx in range(num_segments)\n    ])\n    return frame_indices\n\ndef load_video(video_path, bound=None, input_size=448, max_num=1, num_segments=32):\n    vr = VideoReader(video_path, ctx=cpu(0), num_threads=1)\n    max_frame = len(vr) - 1\n    fps = float(vr.get_avg_fps())\n\n    pixel_values_list, num_patches_list = [], []\n    transform = build_transform(input_size=input_size)\n    frame_indices = get_index(bound, fps, max_frame, first_idx=0, num_segments=num_segments)\n    for frame_index in frame_indices:\n        img = Image.fromarray(vr[frame_index].asnumpy()).convert('RGB')\n        img = dynamic_preprocess(img, image_size=input_size, use_thumbnail=True, max_num=max_num)\n        pixel_values = [transform(tile) for tile in img]\n        pixel_values = torch.stack(pixel_values)\n        num_patches_list.append(pixel_values.shape[0])\n        pixel_values_list.append(pixel_values)\n    pixel_values = torch.cat(pixel_values_list)\n    return pixel_values, num_patches_list\n\nvideo_path = '.\u002Fexamples\u002Fred-panda.mp4'\npixel_values, num_patches_list = load_video(video_path, num_segments=8, max_num=1)\npixel_values = pixel_values.to(torch.bfloat16).cuda()\nvideo_prefix = ''.join([f'Frame-{i+1}: \u003Cimage>\\n' for i in range(len(num_patches_list))])\nquestion = video_prefix + 'What is the red panda doing?'\n# Frame1: \u003Cimage>\\nFrame2: \u003Cimage>\\n...\\nFrame8: \u003Cimage>\\n{question}\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               num_patches_list=num_patches_list, history=None, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n\nquestion = 'Describe this video in detail.'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               num_patches_list=num_patches_list, history=history, return_history=True)\nprint(f'User: {question}\\nAssistant: {response}')\n```\n\n\u003C\u002Fdetails>\n\n## License\n\nThis project is released under the [MIT license](LICENSE). Parts of this project contain code and models from other sources, which are subject to their respective licenses.\n\n## Citation\n\nIf you find this project useful in your research, please consider cite:\n\n```BibTeX\n@article{wang2025internvl3_5,\n  title={InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency},\n  author={Wang, Weiyun and Gao, Zhangwei and Gu, Lixin and Pu, Hengjun and Cui, Long and Wei, Xingguang and Liu, Zhaoyang and Jing, Linglin and Ye, Shenglong and Shao, Jie and others},\n  journal={arXiv preprint arXiv:2508.18265},\n  year={2025}\n}\n@article{zhu2025internvl3,\n  title={Internvl3: Exploring advanced training and test-time recipes for open-source multimodal models},\n  author={Zhu, Jinguo and Wang, Weiyun and Chen, Zhe and Liu, Zhaoyang and Ye, Shenglong and Gu, Lixin and Tian, Hao and Duan, Yuchen and Su, Weijie and Shao, Jie and others},\n  journal={arXiv preprint arXiv:2504.10479},\n  year={2025}\n}\n@article{chen2024expanding,\n  title={Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling},\n  author={Chen, Zhe and Wang, Weiyun and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Cui, Erfei and Zhu, Jinguo and Ye, Shenglong and Tian, Hao and Liu, Zhaoyang and others},\n  journal={arXiv preprint arXiv:2412.05271},\n  year={2024}\n}\n@article{wang2024mpo,\n  title={Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization},\n  author={Wang, Weiyun and Chen, Zhe and Wang, Wenhai and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Zhu, Jinguo and Zhu, Xizhou and Lu, Lewei and Qiao, Yu and Dai, Jifeng},\n  journal={arXiv preprint arXiv:2411.10442},\n  year={2024}\n}\n@article{gao2024mini,\n  title={Mini-InternVL: a flexible-transfer pocket multi-modal model with 5\\% parameters and 90\\% performance},\n  author={Gao, Zhangwei and Chen, Zhe and Cui, Erfei and Ren, Yiming and Wang, Weiyun and Zhu, Jinguo and Tian, Hao and Ye, Shenglong and He, Junjun and Zhu, Xizhou and others},\n  journal={Visual Intelligence},\n  volume={2},\n  number={1},\n  pages={1--17},\n  year={2024},\n  publisher={Springer}\n}\n@article{chen2024far,\n  title={How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites},\n  author={Chen, Zhe and Wang, Weiyun and Tian, Hao and Ye, Shenglong and Gao, Zhangwei and Cui, Erfei and Tong, Wenwen and Hu, Kongzhi and Luo, Jiapeng and Ma, Zheng and others},\n  journal={Science China Information Sciences},\n  volume={67},\n  number={12},\n  pages={220101},\n  year={2024},\n  publisher={Springer}\n}\n@inproceedings{chen2024internvl,\n  title={Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks},\n  author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and others},\n  booktitle={Proceedings of the IEEE\u002FCVF Conference on Computer Vision and Pattern Recognition},\n  pages={24185--24198},\n  year={2024}\n}\n```\n\n## Acknowledgement\n\nInternVL is built with reference to the code of the following projects: [OpenAI CLIP](https:\u002F\u002Fgithub.com\u002Fopenai\u002FCLIP), [Open CLIP](https:\u002F\u002Fgithub.com\u002Fmlfoundations\u002Fopen_clip), [CLIP Benchmark](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FCLIP_benchmark), [EVA](https:\u002F\u002Fgithub.com\u002Fbaaivision\u002FEVA\u002Ftree\u002Fmaster), [InternImage](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternImage), [ViT-Adapter](https:\u002F\u002Fgithub.com\u002Fczczup\u002FViT-Adapter), [MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation), [Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers), [DINOv2](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2), [BLIP-2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Fblip2), [Qwen-VL](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-VL\u002Ftree\u002Fmaster\u002Feval_mm), and [LLaVA-1.5](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA). Thanks for their awesome work!\n\n______________________________________________________________________\n\nScan the following QR Code, join our WeChat group.\n\n\u003Cp align=\"center\">\u003Cimg width=\"300\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_1b29e97f7744.png\">\u003C\u002Fp>\n","\u003Cdiv align=\"center\">\n\n# InternVL 系列：以开源套件弥合与商用多模态模型的差距 —— GPT-5 的开创性开源替代方案\n\n\u003Cdiv align=\"center\">\n  \u003Cimg width=\"500\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_d6dc70469dca.png\">\n  \u003Cbr>\n\u003C\u002Fdiv>\n\n[\\[🆕 博客\\]](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F)\n[\\[🤔 常见问题解答\\]](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Ffaqs.html)\n[\\[🗨️ 聊天演示\\]](https:\u002F\u002Fchat.intern-ai.org.cn\u002F)\n[\\[📖 文档\\]](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002F)\n[\\[🌐 API\\]](https:\u002F\u002Finternlm.intern-ai.org.cn\u002Fapi\u002Fdocument)\n[\\[🚀 快速入门\\]](#quick-start-with-huggingface)\n\n[\\[🔥 InternVL3.5 报告\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2508.18265)\n[\\[📜 InternVL3.0 报告\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.10479)\n[\\[📜 InternVL2.5 MPO\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.10442)\n[\\[📜 InternVL2.5 报告\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2412.05271)\n\n[\\[📜 Mini-InternVL 论文\\]](https:\u002F\u002Farxiv.org\u002Fabs\u002F2410.16261)\n[\\[📜 InternVL 2.0 博客\\]](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-07-02-InternVL-2.0\u002F)\n[\\[📜 InternVL 1.5 论文\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2404.16821)\n[\\[📜 InternVL 1.0 论文\\]](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2312.14238)\n\n[\\[📖 2.0 中文解读\\]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F706547971)\n[\\[📖 1.5 中文解读\\]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F699439759)\n[\\[📖 1.0 中文解读\\]](https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F702946079)\n\n[切换至中文版](\u002FREADME_zh.md)\n\n\u003Ca href=\"https:\u002F\u002Ftrendshift.io\u002Frepositories\u002F9803\" target=\"_blank\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_1145cd82417e.png\" alt=\"OpenGVLab%2FInternVL | Trendshift\" style=\"width: 250px; height: 55px;\" width=\"250\" height=\"55\"\u002F>\u003C\u002Fa>\n\u003Cimg height=\"55\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_539985921ef0.png\">\n\n![image\u002Fjpg](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_611fc67391e8.jpg)\n\n\u003C\u002Fdiv>\n\n## 新闻 🚀🚀🚀\n\n- `2025\u002F08\u002F30`: 🔥 我们开源了 [InternVL3_5-GPT-OSS-20B-A4B](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat_gpt_oss) 和 CascadeRL 的训练代码，其中 CascadeRL 包含一个 [离线强化学习阶段](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fblob\u002Fmain\u002Finternvl_chat_gpt_oss\u002Fshell\u002Finternvl3_5_gpt_oss\u002Finternvl3_5_gpt_oss_20b_stage3_mpo.sh) 和一个 [在线强化学习阶段](https:\u002F\u002Fgithub.com\u002FWeiyun1025\u002Fverl-internvl)。这两个阶段的训练数据（[MMPR-v1.2](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FMMPR-v1.2) 和 [MMPR-Tiny](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FMMPR-Tiny)）也已开源。\n- `2025\u002F08\u002F26`: 🚀 我们推出了 [InternVL3.5](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2508.18265)，这是 InternVL 系列中一个新的开源多模态模型家族，显著提升了模型的通用性、推理能力和推理效率。我们最大的模型，即 [InternVL3.5-241B-A28B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B)，在开源多模态大语言模型中，在通用多模态任务、推理任务、文本任务和代理任务等方面均取得了最先进的成绩。我们还提供了一个 20B-A4B 版本（即 [InternVL3_5-GPT-OSS-20B-A4B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview)），该版本基于 GPT-OSS-20B-A4B 构建。值得注意的是，我们提供了两种模型格式：与之前发布一致的 [GitHub 格式](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview#github-format)，以及符合官方 `transformers` 标准的 [HF 格式](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview#huggingface-format)。\n- `2025\u002F04\u002F17`: 我们开源了 [MPO](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.10442) 和 [VisualPRM](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2503.10291) 的 [数据构建流水线](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Ftools\u002Freasoning_data_pipeline) 和 [训练脚本](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Finternvl3.0\u002Fmpo)。此外，用于 [MPO](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Finternvl3.0\u002Fmpo_data_construction) 和 [VisualPRM](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Finternvl3.0\u002Fvisualprm_data_construction) 的数据构建脚本也一并发布，供参考。\n- `2025\u002F04\u002F11`: 我们推出了 [InternVL3](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl3-67f7f690be79c2fe9d74fe9d)，这是一个先进的多模态大语言模型系列，展现了卓越的整体性能。InternVL3-78B 在开源多模态大语言模型中，无论是在 [感知能力](https:\u002F\u002Frank.opencompass.org.cn\u002Fleaderboard-multimodal\u002F?m=REALTIME) 还是在 [推理能力](https:\u002F\u002Frank.opencompass.org.cn\u002Fleaderboard-multimodal-reasoning\u002F?m=REALTIME) 方面，都达到了最先进水平。InternVL3-78B 的关键设计包括 [可变视觉位置编码](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2412.09616)、[原生多模态预训练](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2504.10479)、[混合偏好优化](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.10442)以及 [多模态测试时缩放](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2503.10291)。\n- `2025\u002F03\u002F13`: 我们推出了 [VisualPRM](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FVisualPRM-8B)，这是一款具有 80 亿参数的先进多模态过程奖励模型，能够分别将 InternVL2.5-8B 和 InternVL2.5-78B 的整体推理性能提升 8.4 和 5.9 个百分点。该模型的训练数据，名为 [VisualPRM400K](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FVisualPRM400K)，也已开源。更多详情请参阅我们的 [论文](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2503.10291) 和 [项目页面](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2025-03-13-VisualPRM\u002F)。\n- `2024\u002F12\u002F20`: 我们发布了 [InternVL2.5-MPO](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-12-20-InternVL-2.5-MPO\u002F)，该模型基于 [MMPR-v1.1](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FMMPR-v1.1) 使用 [混合偏好优化](https:\u002F\u002Fhuggingface.co\u002Fpapers\u002F2411.10442) 进行微调。**与未使用 MPO 的同类模型相比，这些模型在 OpenCompass 排行榜上所有规模的模型平均高出 2 分。** 这些模型可在 [HF 链接](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl25-mpo-6753fed98cd828219b12f849) 处获取。\n- `2024\u002F12\u002F17`: [InternVL2\u002F2.5](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX\u002Ftree\u002Fdevelop\u002Fpaddlemix\u002Fexamples\u002Finternvl2) 已由 Paddle 团队在 [PaddleMIX](https:\u002F\u002Fgithub.com\u002FPaddlePaddle\u002FPaddleMIX) 中支持。\n- `2024\u002F12\u002F05`: 我们发布了 [InternVL2.5](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl-25-673e1019b66e2218f68d7c1c)，这是一个先进的多模态大语言模型系列，参数范围从 10 亿到 780 亿不等。[InternVL2_5-78B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-78B) 是首个在 **MMMU 基准测试** 上得分超过 **70%** 的开源多模态大语言模型，其性能与 GPT-4o 等领先的闭源商用模型相当。这些模型可在 [HF 链接](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl-25-673e1019b66e2218f68d7c1c) 处获取。\n- `2024\u002F11\u002F14`: 我们推出了 [MMPR](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002FOpenGVLab\u002FMMPR)，这是一个高质量、大规模的多模态推理偏好数据集，以及 [MPO](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Finternvl2.0_mpo)，一种高效的偏好优化算法。由此产生的模型 [InternVL2-8B-MPO](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-8B-MPO) 在 MathVista 测试中达到了 67.0 的准确率。更多详情请参阅我们的 [论文](https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.10442)、[项目页面](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-11-14-InternVL-2.0-MPO\u002F) 和 [文档](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fpreference_optimization.html)。\n\n\u003Cdetails>\n\u003Csummary>更多新闻\u003C\u002Fsummary>\n\n- `2024\u002F10\u002F21`: 我们发布了Mini-InternVL系列模型。这些模型以极小的规模实现了令人印象深刻的效果：4B参数量的模型仅用5%的模型规模就达到了90%的性能。更多详情请查看我们的[项目页面](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Ftree\u002Fmain\u002Finternvl_chat\u002Fshell\u002Fmini_internvl)和[文档](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fdomain_adaptation.html)。\n- `2024\u002F08\u002F01`: [Chartmimic](https:\u002F\u002Fchartmimic.github.io\u002F)团队在他们的基准上评估了InternVL2系列模型。InternVL2-26B和76B模型在开源模型中分别取得了前两名的成绩，其中InternVL2 76B模型超越了GeminiProVision，并且与Claude-3-opus的表现相当。\n- `2024\u002F08\u002F01`: InternVL2-Pro在[CharXiv](https:\u002F\u002Fcharxiv.github.io\u002F#leaderboard)数据集上取得了开源模型中的SOTA性能，超越了许多闭源模型，如GPT-4V、Gemini 1.5 Flash和Claude 3 Sonnet。\n- `2024\u002F07\u002F24`: [MLVU](https:\u002F\u002Fgithub.com\u002FJUNJIE99\u002FMLVU)团队在他们的基准上评估了InternVL-1.5。在选择题任务上的平均成绩为50.4%，而在生成式任务上的成绩为4.02。选择题任务的成绩在所有开源MLLM中排名第一。\n- `2024\u002F07\u002F04`: 我们发布了[InternVL2系列](https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FOpenGVLab\u002Finternvl-20-667d3961ab5eb12c7ed1463e)。InternVL2-Pro在MMMU基准上取得了62.0%的准确率，与GPT-4o等领先的闭源商用模型表现相当。\n- `2024\u002F07\u002F18`: InternVL2-40B在[Video-MME](https:\u002F\u002Fgithub.com\u002FBradyFU\u002FVideo-MME)数据集上取得了开源模型中的SOTA性能，输入16帧时得分为61.2，输入32帧时得分为64.4。它显著优于其他开源模型，是目前最接近GPT-4o mini的开源模型。\n- `2024\u002F07\u002F18`: InternVL2-Pro在[DocVQA](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=17&com=evaluation&task=1)和[InfoVQA](https:\u002F\u002Frrc.cvc.uab.es\u002F?ch=17&com=evaluation&task=3)基准上取得了SOTA性能。\n- `2024\u002F06\u002F19`: 我们提出了“多模态 haystack 中的针”（[MM-NIAH](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMM-NIAH)），这是首个旨在系统性评估现有MLLM理解长篇多模态文档能力的基准。\n- `2024\u002F05\u002F30`: 我们发布了[ShareGPT-4o](https:\u002F\u002Fsharegpt4o.github.io\u002F)，这是一个大规模数据集，计划开源包含20万张图片、1万段视频和1万段音频，并配有详细描述。\n- `2024\u002F05\u002F28`: 感谢[lmdeploy](https:\u002F\u002Fgithub.com\u002FInternLM\u002Flmdeploy)团队提供的AWQ量化支持。4-bit模型已在[OpenGVLab\u002FInternVL-Chat-V1-5-AWQ](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-5-AWQ)上线。\n- `2024\u002F05\u002F13`: InternVL 1.0现在可以作为扩散模型的[文本编码器](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-14B-224px)，原生支持全球超过110种语言的多语言生成。更多详情请参见[MuLan](https:\u002F\u002Fgithub.com\u002Fmulanai\u002FMuLan)。\n- `2024\u002F04\u002F18`: InternVL-Chat-V1-5已在[HuggingFace链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-5)发布，在MMMU、DocVQA、ChartQA、MathVista等多个基准上接近GPT-4V和Gemini Pro的性能。\n- `2024\u002F02\u002F27`: InternVL被CVPR 2024接受（口头报告）！🎉\n- `2024\u002F02\u002F21`: [InternVL-Chat-V1-2-Plus](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-2-Plus)在MathVista（59.9）、MMBench（83.8）和MMVP（58.7）上取得了SOTA性能。更多详情请参见我们的[博客](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-02-21-InternVL-1.2\u002F)。\n- `2024\u002F02\u002F12`: InternVL-Chat-V1-2已发布。在MMMU验证集上的得分为51.6，在MMBench测试集上的得分为82.3。更多详情请参考我们的[博客](https:\u002F\u002Finternvl.github.io\u002Fblog\u002F2024-02-21-InternVL-1.2\u002F)和[SFT数据](.\u002Finternvl_chat#prepare-training-datasets)。该模型现已在[HuggingFace](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-2)上线，训练和评估数据以及脚本均已开源。\n- `2024\u002F01\u002F24`: InternVL-Chat-V1-1发布，支持中文并具有更强的OCR能力，详情请见[此处](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-1)。\n- `2024\u002F01\u002F16`: 我们发布了自定义的mmcv\u002Fmmsegmentation\u002Fmmdetection代码[OpenGVLab\u002FInternVL-MMDetSeg](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL-MMDetSeg)，集成了DeepSpeed，可用于训练大规模的目标检测和分割模型。\n\n\u003C\u002Fdetails>\n\n\n\n## 文档\n\n### 🌟 **入门指南**\n\n- **安装**: 🌱 [安装指南](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Finstallation.html) | 📄 [requirements.txt](.\u002Frequirements.txt)\n- **聊天数据格式**: 📝 [元文件](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#meta-file) | ✏️ [纯文本](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#pure-text-data) | 🖼️ [单张图片](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#single-image-data) | 🖼️🖼️ [多张图片](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#multi-image-data) | 🎥 [视频](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Fchat_data_format.html#video-data)\n- **本地聊天演示**: 🤖 [Streamlit演示](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Fget_started\u002Flocal_chat_demo.html#streamlit-demo)\n- **InternVL-Chat API**: 🌐 [InternVL2.5 API](https:\u002F\u002Finternlm.intern-ai.org.cn\u002Fapi\u002Fdocument)\n- **教程**: 🚀 [使用LoRA微调增强InternVL2在COCO Caption上的表现](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Ftutorials\u002Fcoco_caption_finetune.html)\n\n### 🏆 **InternVL 家族**\n\n- **InternVL 3.0**: 📖 [简介](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fintroduction.html) | ⚡ [快速入门](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fquick_start.html) | ✨ [微调](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Ffinetune.html) | 📊 [评估](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fevaluation.html) | 📦 [部署](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fdeployment.html) | 🎯 [MPO](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl3.0\u002Fpreference_optimization.html)\n- **InternVL 2.5**: 📖 [简介](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fintroduction.html) | ⚡ [快速入门](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fquick_start.html) | ✨ [微调](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Ffinetune.html) | 📊 [评估](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fevaluation.html) | 📦 [部署](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fdeployment.html) | 🎯 [MPO](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.5\u002Fpreference_optimization.html)\n- **InternVL 2.0**: 📖 [简介](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fintroduction.html) | ⚡ [快速入门](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fquick_start.html) | ✨ [微调](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Ffinetune.html) | 📊 [评估](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fevaluation.html) | 📦 [部署](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fdeployment.html) | 🎯 [MPO](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl2.0\u002Fpreference_optimization.html)\n- **InternVL 1.5**: 📖 [简介](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Fintroduction.html) | ⚡ [快速入门](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Fquick_start.html) | ✨ [微调](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Ffinetune.html) | 📊 [评估](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Fevaluation.html) | 📦 [部署](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.5\u002Fdeployment.html)\n- **InternVL 1.2**: 📖 [简介](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.2\u002Fintroduction.html) | ⚡ [快速入门](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.2\u002Fquick_start.html) | ✨ [微调](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.2\u002Ffinetune.html) | 📊 [评估](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.2\u002Fevaluation.html)\n- **InternVL 1.1**: 📖 [简介](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.1\u002Fintroduction.html) | ⚡ [快速入门](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.1\u002Fquick_start.html) | 📊 [评估](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.1\u002Fevaluation.html)\n- **InternVL 1.0**: 🖼️ [分类](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Fclassification.html) | 📊 [CLIP 基准测试](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Fclip_benchmark.html) | 🎨 [分割](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Fsegmentation.html) | 💬 [聊天-LLaVA](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Finternvl_chat_llava.html) | ✨ [InternVL-G](https:\u002F\u002Finternvl.readthedocs.io\u002Fen\u002Flatest\u002Finternvl1.0\u002Finternvl_g.html)\n\n## 模型库\n\n#### 多模态大语言模型（InternVL 3.5）\n\n为保持与前几代的一致性，我们提供了两种模型格式：与之前版本一致的[GitHub 格式](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B)，以及符合官方 Transformers 标准的[Hugging Face 格式](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B-HF)。\n\n> 如果您想在这两种格式之间转换检查点，请参考关于 [custom2hf](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fblob\u002Fmain\u002Finternvl_chat\u002Ftools\u002Finternvl_custom2hf.py) 和 [hf2custom](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fblob\u002Fmain\u002Finternvl_chat\u002Ftools\u002Finternvl_hf2custom.py) 的脚本。\n\n**GitHub 格式**\n| 模型                 | 视觉参数 | 语言参数 | 总参数 | Hugging Face 链接                                                                        | ModelScope 链接                                                                          |\n| --------------------- | --------- | ---------- | ---------- | -------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------- |\n| InternVL3.5-1B        | 0.3B      | 0.8B       | 1.1B       | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-1B)                              | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-1B)                      |\n| InternVL3.5-2B        | 0.3B      | 2.0B       | 2.3B       | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-2B)                              | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-2B)                      |\n| InternVL3.5-4B        | 0.3B      | 4.4B       | 4.7B       | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-4B)                              | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-4B)                      |\n| InternVL3.5-8B        | 0.3B      | 8.2B       | 8.5B       | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-8B)                              | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-8B)                      |\n| InternVL3.5-14B       | 0.3B      | 14.8B      | 15.1B      | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-14B)                             | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-14B)                     |\n| InternVL3.5-38B       | 5.5B      | 32.8B      | 38.4B      | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-38B)                             | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-38B)                     |\n| InternVL3.5-20B-A4B   | 0.3B      | 20.9B      | 21.2B-A4B  | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview)     | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview) |\n| InternVL3.5-30B-A3B   | 0.3B      | 30.5B      | 30.8B-A3B  | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-30B-A3B)                       | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-30B-A3B)                 |\n| InternVL3.5-241B-A28B | 5.5B      | 235.1B     | 240.7B-A28B  | [🤗 链接](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B)                       | [🤖 链接](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-241B-A28B)               |\n\n**HuggingFace 格式**\n\n| 模型                    | 视觉参数量 | 语言参数量 | 总参数量 | HF 链接                                                                           | ModelScope 链接                                                                             |\n| ------------------------ | ------------- | --------------- | ------------ | --------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------- |\n| InternVL3.5-1B-HF        | 0.3B          | 0.8B            | 1.1B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-1B-HF)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-1B-HF)                      |\n| InternVL3.5-2B-HF        | 0.3B          | 2.0B            | 2.3B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-2B-HF)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-2B-HF)                      |\n| InternVL3.5-4B-HF        | 0.3B          | 4.4B            | 4.7B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-4B-HF)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-4B-HF)                      |\n| InternVL3.5-8B-HF        | 0.3B          | 8.2B            | 8.5B         | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-8B-HF)                      | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-8B-HF)                      |\n| InternVL3.5-14B-HF       | 0.3B          | 14.8B           | 15.1B        | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-14B-HF)                     | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-14B-HF)                     |\n| InternVL3.5-38B-HF       | 5.5B          | 32.8B           | 38.4B        | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-38B-HF)                     | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-38B-HF)                     |\n| InternVL3.5-20B-A4B-HF   | 0.3B          | 20.9B           | 21.2B-A4B    | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview-HF) | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-GPT-OSS-20B-A4B-Preview-HF) |\n| InternVL3.5-30B-A3B-HF   | 0.3B          | 30.5B           | 30.8B-A3B    | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-30B-A3B-HF)                 | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-30B-A3B-HF)                 |\n| InternVL3.5-241B-A28B-HF | 5.5B          | 235.1B          | 240.7B-A28B  | [🤗 link](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3_5-241B-A28B-HF)               | [🤖 link](https:\u002F\u002Fwww.modelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3_5-241B-A28B-HF)               |\n\n\n#### 多模态大语言模型（InternVL 3.0）\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>模型名称\u003C\u002Fth>\n    \u003Cth>视觉部分\u003C\u002Fth>\n    \u003Cth>语言部分\u003C\u002Fth>\n    \u003Cth>HF&nbsp;链接\u003C\u002Fth>\n    \u003Cth>MS&nbsp;链接\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-1B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT&#8209;300M&#8209;448px&#8209;V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-0.5B\">Qwen2.5&#8209;0.5B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-1B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-1B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-2B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-1.5B\">Qwen2.5-1.5B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-2B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-2B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-8B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-7B\">Qwen2.5-7B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-8B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-8B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-9B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm3-8b-instruct\">internlm3-8b-instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-9B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-9B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-14B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-14B\">Qwen2.5-14B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-14B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-14B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-38B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-32B\">Qwen2.5-32B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-38B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-38B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL3-78B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-72B\">Qwen2.5-72B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL3-78B\">🤗 link\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL3-78B\">🤖 link\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### 多模态大语言模型（InternVL 2.5）\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>模型名称\u003C\u002Fth>\n    \u003Cth>视觉部分\u003C\u002Fth>\n    \u003Cth>语言部分\u003C\u002Fth>\n    \u003Cth>HF&nbsp;链接\u003C\u002Fth>\n    \u003Cth>MS&nbsp;链接\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-1B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT&#8209;300M&#8209;448px&#8209;V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-0.5B-Instruct\">Qwen2.5&#8209;0.5B&#8209;Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-1B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-1B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-2B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-1_8b-chat\">internlm2_5-1_8b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-2B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-2B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-4B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-3B-Instruct\">Qwen2.5-3B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-4B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-4B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-8B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-7b-chat\">internlm2_5-7b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-8B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-8B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-26B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-20b-chat\">internlm2_5-20b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-26B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-26B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-38B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-32B-Instruct\">Qwen2.5-32B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-38B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-38B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-78B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-72B-Instruct\">Qwen2.5-72B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-78B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-78B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>模型名称\u003C\u002Fth>\n    \u003Cth>视觉部分\u003C\u002Fth>\n    \u003Cth>语言部分\u003C\u002Fth>\n    \u003Cth>HF&nbsp;链接\u003C\u002Fth>\n    \u003Cth>MS&nbsp;链接\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-1B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT&#8209;300M&#8209;448px&#8209;V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-0.5B-Instruct\">Qwen2.5&#8209;0.5B&#8209;Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-1B-MPO\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-1B-MPO\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-2B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-1_8b-chat\">internlm2_5-1_8b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-2B-MPO\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-2B-MPO\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-4B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-3B-Instruct\">Qwen2.5-3B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-4B-MPO\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-4B-MPO\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-8B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">InternViT-300M-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-7b-chat\">internlm2_5-7b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-8B-MPO\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-8B-MPO\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-26B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-20b-chat\">internlm2_5-20b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-26B-MPO\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-26B-MPO\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-38B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-32B-Instruct\">Qwen2.5-32B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-38B-MPO\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-38B-MPO\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2_5-78B-MPO\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">InternViT-6B-448px-V2_5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2.5-72B-Instruct\">Qwen2.5-72B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2_5-78B-MPO\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2_5-78B-MPO\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### 多模态大语言模型（InternVL 2.0）\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>模型名称\u003C\u002Fth>\n    \u003Cth>视觉部分\u003C\u002Fth>\n    \u003Cth>语言部分\u003C\u002Fth>\n    \u003Cth>HF&nbsp;链接\u003C\u002Fth>\n    \u003Cth>MS&nbsp;链接\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-1B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">InternViT-300M-448px\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FQwen\u002FQwen2-0.5B-Instruct\">Qwen2-0.5B-Instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-1B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-1B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-2B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">InternViT-300M-448px\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2-chat-1_8b\">internlm2-chat-1-8b\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-2B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-2B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-4B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">InternViT-300M-448px\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmicrosoft\u002FPhi-3-mini-128k-instruct\">Phi&#8209;3&#8209;mini&#8209;128k&#8209;instruct\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-4B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-4B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-8B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">InternViT-300M-448px\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2_5-7b-chat\">internlm2_5-7b-chat\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-8B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-8B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-26B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">InternViT-6B-448px-V1-5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Finternlm\u002Finternlm2-chat-20b\">internlm2-chat-20b\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-26B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-26B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2-40B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">InternViT&#8209;6B&#8209;448px&#8209;V1&#8209;5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FNous-Hermes-2-Yi-34B\">Nous&#8209;Hermes&#8209;2&#8209;Yi&#8209;34B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-40B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-40B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL2&#8209;Llama3-76B\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">InternViT-6B-448px-V1-5\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FHermes-2-Theta-Llama-3-70B\">Hermes‑2‑Theta‑\u003Cbr>Llama‑3‑70B\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL2-Llama3-76B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL2-Llama3-76B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### 多模态大语言模型（InternVL 1.0-1.5）\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>模型\u003C\u002Fth>\n    \u003Cth>日期\u003C\u002Fth>\n    \u003Cth>HF&nbsp;链接\u003C\u002Fth>\n    \u003Cth>MS&nbsp;链接\u003C\u002Fth>\n    \u003Cth>备注\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>Mini&#8209;InternVL&#8209;Chat&#8209;4B&#8209;V1&#8209;5\u003C\u002Ftd>\n    \u003Ctd>2024.05.28\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FMini-InternVL-Chat-4B-V1-5\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FMini-InternVL-Chat-4B-V1-5\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>🚀🚀 模型规模为原版的16%，性能却达到90%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>Mini-InternVL-Chat-2B-V1-5\u003C\u002Ftd>\n    \u003Ctd>2024.05.19\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FMini-InternVL-Chat-2B-V1-5\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FMini-InternVL-Chat-2B-V1-5\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>🚀 模型规模为原版的8%，性能却达到80%\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-V1-5\u003C\u002Ftd>\n    \u003Ctd>2024.04.18\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-5\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-V1-5\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>支持4K图像；OCR能力极强；在MMMU、DocVQA、ChartQA、MathVista等多个基准测试中，性能接近GPT-4V和Gemini Pro。\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-V1-2-Plus\u003C\u002Ftd>\n    \u003Ctd>2024.02.21\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-2-Plus\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-V1-2-Plus\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>使用了更多SFT数据，性能更强。\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-V1-2\u003C\u002Ftd>\n    \u003Ctd>2024.02.11\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-2\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-V1-2\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>将LLM规模扩大到34B。\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-V1-1\u003C\u002Ftd>\n    \u003Ctd>2024.01.24\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-V1-1\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-V1-1\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>支持中文，并且OCR能力更强。\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-19B\u003C\u002Ftd>\n    \u003Ctd>2023.12.25\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-ViT-6B-Vicuna-13B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-ViT-6B-Vicuna-13B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>英文多模态对话。\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL-Chat-13B\u003C\u002Ftd>\n    \u003Ctd>2023.12.25\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-ViT-6B-Vicuna-7B\">🤗链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-Chat-ViT-6B-Vicuna-7B\">🤖链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>英文多模态对话。\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### 类CLIP模型（InternVL 1.0-2.5）\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>模型\u003C\u002Fth>\n    \u003Cth>日期\u003C\u002Fth>\n    \u003Cth>HF&nbsp;链接\u003C\u002Fth>\n    \u003Cth>MS&nbsp;链接\u003C\u002Fth>\n    \u003Cth>备注\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-300M-448px-V2_5\u003C\u002Ftd>\n    \u003Ctd>2024.12.05\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">🤗 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-300M-448px-V2_5\">🤖 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>🚀🚀 更强大的轻量级视觉编码器。（🔥新）\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-6B-448px-V2_5\u003C\u002Ftd>\n    \u003Ctd>2024.12.05\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">🤗 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-448px-V2_5\">🤖 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>🚀🚀 更强大的视觉编码器，用于提取视觉特征。（🔥新）\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-300M-448px\u003C\u002Ftd>\n    \u003Ctd>2024.05.25\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-300M-448px\">🤗 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-300M-448px\">🤖 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>蒸馏后的小型视觉基础模型，参数量为3亿\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT&#8209;6B&#8209;448px&#8209;V1&#8209;5\u003C\u002Ftd>\n    \u003Ctd>2024.04.20\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">🤗 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-448px-V1-5\">🤖 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>通过增量预训练支持动态分辨率和超强的OCR特征提取能力\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-6B-448px-V1-2\u003C\u002Ftd>\n    \u003Ctd>2024.02.11\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-2\">🤗 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-448px-V1-2\">🤖 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>通过增量预训练支持448分辨率\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-6B-448px-V1-0\u003C\u002Ftd>\n    \u003Ctd>2024.01.30\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-0\">🤗 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-448px-V1-0\">🤖 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>通过增量预训练支持448分辨率\u003C\u002Ftd>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternViT-6B-224px\u003C\u002Ftd>\n    \u003Ctd>2023.12.22\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-224px\">🤗 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternViT-6B-224px\">🤖 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>InternViT-6B的第一个版本，由InternVL‑14B‑224px中提取而来\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n#### 视觉-语言基础模型（InternVL 1.0）\n\n\u003Ctable>\n  \u003Ctr>\n    \u003Cth>模型\u003C\u002Fth>\n    \u003Cth>日期\u003C\u002Fth>\n    \u003Cth>HF&nbsp;链接\u003C\u002Fth>\n    \u003Cth>MS&nbsp;链接\u003C\u002Fth>\n    \u003Cth>备注\u003C\u002Fth>\n  \u003C\u002Ftr>\n  \u003Ctr>\n    \u003Ctd>InternVL&#8209;14B&#8209;224px\u003C\u002Ftd>\n    \u003Ctd>2023.12.22\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-14B-224px\">🤗 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>\u003Ca href=\"https:\u002F\u002Fmodelscope.cn\u002Fmodels\u002FOpenGVLab\u002FInternVL-14B-224px\">🤖 链接\u003C\u002Fa>\u003C\u002Ftd>\n    \u003Ctd>视觉-语言基础模型，由InternViT-6B与QLLaMA结合而成，可用于类似CLIP的图文检索任务\u003C\u002Ftd>\n  \u003C\u002Ftr>\n\u003C\u002Ftable>\n\n\n\n## 待办事项\n\n- [x] 发布InternVL2.5系列的训练\u002F评估代码\n- [x] 支持liger内核以节省显存\n- [x] 发布MPO的代码、模型和数据\n- [x] 支持多模态打包数据集\n- [ ] 支持vLLM和Ollama\n- [ ] 在在线演示中支持视频和PDF输入\n- [ ] 发布集成VisionLLMv2的InternVL2\n- [x] 使用readthedocs重新构建文档\n- [x] 支持使用LoRA微调不同的LLM\n- [x] 发布InternVL2的`requirements.txt`\n- [x] 发布InternVL2系列的训练\u002F评估代码\n- [x] 发布InternVL1.5和InternVL2的Streamlit网页界面\n\n## InternVL能做什么？\n\n\u003Cdetails>\n  \u003Csummary>视觉感知（点击展开）\u003C\u002Fsummary>\n\n- 线性探针图像分类 [\\[查看详情\\]](.\u002Fclassification#-evaluation)\n\n  ViT-22B使用私有的JFT-3B数据集。\n\n  | 方法              | 参数量 | IN-1K | IN-ReaL | IN-V2 | IN-A  | IN-R  | IN-Sketch |\n  | ------------------- | :----: | :---: | :-----: | :---: | :---: | :---: | :-------: |\n  | OpenCLIP-G          |  1.8B  | 86.2  |  89.4   | 77.2  | 63.8  | 87.8  |   66.4    |\n  | DINOv2-g            |  1.1B  | 86.5  |  89.6   | 78.4  | 75.9  | 78.8  |   62.5    |\n  | EVA-01-CLIP-g       |  1.1B  | 86.5  |  89.3   | 77.4  | 70.5  | 87.7  |   63.1    |\n  | MAWS-ViT-6.5B       |  6.5B  | 87.8  |    -    |   -   |   -   |   -   |     -     |\n  | ViT-22B\\*           | 21.7B  | 89.5  |  90.9   | 83.2  | 83.8  | 87.4  |     -     |\n  | InternViT-6B（我们） |  5.9B  | 88.2  |  90.4   | 79.9  | 77.5  | 89.8  |   69.1    |\n\n- 语义分割 [\\[查看详情\\]](.\u002Fsegmentation#-evaluation)\n\n  | 方法                | 解码器 | 训练\u002F总参数量 | 裁剪尺寸 | mIoU         |\n  | --------------------- | :-----: | :------------------: | :-------: | ------------ |\n  | OpenCLIP-G（冻结）   | 线性  |     0.3M \u002F 1.8B      |    512    | 39.3         |\n  | ViT-22B（冻结）      | 线性  |     0.9M \u002F 21.7B     |    504    | 34.6         |\n  | InternViT-6B（冻结） | 线性  |     0.5M \u002F 5.9B      |    504    | 47.2 (+12.6) |\n  | ViT-22B（冻结）      | UperNet |     0.8B \u002F 22.5B     |    504    | 52.7         |\n  | InternViT-6B（冻结） | UperNet |     0.4B \u002F 6.3B      |    504    | 54.9 (+2.2)  |\n  | ViT-22B               | UperNet |    22.5B \u002F 22.5B     |    504    | 55.3         |\n  | InternViT-6B          | UperNet |     6.3B \u002F 6.3B      |    504    | 58.9 (+3.6)  |\n\n- 零样本图像分类 [\\[查看详情\\]](.\u002Fclip_benchmark#imagenet-variants-and-objectnet)\n\n  | 方法            | IN-1K | IN-A  | IN-R  | IN-V2 | IN-Sketch | ObjectNet |\n  | ----------------- | :---: | :---: | :---: | :---: | :-------: | :-------: |\n  | OpenCLIP-G        | 80.1  | 69.3  | 92.1  | 73.6  |   68.9    |   73.0    |\n  | EVA-02-CLIP-E+    | 82.0  | 82.1  | 94.5  | 75.7  |   71.6    |   79.6    |\n  | ViT-22B\\*         | 85.9  | 90.1  | 96.0  | 80.9  |     -     |   87.6    |\n  | InternVL-C（我们） | 83.2  | 83.8  | 95.5  | 77.3  |   73.9    |   80.6    |\n\n- 多语言零样本图像分类 [\\[查看详情\\]](.\u002Fclip_benchmark#multilingual-imagenet-1k)\n\n  EN：英语，ZH：中文，JP：日语，Ar：阿拉伯语，IT：意大利语\n\n| 方法            | IN-1K (EN) | IN-1K (ZH) | IN-1K (JP) | IN-1K (AR) | IN-1K (IT) |\n  | ----------------- | :--------: | :--------: | :--------: | :--------: | :--------: |\n  | Taiyi-CLIP-ViT-H  |     -      |    54.4    |     -      |     -      |     -      |\n  | WuKong-ViT-L-G    |     -      |    57.5    |     -      |     -      |     -      |\n  | CN-CLIP-ViT-H     |     -      |    59.6    |     -      |     -      |     -      |\n  | AltCLIP-ViT-L     |    74.5    |    59.6    |     -      |     -      |     -      |\n  | EVA-02-CLIP-E+    |    82.0    |     -      |     -      |     -      |    41.2    |\n  | OpenCLIP-XLM-R-H  |    77.0    |    55.7    |    53.1    |    37.0    |    56.8    |\n  | InternVL-C (ours) |    83.2    |    64.5    |    61.5    |    44.9    |    65.7    |\n\n- 零样本视频分类\n\n  | 方法            | 帧数 | K400  | K600  | K700  |\n  | ----------------- | :----: | :---: | :---: | :---: |\n  | OpenCLIP-G        |   1    | 65.9  | 66.1  | 59.2  |\n  | EVA-02-CLIP-E+    |   1    | 69.8  | 69.3  | 63.4  |\n  | InternVL-C (ours) |   1    | 71.0  | 71.3  | 65.7  |\n  | ViCLIP            |   8    | 75.7  | 73.5  | 66.4  |\n  | InternVL-C (ours) |   8    | 79.4  | 78.8  | 71.5  |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>跨模态检索（点击展开）\u003C\u002Fsummary>\n\n- 英文零样本图文检索 [\\[查看详情\\]](.\u002Fclip_benchmark#flickr30k--coco)\n\n  \u003Ctable>\n    \u003Ctr align=center>\n        \u003Ctd rowspan=\"3\" align=left>\u003Cb>模型\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"6\" align=center>\u003Cb>Flickr30K\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"6\" align=center>\u003Cb>COCO\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd rowspan=\"3\" align=center>\u003Cb>平均\u003C\u002Fb>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n     \u003Ctr align=center>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>图像到文本\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>文本到图像\u003C\u002Fb>\u003C\u002Ftd>\n         \u003Ctd colspan=\"3\" align=center>\u003Cb>图像到文本\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>文本到图像\u003C\u002Fb>\u003C\u002Ftd>\n     \u003C\u002Ftr>\n     \u003Ctr>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>OpenCLIP-G\u003C\u002Ftd>\n        \u003Ctd>92.9\u003C\u002Ftd>\n        \u003Ctd>99.3\u003C\u002Ftd>\n        \u003Ctd>99.8\u003C\u002Ftd>\n        \u003Ctd>79.5\u003C\u002Ftd>\n        \u003Ctd>95.0\u003C\u002Ftd>\n        \u003Ctd>97.1\u003C\u002Ftd>\n        \u003Ctd>67.3\u003C\u002Ftd>\n        \u003Ctd>86.9\u003C\u002Ftd>\n        \u003Ctd>92.6\u003C\u002Ftd>\n        \u003Ctd>51.4\u003C\u002Ftd>\n        \u003Ctd>74.9\u003C\u002Ftd>\n        \u003Ctd>83.0\u003C\u002Ftd>\n        \u003Ctd>85.0\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>EVA-02-CLIP-E+\u003C\u002Ftd>\n        \u003Ctd>93.9\u003C\u002Ftd>\n        \u003Ctd>99.4\u003C\u002Ftd>\n        \u003Ctd>99.8\u003C\u002Ftd>\n        \u003Ctd>78.8\u003C\u002Ftd>\n        \u003Ctd>94.2\u003C\u002Ftd>\n        \u003Ctd>96.8\u003C\u002Ftd>\n        \u003Ctd>68.8\u003C\u002Ftd>\n        \u003Ctd>87.8\u003C\u002Ftd>\n        \u003Ctd>92.8\u003C\u002Ftd>\n        \u003Ctd>51.1\u003C\u002Ftd>\n        \u003Ctd>75.0\u003C\u002Ftd>\n        \u003Ctd>82.7\u003C\u002Ftd>\n        \u003Ctd>85.1\u003C\u002Ftd>\n     \u003C\u002Ftr>\n    \u003Ctr align=center>\n        \u003Ctd align=left>EVA-CLIP-8B\u003C\u002Ftd>\n        \u003Ctd>95.6\u003C\u002Ftd>\n        \u003Ctd>99.6\u003C\u002Ftd>\n        \u003Ctd>99.9\u003C\u002Ftd>\n        \u003Ctd>80.8\u003C\u002Ftd>\n        \u003Ctd>95.5\u003C\u002Ftd>\n        \u003Ctd>97.6\u003C\u002Ftd>\n        \u003Ctd>70.3\u003C\u002Ftd>\n        \u003Ctd>89.3\u003C\u002Ftd>\n        \u003Ctd>93.9\u003C\u002Ftd>\n        \u003Ctd>53.0\u003C\u002Ftd>\n        \u003Ctd>76.0\u003C\u002Ftd>\n        \u003Ctd>83.4\u003C\u002Ftd>\n        \u003Ctd>86.2\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>InternVL-C (ours)\u003C\u002Ftd>\n        \u003Ctd>94.7\u003C\u002Ftd>\n        \u003Ctd>99.6\u003C\u002Ftd>\n        \u003Ctd>99.9\u003C\u002Ftd>\n        \u003Ctd>81.7\u003C\u002Ftd>\n        \u003Ctd>96.0\u003C\u002Ftd>\n        \u003Ctd>98.2\u003C\u002Ftd>\n        \u003Ctd>70.6\u003C\u002Ftd>\n        \u003Ctd>89.0\u003C\u002Ftd>\n        \u003Ctd>93.5\u003C\u002Ftd>\n        \u003Ctd>54.1\u003C\u002Ftd>\n        \u003Ctd>77.3\u003C\u002Ftd>\n        \u003Ctd>84.6\u003C\u002Ftd>\n        \u003Ctd>86.6\u003C\u002Ftd>\n     \u003C\u002Ftr>\n  \u003Ctr align=center>\n        \u003Ctd align=left>InternVL-G (ours)\u003C\u002Ftd>\n        \u003Ctd>95.7\u003C\u002Ftd>\n        \u003Ctd>99.7\u003C\u002Ftd>\n        \u003Ctd>99.9\u003C\u002Ftd>\n        \u003Ctd>85.0\u003C\u002Ftd>\n        \u003Ctd>97.0\u003C\u002Ftd>\n        \u003Ctd>98.6\u003C\u002Ftd>\n        \u003Ctd>74.9\u003C\u002Ftd>\n        \u003Ctd>91.3\u003C\u002Ftd>\n        \u003Ctd>95.2\u003C\u002Ftd>\n        \u003Ctd>58.6\u003C\u002Ftd>\n        \u003Ctd>81.3\u003C\u002Ftd>\n        \u003Ctd>88.0\u003C\u002Ftd>\n        \u003Ctd>88.8\u003C\u002Ftd>\n     \u003C\u002Ftr.\n\n  \u003C\u002Ftable>\n\n- 中文零样本图文检索 [\\[查看详情\\]](.\u002Fclip_benchmark#flickr30k-cn--coco-cn)\n\n  \u003Ctable>\n    \u003Ctr  align=center>\n        \u003Ctd rowspan=\"3\" align=left>\u003Cb>模型\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"6\" align=center>\u003Cb>Flickr30K-CN\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"6\" align=center>\u003Cb>COCO-CN\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd rowspan=\"3\" align=center>\u003Cb>平均\u003C\u002Fb>\u003C\u002Ftd>\n\n  \u003C\u002Ftr>\n     \u003Ctr  align=center>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>图像到文本\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>文本到图像\u003C\u002Fb>\u003C\u002Ftd>\n         \u003Ctd colspan=\"3\" align=center>\u003Cb>图像到文本\u003C\u002Fb>\u003C\u002Ftd>\n        \u003Ctd colspan=\"3\" align=center>\u003Cb>文本到图像\u003C\u002Fb>\u003C\u002Ftd>\n     \u003C\u002Ftr>\n     \u003Ctr>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n        \u003Ctd>R@1\u003C\u002Ftd>\n        \u003Ctd>R@5\u003C\u002Ftd>\n        \u003Ctd>R@10\u003C\u002Ftd>\n     tr\n\n  \u003Ctr align=center>\n        \u003Ctd align=left>CN-CLIP-ViT-H\u003C\u002Ftd>\n        \u003Ctd>81.6\u003C\u002Ftd>\n        \u003Ctd>97.5\u003C\u002Ftd>\n        \u003Ctd>98.8\u003C\u002Ftd>\n        \u003Ctd>71.2\u003C\u002Ftd>\n        \u003Ctd>91.4\u003C\u002Ftd>\n        \u003Ctd>95.5\u003C\u002Ftd>\n        \u003Ctd>63.0\u003C\u002Ftd>\n        \u003Ctd>86.6\u003C\u002Ftd>\n        \u003Ctd>92.9\u003C\u002Ftd>\n        \u003Ctd>69.2\u003C\u002Ftd>\n        \u003Ctd>89.9\u003C\u002Ftd>\n        \u003Ctd>96.1\u003C\u002Ftd>\n        \u003Ctd>86.1\u003C\u002Ftd>\n     纹。\n\n  \u003Ctr align=center>\n        \u003Ctd align=left>OpenCLIP-XLM-R-H\u003C\u002Ftd>\n        \u003Ctd>86.1\u003C\u002Ftd>\n        \u003Ctd>97.5\u003C\u002Ftd>\n        \u003Ctd>99.2\u003C\u002Ftd>\n        \u003Ctd>71.0\u003C\u002Ftd>\n        \u003Ctd>90.5\u003C\u002Ftd>\n        \u003Ctd>94.9\u003C\u002Ftd>\n        \u003Ctd>70.0\u003C\u002Ftd>\n        \u003Ctd>91.5\u003C\u002Ftd>\n        \u003Ctd>97.0\u003C\u002Ftd>\n        \u003Ctd>66.1\u003C\u002Ftd>\n        \u003Ctd>90.8\u003C\u002Ftd>\n        \u003Ctd>96.0\u003C\u002Ftd>\n        \u003Ctd>87.6\u003C\u002Ftd>\n     纹。\n\n  \u003Ctr align=center>\n        \u003Ctd align=left>InternVL-C (ours)\u003C\u002Ftd>\n        \u003Ctd>90.3\u003C\u002Ftd>\n        \u003Ctd>98.8\u003C\u002Ftd>\n        \u003Ctd>99.7\u003C\u002Ftd>\n        \u003Ctd>75.1\u003C\u002Ftd>\n        \u003Ctd>92.9\u003C\u002Ftd>\n        \u003Ctd>96.4\u003C\u002Ftd>\n        \u003Ctd>68.8\u003C\u002Ftd>\n        \u003Ctd>92.0\u003C\u002Ftd>\n        \u003Ctd>96.7\u003C\u002Ftd>\n        \u003Ctd>68.9\u003C\u002Ftd>\n        \u003Ctd>91.9\u003C\u002Ftd>\n        \u003Ctd>96.5\u003C\u002Ftd>\n        \u003Ctd>99.7\u003C\u002Ftd>\n        \u003Ctd>89.0\u003C\u002Ftd\n     纹。\n  \u003Ctr align=center>\n        \u003Ctd align=left>InternVL-G (ours)\u003C\u002Ftd>\n        \u003Ctd>92.9\u003C\u002Ftd>\n        \u003Ctd>99.4\u003C\u002Ftd>\n        \u003Ctd>99.8\u003C\u002Ftd>\n        \u003Ctd>77.7\u003C\u002Ftd>\n        \u003Ctd>94.8\u003C\u002Ftd>\n        \u003Ctd>97.3\u003C\u002Ftd>\n        \u003Ctd>71.4\u003C\u002Ftd>\n        \u003Ctd>93.9\u003C\u002Ftd>\n        \u003Ctd>97.7\u003C\u002Ftd>\n        \u003Ctd>73.8\u003C\u002Ftd>\n        \u003Ctd>94.4\u003C\u002Ftd>\n        \u003Ctd>98.1\u003C\u002Ftd\n     纹。\n\n  \u003C\u002Ftable>\n\n- XTD 上的多语言零样本图文检索 [\\[查看详情\\]](.\u002Fclip_benchmark#xtd)\n\n| 方法            |  英文   |  西班牙文   |  法文   |  中文   |  意大利文   |  韩文   |  俄文   |  日文   | 平均 |\n  | ----------------- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :-----: |\n  | AltCLIP           | 95.4  | 94.1  | 92.9  | 95.1  | 94.2  | 94.4  | 91.8  | 91.7  |  93.7   |\n  | OpenCLIP-XLM-R-H  | 97.3  | 96.1  | 94.5  | 94.7  | 96.0  | 90.2  | 93.9  | 94.0  |  94.6   |\n  | InternVL-C（我们） | 97.3  | 95.7  | 95.1  | 95.6  | 96.0  | 92.2  | 93.3  | 95.5  |  95.1   |\n  | InternVL-G（我们） | 98.6  | 97.7  | 96.5  | 96.7  | 96.9  | 95.1  | 94.8  | 96.1  |  96.6   |\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>多模态对话\u003C\u002Fsummary>\n\n\u003C\u002Fdetails>\n\n\n\n## 使用 HuggingFace 快速入门\n\n\u003Cdetails>\n  \u003Csummary>使用 InternViT-6B 进行视觉特征提取（点击展开）\u003C\u002Fsummary>\n\n```python\nimport torch\nfrom PIL import Image\nfrom transformers import AutoModel, CLIPImageProcessor\n\nmodel = AutoModel.from_pretrained(\n    'OpenGVLab\u002FInternViT-6B-448px-V2_5',\n    torch_dtype=torch.bfloat16,\n    low_cpu_mem_usage=True,\n    trust_remote_code=True).cuda().eval()\n\nimage = Image.open('.\u002Fexamples\u002Fimage1.jpg').convert('RGB')\n\nimage_processor = CLIPImageProcessor.from_pretrained('OpenGVLab\u002FInternViT-6B-448px-V1-5')\n\npixel_values = image_processor(images=image, return_tensors='pt').pixel_values\npixel_values = pixel_values.to(torch.bfloat16).cuda()\n\noutputs = model(pixel_values)\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>使用 InternVL-C（对比型）和 InternVL-G（生成型）进行跨模态检索（点击展开）\u003C\u002Fsummary>\n\n```python\nimport torch\nfrom PIL import Image\nfrom transformers import AutoModel, CLIPImageProcessor\nfrom transformers import AutoTokenizer\n\n\nmodel = AutoModel.from_pretrained(\n    'OpenGVLab\u002FInternVL-14B-224px',\n    torch_dtype=torch.bfloat16,\n    low_cpu_mem_usage=True,\n    trust_remote_code=True).cuda().eval()\n\nimage_processor = CLIPImageProcessor.from_pretrained('OpenGVLab\u002FInternVL-14B-224px')\n\ntokenizer = AutoTokenizer.from_pretrained(\n    'OpenGVLab\u002FInternVL-14B-224px', use_fast=False, add_eos_token=True)\ntokenizer.pad_token_id = 0  # 设置 pad_token_id 为 0\n\nimages = [\n    Image.open('.\u002Fexamples\u002Fimage1.jpg').convert('RGB'),\n    Image.open('.\u002Fexamples\u002Fimage2.jpg').convert('RGB'),\n    Image.open('.\u002Fexamples\u002Fimage3.jpg').convert('RGB')\n]\nprefix = 'summarize:'\ntexts = [\n    prefix + 'a photo of a red panda',  # 英文\n    prefix + '一张熊猫的照片',  # 中文\n    prefix + '二匹の猫の写真'  # 日文\n]\n\npixel_values = image_processor(images=images, return_tensors='pt').pixel_values\npixel_values = pixel_values.to(torch.bfloat16).cuda()\ninput_ids = tokenizer(texts, return_tensors='pt', max_length=80,\n                      truncation=True, padding='max_length').input_ids.cuda()\n\n# InternVL-C\nlogits_per_image, logits_per_text = model(\n    image=pixel_values, text=input_ids, mode='InternVL-C')\nprobs = logits_per_image.softmax(dim=-1)\n# tensor([[9.9609e-01, 5.2185e-03, 6.0070e-08],\n#         [2.2949e-02, 9.7656e-01, 5.9903e-06],\n#         [3.2932e-06, 7.4863e-05, 1.0000e+00]], device='cuda:0',\n#        dtype=torch.bfloat16, grad_fn=\u003CSoftmaxBackward0>)\n\n# InternVL-G\nlogits_per_image, logits_per_text = model(\n    image=pixel_values, text=input_ids, mode='InternVL-G')\nprobs = logits_per_image.softmax(dim=-1)\n# tensor([[9.9609e-01, 3.1738e-03, 3.6322e-08],\n#         [8.6060e-03, 9.9219e-01, 2.8759e-06],\n#         [1.7583e-06, 3.1233e-05, 1.0000e+00]], device='cuda:0',\n#        dtype=torch.bfloat16, grad_fn=\u003CSoftmaxBackward0>)\n\n# 请将 add_eos_token 设置为 False 以进行生成\ntokenizer.add_eos_token = False\nimage = Image.open('.\u002Fexamples\u002Fimage1.jpg').convert('RGB')\npixel_values = image_processor(images=image, return_tensors='pt').pixel_values\npixel_values = pixel_values.to(torch.bfloat16).cuda()\n\ntokenized = tokenizer(\"English caption:\", return_tensors='pt')\npred = model.generate(\n    pixel_values=pixel_values,\n    input_ids=tokenized.input_ids.cuda(),\n    attention_mask=tokenized.attention_mask.cuda(),\n    num_beams=5,\n    min_new_tokens=8,\n)\ncaption = tokenizer.decode(pred[0].cpu(), skip_special_tokens=True).strip()\n\n# 英文说明：一只红熊猫坐在木制平台上\n```\n\n\u003C\u002Fdetails>\n\n\u003Cdetails>\n  \u003Csummary>使用 InternVL 2.5 进行多模态对话（点击展开）\u003C\u002Fsummary>\n\n这里我们以较小的 `OpenGVLab\u002FInternVL2_5-8B` 模型为例：\n\n```python\nimport numpy as np\nimport torch\nimport torchvision.transforms as T\nfrom decord import VideoReader, cpu\nfrom PIL import Image\nfrom torchvision.transforms.functional import InterpolationMode\nfrom transformers import AutoModel, AutoTokenizer\n\nIMAGENET_MEAN = (0.485, 0.456, 0.406)\nIMAGENET_STD = (0.229, 0.224, 0.225)\n\ndef build_transform(input_size):\n    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD\n    transform = T.Compose([\n        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),\n        T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),\n        T.ToTensor(),\n        T.Normalize(mean=MEAN, std=STD)\n    ])\n    return transform\n\ndef find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):\n    best_ratio_diff = float('inf')\n    best_ratio = (1, 1)\n    area = width * height\n    for ratio in target_ratios:\n        target_aspect_ratio = ratio[0] \u002F ratio[1]\n        ratio_diff = abs(aspect_ratio - target_aspect_ratio)\n        if ratio_diff \u003C best_ratio_diff:\n            best_ratio_diff = ratio_diff\n            best_ratio = ratio\n        elif ratio_diff == best_ratio_diff:\n            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:\n                best_ratio = ratio\n    return best_ratio\n\ndef dynamic_preprocess(image, min_num=1, max_num=12, image_size=448, use_thumbnail=False):\n    orig_width, orig_height = image.size\n    aspect_ratio = orig_width \u002F orig_height\n\n    # 计算现有图像的宽高比\n    target_ratios = set(\n        (i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) if\n        i * j \u003C= max_num and i * j >= min_num)\n    target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])\n\n    # 找到最接近目标宽高比的比率\n    target_aspect_ratio = find_closest_aspect_ratio(\n        aspect_ratio, target_ratios, orig_width, orig_height, image_size)\n\n    # 计算目标宽度和高度\n    target_width = image_size * target_aspect_ratio[0]\n    target_height = image_size * target_aspect_ratio[1]\n    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]\n\n    # 调整图像大小\n    resized_img = image.resize((target_width, target_height))\n    processed_images = []\n    for i in range(blocks):\n        box = (\n            (i % (target_width \u002F\u002F image_size)) * image_size,\n            (i \u002F\u002F (target_width \u002F\u002F image_size)) * image_size,\n            ((i % (target_width \u002F\u002F image_size)) + 1) * image_size,\n            ((i \u002F\u002F (target_width \u002F\u002F image_size)) + 1) * image_size\n        )\n        # 将图像分割\n        split_img = resized_img.crop(box)\n        processed_images.append(split_img)\n    assert len(processed_images) == blocks\n    if use_thumbnail and len(processed_images) != 1:\n        thumbnail_img = image.resize((image_size, image_size))\n        processed_images.append(thumbnail_img)\n    return processed_images\n\ndef load_image(image_file, input_size=448, max_num=12):\n    image = Image.open(image_file).convert('RGB')\n    transform = build_transform(input_size=input_size)\n    images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)\n    pixel_values = [transform(image) for image in images]\n    pixel_values = torch.stack(pixel_values)\n    return pixel_values\n\n# 如果你有一块 80G 的 A100 显卡，可以将整个模型放在单张显卡上。\n# 否则，你需要使用多张显卡来加载模型，请参考“多GPU”部分。\npath = 'OpenGVLab\u002FInternVL2_5-8B'\nmodel = AutoModel.from_pretrained(\n    path,\n    torch_dtype=torch.bfloat16,\n    low_cpu_mem_usage=True,\n    trust_remote_code=True).eval().cuda()\ntokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True, use_fast=False)\n\n# 设置 `max_num` 中的最大切片数量\npixel_values = load_image('.\u002Fexamples\u002Fimage1.jpg', max_num=12).to(torch.bfloat16).cuda()\ngeneration_config = dict(max_new_tokens=1024, do_sample=False)\n\n# 纯文本对话\nquestion = '你好，你是谁？'\nresponse, history = model.chat(tokenizer, None, question, generation_config, history=None, return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\nquestion = '你能给我讲个故事吗？'\nresponse, history = model.chat(tokenizer, None, question, generation_config, history=history，return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\n# 单图单轮对话\nquestion = '\u003Cimage>\\n请简要描述这张图片。'\nresponse = model.chat(tokenizer, pixel_values，question，generation_config)\nprint(f'用户: {question}\\n助手: {response}')\n\n# 单图多轮对话\nquestion = '\u003Cimage>\\n请详细描述这张图片。'\nresponse，history = model.chat(tokenizer，pixel_values，question，generation_config，history=None，return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\nquestion = '请根据这张图片写一首诗。'\nresponse，history = model.chat(tokenizer，pixel_values，question，generation_config，history=history，return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\n# 多图多轮对话，拼接图像\npixel_values1 = load_image('.\u002Fexamples\u002Fimage1.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values2 = load_image('.\u002Fexamples\u002Fimage2.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values = torch.cat((pixel_values1，pixel_values2)，dim=0)\n\nquestion = '\u003Cimage>\\n请详细描述这两张图片。'\nresponse，history = model.chat(tokenizer，pixel_values，question，generation_config，\n                               history=None，return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\nquestion = '这两张图片有哪些相似之处和不同之处？'\nresponse，history = model.chat(tokenizer，pixel_values，question，generation_config，\n                               history=history，return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\n# 多图多轮对话，独立图像\npixel_values1 = load_image('.\u002Fexamples\u002Fimage1.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values2 = load_image('.\u002Fexamples\u002Fimage2.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)\nnum_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]\n\nquestion = '图1: \u003Cimage>\\n图2: \u003Cimage>\\n请详细描述这两张图片。'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               num_patches_list=num_patches_list,\n                               history=None, return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\nquestion = '这两张图片有哪些相似之处和不同之处？'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               num_patches_list=num_patches_list,\n                               history=history, return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\n# 批量推理，每个样本一张图（单图批处理）\npixel_values1 = load_image('.\u002Fexamples\u002Fimage1.jpg', max_num=12).to(torch.bfloat16).cuda()\npixel_values2 = load_image('.\u002Fexamples\u002Fimage2.jpg', max_num=12).to(torch.bfloat16).cuda()\nnum_patches_list = [pixel_values1.size(0), pixel_values2.size(0)]\npixel_values = torch.cat((pixel_values1, pixel_values2), dim=0)\n\nquestions = ['\u003Cimage>\\n请详细描述这张图片。'] * len(num_patches_list)\nresponses = model.batch_chat(tokenizer, pixel_values,\n                             num_patches_list=num_patches_list,\n                             questions=questions,\n                             generation_config=generation_config)\nfor question, response in zip(questions, responses):\n    print(f'用户: {question}\\n助手: {response}')\n\n# 视频多轮对话\ndef get_index(bound, fps, max_frame, first_idx=0, num_segments=32):\n    if bound:\n        start, end = bound[0], bound[1]\n    else:\n        start, end = -100000, 100000\n    start_idx = max(first_idx, round(start * fps))\n    end_idx = min(round(end * fps), max_frame)\n    seg_size = float(end_idx - start_idx) \u002F num_segments\n    frame_indices = np.array([\n        int(start_idx + (seg_size \u002F 2) + np.round(seg_size * idx))\n        for idx in range(num_segments)\n    ])\n    return frame_indices\n\ndef load_video(video_path, bound=None, input_size=448, max_num=1, num_segments=32):\n    vr = VideoReader(video_path, ctx=cpu(0), num_threads=1)\n    max_frame = len(vr) - 1\n    fps = float(vr.get_avg_fps())\n\n    pixel_values_list, num_patches_list = [], []\n    transform = build_transform(input_size=input_size)\n    frame_indices = get_index(bound, fps, max_frame, first_idx=0, num_segments=num_segments)\n    for frame_index in frame_indices:\n        img = Image.fromarray(vr[frame_index].asnumpy()).convert('RGB')\n        img = dynamic_preprocess(img, image_size=input_size, use_thumbnail=True, max_num=max_num)\n        pixel_values = [transform(tile) for tile in img]\n        pixel_values = torch.stack(pixel_values)\n        num_patches_list.append(pixel_values.shape[0])\n        pixel_values_list.append(pixel_values)\n    pixel_values = torch.cat(pixel_values_list)\n    return pixel_values, num_patches_list\n\nvideo_path = '.\u002Fexamples\u002Fred-panda.mp4'\npixel_values, num_patches_list = load_video(video_path, num_segments=8, max_num=1)\npixel_values = pixel_values.to(torch.bfloat16).cuda()\nvideo_prefix = ''.join([f'第{i+1}帧: \u003Cimage>\\n' for i in range(len(num_patches_list))])\nquestion = video_prefix + '这只红熊猫在做什么？'\n# 第1帧: \u003Cimage>\\n第2帧: \u003Cimage>\\n...\\n第8帧: \u003Cimage>\\n{question}\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               num_patches_list=num_patches_list, history=None, return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n\nquestion = '请详细描述这段视频。'\nresponse, history = model.chat(tokenizer, pixel_values, question, generation_config,\n                               num_patches_list=num_patches_list, history=history, return_history=True)\nprint(f'用户: {question}\\n助手: {response}')\n```\n\n\u003C\u002Fdetails>\n\n## 许可证\n\n本项目采用 [MIT 许可证](LICENSE) 发布。项目中部分代码和模型来源于其他来源，受其各自许可证的约束。\n\n## 引用\n\n如果您在研究中使用了本项目，请考虑引用以下文献：\n\n```BibTeX\n@article{wang2025internvl3_5,\n  title={InternVL3.5: 在通用性、推理能力和效率方面推进开源多模态模型},\n  author={Wang, Weiyun and Gao, Zhangwei and Gu, Lixin and Pu, Hengjun and Cui, Long and Wei, Xingguang and Liu, Zhaoyang and Jing, Linglin and Ye, Shenglong and Shao, Jie and others},\n  journal={arXiv预印本 arXiv:2508.18265},\n  year={2025}\n}\n@article{zhu2025internvl3,\n  title={Internvl3：探索开源多模态模型的高级训练与测试时优化方案},\n  author={Zhu, Jinguo and Wang, Weiyun and Chen, Zhe and Liu, Zhaoyang and Ye, Shenglong and Gu, Lixin and Tian, Hao and Duan, Yuchen and Su, Weijie and Shao, Jie and others},\n  journal={arXiv预印本 arXiv:2504.10479},\n  year={2025}\n}\n@article{chen2024expanding,\n  title={通过模型、数据及测试时缩放扩展开源多模态模型的性能边界},\n  author={Chen, Zhe and Wang, Weiyun and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Cui, Erfei and Zhu, Jinguo and Ye, Shenglong and Tian, Hao and Liu, Zhaoyang and others},\n  journal={arXiv预印本 arXiv:2412.05271},\n  year={2024}\n}\n@article{wang2024mpo,\n  title={基于混合偏好优化提升多模态大语言模型的推理能力},\n  author={Wang, Weiyun and Chen, Zhe and Wang, Wenhai and Cao, Yue and Liu, Yangzhou and Gao, Zhangwei and Zhu, Jinguo and Zhu, Xizhou and Lu, Lewei and Qiao, Yu and Dai, Jifeng},\n  journal={arXiv预印本 arXiv:2411.10442},\n  year={2024}\n}\n@article{gao2024mini,\n  title={Mini-InternVL：参数仅占5%却保持90%性能的灵活迁移袖珍型多模态模型},\n  author={Gao, Zhangwei and Chen, Zhe and Cui, Erfei and Ren, Yiming and Wang, Weiyun and Zhu, Jinguo and Tian, Hao and Ye, Shenglong and He, Junjun and Zhu, Xizhou and others},\n  journal={视觉智能},\n  volume={2},\n  number={1},\n  pages={1--17},\n  year={2024},\n  publisher={Springer}\n}\n@article{chen2024far,\n  title={我们距离GPT-4v还有多远？借助开源工具集缩小与商业多模态模型的差距},\n  author={Chen, Zhe and Wang, Weiyun and Tian, Hao and Ye, Shenglong and Gao, Zhangwei and Cui, Erfei and Tong, Wenwen and Hu, Kongzhi and Luo, Jiapeng and Ma, Zheng and others},\n  journal={中国科学：信息科学},\n  volume={67},\n  number={12},\n  pages={220101},\n  year={2024},\n  publisher={Springer}\n}\n@inproceedings{chen2024internvl,\n  title={Internvl：扩大视觉基础模型规模并对其对齐以适应通用视觉-语言任务},\n  author={Chen, Zhe and Wu, Jiannan and Wang, Wenhai and Su, Weijie and Chen, Guo and Xing, Sen and Zhong, Muyan and Zhang, Qinglong and Zhu, Xizhou and Lu, Lewei and others},\n  booktitle={IEEE\u002FCVF计算机视觉与模式识别会议论文集},\n  pages={24185--24198},\n  year={2024}\n}\n```\n\n## 致谢\n\nInternVL 的构建参考了以下项目的代码：[OpenAI CLIP](https:\u002F\u002Fgithub.com\u002Fopenai\u002FCLIP)、[Open CLIP](https:\u002F\u002Fgithub.com\u002Fmlfoundations\u002Fopen_clip)、[CLIP基准测试](https:\u002F\u002Fgithub.com\u002FLAION-AI\u002FCLIP_benchmark)、[EVA](https:\u002F\u002Fgithub.com\u002Fbaaivision\u002FEVA\u002Ftree\u002Fmaster)、[InternImage](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternImage)、[ViT-Adapter](https:\u002F\u002Fgithub.com\u002Fczczup\u002FViT-Adapter)、[MMSegmentation](https:\u002F\u002Fgithub.com\u002Fopen-mmlab\u002Fmmsegmentation)、[Transformers](https:\u002F\u002Fgithub.com\u002Fhuggingface\u002Ftransformers)、[DINOv2](https:\u002F\u002Fgithub.com\u002Ffacebookresearch\u002Fdinov2)、[BLIP-2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Fblip2)、[Qwen-VL](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-VL\u002Ftree\u002Fmaster\u002Feval_mm) 以及 [LLaVA-1.5](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA)。感谢这些项目团队的杰出工作！\n\n______________________________________________________________________\n\n扫描下方二维码，加入我们的微信群。\n\n\u003Cp align=\"center\">\u003Cimg width=\"300\" alt=\"image\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_readme_1b29e97f7744.png\">\u003C\u002Fp>","# InternVL 快速上手指南\n\nInternVL 是一个开源的多模态大语言模型（MLLM）系列，旨在缩小开源模型与商业闭源模型（如 GPT-4o）之间的差距。本指南将帮助您快速部署并运行 InternVL 模型。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04\u002F22.04) 或 macOS。\n*   **Python**: 版本 >= 3.8 (推荐 3.10+)。\n*   **GPU**: 推荐使用 NVIDIA GPU，显存需求取决于模型大小（例如 8B 模型建议 16GB+ 显存，78B 模型需多卡或量化）。\n*   **CUDA**: 已安装与 PyTorch 版本匹配的 CUDA 驱动。\n\n**前置依赖安装：**\n建议使用 `conda` 创建独立虚拟环境。\n\n```bash\nconda create -n internvl python=3.10 -y\nconda activate internvl\n```\n\n## 2. 安装步骤\n\n### 方案 A：通过 Pip 安装（推荐）\n\n直接安装核心依赖库 `transformers`、`torch` 以及 InternVL 所需的额外组件。国内用户推荐使用清华或阿里镜像源加速下载。\n\n```bash\n# 安装 PyTorch (以 CUDA 11.8 为例，请根据实际环境调整)\npip install torch torchvision torchaudio --index-url https:\u002F\u002Fdownload.pytorch.org\u002Fwhl\u002Fcu118\n\n# 安装 Transformers 及其他依赖\npip install transformers>=4.37.0 accelerate pillow einops timm\n\n# 安装 InternVL 代码库 (可选，如需使用最新训练脚本或特定工具)\npip install git+https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL.git\n```\n\n### 方案 B：源码安装\n\n如果您需要修改源码或使用最新的训练\u002F推理脚本：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL.git\ncd InternVL\npip install -e .\n```\n\n## 3. 基本使用\n\n以下是最简单的使用示例，展示如何加载模型并进行图文对话。本示例以 `InternVL2_5-8B` 为例（其他版本只需更改模型路径）。\n\n### Python 推理示例\n\n确保您已登录 Hugging Face 并拥有访问权限（部分模型可能需要接受协议），或者使用国内镜像站下载模型权重。\n\n```python\nimport torch\nfrom transformers import AutoTokenizer, AutoModelForCausalLM\nfrom PIL import Image\n\n# 1. 指定模型路径 (可以是本地路径或 HuggingFace ID)\n# 国内用户可配置 HF_ENDPOINT 使用镜像: export HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\nmodel_path = \"OpenGVLab\u002FInternVL2_5-8B\"\n\n# 2. 加载分词器和模型\n# 使用 bf16 精度推理以获得最佳效果，若显存不足可改为 float16 或使用 quantization_config 进行 4bit\u002F8bit 量化\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path,\n    torch_dtype=torch.bfloat16,\n    low_cpu_mem_usage=True,\n    trust_remote_code=True,\n    device_map=\"auto\"\n).eval()\n\n# 3. 准备输入\nimage_path = \"path\u002Fto\u002Fyour\u002Fimage.jpg\"  # 替换为您的图片路径\nimage = Image.open(image_path).convert('RGB')\nquestion = \"请详细描述这张图片中的内容。\"\n\n# 构建对话历史\nconversation = [\n    {\"role\": \"user\", \"content\": \"\u003Cimage>\\n\" + question}\n]\n\n# 4. 生成回复\ntext = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=True)\ninputs = tokenizer([text], return_tensors=\"pt\").to(model.device)\npixel_values = image_processor(images=image, return_tensors=\"pt\").pixel_values.to(model.dtype).to(model.device)\n\n# 注意：不同版 InternVL 的 image_processor 调用方式可能略有差异，以下为通用逻辑示意\n# 对于 InternVL2.x\u002F3.x，通常直接通过 generate 接口传入 pixel_values\ngeneration_config = dict(max_new_tokens=1024, do_sample=False)\nresponse = model.generate(**inputs, pixel_values=pixel_values, **generation_config)\noutput_text = tokenizer.decode(response[0], skip_special_tokens=True)\n\nprint(output_text)\n```\n\n### 简化版调用 (使用 pipeline 或官方封装)\n\n如果安装了完整的 `internvl` 包，可以使用更简洁的接口：\n\n```python\nfrom internvl.chat import chat\n\nmodel_path = \"OpenGVLab\u002FInternVL2_5-8B\"\nimage_path = \"path\u002Fto\u002Fyour\u002Fimage.jpg\"\nquestion = \"图中有什么？\"\n\n# 执行对话\nresponse = chat(model_path, image_path, question)\nprint(response)\n```\n\n> **提示**：对于大参数模型（如 78B 或 241B），强烈建议使用 `lmdeploy` 或 `vllm` 进行量化部署以降低显存占用并提升推理速度。","某电商平台的智能客服团队正试图升级系统，以自动处理用户上传的复杂商品故障图片（如电路板烧毁、衣物破损细节）并生成精准的诊断报告。\n\n### 没有 InternVL 时\n- **识别精度不足**：传统 OCR 或专用小模型无法理解图片中的空间逻辑关系，常将“电容爆裂”误判为普通污渍，导致诊断结论完全错误。\n- **多轮对话断裂**：用户追问“这个损坏会影响保修吗？”时，系统无法结合上一轮的故障图进行上下文推理，只能机械回复通用条款。\n- **高昂的 API 成本**：若接入 GPT-4o 等商业闭源模型来处理海量并发请求，每月的 Token 支出将超出部门预算数倍。\n- **数据隐私顾虑**：将包含用户家庭环境背景的照片上传至第三方云端服务，存在合规风险和数据泄露隐患。\n\n### 使用 InternVL 后\n- **深度视觉推理**：InternVL 凭借接近 GPT-4o 的多模态能力，能精准识别电路板上的微小烧痕并推断出“短路导致电源模块失效”的根本原因。\n- **连贯图文交互**：模型完美记忆历史对话与图片特征，能直接基于故障图回答“因属非人为电路老化，符合保修范围”，实现拟人化咨询。\n- **低成本私有部署**：利用开源的 InternVL3.5 系列模型（如 20B 版本），团队可在本地显卡集群免费部署，将单次推理成本降低至商业模型的十分之一。\n- **数据完全可控**：所有用户图片与对话数据均在内部服务器闭环处理，彻底消除了敏感信息外泄的合规风险。\n\nInternVL 让企业以开源的低成本实现了媲美顶尖商业模型的多模态理解力，同时牢牢掌握了数据主权。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_InternVL_611fc673.jpg","OpenGVLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenGVLab_4422f20f.jpg","General Vision Team of Shanghai AI Laboratory",null,"opengvlab@gmail.com","opengvlab","https:\u002F\u002Fgithub.com\u002FOpenGVLab",[81,85,89,93,97,101,105],{"name":82,"color":83,"percentage":84},"Python","#3572A5",52.7,{"name":86,"color":87,"percentage":88},"Jupyter Notebook","#DA5B0B",40.2,{"name":90,"color":91,"percentage":92},"Shell","#89e051",6.7,{"name":94,"color":95,"percentage":96},"JavaScript","#f1e05a",0.2,{"name":98,"color":99,"percentage":100},"HTML","#e34c26",0.1,{"name":102,"color":103,"percentage":104},"Makefile","#427819",0,{"name":106,"color":107,"percentage":104},"CSS","#663399",9978,769,"2026-04-20T06:50:42","MIT","未说明","需要 NVIDIA GPU（支持 AWQ 量化及 PaddleMIX），具体显存需求取决于模型规模（1B-241B），大模型（如 78B\u002F241B）需多卡高显存环境",{"notes":115,"python":112,"dependencies":116},"该工具提供从 1B 到 241B 多种参数规模的模型，运行环境需求随模型大小差异巨大。支持 HuggingFace 格式和 GitHub 格式。提供 4-bit AWQ 量化版本以降低显存需求。支持 PaddlePaddle 框架。训练代码包含离线和在线强化学习阶段。",[117,118,119,120],"transformers","torch","PaddleMIX (可选)","lmdeploy (可选，用于量化)",[122,14,36,123,15,13],"视频","其他",[125,126,127,128,129,130,131,132,133,134,135,136],"image-classification","image-text-retrieval","llm","semantic-segmentation","video-classification","vision-language-model","vit-22b","vit-6b","multi-modal","gpt","gpt-4v","gpt-4o","2026-03-27T02:49:30.150509","2026-04-20T21:05:26.308036",[140,145,150,155,160,165,169],{"id":141,"question_zh":142,"answer_zh":143,"source_url":144},45804,"如何使用 Swift (ms-swift) 对 InternVL 模型进行推理和微调？","Swift (ms-swift) 已支持 InternVL-Chat-V1.5 及 InternVL2.5 的从微调到部署的全流程。用户可以参考官方文档进行操作：\n- 英文文档：https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fswift\u002Ftree\u002Fmain\u002Fdocs\u002Fsource_en\u002FMulti-Modal\u002Finternvl-best-practice.md\n- 中文文档：https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fswift\u002Fblob\u002Fmain\u002Fdocs\u002Fsource\u002FMulti-Modal\u002Finternvl%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.md\n如有更多问题，建议在 swift 仓库中提交 Issue。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fissues\u002F129",{"id":146,"question_zh":147,"answer_zh":148,"source_url":149},45805,"使用 LoRA 微调 InternVL 时 Loss 不收敛或输出为空，可能的原因是什么？","如果在微调 Vision Backbone 时使用 LoRA，可能会导致 Loss 不收敛。此外，数据集的选择至关重要：仅使用 COCO 数据进行微调时，InternVL-Chat-V1.2 的 CIDEr 分数可以从 113.9 提升至 142-143；但对于 InternVL-Chat-V1.2-Plus 版本，仅使用 COCO 数据可能不会带来性能提升（甚至导致不收敛）。建议检查是否错误地对 Vision 部分使用了 LoRA，并评估数据集的适用性。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fissues\u002F56",{"id":151,"question_zh":152,"answer_zh":153,"source_url":154},45806,"使用 lmdeploy 部署 InternVL 时遇到 'NoneType' object has no attribute 'split' 错误怎么办？","该错误通常与 lmdeploy 的版本兼容性有关。用户反馈在自动安装最新版本（如 0.7.3）运行 InternVL3 时会出现类似报错。建议尝试指定与模型版本匹配的 lmdeploy 版本，或者回退到稳定版本（如 0.5.0 或其他已知兼容版本）进行测试。如果问题持续，请检查环境依赖并确保使用的是官方推荐的版本组合。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fissues\u002F336",{"id":156,"question_zh":157,"answer_zh":158,"source_url":159},45807,"InternVL2-40B-AWQ 进行视频推理时速度很慢且显存不足，如何优化？","1. 显存需求：启动 InternVL2-40B-AWQ 至少需要 A100 80G 显卡。\n2. 速度优化：多线程并行发送请求的速度明显快于原生批量推理，且 GPU 利用率更高。\n3. 代码配置：在使用 lmdeploy pipeline 初始化时，必须添加 `VisionConfig(thread_safe=True)` 参数，并使用 `concurrent.futures.as_completed` 来处理异步任务，以实现高效的多线程视频帧推理。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fissues\u002F549",{"id":161,"question_zh":162,"answer_zh":163,"source_url":164},45808,"InternVL-Chat-V1.2-Plus 模型文件太大（80G），有量化版本或替代方案吗？","对于显存有限的用户，可以考虑以下方案：\n1. 使用量化工具：虽然官方未直接提供 GGUF 格式，但社区推荐使用 lmdeploy 进行部署和量化加速。\n2. 替代小模型：推荐使用 Mini-InternVL-Chat-2B-V1-5，其显存占用仅约 13G（甚至可低至 4.5G 级别优化），推理速度快（约 2.8s）。\n3. 增强策略：将 OCR 识别结果作为上下文输入给 Mini-InternVL 小模型，其在字符识别等任务上的效果甚至优于直接使用大模型，且精度损失极小。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fissues\u002F82",{"id":166,"question_zh":167,"answer_zh":168,"source_url":144},45809,"如何在 TPU (XLA) 上运行 InternVL2 模型？","目前官方主要支持 GPU 部署。关于 TPU XLA 的支持，建议参考 ms-swift 的实现或在其仓库中查询最新进展。当前社区讨论主要集中在 Swift 框架对 InternVL 的支持上，若需在 TPU 运行，可能需要自行适配或等待官方后续更新。",{"id":170,"question_zh":171,"answer_zh":172,"source_url":159},45810,"视频推理时 session_len 设置多少合适？为什么 max_seq_length 是 8192 却能设置更大的 session_len？","在进行多图像（视频帧）推理时，单张图片会消耗一定的 Token 数。当采样帧数较多（如 24 帧）时，总上下文长度会迅速增加。虽然模型本身的 max_seq_length 限制为 8192，但在 lmdeploy 等推理框架中，session_len 可以设置为更大值（如 65536）以容纳多帧图像的总 Token 消耗，避免被强制截断（Truncate max_new_tokens）。具体单图 Token 消耗需根据分辨率和模型配置估算，建议通过实验调整 session_len 以确保完整推理。",[174,179,184,189,194,199],{"id":175,"version":176,"summary_zh":177,"released_at":178},360738,"v1.5.0","版本 1.5.0","2024-05-08T16:04:27",{"id":180,"version":181,"summary_zh":182,"released_at":183},360739,"v1.2.3","版本1.2.3","2024-03-04T12:14:03",{"id":185,"version":186,"summary_zh":187,"released_at":188},360740,"v1.2.2","版本1.2.2","2024-02-21T15:04:50",{"id":190,"version":191,"summary_zh":192,"released_at":193},360741,"v1.2","> 日期：2024年2月12日\u003Cbr>\n> 开发人员：陈哲、王伟云、王文海、崔尔飞、高章伟、朱锡洲、陆乐威、陆通、乔宇、戴继峰\n\n我们非常高兴地推出 InternVL-Chat-V1.2。受 [LLaVA-NeXT-34B](https:\u002F\u002Fllava-vl.github.io\u002Fblog\u002F2024-01-30-llava-next\u002F) 的启发，我们也采用了 [Nous-Hermes-2-Yi-34B](https:\u002F\u002Fhuggingface.co\u002FNousResearch\u002FNous-Hermes-2-Yi-34B) 作为语言模型。以下是模型的流程图。\n\n\u003Cimg width=\"650\" alt=\"image\" src=\"https:\u002F\u002Fgithub.com\u002Fczczup\u002FInternVL-MoE\u002Fassets\u002F23737120\u002F9b68aa35-40fd-4e81-9595-d404cbbfc6bd\">\n\n从实验结果来看，**我们发现更强的语言模型（34B）能够更好地发挥我们视觉基础模型（[InternViT-6B](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternViT-6B-448px-V1-2)）的强大能力。**\n\n为了提高训练的可复现性，我们沿用了与 LLaVA-NeXT 类似的极简设计和数据高效策略。为降低训练成本，我们提供了一个预训练的 MLP 投影器，并仅使用约 100 万张视觉指令微调样本进行 SFT 训练。我们的模型总参数量为 400 亿，在 32 张 A100 GPU 上只需 1.5 天即可完成训练。代码、数据和模型将对外公开。\n\n### 数据准备\n\n受 LLaVA-NeXT 启发，我们采用了一种数据高效的 SFT 策略来训练 InternVL-Chat-V1.2，总共使用了约 120 万张视觉指令微调样本，所有数据均为完全开源。从宏观角度来看，我们在 [ShareGPT-4V](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer\u002Fblob\u002Fmain\u002Fprojects\u002FShareGPT4V\u002Fdocs\u002FData.md#prepare-images) 的基础上，进一步整合了 [LLaVA-ZH](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fopenbmb\u002Fllava_zh)、[DVQA](https:\u002F\u002Fgithub.com\u002Fkushalkafle\u002FDVQA_dataset)、[ChartQA](https:\u002F\u002Fgithub.com\u002Fvis-nlp\u002FChartQA)、[AI2D](https:\u002F\u002Fallenai.org\u002Fdata\u002Fdiagrams)、[DocVQA](https:\u002F\u002Fwww.docvqa.org\u002Fdatasets)、[GeoQA+](https:\u002F\u002Fgithub.com\u002FSCNU203\u002FGeoQA-Plus) 以及 [SynthDoG-EN](https:\u002F\u002Fhuggingface.co\u002Fdatasets\u002Fnaver-clova-ix\u002Fsynthdog-en)。大部分数据与 LLaVA-NeXT 保持一致。\n\n有关数据准备的更多详细信息，请参阅 [此处](.\u002Finternvl_chat#prepare-training-datasets)。\n\n### 性能表现\n\n\\* 专有模型\n\n| 名称               | 图像尺寸 | MMMU\u003Cbr>(验证集) | MMMU\u003Cbr>(测试集) | MathVista\u003Cbr>(testmini) | MMB\u003Cbr>(测试) | MMB−CN\u003Cbr>(测试) | MMVP | MME      | ScienceQA\u003Cbr>(图像) | POPE | TextVQA | SEEDv1\u003Cbr>(图像) | VizWiz\u003Cbr>(测试) | GQA\u003Cbr>(测试) |\n| ------------------ | ---------- | ------------- | -------------- | ----------------------- | ------------- | ---------------- | ---- | -------- | -------------------- | ---- | ------- | ----------------- | ---------------- | ------------- |\n| GPT-4V\\*           | 未知    | 56.8          | 55.7           | 49.9                    | 77.0          | 74.4             | 38.7 | 1409\u002F517 | -                    | -    | 78.0    | 71.6              | -                | -             |\n| Gemini Ultra\\*     | 未知    | 59.4       ","2024-02-13T20:07:49",{"id":195,"version":196,"summary_zh":197,"released_at":198},360742,"v1.1","> 日期：2024年1月24日\u003Cbr>\n> 研发团队：陈哲、王文海、朱锡洲、陆乐威、陆通、乔宇、戴继峰\n\n我们发布了[InternVL-Chat-V1.1](https:\u002F\u002Fhuggingface.co\u002FOpenGVLab\u002FInternVL-Chat-Chinese-V1-1)，其架构与LLaVA类似，包含一个ViT、一个MLP投影层和一个LLM。在这一版本中，我们探索了将分辨率提升至448x448、增强OCR能力以及改进对中文对话的支持。以下是改进后能力的示例。\n\n\u003Cimg width=\"650\" alt=\"image\" src=\"https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL\u002Fassets\u002F8529570\u002F0e60912e-c52b-46fa-bd61-5f94a221d1fc\">","2024-02-13T16:31:06",{"id":200,"version":201,"summary_zh":202,"released_at":203},360743,"data","评估数据。","2024-01-22T04:30:32"]