[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-AIDC-AI--Ovis":3,"tool-AIDC-AI--Ovis":65},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",160784,2,"2026-04-19T11:32:54",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},8553,"spec-kit","github\u002Fspec-kit","Spec Kit 是一款专为提升软件开发效率而设计的开源工具包，旨在帮助团队快速落地“规格驱动开发”（Spec-Driven Development）模式。传统开发中，需求文档往往与代码实现脱节，导致沟通成本高且结果不可控；而 Spec Kit 通过将规格说明书转化为可执行的指令，让 AI 直接依据明确的业务场景生成高质量代码，从而减少从零开始的随意编码，确保产出结果的可预测性。\n\n该工具特别适合希望利用 AI 辅助编程的开发者、技术负责人及初创团队。无论是启动全新项目还是在现有工程中引入规范化流程，用户只需通过简单的命令行操作，即可初始化项目并集成主流的 AI 编程助手。其核心技术亮点在于“规格即代码”的理念，支持社区扩展与预设模板，允许用户根据特定技术栈定制开发流程。此外，Spec Kit 强调官方维护的安全性，提供稳定的版本管理，帮助开发者在享受 AI 红利的同时，依然牢牢掌握架构设计的主动权，真正实现从“凭感觉写代码”到“按规格建系统”的转变。",88749,"2026-04-17T09:48:14",[15,26,14,13],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":10,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85267,"2026-04-18T11:00:28",[26,51,52,53,14,54,15,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":62,"last_commit_at":63,"category_tags":64,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,51,54],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":70,"readme_en":71,"readme_zh":72,"quickstart_zh":73,"use_case_zh":74,"hero_image_url":75,"owner_login":76,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":79,"owner_url":80,"languages":81,"stars":90,"forks":91,"last_commit_at":92,"license":93,"difficulty_score":23,"env_os":94,"env_gpu":95,"env_ram":94,"env_deps":96,"category_tags":104,"github_topics":105,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":114,"updated_at":115,"faqs":116,"releases":147},9831,"AIDC-AI\u002FOvis","Ovis","A novel Multimodal Large Language Model (MLLM) architecture, designed to structurally align visual and textual embeddings.","Ovis 是一款创新的多模态大语言模型（MLLM），旨在通过独特的架构设计，实现视觉与文本嵌入的结构化对齐。它有效解决了传统模型在处理复杂图像、图表及视频时，难以精准理解视觉细节或与文本逻辑深度融合的痛点，显著提升了跨模态推理的准确性。\n\n无论是从事多模态研究的研究人员、需要定制模型的开发者，还是希望体验先进 AI 能力的普通用户，都能从 Ovis 中获益。其最新发布的 Ovis2.5 版本支持原生分辨率视觉感知，无需压缩即可处理高清图像，并引入了增强型“反思推理”模式，使其在科学计算（STEM）、图表分析、视觉定位及视频理解等任务上表现卓越。此外，Ovis 提供了从 2B 到 34B 多种参数量级的模型选择，兼顾了高性能与部署灵活性，让不同算力需求的用户都能轻松上手，探索视觉与语言交互的无限可能。","# Ovis\n\u003Cdiv align=\"center\">\n  \u003Cimg src=docs\u002Fovis_logo.png width=\"30%\"\u002F>\n\u003C\u002Fdiv>\n\u003Cbr>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.11737\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📖_Technical_Report-Ovis2.5-b31b1b.svg\" alt=\"technical report\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis2.5-9B\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🎨_HF_Spaces-AIDC--AI\u002FOvis2.5--9B-lightblack\" alt=\"demo\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FAIDC-AI\u002Fovis25-689ec1474633b2aab8809335\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗_Models-AIDC--AI\u002FOvis2.5-yellow\" alt=\"models\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n## Introduction\n\nOvis (Open VISion) is a novel Multimodal Large Language Model (MLLM) architecture, designed to structurally align visual and textual embeddings.\n\n\u003Cdiv style=\"text-align: center;\">\n  \u003Cimg style=\"max-width: 100%;\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_readme_f2dc23c9bf21.png\" alt=\"Ovis Illustration\"\u002F>\n\u003C\u002Fdiv>\n\n## 🔥 We are hiring!\nWe are looking for both interns and full-time researchers to join our team, focusing on multimodal understanding, generation, reasoning, AI agents, and unified multimodal models. If you are interested in exploring these exciting areas, please reach out to us at qingguo.cqg@alibaba-inc.com.\n\n## Release\n- [25\u002F08\u002F15] 🔥 Launch of [Ovis2.5-2B\u002F9B](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2.5-9B), featuring native-resolution visual perception, enhanced reflective reasoning (*thinking mode*), and leading performance across STEM, chart analysis, grounding, and video understanding.\n- [25\u002F03\u002F25] 🔥 Announcing quantized versions of Ovis2 series, covering [Ovis2-2\u002F4\u002F8\u002F16\u002F34B](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2-34B-GPTQ-Int4)!\n- [25\u002F01\u002F26] 🔥 Launch of [Ovis2-1\u002F2\u002F4\u002F8\u002F16\u002F34B](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2-34B), the latest version of Ovis models, featuring breakthrough small-model performance, enhanced reasoning capabilities, advanced video and multi-image processing, expanded multilingual OCR support, and improved high-resolution image handling.\n- [24\u002F11\u002F26] 🔥 Announcing [Ovis1.6-Gemma2-27B](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Gemma2-27B)!\n- [24\u002F11\u002F04] 🔥 Announcing quantized versions of Ovis1.6: [Ovis1.6-Gemma2-9B-GPTQ-Int4](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Gemma2-9B-GPTQ-Int4) and [Ovis1.6-Llama3.2-3B-GPTQ-Int4](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Llama3.2-3B-GPTQ-Int4)!\n- [24\u002F10\u002F22] 🔥 Announcing Ovis1.6-Llama3.2-3B ([Model](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Llama3.2-3B), [Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis1.6-Llama3.2-3B))!\n- [24\u002F09\u002F19] 🔥 Announcing Ovis1.6-Gemma2-9B ([Model](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Gemma2-9B), [Demo](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis1.6-Gemma2-9B))! This release further enhances high-resolution image processing, is trained on a larger, more diverse, and higher-quality dataset, and refines the training process with DPO training following instruction-tuning.\n- [24\u002F07\u002F24] 🔥 Introducing Ovis1.5, featuring improved high-resolution image processing and optimized training data for enhanced performance.\n- [24\u002F06\u002F14] 🔥 Launch of Ovis1.0, the inaugural version of the Ovis model.\n\n## Contents\n- [Ovis: Structural Embedding Alignment for Multimodal Large Language Model](#ovis-structural-embedding-alignment-for-multimodal-large-language-model)\n  - [Release](#release)\n  - [Contents](#contents)\n  - [Model](#model)\n  - [Performance](#performance)\n  - [Install](#install)\n  - [Inference](#inference)\n  - [Model Fine-tuning](#model-fine-tuning)\n  - [Citation](#citation)\n  - [Team](#team)\n  - [License](#license)\n  - [Disclaimer](#disclaimer)\n\n## Model\nOvis can be instantiated with popular LLMs. We provide the following Ovis MLLMs:\n\n| Ovis MLLMs |           ViT           |          LLM          |                      Model Weights                      |                           Demo                           |\n|:-----------|:-----------------------:|:---------------------:|:-------------------------------------------------------:|:--------------------------------------------------------:|\n| Ovis2.5-2B   | siglip2-so400m-patch16-512 | Qwen3-1.7B | [Huggingface](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2.5-2B)  | [Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis2.5-2B) |\n| Ovis2.5-9B   | siglip2-so400m-patch16-512  |  Qwen3-8B  | [Huggingface](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2.5-9B)  | [Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis2.5-9B) |\n\n\n## Performance\nOvis2.5 demonstrates strong results on general multimodal benchmarks, complex chart analysis, and reasoning tasks, achieving leading performance among open-source models under 40B parameters.\n\n\n![performance-Ovis2_5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_readme_d476ac2f9e00.png)\n\n\n![OC-Ovis2_5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_readme_2d58705905eb.png)\n\n![REASON-Ovis2_5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_readme_6fef062a5807.png)\n\n## Install\nOvis has been tested with Python 3.10, Torch 2.4.0, Transformers 4.51.3, and DeepSpeed 0.15.4. For a comprehensive list of package dependencies, please consult the `requirements.txt` file.\n```bash\ngit clone git@github.com:AIDC-AI\u002FOvis.git\nconda create -n ovis python=3.10 -y\nconda activate ovis\ncd Ovis\npip install -r requirements.txt\npip install -e .\n```\n\nFor `vLLM`:\n\n```bash\npip install vllm==0.10.2 --extra-index-url https:\u002F\u002Fwheels.vllm.ai\u002F0.10.2\u002F\n```\n\n## Inference\n\nWe provide inference examples using both **transformers** and **vLLM**.\n\n### transformers\n\nIn `ovis\u002Fserve` we provide three example files:\n\n* **`ovis\u002Fserve\u002Finfer_think_demo.py`**  \n  Demonstrates how to enable the model’s *reflective reasoning* via  \n  `enable_thinking` and to control the reasoning phase length with `thinking_budget`.\n\n* **`ovis\u002Fserve\u002Finfer_basic_demo.py`**  \n  Provides inference examples for single-image, multi-image, video, and pure-text inputs.\n\n* **`ovis\u002Fserve\u002Fweb_ui.py`**\n  Provides a **Gradio-based Web UI** demo.\n  Example run:\n\n  ```bash\n  python ovis\u002Fserve\u002Fweb_ui.py --model-path AIDC-AI\u002FOvis2.5-9B --port 8001\n  ```\n\n### vLLM\n\nStart the vLLM server:\n\n```bash\nvllm serve AIDC-AI\u002FOvis2.5-9B \\\n     --trust-remote-code \\\n     --port 8000\n```\n\nCall the model using the **OpenAI Python SDK**:\n\n```python\nfrom openai import OpenAI\n\nopenai_api_key = \"EMPTY\"\nopenai_api_base = \"http:\u002F\u002Flocalhost:8000\u002Fv1\"\n\nclient = OpenAI(\n    api_key=openai_api_key,\n    base_url=openai_api_base,\n)\n\nchat_response = client.chat.completions.create(\n    model=\"AIDC-AI\u002FOvis2.5-9B\",\n    messages=[\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\n                    \"type\": \"image_url\",\n                    \"image_url\": {\n                        \"url\": \"https:\u002F\u002Fcdn-uploads.huggingface.co\u002Fproduction\u002Fuploads\u002F637aebed7ce76c3b834cea37\u002Fkh-1dhZRAduP-P4SkIhXr.png\"\n                    },\n                },\n                {\"type\": \"text\", \"text\": \"Recognize the table content\"},\n            ],\n        },\n    ],    \n    extra_body={\n        \"chat_template_kwargs\": {\n            \"enable_thinking\": True,\n        },\n        \"mm_processor_kwargs\": {\n            \"images_kwargs\": {\n                \"min_pixels\": 1048576,   # 1024 * 1024\n                \"max_pixels\": 3211264    # 1792 * 1792\n            }\n        }\n    }\n)\n\nprint(\"Chat response:\\n\", chat_response.choices[0].message.content)\n```\n\n#### Explanation of `extra_body` parameters:\n\n* **`chat_template_kwargs.enable_thinking`**\n  Enables *thinking mode* (reflective reasoning).\n\n* **`mm_processor_kwargs.images_kwargs.min_pixels \u002F max_pixels`**\n  Controls the resolution range of input images (in total pixel count), balancing accuracy and GPU memory usage.\n\n\n## Model Fine-tuning\n\nOvis can be fine-tuned using either the provided training code in this repository or via [ms-swift](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fms-swift).\n\n\n### 1. Fine-tuning with in-repo code\n\n#### Data Format\n\nThe training dataset is stored as a **JSON list**, where each element corresponds to a single sample.\nExample dataset JSON:\n\n```jsonc\n[\n    {\n        \"id\": 1354,\n        \"image\": \"1354.png\",\n        \"conversations\": [\n            {\n                \"from\": \"human\",\n                \"value\": \"\u003Cimage>\\nIn the figure, the vertices of quadrilateral ABCD intersect square EFGH and divide its sides into segments with measures that have a ratio of 1:2. Find the ratio between the areas of ABCD and EFGH.\"\n            },\n            {\n                \"from\": \"gpt\",\n                \"value\": \"5:9\"\n            }\n        ]\n    }\n]\n```\n\n#### Dataset Information\n\nDatasets are referenced via **datainfo JSON files**, e.g. `ovis\u002Ftrain\u002Fdataset\u002Fovis2_5_sft_datainfo.json`:\n\n```json\n{\n    \"geometry3k_local\": {\n        \"meta_file\": \"path\u002Fto\u002Fgeometry3k_local.json\",\n        \"storage_type\": \"hybrid\",\n        \"data_format\": \"conversation\",\n        \"image_dir\": \"path\u002Fto\u002Fimages\u002F\"\n    }\n}\n```\n\n* `meta_file`: path to the converted dataset JSON file (a list of samples).\n* `storage_type`: usually set to `\"hybrid\"`.\n* `data_format`: usually set to `\"conversation\"`.\n* `image_dir`: directory path containing the referenced images.\n\n#### Training Script\n\nWe provide example training scripts under `scripts\u002F`.\nFor instance, to fine-tune Ovis2.5 with SFT:\n\n```bash\nbash scripts\u002Frun_ovis2_5_sft.sh\n```\n\nThis script configures the DeepSpeed engine, dataset paths, and model checkpoint initialization. Modify it to match your own dataset and environment.\n\n### 2. Fine-tuning with ms-swift\n\nAlternatively, Ovis models can be fine-tuned using [ms-swift](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fms-swift), a flexible training framework for LLMs.\n\n\n## Citation\nIf you find Ovis useful, please cite the paper\n```\n@article{lu2025ovis25technicalreport,\n  title={Ovis2.5 Technical Report}, \n  author={Shiyin Lu and Yang Li and Yu Xia and Yuwei Hu and Shanshan Zhao and Yanqing Ma and Zhichao Wei and Yinglun Li and Lunhao Duan and Jianshan Zhao and Yuxuan Han and Haijun Li and Wanying Chen and Junke Tang and Chengkun Hou and Zhixing Du and Tianli Zhou and Wenjie Zhang and Huping Ding and Jiahe Li and Wen Li and Gui Hu and Yiliang Gu and Siran Yang and Jiamang Wang and Hailong Sun and Yibo Wang and Hui Sun and Jinlong Huang and Yuping He and Shengze Shi and Weihong Zhang and Guodong Zheng and Junpeng Jiang and Sensen Gao and Yi-Feng Wu and Sijia Chen and Yuhui Chen and Qing-Guo Chen and Zhao Xu and Weihua Luo and Kaifu Zhang},\n  year={2025},\n  journal={arXiv:2508.11737}\n}\n\n@article{lu2024ovis,\n  title={Ovis: Structural Embedding Alignment for Multimodal Large Language Model}, \n  author={Shiyin Lu and Yang Li and Qing-Guo Chen and Zhao Xu and Weihua Luo and Kaifu Zhang and Han-Jia Ye},\n  year={2024},\n  journal={arXiv:2405.20797}\n}\n```\n\n## Team\nThis work is a collaborative effort by the Alibaba Ovis team. We would also like to provide links to the following MLLM papers from our team:\n- [Parrot: Multilingual Visual Instruction Tuning](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.02539)\n- [Wings: Learning Multimodal LLMs without Text-only Forgetting](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.03496)\n\n## License\nThis project is licensed under the [Apache License, Version 2.0](https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0.txt) (SPDX-License-Identifier: Apache-2.0).\n\n## Disclaimer\nWe used compliance-checking algorithms during the training process, to ensure the compliance of the trained model to the best of our ability. Due to the complexity of the data and the diversity of language model usage scenarios, we cannot guarantee that the model is completely free of copyright issues or improper content. If you believe anything infringes on your rights or generates improper content, please contact us, and we will promptly address the matter.\n","# Ovis\n\u003Cdiv align=\"center\">\n  \u003Cimg src=docs\u002Fovis_logo.png width=\"30%\"\u002F>\n\u003C\u002Fdiv>\n\u003Cbr>\n\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2508.11737\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F📖_Technical_Report-Ovis2.5-b31b1b.svg\" alt=\"technical report\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis2.5-9B\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🎨_HF_Spaces-AIDC--AI\u002FOvis2.5--9B-lightblack\" alt=\"demo\">\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fcollections\u002FAIDC-AI\u002Fovis25-689ec1474633b2aab8809335\">\u003Cimg src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤗_Models-AIDC--AI\u002FOvis2.5-yellow\" alt=\"models\">\u003C\u002Fa>\n\u003C\u002Fp>\n\n## 简介\n\nOvis（Open VISion）是一种新颖的多模态大语言模型（MLLM）架构，旨在从结构上对齐视觉和文本嵌入。\n\n\u003Cdiv style=\"text-align: center;\">\n  \u003Cimg style=\"max-width: 100%;\" src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_readme_f2dc23c9bf21.png\" alt=\"Ovis 插图\"\u002F>\n\u003C\u002Fdiv>\n\n## 🔥 招聘中！\n我们正在招募实习生和全职研究人员加入我们的团队，研究方向包括多模态理解、生成、推理、AI代理以及统一的多模态模型。如果您对这些激动人心的研究领域感兴趣，请通过 qingguo.cqg@alibaba-inc.com 联系我们。\n\n## 发布\n- [25\u002F08\u002F15] 🔥 推出 [Ovis2.5-2B\u002F9B](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2.5-9B)，具备原生分辨率的视觉感知能力、增强的反思式推理能力（*思考模式*），并在STEM、图表分析、场景理解及视频理解等任务上表现领先。\n- [25\u002F03\u002F25] 🔥 宣布推出Ovis2系列的量化版本，涵盖 [Ovis2-2\u002F4\u002F8\u002F16\u002F34B](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2-34B-GPTQ-Int4)！\n- [25\u002F01\u002F26] 🔥 推出 [Ovis2-1\u002F2\u002F4\u002F8\u002F16\u002F34B](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2-34B)，这是Ovis模型的最新版本，具有突破性的小模型性能、更强的推理能力、先进的视频和多图像处理能力、扩展的多语言OCR支持，以及改进的高分辨率图像处理能力。\n- [24\u002F11\u002F26] 🔥 宣布推出 [Ovis1.6-Gemma2-27B](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Gemma2-27B)！\n- [24\u002F11\u002F04] 🔥 宣布推出Ovis1.6的量化版本：[Ovis1.6-Gemma2-9B-GPTQ-Int4](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Gemma2-9B-GPTQ-Int4) 和 [Ovis1.6-Llama3.2-3B-GPTQ-Int4](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Llama3.2-3B-GPTQ-Int4)！\n- [24\u002F10\u002F22] 🔥 宣布推出Ovis1.6-Llama3.2-3B（[模型](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Llama3.2-3B)，[演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis1.6-Llama3.2-3B)）！\n- [24\u002F09\u002F19] 🔥 宣布推出Ovis1.6-Gemma2-9B（[模型](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis1.6-Gemma2-9B)，[演示](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis1.6-Gemma2-9B)）。此次发布进一步提升了高分辨率图像处理能力，采用了更大、更丰富、更高品质的数据集进行训练，并在指令微调之后引入了DPO训练来优化模型。\n- [24\u002F07\u002F24] 🔥 推出Ovis1.5，其特点是改进了高分辨率图像处理能力，并优化了训练数据以提升性能。\n- [24\u002F06\u002F14] 🔥 推出Ovis1.0，即Ovis模型的首个版本。\n\n## 目录\n- [Ovis：面向多模态大语言模型的结构化嵌入对齐](#ovis-structural-embedding-alignment-for-multimodal-large-language-model)\n  - [发布](#release)\n  - [目录](#contents)\n  - [模型](#model)\n  - [性能](#performance)\n  - [安装](#install)\n  - [推理](#inference)\n  - [模型微调](#model-fine-tuning)\n  - [引用](#citation)\n  - [团队](#team)\n  - [许可证](#license)\n  - [免责声明](#disclaimer)\n\n## 模型\nOvis可以与流行的LLM结合使用。我们提供了以下Ovis MLLM：\n\n| Ovis MLLMs |           ViT           |          LLM          |                      Model Weights                      |                           Demo                           |\n|:-----------|:-----------------------:|:---------------------:|:-------------------------------------------------------:|:--------------------------------------------------------:|\n| Ovis2.5-2B   | siglip2-so400m-patch16-512 | Qwen3-1.7B | [Huggingface](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2.5-2B)  | [Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis2.5-2B) |\n| Ovis2.5-9B   | siglip2-so400m-patch16-512  |  Qwen3-8B  | [Huggingface](https:\u002F\u002Fhuggingface.co\u002FAIDC-AI\u002FOvis2.5-9B)  | [Space](https:\u002F\u002Fhuggingface.co\u002Fspaces\u002FAIDC-AI\u002FOvis2.5-9B) |\n\n\n## 性能\nOvis2.5在通用多模态基准测试、复杂图表分析和推理任务上表现出色，在参数量低于40B的开源模型中位居前列。\n\n\n![performance-Ovis2_5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_readme_d476ac2f9e00.png)\n\n\n![OC-Ovis2_5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_readme_2d58705905eb.png)\n\n![REASON-Ovis2_5](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_readme_6fef062a5807.png)\n\n## 安装\nOvis已在Python 3.10、Torch 2.4.0、Transformers 4.51.3和DeepSpeed 0.15.4环境下进行了测试。有关完整的依赖包列表，请参阅 `requirements.txt` 文件。\n```bash\ngit clone git@github.com:AIDC-AI\u002FOvis.git\nconda create -n ovis python=3.10 -y\nconda activate ovis\ncd Ovis\npip install -r requirements.txt\npip install -e .\n```\n\n对于 `vLLM`：\n\n```bash\npip install vllm==0.10.2 --extra-index-url https:\u002F\u002Fwheels.vllm.ai\u002F0.10.2\u002F\n```\n\n## 推理\n\n我们提供了使用 **transformers** 和 **vLLM** 的推理示例。\n\n### transformers\n\n在 `ovis\u002Fserve` 中，我们提供了三个示例文件：\n\n* **`ovis\u002Fserve\u002Finfer_think_demo.py`**  \n  展示如何通过 `enable_thinking` 启用模型的 *反思式推理*，并使用 `thinking_budget` 控制推理阶段的时长。\n\n* **`ovis\u002Fserve\u002Finfer_basic_demo.py`**  \n  提供单张图像、多张图像、视频和纯文本输入的推理示例。\n\n* **`ovis\u002Fserve\u002Fweb_ui.py`**\n  提供一个基于 **Gradio** 的Web UI演示。示例运行：\n\n  ```bash\n  python ovis\u002Fserve\u002Fweb_ui.py --model-path AIDC-AI\u002FOvis2.5-9B --port 8001\n  ```\n\n### vLLM\n\n启动 vLLM 服务器：\n\n```bash\nvllm serve AIDC-AI\u002FOvis2.5-9B \\\n     --trust-remote-code \\\n     --port 8000\n```\n\n使用 **OpenAI Python SDK** 调用模型：\n\n```python\nfrom openai import OpenAI\n\nopenai_api_key = \"EMPTY\"\nopenai_api_base = \"http:\u002F\u002Flocalhost:8000\u002Fv1\"\n\nclient = OpenAI(\n    api_key=openai_api_key,\n    base_url=openai_api_base,\n)\n\nchat_response = client.chat.completions.create(\n    model=\"AIDC-AI\u002FOvis2.5-9B\",\n    messages=[\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\n                    \"type\": \"image_url\",\n                    \"image_url\": {\n                        \"url\": \"https:\u002F\u002Fcdn-uploads.huggingface.co\u002Fproduction\u002Fuploads\u002F637aebed7ce76c3b834cea37\u002Fkh-1dhZRAduP-P4SkIhXr.png\"\n                    },\n                },\n                {\"type\": \"text\", \"text\": \"识别表格内容\"},\n            ],\n        },\n    ],    \n    extra_body={\n        \"chat_template_kwargs\": {\n            \"enable_thinking\": True,\n        },\n        \"mm_processor_kwargs\": {\n            \"images_kwargs\": {\n                \"min_pixels\": 1048576,   # 1024 * 1024\n                \"max_pixels\": 3211264    # 1792 * 1792\n            }\n        }\n    }\n)\n\nprint(\"聊天回复：\\n\", chat_response.choices[0].message.content)\n```\n\n#### `extra_body` 参数说明：\n\n* **`chat_template_kwargs.enable_thinking`**\n  启用*思考模式*（反思性推理）。\n\n* **`mm_processor_kwargs.images_kwargs.min_pixels \u002F max_pixels`**\n  控制输入图像的分辨率范围（以总像素数计），在准确性和 GPU 内存占用之间取得平衡。\n\n\n## 模型微调\n\nOvis 可以使用本仓库提供的训练代码，或通过 [ms-swift](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fms-swift) 进行微调。\n\n\n### 1. 使用仓库内代码进行微调\n\n#### 数据格式\n\n训练数据集以 **JSON 列表** 形式存储，其中每个元素对应一个样本。\n示例数据集 JSON：\n\n```jsonc\n[\n    {\n        \"id\": 1354,\n        \"image\": \"1354.png\",\n        \"conversations\": [\n            {\n                \"from\": \"human\",\n                \"value\": \"\u003Cimage>\\n图中，四边形 ABCD 的顶点与正方形 EFGH 相交，并将其各边分割为长度比为 1:2 的线段。求 ABCD 与 EFGH 面积之比。\"\n            },\n            {\n                \"from\": \"gpt\",\n                \"value\": \"5:9\"\n            }\n        ]\n    }\n]\n```\n\n#### 数据集信息\n\n数据集通过 **datainfo JSON 文件** 引用，例如 `ovis\u002Ftrain\u002Fdataset\u002Fovis2_5_sft_datainfo.json`：\n\n```json\n{\n    \"geometry3k_local\": {\n        \"meta_file\": \"path\u002Fto\u002Fgeometry3k_local.json\",\n        \"storage_type\": \"hybrid\",\n        \"data_format\": \"conversation\",\n        \"image_dir\": \"path\u002Fto\u002Fimages\u002F\"\n    }\n}\n```\n\n* `meta_file`：转换后的数据集 JSON 文件路径（样本列表）。\n* `storage_type`：通常设置为 `\"hybrid\"`。\n* `data_format`：通常设置为 `\"conversation\"`。\n* `image_dir`：包含引用图像的目录路径。\n\n#### 训练脚本\n\n我们在 `scripts\u002F` 目录下提供了示例训练脚本。例如，使用 SFT 微调 Ovis2.5：\n\n```bash\nbash scripts\u002Frun_ovis2_5_sft.sh\n```\n\n该脚本配置了 DeepSpeed 引擎、数据集路径以及模型检查点的初始化。请根据您自己的数据集和环境对其进行修改。\n\n### 2. 使用 ms-swift 进行微调\n\n此外，Ovis 模型也可以使用 [ms-swift](https:\u002F\u002Fgithub.com\u002Fmodelscope\u002Fms-swift)，一个灵活的 LLM 训练框架，来进行微调。\n\n\n## 引用\n如果您觉得 Ovis 有用，请引用以下论文：\n```\n@article{lu2025ovis25technicalreport,\n  title={Ovis2.5 技术报告}, \n  author={Shiyin Lu 和 Yang Li 和 Yu Xia 和 Yuwei Hu 和 Shanshan Zhao 和 Yanqing Ma 和 Zhichao Wei 和 Yinglun Li 和 Lunhao Duan 和 Jianshan Zhao 和 Yuxuan Han 和 Haijun Li 和 Wanying Chen 和 Junke Tang 和 Chengkun Hou 和 Zhixing Du 和 Tianli Zhou 和 Wenjie Zhang 和 Huping Ding 和 Jiahe Li 和 Wen Li 和 Gui Hu 和 Yiliang Gu 和 Siran Yang 和 Jiamang Wang 和 Hailong Sun 和 Yibo Wang 和 Hui Sun 和 Jinlong Huang 和 Yuping He 和 Shengze Shi 和 Weihong Zhang 和 Guodong Zheng 和 Junpeng Jiang 和 Sensen Gao 和 Yi-Feng Wu 和 Sijia Chen 和 Yuhui Chen 和 Qing-Guo Chen 和 Zhao Xu 和 Weihua Luo 和 Kaifu Zhang},\n  year={2025},\n  journal={arXiv:2508.11737}\n}\n\n@article{lu2024ovis,\n  title={Ovis：用于多模态大语言模型的结构嵌入对齐}, \n  author={Shiyin Lu 和 Yang Li 和 Qing-Guo Chen 和 Zhao Xu 和 Weihua Luo 和 Kaifu Zhang 和 Han-Jia Ye},\n  year={2024},\n  journal={arXiv:2405.20797}\n}\n```\n\n## 团队\n本工作由阿里巴巴 Ovis 团队共同完成。我们还希望提供团队其他 MLLM 论文的链接：\n- [Parrot：多语言视觉指令微调](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.02539)\n- [Wings：无需担心文本遗忘的学习多模态 LLM](https:\u002F\u002Farxiv.org\u002Fabs\u002F2406.03496)\n\n## 许可证\n本项目采用 [Apache License, Version 2.0](https:\u002F\u002Fwww.apache.org\u002Flicenses\u002FLICENSE-2.0.txt) 许可证（SPDX-License-Identifier: Apache-2.0）。\n\n## 免责声明\n我们在训练过程中使用了合规性检查算法，以尽可能确保训练后模型的合规性。然而，由于数据的复杂性以及语言模型使用场景的多样性，我们无法保证模型完全不存在版权问题或不当内容。如果您认为任何内容侵犯了您的权益或产生了不当内容，请及时联系我们，我们将迅速处理此事。","# Ovis 快速上手指南\n\nOvis (Open VISion) 是一款新型多模态大语言模型（MLLM），旨在通过结构化对齐视觉和文本嵌入，实现卓越的图文理解、推理及视频分析能力。最新发布的 **Ovis2.5** 系列支持原生分辨率感知和增强型反思推理（Thinking Mode）。\n\n## 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu)\n*   **Python**: 3.10\n*   **核心依赖版本**:\n    *   PyTorch: 2.4.0\n    *   Transformers: 4.51.3\n    *   DeepSpeed: 0.15.4\n    *   (可选) vLLM: 0.10.2 (用于高性能推理)\n*   **硬件**: 推荐使用 NVIDIA GPU，显存大小取决于所选模型版本（2B 或 9B）。\n\n> **提示**: 国内开发者建议使用国内镜像源加速 `pip` 和 `conda` 包的下载（如清华源、阿里源）。\n\n## 安装步骤\n\n### 1. 克隆代码库并创建环境\n\n```bash\ngit clone git@github.com:AIDC-AI\u002FOvis.git\nconda create -n ovis python=3.10 -y\nconda activate ovis\ncd Ovis\n```\n\n### 2. 安装依赖\n\n使用国内镜像源安装基础依赖包：\n\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\npip install -e . -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n### 3. (可选) 安装 vLLM 支持\n\n如果您计划使用 vLLM 进行高速推理，请执行以下命令：\n\n```bash\npip install vllm==0.10.2 --extra-index-url https:\u002F\u002Fwheels.vllm.ai\u002F0.10.2\u002F\n```\n\n## 基本使用\n\nOvis 提供了基于 `transformers` 的原生推理脚本和基于 `vLLM` 的服务化部署方案。\n\n### 方式一：使用 Gradio Web UI (最简单)\n\n这是最直观的交互方式，启动后即可在浏览器中上传图片并进行对话。\n\n```bash\npython ovis\u002Fserve\u002Fweb_ui.py --model-path AIDC-AI\u002FOvis2.5-9B --port 8001\n```\n*启动后，请在浏览器访问 `http:\u002F\u002Flocalhost:8001`。*\n\n### 方式二：Python 脚本推理 (Transformers)\n\n您可以直接运行官方提供的示例脚本来体验单图、多图、视频输入或开启“思考模式”。\n\n**开启反思推理 (Thinking Mode) 示例：**\n```bash\npython ovis\u002Fserve\u002Finfer_think_demo.py\n```\n*该脚本演示了如何通过 `enable_thinking` 参数启用模型的深度推理能力，并通过 `thinking_budget` 控制推理长度。*\n\n**基础推理示例（含多模态输入）：**\n```bash\npython ovis\u002Fserve\u002Finfer_basic_demo.py\n```\n\n### 方式三：通过 vLLM 服务调用 (生产级)\n\n如果您需要更高的吞吐量，可以启动 vLLM 服务并通过 OpenAI 兼容接口调用。\n\n**1. 启动服务**\n```bash\nvllm serve AIDC-AI\u002FOvis2.5-9B \\\n     --trust-remote-code \\\n     --port 8000\n```\n\n**2. 客户端调用示例**\n使用 Python 调用服务，支持设置图像分辨率和开启思考模式：\n\n```python\nfrom openai import OpenAI\n\nopenai_api_key = \"EMPTY\"\nopenai_api_base = \"http:\u002F\u002Flocalhost:8000\u002Fv1\"\n\nclient = OpenAI(\n    api_key=openai_api_key,\n    base_url=openai_api_base,\n)\n\nchat_response = client.chat.completions.create(\n    model=\"AIDC-AI\u002FOvis2.5-9B\",\n    messages=[\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\n                    \"type\": \"image_url\",\n                    \"image_url\": {\n                        \"url\": \"https:\u002F\u002Fcdn-uploads.huggingface.co\u002Fproduction\u002Fuploads\u002F637aebed7ce76c3b834cea37\u002Fkh-1dhZRAduP-P4SkIhXr.png\"\n                    },\n                },\n                {\"type\": \"text\", \"text\": \"Recognize the table content\"},\n            ],\n        },\n    ],    \n    extra_body={\n        \"chat_template_kwargs\": {\n            \"enable_thinking\": True,  # 开启思考模式\n        },\n        \"mm_processor_kwargs\": {\n            \"images_kwargs\": {\n                \"min_pixels\": 1048576,   # 最小分辨率 1024*1024\n                \"max_pixels\": 3211264    # 最大分辨率 1792*1792\n            }\n        }\n    }\n)\n\nprint(\"Chat response:\\n\", chat_response.choices[0].message.content)\n```\n\n---\n*更多高级用法（如模型微调）请参考项目仓库中的 `scripts\u002F` 目录及官方文档。*","某电商数据分析师需要每日从数百张包含复杂图表、多语言标签及低分辨率截图的销售日报中提取关键趋势，并生成结构化洞察报告。\n\n### 没有 Ovis 时\n- **细节丢失严重**：传统模型在处理高分辨率报表截图时，往往强制压缩图像，导致图表中的微小数据点或图例模糊不清，无法准确读取数值。\n- **多模态对齐偏差**：当图表中包含中英文混合标注时，模型常将文字描述与对应的图形区域错误匹配，产生“看图说话”但逻辑不通的幻觉。\n- **推理能力薄弱**：面对需要结合多个子图进行对比分析的任务（如“对比 Q3 与 Q4 的增长斜率”），旧模型只能罗列表面信息，缺乏深度推导能力。\n- **人工复核成本高**：由于输出结果不可靠，分析师必须逐条人工核对提取的数据，耗时耗力，严重拖慢决策节奏。\n\n### 使用 Ovis 后\n- **原生高清感知**：Ovis 的原生分辨率视觉感知能力直接处理高清原图，精准识别图表中微小的刻度变化和密集数据点，零遗漏提取关键数值。\n- **结构级模态对齐**：凭借独特的结构嵌入对齐架构，Ovis 能精确将多语言文本标签与视觉区域锁定对应，彻底消除图文错配的幻觉问题。\n- **增强反思推理**：启用 Ovis 的“思考模式”后，它能主动拆解复杂图表逻辑，自动完成跨图表的趋势对比与归因分析，输出具备深度的商业洞察。\n- **自动化流程闭环**：高精度的输出让分析师无需二次复核，直接将 Ovis 生成的结构化结论接入 BI 系统，将日报处理时间从小时级缩短至分钟级。\n\nOvis 通过结构化的视听语义对齐，将繁琐的视觉数据清洗工作转化为可信赖的自动化智能决策流。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FAIDC-AI_Ovis_d476ac2f.png","AIDC-AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FAIDC-AI_a013ae97.png","AIDC-AI is the AI team at Alibaba International Digital Commerce Group. ",null,"https:\u002F\u002Fgithub.com\u002FAIDC-AI",[82,86],{"name":83,"color":84,"percentage":85},"Python","#3572A5",98.9,{"name":87,"color":88,"percentage":89},"Shell","#89e051",1.1,1447,85,"2026-04-16T09:43:01","Apache-2.0","未说明","需要 NVIDIA GPU（隐含，因依赖 Torch\u002FCUDA），具体显存需求取决于模型版本（2B\u002F9B 等）及输入分辨率；支持通过 min_pixels\u002Fmax_pixels 调整显存占用",{"notes":97,"python":98,"dependencies":99},"官方测试环境为 Python 3.10, Torch 2.4.0, Transformers 4.51.3 和 DeepSpeed 0.15.4。支持使用 vLLM 进行加速推理。模型支持原生分辨率视觉感知，可通过参数调整输入图像像素范围以平衡精度与显存占用。提供基于 Gradio 的 Web UI 演示。微调可使用仓库自带代码或 ms-swift 框架。","3.10",[100,101,102,103],"torch==2.4.0","transformers==4.51.3","deepspeed==0.15.4","vllm==0.10.2 (可选)",[15,54],[106,107,108,109,110,111,112,113],"chatbot","llama3","multimodal","multimodal-large-language-models","multimodality","qwen","vision-language-learning","vision-language-model","2026-03-27T02:49:30.150509","2026-04-20T07:17:16.124781",[117,122,127,132,137,142],{"id":118,"question_zh":119,"answer_zh":120,"source_url":121},44146,"推理时遇到 'HybridCache' object has no attribute 'max_batch_size' 错误怎么办？","这是由于 Transformers 库版本更新导致 `max_batch_size` 属性被弃用。解决方法是修改模型目录下的 `modeling_ovis.py` 文件，在 `_get_hybrid_cache_for_llm` 函数中，将 `llm._cache.max_batch_size` 替换为 `llm._cache.batch_size`。具体代码修改如下：\n将 `or llm._cache.max_batch_size != max_batch_size`\n改为 `or llm._cache.batch_size != max_batch_size`。","https:\u002F\u002Fgithub.com\u002FAIDC-AI\u002FOvis\u002Fissues\u002F31",{"id":123,"question_zh":124,"answer_zh":125,"source_url":126},44147,"加载模型或推理时报错 'IndexError: slice() cannot be applied to a 0-dim tensor' 如何解决？","该错误通常是因为 `attention_mask` 的维度不正确。需要在代码中确保 `attention_mask` 具有正确的批次维度。解决方案是在传入模型前添加以下代码：\n`attention_mask = attention_mask.unsqueeze(0).to(device=model.device)`\n这将把 mask 扩展为二维张量并移动到对应设备上。","https:\u002F\u002Fgithub.com\u002FAIDC-AI\u002FOvis\u002Fissues\u002F59",{"id":128,"question_zh":129,"answer_zh":130,"source_url":131},44148,"Ovis2 是否有发布技术报告（Tech Report）？","目前团队暂无发布 Ovis2 技术报告的计划。团队正专注于开发下一个版本的 Ovis，预计未来会发布相应的技术报告以详细介绍改进点和方法论。","https:\u002F\u002Fgithub.com\u002FAIDC-AI\u002FOvis\u002Fissues\u002F91",{"id":133,"question_zh":134,"answer_zh":135,"source_url":136},44149,"数据集部分文件（如 pixelprose-14m, wikipedia-348k 等）无法下载或访问不到怎么办？","维护者已确认文件已上传。如果遇到部分文件找不到或下载失败的情况，可能是网络或镜像源问题。建议尝试使用特定的下载工具或方法（参考 Ubuntu 社区的相关下载修复方案），或者检查是否使用了正确的数据源链接。如果问题持续，可等待后续镜像同步。","https:\u002F\u002Fgithub.com\u002FAIDC-AI\u002FOvis\u002Fissues\u002F1",{"id":138,"question_zh":139,"answer_zh":140,"source_url":141},44150,"Ovis 的训练超参数（如学习率）与 LLaVA 有何不同？小学习率能收敛吗？","Ovis 并未直接参考 LLaVA 类模型的训练参数来设置超参数。维护者确认，开源版本中使用的代码、数据和超参数是一致的，且损失函数能够正常收敛。虽然 LLaVA 通常使用较大的学习率（如 1e-4），但 Ovis 使用的较小学习率同样可以实现收敛，这是经过实验验证的配置。","https:\u002F\u002Fgithub.com\u002FAIDC-AI\u002FOvis\u002Fissues\u002F5",{"id":143,"question_zh":144,"answer_zh":145,"source_url":146},44151,"如何在 ms-swift 框架中对 Ovis2 进行微调？","目前 ms-swift 框架对 Ovis2 的微调支持尚不完善，存在已知 Bug。虽然有用户尝试进行了测试和修复，但官方尚未完全集成支持。建议关注 ms-swift 仓库的相关 Issue（如 #3189）以获取最新的修复进度，或暂时使用官方提供的原生训练脚本进行微调。","https:\u002F\u002Fgithub.com\u002FAIDC-AI\u002FOvis\u002Fissues\u002F48",[]]