[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-OpenGVLab--Multi-Modality-Arena":3,"tool-OpenGVLab--Multi-Modality-Arena":65},[4,17,27,35,48,57],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",148568,2,"2026-04-09T23:34:24",[13,14,15],"开发框架","Agent","语言模型","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,3,"2026-04-06T11:19:32",[15,26,14,13],"图像",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":10,"last_commit_at":33,"category_tags":34,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",85052,"2026-04-08T11:03:08",[26,43,44,45,14,46,15,13,47],"数据工具","视频","插件","其他","音频",{"id":49,"name":50,"github_repo":51,"description_zh":52,"stars":53,"difficulty_score":54,"last_commit_at":55,"category_tags":56,"status":16},5784,"funNLP","fighting41love\u002FfunNLP","funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为\"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。\n\n面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。\n\n无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。",79857,1,"2026-04-08T20:11:31",[15,43,46],{"id":58,"name":59,"github_repo":60,"description_zh":61,"stars":62,"difficulty_score":23,"last_commit_at":63,"category_tags":64,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[14,26,13,15,46],{"id":66,"github_repo":67,"name":68,"description_en":69,"description_zh":70,"ai_summary_zh":71,"readme_en":72,"readme_zh":73,"quickstart_zh":74,"use_case_zh":75,"hero_image_url":76,"owner_login":77,"owner_name":77,"owner_avatar_url":78,"owner_bio":79,"owner_company":80,"owner_location":80,"owner_email":81,"owner_twitter":82,"owner_website":80,"owner_url":83,"languages":84,"stars":104,"forks":105,"last_commit_at":106,"license":80,"difficulty_score":107,"env_os":108,"env_gpu":109,"env_ram":108,"env_deps":110,"category_tags":118,"github_topics":119,"view_count":10,"oss_zip_url":80,"oss_zip_packed_at":80,"status":16,"created_at":128,"updated_at":129,"faqs":130,"releases":159},6157,"OpenGVLab\u002FMulti-Modality-Arena","Multi-Modality-Arena","Chatbot Arena meets multi-modality! Multi-Modality Arena allows you to benchmark vision-language models side-by-side while providing images as inputs. Supports MiniGPT-4, LLaMA-Adapter V2, LLaVA, BLIP-2, and many more!","Multi-Modality-Arena 是一个专为大型多模态模型打造的评估平台，被誉为多模态领域的“竞技场”。它借鉴了著名的 Chatbot Arena 模式，让用户能够上传图像并提出问题，在盲测环境下并排对比两个匿名视觉语言模型的回答质量，从而直观地判断哪个模型表现更优。\n\n这一工具主要解决了当前多模态模型缺乏统一、公平且贴近真实场景的评测标准的痛点。传统的基准测试往往依赖静态数据集，而 Multi-Modality-Arena 通过引入人类偏好投票机制，提供了更动态、更全面的性能反馈。平台不仅支持 MiniGPT-4、LLaVA、BLIP-2 等主流开源模型，还涵盖了医疗垂直领域的 OmniMedVQA 评测以及包含 Google Bard 在内的 Tiny LVLM-eHub 基准测试，能够从视觉感知、推理、常识等多个维度系统性地衡量模型能力。\n\nMulti-Modality-Arena 非常适合 AI 研究人员、算法开发者以及对多模态技术感兴趣的技术爱好者使用。研究人员可利用其丰富的数据集和排行榜追踪最新技术进展；开发者能借此验证自己模型的实战表现；普通用户也能轻松参与评测，","Multi-Modality-Arena 是一个专为大型多模态模型打造的评估平台，被誉为多模态领域的“竞技场”。它借鉴了著名的 Chatbot Arena 模式，让用户能够上传图像并提出问题，在盲测环境下并排对比两个匿名视觉语言模型的回答质量，从而直观地判断哪个模型表现更优。\n\n这一工具主要解决了当前多模态模型缺乏统一、公平且贴近真实场景的评测标准的痛点。传统的基准测试往往依赖静态数据集，而 Multi-Modality-Arena 通过引入人类偏好投票机制，提供了更动态、更全面的性能反馈。平台不仅支持 MiniGPT-4、LLaVA、BLIP-2 等主流开源模型，还涵盖了医疗垂直领域的 OmniMedVQA 评测以及包含 Google Bard 在内的 Tiny LVLM-eHub 基准测试，能够从视觉感知、推理、常识等多个维度系统性地衡量模型能力。\n\nMulti-Modality-Arena 非常适合 AI 研究人员、算法开发者以及对多模态技术感兴趣的技术爱好者使用。研究人员可利用其丰富的数据集和排行榜追踪最新技术进展；开发者能借此验证自己模型的实战表现；普通用户也能轻松参与评测，体验不同模型的理解能力。其独特的亮点在于构建了开放的在线对战平台和详尽的领导力榜单（Leaderboard），让模型评估从单纯的分数比拼进化为基于真实交互的综合较量，极大地推动了多模态社区的透明化发展。","### Multi-Modality Arena 🚀\n\n  \n\n\u003Cp  align=\"center\">\u003Cimg  src=\".\u002FCVLAB\u002Fstyle\u002Fimg\u002FOpengvlab_LOGO.svg\"  width=\"400\">\u003C\u002Fp>\n\n  \n\n\n\n\u003C!-- ## Description -->\n\n**Multi-Modality Arena** is an evaluation platform for large multi-modality models. Following [Fastchat](https:\u002F\u002Fchat.lmsys.org\u002F), two anonymous models side-by-side are compared on a visual question-answering task. We release the  [**Demo**](http:\u002F\u002Fvlarena.opengvlab.com)  and welcome the participation of everyone in this evaluation initiative.\n\n[![⚔️ LVLM Arena](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLVLM%20Arena-blue.svg?label=%E2%9A%94%EF%B8%8F)](http:\u002F\u002Fvlarena.opengvlab.com)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLVLM%20eHub-2306.09265-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09265)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTiny%20LVLM%20eHub-2308.03729-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03729)\n[![GitHub Stars](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FOpenGVLab\u002FMulti-modality-Arena.svg?style=social&label=Star&maxAge=60)](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-modality-Arena)🔥🔥🔥\n                \n\n \u003Cp  align=\"center\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_readme_fbfe36b5252a.jpg\"  width=\"800\">\u003C\u002Fp>\n\n## Holistic Evaluation of Large Multimodal Models\n\n### OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM\n- OmniMedVQA dataset: contains 118,010 images with 127,995 QA-items, covering 12 different modalities and referring to more than 20 human anatomical regions. Dataset could be download from [Here](https:\u002F\u002Fopenxlab.org.cn\u002Fdatasets\u002FGMAI\u002FOmniMedVQA).\n- 12 models: 8 general-domain LVLMs and 4 medical-specialized LVLMs.\n\n### Tiny LVLM-eHub: Early Multimodal Experiments with Bard\n\n- Tiny datasets: only 50 randomly selected sampels for each dataset, i.e., 42 text-related visual benchmarks and 2.1K samples in total for ease of use.\n- More models: another 4 models, i.e., 12 models in total, including **Google Bard**.\n- *ChatGPT Ensemble Evalution*: improved agreement with human evaluation than previous word matching approach.\n\n\u003Cp  align=\"center\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_readme_27a5481c6e1f.png\"  width=\"500\">\u003C\u002Fp>\n\n### LVLM-eHub: An Evaluation Benchmark for Large Vision-Language Models 🚀\n\nLVLM-eHub is a comprehensive evaluation benchmark for publicly available large multimodal models (LVLM).  It extensively evaluates $8$ LVLMs in terms of $6$ categories of multimodal capabilities with $47$ datasets and $1$ arena online platform.\n \u003Cp  align=\"center\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_readme_30e3c4f59409.png\"  width=\"800\">\u003C\u002Fp>\n\n## LVLM Leaderboard\nThe LVLM Leaderboard systematically categorizes the datasets featured in the Tiny LVLM Evaluation according to their specific targeted abilities including visual perception, visual reasoning, visual commonsense, visual knowledge acquisition, and object hallucination.\nThis leaderboard includes recently released models to bolster its comprehensiveness.\n\nYou can download the benchmark from [here](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1PuFC612XzOmKwzRldtBb1CFZnIjiR7we\u002Fview?usp=sharing), and more details can be found in [here](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Ftree\u002Fmain\u002Ftiny_lvlm_evaluation).\n\n| Rank | Model | Version | Score |\n| :--: | :--: | :--: | :--: |\n| 🏅️ | **[InternVL](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL)** | InternVL-Chat | **327.61** |\n| 🥈 | **[InternLM-XComposer-VL](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer)** | InternLM-XComposer-VL-7B | **322.51** |\n| 🥉  | **[Bard](https:\u002F\u002Fbard.google.com\u002F)** | Bard | **319.59** |\n| 4 | [Qwen-VL-Chat](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-VL) | Qwen-VL-Chat | 316.81 |\n| 5 | [LLaVA-1.5](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) | Vicuna-7B | 307.17 |\n| 6 | [InstructBLIP](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Finstructblip) | Vicuna-7B | 300.64 |\n| 7 | [InternLM-XComposer](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer) | InternLM-XComposer-7B | 288.89 |\n| 8 | [BLIP2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Fblip2) | FlanT5xl | 284.72 |\n| 9 | [BLIVA](https:\u002F\u002Fgithub.com\u002Fmlpc-ucsd\u002FBLIVA) | Vicuna-7B | 284.17 |\n| 10 | [Lynx](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Flynx-llm) | Vicuna-7B | 279.24 |\n| 11 | [Cheetah](https:\u002F\u002Fgithub.com\u002FDCDmllm\u002FCheetah) | Vicuna-7B | 258.91 |\n| 12 | [LLaMA-Adapter-v2](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FLLaMA-Adapter\u002Ftree\u002Fmain\u002Fllama_adapter_v2_multimodal7b) | LLaMA-7B | 229.16 |\n| 13 | [VPGTrans](https:\u002F\u002Fgithub.com\u002FVPGTrans\u002FVPGTrans) | Vicuna-7B | 218.91 |\n| 14 | [Otter-Image](https:\u002F\u002Fgithub.com\u002FLuodian\u002FOtter) | Otter-9B-LA-InContext | 216.43 |\n| 15 | [VisualGLM-6B](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FVisualGLM-6B) | VisualGLM-6B | 211.98 |\n| 16 | [mPLUG-Owl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl) | LLaMA-7B | 209.40 |\n| 17 | [LLaVA](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) | Vicuna-7B | 200.93 |\n| 18 | [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4) | Vicuna-7B | 192.62 |\n| 19 | [Otter](https:\u002F\u002Fgithub.com\u002FLuodian\u002FOtter) | Otter-9B | 180.87 |\n| 20 | [OFv2_4BI](https:\u002F\u002Fgithub.com\u002Fmlfoundations\u002Fopen_flamingo) | RedPajama-INCITE-Instruct-3B-v1 | 176.37 |\n| 21 | [PandaGPT](https:\u002F\u002Fgithub.com\u002Fyxuansu\u002FPandaGPT) | Vicuna-7B | 174.25 |\n| 22 | [LaVIN](https:\u002F\u002Fgithub.com\u002Fluogen1996\u002FLaVIN) | LLaMA-7B | 97.51 |\n| 23 | [MIC](https:\u002F\u002Fgithub.com\u002FHaozheZhao\u002FMIC) | FlanT5xl | 94.09 |\n\n\n\n\n## Update\n-  🔥 Mar. 31, 2024. We release OmniMedVQA, a large-scale comprehensive evaluation benchmark for medical LVLMs. Meanwhile, we 8 general-domain LVLMs and 4 medical-specialized LVLMs. For more details, please visit the [MedicalEval](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Ftree\u002Fmain\u002FMedicalEval).\n-  🔥 Oct. 16, 2023. We present an ability-level dataset split derived from the LVLM-eHub, complemented by the inclusion of eight recently released models. For access to the dataset splits, evaluation code, model inference results, and comprehensive performance tables, please visit the [tiny_lvlm_evaluation](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Ftree\u002Fmain\u002Ftiny_lvlm_evaluation) ✅.\n- Aug. 8, 2023. We released [**[Tiny LVLM-eHub]**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03729). Evaluation source codes and model inference results are open-sourced under [tiny_lvlm_evaluation](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Ftree\u002Fmain\u002Ftiny_lvlm_evaluation).\n- Jun. 15, 2023. We release [**[LVLM-eHub]**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09265), an evaluation benchmark for large vision-language models. The code is coming soon.\n- Jun. 8, 2023. Thanks, Dr. Zhang, the author of VPGTrans, for his corrections. The authors of VPGTrans mainly come from NUS and Tsinghua University. We previously had some minor issues when re-implementing VPGTrans, but we found that its performance is actually better. For more model authors, please contact me for discussion at the [Email](shaowenqi@pjlab.org.cn). Also, please follow our model ranking list, where more accurate results will be available.\n- May. 22, 2023. Thanks, Dr. Ye, the author of mPLUG-Owl, for his corrections. We fix some minor issues in our implementation of mPLIG-Owl.\n## Supported Multi-modality Models\n\nThe following models are involving in randomized battles currently,\n\n - [**KAUST\u002FMiniGPT-4**](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4)\n - [**Salesforce\u002FBLIP2**](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Fblip2)\n - [**Salesforce\u002FInstructBLIP**](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Finstructblip)\n - [**DAMO Academy\u002FmPLUG-Owl**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl)\n - [**NTU\u002FOtter**](https:\u002F\u002Fgithub.com\u002FLuodian\u002Fotter)\n - [**University of Wisconsin-Madison\u002FLLaVA**](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA)\n - [**Shanghai AI Lab\u002Fllama_adapter_v2**](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FLLaMA-Adapter\u002Ftree\u002Fmain\u002Fllama_adapter_v2_multimodal)\n - [**NUS\u002FVPGTrans**](https:\u002F\u002Fgithub.com\u002FVPGTrans\u002FVPGTrans)\n\nMore details about these models can be found at ```.\u002Fmodel_detail\u002F.model.jpg```. We will try to schedule computing resources to host more multi-modality models in the arena.\n\n## Contact US at Wechat\nIf you are interested in any pieces of our VLarena platform, feel free to join the Wechat group.\n \u003Cp  align=\"left\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_readme_40802423351c.jpeg\"  width=\"200\">\u003C\u002Fp>\n\n## Installation\n1. Create conda environment\n```bash\nconda create -n arena python=3.10\nconda activate arena\n```\n\n2. Install Packages required to run the controller and server\n```bash\npip install numpy gradio uvicorn fastapi\n```\n\n3. Then for each model, they may require conflicting versions of python packages, we recommend creating a specific environment for each model based on their GitHub repo.\n\n\n## Launch a Demo\n \nTo serve using the web UI, you need three main components: web servers that interface with users, model workers that host two or more models, and a controller to coordinate the webserver and model workers.\n\nHere are the commands to follow in your terminal:\n\n#### Launch the controller\n```bash\npython controller.py\n```\nThis controller manages the distributed workers.\n\n#### Launch the model worker(s)\n```bash\npython model_worker.py --model-name SELECTED_MODEL --device TARGET_DEVICE\n```\nWait until the process finishes loading the model and you see \"Uvicorn running on ...\". The model worker will register itself to the controller. For each model worker, you need to specify the model and the device you want to use.\n\n#### Launch the Gradio web server\n```bash\npython server_demo.py\n```\nThis is the user interface that users will interact with.\n\nBy following these steps, you will be able to serve your models using the web UI. You can open your browser and chat with a model now.\nIf the models do not show up, try to reboot the gradio web server.\n\n## Contribution Guidelines\nWe deeply value all contributions aimed at enhancing the quality of our evaluations. This section comprises two key segments: `Contributions to LVLM Evaluation` and `Contributions to LVLM Arena`.\n\n### Contributing to LVLM Evaluation\nYou can access the most recent version of our evaluation code in the LVLM_evaluation folder. This directory encompasses a comprehensive set of evaluation code, accompanied by the necessary datasets. If you're enthusiastic about partaking in the evaluation process, please don't hesitate to share your evaluation outcomes or the model inference API with us via email at xupeng@pjlab.org.cn.\n\n### Contributions to LVLM Arena\nWe extend our gratitude for your interest in integrating your model into our LVLM Arena! Should you wish to incorporate your model into our Arena, kindly prepare a model tester structured as follows:\n\n``` python\nclass ModelTester:\n    def __init__(self, device=None) -> None:\n        # TODO: initialization of model and required pre processors\n    \n    def move_to_device(self, device) -> None:\n        # TODO: this function is used to transfer the model between CPU and GPU (optional)\n    \n    def generate(self, image, question) -> str:\n       # TODO: model inference code \n```\n\nFurthermore, we are open to online model inference links, such as those provided by platforms like Gradio. Your contributions are wholeheartedly appreciated.\n\n## Acknowledgement\nWe express our gratitude to the esteemed team at [ChatBot Arena](https:\u002F\u002Farena.lmsys.org\u002F) and their paper [Judging LLM-as-a-judge](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.05685) for their influential work, which served as inspiration for our LVLM evaluation endeavors. We would also like to extend our sincere appreciation to the providers of LVLMs, whose valuable contributions have significantly contributed to the progress and advancement of large vision-language models. Finally, we thank the providers of datasets used in our LVLM-eHub.\n\n## Term of Use\nThe project is an experimental research tool for non-commercial purposes only. It has limited safeguards and may generate inappropriate content. It cannot be used for anything illegal, harmful, violent, racist, or sexual. \n","### 多模态竞技场 🚀\n\n  \n\n\u003Cp  align=\"center\">\u003Cimg  src=\".\u002FCVLAB\u002Fstyle\u002Fimg\u002FOpengvlab_LOGO.svg\"  width=\"400\">\u003C\u002Fp>\n\n  \n\n\n\n\u003C!-- ## Description -->\n\n**多模态竞技场** 是一个用于评估大型多模态模型的平台。仿照 [Fastchat](https:\u002F\u002Fchat.lmsys.org\u002F) 的模式，两个匿名模型在视觉问答任务上进行并排比较。我们发布了 [**演示**](http:\u002F\u002Fvlarena.opengvlab.com)，并欢迎所有人参与这一评估活动。\n\n[![⚔️ LVLM 竞技场](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLVLM%20Arena-blue.svg?label=%E2%9A%94%EF%B8%8F)](http:\u002F\u002Fvlarena.opengvlab.com)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLVLM%20eHub-2306.09265-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09265)\n[![arXiv](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTiny%20LVLM%20eHub-2308.03729-b31b1b.svg)](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03729)\n[![GitHub 星标](https:\u002F\u002Fimg.shields.io\u002Fgithub\u002Fstars\u002FOpenGVLab\u002FMulti-modality-Arena.svg?style=social&label=Star&maxAge=60)](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-modality-Arena)🔥🔥🔥\n                \n\n \u003Cp  align=\"center\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_readme_fbfe36b5252a.jpg\"  width=\"800\">\u003C\u002Fp>\n\n## 大型多模态模型的全面评估\n\n### OmniMedVQA：面向医学领域的全新大规模综合性评估基准\n- OmniMedVQA 数据集：包含 118,010 张图像和 127,995 个问答对，涵盖 12 种不同的模态，并涉及超过 20 个人体解剖部位。该数据集可从 [这里](https:\u002F\u002Fopenxlab.org.cn\u002Fdatasets\u002FGMAI\u002FOmniMedVQA) 下载。\n- 12 模型：8 个通用领域的大规模视觉语言模型和 4 个医学专用的大规模视觉语言模型。\n\n### Tiny LVLM-eHub：与 Bard 的早期多模态实验\n- 小规模数据集：每个数据集仅随机选取 50 个样本，即 42 个与文本相关的视觉基准测试，总计 2,100 个样本，便于使用。\n- 更多模型：新增 4 个模型，共计 12 个模型，其中包括 **Google Bard**。\n- *ChatGPT 集成评估*：相比之前的基于词语匹配的方法，与人工评估的一致性有所提高。\n\n\u003Cp  align=\"center\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_readme_27a5481c6e1f.png\"  width=\"500\">\u003C\u002Fp>\n\n### LVLM-eHub：大型视觉语言模型的评估基准 🚀\n\nLVLM-eHub 是一个针对公开可用的大型多模态模型（LVLM）的综合性评估基准。它通过 47 个数据集和 1 个在线竞技场平台，从 6 个多模态能力类别对 $8$ 个 LVLM 进行了全面评估。\n \u003Cp  align=\"center\">\u003Cimg  src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_readme_30e3c4f59409.png\"  width=\"800\">\u003C\u002Fp>\n\n## LVLM 排行榜\nLVLM 排行榜系统地将 Tiny LVLM 评估中的数据集按照其特定的目标能力进行分类，包括视觉感知、视觉推理、视觉常识、视觉知识获取以及对象幻觉等。该排行榜还包括近期发布的模型，以增强其全面性。\n\n您可以从 [这里](https:\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F1PuFC612XzOmKwzRldtBb1CFZnIjiR7we\u002Fview?usp=sharing) 下载该基准，更多详细信息请参见 [这里](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Ftree\u002Fmain\u002Ftiny_lvlm_evaluation)。\n\n| 排名 | 模型 | 版本 | 分数 |\n| :--: | :--: | :--: | :--: |\n| 🏅️ | **[InternVL](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FInternVL)** | InternVL-Chat | **327.61** |\n| 🥈 | **[InternLM-XComposer-VL](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer)** | InternLM-XComposer-VL-7B | **322.51** |\n| 🥉  | **[Bard](https:\u002F\u002Fbard.google.com\u002F)** | Bard | **319.59** |\n| 4 | [Qwen-VL-Chat](https:\u002F\u002Fgithub.com\u002FQwenLM\u002FQwen-VL) | Qwen-VL-Chat | 316.81 |\n| 5 | [LLaVA-1.5](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) | Vicuna-7B | 307.17 |\n| 6 | [InstructBLIP](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Finstructblip) | Vicuna-7B | 300.64 |\n| 7 | [InternLM-XComposer](https:\u002F\u002Fgithub.com\u002FInternLM\u002FInternLM-XComposer) | InternLM-XComposer-7B | 288.89 |\n| 8 | [BLIP2](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Fblip2) | FlanT5xl | 284.72 |\n| 9 | [BLIVA](https:\u002F\u002Fgithub.com\u002Fmlpc-ucsd\u002FBLIVA) | Vicuna-7B | 284.17 |\n| 10 | [Lynx](https:\u002F\u002Fgithub.com\u002Fbytedance\u002Flynx-llm) | Vicuna-7B | 279.24 |\n| 11 | [Cheetah](https:\u002F\u002Fgithub.com\u002FDCDmllm\u002FCheetah) | Vicuna-7B | 258.91 |\n| 12 | [LLaMA-Adapter-v2](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FLLaMA-Adapter\u002Ftree\u002Fmain\u002Fllama_adapter_v2_multimodal7b) | LLaMA-7B | 229.16 |\n| 13 | [VPGTrans](https:\u002F\u002Fgithub.com\u002FVPGTrans\u002FVPGTrans) | Vicuna-7B | 218.91 |\n| 14 | [Otter-Image](https:\u002F\u002Fgithub.com\u002FLuodian\u002FOtter) | Otter-9B-LA-InContext | 216.43 |\n| 15 | [VisualGLM-6B](https:\u002F\u002Fgithub.com\u002FTHUDM\u002FVisualGLM-6B) | VisualGLM-6B | 211.98 |\n| 16 | [mPLUG-Owl](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl) | LLaMA-7B | 209.40 |\n| 17 | [LLaVA](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA) | Vicuna-7B | 200.93 |\n| 18 | [MiniGPT-4](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4) | Vicuna-7B | 192.62 |\n| 19 | [Otter](https:\u002F\u002Fgithub.com\u002FLuodian\u002FOtter) | Otter-9B | 180.87 |\n| 20 | [OFv2_4BI](https:\u002F\u002Fgithub.com\u002Fmlfoundations\u002Fopen_flamingo) | RedPajama-INCITE-Instruct-3B-v1 | 176.37 |\n| 21 | [PandaGPT](https:\u002F\u002Fgithub.com\u002Fyxuansu\u002FPandaGPT) | Vicuna-7B | 174.25 |\n| 22 | [LaVIN](https:\u002F\u002Fgithub.com\u002Fluogen1996\u002FLaVIN) | LLaMA-7B | 97.51 |\n| 23 | [MIC](https:\u002F\u002Fgithub.com\u002FHaozheZhao\u002FMIC) | FlanT5xl | 94.09 |\n\n\n\n\n## 更新\n-  🔥 2024年3月31日。我们发布了 OmniMedVQA，这是一个面向医学领域 LVLM 的大规模综合性评估基准。同时，我们评估了 8 个通用领域的大规模视觉语言模型和 4 个医学专用的大规模视觉语言模型。更多详情请访问 [MedicalEval](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Ftree\u002Fmain\u002FMedicalEval)。\n-  🔥 2023年10月16日。我们提出了基于 LVLM-eHub 的能力级别数据集划分，并补充纳入了八款近期发布的新模型。如需访问数据集划分、评估代码、模型推理结果及综合性能表格，请前往 [tiny_lvlm_evaluation](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Ftree\u002Fmain\u002Ftiny_lvlm_evaluation) ✅。\n- 2023年8月8日。我们发布了 [**[Tiny LVLM-eHub]**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2308.03729)。评估源代码和模型推理结果已在 [tiny_lvlm_evaluation](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Ftree\u002Fmain\u002Ftiny_lvlm_evaluation) 中开源。\n- 2023年6月15日。我们发布了 [**[LVLM-eHub]**](https:\u002F\u002Farxiv.org\u002Fabs\u002F2306.09265)，这是一个用于评估大型视觉语言模型的基准。相关代码即将发布。\n- 2023年6月8日。感谢 VPGTrans 的作者张博士提出的修正意见。VPGTrans 的主要作者来自新加坡国立大学和清华大学。我们在重新实现 VPGTrans 时曾遇到一些小问题，但后来发现其实际性能更好。如需了解更多关于其他模型作者的信息，请通过 [邮箱](shaowenqi@pjlab.org.cn) 与我联系讨论。同时，请关注我们的模型排名列表，那里将提供更准确的结果。\n- 2023年5月22日。感谢 mPLUG-Owl 的作者叶博士提出的修正意见。我们已修复了在实现 mPLIG-Owl 时的一些小问题。\n\n## 支持的多模态模型\n\n目前参与随机对抗赛的模型如下：\n\n- [**KAUST\u002FMiniGPT-4**](https:\u002F\u002Fgithub.com\u002FVision-CAIR\u002FMiniGPT-4)\n- [**Salesforce\u002FBLIP2**](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Fblip2)\n- [**Salesforce\u002FInstructBLIP**](https:\u002F\u002Fgithub.com\u002Fsalesforce\u002FLAVIS\u002Ftree\u002Fmain\u002Fprojects\u002Finstructblip)\n- [**DAMO Academy\u002FmPLUG-Owl**](https:\u002F\u002Fgithub.com\u002FX-PLUG\u002FmPLUG-Owl)\n- [**NTU\u002FOtter**](https:\u002F\u002Fgithub.com\u002FLuodian\u002Fotter)\n- [**威斯康星大学麦迪逊分校\u002FLLaVA**](https:\u002F\u002Fgithub.com\u002Fhaotian-liu\u002FLLaVA)\n- [**上海人工智能实验室\u002Fllama_adapter_v2**](https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FLLaMA-Adapter\u002Ftree\u002Fmain\u002Fllama_adapter_v2_multimodal)\n- [**新加坡国立大学\u002FVPGTrans**](https:\u002F\u002Fgithub.com\u002FVPGTrans\u002FVPGTrans)\n\n关于这些模型的更多详细信息，请参阅 ```.\u002Fmodel_detail\u002F.model.jpg```。我们将会尽力安排计算资源，以在竞技场中支持更多多模态模型。\n\n## 微信联系我们\n如果您对我们的VLarena平台有任何兴趣，欢迎加入我们的微信群。\n\u003Cp align=\"left\">\u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_readme_40802423351c.jpeg\" width=\"200\">\u003C\u002Fp>\n\n## 安装说明\n1. 创建Conda环境\n```bash\nconda create -n arena python=3.10\nconda activate arena\n```\n\n2. 安装运行控制器和服务器所需的包\n```bash\npip install numpy gradio uvicorn fastapi\n```\n\n3. 由于每个模型可能需要不同版本的Python包，我们建议根据各自的GitHub仓库为每个模型创建专用的环境。\n\n## 启动演示\n\n要通过Web界面提供服务，您需要三个主要组件：与用户交互的Web服务器、承载两个或多个模型的模型工作节点，以及用于协调Web服务器和模型工作节点的控制器。\n\n请在终端中按照以下步骤操作：\n\n#### 启动控制器\n```bash\npython controller.py\n```\n该控制器负责管理分布式的工作节点。\n\n#### 启动模型工作节点\n```bash\npython model_worker.py --model-name SELECTED_MODEL --device TARGET_DEVICE\n```\n等待进程完成模型加载，直到看到“Uvicorn running on ...”的提示。此时，模型工作节点将自动注册到控制器上。对于每个模型工作节点，您需要指定模型名称和目标设备。\n\n#### 启动Gradio Web服务器\n```bash\npython server_demo.py\n```\n这是用户与模型交互的界面。\n\n按照上述步骤操作后，您就可以通过Web界面使用您的模型了。现在您可以打开浏览器，与模型进行对话。如果模型未显示出来，请尝试重启Gradio Web服务器。\n\n## 贡献指南\n我们非常重视所有旨在提升评估质量的贡献。本节分为两个部分：“LVLM评估贡献”和“LVLM竞技场贡献”。\n\n### 参与LVLM评估\n您可以在LVLM_evaluation文件夹中找到最新版本的评估代码。该目录包含完整的评估代码及所需的数据集。如果您希望参与评估工作，请随时通过电子邮件xupeng@pjlab.org.cn与我们分享您的评估结果或模型推理API。\n\n### 参与LVLM竞技场\n我们感谢您有意将自己的模型接入我们的LVLM竞技场！如需将您的模型整合进竞技场，请准备一个如下所示的模型测试器：\n\n```python\nclass ModelTester:\n    def __init__(self, device=None) -> None:\n        # TODO: 初始化模型及必要的预处理流程\n    \n    def move_to_device(self, device) -> None:\n        # TODO: 此函数用于在CPU和GPU之间切换模型（可选）\n    \n    def generate(self, image, question) -> str:\n       # TODO: 模型推理代码 \n```\n\n此外，我们也接受在线模型推理链接，例如由Gradio等平台提供的链接。我们衷心感谢您的贡献。\n\n## 致谢\n我们衷心感谢[ChatBot Arena](https:\u002F\u002Farena.lmsys.org\u002F)团队及其论文《Judging LLM-as-a-judge》（arXiv:2306.05685），他们的工作对我们开展LVLM评估提供了重要启发。同时，我们也向LVLM的提供者们致以诚挚的谢意，正是他们的宝贵贡献推动了大型视觉语言模型的发展与进步。最后，感谢为我们LVLM-eHub所用数据集提供方的支持。\n\n## 使用条款\n本项目仅为非商业用途的实验性研究工具。其安全防护措施有限，可能会生成不当内容。严禁将其用于任何非法、有害、暴力、种族歧视或色情相关的行为。","# Multi-Modality Arena 快速上手指南\n\nMulti-Modality Arena 是一个用于评估大型多模态模型（LVLM）的平台。它借鉴了 FastChat 的模式，通过并排对比两个匿名模型在视觉问答任务中的表现来进行评估。本指南将帮助您快速在本地部署该平台的演示环境。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**: Linux 或 macOS (Windows 需使用 WSL2)\n*   **Python 版本**: 3.10 (强烈推荐)\n*   **硬件**: 具备 CUDA 支持的 NVIDIA GPU（用于运行模型推理），显存大小取决于您打算加载的模型参数量。\n*   **依赖管理**: 已安装 `conda` 或 `mamba`。\n\n> **提示**：国内用户建议在创建环境和安装 pip 包时使用清华源或阿里源以加速下载。\n\n## 安装步骤\n\n### 1. 创建 Conda 环境\n首先创建一个独立的 Python 3.10 环境并激活它：\n\n```bash\nconda create -n arena python=3.10\nconda activate arena\n```\n\n### 2. 安装核心依赖\n安装运行控制器（Controller）和服务器（Server）所需的基础包：\n\n```bash\npip install numpy gradio uvicorn fastapi\n```\n\n### 3. 配置模型环境\n由于不同的多模态模型（如 LLaVA, MiniGPT-4, BLIP2 等）往往依赖冲突的第三方库版本，**强烈建议为每个需要运行的模型单独创建独立的 Conda 环境**，并依据其官方 GitHub 仓库的说明安装特定依赖。\n\n例如，若要运行 LLaVA，请在另一个终端窗口创建名为 `llava_env` 的环境并安装其依赖；若要运行 MiniGPT-4，则创建 `minigpt4_env`。\n\n## 基本使用\n\n启动演示平台需要三个主要组件协同工作：**控制器**（协调调度）、**模型工作节点**（加载并运行模型）和 **Web 服务器**（用户交互界面）。请按顺序在终端中执行以下步骤。\n\n### 第一步：启动控制器\n在一个终端窗口中运行以下命令，它将管理分布式的模型工作节点：\n\n```bash\npython controller.py\n```\n\n保持该窗口运行，不要关闭。\n\n### 第二步：启动模型工作节点\n打开新的终端窗口，激活您为目标模型配置好的独立环境，然后运行以下命令。请替换 `SELECTED_MODEL` 为您要加载的模型名称，`TARGET_DEVICE` 为您的设备（如 `cuda:0`）：\n\n```bash\npython model_worker.py --model-name SELECTED_MODEL --device TARGET_DEVICE\n```\n\n等待输出显示 \"Uvicorn running on ...\"，表示模型已成功加载并向控制器注册。您可以重复此步骤启动多个不同的模型工作节点以进行对比。\n\n### 第三步：启动 Web 演示界面\n打开第三个终端窗口（确保处于主 `arena` 环境中），运行以下命令启动用户交互界面：\n\n```bash\npython server_demo.py\n```\n\n### 开始体验\n当上述三个组件均正常运行后，打开浏览器访问终端中显示的地址（通常为 `http:\u002F\u002Flocalhost:7860` 或类似端口）。您将看到类似 ChatBot Arena 的界面，可以上传图片并提出问题，系统会随机分配两个模型生成回答供您对比评分。\n\n> **注意**：如果界面上未显示模型，请尝试重启 Gradio Web 服务器（第三步）。","某医疗 AI 研发团队正在为远程诊断系统筛选最精准的视觉语言模型，需要处理包含 X 光、CT 及病理切片等多模态医学影像的复杂问答任务。\n\n### 没有 Multi-Modality-Arena 时\n- **评估维度单一**：团队只能依赖纯文本指标或简单的图像分类准确率，无法全面衡量模型在“视觉推理”和“医学常识”等深层能力上的表现。\n- **对比效率低下**：若要测试 MiniGPT-4、LLaVA 和 BLIP-2 等多个候选模型，需分别搭建独立环境并手动编写脚本，耗时数天且难以保证输入条件完全一致。\n- **缺乏真实场景验证**：离线测试集往往过于理想化，无法模拟医生在实际诊疗中提出的模糊或非标准化问题，导致模型上线后出现“幻觉”或误诊。\n- **决策依据不足**：面对不同模型在特定解剖区域（如肺部结节 vs. 骨骼骨折）的表现差异，缺乏统一的排行榜数据支持选型决策。\n\n### 使用 Multi-Modality-Arena 后\n- **全景能力画像**：利用内置的 OmniMedVQA 基准，团队一键获得了模型在 12 种影像模态和 20+ 人体区域的细粒度评分，清晰识别出各模型的强项与短板。\n- **并排竞技评测**：通过匿名侧边栏对比功能，研究人员在同一界面同时输入相同的病理图片和问题，直观观察 InternVL 与 Bard 等模型的回答差异，将评估周期从数天缩短至几小时。\n- **贴近实战的反馈**：平台提供的“视觉幻觉”检测和人机对齐评估机制，帮助团队提前发现模型在描述病灶时的虚构问题，显著提升了系统的临床可靠性。\n- **数据驱动选型**：参考 LVLM Leaderboard 中针对医疗场景的权威排名，团队迅速锁定了在医学专用任务上得分最高的 InternVL 作为核心基座，降低了试错成本。\n\nMulti-Modality-Arena 通过标准化的多模态竞技场机制，将原本碎片化、高成本的模型筛选过程转化为高效、可视化的数据决策流程，确保了医疗 AI 系统在复杂视觉任务中的卓越表现。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FOpenGVLab_Multi-Modality-Arena_fbfe36b5.jpg","OpenGVLab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FOpenGVLab_4422f20f.jpg","General Vision Team of Shanghai AI Laboratory",null,"opengvlab@gmail.com","opengvlab","https:\u002F\u002Fgithub.com\u002FOpenGVLab",[85,89,93,97,100],{"name":86,"color":87,"percentage":88},"Python","#3572A5",99.1,{"name":90,"color":91,"percentage":92},"JavaScript","#f1e05a",0.7,{"name":94,"color":95,"percentage":96},"CSS","#663399",0.1,{"name":98,"color":99,"percentage":96},"HTML","#e34c26",{"name":101,"color":102,"percentage":103},"Shell","#89e051",0,560,39,"2026-04-09T02:11:54",4,"未说明","必需 (根据 model_worker.py 的 --device 参数及多模态大模型特性推断，通常需 NVIDIA GPU)，具体型号和显存大小未说明",{"notes":111,"python":112,"dependencies":113},"由于不同模型可能依赖冲突的 Python 包版本，官方建议为每个模型单独创建独立的 Conda 环境。运行架构包含控制器 (controller)、模型工作节点 (model_worker) 和 Gradio Web 服务器 (server_demo) 三个组件。该项目仅限非商业用途的实验研究。","3.10",[114,115,116,117],"numpy","gradio","uvicorn","fastapi",[15],[120,121,122,115,123,124,125,126,127],"chat","chatbot","chatgpt","large-language-models","llms","vqa","multi-modality","vision-language-model","2026-03-27T02:49:30.150509","2026-04-10T15:43:06.503023",[131,136,141,146,151,155],{"id":132,"question_zh":133,"answer_zh":134,"source_url":135},27882,"如何查看最新的多模态聊天机器人排行榜？","多模态聊天机器人竞技场排行榜已发布，您可以访问 http:\u002F\u002Fvlarena.opengvlab.com\u002F 并在 LVLM 排行榜标签页中查看。作为持续努力的一部分，我们将定期更新该排行榜。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Fissues\u002F3",{"id":137,"question_zh":138,"answer_zh":139,"source_url":140},27883,"用户是否可以提交自己的评估结果到基准测试中？","是的，最新的代码位于 LVLM_evaluation 文件夹中，包含完整的评估代码和必要的数据集。如果您有兴趣参与评估，请通过电子邮件 (xupeng@pjlab.org.cn) 与我们分享您的评估结果或模型推理 API。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Fissues\u002F4",{"id":142,"question_zh":143,"answer_zh":144,"source_url":145},27884,"如何避免在对话中出现 \"AI:\" 或 \"Assistant:\" 的信号泄露问题？","建议使用以下提示词（prompt）和最新代码库来避免该问题：\n```python\nprompt = '''The following is a conversation between a curious human and AI assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.\nHuman: \u003Cimage>\nHuman: {}\nAI: '''.format(question)\n```","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Fissues\u002F1",{"id":147,"question_zh":148,"answer_zh":149,"source_url":150},27885,"VPGTrans 的演示结果与官方文档不一致是什么原因？","这是一个已发现的 Bug，原因是 VPGTrans 中误用了 MiniGPT4 的对话函数。该问题已被修复，请使用修正后的代码。","https:\u002F\u002Fgithub.com\u002FOpenGVLab\u002FMulti-Modality-Arena\u002Fissues\u002F2",{"id":152,"question_zh":153,"answer_zh":154,"source_url":145},27886,"mPLUG-Owl 模型更新后，在线竞技场演示是否会同步更新？","是的，收到关于 mPLUG-Owl 更新（包括 lora 和 ft 两种检查点）的建议后，维护者已根据建议更新了竞技场演示。",{"id":156,"question_zh":157,"answer_zh":158,"source_url":150},27887,"如果发现 VPGTrans 相关的问题或需要调试帮助，如何联系作者？","如果官方演示网站 (https:\u002F\u002Fvpgtrans.github.io\u002F) 无法访问或需要进一步调试，可以直接发送邮件至 zhanga6@outlook.com 联系第一作者获取帮助。",[]]