[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-MoonshotAI--Kimi-K2.5":3,"tool-MoonshotAI--Kimi-K2.5":64},[4,17,27,35,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":10,"last_commit_at":41,"category_tags":42,"status":16},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[13,14,15,43],"视频",{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":23,"last_commit_at":50,"category_tags":51,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":23,"last_commit_at":58,"category_tags":59,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,60,43,61,15,62,26,13,63],"数据工具","插件","其他","音频",{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":79,"stars":82,"forks":83,"last_commit_at":84,"license":85,"difficulty_score":86,"env_os":78,"env_gpu":87,"env_ram":87,"env_deps":88,"category_tags":91,"github_topics":79,"view_count":23,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":92,"updated_at":93,"faqs":94,"releases":95},4160,"MoonshotAI\u002FKimi-K2.5","Kimi-K2.5","Moonshot's most powerful model","Kimi-K2.5 是月之暗面推出的最强开源多模态智能体模型。它基于约 15 万亿视觉与文本混合令牌持续预训练而成，旨在解决复杂任务中视觉理解、代码生成及多步骤自主执行的难题。不同于传统单一模型，Kimi-K2.5 能直接将 UI 设计图或视频工作流转化为可执行代码，并自主调用工具处理视觉数据。\n\n其核心亮点在于独特的“智能体群”（Agent Swarm）架构：面对复杂需求时，它能将任务拆解为多个子任务，动态创建并协调多个领域专用的智能体并行处理，从而实现从单兵作战到群体协作的跨越。模型采用混合专家（MoE）架构，总参数量达 1 万亿，但每次推理仅激活 320 亿参数，兼具强大的性能与高效的运行速度，同时支持 256K 超长上下文和原生多模态输入。\n\n这款模型非常适合开发者构建复杂的自动化应用、研究人员探索多模态智能体协作机制，以及需要处理高难度视觉 - 语言任务的专业人士。对于希望体验顶尖开源模型能力的技术爱好者而言，Kimi-K2.5 也提供了宝贵的实践资源。","\u003Cdiv align=\"center\">\n  \u003Cpicture>\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Kimi-K2.5_readme_4733a3fd6ea5.png\" width=\"30%\" alt=\"Kimi K2.5\">\n  \u003C\u002Fpicture>\n\u003C\u002Fdiv>\n\u003Chr>\n\u003Cdiv align=\"center\" style=\"line-height:1\">\n  \u003Ca href=\"https:\u002F\u002Fwww.kimi.com\" target=\"_blank\">\u003Cimg alt=\"Chat\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤖%20Chat-Kimi%20K2.5-ff6b6b?color=1783ff&logoColor=white\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.moonshot.ai\" target=\"_blank\">\u003Cimg alt=\"Homepage\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHomepage-Moonshot%20AI-white?logo=Kimi&logoColor=white\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\" style=\"line-height: 1;\">\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\" target=\"_blank\">\u003Cimg alt=\"Hugging Face\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Moonshot%20AI-ffc107?color=ffc107&logoColor=white\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fkimi_moonshot\" target=\"_blank\">\u003Cimg alt=\"Twitter Follow\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-Kimi.ai-white?logo=x&logoColor=white\"\u002F>\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FTYU2fdJykW\" target=\"_blank\">\u003Cimg alt=\"Discord\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Kimi.ai-white?logo=discord&logoColor=white\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\" style=\"line-height: 1;\">\n  \u003Ca href=\"LICENSE\">\u003Cimg alt=\"License\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Modified_MIT-f5de53?&color=f5de53\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n\u003Cb>📰&nbsp;&nbsp;\u003Ca href=\"https:\u002F\u002Fwww.kimi.com\u002Fblog\u002Fkimi-k2-5.html\">Tech Blog\u003C\u002Fa>\u003C\u002Fb> | &nbsp;&nbsp;&nbsp; \u003Cb>📄&nbsp;&nbsp;\u003Ca href=\"tech_report.pdf\">Full Report\u003C\u002Fa>\u003C\u002Fb>\n\u003C\u002Fp>\n\n## 1. Model Introduction\n\nKimi K2.5 is an open-source, native multimodal agentic model built through continual pretraining on approximately 15 trillion mixed visual and text tokens atop Kimi-K2-Base. It seamlessly integrates vision and language understanding with advanced agentic capabilities, instant and thinking modes, as well as conversational and agentic paradigms.\n\n### Key Features\n- **Native Multimodality**: Pre-trained on vision–language tokens, K2.5 excels in visual knowledge, cross-modal reasoning, and agentic tool use grounded in visual inputs.\n- **Coding with Vision**: K2.5 generates code from visual specifications (UI designs, video workflows) and autonomously orchestrates tools for visual data processing.\n- **Agent Swarm**: K2.5 transitions from single-agent scaling to a self-directed, coordinated swarm-like execution scheme. It decomposes complex tasks into parallel sub-tasks executed by dynamically instantiated, domain-specific agents.\n\n## 2. Model Summary\n\n\u003Cdiv align=\"center\">\n\n\n| | |\n|:---:|:---:|\n| **Architecture** | Mixture-of-Experts (MoE) |\n| **Total Parameters** | 1T |\n| **Activated Parameters** | 32B |\n| **Number of Layers** (Dense layer included) | 61 |\n| **Number of Dense Layers** | 1 |\n| **Attention Hidden Dimension** | 7168 |\n| **MoE Hidden Dimension** (per Expert) | 2048 |\n| **Number of Attention Heads** | 64 |\n| **Number of Experts** | 384 |\n| **Selected Experts per Token** | 8 |\n| **Number of Shared Experts** | 1 |\n| **Vocabulary Size** | 160K |\n| **Context Length** | 256K |\n| **Attention Mechanism** | MLA |\n| **Activation Function** | SwiGLU |\n| **Vision Encoder** | MoonViT |\n| **Parameters of Vision Encoder** | 400M |\n\u003C\u002Fdiv>\n\n## 3. Evaluation Results\n\n\n\n\u003Cdiv align=\"center\">\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth align=\"center\">Benchmark\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>Kimi K2.5\u003Cbr>\u003Csup>(Thinking)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>GPT-5.2 \u003Cbr>\u003Csup>(xhigh)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>Claude 4.5 Opus \u003Cbr>\u003Csup>(Extended Thinking)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>Gemini 3 Pro \u003Cbr>\u003Csup>(High Thinking Level)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>DeepSeek V3.2 \u003Cbr>\u003Csup>(Thinking)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>Qwen3-VL-\u003Cbr>235B-A22B-\u003Cbr>Thinking\u003C\u002Fsup>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\n\u003Ctd align=\"center\" colspan=8>\u003Cstrong>Reasoning &amp; Knowledge\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">HLE-Full\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">30.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">34.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">30.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">37.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">25.1\u003Csup>†\u003C\u002Fsup>\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">HLE-Full\u003Cbr>(w\u002F tools)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">50.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">45.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">43.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">45.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">40.8\u003Csup>†\u003C\u002Fsup>\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">AIME 2025\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">96.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">100\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">95.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">93.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">HMMT 2025 (Feb)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">95.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">99.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.9*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">97.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">IMO-AnswerBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">81.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">78.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">83.1*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">78.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">GPQA-Diamond\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">91.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MMLU-Pro\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">89.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">90.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" colspan=8>\u003Cstrong>Image &amp; Video\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MMMU-Pro\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">78.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">79.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">74.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">81.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">69.3\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">CharXiv (RQ)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">67.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">81.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">66.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MathVision\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">84.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">83.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.1*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.1*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">74.6\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MathVista (mini)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">90.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.8*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">89.8*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.8\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">ZeroBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">9*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">8*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">4*\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">ZeroBench\u003Cbr>(w\u002F tools)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">11\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">9*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">12*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">3*\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">OCRBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">90.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.5\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">OmniDocBench 1.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">88.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.7\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">88.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.0*\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">InfoVQA (val)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">84*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.9*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">57.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">89.5\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SimpleVQA\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">71.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">55.8*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">69.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">69.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">56.8*\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FWorldVQA\">WorldVQA\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">46.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">28.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">36.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">47.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">23.5\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">VideoMMMU\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">84.4*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.0\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MMVU\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.8*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">71.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MotionBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">70.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">64.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">60.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">70.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">VideoMME\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.0*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">88.4*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">79.0\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">LongVideoBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">79.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">67.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">65.6*\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">LVBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">75.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">73.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">63.6\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" colspan=8>\u003Cstrong>Coding\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SWE-Bench Verified\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">73.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SWE-Bench Pro\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">50.7\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">55.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">55.4*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SWE-Bench Multilingual\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">73.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">72.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">65.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">70.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">Terminal Bench 2.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">50.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">54.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">59.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">54.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">46.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">PaperBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">63.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">63.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">72.9*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">47.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">CyberGym\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">41.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">50.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">39.9*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">17.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SciCode\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">48.7\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">52.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">49.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">56.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">38.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">OJBench (cpp)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">57.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">54.6*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">68.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">54.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">LiveCodeBench (v6)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.4*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">83.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" colspan=8>\u003Cstrong>Long Context\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">Longbench v2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">61.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">54.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">64.4*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">68.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">59.8*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">AA-LCR\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">70.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">72.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">71.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">65.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">64.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctr>\n\u003Ctd align=\"center\" colspan=8>\u003Cstrong>Agentic Search\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">BrowseComp\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">60.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\" rowspan=\"2\">65.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">37.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">37.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">51.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">BrowseComp\u003Cbr>(w\u002Fctx manage)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">74.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">57.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">59.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">67.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">BrowseComp\u003Cbr>(Agent Swarm)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">78.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">WideSearch\u003Cbr> (item-f1)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">72.7\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">57.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">32.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">WideSearch\u003Cbr> (item-f1 Agent Swarm)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">79.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">DeepSearchQA\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">71.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.1*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">63.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">60.9*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">FinSearchCompT2&T3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">67.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">66.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">49.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">59.1*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">Seal-0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">57.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">45.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">47.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">45.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">49.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>Footnotes\u003C\u002Fb>\u003C\u002Fsummary>\n\n1. General Testing Details\n   - We report results for Kimi K2.5 and DeepSeek-V3.2 with thinking mode enabled, Claude Opus 4.5 with extended thinking mode, GPT-5.2 with xhigh reasoning effort, and Gemini 3 Pro with a high thinking level. For vision benchmarks, we additionally report results for Qwen3-VL-235B-A22B-Thinking.\n   - Unless otherwise specified, all Kimi K2.5 experiments were conducted with temperature = 1.0, top-p = 0.95, and a context length of 256k tokens.\n   - Benchmarks without publicly available scores were re-evaluated under the same conditions used for Kimi K2.5 and are marked with an asterisk (*).\n   - We could not evaluate GPT-5.2 xhigh on all benchmarks due to service stability issues. For benchmarks that were not tested, we mark them as \"-\".\n2. Text and Reasoning\n   - HLE, AIME 2025, HMMT 2025 (Feb), and GPQA-Diamond were evaluated with a maximum completion budget of 96k tokens.\n   - Results for AIME and HMMT are averaged over 32 runs (avg@32); GPQA-Diamond over 8 runs (avg@8).\n   - For HLE, we report scores on the full set (text & image). Kimi K2.5 scores 31.5 (text) and 21.3 (image) without tools, and 51.8 (text) and 39.8 (image) with tools. The DeepSeek-V3.2 score corresponds to its text-only subset (marked with †) . Hugging Face access was blocked to prevent potential data leakage. HLE with tools uses simple context management: once the context exceeds a threshold, only the latest round of tool messages is retained.\n3. Tool-Augmented \u002F Agentic Search\n   - Kimi K2.5 was equipped with search, code-interpreter, and web-browsing tools for HLE with tools and all agentic search benchmarks.\n   - Except for BrowseComp (where K2.5 and DeepSeek-V3.2 used the discard-all strategy), no context management was applied, and tasks exceeding the supported context length were directly counted as failed.\n   - The test system prompts emphasize deep and proactive tool use, instructing models to reason carefully, leverage tools, and verify uncertain information. Full prompts will be provided in the technical report.\n   - Results for Seal-0 and WideSearch are averaged over four runs (avg@4).\n4. Vision Benchmarks\n   - Max-tokens = 64k, averaged over three runs (avg@3).\n   - ZeroBench (w\u002F tools) uses max-tokens-per-step = 24k and max-steps = 30 for multi-step reasoning.\n   - MMMU-Pro follows the official protocol, preserving input order and prepending images.\n   - GPT-5.2-xhigh had ~10% failure rate (no output despite 3 retries), treated as incorrect; reported scores likely underestimate true performance.\n   - WorldVQA, a benchmark designed to evaluate atomic vision-centric world knowledge. Access WorldVQA at https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FWorldVQA.\n   - OmniDocBench Score is computed as (1 − normalized Levenshtein distance) × 100, where a higher score denotes superior accuracy.\n5. Coding Tasks\n   - Terminal-Bench 2.0 scores were obtained with the default agent framework (Terminus-2) and the provided JSON parser. In our implementation, we evaluated Terminal-Bench 2.0 under non-thinking mode. This choice was made because our current context management strategy for the thinking mode is incompatible with Terminus-2.\n   - For the SWE-Bench series of evaluations (including verified, multilingual, and pro), we used an internally developed evaluation framework. This framework includes a minimal set of tools—bash tool, createfile tool, insert tool, view tool, strreplace tool, and submit tool—along with tailored system prompts designed for the tasks. The highest scores were achieved under non-thinking mode.\n   - The score of Claude Opus 4.5 on CyberGym is reported under the non-thinking setting.\n   - All reported scores of coding tasks are averaged over 5 independent runs.\n6. Long-Context Benchmarks\n   - AA-LCR: scores averaged over three runs (avg@3).\n   - LongBench-V2: identical prompts and input contexts standardized to ~128k tokens.\n7. Agent Swarm\n   - BrowseComp (Swarm Mode): main agent max 15 steps; sub-agents max 100 steps.\n   - WideSearch (Swarm Mode): main and sub-agents max 100 steps.\n\n\u003C\u002Fdetails>\n\n## 4. Native INT4 Quantization\nKimi-K2.5 adopts the same native int4 quantization method as [Kimi-K2-Thinking](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2-Thinking#4-native-int4-quantization).\n\n## 5. Deployment\n> [!Note]\n> You can access Kimi-K2.5's API on https:\u002F\u002Fplatform.moonshot.ai and we provide OpenAI\u002FAnthropic-compatible API for you. To verify the deployment is correct, we also provide the  [Kimi Vendor Verifier](https:\u002F\u002Fkimi.com\u002Fblog\u002Fkimi-vendor-verifier.html).\nCurrently, Kimi-K2.5 is recommended to run on the following inference engines:\n* vLLM\n* SGLang\n* KTransformers\n\nThe minimum version requirement for `transformers` is `4.57.1`.\n\nDeployment examples can be found in the [Model Deployment Guide](docs\u002Fdeploy_guidance.md).\n\n\n---\n## 6. Model Usage\n\nThe usage demos below demonstrate how to call our official API.\n\nFor third-party APIs deployed with vLLM or SGLang, please note that:\n> [!Note]\n> - Chat with video content is an experimental feature and is only supported in our official API for now.\n>\n> - The recommended `temperature` will be `1.0` for Thinking mode and `0.6` for Instant mode.\n>\n> - The recommended `top_p` is `0.95`.\n>\n> - To use instant mode, you need to pass `{'chat_template_kwargs': {\"thinking\": False}}` in `extra_body`.\n\n### Chat Completion\n\nThis is a simple chat completion script which shows how to call K2.5 API in Thinking and Instant modes.\n\n```python\nimport openai\nimport base64\nimport requests\ndef simple_chat(client: openai.OpenAI, model_name: str):\n    messages = [\n        {'role': 'system', 'content': 'You are Kimi, an AI assistant created by Moonshot AI.'},\n        {\n            'role': 'user',\n            'content': [\n                {'type': 'text', 'text': 'which one is bigger, 9.11 or 9.9? think carefully.'}\n            ],\n        },\n    ]\n    response = client.chat.completions.create(\n        model=model_name, messages=messages, stream=False, max_tokens=4096\n    )\n    print('====== Below is reasoning_content in Thinking Mode ======')\n    print(f'reasoning content: {response.choices[0].message.reasoning_content}')\n    print('====== Below is response in Thinking Mode ======')\n    print(f'response: {response.choices[0].message.content}')\n\n    # To use instant mode, pass {\"thinking\" = {\"type\":\"disabled\"}}\n    response = client.chat.completions.create(\n        model=model_name,\n        messages=messages,\n        stream=False,\n        max_tokens=4096,\n        extra_body={'thinking': {'type': 'disabled'}},  # this is for official API\n        # extra_body= {'chat_template_kwargs': {\"thinking\": False}}  # this is for vLLM\u002FSGLang\n    )\n    print('====== Below is response in Instant Mode ======')\n    print(f'response: {response.choices[0].message.content}')\n```\n\n\n### Chat Completion with visual content\n\nK2.5 supports Image and Video input.\n\nThe following example demonstrates how to call K2.5 API with image input:\n\n```python\nimport openai\nimport base64\nimport requests\n\ndef chat_with_image(client: openai.OpenAI, model_name: str):\n    url = 'https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2.5\u002Fresolve\u002Fmain\u002Fhttps:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Kimi-K2.5_readme_4733a3fd6ea5.png'\n    image_base64 = base64.b64encode(requests.get(url).content).decode()\n    messages = [\n        {\n            'role': 'user',\n            'content': [\n                {'type': 'text', 'text': 'Describe this image in detail.'},\n                {\n                    'type': 'image_url',\n                    'image_url': {'url': f'data:image\u002Fpng;base64, {image_base64}'},\n                },\n            ],\n        }\n    ]\n\n    response = client.chat.completions.create(\n        model=model_name, messages=messages, stream=False, max_tokens=8192\n    )\n    print('====== Below is reasoning_content in Thinking Mode ======')\n    print(f'reasoning content: {response.choices[0].message.reasoning_content}')\n    print('====== Below is response in Thinking Mode ======')\n    print(f'response: {response.choices[0].message.content}')\n\n    # Also support instant mode if you pass {\"thinking\" = {\"type\":\"disabled\"}}\n    response = client.chat.completions.create(\n        model=model_name,\n        messages=messages,\n        stream=False,\n        max_tokens=4096,\n        extra_body={'thinking': {'type': 'disabled'}},  # this is for official API\n        # extra_body= {'chat_template_kwargs': {\"thinking\": False}}  # this is for vLLM\u002FSGLang\n    )\n    print('====== Below is response in Instant Mode ======')\n    print(f'response: {response.choices[0].message.content}')\n\n    return response.choices[0].message.content\n```\n\nThe following example demonstrates how to call K2.5 API with video input:\n\n```python\nimport openai\nimport base64\nimport requests\n\ndef chat_with_video(client: openai.OpenAI, model_name:str):\n    url = 'https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2.5\u002Fresolve\u002Fmain\u002Ffigures\u002Fdemo_video.mp4'\n    video_base64 = base64.b64encode(requests.get(url).content).decode()\n    messages = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"text\",\"text\": \"Describe the video in detail.\"},\n                {\n                    \"type\": \"video_url\",\n                    \"video_url\": {\"url\": f\"data:video\u002Fmp4;base64,{video_base64}\"},\n                },\n            ],\n        }\n    ]\n\n    response = client.chat.completions.create(model=model_name, messages=messages)\n    print('====== Below is reasoning_content in Thinking Mode ======')\n    print(f'reasoning content: {response.choices[0].message.reasoning_content}')\n    print('====== Below is response in Thinking Mode ======')\n    print(f'response: {response.choices[0].message.content}')\n\n    # Also support instant mode if pass {\"thinking\" = {\"type\":\"disabled\"}}\n    response = client.chat.completions.create(\n        model=model_name,\n        messages=messages,\n        stream=False,\n        max_tokens=4096,\n        extra_body={'thinking': {'type': 'disabled'}},  # this is for official API\n        # extra_body= {'chat_template_kwargs': {\"thinking\": False}}  # this is for vLLM\u002FSGLang\n    )\n    print('====== Below is response in Instant Mode ======')\n    print(f'response: {response.choices[0].message.content}')\n    return response.choices[0].message.content\n```\n\n### Interleaved Thinking and Multi-Step Tool Call\n\nK2.5 shares the same design of Interleaved Thinking and Multi-Step Tool Call as K2 Thinking. For usage example, please refer to the [K2 Thinking documentation](https:\u002F\u002Fplatform.moonshot.ai\u002Fdocs\u002Fguide\u002Fuse-kimi-k2-thinking-model#complete-example).\n\n\n### Coding Agent Framework\n\nKimi K2.5 works best with Kimi Code CLI as its agent framework — give it a try at https:\u002F\u002Fwww.kimi.com\u002Fcode.\n\n\n---\n\n## 7. License\n\nBoth the code repository and the model weights are released under the [Modified MIT License](LICENSE).\n\n\n---\n\n## 9. Contact Us\n\nIf you have any questions, please reach out at [support@moonshot.cn](mailto:support@moonshot.cn).\n","\u003Cdiv align=\"center\">\n  \u003Cpicture>\n      \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Kimi-K2.5_readme_4733a3fd6ea5.png\" width=\"30%\" alt=\"Kimi K2.5\">\n  \u003C\u002Fpicture>\n\u003C\u002Fdiv>\n\u003Chr>\n\u003Cdiv align=\"center\" style=\"line-height:1\">\n  \u003Ca href=\"https:\u002F\u002Fwww.kimi.com\" target=\"_blank\">\u003Cimg alt=\"Chat\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F🤖%20Chat-Kimi%20K2.5-ff6b6b?color=1783ff&logoColor=white\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Fwww.moonshot.ai\" target=\"_blank\">\u003Cimg alt=\"Homepage\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FHomepage-Moonshot%20AI-white?logo=Kimi&logoColor=white\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\n\u003Cdiv align=\"center\" style=\"line-height: 1;\">\n  \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\" target=\"_blank\">\u003Cimg alt=\"Hugging Face\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002F%F0%9F%A4%97%20Hugging%20Face-Moonshot%20AI-ffc107?color=ffc107&logoColor=white\"\u002F>\u003C\u002Fa>\n  \u003Ca href=\"https:\u002F\u002Ftwitter.com\u002Fkimi_moonshot\" target=\"_blank\">\u003Cimg alt=\"Twitter Follow\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FTwitter-Kimi.ai-white?logo=x&logoColor=white\"\u002F>\u003C\u002Fa>\n    \u003Ca href=\"https:\u002F\u002Fdiscord.gg\u002FTYU2fdJykW\" target=\"_blank\">\u003Cimg alt=\"Discord\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FDiscord-Kimi.ai-white?logo=discord&logoColor=white\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cdiv align=\"center\" style=\"line-height: 1;\">\n  \u003Ca href=\"LICENSE\">\u003Cimg alt=\"License\" src=\"https:\u002F\u002Fimg.shields.io\u002Fbadge\u002FLicense-Modified_MIT-f5de53?&color=f5de53\"\u002F>\u003C\u002Fa>\n\u003C\u002Fdiv>\n\u003Cp align=\"center\">\n\u003Cb>📰&nbsp;&nbsp;\u003Ca href=\"https:\u002F\u002Fwww.kimi.com\u002Fblog\u002Fkimi-k2-5.html\">技术博客\u003C\u002Fa>\u003C\u002Fb> | &nbsp;&nbsp;&nbsp; \u003Cb>📄&nbsp;&nbsp;\u003Ca href=\"tech_report.pdf\">完整报告\u003C\u002Fa>\u003C\u002Fb>\n\u003C\u002Fp>\n\n## 1. 模型介绍\n\nKimi K2.5 是一款开源的原生多模态智能体模型，基于 Kimi-K2-Base 在约 15 万亿个视觉与文本混合 token 上持续预训练而成。它无缝融合了视觉与语言理解能力，并具备先进的智能体功能、即时模式与思考模式，以及对话式和智能体式的交互范式。\n\n### 主要特性\n- **原生多模态**：K2.5 在视觉-语言 token 上进行预训练，擅长视觉知识获取、跨模态推理，以及基于视觉输入的智能体工具使用。\n- **视觉驱动的代码生成**：K2.5 能够根据视觉规范（如 UI 设计、视频流程）生成代码，并自主编排工具以处理视觉数据。\n- **智能体集群**：K2.5 不仅支持单智能体扩展，还能实现自我导向、协同运作的集群式执行方案。它可将复杂任务分解为并行子任务，由动态实例化的特定领域智能体分别执行。\n\n## 2. 模型概览\n\n\u003Cdiv align=\"center\">\n\n\n| | |\n|:---:|:---:|\n| **架构** | 混合专家模型 (MoE) |\n| **总参数量** | 1T |\n| **激活参数量** | 32B |\n| **层数**（含密集层） | 61 |\n| **密集层数量** | 1 |\n| **注意力隐藏维度** | 7168 |\n| **MoE 隐藏维度**（每专家） | 2048 |\n| **注意力头数** | 64 |\n| **专家数量** | 384 |\n| **每个 token 选择的专家数** | 8 |\n| **共享专家数量** | 1 |\n| **词汇表大小** | 16万 |\n| **上下文长度** | 25.6万 |\n| **注意力机制** | MLA |\n| **激活函数** | SwiGLU |\n| **视觉编码器** | MoonViT |\n| **视觉编码器参数量** | 4亿 |\n\u003C\u002Fdiv>\n\n## 3. 评估结果\n\n\u003Cdiv align=\"center\">\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth align=\"center\">基准测试\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>Kimi K2.5\u003Cbr>\u003Csup>(思考)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>GPT-5.2 \u003Cbr>\u003Csup>(xhigh)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>Claude 4.5 Opus \u003Cbr>\u003Csup>(扩展思考)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>Gemini 3 Pro \u003Cbr>\u003Csup>(高思考水平)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>DeepSeek V3.2 \u003Cbr>\u003Csup>(思考)\u003C\u002Fsup>\u003C\u002Fsup>\u003C\u002Fth>\n\u003Cth align=\"center\">\u003Csup>Qwen3-VL-\u003Cbr>235B-A22B-\u003Cbr>思考\u003C\u002Fsup>\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\n\u003Ctd align=\"center\" colspan=8>\u003Cstrong>推理与知识\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">HLE-Full\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">30.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">34.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">30.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">37.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">25.1\u003Csup>†\u003C\u002Fsup>\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">HLE-Full\u003Cbr>(w\u002F 工具)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">50.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">45.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">43.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">45.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">40.8\u003Csup>†\u003C\u002Fsup>\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">AIME 2025\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">96.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">100\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">95.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">93.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">HMMT 2025 (Feb)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">95.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">99.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.9*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">97.3*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">IMO-AnswerBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">81.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">78.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">83.1*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">78.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">GPQA-Diamond\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">91.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MMLU-Pro\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.7*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">89.3*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">90.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" colspan=8>\u003Cstrong>图像与视频\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MMMU-Pro\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">78.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">79.5*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">74.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">81.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">69.3\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">CharXiv (RQ)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">67.2*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">81.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">66.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MathVision\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">84.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">83.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.1*\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.1*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">74.6\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MathVista (mini)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">90.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.8*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.2*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">89.8*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.8\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">ZeroBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">9*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">3*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">8*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">4*\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">ZeroBench\u003Cbr>(w\u002F 工具)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">11\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">7*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">9*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">12*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">3*\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">OCRBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.7*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.5*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">90.3*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.5\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">OmniDocBench 1.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">88.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.7\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.7*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">88.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">82.0*\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">InfoVQA (val)\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">92.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">84*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.9*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">57.2*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">89.5\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SimpleVQA\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">71.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">55.8*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">69.7*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">69.7*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">56.8*\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FWorldVQA\">WorldVQA\u003C\u002Fa>\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">46.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">28.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">36.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">47.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">23.5\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">VideoMMMU\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">85.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">84.4*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.0\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MMVU\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.8*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">71.1\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">MotionBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">70.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">64.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">60.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">70.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">VideoMME\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">87.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">86.0*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">88.4*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">79.0\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">LongVideoBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">79.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.5*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">67.2*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.7*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">65.6*\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">LVBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">75.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">73.5*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">63.6\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" colspan=8>\u003Cstrong>编码\u003C\u002Fstrong>\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SWE-Bench Verified\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">80.9\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">76.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">73.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SWE-Bench Pro\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">50.7\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">55.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">55.4*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SWE-Bench 多语言\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">73.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">72.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">77.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">65.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">70.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">Terminal Bench 2.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">50.8\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">54.0\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">59.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">54.2\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">46.4\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">PaperBench\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">63.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">63.7*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">72.9*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">47.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">CyberGym\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">41.3\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">50.6\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">39.9*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">17.3*\u003C\u002F\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">-\u003C\u002F\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">SciCode\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">48.7\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">52.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">49.5\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"vertical-align: middle\">56.1\u003C\u002Ftd>\n\u003Ctd align=\"center\" style=\"verticalalign: middle\">38.9\u003C\u002Ftd\n\n\u003Cdetails>\n\u003Csummary>\u003Cb>脚注\u003C\u002Fb>\u003C\u002Fsummary>\n\n1. 通用测试细节\n   - 我们报告了启明 K2.5 和 DeepSeek-V3.2 在开启思考模式下的结果，Claude Opus 4.5 在扩展思考模式下的结果，GPT-5.2 在 xhigh 推理力度下的结果，以及 Gemini 3 Pro 在高思考水平下的结果。对于视觉基准测试，我们还额外报告了 Qwen3-VL-235B-A22B-Thinking 的结果。\n   - 除非另有说明，所有启明 K2.5 的实验均在温度 = 1.0、top-p = 0.95、上下文长度为 256k 个 token 的条件下进行。\n   - 对于没有公开分数的基准测试，我们在与启明 K2.5 相同的条件下重新评估，并用星号 (*) 标记。\n   - 由于服务稳定性问题，我们无法在所有基准测试上评估 GPT-5.2 xhigh。对于未测试的基准，我们标记为 \"-\"。\n2. 文本与推理\n   - HLE、AIME 2025、HMMT 2025（2月）和 GPQA-Diamond 均以最多 96k 个 token 的完成预算进行评估。\n   - AIME 和 HMMT 的结果取 32 次运行的平均值（avg@32）；GPQA-Diamond 取 8 次运行的平均值（avg@8）。\n   - 对于 HLE，我们报告完整数据集（文本与图像）的得分。启明 K2.5 在不使用工具时得分为 31.5（文本）和 21.3（图像），而使用工具时则为 51.8（文本）和 39.8（图像）。DeepSeek-V3.2 的得分对应其仅限文本的部分（标记为 †）。为防止潜在的数据泄露，我们屏蔽了对 Hugging Face 的访问。在使用工具的 HLE 中，我们采用简单的上下文管理策略：一旦上下文超过阈值，就只保留最新一轮的工具消息。\n3. 工具增强\u002F代理搜索\n   - 启明 K2.5 在使用工具的 HLE 以及所有代理搜索基准测试中，配备了搜索、代码解释器和网页浏览工具。\n   - 除 BrowseComp（K2.5 和 DeepSeek-V3.2 使用丢弃所有策略）外，未应用任何上下文管理措施，且超出支持上下文长度的任务直接计为失败。\n   - 测试系统提示强调深度和主动的工具使用，指导模型仔细推理、利用工具并验证不确定的信息。完整提示将在技术报告中提供。\n   - Seal-0 和 WideSearch 的结果取四次运行的平均值（avg@4）。\n4. 视觉基准测试\n   - 最大 token 数 = 64k，取三次运行的平均值（avg@3）。\n   - ZeroBench（带工具）在多步推理中使用每步最大 token 数 = 24k 以及最大步骤数 = 30。\n   - MMMU-Pro 遵循官方协议，保持输入顺序并在前面添加图像。\n   - GPT-5.2-xhigh 约有 10% 的失败率（尽管重试三次仍无输出），被视为错误；报告的分数可能低估了真实性能。\n   - WorldVQA 是一个用于评估原子级视觉中心世界知识的基准测试。可在 https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FWorldVQA 上访问 WorldVQA。\n   - OmniDocBench 得分计算方式为 (1 − 归一化 Levenshtein 距离) × 100，分数越高表示准确性越好。\n5. 编程任务\n   - Terminal-Bench 2.0 的得分是在默认代理框架（Terminus-2）和提供的 JSON 解析器下获得的。在我们的实现中，我们以非思考模式评估了 Terminal-Bench 2.0。之所以做出这一选择，是因为我们当前的思考模式上下文管理策略与 Terminus-2 不兼容。\n   - 对于 SWE-Bench 系列评估（包括已验证版、多语言版和专业版），我们使用了一个内部开发的评估框架。该框架包含一组最小工具——bash 工具、createfile 工具、insert 工具、view 工具、strreplace 工具和 submit 工具——以及针对具体任务量身定制的系统提示。最高得分是在非思考模式下取得的。\n   - Claude Opus 4.5 在 CyberGym 上的得分是在非思考设置下报告的。\n   - 所有编程任务的报告得分均取 5 次独立运行的平均值。\n6. 长上下文基准测试\n   - AA-LCR：得分取三次运行的平均值（avg@3）。\n   - LongBench-V2：使用相同的提示和标准化至约 128k 个 token 的输入上下文。\n7. 代理群\n   - BrowseComp（群模式）：主代理最多 15 步；子代理最多 100 步。\n   - WideSearch（群模式）：主代理和子代理最多 100 步。\n\n\u003C\u002Fdetails>\n\n\n\n## 4. 原生 INT4 量化\n启明-K2.5 采用了与 [启明-K2-思考](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2-Thinking#4-native-int4-quantization) 相同的原生 int4 量化方法。\n\n## 5. 部署\n> [!注意]\n> 您可以通过 https:\u002F\u002Fplatform.moonshot.ai 访问启明-K2.5 的 API，我们还为您提供与 OpenAI\u002FAnthropic 兼容的 API。为验证部署是否正确，我们还提供了 [启明供应商验证器](https:\u002F\u002Fkimi.com\u002Fblog\u002Fkimi-vendor-verifier.html)。\n目前，建议在以下推理引擎上运行启明-K2.5：\n* vLLM\n* SGLang\n* KTransformers\n\n`transformers` 的最低版本要求是 `4.57.1`。\n\n部署示例可在 [模型部署指南](docs\u002Fdeploy_guidance.md) 中找到。\n\n\n---\n## 6. 模型使用\n\n以下使用演示展示了如何调用我们的官方 API。\n\n对于使用 vLLM 或 SGLang 部署的第三方 API，请注意：\n> [!注意]\n> - 与视频内容的聊天是一项实验性功能，目前仅在我们的官方 API 中支持。\n>\n> - 推荐的 `temperature` 在思考模式下为 `1.0`，在即时模式下为 `0.6`。\n>\n> - 推荐的 `top_p` 为 `0.95`。\n>\n> - 若要使用即时模式，您需要在 `extra_body` 中传递 `{'chat_template_kwargs': {\"thinking\": False}}`。\n\n### 聊天完成\n\n这是一个简单的聊天完成脚本，展示了如何在思考模式和即时模式下调用 K2.5 API。\n\n```python\nimport openai\nimport base64\nimport requests\ndef simple_chat(client: openai.OpenAI, model_name: str):\n    messages = [\n        {'role': 'system', 'content': '您是启明，由 Moonshot AI 创建的人工智能助手。'},\n        {\n            'role': 'user',\n            'content': [\n                {'type': 'text', 'text': '9.11 和 9.9 哪个更大？请仔细思考。'}\n            ],\n        },\n    ]\n    response = client.chat.completions.create(\n        model=model_name, messages=messages, stream=False, max_tokens=4096\n    )\n    print('====== 思考模式下的推理内容如下 ======')\n    print(f'推理内容：{response.choices[0].message.reasoning_content}')\n    print('====== 思考模式下的回复如下 ======')\n    print(f'回复：{response.choices[0].message.content}')\n\n    # 若要使用即时模式，需传递 {\"thinking\" = {\"type\":\"disabled\"}}\n    response = client.chat.completions.create(\n        model=model_name,\n        messages=messages,\n        stream=False,\n        max_tokens=4096,\n        extra_body={'thinking': {'type': 'disabled'}},  # 这是官方 API 的用法\n        # extra_body= {'chat_template_kwargs': {\"thinking\": False}}  # 这是 vLLM\u002FSGLang 的用法\n    )\n    print('====== 即时模式下的回复如下 ======')\n    print(f'回复：{response.choices[0].message.content}')\n```\n\n### 带视觉内容的聊天补全\n\nK2.5 支持图像和视频输入。\n\n以下示例展示了如何使用图像输入调用 K2.5 API：\n\n```python\nimport openai\nimport base64\nimport requests\n\ndef chat_with_image(client: openai.OpenAI, model_name: str):\n    url = 'https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2.5\u002Fresolve\u002Fmain\u002Fhttps:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Kimi-K2.5_readme_4733a3fd6ea5.png'\n    image_base64 = base64.b64encode(requests.get(url).content).decode()\n    messages = [\n        {\n            'role': 'user',\n            'content': [\n                {'type': 'text', 'text': '详细描述这张图片。'},\n                {\n                    'type': 'image_url',\n                    'image_url': {'url': f'data:image\u002Fpng;base64, {image_base64}'},\n                },\n            ],\n        }\n    ]\n\n    response = client.chat.completions.create(\n        model=model_name, messages=messages, stream=False, max_tokens=8192\n    )\n    print('====== 以下是思考模式下的推理内容 ======')\n    print(f'推理内容: {response.choices[0].message.reasoning_content}')\n    print('====== 以下是思考模式下的回复 ======')\n    print(f'回复: {response.choices[0].message.content}')\n\n    # 如果传递 {\"thinking\": {\"type\":\"disabled\"}}，也支持即时模式\n    response = client.chat.completions.create(\n        model=model_name,\n        messages=messages,\n        stream=False,\n        max_tokens=4096,\n        extra_body={'thinking': {'type': 'disabled'}},  # 这是官方 API 的写法\n        # extra_body= {'chat_template_kwargs': {\"thinking\": False}}  # 这是 vLLM\u002FSGLang 的写法\n    )\n    print('====== 以下是即时模式下的回复 ======')\n    print(f'回复: {response.choices[0].message.content}')\n\n    return response.choices[0].message.content\n```\n\n以下示例展示了如何使用视频输入调用 K2.5 API：\n\n```python\nimport openai\nimport base64\nimport requests\n\ndef chat_with_video(client: openai.OpenAI, model_name:str):\n    url = 'https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2.5\u002Fresolve\u002Fmain\u002Ffigures\u002Fdemo_video.mp4'\n    video_base64 = base64.b64encode(requests.get(url).content).decode()\n    messages = [\n        {\n            \"role\": \"user\",\n            \"content\": [\n                {\"type\": \"text\",\"text\": \"详细描述这段视频。\"},\n                {\n                    \"type\": \"video_url\",\n                    \"video_url\": {\"url\": f\"data:video\u002Fmp4;base64,{video_base64}\"},\n                },\n            ],\n        }\n    ]\n\n    response = client.chat.completions.create(model=model_name, messages=messages)\n    print('====== 以下是思考模式下的推理内容 ======')\n    print(f'推理内容: {response.choices[0].message.reasoning_content}')\n    print('====== 以下是思考模式下的回复 ======')\n    print(f'回复: {response.choices[0].message.content}')\n\n    # 如果传递 {\"thinking\": {\"type\":\"disabled\"}}，也支持即时模式\n    response = client.chat.completions.create(\n        model=model_name,\n        messages=messages,\n        stream=False,\n        max_tokens=4096,\n        extra_body={'thinking': {'type': 'disabled'}},  # 这是官方 API 的写法\n        # extra_body= {'chat_template_kwargs': {\"thinking\": False}}  # 这是 vLLM\u002FSGLang 的写法\n    )\n    print('====== 以下是即时模式下的回复 ======')\n    print(f'回复: {response.choices[0].message.content}')\n    return response.choices[0].message.content\n```\n\n### 交错式思考与多步工具调用\n\nK2.5 拥有与 K2 Thinking 相同的交错式思考和多步工具调用设计。有关使用示例，请参阅 [K2 Thinking 文档](https:\u002F\u002Fplatform.moonshot.ai\u002Fdocs\u002Fguide\u002Fuse-kimi-k2-thinking-model#complete-example)。\n\n### 编码代理框架\n\nKimi K2.5 最适合与 Kimi Code CLI 作为其代理框架一起使用——请访问 https:\u002F\u002Fwww.kimi.com\u002Fcode 尝试一下。\n\n---\n\n## 7. 许可证\n\n代码仓库和模型权重均采用 [修改后的 MIT 许可证](LICENSE) 发布。\n\n---\n\n## 9. 联系我们\n\n如有任何问题，请通过 [support@moonshot.cn](mailto:support@moonshot.cn) 联系我们。","# Kimi K2.5 快速上手指南\n\nKimi K2.5 是由月之暗面（Moonshot AI）开源的原生多模态智能体模型。它基于约 15 万亿混合视觉与文本 token 进行持续预训练，具备强大的视觉理解、代码生成及多智能体协作能力。\n\n## 1. 环境准备\n\n在开始之前，请确保您的开发环境满足以下要求：\n\n*   **操作系统**: Linux (推荐 Ubuntu 20.04+) 或 macOS。\n*   **Python 版本**: Python 3.9 或更高版本。\n*   **硬件要求**:\n    *   由于模型总参数量达 1T（激活参数 32B），建议使用多卡 GPU 环境或高显存单卡（推荐 NVIDIA A100\u002FH100\u002FH800 等）。\n    *   若使用量化版本或在消费级显卡运行，请确保显存充足并安装对应的推理后端（如 vLLM, Ollama 等，具体视官方发布的推理脚本而定）。\n*   **前置依赖**:\n    *   `pip` 包管理工具\n    *   `git`\n    *   `torch` (建议安装与 CUDA 版本匹配的最新版)\n\n> **提示**：国内开发者建议使用国内镜像源加速依赖安装，例如清华大学或阿里云镜像源。\n\n## 2. 安装步骤\n\n### 步骤一：克隆仓库\n首先从官方仓库获取代码：\n\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FKimi-K2.git\ncd Kimi-K2\n```\n\n### 步骤二：创建虚拟环境（推荐）\n\n```bash\npython -m venv kimi-env\nsource kimi-env\u002Fbin\u002Factivate  # Windows 用户请使用: kimi-env\\Scripts\\activate\n```\n\n### 步骤三：安装依赖\n使用国内镜像源安装所需 Python 包：\n\n```bash\npip install -r requirements.txt -i https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n*注：如果官方提供了特定的安装脚本（如 `install.sh`），请优先运行该脚本。*\n\n### 步骤四：下载模型权重\n模型权重托管在 Hugging Face。国内用户若访问受限，可使用镜像站或手动下载后放置到指定目录。\n\n**方式 A：使用 huggingface-cli (需配置镜像)**\n\n```bash\nexport HF_ENDPOINT=https:\u002F\u002Fhf-mirror.com\nhuggingface-cli download moonshotai\u002FKimi-K2-5 --local-dir .\u002Fmodels\u002Fkimi-k2-5\n```\n\n**方式 B：手动下载**\n访问 [Hugging Face Moonshot AI 主页](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai) 下载权重文件，并解压至 `.\u002Fmodels` 目录。\n\n## 3. 基本使用\n\nKimi K2.5 支持原生多模态输入（文本 + 图像）及智能体模式。以下是最基础的 Python 调用示例。\n\n### 示例：加载模型并进行图文对话\n\n```python\nimport torch\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\n# 配置模型路径\nmodel_path = \".\u002Fmodels\u002Fkimi-k2-5\"\n\n# 加载分词器\ntokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)\n\n# 加载模型 (根据显存情况调整 device_map 和 dtype)\n# 注意：全量加载 1T 参数模型需要极高的显存，通常需使用量化或分布式推理\nmodel = AutoModelForCausalLM.from_pretrained(\n    model_path,\n    torch_dtype=torch.bfloat16,\n    device_map=\"auto\",\n    trust_remote_code=True\n)\n\n# 准备输入：包含文本指令和图片路径\nmessages = [\n    {\n        \"role\": \"user\",\n        \"content\": [\n            {\"type\": \"image\", \"image\": \"path\u002Fto\u002Fyour\u002Fimage.png\"},\n            {\"type\": \"text\", \"text\": \"请分析这张图表中的数据趋势，并生成相应的 Python 代码来复现它。\"}\n        ]\n    }\n]\n\n# 构建输入张量\ninputs = tokenizer.apply_chat_template(messages, return_tensors=\"pt\").to(model.device)\n\n# 生成回复\noutputs = model.generate(\n    inputs,\n    max_new_tokens=2048,\n    do_sample=True,\n    temperature=0.7,\n    top_p=0.9\n)\n\n# 解码输出\nresponse = tokenizer.decode(outputs[0], skip_special_tokens=True)\nprint(response)\n```\n\n### 关键特性说明\n*   **原生多模态**：直接在 `content` 列表中传入图像对象，无需额外的 OCR 预处理。\n*   **智能体模式**：在复杂任务中，模型会自动拆解任务并调用工具（需在 Prompt 中开启 Tool Use 格式或配置相应的 Agent 框架）。\n*   **长上下文**：模型支持 256K 上下文窗口，可直接传入长文档或多帧视频截图进行分析。\n\n---\n*更多高级用法（如多智能体集群部署、思维链模式配置）请参考项目根目录下的 `tech_report.pdf` 或官方技术博客。*","某电商初创团队的技术负责人正急需将一批手绘的促销海报草图和模糊的竞品视频流程，快速转化为可上线的前端代码与自动化数据报表。\n\n### 没有 Kimi-K2.5 时\n- **多模态理解割裂**：设计师需先手动将草图转为文字描述，再交给开发人员编写代码，视觉信息在传递中严重失真，导致 UI 还原度低。\n- **复杂任务串行阻塞**：处理视频中的商品数据需人工逐帧截图、记录，再由不同员工分工清洗和录入，流程冗长且极易出错。\n- **单一模型能力瓶颈**：现有工具无法同时“看懂”设计稿并“写出”完整工程代码，往往只能生成片段，开发者需花费数小时进行修补和逻辑串联。\n- **资源调度低效**：面对突发的大规模数据处理需求，无法动态分配任务，只能依靠堆砌人力加班赶工，响应速度远落后于市场节奏。\n\n### 使用 Kimi-K2.5 后\n- **原生多模态直连代码**：Kimi-K2.5 直接读取手绘草图和视频流，精准理解视觉布局与交互逻辑，一键生成高保真、可运行的前端工程代码。\n- **智能体群协同作业**：Kimi-K2.5 自动将“视频数据分析”拆解为多个子任务，动态调用专属智能体并行执行提取、清洗和入库，将数小时工作压缩至分钟级。\n- **视觉驱动的自主编排**：基于对视频内容的深度理解，Kimi-K2.5 能自主规划工具调用链，自动完成从视觉识别到数据可视化的全流程，无需人工干预中间环节。\n- **弹性思维模式切换**：在面对复杂逻辑时，Kimi-K2.5 自动启用深度思考模式进行推理规划；在简单重复任务中则切换至即时模式，最大化算力效率与响应速度。\n\nKimi-K2.5 通过原生多模态感知与智能体群协作，将原本割裂的“看图、思考、编码”流程融合为全自动闭环，让创意到落地的转化效率提升十倍。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_Kimi-K2.5_6fbceb7e.png","MoonshotAI","Moonshot AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMoonshotAI_691dfd9a.jpg","",null,"https:\u002F\u002Fmoonshot.ai","https:\u002F\u002Fgithub.com\u002FMoonshotAI",1677,186,"2026-04-05T20:47:12","NOASSERTION",4,"未说明",{"notes":89,"python":87,"dependencies":90},"提供的 README 内容主要包含模型介绍、架构参数（总参数量 1T，激活参数 32B，上下文长度 256K）及评测结果，未包含具体的运行环境需求（如操作系统、GPU 型号、显存、内存、Python 版本及依赖库列表）。鉴于该模型为 1T 参数量的 MoE 架构且支持 256K 上下文，实际部署通常需要多卡高性能 GPU 集群及大量显存，具体配置需参考官方技术报告或代码仓库中的安装文档。",[],[26,14,15,62],"2026-03-27T02:49:30.150509","2026-04-06T11:57:28.030455",[],[]]