Kimi-K2.5

GitHub
1.7k 186 较难 1 次阅读 今天NOASSERTION语言模型图像Agent其他
AI 解读 由 AI 自动生成,仅供参考

Kimi-K2.5 是月之暗面推出的最强开源多模态智能体模型。它基于约 15 万亿视觉与文本混合令牌持续预训练而成,旨在解决复杂任务中视觉理解、代码生成及多步骤自主执行的难题。不同于传统单一模型,Kimi-K2.5 能直接将 UI 设计图或视频工作流转化为可执行代码,并自主调用工具处理视觉数据。

其核心亮点在于独特的“智能体群”(Agent Swarm)架构:面对复杂需求时,它能将任务拆解为多个子任务,动态创建并协调多个领域专用的智能体并行处理,从而实现从单兵作战到群体协作的跨越。模型采用混合专家(MoE)架构,总参数量达 1 万亿,但每次推理仅激活 320 亿参数,兼具强大的性能与高效的运行速度,同时支持 256K 超长上下文和原生多模态输入。

这款模型非常适合开发者构建复杂的自动化应用、研究人员探索多模态智能体协作机制,以及需要处理高难度视觉 - 语言任务的专业人士。对于希望体验顶尖开源模型能力的技术爱好者而言,Kimi-K2.5 也提供了宝贵的实践资源。

使用场景

某电商初创团队的技术负责人正急需将一批手绘的促销海报草图和模糊的竞品视频流程,快速转化为可上线的前端代码与自动化数据报表。

没有 Kimi-K2.5 时

  • 多模态理解割裂:设计师需先手动将草图转为文字描述,再交给开发人员编写代码,视觉信息在传递中严重失真,导致 UI 还原度低。
  • 复杂任务串行阻塞:处理视频中的商品数据需人工逐帧截图、记录,再由不同员工分工清洗和录入,流程冗长且极易出错。
  • 单一模型能力瓶颈:现有工具无法同时“看懂”设计稿并“写出”完整工程代码,往往只能生成片段,开发者需花费数小时进行修补和逻辑串联。
  • 资源调度低效:面对突发的大规模数据处理需求,无法动态分配任务,只能依靠堆砌人力加班赶工,响应速度远落后于市场节奏。

使用 Kimi-K2.5 后

  • 原生多模态直连代码:Kimi-K2.5 直接读取手绘草图和视频流,精准理解视觉布局与交互逻辑,一键生成高保真、可运行的前端工程代码。
  • 智能体群协同作业:Kimi-K2.5 自动将“视频数据分析”拆解为多个子任务,动态调用专属智能体并行执行提取、清洗和入库,将数小时工作压缩至分钟级。
  • 视觉驱动的自主编排:基于对视频内容的深度理解,Kimi-K2.5 能自主规划工具调用链,自动完成从视觉识别到数据可视化的全流程,无需人工干预中间环节。
  • 弹性思维模式切换:在面对复杂逻辑时,Kimi-K2.5 自动启用深度思考模式进行推理规划;在简单重复任务中则切换至即时模式,最大化算力效率与响应速度。

Kimi-K2.5 通过原生多模态感知与智能体群协作,将原本割裂的“看图、思考、编码”流程融合为全自动闭环,让创意到落地的转化效率提升十倍。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes提供的 README 内容主要包含模型介绍、架构参数(总参数量 1T,激活参数 32B,上下文长度 256K)及评测结果,未包含具体的运行环境需求(如操作系统、GPU 型号、显存、内存、Python 版本及依赖库列表)。鉴于该模型为 1T 参数量的 MoE 架构且支持 256K 上下文,实际部署通常需要多卡高性能 GPU 集群及大量显存,具体配置需参考官方技术报告或代码仓库中的安装文档。
python未说明
Kimi-K2.5 hero image

快速开始

Kimi K2.5

Chat Homepage
Hugging Face Twitter Follow Discord
License

📰  技术博客 |     📄  完整报告

1. 模型介绍

Kimi K2.5 是一款开源的原生多模态智能体模型,基于 Kimi-K2-Base 在约 15 万亿个视觉与文本混合 token 上持续预训练而成。它无缝融合了视觉与语言理解能力,并具备先进的智能体功能、即时模式与思考模式,以及对话式和智能体式的交互范式。

主要特性

  • 原生多模态:K2.5 在视觉-语言 token 上进行预训练,擅长视觉知识获取、跨模态推理,以及基于视觉输入的智能体工具使用。
  • 视觉驱动的代码生成:K2.5 能够根据视觉规范(如 UI 设计、视频流程)生成代码,并自主编排工具以处理视觉数据。
  • 智能体集群:K2.5 不仅支持单智能体扩展,还能实现自我导向、协同运作的集群式执行方案。它可将复杂任务分解为并行子任务,由动态实例化的特定领域智能体分别执行。

2. 模型概览

架构 混合专家模型 (MoE)
总参数量 1T
激活参数量 32B
层数(含密集层) 61
密集层数量 1
注意力隐藏维度 7168
MoE 隐藏维度(每专家) 2048
注意力头数 64
专家数量 384
每个 token 选择的专家数 8
共享专家数量 1
词汇表大小 16万
上下文长度 25.6万
注意力机制 MLA
激活函数 SwiGLU
视觉编码器 MoonViT
视觉编码器参数量 4亿

3. 评估结果

脚注
  1. 通用测试细节
    • 我们报告了启明 K2.5 和 DeepSeek-V3.2 在开启思考模式下的结果,Claude Opus 4.5 在扩展思考模式下的结果,GPT-5.2 在 xhigh 推理力度下的结果,以及 Gemini 3 Pro 在高思考水平下的结果。对于视觉基准测试,我们还额外报告了 Qwen3-VL-235B-A22B-Thinking 的结果。
    • 除非另有说明,所有启明 K2.5 的实验均在温度 = 1.0、top-p = 0.95、上下文长度为 256k 个 token 的条件下进行。
    • 对于没有公开分数的基准测试,我们在与启明 K2.5 相同的条件下重新评估,并用星号 (*) 标记。
    • 由于服务稳定性问题,我们无法在所有基准测试上评估 GPT-5.2 xhigh。对于未测试的基准,我们标记为 "-"。
  2. 文本与推理
    • HLE、AIME 2025、HMMT 2025(2月)和 GPQA-Diamond 均以最多 96k 个 token 的完成预算进行评估。
    • AIME 和 HMMT 的结果取 32 次运行的平均值(avg@32);GPQA-Diamond 取 8 次运行的平均值(avg@8)。
    • 对于 HLE,我们报告完整数据集(文本与图像)的得分。启明 K2.5 在不使用工具时得分为 31.5(文本)和 21.3(图像),而使用工具时则为 51.8(文本)和 39.8(图像)。DeepSeek-V3.2 的得分对应其仅限文本的部分(标记为 †)。为防止潜在的数据泄露,我们屏蔽了对 Hugging Face 的访问。在使用工具的 HLE 中,我们采用简单的上下文管理策略:一旦上下文超过阈值,就只保留最新一轮的工具消息。
  3. 工具增强/代理搜索
    • 启明 K2.5 在使用工具的 HLE 以及所有代理搜索基准测试中,配备了搜索、代码解释器和网页浏览工具。
    • 除 BrowseComp(K2.5 和 DeepSeek-V3.2 使用丢弃所有策略)外,未应用任何上下文管理措施,且超出支持上下文长度的任务直接计为失败。
    • 测试系统提示强调深度和主动的工具使用,指导模型仔细推理、利用工具并验证不确定的信息。完整提示将在技术报告中提供。
    • Seal-0 和 WideSearch 的结果取四次运行的平均值(avg@4)。
  4. 视觉基准测试
    • 最大 token 数 = 64k,取三次运行的平均值(avg@3)。
    • ZeroBench(带工具)在多步推理中使用每步最大 token 数 = 24k 以及最大步骤数 = 30。
    • MMMU-Pro 遵循官方协议,保持输入顺序并在前面添加图像。
    • GPT-5.2-xhigh 约有 10% 的失败率(尽管重试三次仍无输出),被视为错误;报告的分数可能低估了真实性能。
    • WorldVQA 是一个用于评估原子级视觉中心世界知识的基准测试。可在 https://github.com/MoonshotAI/WorldVQA 上访问 WorldVQA。
    • OmniDocBench 得分计算方式为 (1 − 归一化 Levenshtein 距离) × 100,分数越高表示准确性越好。
  5. 编程任务
    • Terminal-Bench 2.0 的得分是在默认代理框架(Terminus-2)和提供的 JSON 解析器下获得的。在我们的实现中,我们以非思考模式评估了 Terminal-Bench 2.0。之所以做出这一选择,是因为我们当前的思考模式上下文管理策略与 Terminus-2 不兼容。
    • 对于 SWE-Bench 系列评估(包括已验证版、多语言版和专业版),我们使用了一个内部开发的评估框架。该框架包含一组最小工具——bash 工具、createfile 工具、insert 工具、view 工具、strreplace 工具和 submit 工具——以及针对具体任务量身定制的系统提示。最高得分是在非思考模式下取得的。
    • Claude Opus 4.5 在 CyberGym 上的得分是在非思考设置下报告的。
    • 所有编程任务的报告得分均取 5 次独立运行的平均值。
  6. 长上下文基准测试
    • AA-LCR:得分取三次运行的平均值(avg@3)。
    • LongBench-V2:使用相同的提示和标准化至约 128k 个 token 的输入上下文。
  7. 代理群
    • BrowseComp(群模式):主代理最多 15 步;子代理最多 100 步。
    • WideSearch(群模式):主代理和子代理最多 100 步。

4. 原生 INT4 量化

启明-K2.5 采用了与 启明-K2-思考 相同的原生 int4 量化方法。

5. 部署

[!注意] 您可以通过 https://platform.moonshot.ai 访问启明-K2.5 的 API,我们还为您提供与 OpenAI/Anthropic 兼容的 API。为验证部署是否正确,我们还提供了 启明供应商验证器。 目前,建议在以下推理引擎上运行启明-K2.5:

  • vLLM
  • SGLang
  • KTransformers

transformers 的最低版本要求是 4.57.1

部署示例可在 模型部署指南 中找到。


6. 模型使用

以下使用演示展示了如何调用我们的官方 API。

对于使用 vLLM 或 SGLang 部署的第三方 API,请注意:

[!注意]

  • 与视频内容的聊天是一项实验性功能,目前仅在我们的官方 API 中支持。

  • 推荐的 temperature 在思考模式下为 1.0,在即时模式下为 0.6

  • 推荐的 top_p0.95

  • 若要使用即时模式,您需要在 extra_body 中传递 {'chat_template_kwargs': {"thinking": False}}

聊天完成

这是一个简单的聊天完成脚本,展示了如何在思考模式和即时模式下调用 K2.5 API。

import openai
import base64
import requests
def simple_chat(client: openai.OpenAI, model_name: str):
    messages = [
        {'role': 'system', 'content': '您是启明,由 Moonshot AI 创建的人工智能助手。'},
        {
            'role': 'user',
            'content': [
                {'type': 'text', 'text': '9.11 和 9.9 哪个更大?请仔细思考。'}
            ],
        },
    ]
    response = client.chat.completions.create(
        model=model_name, messages=messages, stream=False, max_tokens=4096
    )
    print('====== 思考模式下的推理内容如下 ======')
    print(f'推理内容:{response.choices[0].message.reasoning_content}')
    print('====== 思考模式下的回复如下 ======')
    print(f'回复:{response.choices[0].message.content}')

    # 若要使用即时模式,需传递 {"thinking" = {"type":"disabled"}}
    response = client.chat.completions.create(
        model=model_name,
        messages=messages,
        stream=False,
        max_tokens=4096,
        extra_body={'thinking': {'type': 'disabled'}},  # 这是官方 API 的用法
        # extra_body= {'chat_template_kwargs': {"thinking": False}}  # 这是 vLLM/SGLang 的用法
    )
    print('====== 即时模式下的回复如下 ======')
    print(f'回复:{response.choices[0].message.content}')

带视觉内容的聊天补全

K2.5 支持图像和视频输入。

以下示例展示了如何使用图像输入调用 K2.5 API:

import openai
import base64
import requests

def chat_with_image(client: openai.OpenAI, model_name: str):
    url = 'https://huggingface.co/moonshotai/Kimi-K2.5/resolve/main/https://oss.gittoolsai.com/images/MoonshotAI_Kimi-K2.5_readme_4733a3fd6ea5.png'
    image_base64 = base64.b64encode(requests.get(url).content).decode()
    messages = [
        {
            'role': 'user',
            'content': [
                {'type': 'text', 'text': '详细描述这张图片。'},
                {
                    'type': 'image_url',
                    'image_url': {'url': f'data:image/png;base64, {image_base64}'},
                },
            ],
        }
    ]

    response = client.chat.completions.create(
        model=model_name, messages=messages, stream=False, max_tokens=8192
    )
    print('====== 以下是思考模式下的推理内容 ======')
    print(f'推理内容: {response.choices[0].message.reasoning_content}')
    print('====== 以下是思考模式下的回复 ======')
    print(f'回复: {response.choices[0].message.content}')

    # 如果传递 {"thinking": {"type":"disabled"}},也支持即时模式
    response = client.chat.completions.create(
        model=model_name,
        messages=messages,
        stream=False,
        max_tokens=4096,
        extra_body={'thinking': {'type': 'disabled'}},  # 这是官方 API 的写法
        # extra_body= {'chat_template_kwargs': {"thinking": False}}  # 这是 vLLM/SGLang 的写法
    )
    print('====== 以下是即时模式下的回复 ======')
    print(f'回复: {response.choices[0].message.content}')

    return response.choices[0].message.content

以下示例展示了如何使用视频输入调用 K2.5 API:

import openai
import base64
import requests

def chat_with_video(client: openai.OpenAI, model_name:str):
    url = 'https://huggingface.co/moonshotai/Kimi-K2.5/resolve/main/figures/demo_video.mp4'
    video_base64 = base64.b64encode(requests.get(url).content).decode()
    messages = [
        {
            "role": "user",
            "content": [
                {"type": "text","text": "详细描述这段视频。"},
                {
                    "type": "video_url",
                    "video_url": {"url": f"data:video/mp4;base64,{video_base64}"},
                },
            ],
        }
    ]

    response = client.chat.completions.create(model=model_name, messages=messages)
    print('====== 以下是思考模式下的推理内容 ======')
    print(f'推理内容: {response.choices[0].message.reasoning_content}')
    print('====== 以下是思考模式下的回复 ======')
    print(f'回复: {response.choices[0].message.content}')

    # 如果传递 {"thinking": {"type":"disabled"}},也支持即时模式
    response = client.chat.completions.create(
        model=model_name,
        messages=messages,
        stream=False,
        max_tokens=4096,
        extra_body={'thinking': {'type': 'disabled'}},  # 这是官方 API 的写法
        # extra_body= {'chat_template_kwargs': {"thinking": False}}  # 这是 vLLM/SGLang 的写法
    )
    print('====== 以下是即时模式下的回复 ======')
    print(f'回复: {response.choices[0].message.content}')
    return response.choices[0].message.content

交错式思考与多步工具调用

K2.5 拥有与 K2 Thinking 相同的交错式思考和多步工具调用设计。有关使用示例,请参阅 K2 Thinking 文档

编码代理框架

Kimi K2.5 最适合与 Kimi Code CLI 作为其代理框架一起使用——请访问 https://www.kimi.com/code 尝试一下。


7. 许可证

代码仓库和模型权重均采用 修改后的 MIT 许可证 发布。


9. 联系我们

如有任何问题,请通过 support@moonshot.cn 联系我们。

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|今天
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

140.4k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.7k|★★☆☆☆|2天前
开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。

87.6k|★★☆☆☆|昨天
开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。

85k|★★☆☆☆|今天
图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。

77.1k|★★★☆☆|2天前
Agent图像开发框架
基准测试 Kimi K2.5
(思考)
GPT-5.2
(xhigh)
Claude 4.5 Opus
(扩展思考)
Gemini 3 Pro
(高思考水平)
DeepSeek V3.2
(思考)
Qwen3-VL-
235B-A22B-
思考
推理与知识
HLE-Full 30.1 34.5 30.8 37.5 25.1 -
HLE-Full
(w/ 工具)
50.2 45.5 43.2 45.8 40.8 -
AIME 2025 96.1 100 92.8 95.0 93.1 -
HMMT 2025 (Feb) 95.4 99.4 92.9* 97.3* 92.5 -
IMO-AnswerBench 81.8 86.3 78.5* 83.1* 78.3 -
GPQA-Diamond 87.6 92.4 87.0 91.9 82.4 -
MMLU-Pro 87.1 86.7* 89.3* 90.1 85.0 -
图像与视频
MMMU-Pro 78.5 79.5* 74.0 81.0 - 69.3
CharXiv (RQ) 77.5 82.1 67.2* 81.4 - 66.1
MathVision 84.2 83.0 77.1* 86.1* - 74.6
MathVista (mini) 90.1 82.8* 80.2* 89.8* - 85.8
ZeroBench 9 9* 3* 8* - 4*
ZeroBench
(w/ 工具)
11 7* 9* 12* - 3*
OCRBench 92.3 80.7* 86.5* 90.3* - 87.5
OmniDocBench 1.5 88.8 85.7 87.7* 88.5 - 82.0*
InfoVQA (val) 92.6 84* 76.9* 57.2* - 89.5
SimpleVQA 71.2 55.8* 69.7* 69.7* - 56.8*
WorldVQA 46.3 28.0 36.8 47.4 - 23.5
VideoMMMU 86.6 85.9 84.4* 87.6 - 80.0
MMVU 80.4 80.8* 77.3 77.5 - 71.1
MotionBench 70.4 64.8 60.3 70.3 - -
VideoMME 87.4 86.0* - 88.4* - 79.0
LongVideoBench 79.8 76.5* 67.2* 77.7* - 65.6*
LVBench 75.9 - - 73.5* - 63.6
编码
SWE-Bench Verified 76.8 80.0 80.9 76.2 73.1 -
SWE-Bench Pro 50.7 55.6 55.4* - - -
SWE-Bench 多语言 73.0 72.0 77.5 65.0 70.2 -
Terminal Bench 2.0 50.8 54.0 59.3 54.2 46.4 -
PaperBench 63.5 63.7* 72.9* - 47.1 -
CyberGym 41.3 - 50.6 39.9* 17.3* -
SciCode 48.7 52.1 49.5 56.1 38.9