K2-Vendor-Verifier

530 30 中等 2 次阅读 3天前开发框架其他

AI 解读由 AI 自动生成，仅供参考

K2-Vendor-Verifier 是一个用于评估 Kimi K2 模型 API 供应商调用精度的工具，通过标准化测试对比不同平台在工具调用表现上的差异。它解决了当前开源方案和商业供应商在模型准确性上存在显著差距的问题——用户在选择服务时往往优先考虑延迟和成本，却容易忽视调用成功率、参数解析准确率等影响实际效果的核心指标。这种精度差异不仅影响用户体验，还会导致 Kimi K2 在基准测试中的表现波动。

该工具特别适合需要集成 Kimi K2 模型的开发者和研究人员使用，帮助他们在部署前快速识别高可靠性的 API 供应商。通过量化分析工具调用触发相似度、成功调用次数和 schema 校验准确率等维度，K2-Vendor-Verifier 提供了跨平台性能对比的客观数据。其技术亮点在于构建了专门针对 Kimi K2 代理循环特性的评估体系，测试数据显示头部供应商可达 100% 的 schema 准确率，而部分开源方案仅约 85%，这种差异可视化能有效指导技术选型决策。

使用场景

某智能客服系统开发团队正在为电商平台集成Kimi K2模型，以实现自动化订单处理和客户咨询响应。由于涉及大量工具调用（如查询物流信息、修改订单状态等），模型调用精度直接影响业务流转效率。

没有 K2-Vendor-Verifier 时

供应商选择困难：团队在Moonshot AI、Fireworks、vLLM等多个平台间反复测试，但各平台提供的测试数据口径不一，无法横向比较调用成功率
隐性成本高昂：为追求低价选择了某开源方案，上线后发现工具调用错误率达13%，导致人工客服介入量激增
基准测试失真：不同供应商的"成功调用"定义存在差异，最终系统在第三方评测中得分波动超过20%
问题定位耗时：当出现调用失败时，需同时排查模型输出格式、API参数传递、工具接口兼容性等多环节问题

使用 K2-Vendor-Verifier 后

精准性能对比：通过统一测试集量化显示，Moonshot AI Turbo的schema准确率达100%，而vLLM实现仅87.22%，直观暴露性能差距
成本效益优化：发现某"低价"供应商实际综合成本（含错误处理）反而高于Moonshot AI，促使团队重新评估采购策略
标准化评估体系：所有供应商均按相同测试标准（如count_successful_tool_call指标）输出结果，确保评测客观性
快速故障定位：工具自动标注失败案例类型（如参数缺失/格式错误），将问题定位时间从2小时缩短至15分钟

K2-Vendor-Verifier通过建立可量化的评估基准，帮助团队在工具调用精度、成本控制和系统稳定性之间找到最佳平衡点，确保Kimi K2模型在实际业务场景中发挥最大效能。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes未说明

python未说明

快速开始

K2 Vendor Verifier（K2供应商验证器）

我们已更新了kimi-vendor-verifier的评估方法。点击此处获取更多详情。

什么是K2VV

自Kimi K2模型发布以来，我们收到了大量关于Kimi K2在工具调用（toolcall）精度方面的反馈。由于K2专注于智能体循环（agentic loop），工具调用的可靠性至关重要。

我们观察到不同开源解决方案和供应商在工具调用性能上存在显著差异。在选择供应商时，用户往往优先考虑较低的延迟和成本，但可能会忽视模型准确性中更细微但关键的差异。

这些不一致性不仅影响用户体验，还会影响K2在各类基准测试中的表现结果。为解决这些问题，我们推出了K2 Vendor Verifier（K2供应商验证器），用于监控和提升所有K2 API的质量。

我们希望K2VV能确保每个人都能访问到一致且高性能的Kimi K2模型。

K2-thinking 评估结果

测试时间: 2025-11-15

temperature=1.0
max_tokens=64000

模型名称	供应商	API来源	工具调用触发相似度	工具调用模式准确性
模型名称	供应商	API来源	工具调用触发相似度	完成原因计数（工具调用）	成功工具调用计数	模式准确性
kimi-k2-thinking	MoonshotAI	https://platform.moonshot.ai	-	1958	1958	100.00%
	Moonshot AI Turbo	https://platform.moonshot.ai	>=73%	1984	1984	100.00%
	Fireworks	https://fireworks.ai		1703	1703	100.00%
	InfiniAI	https://cloud.infini-ai.com		1827	1825	99.89%
	SiliconFlow	https://siliconflow.cn		2119	2097	98.96%
	GMICloud	https://openrouter.ai		1850	1775	95.95%
	AtlasCloud	https://openrouter.ai		1878	1798	95.74%
	SGLang	https://github.com/sgl-project/sglang		1874	1790	95.52%
	vLLM	https://github.com/vllm-project/vllm		2128	1856	87.22%
	Parasail	https://openrouter.ai		2108	1837	87.14%
	DeepInfra	https://openrouter.ai		2071	1800	86.91%
	GoogleVertex	https://openrouter.ai		1945	1668	85.76%
	Together	https://openrouter.ai		1893	1602	84.63%
	NovitaAI	https://openrouter.ai	72.22%	1778	1715	96.46%
	Chutes	https://openrouter.ai	68.10%	3657	3037	83.05%

我们多次运行官方API以测试`tool_call_f1`（工具调用F1分数）的波动。最低得分为75.81%，平均得分为76%。鉴于模型本身具有随机性，我们认为73%以上的`tool_call_f1`分数是可以接受的，可作为参考依据。

K2 0905 评估结果

测试时间: 2025-11-15

temperature=0.6

模型名称	提供商	API 源地址	工具调用触发相似度（ToolCall-Trigger Similarity）	工具调用-模式准确性（ToolCall-Schema Accuracy）
模型名称	提供商	API 源地址	工具调用触发相似度（ToolCall-Trigger Similarity）	count_finish_reason_tool_calls	count_successful_tool_call	schema_accuracy
kimi-k2-0905-preview	MoonshotAI（月之暗面）	https://platform.moonshot.ai	-	1274	1274	100.00%
	Moonshot AI Turbo	https://platform.moonshot.ai	>=80%	1398	1398	100.00%
	DeepInfra	https://openrouter.ai		1365	1365	100.00%
	Fireworks	https://openrouter.ai		1453	1453	100.00%
	Infinigence	https://cloud.infini-ai.com		1257	1257	100.00%
	NovitaAI	https://openrouter.ai		1299	1299	100.00%
	SiliconFlow	https://siliconflow.cn		1305	1302	99.77%
	Chutes	https://openrouter.ai		1271	1229	96.70%
	vLLM	https://github.com/vllm-project/vllm		1325	1007	76.00%
	SGLang	https://github.com/sgl-project/sglang		1269	928	73.13%
	Volc	https://www.volcengine.com		1330	969	72.86%
	Baseten	https://openrouter.ai		1243	901	72.49%
	AtlasCloud	https://openrouter.ai		1277	925	72.44%
	Together	https://openrouter.ai		1266	911	71.96%
	Groq	https://groq.com	69.52%	1042	1042	100.00%
	Nebius	https://nebius.ai	50.60%	644	544	84.47%

我们多次运行官方 API 以测试 `tool_call_f1` 的波动情况。最低得分为 82.71%，平均得分为 84%。鉴于模型固有的随机性，我们认为 80% 以上的 `tool_call_f1` 得分是可以接受的，可作为参考依据。

评估指标

工具调用触发相似度（ToolCall-Trigger Similarity）

我们使用 tool_call_f1 来判断模型部署是否正确。

标签 / 指标	公式	含义
`TP`（真正例）	—	模型与官方均判定 `finish_reason == "tool_calls"`。
`FP`（假正例）	—	模型判定 `finish_reason == "tool_calls"`，而官方判定为 `"stop"` 或 `"others"`。
`FN`（假反例）	—	模型判定 `finish_reason == "stop"` 或 `"others"`，而官方判定为 `"tool_calls"`。
`TN`（真反例）	—	模型与官方均判定 `finish_reason == "stop"` 或 `"others"`。
`tool_call_precision`	`TP / (TP + FP)`	触发的工具调用中应触发的比例。
`tool_call_recall`	`TP / (TP + FN)`	应触发且实际触发的工具调用比例。
`tool_call_f1`	*`2tool_call_precisiontool_call_recall / (tool_call_precision+tool_call_recall)`*	精确率与召回率的调和平均值（部署检查的主要指标）。

工具调用-模式准确性（ToolCall-Schema Accuracy）

我们使用 schema_accuracy 来衡量工程的鲁棒性。

标签 / 指标	公式 / 条件	描述
`count_finish_reason_tool_calls`	—	`finish_reason == "tool_calls"` 的响应数量。
`count_successful_tool_call`	—	通过模式验证的 tool_calls 响应数量。
`schema_accuracy`	`count_successful_tool_call / count_finish_reason_tool_calls`	触发的工具调用中 JSON 负载满足模式的比例。

测试方法

我们在一组 4,000 次请求上测试工具调用的响应。每个提供商的响应都会与官方 Moonshot AI API 进行对比。

K2 供应商会定期进行评估。如果您不在列表中且希望加入，请随时联系我们。

样本数据: 详细样本和 MoonshotAI 结果可在 tool-calls-dataset 中获取（测试集的 50%）。

给供应商的建议

使用正确的版本
部分供应商可能因使用错误版本而无法满足要求。我们建议使用以下版本及更新版本：

K2-0905:
- vllm v0.11.0（高效推理库）
- sglang v0.5.3rc0（结构化生成语言）
- moonshotai/Kimi-K2-Instruct-0905 (commit: 94a4053eb8863059dd8afc00937f054e1365abbd)
K2-thinking:

重命名工具调用ID
Kimi-K2模型要求历史消息中的所有工具调用ID（tool call IDs）遵循functions.func_name:idx格式。然而之前的测试案例可能包含格式错误的工具ID（如serach:0*），这可能导致Kimi-K2生成错误的调用ID并引发解析失败。
在本版本中，我们手动为所有历史工具调用添加了functions.前缀以适配Kimi-K2需求 :). 建议用户和供应商在实际应用中采用此修复方案。
此类工具ID由我们的官方API生成。在调用K2模型前，官方API会自动将所有工具调用ID重命名为functions.func_name:idx格式，因此对我们而言这不是问题。
添加引导编码
大语言模型按概率逐个生成文本token，本身没有强制执行JSON Schema的机制。即使精心设计提示词，模型仍可能出现字段缺失、多余字段或嵌套错误。因此请添加引导编码（guided encoding）以确保Schema正确性。

自行验证

要使用示例数据运行评估工具，请使用以下命令：

python tool_calls_eval.py samples.jsonl \
    --model kimi-k2-0905-preview \
    --base-url https://api.moonshot.cn/v1 \
    --api-key YOUR_API_KEY \
    --concurrency 5 \
    --output results.jsonl \
    --summary summary.json

samples.jsonl: JSONL格式测试集文件路径
--model: 模型名称（如kimi-k2-0905-preview）
--base-url: API端点URL
--api-key: 用于身份验证的API密钥（或设置OPENAI_API_KEY环境变量）
--concurrency: 最大并发请求数（默认：5）
--output: 保存详细结果的路径（默认：results.jsonl）
--summary: 保存汇总统计的路径（默认：summary.json）
--timeout: 每次请求超时时间（秒）（默认：600）
--retries: 失败重试次数（默认：3）
--extra-body: 作为字符串附加到每个请求体的额外JSON内容（如'{"temperature":0.6}'）
--incremental: 增量模式仅重新运行失败请求

通过OpenRouter测试其他供应商：

python tool_calls_eval.py samples.jsonl \
    --model moonshotai/kimi-k2-0905 \
    --base-url https://openrouter.ai/api/v1 \
    --api-key YOUR_OPENROUTER_API_KEY \
    --concurrency 5 \
    --extra-body '{"provider": {"only": ["YOUR_DESIGNATED_PROVIDER"]}}'

Kimi K2.5模型测试注意事项

对于使用vLLM/SGLang/KTransformers部署的第三方API，请注意：

要使用即时模式（禁用思考过程），需在extra_body中传递{"chat_template_kwargs": {"thinking": false}}：

python tool_calls_eval.py samples.jsonl \
    --model kimi-k2.5 \
    --base-url YOUR_API_BASE_URL \
    --api-key YOUR_API_KEY \
    --concurrency 5 \
    --extra-body '{"chat_template_kwargs": {"thinking": false}, "temperature": 0.6}'

联系我们

我们正在准备下一轮基准测试，需要您的反馈。

如果您关注任何指标或测试用例，请在issue中留言

欢迎在issue中提出您希望看到的供应商名称

如有任何疑问或顾虑，请通过contact-kvv@kimi.com与我们联系。

K2-Vendor-Verifier 快速上手指南

环境准备

系统要求：Linux/macOS，Python 3.8+
前置依赖：
- Python 环境（推荐使用 pyenv 或 conda 管理版本）
- pip 包管理器（建议使用国内镜像源加速安装）
- git 工具（用于克隆代码仓库）

安装步骤

# 克隆项目仓库
git clone https://github.com/moonshot-ai/k2-vendor-verifier.git
cd k2-vendor-verifier

# 使用国内镜像源安装依赖
pip install -r requirements.txt --index-url https://pypi.tuna.tsinghua.edu.cn/simple

# 安装指定版本依赖（如需）
pip install vllm==0.11.1rc6 sglang==0.5.5.post2 --index-url https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

# 验证 Moonshot AI 官方 API
python verify.py \
  --api_key YOUR_MOONSHOT_API_KEY \
  --model kimi-k2-thinking \
  --provider moonshotai

# 验证开源方案（以 vLLM 为例）
python verify.py \
  --api_url http://localhost:8000/v1 \
  --model kimi-k2-thinking \
  --provider vllm

# 查看测试结果（默认输出 JSON 格式）
cat results/latest_result.json

提示：首次运行会自动下载测试数据集（约 500MB），建议使用 aria2 或 axel 加速下载：

aria2c -x 16 https://statics.moonshot.cn/k2vv/tool-calls.tar.gz

常见问题

如何解决克隆仓库时遇到的LFS预算超限问题？

官方测试结果与自运行结果差异大的原因是什么？

如何获取2000样本的测试数据集？

工具调用相似度是如何计算的？

测试过程中部分结果丢失如何解决？

官方是否会重新测试社区版本（如SGLang/VLLM）？

如何请求新增第三方服务商（如Chutes）的测试？

相似工具推荐

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|今天

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 139k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.7k|★★☆☆☆|2天前

开发框架图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|今天

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

使用场景

没有 K2-Vendor-Verifier 时

使用 K2-Vendor-Verifier 后

运行环境要求

快速开始

K2 Vendor Verifier（K2供应商验证器）

我们已更新了kimi-vendor-verifier的评估方法。点击此处获取更多详情。

什么是K2VV

K2-thinking 评估结果

我们多次运行官方API以测试tool_call_f1（工具调用F1分数）的波动。最低得分为75.81%，平均得分为76%。鉴于模型本身具有随机性，我们认为**73%**以上的tool_call_f1分数是可以接受的，可作为参考依据。

K2 0905 评估结果

我们多次运行官方 API 以测试 tool_call_f1 的波动情况。最低得分为 82.71%，平均得分为 84%。鉴于模型固有的随机性，我们认为 80% 以上的 tool_call_f1 得分是可以接受的，可作为参考依据。

评估指标

工具调用触发相似度（ToolCall-Trigger Similarity）

工具调用-模式准确性（ToolCall-Schema Accuracy）

测试方法

给供应商的建议

自行验证

Kimi K2.5模型测试注意事项

联系我们

K2-Vendor-Verifier 快速上手指南

环境准备

安装步骤

基本使用

常见问题

相似工具推荐

stable-diffusion-webui

everything-claude-code

ComfyUI

NextChat

ML-For-Beginners

ragflow

我们多次运行官方API以测试`tool_call_f1`（工具调用F1分数）的波动。最低得分为75.81%，平均得分为76%。鉴于模型本身具有随机性，我们认为73%以上的`tool_call_f1`分数是可以接受的，可作为参考依据。

我们多次运行官方 API 以测试 `tool_call_f1` 的波动情况。最低得分为 82.71%，平均得分为 84%。鉴于模型固有的随机性，我们认为 80% 以上的 `tool_call_f1` 得分是可以接受的，可作为参考依据。