[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-MoonshotAI--K2-Vendor-Verifier":3,"tool-MoonshotAI--K2-Vendor-Verifier":64},[4,17,27,35,43,56],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":16},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,3,"2026-04-05T11:01:52",[13,14,15],"开发框架","图像","Agent","ready",{"id":18,"name":19,"github_repo":20,"description_zh":21,"stars":22,"difficulty_score":23,"last_commit_at":24,"category_tags":25,"status":16},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",140436,2,"2026-04-05T23:32:43",[13,15,26],"语言模型",{"id":28,"name":29,"github_repo":30,"description_zh":31,"stars":32,"difficulty_score":23,"last_commit_at":33,"category_tags":34,"status":16},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107662,"2026-04-03T11:11:01",[13,14,15],{"id":36,"name":37,"github_repo":38,"description_zh":39,"stars":40,"difficulty_score":23,"last_commit_at":41,"category_tags":42,"status":16},3704,"NextChat","ChatGPTNextWeb\u002FNextChat","NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。\n\n这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。\n\nNextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。",87618,"2026-04-05T07:20:52",[13,26],{"id":44,"name":45,"github_repo":46,"description_zh":47,"stars":48,"difficulty_score":23,"last_commit_at":49,"category_tags":50,"status":16},2268,"ML-For-Beginners","microsoft\u002FML-For-Beginners","ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。\n\n无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。",84991,"2026-04-05T10:45:23",[14,51,52,53,15,54,26,13,55],"数据工具","视频","插件","其他","音频",{"id":57,"name":58,"github_repo":59,"description_zh":60,"stars":61,"difficulty_score":10,"last_commit_at":62,"category_tags":63,"status":16},3128,"ragflow","infiniflow\u002Fragflow","RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。\n\n在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。\n\n这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。",77062,"2026-04-04T04:44:48",[15,14,13,26,54],{"id":65,"github_repo":66,"name":67,"description_en":68,"description_zh":69,"ai_summary_zh":69,"readme_en":70,"readme_zh":71,"quickstart_zh":72,"use_case_zh":73,"hero_image_url":74,"owner_login":75,"owner_name":76,"owner_avatar_url":77,"owner_bio":78,"owner_company":79,"owner_location":79,"owner_email":79,"owner_twitter":79,"owner_website":80,"owner_url":81,"languages":82,"stars":87,"forks":88,"last_commit_at":89,"license":79,"difficulty_score":10,"env_os":90,"env_gpu":90,"env_ram":90,"env_deps":91,"category_tags":92,"github_topics":79,"view_count":10,"oss_zip_url":79,"oss_zip_packed_at":79,"status":16,"created_at":93,"updated_at":94,"faqs":95,"releases":131},475,"MoonshotAI\u002FK2-Vendor-Verifier","K2-Vendor-Verifier","Verify Precision of all Kimi K2 API Vendor","K2-Vendor-Verifier 是一个用于评估 Kimi K2 模型 API 供应商调用精度的工具，通过标准化测试对比不同平台在工具调用表现上的差异。它解决了当前开源方案和商业供应商在模型准确性上存在显著差距的问题——用户在选择服务时往往优先考虑延迟和成本，却容易忽视调用成功率、参数解析准确率等影响实际效果的核心指标。这种精度差异不仅影响用户体验，还会导致 Kimi K2 在基准测试中的表现波动。\n\n该工具特别适合需要集成 Kimi K2 模型的开发者和研究人员使用，帮助他们在部署前快速识别高可靠性的 API 供应商。通过量化分析工具调用触发相似度、成功调用次数和 schema 校验准确率等维度，K2-Vendor-Verifier 提供了跨平台性能对比的客观数据。其技术亮点在于构建了专门针对 Kimi K2 代理循环特性的评估体系，测试数据显示头部供应商可达 100% 的 schema 准确率，而部分开源方案仅约 85%，这种差异可视化能有效指导技术选型决策。","# K2 Vendor Verifier\n\n## We've updated the evaluation approach for kimi-vendor-verifier. Click [here](https:\u002F\u002Fwww.kimi.com\u002Fblog\u002Fkimi-vendor-verifier.html) for more details.\n\n## What's K2VV\n\nSince the release of the Kimi K2 model, we have received numerous feedback on the precision of Kimi K2 in toolcall. Given that K2 focuses on the agentic loop, the reliability of toolcall is of utmost importance.\n\nWe have observed significant differences in the toolcall performance of various open-source solutions and vendors. When selecting a provider, users often prioritize lower latency and cost, but may inadvertently overlook more subtle yet critical differences in model accuracy.\n\nThese inconsistencies not only affect user experience but also impact K2's performance in various benchmarking results.\nTo mitigate these problems, we launch K2 Vendor Verifier to monitor and enhance the quality of all K2 APIs.\n\nWe hope K2VV can help ensuring that everyone can access a consistent and high-performing Kimi K2 model.\n\n## K2-thinking  Evaluation Results\n\n**Test Time**: 2025-11-15\n- temperature=1.0\n- max_tokens=64000\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">Model Name\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">Provider\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">Api Source\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">ToolCall-Trigger Similarity\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center;\">ToolCall-Schema Accuracy\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>count_finish_reason_tool_calls\u003C\u002Fth>\n      \u003Cth>count_successful_tool_call\u003C\u002Fth>\n      \u003Cth>schema_accuracy\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"17\">kimi-k2-thinking\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fplatform.moonshot.ai\u002F\">MoonshotAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fplatform.moonshot.ai\u003C\u002Ftd>\n      \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>1958\u003C\u002Ftd>\n      \u003Ctd>1958\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fplatform.moonshot.ai\u002F\">Moonshot AI Turbo\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fplatform.moonshot.ai\u003C\u002Ftd>\n      \u003Ctd rowspan=\"12\">>=73%\u003C\u002Ftd>\n      \u003Ctd>1984\u003C\u002Ftd>\n      \u003Ctd>1984\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Ffireworks.ai\u002F\">Fireworks\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Ffireworks.ai\u003C\u002Ftd>\n      \u003Ctd>1703\u003C\u002Ftd>\n      \u003Ctd>1703\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcloud.infini-ai.com\u002F\">InfiniAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fcloud.infini-ai.com\u003C\u002Ftd>\n      \u003Ctd>1827\u003C\u002Ftd>\n      \u003Ctd>1825\u003C\u002Ftd>\n      \u003Ctd>99.89%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fsiliconflow.cn\u002F\">SiliconFlow\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fsiliconflow.cn\u003C\u002Ftd>\n      \u003Ctd>2119\u003C\u002Ftd>\n      \u003Ctd>2097\u003C\u002Ftd>\n      \u003Ctd>98.96%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fgmicloud\">GMICloud\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1850\u003C\u002Ftd>\n      \u003Ctd>1775\u003C\u002Ftd>\n      \u003Ctd>95.95%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fatlas-cloud\">AtlasCloud\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1878\u003C\u002Ftd>\n      \u003Ctd>1798\u003C\u002Ftd>\n      \u003Ctd>95.74%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\">SGLang\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u003C\u002Ftd>\n      \u003Ctd>1874\u003C\u002Ftd>\n      \u003Ctd>1790\u003C\u002Ftd>\n      \u003Ctd>95.52%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u003C\u002Ftd>\n      \u003Ctd>2128\u003C\u002Ftd>\n      \u003Ctd>1856\u003C\u002Ftd>\n      \u003Ctd>87.22%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fparasail\">Parasail\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>2108\u003C\u002Ftd>\n      \u003Ctd>1837\u003C\u002Ftd>\n      \u003Ctd>87.14%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fdeepinfra\">DeepInfra\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>2071\u003C\u002Ftd>\n      \u003Ctd>1800\u003C\u002Ftd>\n      \u003Ctd>86.91%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fgoogle-vertex\">GoogleVertex\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1945\u003C\u002Ftd>\n      \u003Ctd>1668\u003C\u002Ftd>\n      \u003Ctd>85.76%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Ftogether\">Together\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1893\u003C\u002Ftd>\n      \u003Ctd>1602\u003C\u002Ftd>\n      \u003Ctd>84.63%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fnovita\">NovitaAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>72.22%\u003C\u002Ftd>\n      \u003Ctd>1778\u003C\u002Ftd>\n      \u003Ctd>1715\u003C\u002Ftd>\n      \u003Ctd>96.46%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fchutes\">Chutes\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>68.10%\u003C\u002Ftd>\n      \u003Ctd>3657\u003C\u002Ftd>\n      \u003Ctd>3037\u003C\u002Ftd>\n      \u003Ctd>83.05%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n##### We ran the official API multiple times to test the fluctuation of `tool_call_f1`. The lowest score was **75.81%**, and the average was **76%**. Given the inherent randomness of the model, we believe that an `tool_call_f1` score above **73%** is acceptable and can be used as a reference.\n\n## K2 0905 Evaluation Results\n\n**Test Time**: 2025-11-15\n- temperature=0.6\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">Model Name\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">Provider\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">Api Source\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">ToolCall-Trigger Similarity\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center;\">ToolCall-Schema Accuracy\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>count_finish_reason_tool_calls\u003C\u002Fth>\n      \u003Cth>count_successful_tool_call\u003C\u002Fth>\n      \u003Cth>schema_accuracy\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"16\">kimi-k2-0905-preview\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fplatform.moonshot.ai\u002F\">MoonshotAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fplatform.moonshot.ai\u003C\u002Ftd>\n      \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>1274\u003C\u002Ftd>\n      \u003Ctd>1274\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fplatform.moonshot.ai\u002F\">Moonshot AI Turbo\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fplatform.moonshot.ai\u003C\u002Ftd>\n      \u003Ctd rowspan=\"13\">>=80%\u003C\u002Ftd>\n      \u003Ctd>1398\u003C\u002Ftd>\n      \u003Ctd>1398\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fdeepinfra\">DeepInfra\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1365\u003C\u002Ftd>\n      \u003Ctd>1365\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Ffireworks\">Fireworks\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1453\u003C\u002Ftd>\n      \u003Ctd>1453\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcloud.infini-ai.com\u002F\">Infinigence\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fcloud.infini-ai.com\u003C\u002Ftd>\n      \u003Ctd>1257\u003C\u002Ftd>\n      \u003Ctd>1257\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fnovita\">NovitaAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1299\u003C\u002Ftd>\n      \u003Ctd>1299\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fsiliconflow.cn\u002F\">SiliconFlow\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fsiliconflow.cn\u003C\u002Ftd>\n      \u003Ctd>1305\u003C\u002Ftd>\n      \u003Ctd>1302\u003C\u002Ftd>\n      \u003Ctd>99.77%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fchutes\">Chutes\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1271\u003C\u002Ftd>\n      \u003Ctd>1229\u003C\u002Ftd>\n      \u003Ctd>96.70%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u003C\u002Ftd>\n      \u003Ctd>1325\u003C\u002Ftd>\n      \u003Ctd>1007\u003C\u002Ftd>\n      \u003Ctd>76.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\">SGLang\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u003C\u002Ftd>\n      \u003Ctd>1269\u003C\u002Ftd>\n      \u003Ctd>928\u003C\u002Ftd>\n      \u003Ctd>73.13%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fwww.volcengine.com\u002F\">Volc\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fwww.volcengine.com\u003C\u002Ftd>\n      \u003Ctd>1330\u003C\u002Ftd>\n      \u003Ctd>969\u003C\u002Ftd>\n      \u003Ctd>72.86%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fbaseten\">Baseten\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1243\u003C\u002Ftd>\n      \u003Ctd>901\u003C\u002Ftd>\n      \u003Ctd>72.49%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fatlas-cloud\">AtlasCloud\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1277\u003C\u002Ftd>\n      \u003Ctd>925\u003C\u002Ftd>\n      \u003Ctd>72.44%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Ftogether\">Together\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1266\u003C\u002Ftd>\n      \u003Ctd>911\u003C\u002Ftd>\n      \u003Ctd>71.96%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgroq.com\u002F\">Groq\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgroq.com\u003C\u002Ftd>\n      \u003Ctd>69.52%\u003C\u002Ftd>\n      \u003Ctd>1042\u003C\u002Ftd>\n      \u003Ctd>1042\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fnebius.ai\u002F\">Nebius\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fnebius.ai\u003C\u002Ftd>\n      \u003Ctd>50.60%\u003C\u002Ftd>\n      \u003Ctd>644\u003C\u002Ftd>\n      \u003Ctd>544\u003C\u002Ftd>\n      \u003Ctd>84.47%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n##### We ran the official API multiple times to test the fluctuation of `tool_call_f1`. The lowest score was **82.71%**, and the average was **84%**. Given the inherent randomness of the model, we believe that an `tool_call_f1` score above **80%** is acceptable and can be used as a reference.\n\n### Evaluation Metrics\n\n#### ToolCall-Trigger Similarity\nWe use `tool_call_f1` to determine whether the model deployment is correct.\n\n| Label \u002F Metric | Formula | Meaning |\n| --- | --- | --- |\n| `TP` (True Positive) | — | Both model & official have `finish_reason == \"tool_calls\"`. |\n| `FP` (False Positive) | — | Model `finish_reason == \"tool_calls\"` while official is `\"stop\"` or `\"others\"`. |\n| `FN` (False Negative) | — | Model `finish_reason == \"stop\"` or `\"others\"` while official is `\"tool_calls\"`. |\n| `TN` (True Negative) | — | Both model & official have `finish_reason == \"stop\"` or `\"others\"`. |\n| `tool_call_precision` | `TP \u002F (TP + FP)` | Proportion of triggered tool calls that should have been triggered. |\n| `tool_call_recall` | `TP \u002F (TP + FN)` | Proportion of tool calls that should have been triggered and were. |\n| **`tool_call_f1`** | **`2*`tool_call_precision`*`tool_call_recall` \u002F (`tool_call_precision`+`tool_call_recall`)`** | **Harmonic mean of precision and recall (primary metric for deployment check).** |\n\n\n\n#### ToolCall-Schema Accuracy\nWe use `schema_accuracy` to measure the robustness of the engineering.\n\n| Label \u002F Metric | Formula \u002F Condition | Description |\n| --- | --- | --- |\n| `count_finish_reason_tool_calls` | — | Number of responses with `finish_reason == \"tool_calls\"`. |\n| `count_successful_tool_call` | — | Number of **tool_calls** responses that passed schema validation. |\n| **`schema_accuracy`** | **`count_successful_tool_call \u002F count_finish_reason_tool_calls`** | **Proportion of triggered tool calls whose JSON payload satisfies the schema.** |\n\n## How we do the test\n\nWe test toolcall's response over a set of 4,000 requests. Each provider's responses are collected and compared against the official Moonshot AI API.\n\nK2 vendors are periodically evaluated. If you are not on the list and would like to be included, feel free to contact us.\n\n**Sample Data**: Detailed samples and MoonshotAI results are available in [tool-calls-dataset](https:\u002F\u002Fstatics.moonshot.cn\u002Fk2vv\u002Ftool-calls.tar.gz) (50% of the test set).\n\n## Suggestions to Vendors\n\n1. **Use the Correct Versions**  \nSome vendors may not meet the requirements due to using incorrect versions. We recommend using the following versions and newer versions:\n- K2-0905:\n    - [vllm v0.11.0](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.11.0)\n    - [sglang v0.5.3rc0](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u002Freleases\u002Ftag\u002Fv0.5.3rc0)\n    - [moonshotai\u002FKimi-K2-Instruct-0905](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2-Instruct-0905) (commit: 94a4053eb8863059dd8afc00937f054e1365abbd)\n- K2-thinking: \n    - [vllm v0.11.1rc6](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.11.1rc6)\n    - [sglang v0.5.5.post2](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u002Freleases\u002Ftag\u002Fv0.5.5.post2)\n    - [moonshotai\u002FKimi-K2-Thinking latest](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2-Thinking)\n\n2. **Rename Tool Call IDs**  \nThe Kimi-K2 model expects all tool call IDs in historical messages to follow the format `functions.func_name:idx`. However, previous test cases may contain malformed tool IDs like `serach:0`*, which could mislead Kimi-K2 into generating incorrect tool call IDs, resulting in parsing failures.   \nIn this version, we manually add the `functions.` prefix to all previous tool calls to make Kimi-K2 happy :). We recommend that users and vendors adopt this fix in practice as well.   \nThis type of tool ID was generated by our official API. Before invoking the K2 model, our official API automatically renames all tool call IDs to the format `functions.func_name:idx`, so this is not an issue for us.\n\n3. **Add Guided Encoding**  \nLarge language models generate text token-by-token according to probability; they have no built-in mechanism to enforce a hard JSON schema. Even with careful prompting, the model may omit fields, add extra ones, or nest them incorrectly. So please add guided encoding to ensure the correct schema.\n\n## Verify by yourself\n\nTo run the evaluation tool with sample data, use the following command:\n\n```bash\npython tool_calls_eval.py samples.jsonl \\\n    --model kimi-k2-0905-preview \\\n    --base-url https:\u002F\u002Fapi.moonshot.cn\u002Fv1 \\\n    --api-key YOUR_API_KEY \\\n    --concurrency 5 \\\n    --output results.jsonl \\\n    --summary summary.json\n```\n\n- `samples.jsonl`: Path to the test set file in JSONL format\n- `--model`: Model name (e.g., kimi-k2-0905-preview)\n- `--base-url`: API endpoint URL\n- `--api-key`: API key for authentication (or set OPENAI_API_KEY environment variable)\n- `--concurrency`: Maximum number of concurrent requests (default: 5)\n- `--output`: Path to save detailed results (default: results.jsonl)\n- `--summary`: Path to save aggregated summary (default: summary.json)\n- `--timeout`: Per-request timeout in seconds (default: 600)\n- `--retries`: Number of retries on failure (default: 3)\n- `--extra-body`: Extra JSON body as string to merge into each request payload (e.g., '{\"temperature\":0.6}')\n- `--incremental`: Incremental mode to only rerun failed requests\n\n\nFor testing other providers via OpenRouter:\n\n```bash\npython tool_calls_eval.py samples.jsonl \\\n    --model moonshotai\u002Fkimi-k2-0905 \\\n    --base-url https:\u002F\u002Fopenrouter.ai\u002Fapi\u002Fv1 \\\n    --api-key YOUR_OPENROUTER_API_KEY \\\n    --concurrency 5 \\\n    --extra-body '{\"provider\": {\"only\": [\"YOUR_DESIGNATED_PROVIDER\"]}}'\n```\n\n### Note for Kimi K2.5 Model Testing\n\nFor third-party APIs deployed with vLLM\u002FSGLang\u002FKTransformers, please note that:\n\n- To use **Instant mode** (disable thinking), you need to pass `{\"chat_template_kwargs\": {\"thinking\": false}}` in `extra_body`:\n\n```bash\npython tool_calls_eval.py samples.jsonl \\\n    --model kimi-k2.5 \\\n    --base-url YOUR_API_BASE_URL \\\n    --api-key YOUR_API_KEY \\\n    --concurrency 5 \\\n    --extra-body '{\"chat_template_kwargs\": {\"thinking\": false}, \"temperature\": 0.6}'\n```\n\n## Contact Us\n**We're preparing the next benchmark round and need your input.**\n\nIf there's any **metric or test case** you care about, please drop a note in [issue](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F9)\n\nAnd welcome to drop the name of any vendor you’d like to see in in [issue](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F10)\n\n---\nIf you have any questions or concerns, please reach out to us at contact-kvv@kimi.com.\n","# K2 Vendor Verifier（K2供应商验证器）\n\n## 我们已更新了kimi-vendor-verifier的评估方法。点击[此处](https:\u002F\u002Fwww.kimi.com\u002Fblog\u002Fkimi-vendor-verifier.html)获取更多详情。\n\n## 什么是K2VV\n\n自Kimi K2模型发布以来，我们收到了大量关于Kimi K2在工具调用（toolcall）精度方面的反馈。由于K2专注于智能体循环（agentic loop），工具调用的可靠性至关重要。\n\n我们观察到不同开源解决方案和供应商在工具调用性能上存在显著差异。在选择供应商时，用户往往优先考虑较低的延迟和成本，但可能会忽视模型准确性中更细微但关键的差异。\n\n这些不一致性不仅影响用户体验，还会影响K2在各类基准测试中的表现结果。\n为解决这些问题，我们推出了K2 Vendor Verifier（K2供应商验证器），用于监控和提升所有K2 API的质量。\n\n我们希望K2VV能确保每个人都能访问到一致且高性能的Kimi K2模型。\n\n## K2-thinking 评估结果\n\n**测试时间**: 2025-11-15\n- temperature=1.0\n- max_tokens=64000\n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">模型名称\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">供应商\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">API来源\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">工具调用触发相似度\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center;\">工具调用模式准确性\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>完成原因计数（工具调用）\u003C\u002Fth>\n      \u003Cth>成功工具调用计数\u003C\u002Fth>\n      \u003Cth>模式准确性\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"17\">kimi-k2-thinking\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fplatform.moonshot.ai\u002F\">MoonshotAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fplatform.moonshot.ai\u003C\u002Ftd>\n      \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>1958\u003C\u002Ftd>\n      \u003Ctd>1958\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fplatform.moonshot.ai\u002F\">Moonshot AI Turbo\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fplatform.moonshot.ai\u003C\u002Ftd>\n      \u003Ctd rowspan=\"12\">>=73%\u003C\u002Ftd>\n      \u003Ctd>1984\u003C\u002Ftd>\n      \u003Ctd>1984\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Ffireworks.ai\u002F\">Fireworks\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Ffireworks.ai\u003C\u002Ftd>\n      \u003Ctd>1703\u003C\u002Ftd>\n      \u003Ctd>1703\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcloud.infini-ai.com\u002F\">InfiniAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fcloud.infini-ai.com\u003C\u002Ftd>\n      \u003Ctd>1827\u003C\u002Ftd>\n      \u003Ctd>1825\u003C\u002Ftd>\n      \u003Ctd>99.89%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fsiliconflow.cn\u002F\">SiliconFlow\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fsiliconflow.cn\u003C\u002Ftd>\n      \u003Ctd>2119\u003C\u002Ftd>\n      \u003Ctd>2097\u003C\u002Ftd>\n      \u003Ctd>98.96%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fgmicloud\">GMICloud\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1850\u003C\u002Ftd>\n      \u003Ctd>1775\u003C\u002Ftd>\n      \u003Ctd>95.95%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fatlas-cloud\">AtlasCloud\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1878\u003C\u002Ftd>\n      \u003Ctd>1798\u003C\u002Ftd>\n      \u003Ctd>95.74%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\">SGLang\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u003C\u002Ftd>\n      \u003Ctd>1874\u003C\u002Ftd>\n      \u003Ctd>1790\u003C\u002Ftd>\n      \u003Ctd>95.52%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u003C\u002Ftd>\n      \u003Ctd>2128\u003C\u002Ftd>\n      \u003Ctd>1856\u003C\u002Ftd>\n      \u003Ctd>87.22%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fparasail\">Parasail\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>2108\u003C\u002Ftd>\n      \u003Ctd>1837\u003C\u002Ftd>\n      \u003Ctd>87.14%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fdeepinfra\">DeepInfra\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>2071\u003C\u002Ftd>\n      \u003Ctd>1800\u003C\u002Ftd>\n      \u003Ctd>86.91%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fgoogle-vertex\">GoogleVertex\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1945\u003C\u002Ftd>\n      \u003Ctd>1668\u003C\u002Ftd>\n      \u003Ctd>85.76%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Ftogether\">Together\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1893\u003C\u002Ftd>\n      \u003Ctd>1602\u003C\u002Ftd>\n      \u003Ctd>84.63%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fnovita\">NovitaAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>72.22%\u003C\u002Ftd>\n      \u003Ctd>1778\u003C\u002Ftd>\n      \u003Ctd>1715\u003C\u002Ftd>\n      \u003Ctd>96.46%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fchutes\">Chutes\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>68.10%\u003C\u002Ftd>\n      \u003Ctd>3657\u003C\u002Ftd>\n      \u003Ctd>3037\u003C\u002Ftd>\n      \u003Ctd>83.05%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n##### 我们多次运行官方API以测试`tool_call_f1`（工具调用F1分数）的波动。最低得分为**75.81%**，平均得分为**76%**。鉴于模型本身具有随机性，我们认为**73%**以上的`tool_call_f1`分数是可以接受的，可作为参考依据。\n\n## K2 0905 评估结果\n\n**测试时间**: 2025-11-15  \n- temperature=0.6  \n\n\u003Ctable>\n  \u003Cthead>\n    \u003Ctr>\n      \u003Cth rowspan=\"2\">模型名称\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">提供商\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">API 源地址\u003C\u002Fth>\n      \u003Cth rowspan=\"2\">工具调用触发相似度（ToolCall-Trigger Similarity）\u003C\u002Fth>\n      \u003Cth colspan=\"3\" style=\"text-align: center;\">工具调用-模式准确性（ToolCall-Schema Accuracy）\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Cth>count_finish_reason_tool_calls\u003C\u002Fth>\n      \u003Cth>count_successful_tool_call\u003C\u002Fth>\n      \u003Cth>schema_accuracy\u003C\u002Fth>\n    \u003C\u002Ftr>\n  \u003C\u002Fthead>\n  \u003Ctbody>\n    \u003Ctr>\n      \u003Ctd rowspan=\"16\">kimi-k2-0905-preview\u003C\u002Ftd>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fplatform.moonshot.ai\u002F\">MoonshotAI（月之暗面）\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fplatform.moonshot.ai\u003C\u002Ftd>\n      \u003Ctd>-\u003C\u002Ftd>\n      \u003Ctd>1274\u003C\u002Ftd>\n      \u003Ctd>1274\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fplatform.moonshot.ai\u002F\">Moonshot AI Turbo\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fplatform.moonshot.ai\u003C\u002Ftd>\n      \u003Ctd rowspan=\"13\">>=80%\u003C\u002Ftd>\n      \u003Ctd>1398\u003C\u002Ftd>\n      \u003Ctd>1398\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fdeepinfra\">DeepInfra\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1365\u003C\u002Ftd>\n      \u003Ctd>1365\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Ffireworks\">Fireworks\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1453\u003C\u002Ftd>\n      \u003Ctd>1453\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fcloud.infini-ai.com\u002F\">Infinigence\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fcloud.infini-ai.com\u003C\u002Ftd>\n      \u003Ctd>1257\u003C\u002Ftd>\n      \u003Ctd>1257\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fnovita\">NovitaAI\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1299\u003C\u002Ftd>\n      \u003Ctd>1299\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fsiliconflow.cn\u002F\">SiliconFlow\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fsiliconflow.cn\u003C\u002Ftd>\n      \u003Ctd>1305\u003C\u002Ftd>\n      \u003Ctd>1302\u003C\u002Ftd>\n      \u003Ctd>99.77%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fchutes\">Chutes\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1271\u003C\u002Ftd>\n      \u003Ctd>1229\u003C\u002Ftd>\n      \u003Ctd>96.70%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\">vLLM\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u003C\u002Ftd>\n      \u003Ctd>1325\u003C\u002Ftd>\n      \u003Ctd>1007\u003C\u002Ftd>\n      \u003Ctd>76.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\">SGLang\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u003C\u002Ftd>\n      \u003Ctd>1269\u003C\u002Ftd>\n      \u003Ctd>928\u003C\u002Ftd>\n      \u003Ctd>73.13%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fwww.volcengine.com\u002F\">Volc\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fwww.volcengine.com\u003C\u002Ftd>\n      \u003Ctd>1330\u003C\u002Ftd>\n      \u003Ctd>969\u003C\u002Ftd>\n      \u003Ctd>72.86%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fbaseten\">Baseten\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1243\u003C\u002Ftd>\n      \u003Ctd>901\u003C\u002Ftd>\n      \u003Ctd>72.49%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Fatlas-cloud\">AtlasCloud\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1277\u003C\u002Ftd>\n      \u003Ctd>925\u003C\u002Ftd>\n      \u003Ctd>72.44%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fopenrouter.ai\u002Fprovider\u002Ftogether\">Together\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fopenrouter.ai\u003C\u002Ftd>\n      \u003Ctd>1266\u003C\u002Ftd>\n      \u003Ctd>911\u003C\u002Ftd>\n      \u003Ctd>71.96%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fgroq.com\u002F\">Groq\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fgroq.com\u003C\u002Ftd>\n      \u003Ctd>69.52%\u003C\u002Ftd>\n      \u003Ctd>1042\u003C\u002Ftd>\n      \u003Ctd>1042\u003C\u002Ftd>\n      \u003Ctd>100.00%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Ca href=\"https:\u002F\u002Fnebius.ai\u002F\">Nebius\u003C\u002Fa>\u003C\u002Ftd>\n      \u003Ctd>https:\u002F\u002Fnebius.ai\u003C\u002Ftd>\n      \u003Ctd>50.60%\u003C\u002Ftd>\n      \u003Ctd>644\u003C\u002Ftd>\n      \u003Ctd>544\u003C\u002Ftd>\n      \u003Ctd>84.47%\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftbody>\n\u003C\u002Ftable>\n\n##### 我们多次运行官方 API 以测试 `tool_call_f1` 的波动情况。最低得分为 **82.71%**，平均得分为 **84%**。鉴于模型固有的随机性，我们认为 **80%** 以上的 `tool_call_f1` 得分是可以接受的，可作为参考依据。\n\n### 评估指标\n\n#### 工具调用触发相似度（ToolCall-Trigger Similarity）\n我们使用 `tool_call_f1` 来判断模型部署是否正确。\n\n| 标签 \u002F 指标 | 公式 | 含义 |\n| --- | --- | --- |\n| `TP`（真正例） | — | 模型与官方均判定 `finish_reason == \"tool_calls\"`。 |\n| `FP`（假正例） | — | 模型判定 `finish_reason == \"tool_calls\"`，而官方判定为 `\"stop\"` 或 `\"others\"`。 |\n| `FN`（假反例） | — | 模型判定 `finish_reason == \"stop\"` 或 `\"others\"`，而官方判定为 `\"tool_calls\"`。 |\n| `TN`（真反例） | — | 模型与官方均判定 `finish_reason == \"stop\"` 或 `\"others\"`。 |\n| `tool_call_precision` | `TP \u002F (TP + FP)` | 触发的工具调用中应触发的比例。 |\n| `tool_call_recall` | `TP \u002F (TP + FN)` | 应触发且实际触发的工具调用比例。 |\n| **`tool_call_f1`** | **`2*tool_call_precision*tool_call_recall \u002F (tool_call_precision+tool_call_recall)`** | **精确率与召回率的调和平均值（部署检查的主要指标）。** |\n\n#### 工具调用-模式准确性（ToolCall-Schema Accuracy）\n我们使用 `schema_accuracy` 来衡量工程的鲁棒性。\n\n| 标签 \u002F 指标 | 公式 \u002F 条件 | 描述 |\n| --- | --- | --- |\n| `count_finish_reason_tool_calls` | — | `finish_reason == \"tool_calls\"` 的响应数量。 |\n| `count_successful_tool_call` | — | 通过模式验证的 **tool_calls** 响应数量。 |\n| **`schema_accuracy`** | **`count_successful_tool_call \u002F count_finish_reason_tool_calls`** | **触发的工具调用中 JSON 负载满足模式的比例。** |\n\n## 测试方法\n\n我们在一组 4,000 次请求上测试工具调用的响应。每个提供商的响应都会与官方 Moonshot AI API 进行对比。\n\nK2 供应商会定期进行评估。如果您不在列表中且希望加入，请随时联系我们。\n\n**样本数据**: 详细样本和 MoonshotAI 结果可在 [tool-calls-dataset](https:\u002F\u002Fstatics.moonshot.cn\u002Fk2vv\u002Ftool-calls.tar.gz) 中获取（测试集的 50%）。\n\n## 给供应商的建议\n\n1. **使用正确的版本**  \n部分供应商可能因使用错误版本而无法满足要求。我们建议使用以下版本及更新版本：\n- K2-0905:\n    - [vllm v0.11.0](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.11.0)（高效推理库）\n    - [sglang v0.5.3rc0](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u002Freleases\u002Ftag\u002Fv0.5.3rc0)（结构化生成语言）\n    - [moonshotai\u002FKimi-K2-Instruct-0905](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2-Instruct-0905) (commit: 94a4053eb8863059dd8afc00937f054e1365abbd)\n- K2-thinking: \n    - [vllm v0.11.1rc6](https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.11.1rc6)\n    - [sglang v0.5.5.post2](https:\u002F\u002Fgithub.com\u002Fsgl-project\u002Fsglang\u002Freleases\u002Ftag\u002Fv0.5.5.post2)\n    - [moonshotai\u002FKimi-K2-Thinking latest](https:\u002F\u002Fhuggingface.co\u002Fmoonshotai\u002FKimi-K2-Thinking)\n\n2. **重命名工具调用ID**  \nKimi-K2模型要求历史消息中的所有工具调用ID（tool call IDs）遵循`functions.func_name:idx`格式。然而之前的测试案例可能包含格式错误的工具ID（如`serach:0`*），这可能导致Kimi-K2生成错误的调用ID并引发解析失败。  \n在本版本中，我们手动为所有历史工具调用添加了`functions.`前缀以适配Kimi-K2需求 :). 建议用户和供应商在实际应用中采用此修复方案。  \n此类工具ID由我们的官方API生成。在调用K2模型前，官方API会自动将所有工具调用ID重命名为`functions.func_name:idx`格式，因此对我们而言这不是问题。\n\n3. **添加引导编码**  \n大语言模型按概率逐个生成文本token，本身没有强制执行JSON Schema的机制。即使精心设计提示词，模型仍可能出现字段缺失、多余字段或嵌套错误。因此请添加引导编码（guided encoding）以确保Schema正确性。\n\n## 自行验证\n\n要使用示例数据运行评估工具，请使用以下命令：\n\n```bash\npython tool_calls_eval.py samples.jsonl \\\n    --model kimi-k2-0905-preview \\\n    --base-url https:\u002F\u002Fapi.moonshot.cn\u002Fv1 \\\n    --api-key YOUR_API_KEY \\\n    --concurrency 5 \\\n    --output results.jsonl \\\n    --summary summary.json\n```\n\n- `samples.jsonl`: JSONL格式测试集文件路径\n- `--model`: 模型名称（如kimi-k2-0905-preview）\n- `--base-url`: API端点URL\n- `--api-key`: 用于身份验证的API密钥（或设置OPENAI_API_KEY环境变量）\n- `--concurrency`: 最大并发请求数（默认：5）\n- `--output`: 保存详细结果的路径（默认：results.jsonl）\n- `--summary`: 保存汇总统计的路径（默认：summary.json）\n- `--timeout`: 每次请求超时时间（秒）（默认：600）\n- `--retries`: 失败重试次数（默认：3）\n- `--extra-body`: 作为字符串附加到每个请求体的额外JSON内容（如'{\"temperature\":0.6}'）\n- `--incremental`: 增量模式仅重新运行失败请求\n\n通过OpenRouter测试其他供应商：\n\n```bash\npython tool_calls_eval.py samples.jsonl \\\n    --model moonshotai\u002Fkimi-k2-0905 \\\n    --base-url https:\u002F\u002Fopenrouter.ai\u002Fapi\u002Fv1 \\\n    --api-key YOUR_OPENROUTER_API_KEY \\\n    --concurrency 5 \\\n    --extra-body '{\"provider\": {\"only\": [\"YOUR_DESIGNATED_PROVIDER\"]}}'\n```\n\n### Kimi K2.5模型测试注意事项\n\n对于使用vLLM\u002FSGLang\u002FKTransformers部署的第三方API，请注意：\n\n- 要使用**即时模式**（禁用思考过程），需在`extra_body`中传递`{\"chat_template_kwargs\": {\"thinking\": false}}`：\n\n```bash\npython tool_calls_eval.py samples.jsonl \\\n    --model kimi-k2.5 \\\n    --base-url YOUR_API_BASE_URL \\\n    --api-key YOUR_API_KEY \\\n    --concurrency 5 \\\n    --extra-body '{\"chat_template_kwargs\": {\"thinking\": false}, \"temperature\": 0.6}'\n```\n\n## 联系我们\n**我们正在准备下一轮基准测试，需要您的反馈。**\n\n如果您关注任何**指标或测试用例**，请在[issue](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F9)中留言\n\n欢迎在[issue](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F10)中提出您希望看到的供应商名称\n\n---\n如有任何疑问或顾虑，请通过contact-kvv@kimi.com与我们联系。","# K2-Vendor-Verifier 快速上手指南\n\n## 环境准备\n- **系统要求**：Linux\u002FmacOS，Python 3.8+\n- **前置依赖**：\n  - Python 环境（推荐使用 `pyenv` 或 `conda` 管理版本）\n  - `pip` 包管理器（建议使用国内镜像源加速安装）\n  - `git` 工具（用于克隆代码仓库）\n\n## 安装步骤\n```bash\n# 克隆项目仓库\ngit clone https:\u002F\u002Fgithub.com\u002Fmoonshot-ai\u002Fk2-vendor-verifier.git\ncd k2-vendor-verifier\n\n# 使用国内镜像源安装依赖\npip install -r requirements.txt --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n\n# 安装指定版本依赖（如需）\npip install vllm==0.11.1rc6 sglang==0.5.5.post2 --index-url https:\u002F\u002Fpypi.tuna.tsinghua.edu.cn\u002Fsimple\n```\n\n## 基本使用\n```bash\n# 验证 Moonshot AI 官方 API\npython verify.py \\\n  --api_key YOUR_MOONSHOT_API_KEY \\\n  --model kimi-k2-thinking \\\n  --provider moonshotai\n\n# 验证开源方案（以 vLLM 为例）\npython verify.py \\\n  --api_url http:\u002F\u002Flocalhost:8000\u002Fv1 \\\n  --model kimi-k2-thinking \\\n  --provider vllm\n\n# 查看测试结果（默认输出 JSON 格式）\ncat results\u002Flatest_result.json\n```\n\n> **提示**：首次运行会自动下载测试数据集（约 500MB），建议使用 `aria2` 或 `axel` 加速下载：\n```bash\naria2c -x 16 https:\u002F\u002Fstatics.moonshot.cn\u002Fk2vv\u002Ftool-calls.tar.gz\n```","某智能客服系统开发团队正在为电商平台集成Kimi K2模型，以实现自动化订单处理和客户咨询响应。由于涉及大量工具调用（如查询物流信息、修改订单状态等），模型调用精度直接影响业务流转效率。\n\n### 没有 K2-Vendor-Verifier 时\n- **供应商选择困难**：团队在Moonshot AI、Fireworks、vLLM等多个平台间反复测试，但各平台提供的测试数据口径不一，无法横向比较调用成功率\n- **隐性成本高昂**：为追求低价选择了某开源方案，上线后发现工具调用错误率达13%，导致人工客服介入量激增\n- **基准测试失真**：不同供应商的\"成功调用\"定义存在差异，最终系统在第三方评测中得分波动超过20%\n- **问题定位耗时**：当出现调用失败时，需同时排查模型输出格式、API参数传递、工具接口兼容性等多环节问题\n\n### 使用 K2-Vendor-Verifier 后\n- **精准性能对比**：通过统一测试集量化显示，Moonshot AI Turbo的schema准确率达100%，而vLLM实现仅87.22%，直观暴露性能差距\n- **成本效益优化**：发现某\"低价\"供应商实际综合成本（含错误处理）反而高于Moonshot AI，促使团队重新评估采购策略\n- **标准化评估体系**：所有供应商均按相同测试标准（如count_successful_tool_call指标）输出结果，确保评测客观性\n- **快速故障定位**：工具自动标注失败案例类型（如参数缺失\u002F格式错误），将问题定位时间从2小时缩短至15分钟\n\nK2-Vendor-Verifier通过建立可量化的评估基准，帮助团队在工具调用精度、成本控制和系统稳定性之间找到最佳平衡点，确保Kimi K2模型在实际业务场景中发挥最大效能。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002FMoonshotAI_K2-Vendor-Verifier_784dfeb0.png","MoonshotAI","Moonshot AI","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002FMoonshotAI_691dfd9a.jpg","",null,"https:\u002F\u002Fmoonshot.ai","https:\u002F\u002Fgithub.com\u002FMoonshotAI",[83],{"name":84,"color":85,"percentage":86},"Python","#3572A5",100,531,30,"2026-04-05T12:04:29","未说明",{"notes":90,"python":90,"dependencies":90},[13,54],"2026-03-27T02:49:30.150509","2026-04-06T08:45:17.224307",[96,101,106,111,116,121,126],{"id":97,"question_zh":98,"answer_zh":99,"source_url":100},1857,"如何解决克隆仓库时遇到的LFS预算超限问题？","当遇到LFS预算超限导致无法下载大文件时，可通过官方提供的[下载链接](https:\u002F\u002Fstatics.moonshot.cn\u002Fk2vv\u002Ftool-calls.tar.gz)手动获取文件，而非通过Git克隆。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F18",{"id":102,"question_zh":103,"answer_zh":104,"source_url":105},1858,"官方测试结果与自运行结果差异大的原因是什么？","官方发布的表格结果基于4000样本的私有测试集，而仓库中公开的样本集为2000样本。请确保使用相同规模的数据集进行对比，以避免因数据集规模差异导致的误解。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F17",{"id":107,"question_zh":108,"answer_zh":109,"source_url":110},1859,"如何获取2000样本的测试数据集？","2000样本的测试数据集已公开，可通过仓库中的[samples.jsonl](https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fblob\u002Fmain\u002Fsamples.jsonl)文件直接下载。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F1",{"id":112,"question_zh":113,"answer_zh":114,"source_url":115},1860,"工具调用相似度是如何计算的？","评估方法基于工具调用频率的对比，而非单个请求\u002F响应的相似度。官方会统计工具调用的总次数及有效性（如调用成功率、错误率等）进行评估。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F7",{"id":117,"question_zh":118,"answer_zh":119,"source_url":120},1861,"测试过程中部分结果丢失如何解决？","已修复该问题，现在测试结果会在每次请求后逐步保存，即使测试中途终止，已完成的请求结果也不会丢失。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F15",{"id":122,"question_zh":123,"answer_zh":124,"source_url":125},1862,"官方是否会重新测试社区版本（如SGLang\u002FVLLM）？","官方已计划定期更新社区版本的测试结果。若社区提交了关键修复（如SGLang的PR #12423），可主动联系官方请求重新评估。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F11",{"id":127,"question_zh":128,"answer_zh":129,"source_url":130},1863,"如何请求新增第三方服务商（如Chutes）的测试？","可通过GitHub Issues提交请求，并提供服务商的具体信息。官方团队会根据需求优先级评估是否纳入测试范围。","https:\u002F\u002Fgithub.com\u002FMoonshotAI\u002FK2-Vendor-Verifier\u002Fissues\u002F5",[]]