skill

945 100 较难 1 次阅读今天MIT语言模型Agent其他

AI 解读由 AI 自动生成，仅供参考

PinchBench 是一个专为评估大语言模型（LLM）作为"OpenClaw"智能编码代理核心能力而设计的基准测试系统。它摒弃了传统的孤立合成测试，转而通过模拟真实世界的工作场景来检验模型的实际表现，涵盖安排会议、编写代码、处理邮件、市场调研及文件管理等具体任务。

该工具主要解决了现有评测体系难以反映 AI 代理在复杂、模糊及多步骤现实任务中综合能力的痛点。它不仅关注模型能否调用正确的工具参数，更重点考察其多步推理链条的完整性、应对信息不全时的处理能力，以及最终是否真正完成了如“发送邮件”或“创建文件”等实质性成果。

PinchBench 特别适合 AI 研究人员、大模型开发者以及致力于构建自主智能体（Agent）的工程团队使用。其技术亮点在于构建了包含 23 项任务的多元化评测集，横跨生产力、研究、写作、编程等八大类别，并采用"LLM 裁判”与自动化脚本相结合的混合评分机制，确保评估结果既客观又具备细微的洞察力。此外，项目提供公开的排行榜和便捷的命令行接口，支持用户快速验证不同模型在 OpenClaw 生态中的实际效能，是推动智能体技术从理论走向落地的实用利器。

使用场景

某 AI 初创团队正在开发一款能自主操作电脑的智能助手（OpenClaw Agent），急需验证其核心大模型在真实办公场景下的执行能力。

没有 PinchBench 时

测试脱离实际：团队只能依赖孤立的语法题或逻辑问答进行测试，无法评估模型能否真正调用工具完成“预订会议”或“整理邮件”等复杂任务。
多步推理难验证：面对需要连续执行搜索、代码编写、文件保存等多个步骤的任务，难以判断模型是在哪一环出错，缺乏系统的链路追踪。
结果评估主观：对于模型生成的代码是否可运行、邮件语气是否得体，往往依赖人工肉眼检查，效率低下且标准不一。
环境搭建繁琐：每次更换模型进行测试，都需要手动编写脚本模拟真实操作环境，重复劳动严重拖慢研发迭代速度。

使用 PinchBench 后

场景真实还原：直接利用内置的 23 项真实任务（如股票数据调研、日程安排），让模型在接近真实的混乱指令和残缺信息中接受考验。
全链路自动化评测：系统自动判断模型是否正确调用了工具参数、是否成功创建了文件或发送了邮件，并给出客观的通过/失败结论。
多维能力量化：不仅测试代码生成，还覆盖数据分析、长文本记忆及生态集成能力，通过公开排行榜直观对比不同模型的实战表现。
一键快速基准测试：只需一行命令即可切换不同模型（如 Claude 3.5 Sonnet 或 GPT-4o）运行全套基准测试，并自动上传结果至 leaderboard，极大提升选型效率。

PinchBench 将抽象的模型能力转化为可量化的实战得分，帮助开发者精准筛选出真正能胜任复杂任务的智能体大脑。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes需要运行一个 OpenClaw 实例。默认使用 OpenRouter 作为模型路由提供商，需配置相应的 API 密钥（如 OPENROUTER_API_KEY、ANTHROPIC_API_KEY 或 OPENAI_API_KEY）。模型 ID 必须包含提供商前缀（例如 openrouter/ 或 anthropic/）。

python3.10+

快速开始

🦀 PinchBench

面向AI编码代理的真实世界基准测试

注意: 本仓库包含基准测试的技能/任务。它并非官方排行榜结果的来源。如需将模型加入官方结果，请修改 pinchbench/scripts/default-models.yml。

PinchBench用于衡量LLM模型作为OpenClaw代理大脑时的表现。我们不使用合成测试，而是让代理处理真实任务：安排会议、编写代码、分类处理邮件、研究主题以及管理文件。

结果会汇总在公开排行榜上，地址为 pinchbench.com。

PinchBench

为什么选择PinchBench？

大多数LLM基准测试只评估孤立的能力。而PinchBench则关注对编码代理真正重要的方面：

工具使用 — 模型能否以正确的参数调用合适的工具？
多步推理 — 它能否将多个动作串联起来完成复杂任务？
现实世界的混乱性 — 它能否应对模糊的指令和不完整的信息？
实际成果 — 它是否真的创建了文件、发送了邮件或安排了会议？

快速入门

# 克隆技能库
git clone https://github.com/pinchbench/skill.git
cd skill

# 使用您选择的模型运行基准测试
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4

# 或者运行特定任务
./scripts/run.sh --model openrouter/openai/gpt-4o --suite task_01_calendar,task_02_stock

注意: 模型ID必须包含其提供商前缀（例如 openrouter/、anthropic/）。默认路由提供商为OpenRouter。

要求:

Python 3.10+
uv 包管理器
正在运行的OpenClaw实例

测试内容

PinchBench包含23个任务，覆盖多个真实世界类别：

类别	任务	测试内容
生产力	日历、每日摘要	事件创建、时间解析、日程安排
研究	股票价格、会议、市场	网络搜索、数据提取、综合整理
写作	博客文章、邮件、人性化处理	内容生成、语气、格式化
编码	天气脚本、文件结构	代码生成、文件操作
分析	电子表格、PDF、文档	数据处理、总结
邮件	分类、搜索	收件箱管理、过滤
记忆	上下文检索、知识管理	长期记忆、回忆
技能	ClawHub、技能发现	OpenClaw生态系统的集成

每个任务都会由LLM裁判自动评分，或者结合人工评分——确保既客观又细致的评估。

提交结果

要将自己的结果上传到排行榜：

# 注册API令牌（一次性）
./scripts/run.sh --register

# 运行基准测试——结果会自动使用您的令牌上传
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4

如果您只想获取本地结果，可以使用 --no-upload 跳过上传步骤。

官方结果

要提交官方运行记录（将在排行榜上标记）：

# 使用环境变量
export PINCHBENCH_OFFICIAL_KEY=your_official_key
./scripts/run.sh --model anthropic/claude-sonnet-4

# 使用命令行参数
./scripts/run.sh --model anthropic/claude-sonnet-4 --official-key your_official_key

命令参考

标志	描述
`--model MODEL`	要测试的模型（例如 `openrouter/anthropic/claude-sonnet-4`）
`--judge MODEL`	用于LLM评分的裁判模型；设置后直接调用API（见下文）
`--suite SUITE`	`all`、`automated-only`，或逗号分隔的任务ID
`--runs N`	每个任务的运行次数，用于取平均值
`--timeout-multiplier N`	扩展较慢模型的超时时间
`--output-dir DIR`	保存结果的目录（默认：`results/`）
`--no-upload`	跳过上传到排行榜
`--register`	请求用于提交的API令牌
`--upload FILE`	上传之前的结果JSON
`--official-key KEY`	将提交标记为官方（或使用 `PINCHBENCH_OFFICIAL_KEY` 环境变量）

裁判

默认情况下（未指定 --judge 标志），LLM裁判会以OpenClaw代理会话的形式运行。当指定了 --judge 时，则会直接调用模型API，绕过OpenClaw的人格注入。

# 默认：OpenClaw代理会话（无需 --judge）
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4

# 通过OpenRouter直接调用API
./scripts/run.sh --model openai/gpt-4o --judge openrouter/anthropic/claude-sonnet-4-5

# 通过Anthropic直接调用API
./scripts/run.sh --model openai/gpt-4o --judge anthropic/claude-sonnet-4-5-20250514

# 通过OpenAI直接调用API
./scripts/run.sh --model openai/gpt-4o --judge openai/gpt-4o

# 无头Claude CLI
./scripts/run.sh --model openai/gpt-4o --judge claude

所需的环境变量包括：OPENROUTER_API_KEY、ANTHROPIC_API_KEY 或 OPENAI_API_KEY，具体取决于裁判模型的前缀。

贡献任务

我们欢迎新任务！请查看 tasks/TASK_TEMPLATE.md 了解格式要求。好的任务应具备以下特点：

真实世界 — 用户实际会请求代理完成的事情
可测量 — 有明确的成功标准，可进行评分
可重复 — 相同任务应产生一致的评分
具有挑战性 — 测试代理的能力，而不仅仅是LLM的知识

对话记录存档

会话对话记录会自动保存到 results/{run_id}_transcripts/ 目录中，与结果JSON一同存放。每个任务的完整代理对话都会以JSONL文件形式保留（例如 task_01_calendar.jsonl），以便后续分析。

链接

排行榜: pinchbench.com
OpenClaw: github.com/openclaw/openclaw
问题追踪: github.com/pinchbench/skill/issues

许可证

MIT — 详情请参阅 LICENSE。

爪式人工智能智能体测试 🦞

PinchBench 快速上手指南

PinchBench 是一个面向真实场景的 AI 编码智能体（Coding Agents）基准测试工具。它通过让模型执行日程安排、代码编写、邮件分类等实际任务，评估其作为 OpenClaw 智能体“大脑”的表现。

环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统：Linux / macOS / Windows (WSL2 推荐)
Python 版本：3.10 或更高
包管理器：uv (推荐使用 uv 进行依赖管理)
核心依赖：必须有一个正在运行的 OpenClaw 实例
API 密钥：根据使用的模型提供商，需配置相应的环境变量（如 OPENROUTER_API_KEY, ANTHROPIC_API_KEY 或 OPENAI_API_KEY）

提示：国内开发者若访问 GitHub 或 PyPI 较慢，建议配置国内镜像源或使用代理加速网络环境。

安装步骤

克隆仓库 将项目代码克隆到本地：

git clone https://github.com/pinchbench/skill.git
cd skill

安装依赖 使用 uv 安装项目所需的 Python 依赖（项目通常包含 pyproject.toml 或 requirements.txt，uv 会自动处理）：
```
uv sync
# 或者如果项目脚本已封装好环境，直接运行脚本即可，uv 会在内部调用
```
配置 API 密钥 导出您所使用的模型提供商的 API 密钥。以 OpenRouter 为例：
```
export OPENROUTER_API_KEY="your_api_key_here"
```
注：如果您直接使用 Anthropic 或 OpenAI，请分别导出 ANTHROPIC_API_KEY 或 OPENAI_API_KEY。
启动 OpenClaw 确保您的本地或远程环境中有一个可用的 OpenClaw 实例正在运行，因为 PinchBench 依赖其执行具体任务。

基本使用

1. 运行基准测试

使用默认配置运行所有任务，并指定要测试的模型。模型 ID 必须包含提供商前缀（例如 openrouter/）：

./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4

2. 运行特定任务套件

如果您只想测试特定类别的任务（例如日历和股票相关任务），可以使用 --suite 参数：

./scripts/run.sh --model openrouter/openai/gpt-4o --suite task_01_calendar,task_02_stock

3. 查看结果

测试完成后，结果默认保存在 results/ 目录下。

JSON 结果：包含详细的评分数据。
对话记录：完整的智能体交互日志保存在 results/{run_id}_transcripts/ 目录中，格式为 JSONL，便于后续分析。

4. 提交至排行榜（可选）

若希望将结果上传至官方排行榜 pinchbench.com：

注册令牌（首次使用）：
```
./scripts/run.sh --register
```
自动上传：运行测试时会自动上传结果（除非添加 --no-upload 标志）：
```
./scripts/run.sh --model openrouter/anthropic/claude-sonnet-4
```

注意：模型标识符格式至关重要，必须遵循 provider/model-name 的格式（如 openrouter/anthropic/claude-sonnet-4）。

版本历史

v1.2.12026/04/06

v1.2.02026/04/06

v1.1.02026/03/19

1.0.02026/03/17

常见问题

如何在测试运行结束时查看包含详细任务得分和类别细分的总结报告？

如何检测模型在连续多次基准测试中的性能回归或提升趋势？

基准测试中支持哪些最新的 LLM 模型？如何添加新模型？

为什么某些参数量较小的模型（如 GPT-5-nano）在特定任务上的表现优于参数量较大的模型（如 GPT-5.2）？

是否可以自定义基准测试使用的模型和评判（Judge）模型，而不局限于 OpenRouter？

如果基准测试结果文件中出现 JSON 解析错误或文件读取错误，趋势分析工具会如何处理？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|昨天

开发框架图像Agent