[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-pinchbench--skill":3,"tool-pinchbench--skill":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",143909,2,"2026-04-07T11:33:18",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":77,"owner_twitter":76,"owner_website":78,"owner_url":79,"languages":80,"stars":89,"forks":90,"last_commit_at":91,"license":92,"difficulty_score":93,"env_os":94,"env_gpu":94,"env_ram":94,"env_deps":95,"category_tags":100,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":102,"updated_at":103,"faqs":104,"releases":133},5075,"pinchbench\u002Fskill","skill","PinchBench is a benchmarking system for evaluating LLM models as OpenClaw coding agents. Made with 🦀 by the humans at https:\u002F\u002Fkilo.ai","PinchBench 是一个专为评估大语言模型（LLM）作为\"OpenClaw\"智能编码代理核心能力而设计的基准测试系统。它摒弃了传统的孤立合成测试，转而通过模拟真实世界的工作场景来检验模型的实际表现，涵盖安排会议、编写代码、处理邮件、市场调研及文件管理等具体任务。\n\n该工具主要解决了现有评测体系难以反映 AI 代理在复杂、模糊及多步骤现实任务中综合能力的痛点。它不仅关注模型能否调用正确的工具参数，更重点考察其多步推理链条的完整性、应对信息不全时的处理能力，以及最终是否真正完成了如“发送邮件”或“创建文件”等实质性成果。\n\nPinchBench 特别适合 AI 研究人员、大模型开发者以及致力于构建自主智能体（Agent）的工程团队使用。其技术亮点在于构建了包含 23 项任务的多元化评测集，横跨生产力、研究、写作、编程等八大类别，并采用\"LLM 裁判”与自动化脚本相结合的混合评分机制，确保评估结果既客观又具备细微的洞察力。此外，项目提供公开的排行榜和便捷的命令行接口，支持用户快速验证不同模型在 OpenClaw 生态中的实际效能，是推动智能体技术从理论走向落地的实用利器。","# 🦀 PinchBench\n\n**Real-world benchmarks for AI coding agents**\n\n[![Leaderboard](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fleaderboard-pinchbench.com-blue)](https:\u002F\u002Fpinchbench.com)\n[![License](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-green)](LICENSE)\n\n> **Note:** This repository contains the benchmark skill\u002Ftasks. It is NOT the source of official leaderboard results. To add models to the official results, modify [pinchbench\u002Fscripts\u002Fdefault-models.yml](https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fscripts\u002Fblob\u002Fmain\u002Fdefault-models.yml).\n\nPinchBench measures how well LLM models perform as the brain of an [OpenClaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw) agent. Instead of synthetic tests, we throw real tasks at agents: scheduling meetings, writing code, triaging email, researching topics, and managing files.\n\nResults are collected on a public leaderboard at **[pinchbench.com](https:\u002F\u002Fpinchbench.com)**.\n\n![PinchBench](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpinchbench_skill_readme_4a784fefeb71.png)\n\n## Why PinchBench?\n\nMost LLM benchmarks test isolated capabilities. PinchBench tests what actually matters for coding agents:\n\n- **Tool usage** — Can the model call the right tools with the right parameters?\n- **Multi-step reasoning** — Can it chain together actions to complete complex tasks?\n- **Real-world messiness** — Can it handle ambiguous instructions and incomplete information?\n- **Practical outcomes** — Did it actually create the file, send the email, or schedule the meeting?\n\n## Quick Start\n\n```bash\n# Clone the skill\ngit clone https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill.git\ncd skill\n\n# Run benchmarks with your model of choice\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fanthropic\u002Fclaude-sonnet-4\n\n# Or run specific tasks\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fopenai\u002Fgpt-4o --suite task_01_calendar,task_02_stock\n```\n\n> **Note:** Model IDs must include their provider prefix (e.g. `openrouter\u002F`, `anthropic\u002F`). [OpenRouter](https:\u002F\u002Fopenrouter.ai) is the default provider used for routing.\n\n**Requirements:**\n\n- Python 3.10+\n- [uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F) package manager\n- A running OpenClaw instance\n\n## What Gets Tested\n\nPinchBench includes 23 tasks across real-world categories:\n\n| Category         | Tasks                                   | What's tested                            |\n| ---------------- | --------------------------------------- | ---------------------------------------- |\n| **Productivity** | Calendar, daily summaries               | Event creation, time parsing, scheduling |\n| **Research**     | Stock prices, conferences, markets      | Web search, data extraction, synthesis   |\n| **Writing**      | Blog posts, emails, humanization        | Content generation, tone, formatting     |\n| **Coding**       | Weather scripts, file structures        | Code generation, file operations         |\n| **Analysis**     | Spreadsheets, PDFs, documents           | Data processing, summarization           |\n| **Email**        | Triage, search                          | Inbox management, filtering              |\n| **Memory**       | Context retrieval, knowledge management | Long-term memory, recall                 |\n| **Skills**       | ClawHub, skill discovery                | OpenClaw ecosystem integration           |\n\nEach task is graded automatically, by an LLM judge, or both — ensuring both objective and nuanced evaluation.\n\n## Submitting Results\n\nTo get your results on the leaderboard:\n\n```bash\n# Register for an API token (one-time)\n.\u002Fscripts\u002Frun.sh --register\n\n# Run benchmark — results auto-upload with your token\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fanthropic\u002Fclaude-sonnet-4\n```\n\nSkip uploading with `--no-upload` if you just want local results.\n\n### Official Results\n\nTo submit an official run (marked on the leaderboard):\n\n```bash\n# Using environment variable\nexport PINCHBENCH_OFFICIAL_KEY=your_official_key\n.\u002Fscripts\u002Frun.sh --model anthropic\u002Fclaude-sonnet-4\n\n# Using command line flag\n.\u002Fscripts\u002Frun.sh --model anthropic\u002Fclaude-sonnet-4 --official-key your_official_key\n```\n\n## Command Reference\n\n| Flag                     | Description                                                                   |\n| ------------------------ | ----------------------------------------------------------------------------- |\n| `--model MODEL`          | Model to test (e.g., `openrouter\u002Fanthropic\u002Fclaude-sonnet-4`)                  |\n| `--judge MODEL`          | Judge model for LLM grading; uses direct API when set (see below)                 |\n| `--suite SUITE`          | `all`, `automated-only`, or comma-separated task IDs                          |\n| `--runs N`               | Number of runs per task for averaging                                         |\n| `--timeout-multiplier N` | Scale timeouts for slower models                                              |\n| `--output-dir DIR`       | Where to save results (default: `results\u002F`)                                   |\n| `--no-upload`            | Skip uploading to leaderboard                                                 |\n| `--register`             | Request an API token for submissions                                          |\n| `--upload FILE`          | Upload a previous results JSON                                                |\n| `--official-key KEY`     | Mark submission as official (or use `PINCHBENCH_OFFICIAL_KEY` env var)         |\n\n### Judge\n\nBy default (no `--judge` flag), the LLM judge runs as an OpenClaw agent session. When `--judge` is specified, it calls the model API directly instead, bypassing OpenClaw personality injection.\n\n```bash\n# Default: OpenClaw agent session (no --judge needed)\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fanthropic\u002Fclaude-sonnet-4\n\n# Direct API via OpenRouter\n.\u002Fscripts\u002Frun.sh --model openai\u002Fgpt-4o --judge openrouter\u002Fanthropic\u002Fclaude-sonnet-4-5\n\n# Direct API via Anthropic\n.\u002Fscripts\u002Frun.sh --model openai\u002Fgpt-4o --judge anthropic\u002Fclaude-sonnet-4-5-20250514\n\n# Direct API via OpenAI\n.\u002Fscripts\u002Frun.sh --model openai\u002Fgpt-4o --judge openai\u002Fgpt-4o\n\n# Headless Claude CLI\n.\u002Fscripts\u002Frun.sh --model openai\u002Fgpt-4o --judge claude\n```\n\nRequired env vars: `OPENROUTER_API_KEY`, `ANTHROPIC_API_KEY`, or `OPENAI_API_KEY` depending on the judge model prefix.\n\n## Contributing Tasks\n\nWe welcome new tasks! Check out [`tasks\u002FTASK_TEMPLATE.md`](tasks\u002FTASK_TEMPLATE.md) for the format. Good tasks are:\n\n- **Real-world** — Something an actual user would ask an agent to do\n- **Measurable** — Clear success criteria that can be graded\n- **Reproducible** — Same task should produce consistent grading\n- **Challenging** — Tests agent capabilities, not just LLM knowledge\n\n### Transcript Archive\n\nSession transcripts are automatically saved to `results\u002F{run_id}_transcripts\u002F` alongside the results JSON. Each task's full agent conversation is preserved as a JSONL file (e.g. `task_01_calendar.jsonl`) for post-run analysis.\n\n## Links\n\n- **Leaderboard:** [pinchbench.com](https:\u002F\u002Fpinchbench.com)\n- **OpenClaw:** [github.com\u002Fopenclaw\u002Fopenclaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw)\n- **Issues:** [github.com\u002Fpinchbench\u002Fskill\u002Fissues](https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fissues)\n\n## License\n\nMIT — see [LICENSE](LICENSE) for details.\n\n---\n\n_Claw-some AI agent testing_ 🦞\n","# 🦀 PinchBench\n\n**面向AI编码代理的真实世界基准测试**\n\n[![排行榜](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Fleaderboard-pinchbench.com-blue)](https:\u002F\u002Fpinchbench.com)\n[![许可证](https:\u002F\u002Fimg.shields.io\u002Fbadge\u002Flicense-MIT-green)](LICENSE)\n\n> **注意:** 本仓库包含基准测试的技能\u002F任务。它并非官方排行榜结果的来源。如需将模型加入官方结果，请修改 [pinchbench\u002Fscripts\u002Fdefault-models.yml](https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fscripts\u002Fblob\u002Fmain\u002Fdefault-models.yml)。\n\nPinchBench用于衡量LLM模型作为[OpenClaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw)代理大脑时的表现。我们不使用合成测试，而是让代理处理真实任务：安排会议、编写代码、分类处理邮件、研究主题以及管理文件。\n\n结果会汇总在公开排行榜上，地址为 **[pinchbench.com](https:\u002F\u002Fpinchbench.com)**。\n\n![PinchBench](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpinchbench_skill_readme_4a784fefeb71.png)\n\n## 为什么选择PinchBench？\n\n大多数LLM基准测试只评估孤立的能力。而PinchBench则关注对编码代理真正重要的方面：\n\n- **工具使用** — 模型能否以正确的参数调用合适的工具？\n- **多步推理** — 它能否将多个动作串联起来完成复杂任务？\n- **现实世界的混乱性** — 它能否应对模糊的指令和不完整的信息？\n- **实际成果** — 它是否真的创建了文件、发送了邮件或安排了会议？\n\n## 快速入门\n\n```bash\n# 克隆技能库\ngit clone https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill.git\ncd skill\n\n# 使用您选择的模型运行基准测试\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fanthropic\u002Fclaude-sonnet-4\n\n# 或者运行特定任务\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fopenai\u002Fgpt-4o --suite task_01_calendar,task_02_stock\n```\n\n> **注意:** 模型ID必须包含其提供商前缀（例如 `openrouter\u002F`、`anthropic\u002F`）。默认路由提供商为[OpenRouter](https:\u002F\u002Fopenrouter.ai)。\n\n**要求:**\n\n- Python 3.10+\n- [uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F) 包管理器\n- 正在运行的OpenClaw实例\n\n## 测试内容\n\nPinchBench包含23个任务，覆盖多个真实世界类别：\n\n| 类别         | 任务                                   | 测试内容                            |\n| ---------------- | --------------------------------------- | ---------------------------------------- |\n| **生产力** | 日历、每日摘要               | 事件创建、时间解析、日程安排 |\n| **研究**     | 股票价格、会议、市场      | 网络搜索、数据提取、综合整理   |\n| **写作**      | 博客文章、邮件、人性化处理        | 内容生成、语气、格式化     |\n| **编码**       | 天气脚本、文件结构        | 代码生成、文件操作         |\n| **分析**     | 电子表格、PDF、文档           | 数据处理、总结             |\n| **邮件**        | 分类、搜索                          | 收件箱管理、过滤              |\n| **记忆**       | 上下文检索、知识管理           | 长期记忆、回忆                 |\n| **技能**       | ClawHub、技能发现                | OpenClaw生态系统的集成           |\n\n每个任务都会由LLM裁判自动评分，或者结合人工评分——确保既客观又细致的评估。\n\n## 提交结果\n\n要将自己的结果上传到排行榜：\n\n```bash\n# 注册API令牌（一次性）\n.\u002Fscripts\u002Frun.sh --register\n\n# 运行基准测试——结果会自动使用您的令牌上传\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fanthropic\u002Fclaude-sonnet-4\n```\n\n如果您只想获取本地结果，可以使用 `--no-upload` 跳过上传步骤。\n\n### 官方结果\n\n要提交官方运行记录（将在排行榜上标记）：\n\n```bash\n# 使用环境变量\nexport PINCHBENCH_OFFICIAL_KEY=your_official_key\n.\u002Fscripts\u002Frun.sh --model anthropic\u002Fclaude-sonnet-4\n\n# 使用命令行参数\n.\u002Fscripts\u002Frun.sh --model anthropic\u002Fclaude-sonnet-4 --official-key your_official_key\n```\n\n## 命令参考\n\n| 标志                     | 描述                                                                   |\n| ------------------------ | ----------------------------------------------------------------------------- |\n| `--model MODEL`          | 要测试的模型（例如 `openrouter\u002Fanthropic\u002Fclaude-sonnet-4`）                  |\n| `--judge MODEL`          | 用于LLM评分的裁判模型；设置后直接调用API（见下文）                 |\n| `--suite SUITE`          | `all`、`automated-only`，或逗号分隔的任务ID                          |\n| `--runs N`               | 每个任务的运行次数，用于取平均值                                         |\n| `--timeout-multiplier N` | 扩展较慢模型的超时时间                                              |\n| `--output-dir DIR`       | 保存结果的目录（默认：`results\u002F`）                                   |\n| `--no-upload`            | 跳过上传到排行榜                                                     |\n| `--register`             | 请求用于提交的API令牌                                          |\n| `--upload FILE`          | 上传之前的结果JSON                                                |\n| `--official-key KEY`     | 将提交标记为官方（或使用 `PINCHBENCH_OFFICIAL_KEY` 环境变量）         |\n\n### 裁判\n\n默认情况下（未指定 `--judge` 标志），LLM裁判会以OpenClaw代理会话的形式运行。当指定了 `--judge` 时，则会直接调用模型API，绕过OpenClaw的人格注入。\n\n```bash\n# 默认：OpenClaw代理会话（无需 --judge）\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fanthropic\u002Fclaude-sonnet-4\n\n# 通过OpenRouter直接调用API\n.\u002Fscripts\u002Frun.sh --model openai\u002Fgpt-4o --judge openrouter\u002Fanthropic\u002Fclaude-sonnet-4-5\n\n# 通过Anthropic直接调用API\n.\u002Fscripts\u002Frun.sh --model openai\u002Fgpt-4o --judge anthropic\u002Fclaude-sonnet-4-5-20250514\n\n# 通过OpenAI直接调用API\n.\u002Fscripts\u002Frun.sh --model openai\u002Fgpt-4o --judge openai\u002Fgpt-4o\n\n# 无头Claude CLI\n.\u002Fscripts\u002Frun.sh --model openai\u002Fgpt-4o --judge claude\n```\n\n所需的环境变量包括：`OPENROUTER_API_KEY`、`ANTHROPIC_API_KEY` 或 `OPENAI_API_KEY`，具体取决于裁判模型的前缀。\n\n## 贡献任务\n\n我们欢迎新任务！请查看 [`tasks\u002FTASK_TEMPLATE.md`](tasks\u002FTASK_TEMPLATE.md) 了解格式要求。好的任务应具备以下特点：\n\n- **真实世界** — 用户实际会请求代理完成的事情\n- **可测量** — 有明确的成功标准，可进行评分\n- **可重复** — 相同任务应产生一致的评分\n- **具有挑战性** — 测试代理的能力，而不仅仅是LLM的知识\n\n### 对话记录存档\n\n会话对话记录会自动保存到 `results\u002F{run_id}_transcripts\u002F` 目录中，与结果JSON一同存放。每个任务的完整代理对话都会以JSONL文件形式保留（例如 `task_01_calendar.jsonl`），以便后续分析。\n\n## 链接\n\n- **排行榜:** [pinchbench.com](https:\u002F\u002Fpinchbench.com)\n- **OpenClaw:** [github.com\u002Fopenclaw\u002Fopenclaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw)\n- **问题追踪:** [github.com\u002Fpinchbench\u002Fskill\u002Fissues](https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fissues)\n\n## 许可证\n\nMIT — 详情请参阅 [LICENSE](LICENSE)。\n\n---\n\n_爪式人工智能智能体测试_ 🦞","# PinchBench 快速上手指南\n\nPinchBench 是一个面向真实场景的 AI 编码智能体（Coding Agents）基准测试工具。它通过让模型执行日程安排、代码编写、邮件分类等实际任务，评估其作为 [OpenClaw](https:\u002F\u002Fgithub.com\u002Fopenclaw\u002Fopenclaw) 智能体“大脑”的表现。\n\n## 环境准备\n\n在开始之前，请确保您的系统满足以下要求：\n\n*   **操作系统**：Linux \u002F macOS \u002F Windows (WSL2 推荐)\n*   **Python 版本**：3.10 或更高\n*   **包管理器**：[uv](https:\u002F\u002Fdocs.astral.sh\u002Fuv\u002F) (推荐使用 uv 进行依赖管理)\n*   **核心依赖**：必须有一个正在运行的 **OpenClaw** 实例\n*   **API 密钥**：根据使用的模型提供商，需配置相应的环境变量（如 `OPENROUTER_API_KEY`, `ANTHROPIC_API_KEY` 或 `OPENAI_API_KEY`）\n\n> **提示**：国内开发者若访问 GitHub 或 PyPI 较慢，建议配置国内镜像源或使用代理加速网络环境。\n\n## 安装步骤\n\n1.  **克隆仓库**\n    将项目代码克隆到本地：\n    ```bash\n    git clone https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill.git\n    cd skill\n    ```\n\n2.  **安装依赖**\n    使用 `uv` 安装项目所需的 Python 依赖（项目通常包含 `pyproject.toml` 或 `requirements.txt`，uv 会自动处理）：\n    ```bash\n    uv sync\n    # 或者如果项目脚本已封装好环境，直接运行脚本即可，uv 会在内部调用\n    ```\n\n3.  **配置 API 密钥**\n    导出您所使用的模型提供商的 API 密钥。以 OpenRouter 为例：\n    ```bash\n    export OPENROUTER_API_KEY=\"your_api_key_here\"\n    ```\n    *注：如果您直接使用 Anthropic 或 OpenAI，请分别导出 `ANTHROPIC_API_KEY` 或 `OPENAI_API_KEY`。*\n\n4.  **启动 OpenClaw**\n    确保您的本地或远程环境中有一个可用的 OpenClaw 实例正在运行，因为 PinchBench 依赖其执行具体任务。\n\n## 基本使用\n\n### 1. 运行基准测试\n使用默认配置运行所有任务，并指定要测试的模型。模型 ID 必须包含提供商前缀（例如 `openrouter\u002F`）：\n\n```bash\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fanthropic\u002Fclaude-sonnet-4\n```\n\n### 2. 运行特定任务套件\n如果您只想测试特定类别的任务（例如日历和股票相关任务），可以使用 `--suite` 参数：\n\n```bash\n.\u002Fscripts\u002Frun.sh --model openrouter\u002Fopenai\u002Fgpt-4o --suite task_01_calendar,task_02_stock\n```\n\n### 3. 查看结果\n测试完成后，结果默认保存在 `results\u002F` 目录下。\n*   **JSON 结果**：包含详细的评分数据。\n*   **对话记录**：完整的智能体交互日志保存在 `results\u002F{run_id}_transcripts\u002F` 目录中，格式为 JSONL，便于后续分析。\n\n### 4. 提交至排行榜（可选）\n若希望将结果上传至官方排行榜 [pinchbench.com](https:\u002F\u002Fpinchbench.com)：\n\n*   **注册令牌**（首次使用）：\n    ```bash\n    .\u002Fscripts\u002Frun.sh --register\n    ```\n*   **自动上传**：\n    运行测试时会自动上传结果（除非添加 `--no-upload` 标志）：\n    ```bash\n    .\u002Fscripts\u002Frun.sh --model openrouter\u002Fanthropic\u002Fclaude-sonnet-4\n    ```\n\n> **注意**：模型标识符格式至关重要，必须遵循 `provider\u002Fmodel-name` 的格式（如 `openrouter\u002Fanthropic\u002Fclaude-sonnet-4`）。","某 AI 初创团队正在开发一款能自主操作电脑的智能助手（OpenClaw Agent），急需验证其核心大模型在真实办公场景下的执行能力。\n\n### 没有 PinchBench 时\n- **测试脱离实际**：团队只能依赖孤立的语法题或逻辑问答进行测试，无法评估模型能否真正调用工具完成“预订会议”或“整理邮件”等复杂任务。\n- **多步推理难验证**：面对需要连续执行搜索、代码编写、文件保存等多个步骤的任务，难以判断模型是在哪一环出错，缺乏系统的链路追踪。\n- **结果评估主观**：对于模型生成的代码是否可运行、邮件语气是否得体，往往依赖人工肉眼检查，效率低下且标准不一。\n- **环境搭建繁琐**：每次更换模型进行测试，都需要手动编写脚本模拟真实操作环境，重复劳动严重拖慢研发迭代速度。\n\n### 使用 PinchBench 后\n- **场景真实还原**：直接利用内置的 23 项真实任务（如股票数据调研、日程安排），让模型在接近真实的混乱指令和残缺信息中接受考验。\n- **全链路自动化评测**：系统自动判断模型是否正确调用了工具参数、是否成功创建了文件或发送了邮件，并给出客观的通过\u002F失败结论。\n- **多维能力量化**：不仅测试代码生成，还覆盖数据分析、长文本记忆及生态集成能力，通过公开排行榜直观对比不同模型的实战表现。\n- **一键快速基准测试**：只需一行命令即可切换不同模型（如 Claude 3.5 Sonnet 或 GPT-4o）运行全套基准测试，并自动上传结果至 leaderboard，极大提升选型效率。\n\nPinchBench 将抽象的模型能力转化为可量化的实战得分，帮助开发者精准筛选出真正能胜任复杂任务的智能体大脑。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fpinchbench_skill_362fd9bb.png","pinchbench","PinchBench","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fpinchbench_37f5c582.png","",null,"hi@kilo.ai","https:\u002F\u002Fpinchbench.com","https:\u002F\u002Fgithub.com\u002Fpinchbench",[81,85],{"name":82,"color":83,"percentage":84},"Python","#3572A5",99.8,{"name":86,"color":87,"percentage":88},"Shell","#89e051",0.2,945,100,"2026-04-07T07:06:46","MIT",4,"未说明",{"notes":96,"python":97,"dependencies":98},"需要运行一个 OpenClaw 实例。默认使用 OpenRouter 作为模型路由提供商，需配置相应的 API 密钥（如 OPENROUTER_API_KEY、ANTHROPIC_API_KEY 或 OPENAI_API_KEY）。模型 ID 必须包含提供商前缀（例如 openrouter\u002F 或 anthropic\u002F）。","3.10+",[99],"uv",[35,13,101],"其他","2026-03-27T02:49:30.150509","2026-04-07T22:49:54.531145",[105,110,115,120,124,129],{"id":106,"question_zh":107,"answer_zh":108,"source_url":109},23069,"如何在测试运行结束时查看包含详细任务得分和类别细分的总结报告？","测试运行结束后会输出详细的分数总结，包含总体得分、各类别得分率以及每个具体任务的得分情况。输出格式示例如下：\n\n================================================================================\n🦀 PINCHBENCH SCORE SUMMARY\n================================================================================\n\n   Overall Score: 86.0% (19.9 \u002F 23.0)\n\n   BASIC (100.0%)\n   • hello_world: 1.0\u002F1.0\n\n   CALENDAR (83.0%)\n   • create_event: 0.83\u002F1.0\n\n   CODING (100.0%)\n   • fix_bug: 1.0\u002F1.0\n   • write_test: 1.0\u002F1.0\n   ...\n================================================================================\n\n这允许用户在本地运行测试时，无需提交官方结果即可直接对比 pinebench 网站上的分数数据。","https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fissues\u002F41",{"id":111,"question_zh":112,"answer_zh":113,"source_url":114},23070,"如何检测模型在连续多次基准测试中的性能回归或提升趋势？","可以使用 `RunTrendAnalyzer` 工具来分析连续运行的趋势。该工具会读取输出目录中所有 `{run_id}_{model_slug}.json` 文件，按时间戳排序，计算得分的线性回归斜率（OLS slope），并标记是否存在性能回归。\n\n使用方法涉及导入 `scripts\u002Flib_trend.py` 中的类，它可以生成包含以下信息的报告：\n- 模型名称和运行次数\n- 斜率（slope）：负值表示回归，正值表示提升\n- 是否检测到回归（基于设定的阈值，默认为 -0.5）\n- 任务数量是否变化的警告\n\n报告摘要示例：\"▼ REGRESSION: model_name slope=-0.75%\u002Frun over last 10 runs (threshold=-0.50)\"。如果任务数量在不同运行间发生变化，报告中还会附加警告信息以提供上下文。","https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fissues\u002F101",{"id":116,"question_zh":117,"answer_zh":118,"source_url":119},23071,"基准测试中支持哪些最新的 LLM 模型？如何添加新模型？","基准测试通过 OpenRouter 集成多种最新模型。当前已包含的模型系列包括：\n- GPT-5 系列：`gpt-5.4`, `gpt-5-mini`, `gpt-5-nano`\n- Claude 系列：`claude-opus-4.5\u002F4.6`, `claude-sonnet-4.5\u002F4.6`, `claude-haiku-4.5`\n- Gemini 系列：`gemini-2.5-pro`, `gemini-2.5-flash` 等\n- Llama 4 系列：`llama-4-maverick`, `llama-4-scout`\n- 其他：`qwen3-max-thinking`, `minimax-m2.1`, `mistral-large` 等\n\n若要添加新模型，需确保该模型在 OpenRouter 上可用并使用其 OpenRouter ID（例如 `provider\u002Fmodel-name`）。部分模型如 GPT-4.5 可能不存在独立型号，而 Claude 的新版本可能使用不同的命名规则（如 `claude-opus-4.5`）。用户可以通过提交 PR 更新模型列表配置。","https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fissues\u002F30",{"id":121,"question_zh":122,"answer_zh":123,"source_url":119},23072,"为什么某些参数量较小的模型（如 GPT-5-nano）在特定任务上的表现优于参数量较大的模型（如 GPT-5.2）？","参数量较小的模型有时在结构化任务上表现更好，这通常是因为它们更新或经过了更好的微调。具体的性能差异需要深入分析特定任务的失败案例才能确定原因。例如，GPT-5-nano 可能在某些编码或逻辑任务上比 GPT-5.2 更高效，尽管其参数量较少。建议查看具体的任务日志和错误输出来理解这种差距。",{"id":125,"question_zh":126,"answer_zh":127,"source_url":128},23073,"是否可以自定义基准测试使用的模型和评判（Judge）模型，而不局限于 OpenRouter？","是的，现在完全支持自定义模型和评判模型，不再硬编码为 OpenRouter。\n\n1. **测试模型 (`--model`)**：可以传入任何 OpenClaw 实例支持的提供商前缀。\n   示例命令：\n   ```bash\n   .\u002Fscripts\u002Frun.sh --model anthropic\u002Fclaude-sonnet-4      # 直接调用 Anthropic\n   .\u002Fscripts\u002Frun.sh --model openrouter\u002Fopenai\u002Fgpt-4o       # 通过 OpenRouter\n   .\u002Fscripts\u002Frun.sh --model my-local\u002Fllama-3               # 本地提供商\n   ```\n\n2. **评判模型 (`--judge`)**：可以通过 `--judge` 标志覆盖默认的评判模型（默认为 `openrouter\u002Fanthropic\u002Fclaude-opus-4.5`）。\n   示例命令：\n   ```bash\n   .\u002Fscripts\u002Frun.sh --model anthropic\u002Fclaude-sonnet-4 --judge anthropic\u002Fclaude-opus-4.5\n   ```\n\nREADME 文档中已详细记录了这两个参数的用法。","https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fissues\u002F16",{"id":130,"question_zh":131,"answer_zh":132,"source_url":114},23074,"如果基准测试结果文件中出现 JSON 解析错误或文件读取错误，趋势分析工具会如何处理？","`RunTrendAnalyzer` 采用了精确的异常处理机制。在读取结果文件时，如果遇到 `json.JSONDecodeError`（文件格式错误）或 `OSError`（权限或读取错误），工具会静默跳过该文件（silent pass），继续处理其他有效文件，而不会中断整个分析过程。这种设计确保了即使个别运行记录损坏，也不会影响对整体趋势的判断。",[134,139,144,149],{"id":135,"version":136,"summary_zh":137,"released_at":138},136782,"v1.2.1","## 变更内容\n\n### 基础设施\n\n- **修复：在发布工作流中使用 RELEASE_PAT** — 修复了发布工作流，使其在更新 BENCHMARK_VERSION 时绕过分支保护 (#118)\n\n这是一个补丁版本，用于测试自动化的版本号递增工作流。\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fcompare\u002Fv1.2.0...v1.2.1","2026-04-06T21:07:07",{"id":140,"version":141,"summary_zh":142,"released_at":143},136783,"v1.2.0","## 变更内容\n\n### 新功能\n\n- **自定义兼容 OpenAI 的端点** — 使用 `--base-url` 和 `--api-key` 标志，可针对本地推理服务器、Together、Fireworks 或任何兼容 OpenAI 的 API 进行基准测试 (#84)\n- **直接 API 评判后端** — 新增 `--judge` 标志，绕过 OpenClaw 人格文件，直接获取评判者的纯 JSON 响应 (#87)\n- **RunTrendAnalyzer** — 新的分析工具，通过统计趋势分析检测各次运行中的分数下降情况 (#104)\n- **会话记录归档** — 现在会在清理之前归档会话记录，以便于运行后的调试 (#88)\n\n### 新任务\n\n- **task_24_polymarket_briefing** — 预测市场与新闻交叉引用分析 (#78)\n- **task_25_access_log_anomaly** — 物理门禁日志异常检测（由 task_24 重命名而来）(#90)\n\n### 错误修复\n\n- 修复 `_remove_readonly()` 函数重复定义导致的缩进错误 (#85)\n- 修复 task_01 打分逻辑：拒绝凌晨 3 点的时间，并收紧下午 3 点的时间匹配规则 (#95)\n- 修复 task_17：将预期邮件数量从 12 封修正为 11 封 (#102)\n- 修复 Windows 兼容性及打分正确性问题 (#74)\n- 将评判者总分归一化至 0–1 尺度 (#73)\n- 修复测试文件中的 ruff E402 代码风格检查错误 (#91)\n\n### 基础设施\n\n- RunTrendAnalyzer 的全面测试套件（共 12 个测试用例）\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fcompare\u002Fv1.1.0...v1.2.0","2026-04-06T20:58:12",{"id":145,"version":146,"summary_zh":147,"released_at":148},136784,"v1.1.0","## 新增内容\n\n### 主要功能\n- **多会话支持** - 基准测试任务现在可在多个会话中运行，以实现更好的隔离性和可靠性\n- **快速失败的健全性检查** - 无效的 OpenRouter 模型名称和配置问题将被立即捕获，而不会在运行中途失败\n- **分数摘要日志记录** - 最终结果包含提交 ID 和摘要统计信息，便于跟踪\n\n### 错误修复\n- **任务 10 批改器兼容性** - 现在同时支持 `read` 和 `read_file` 工具名称（与 OpenClaw\u002FClaude Code 兼容）\n- **代理 ID 规范化** - 修复了代理 ID 中包含特殊字符导致路径问题的情况\n- **模型别名规范化** - 模型名称现已全部转为小写，以确保代理和会话路径的一致性\n- **引导文件处理** - 移除了导致 NO_REPLY 问题的冲突工作区文件\n- **技能复制** - 修复了技能未能正确复制到基准测试工作区的问题\n\n### 代码质量\n- 在 CI 中添加了 Ruff 代码风格检查和编译检查\n- 修复了健全性检查失败时的语法错误\n- 优化了评审反馈流程\n\n**完整变更日志**：https:\u002F\u002Fgithub.com\u002Fpinchbench\u002Fskill\u002Fcompare\u002Fv1.0.0...v1.1.0","2026-03-19T14:39:31",{"id":150,"version":151,"summary_zh":152,"released_at":153},136785,"1.0.0","# PinchBench 1.0.0 发行说明\n\n## 概述\n\nPinchBench 1.0.0 标志着我们的首个稳定版本——一个完全自动化的开源大模型基准测试平台，用于衡量 AI 编码代理在处理真实世界开发任务时的表现。此次发布汇集了我们在技能框架、API 后端、排行榜前端以及编排基础设施方面四个月的开发成果。\n\n---\n\n## 新功能\n\n### 🏆 官方基准提交\n现在可以使用已认证的 API 密钥将基准测试运行标记为“官方”。官方提交将在排行榜上显示验证徽章，并在排名中获得优先权。这使得来自经过验证基础设施的可信且可复现的基准测试结果成为可能。\n\n### 👤 GitHub OAuth 集成\n用户现在可以通过 GitHub OAuth 来认领自己的基准测试提交。认领流程会自动将提交与您的 GitHub 个人资料关联，并重定向到包含您公开个人资料链接的个性化成功页面。\n\n### 🖥️ 硬件元数据展示\n提交详情页面现在会显示每次基准测试运行的底层硬件信息，包括 CPU、内存和实例规格——这些信息对于解释性能差异至关重要。\n\n### 🎲 随机化模型分配\n编排层现在会将模型随机分配到 Vultr 实例上，以避免因实例特定性能差异带来的偏差，从而确保更公平的基准测试比较。\n\n### 🔧 Reaper：自动化清理\n新增自动化清理脚本 (`reaper.sh`)，用于识别并终止因中断的基准测试运行而遗留下来的过期 Vultr 实例，从而降低基础设施成本并防止资源泄漏。\n\n---\n\n## 改进\n\n### API 和后端\n- **模型元数据端点** (`\u002Fapi\u002Fmodels`) 现在提供更丰富的模型信息，并带有提供商回退机制。\n- **免费后缀规范化**——对模型名称进行规范化处理，去除 `:free` 后缀，以实现一致的标识。\n- 在管理面板中添加可点击的提交 ID，以便更快地导航。\n- 新增“管理员用户”选项卡，用于管理用户的认领和提交。\n- **零分提交清理**——管理员可以直接从面板中删除失败或得分为零的提交。\n\n### 排行榜前端\n- 默认分数显示由“最佳”改为“平均”，以提供更具代表性的排名。\n- 进行了 SEO 优化，包括生成站点地图、添加元标签、robots.txt 文件以及 UTM 参数跟踪。\n- 条形图中的模型名称列宽度增加，以提高可读性。\n- 在视觉主题中新增 NVIDIA 提供商的颜色。\n\n### 基准测试技能\n- 在每次基准测试运行结束时显示类别级别的分数汇总。\n- 新增详细日志模式 (`--verbose`) 以获取详细的调试输出。\n- 在每次评分后立即记录任务分数，以便更好地了解进度。\n- 扩展模型列表，纳入所有排行榜上的模型以及新增的模型（Amazon Nova、NVIDIA Nemotron、Z-AI GLM-5 等）。\n\n### 编排脚本\n- 默认工作进程数从 10 增加到 25，以加快速度。","2026-03-17T16:31:54"]