Spider2

774 126 较难 1 次阅读昨天MIT语言模型Agent其他

AI 解读由 AI 自动生成，仅供参考

Spider2 是一个专为评估大语言模型在真实企业场景中“文本转 SQL"能力而设计的开源基准测试平台。作为知名数据集 Spider 的升级版，它解决了以往评测过于依赖简化数据库、无法反映企业级复杂工作流（如多表关联、存储过程及动态数据更新）的痛点，让模型能力的衡量更贴近实际生产需求。

该工具主要面向 AI 研究人员、大模型开发者以及致力于构建数据分析助手的技术团队。其核心亮点在于引入了基于 Snowflake 云数据仓库的真实企业数据集，并提供了从轻量级本地测试到云端完整流程的多种评估模式。此外，Spider2 还配套发布了高效的 Spider-Agent 框架，支持基于工具调用的智能体架构，无需复杂的 Docker 环境即可快速运行，显著提升了评测效率与稳定性。无论是想要验证新模型的 SQL 生成准确率，还是希望优化现有数据智能体的工程落地表现，Spider2 都能提供权威、动态且贴近实战的评测支持，帮助社区共同推动语言模型在数据分析领域的可靠应用。

使用场景

某大型电商公司的数据团队正试图让业务分析师通过自然语言直接查询复杂的 Snowflake 数据仓库，以快速获取每日销售报表。

没有 Spider2 时

评估失真：团队使用旧版基准测试模型，发现模型在简单查询上表现完美，但一旦部署到包含多表关联和嵌套逻辑的真实企业环境中，准确率断崖式下跌。
场景缺失：缺乏涵盖真实企业工作流（如跨库连接、复杂过滤）的测试集，导致无法预判模型在处理实际业务问题时的边界能力。
调试黑盒：当生成的 SQL 报错时，由于缺少标准化的错误分类和对比基线，开发人员难以区分是模型逻辑缺陷还是数据库架构理解偏差，排查耗时极长。

使用 Spider2 后

真实对标：利用 Spider2 提供的基于真实企业环境的 Text-to-SQL 工作流评测集，团队准确测出模型在复杂场景下的真实性能，避免了“实验室高分、生产低能”的陷阱。
流程覆盖：借助其涵盖的 68 个仓库级任务和 Snowflake 真实数据环境，全面验证了模型在处理多步推理和企业级 schema 时的稳定性。
精准优化：通过官方更新的评估套件和标准金表（Gold Tables），团队快速定位模型在特定语法结构上的弱点，针对性调整 Prompt 策略，显著提升了上线成功率。

Spider2 的核心价值在于它将大模型的 SQL 能力评估从“玩具级”简单查询拉回到了充满挑战的真实企业战场，为落地应用提供了可信的标尺。

运行环境要求

操作系统

未说明

GPU

未说明

内存

未说明

依赖

notes该工具主要用于评估大语言模型在真实企业级 Text-to-SQL 工作流中的表现，本身不直接提供模型训练或推理的本地环境需求。运行不同数据集（Spider2-Lite, Spider2-Snow, Spider2-DBT）需要配置相应的外部数据库账户：1. Spider2-Lite 需自行注册 BigQuery 和 Snowflake 账户并配置凭证；2. Spider2-Snow 需填写申请表获取 Snowflake 访问权限（支持免 Docker 的 Tool-call 模式或基于 Docker 的模式）；3. Spider2-DBT 使用 DuckDB。具体实现参考官方提供的 spider-agent 系列方法。

python未说明

未说明

快速开始

Spider 2.0：在真实企业级文本到SQL工作流上评估语言模型

官网 • 论文 • 数据更新日志 • 提交指南

📰 新闻

2025-11-06: 对于近期因Snowflake密码与多因素认证策略升级而导致的登录及凭证问题，我们深表歉意。无论是Web UI登录还是Python凭证访问的行为都已发生变化。
请在继续操作前仔细阅读更新后的Snowflake使用指南： https://github.com/xlang-ai/Spider2/blob/main/assets/Snowflake_Guideline.md
感谢您的耐心与理解！
2025-10-29: 重大更新！
1. 我们修复了评估套件的问题，因此分数现在更加准确和稳定。同时，我们也刷新了排行榜上受影响的方法。
2. 如果您愿意承担Snowflake托管费用（默认情况下spider2-snow是免费的，但查询会被排队），我们可以直接将Spider2的Snowflake数据共享到您自己的Snowflake项目中。详情请参阅Spider2_Data_Host.md。
3. 如果您遇到MF2A连接错误——即您的凭证无法访问Snowflake仓库——请检查。详情请参阅Snowflake指南。
2025-07-13: 我们更新了spider2-snow.jsonl，以解决其中存在的歧义问题；旧版本则更名为spider2-snow-0713.jsonl，供参考。
2025-06-10: 我们为Spider 2.0-Snow实现了一个基于工具调用的Spider-Agent，该方法无需Docker，且显著提升了运行性能。
2025-05-22: 我们创建了一个新的任务设置Spider2-DBT，并移除了原有的Spider2设置。spider2-dbt仅包含68个任务，能够配合spider-agent-dbt进行快速流畅的基准测试。这是一个全面的、基于代码库级别的文本到SQL任务。
2025-04-20: 我们提供了黄金标准表，适用于spider2-lite和spider2-snow，以帮助快速进行基准测试和分析。然而，在使用此设置时，您必须注明正在使用“Oracle表”。
2025-01-10: 请参考数据更新日志，以跟踪评估示例的变化。排行榜的结果也将相应动态调整。

2024-12-24: 考虑到众多评估需求，我们决定公开所有示例及黄金答案供自行评估。然而，可用的黄金SQL数量较少。排行榜目前仍处于活跃状态。如需正式验证您的方法并将成绩上传至排行榜，请遵循提交指南。

👋 概述

本地图片

设置	任务类型	#示例	数据库	成本
Spider 2.0-Snow	文本到SQL任务	547	Snowflake(547)	无需任何费用！😊
Spider 2.0-Lite	文本到SQL任务	547	BigQuery(214), Snowflake(198), SQLite(135)	会产生一定费用
Spider 2.0-DBT	代码代理任务	68	DuckDB (DBT)(68)	无需任何费用！😊

数据

问题/说明位于 spider2-lite.jsonl 和 spider2-snow.jsonl 中。

我们还发布了一些黄金 SQL，以帮助用户设计提示和方法，请注意，我们不建议将发布的 Spider 2.0 黄金 SQL 用于微调。

🚀 快速入门（Spider2-lite/snow）

注册您自己的 BigQuery 和 Snowflake 账户

若要注册 BigQuery 账户，请按照此指南，获取您自己的凭据。
按照此指南，并填写此Spider2 Snowflake 访问申请，我们将向您发送账户注册邮件，以便您访问 Snowflake 数据库。

重要提示：

如果您想访问 Spider 2.0-Lite 的完整数据集，则必须完成步骤1和步骤2。
如果您只想访问 Spider 2.0-Snow 的完整数据集，则只需完成步骤2。

Spider 2.0-Snow（工具调用格式，更新于 2025-06-10）

一种无需 Docker 的超快速 Spider-Agent 实现，可用于对任何模型进行快速基准测试。

spider-agent-tool-call

Spider 2.0-Snow 和 Spider 2.0-Lite（基于 Docker）

我们强烈建议您直接使用 Spider2-snow 和 Spider2-lite 进行基准测试和研究。首先，请运行 Spider-Agent 框架！！

有关更多详细信息，请参阅以下链接：

🚀 快速入门（Spider2-dbt）

有关更多详细信息，请参阅以下链接：

spider2-dbt（数据）
spider-agent-dbt（方法）

📋 排行榜提交

我们仅发布了 Spider 2.0-Lite、Spider 2.0-Snow 和 Spider 2.0-DBT 部分示例的黄金答案。您必须遵循此提交指南才能将您的成绩上传至排行榜。

🙇‍♂️ 致谢

我们感谢 Snowflake 对举办 Spider 2.0 挑战赛提供的慷慨支持。我们还要感谢 Deng Minghang、Xie Tianbao、Xu Yiheng、Zhou Fan、Lan Yuting、Jacobsson Per、Huang Yiming、Xu Canwen、Yao Zhewei 和 Hui Binyuan 对本工作提出的有益反馈。本网站及提交指南深受 BIRD-SQL 的启发，我们感谢他们的贡献。

✍️ 引用

如果您认为我们的工作有所帮助，请按如下方式引用：

@misc{lei2024spider2,
      title={Spider 2.0: 在真实企业文本到 SQL 工作流上评估语言模型}, 
      author={Lei Fangyu、Chen Jixuan、Ye Yuxiao、Cao Ruisheng、Shin Dongchan、Su Hongjin、Suo Zhaoqing、Gao Hongcheng、Hu Wenjing、Yin Pengcheng、Zhong Victor、Xiong Caiming、Sun Ruoxi、Liu Qian、Wang Sida、Yu Tao},
      year={2024},
      eprint={2411.07763},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.07763}, 
}

Spider 2.0 快速上手指南

Spider 2.0 是一个用于评估大语言模型在真实企业级 Text-to-SQL 工作流中表现的基准测试工具。它涵盖了复杂的数据库环境（如 Snowflake, BigQuery, SQLite）和多步骤的代码代理任务。

环境准备

系统要求

操作系统: Linux, macOS 或 Windows (推荐 Linux/macOS 以获得最佳兼容性)
Python: 3.8 或更高版本
Docker: 必须安装并运行（针对 spider2-lite 和旧版 spider2-snow 方法）。
- 注：新版 spider-agent-tc (Tool-call) 无需 Docker。
账户凭证:
- Snowflake: 所有用户必须拥有 Snowflake 访问凭证。
- BigQuery: 仅在使用 spider2-lite 完整数据集时需要。

前置依赖

确保已安装 Git 和 Python 包管理工具。你需要准备以下云数据库账户：

Snowflake 账户: 需填写访问申请表获取官方提供的数据库访问权限，或自行托管数据。
BigQuery 账户 (可选): 仅当需要运行 spider2-lite 全量测试时，需按 BigQuery 指南配置。

重要提示: 由于 Snowflake 近期升级了密码和 MFA 策略，请务必在阅读代码前仔细查阅最新的 Snowflake 配置指南，否则可能导致登录失败。

安装步骤

1. 克隆仓库

git clone https://github.com/xlang-ai/Spider2.git
cd Spider2

2. 安装 Python 依赖

建议创建虚拟环境以避免冲突：

python -m venv venv
source venv/bin/activate  # Windows 用户使用: venv\Scripts\activate
pip install -r requirements.txt

(注：如果根目录没有 requirements.txt，请进入具体的方法文件夹，如 methods/spider-agent-snow 进行安装)

3. 配置凭证

根据你选择的测试场景配置环境变量或配置文件：

Snowflake: 按照 Snowflake_Guideline.md 配置 snowflake_connection.json 或相关环境变量。
BigQuery: 配置 GOOGLE_APPLICATION_CREDENTIALS 指向你的服务账号密钥文件。

基本使用

Spider 2.0 提供了多种 Agent 实现，推荐使用最新的 Tool-call 版本（无需 Docker，速度更快）或标准的 Docker 版本。

方案 A：使用 Spider 2.0-Snow (Tool-call 模式，推荐)

此模式无需 Docker，运行速度快，适合快速基准测试。

cd methods/spider-agent-tc

运行评估脚本（示例）：

python run_eval.py --model_name gpt-4o --dataset spider2-snow

请将 gpt-4o 替换为你想要测试的模型名称，并确保已配置对应的 API Key。

方案 B：使用 Spider 2.0-Snow / Lite (Docker 模式)

如果你需要测试包含复杂环境依赖的 spider2-lite 或使用标准 Docker 框架：

cd methods/spider-agent-snow

启动 Docker 容器并运行评估：

# 构建并运行 (具体命令请参考该目录下的 README)
docker-compose up --build

或者直接在宿主机器运行（需确保 Docker 守护进程已启动）：

python run_evaluation.py --config config/snowflake_config.json

方案 C：使用 Spider 2.0-DBT (代码代理任务)

针对 DBT 任务的轻量级测试：

cd methods/spider-agent-dbt

运行测试：

python run_dbt_eval.py --model_name your-model

输出结果

运行完成后，系统将生成 CSV 格式的评估结果文件。你可以对照部分公开的 Gold SQL 进行自查，若需提交成绩至官方排行榜，请遵循提交指南。

常见问题

Spider 2.0 的完整数据集在哪里？为什么只发布了部分数据？

如何区分 Spider 2.0 中不同数据库类型（BigQuery, Snowflake, SQLite）的数据集 ID？

运行 Spider-Agent 时遇到 "IndexError: list index out of range" 或找不到 postgres 设置文件的错误怎么办？

找不到 BowlingLeague、electronic_sales 等 SQLite 数据库文件怎么办？

使用 Snowflake 数据集时遇到 "No active warehouse selected" 错误或账户被暂停怎么办？

Snowflake 数据集的主机服务会持续多久？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|昨天

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|2天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 143.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 107.9k|★★☆☆☆|昨天

开发框架图像Agent

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|昨天

语言模型图像Agent

Deep-Live-Cam

Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。

★ 88.9k|★★★☆☆|2天前

开发框架图像Agent