[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"similar-xlang-ai--Spider2":3,"tool-xlang-ai--Spider2":61},[4,18,26,36,44,52],{"id":5,"name":6,"github_repo":7,"description_zh":8,"stars":9,"difficulty_score":10,"last_commit_at":11,"category_tags":12,"status":17},4358,"openclaw","openclaw\u002Fopenclaw","OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。\n\n这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。\n\nOpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你",349277,3,"2026-04-06T06:32:30",[13,14,15,16],"Agent","开发框架","图像","数据工具","ready",{"id":19,"name":20,"github_repo":21,"description_zh":22,"stars":23,"difficulty_score":10,"last_commit_at":24,"category_tags":25,"status":17},3808,"stable-diffusion-webui","AUTOMATIC1111\u002Fstable-diffusion-webui","stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。\n\n无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。",162132,"2026-04-05T11:01:52",[14,15,13],{"id":27,"name":28,"github_repo":29,"description_zh":30,"stars":31,"difficulty_score":32,"last_commit_at":33,"category_tags":34,"status":17},1381,"everything-claude-code","affaan-m\u002Feverything-claude-code","everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。\n\n通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。\n\n这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上",144730,2,"2026-04-07T23:26:32",[14,13,35],"语言模型",{"id":37,"name":38,"github_repo":39,"description_zh":40,"stars":41,"difficulty_score":32,"last_commit_at":42,"category_tags":43,"status":17},2271,"ComfyUI","Comfy-Org\u002FComfyUI","ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。\n\n这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。\n\n无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。",107888,"2026-04-06T11:32:50",[14,15,13],{"id":45,"name":46,"github_repo":47,"description_zh":48,"stars":49,"difficulty_score":10,"last_commit_at":50,"category_tags":51,"status":17},4487,"LLMs-from-scratch","rasbt\u002FLLMs-from-scratch","LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。\n\n该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。\n\nLLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备",90106,"2026-04-06T11:19:32",[35,15,13,14],{"id":53,"name":54,"github_repo":55,"description_zh":56,"stars":57,"difficulty_score":10,"last_commit_at":58,"category_tags":59,"status":17},4292,"Deep-Live-Cam","hacksider\u002FDeep-Live-Cam","Deep-Live-Cam 是一款专注于实时换脸与视频生成的开源工具，用户仅需一张静态照片，即可通过“一键操作”实现摄像头画面的即时变脸或制作深度伪造视频。它有效解决了传统换脸技术流程繁琐、对硬件配置要求极高以及难以实时预览的痛点，让高质量的数字内容创作变得触手可及。\n\n这款工具不仅适合开发者和技术研究人员探索算法边界，更因其极简的操作逻辑（仅需三步：选脸、选摄像头、启动），广泛适用于普通用户、内容创作者、设计师及直播主播。无论是为了动画角色定制、服装展示模特替换，还是制作趣味短视频和直播互动，Deep-Live-Cam 都能提供流畅的支持。\n\n其核心技术亮点在于强大的实时处理能力，支持口型遮罩（Mouth Mask）以保留使用者原始的嘴部动作，确保表情自然精准；同时具备“人脸映射”功能，可同时对画面中的多个主体应用不同面孔。此外，项目内置了严格的内容安全过滤机制，自动拦截涉及裸露、暴力等不当素材，并倡导用户在获得授权及明确标注的前提下合规使用，体现了技术发展与伦理责任的平衡。",88924,"2026-04-06T03:28:53",[14,15,13,60],"视频",{"id":62,"github_repo":63,"name":64,"description_en":65,"description_zh":66,"ai_summary_zh":66,"readme_en":67,"readme_zh":68,"quickstart_zh":69,"use_case_zh":70,"hero_image_url":71,"owner_login":72,"owner_name":73,"owner_avatar_url":74,"owner_bio":75,"owner_company":76,"owner_location":76,"owner_email":76,"owner_twitter":77,"owner_website":78,"owner_url":79,"languages":80,"stars":104,"forks":105,"last_commit_at":106,"license":107,"difficulty_score":108,"env_os":109,"env_gpu":109,"env_ram":109,"env_deps":110,"category_tags":113,"github_topics":76,"view_count":32,"oss_zip_url":76,"oss_zip_packed_at":76,"status":17,"created_at":115,"updated_at":116,"faqs":117,"releases":147},5273,"xlang-ai\u002FSpider2","Spider2","[ICLR 2025 Oral] Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows","Spider2 是一个专为评估大语言模型在真实企业场景中“文本转 SQL\"能力而设计的开源基准测试平台。作为知名数据集 Spider 的升级版，它解决了以往评测过于依赖简化数据库、无法反映企业级复杂工作流（如多表关联、存储过程及动态数据更新）的痛点，让模型能力的衡量更贴近实际生产需求。\n\n该工具主要面向 AI 研究人员、大模型开发者以及致力于构建数据分析助手的技术团队。其核心亮点在于引入了基于 Snowflake 云数据仓库的真实企业数据集，并提供了从轻量级本地测试到云端完整流程的多种评估模式。此外，Spider2 还配套发布了高效的 Spider-Agent 框架，支持基于工具调用的智能体架构，无需复杂的 Docker 环境即可快速运行，显著提升了评测效率与稳定性。无论是想要验证新模型的 SQL 生成准确率，还是希望优化现有数据智能体的工程落地表现，Spider2 都能提供权威、动态且贴近实战的评测支持，帮助社区共同推动语言模型在数据分析领域的可靠应用。","# Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fspider2-sql.github.io\u002F\">Website\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07763\">Paper\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1a69mxO7m1nMndXp8H_-aggvYDbcbiS3rV9GPXEw-DeM\u002Fedit?usp=sharing\">Data Update Log\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1sCobAqJZcko-Vl3biOycwvCIR7kTwBPrhsgVfvaX1Fg\u002Fedit?usp=sharing\">Submission Guidance\u003C\u002Fa>\n\u003C\u002Fp>\n\n## 📰 News \n\n- **2025-11-06**: We apologize for the recent Snowflake login and credential issues caused by Snowflake’s password & MFA policy upgrade. Both **Web UI login** and **Python credential access** behaviors have changed.  \n  Please **carefully review the updated Snowflake guideline** before continuing:\n  https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSnowflake_Guideline.md  \n  Thank you for your patience and understanding!\n\n- **2025-10-29**: Major update!\n  1. We fixed the evaluation-suite issue, so scores are now more accurate and stable. We also refreshed the affected methods on the [leaderboard](https:\u002F\u002Fspider2-sql.github.io\u002F).\n  2. If you are willing to cover the Snowflake hosting cost (spider2-snow is free by default, but queries are queued), we can share the Spider2 Snowflake data directly to your own Snowflake project. See [Spider2_Data_Host.md](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSpider2_Data_Host.md) for details.\n  3. If you run into MF2A connection errors—meaning your credentials cannot access the Snowflake warehouse—check. Please see [Snowflake Guideline](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSnowflake_Guideline.md).\n\n\n- **2025-07-13**: We update [`spider2-snow.jsonl`](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fspider2-snow\u002Fspider2-snow.jsonl) to resolve ambiguities, with the previous version renamed to [`spider2-snow-0713.jsonl`](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fspider2-snow\u002Fspider2-snow-0713.jsonl) for reference.\n\n- **2025-06-10**: We implemented a [tool-call-based Spider-Agent](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-tc) for Spider 2.0-Snow that requires no Docker and significantly improves runtime performance.\n\n- **2025-05-22**: We have created a new task setting, `Spider2-DBT`, and removed the original Spider2 setting. [spider2-dbt](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-dbt) consists of only 68 tasks, enabling quick and smooth benchmarking with [spider-agent-dbt](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-dbt). It is a comprehensive, repository-level text-to-SQL task.\n\n- **2025-04-20**: We provide the [ground-truth tables](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fgold-tables) for spider2-lite and spider2-snow to help quick benchmarking and analysis. However, when using this setting, you must indicate that you are using `oracle tables`.\n\n- **2025-01-10**: Please refer to the [data update log](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1a69mxO7m1nMndXp8H_-aggvYDbcbiS3rV9GPXEw-DeM\u002Fedit?usp=sharing) to track changes in the evaluation examples. The [leaderboard](https:\u002F\u002Fspider2-sql.github.io\u002F) results will also change dynamically accordingly.\n\n\u003C!-- - **2025-01-07**: Please note that we do not recommend using the Spider 2.0 Gold SQL we released for SFT, as it may affect the fairness of evaluation and hinder better benchmarking of the model's SQL capabilities. The release of Gold SQL is intended to help users design prompts.\n\n- **2024-12-26**: **Using Spider-Agent to benchmark your LLMs!** Considering the widespread attention to the traditional text-to-SQL setting, we now recommend using [spider-agent-lite](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-lite) and [spider-agent-snow](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-snow) to work with [spider2-lite](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-lite\u002Fevaluation_suite) and [spider2-snow](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-snow\u002Fevaluation_suite) for benchmarking your LLMs. The final output should be CSV files, not SQLs. -->\n\n- **2024-12-24**: Considering the many evaluation requirements, we have decided to **release all examples and gold answers for self-evaluation**. However, only a small amount of gold SQL is available. The leaderboard is still active. To have your method officially validated and upload your scores to the leaderboard, please follow the [submission guidance](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1sCobAqJZcko-Vl3biOycwvCIR7kTwBPrhsgVfvaX1Fg\u002Fedit?usp=sharing).\n\n\n\n\n## 👋 Overview\n\n\n![Local Image](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_Spider2_readme_db79a0253869.png)\n\n\u003Cdiv style=\"width: 10%; margin: auto;\">\n  \u003Ctable style=\"font-size: 12px; width: 100%;\">\n    \u003Ctr>\n      \u003Cth>Setting\u003C\u002Fth>\n      \u003Cth>Task Type\u003C\u002Fth>\n      \u003Cth>#Examples\u003C\u002Fth>\n      \u003Cth>Databases\u003C\u002Fth>\n      \u003Cth>Cost\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Spider 2.0-Snow\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Text-to-SQL task\u003C\u002Ftd>\n      \u003Ctd>547\u003C\u002Ftd>\n      \u003Ctd>Snowflake(547)\u003C\u002Ftd>\n      \u003Ctd>\u003Cspan style=\"color: red;\">NO COST!😊\u003C\u002Fspan>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Spider 2.0-Lite\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Text-to-SQL task\u003C\u002Ftd>\n      \u003Ctd>547\u003C\u002Ftd>\n      \u003Ctd>BigQuery(214), Snowflake(198), SQLite(135)\u003C\u002Ftd>\n      \u003Ctd>Some cost incurred\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Spider 2.0-DBT\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>Code agent task\u003C\u002Ftd>\n      \u003Ctd>68\u003C\u002Ftd>\n      \u003Ctd>DuckDB (DBT)(68)\u003C\u002Ftd>\n      \u003Ctd>NO COST!😊\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n\n\u003C!-- ### Why Spider 2.0?\n\nIn 2018, we introduced [Spider 1.0](https:\u002F\u002Fyale-lily.github.io\u002Fspider), [SParC](https:\u002F\u002Fyale-lily.github.io\u002Fsparc), and [CoSQL](https:\u002F\u002Fyale-lily.github.io\u002Fcosql) as part of the Yale Semantic Parsing and Text-to-SQL Challenge Series, attracting over 300 submissions from leading research labs worldwide.\n\nNow, in the era of Large Language Models (LLMs), we present Spider 2.0 to advance code generation, particularly text-to-SQL capabilities.\n\nThis new benchmark offers a more realistic and challenging test of LLMs' performance on complex enterprise-level text-to-SQL workflows, involving complex data environments (e.g., >3000 columns), multiple SQL dialects (e.g., BigQuery, Snowflake), and diverse operations (e.g., transformation, analytics).\n\nNotably, as shown below, even the most advanced LLMs, including GPT-4, solve only 6.0% of Spider 2.0 tasks, compared to 86.6% on Spider 1.0 and 57.4% on BIRD, highlighting the significant challenges posed by Spider 2.0.\n\n|                 | Spider 1.0 dev | Spider 1.0 test | BIRD test | Spider 2.0-lite | Spider 2.0-snow |\n| --------------- | -------------- | --------------- | --------- | --------------- | --------------- |\n| DailSQL + GPT-4 | 82.4           | 86.6            | 57.4      | 5.6             | 2.2             |\n| CodeS-15B       | 85.4           | -               | 59.3      | 0.7             | 0.0             | -->\n\n\n### Data\n\nThe questions\u002Finstructions are in [spider2-lite.jsonl](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fspider2-lite\u002Fspider2-lite.jsonl) and [spider2-snow.jsonl](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fspider2-snow\u002Fspider2-snow.jsonl).\n\nWe also release some gold SQLs to help users design prompts and methods, **note that we do not recommend using the Spider 2.0 Gold SQL we released for fine-tuning**.\n\n- [spider2-lite-goldSQL](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-lite\u002Fevaluation_suite\u002Fgold\u002Fsql)\n- [spider2-snow-goldSQL](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-snow\u002Fevaluation_suite\u002Fgold\u002Fsql)\n\n\n\n## 🚀 Quickstart (Spider2-lite\u002Fsnow)\n\n### Sign Up for Your Own BigQuery and Snowflake Accounts\n\n1. To sign up for a BigQuery account, please follow this [guideline](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FBigquery_Guideline.md), get your own credentials.\n\n2. Follow this [guideline](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSnowflake_Guideline.md) and fill out this [Spider2 Snowflake Access](https:\u002F\u002Fdocs.google.com\u002Fforms\u002Fd\u002Fe\u002F1FAIpQLScbVIYcBkADVr-NcYm9fLMhlxR7zBAzg-jaew1VNRj6B8yD3Q\u002Fviewform?usp=sf_link), and we will send you an account sign-up email, which will allow you to access the Snowflake database.\n\n**Important Notes:**\n\n- If you want to access the **FULL dataset** of Spider 2.0-Lite, you must complete **Step1** and **Step2**.\n\n- If you only want access to the **FULL dataset** of Spider 2.0-Snow, you only need to complete **Step2**.\n\n\n### Spider 2.0-Snow (Tool-call Format, UPDATE 2025-06-10)\nA Docker-free and ultra-fast Spider-Agent implementation for rapid benchmarking of any model.\n\n- [spider-agent-tool-call](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-tc)\n\n### Spider 2.0-Snow and Spider 2.0-Lite (Based on Docker)\n\n**We highly recommend that you directly use Spider2-snow and Spider2-lite for benchmarking and research. First, run the Spider-Agent Framework!!**\n\nFor more details, please refer to the following links:\n\n- [spider-agent-lite](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-lite)\n- [spider-agent-snow](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-snow)\n\n\n\n## 🚀 Quickstart (Spider2-dbt)\n\nFor more details, please refer to the following links:\n\n- [spider2-dbt](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-dbt) (The Data)\n- [spider-agent-dbt](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-dbt) (The Method)\n\n\n\n# 📋 Leaderboard Submission \n\nWe only release the gold answer of about partial examples of Spider 2.0-Lite, Spider 2.0-Snow and Spider 2.0-DBT.\nYou must follow this [submission guidance](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1sCobAqJZcko-Vl3biOycwvCIR7kTwBPrhsgVfvaX1Fg\u002Fedit?usp=sharing) to upload your score to [leaderboard](https:\u002F\u002Fspider2-sql.github.io\u002F).\n\n\n# 🙇‍♂️ Acknowledgement\n\nWe thank Snowflake for their generous support in hosting the Spider 2.0 Challenge.\nWe also thank Minghang Deng, Tianbao Xie, Yiheng Xu, Fan Zhou, Yuting Lan, Per Jacobsson, Yiming Huang, Canwen Xu, Zhewei Yao, and Binyuan Hui for their helpful feedback on this work.\nThe website and submission guidelines are greatly inspired by [BIRD-SQL](https:\u002F\u002Fbird-bench.github.io\u002F), and we thank them for their contributions.\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_Spider2_readme_8655392be461.png\" width=\"35%\">\n\u003C\u002Fp>\n\n\n# ✍️ Citation\nIf you find our work helpful, please cite as\n```\n@misc{lei2024spider2,\n      title={Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows}, \n      author={Fangyu Lei and Jixuan Chen and Yuxiao Ye and Ruisheng Cao and Dongchan Shin and Hongjin Su and Zhaoqing Suo and Hongcheng Gao and Wenjing Hu and Pengcheng Yin and Victor Zhong and Caiming Xiong and Ruoxi Sun and Qian Liu and Sida Wang and Tao Yu},\n      year={2024},\n      eprint={2411.07763},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07763}, \n}\n```\n","# Spider 2.0：在真实企业级文本到SQL工作流上评估语言模型\n\u003Cp align=\"center\">\n  \u003Ca href=\"https:\u002F\u002Fspider2-sql.github.io\u002F\">官网\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07763\">论文\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1a69mxO7m1nMndXp8H_-aggvYDbcbiS3rV9GPXEw-DeM\u002Fedit?usp=sharing\">数据更新日志\u003C\u002Fa> •\n  \u003Ca href=\"https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1sCobAqJZcko-Vl3biOycwvCIR7kTwBPrhsgVfvaX1Fg\u002Fedit?usp=sharing\">提交指南\u003C\u002Fa>\n\u003C\u002Fp>\n\n## 📰 新闻 \n\n- **2025-11-06**: 对于近期因Snowflake密码与多因素认证策略升级而导致的登录及凭证问题，我们深表歉意。无论是**Web UI登录**还是**Python凭证访问**的行为都已发生变化。  \n  请在继续操作前**仔细阅读更新后的Snowflake使用指南**：\n  https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSnowflake_Guideline.md  \n  感谢您的耐心与理解！\n\n- **2025-10-29**: 重大更新！\n  1. 我们修复了评估套件的问题，因此分数现在更加准确和稳定。同时，我们也刷新了[排行榜](https:\u002F\u002Fspider2-sql.github.io\u002F)上受影响的方法。\n  2. 如果您愿意承担Snowflake托管费用（默认情况下spider2-snow是免费的，但查询会被排队），我们可以直接将Spider2的Snowflake数据共享到您自己的Snowflake项目中。详情请参阅[Spider2_Data_Host.md](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSpider2_Data_Host.md)。\n  3. 如果您遇到MF2A连接错误——即您的凭证无法访问Snowflake仓库——请检查。详情请参阅[Snowflake指南](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSnowflake_Guideline.md)。\n\n\n- **2025-07-13**: 我们更新了[`spider2-snow.jsonl`](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fspider2-snow\u002Fspider2-snow.jsonl)，以解决其中存在的歧义问题；旧版本则更名为[`spider2-snow-0713.jsonl`](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fspider2-snow\u002Fspider2-snow-0713.jsonl)，供参考。\n\n- **2025-06-10**: 我们为Spider 2.0-Snow实现了一个基于工具调用的Spider-Agent，该方法无需Docker，且显著提升了运行性能。\n\n- **2025-05-22**: 我们创建了一个新的任务设置`Spider2-DBT`，并移除了原有的Spider2设置。[spider2-dbt](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-dbt)仅包含68个任务，能够配合[spider-agent-dbt](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-dbt)进行快速流畅的基准测试。这是一个全面的、基于代码库级别的文本到SQL任务。\n\n- **2025-04-20**: 我们提供了[黄金标准表](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fgold-tables)，适用于spider2-lite和spider2-snow，以帮助快速进行基准测试和分析。然而，在使用此设置时，您必须注明正在使用“Oracle表”。\n\n- **2025-01-10**: 请参考[数据更新日志](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1a69mxO7m1nMndXp8H_-aggvYDbcbiS3rV9GPXEw-DeM\u002Fedit?usp=sharing)，以跟踪评估示例的变化。[排行榜](https:\u002F\u002Fspider2-sql.github.io\u002F)的结果也将相应动态调整。\n\n\u003C!-- - **2025-01-07**: 请注意，我们不建议使用为SFT发布的Spider 2.0黄金SQL，因为它可能会影响评估的公平性，并阻碍对模型SQL能力的更好基准测试。发布黄金SQL的目的是帮助用户设计提示。\n\n- **2024-12-26**: **使用Spider-Agent来基准你的LLM！** 鉴于传统文本到SQL设置受到广泛关注，我们现在推荐使用[spider-agent-lite](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-lite)和[spider-agent-snow](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-snow)配合[spider2-lite](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-lite\u002Fevaluation_suite)和[spider2-snow](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-snow\u002Fevaluation_suite)来对你的LLM进行基准测试。最终输出应为CSV文件，而非SQL。 -->\n\n- **2024-12-24**: 考虑到众多评估需求，我们决定**公开所有示例及黄金答案供自行评估**。然而，可用的黄金SQL数量较少。排行榜目前仍处于活跃状态。如需正式验证您的方法并将成绩上传至排行榜，请遵循[提交指南](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1sCobAqJZcko-Vl3biOycwvCIR7kTwBPrhsgVfvaX1Fg\u002Fedit?usp=sharing)。\n\n\n\n\n## 👋 概述\n\n\n![本地图片](https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_Spider2_readme_db79a0253869.png)\n\n\u003Cdiv style=\"width: 10%; margin: auto;\">\n  \u003Ctable style=\"font-size: 12px; width: 100%;\">\n    \u003Ctr>\n      \u003Cth>设置\u003C\u002Fth>\n      \u003Cth>任务类型\u003C\u002Fth>\n      \u003Cth>#示例\u003C\u002Fth>\n      \u003Cth>数据库\u003C\u002Fth>\n      \u003Cth>成本\u003C\u002Fth>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Spider 2.0-Snow\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>文本到SQL任务\u003C\u002Ftd>\n      \u003Ctd>547\u003C\u002Ftd>\n      \u003Ctd>Snowflake(547)\u003C\u002Ftd>\n      \u003Ctd>\u003Cspan style=\"color: red;\">无需任何费用！😊\u003C\u002Fspan>\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Spider 2.0-Lite\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>文本到SQL任务\u003C\u002Ftd>\n      \u003Ctd>547\u003C\u002Ftd>\n      \u003Ctd>BigQuery(214), Snowflake(198), SQLite(135)\u003C\u002Ftd>\n      \u003Ctd>会产生一定费用\u003C\u002Ftd>\n    \u003C\u002Ftr>\n    \u003Ctr>\n      \u003Ctd>\u003Cstrong>Spider 2.0-DBT\u003C\u002Fstrong>\u003C\u002Ftd>\n      \u003Ctd>代码代理任务\u003C\u002Ftd>\n      \u003Ctd>68\u003C\u002Ftd>\n      \u003Ctd>DuckDB (DBT)(68)\u003C\u002Ftd>\n      \u003Ctd>无需任何费用！😊\u003C\u002Ftd>\n    \u003C\u002Ftr>\n  \u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n\n\u003C!-- ### 为什么推出Spider 2.0？\n\n2018年，我们推出了[Spider 1.0](https:\u002F\u002Fyale-lily.github.io\u002Fspider)、[SParC](https:\u002F\u002Fyale-lily.github.io\u002Fsparc)和[CoSQL](https:\u002F\u002Fyale-lily.github.io\u002Fcosql)，作为耶鲁语义解析与文本到SQL挑战赛系列的一部分，吸引了来自全球顶尖研究机构的超过300份提交。\n\n如今，在大型语言模型（LLMs）时代，我们推出了Spider 2.0，旨在推动代码生成能力的发展，尤其是文本到SQL的能力。\n\n这一全新基准测试为LLMs在复杂的企业级文本到SQL工作流上的表现提供了更为真实且更具挑战性的检验，涉及复杂的数据环境（例如超过3000列）、多种SQL方言（例如BigQuery、Snowflake）以及多样化的操作（例如转换、分析）。\n\n值得注意的是，如下所示，即便是最先进的LLMs，包括GPT-4，也仅能解决Spider 2.0任务的6.0%，而它们在Spider 1.0上可解决86.6%的任务，在BIRD上则可解决57.4%的任务，这凸显了Spider 2.0所带来的巨大挑战。\n\n|                 | Spider 1.0 dev | Spider 1.0 test | BIRD test | Spider 2.0-lite | Spider 2.0-snow |\n| --------------- | -------------- | --------------- | --------- | --------------- | --------------- |\n| DailSQL + GPT-4 | 82.4           | 86.6            | 57.4      | 5.6             | 2.2             |\n| CodeS-15B       | 85.4           | -               | 59.3      | 0.7             | 0.0             | -->\n\n### 数据\n\n问题\u002F说明位于 [spider2-lite.jsonl](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fspider2-lite\u002Fspider2-lite.jsonl) 和 [spider2-snow.jsonl](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fspider2-snow\u002Fspider2-snow.jsonl) 中。\n\n我们还发布了一些黄金 SQL，以帮助用户设计提示和方法，**请注意，我们不建议将发布的 Spider 2.0 黄金 SQL 用于微调**。\n\n- [spider2-lite-goldSQL](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-lite\u002Fevaluation_suite\u002Fgold\u002Fsql)\n- [spider2-snow-goldSQL](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-snow\u002Fevaluation_suite\u002Fgold\u002Fsql)\n\n\n\n## 🚀 快速入门（Spider2-lite\u002Fsnow）\n\n### 注册您自己的 BigQuery 和 Snowflake 账户\n\n1. 若要注册 BigQuery 账户，请按照此[指南](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FBigquery_Guideline.md)，获取您自己的凭据。\n\n2. 按照此[指南](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSnowflake_Guideline.md)，并填写此[Spider2 Snowflake 访问申请](https:\u002F\u002Fdocs.google.com\u002Fforms\u002Fd\u002Fe\u002F1FAIpQLScbVIYcBkADVr-NcYm9fLMhlxR7zBAzg-jaew1VNRj6B8yD3Q\u002Fviewform?usp=sf_link)，我们将向您发送账户注册邮件，以便您访问 Snowflake 数据库。\n\n**重要提示：**\n\n- 如果您想访问 Spider 2.0-Lite 的**完整数据集**，则必须完成**步骤1**和**步骤2**。\n\n- 如果您只想访问 Spider 2.0-Snow 的**完整数据集**，则只需完成**步骤2**。\n\n\n### Spider 2.0-Snow（工具调用格式，更新于 2025-06-10）\n一种无需 Docker 的超快速 Spider-Agent 实现，可用于对任何模型进行快速基准测试。\n\n- [spider-agent-tool-call](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-tc)\n\n### Spider 2.0-Snow 和 Spider 2.0-Lite（基于 Docker）\n\n**我们强烈建议您直接使用 Spider2-snow 和 Spider2-lite 进行基准测试和研究。首先，请运行 Spider-Agent 框架！！**\n\n有关更多详细信息，请参阅以下链接：\n\n- [spider-agent-lite](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-lite)\n- [spider-agent-snow](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-snow)\n\n\n\n## 🚀 快速入门（Spider2-dbt）\n\n有关更多详细信息，请参阅以下链接：\n\n- [spider2-dbt](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fspider2-dbt)（数据）\n- [spider-agent-dbt](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Ftree\u002Fmain\u002Fmethods\u002Fspider-agent-dbt)（方法）\n\n\n\n# 📋 排行榜提交 \n\n我们仅发布了 Spider 2.0-Lite、Spider 2.0-Snow 和 Spider 2.0-DBT 部分示例的黄金答案。\n您必须遵循此[提交指南](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1sCobAqJZcko-Vl3biOycwvCIR7kTwBPrhsgVfvaX1Fg\u002Fedit?usp=sharing)才能将您的成绩上传至[排行榜](https:\u002F\u002Fspider2-sql.github.io\u002F)。\n\n\n# 🙇‍♂️ 致谢\n\n我们感谢 Snowflake 对举办 Spider 2.0 挑战赛提供的慷慨支持。\n我们还要感谢 Deng Minghang、Xie Tianbao、Xu Yiheng、Zhou Fan、Lan Yuting、Jacobsson Per、Huang Yiming、Xu Canwen、Yao Zhewei 和 Hui Binyuan 对本工作提出的有益反馈。\n本网站及提交指南深受 [BIRD-SQL](https:\u002F\u002Fbird-bench.github.io\u002F) 的启发，我们感谢他们的贡献。\n\n\u003Cp align=\"center\">\n  \u003Cimg src=\"https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_Spider2_readme_8655392be461.png\" width=\"35%\">\n\u003C\u002Fp>\n\n\n# ✍️ 引用\n如果您认为我们的工作有所帮助，请按如下方式引用：\n```\n@misc{lei2024spider2,\n      title={Spider 2.0: 在真实企业文本到 SQL 工作流上评估语言模型}, \n      author={Lei Fangyu、Chen Jixuan、Ye Yuxiao、Cao Ruisheng、Shin Dongchan、Su Hongjin、Suo Zhaoqing、Gao Hongcheng、Hu Wenjing、Yin Pengcheng、Zhong Victor、Xiong Caiming、Sun Ruoxi、Liu Qian、Wang Sida、Yu Tao},\n      year={2024},\n      eprint={2411.07763},\n      archivePrefix={arXiv},\n      primaryClass={cs.CL},\n      url={https:\u002F\u002Farxiv.org\u002Fabs\u002F2411.07763}, \n}\n```","# Spider 2.0 快速上手指南\n\nSpider 2.0 是一个用于评估大语言模型在真实企业级 Text-to-SQL 工作流中表现的基准测试工具。它涵盖了复杂的数据库环境（如 Snowflake, BigQuery, SQLite）和多步骤的代码代理任务。\n\n## 环境准备\n\n### 系统要求\n- **操作系统**: Linux, macOS 或 Windows (推荐 Linux\u002FmacOS 以获得最佳兼容性)\n- **Python**: 3.8 或更高版本\n- **Docker**: 必须安装并运行（针对 `spider2-lite` 和旧版 `spider2-snow` 方法）。\n  - *注：新版 `spider-agent-tc` (Tool-call) 无需 Docker。*\n- **账户凭证**:\n  - **Snowflake**: 所有用户必须拥有 Snowflake 访问凭证。\n  - **BigQuery**: 仅在使用 `spider2-lite` 完整数据集时需要。\n\n### 前置依赖\n确保已安装 Git 和 Python 包管理工具。你需要准备以下云数据库账户：\n1. **Snowflake 账户**: 需填写 [访问申请表](https:\u002F\u002Fdocs.google.com\u002Fforms\u002Fd\u002Fe\u002F1FAIpQLScbVIYcBkADVr-NcYm9fLMhlxR7zBAzg-jaew1VNRj6B8yD3Q\u002Fviewform?usp=sf_link) 获取官方提供的数据库访问权限，或自行托管数据。\n2. **BigQuery 账户** (可选): 仅当需要运行 `spider2-lite` 全量测试时，需按 [BigQuery 指南](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FBigquery_Guideline.md) 配置。\n\n> **重要提示**: 由于 Snowflake 近期升级了密码和 MFA 策略，请务必在阅读代码前仔细查阅最新的 [Snowflake 配置指南](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSnowflake_Guideline.md)，否则可能导致登录失败。\n\n## 安装步骤\n\n### 1. 克隆仓库\n```bash\ngit clone https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2.git\ncd Spider2\n```\n\n### 2. 安装 Python 依赖\n建议创建虚拟环境以避免冲突：\n```bash\npython -m venv venv\nsource venv\u002Fbin\u002Factivate  # Windows 用户使用: venv\\Scripts\\activate\npip install -r requirements.txt\n```\n*(注：如果根目录没有 requirements.txt，请进入具体的方法文件夹，如 `methods\u002Fspider-agent-snow` 进行安装)*\n\n### 3. 配置凭证\n根据你选择的测试场景配置环境变量或配置文件：\n- **Snowflake**: 按照 [Snowflake_Guideline.md](https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fblob\u002Fmain\u002Fassets\u002FSnowflake_Guideline.md) 配置 `snowflake_connection.json` 或相关环境变量。\n- **BigQuery**: 配置 `GOOGLE_APPLICATION_CREDENTIALS` 指向你的服务账号密钥文件。\n\n## 基本使用\n\nSpider 2.0 提供了多种 Agent 实现，推荐使用最新的 **Tool-call** 版本（无需 Docker，速度更快）或标准的 **Docker** 版本。\n\n### 方案 A：使用 Spider 2.0-Snow (Tool-call 模式，推荐)\n此模式无需 Docker，运行速度快，适合快速基准测试。\n\n1. 进入对应目录：\n```bash\ncd methods\u002Fspider-agent-tc\n```\n\n2. 运行评估脚本（示例）：\n```bash\npython run_eval.py --model_name gpt-4o --dataset spider2-snow\n```\n*请将 `gpt-4o` 替换为你想要测试的模型名称，并确保已配置对应的 API Key。*\n\n### 方案 B：使用 Spider 2.0-Snow \u002F Lite (Docker 模式)\n如果你需要测试包含复杂环境依赖的 `spider2-lite` 或使用标准 Docker 框架：\n\n1. 进入对应目录（以 snow 为例）：\n```bash\ncd methods\u002Fspider-agent-snow\n```\n\n2. 启动 Docker 容器并运行评估：\n```bash\n# 构建并运行 (具体命令请参考该目录下的 README)\ndocker-compose up --build\n```\n或者直接在宿主机器运行（需确保 Docker 守护进程已启动）：\n```bash\npython run_evaluation.py --config config\u002Fsnowflake_config.json\n```\n\n### 方案 C：使用 Spider 2.0-DBT (代码代理任务)\n针对 DBT 任务的轻量级测试：\n\n1. 进入目录：\n```bash\ncd methods\u002Fspider-agent-dbt\n```\n\n2. 运行测试：\n```bash\npython run_dbt_eval.py --model_name your-model\n```\n\n### 输出结果\n运行完成后，系统将生成 CSV 格式的评估结果文件。你可以对照部分公开的 Gold SQL 进行自查，若需提交成绩至官方排行榜，请遵循 [提交指南](https:\u002F\u002Fdocs.google.com\u002Fdocument\u002Fd\u002F1sCobAqJZcko-Vl3biOycwvCIR7kTwBPrhsgVfvaX1Fg\u002Fedit?usp=sharing)。","某大型电商公司的数据团队正试图让业务分析师通过自然语言直接查询复杂的 Snowflake 数据仓库，以快速获取每日销售报表。\n\n### 没有 Spider2 时\n- **评估失真**：团队使用旧版基准测试模型，发现模型在简单查询上表现完美，但一旦部署到包含多表关联和嵌套逻辑的真实企业环境中，准确率断崖式下跌。\n- **场景缺失**：缺乏涵盖真实企业工作流（如跨库连接、复杂过滤）的测试集，导致无法预判模型在处理实际业务问题时的边界能力。\n- **调试黑盒**：当生成的 SQL 报错时，由于缺少标准化的错误分类和对比基线，开发人员难以区分是模型逻辑缺陷还是数据库架构理解偏差，排查耗时极长。\n\n### 使用 Spider2 后\n- **真实对标**：利用 Spider2 提供的基于真实企业环境的 Text-to-SQL 工作流评测集，团队准确测出模型在复杂场景下的真实性能，避免了“实验室高分、生产低能”的陷阱。\n- **流程覆盖**：借助其涵盖的 68 个仓库级任务和 Snowflake 真实数据环境，全面验证了模型在处理多步推理和企业级 schema 时的稳定性。\n- **精准优化**：通过官方更新的评估套件和标准金表（Gold Tables），团队快速定位模型在特定语法结构上的弱点，针对性调整 Prompt 策略，显著提升了上线成功率。\n\nSpider2 的核心价值在于它将大模型的 SQL 能力评估从“玩具级”简单查询拉回到了充满挑战的真实企业战场，为落地应用提供了可信的标尺。","https:\u002F\u002Foss.gittoolsai.com\u002Fimages\u002Fxlang-ai_Spider2_12b5e79d.png","xlang-ai","XLANG Lab","https:\u002F\u002Foss.gittoolsai.com\u002Favatars\u002Fxlang-ai_02033ec0.png","Developing embodied AI agents that empower users to use language to interact with digital and physical environments to carry out real-world tasks.",null,"XLangNLP","https:\u002F\u002Fxlang.ai","https:\u002F\u002Fgithub.com\u002Fxlang-ai",[81,85,89,93,97,100],{"name":82,"color":83,"percentage":84},"HTML","#e34c26",97.7,{"name":86,"color":87,"percentage":88},"Python","#3572A5",1.6,{"name":90,"color":91,"percentage":92},"Shell","#89e051",0.5,{"name":94,"color":95,"percentage":96},"PLpgSQL","#336790",0.1,{"name":98,"color":99,"percentage":96},"Makefile","#427819",{"name":101,"color":102,"percentage":103},"Dockerfile","#384d54",0,774,126,"2026-04-07T05:10:20","MIT",4,"未说明",{"notes":111,"python":109,"dependencies":112},"该工具主要用于评估大语言模型在真实企业级 Text-to-SQL 工作流中的表现，本身不直接提供模型训练或推理的本地环境需求。运行不同数据集（Spider2-Lite, Spider2-Snow, Spider2-DBT）需要配置相应的外部数据库账户：1. Spider2-Lite 需自行注册 BigQuery 和 Snowflake 账户并配置凭证；2. Spider2-Snow 需填写申请表获取 Snowflake 访问权限（支持免 Docker 的 Tool-call 模式或基于 Docker 的模式）；3. Spider2-DBT 使用 DuckDB。具体实现参考官方提供的 spider-agent 系列方法。",[109],[35,13,114],"其他","2026-03-27T02:49:30.150509","2026-04-08T07:44:02.089510",[118,123,128,133,138,143],{"id":119,"question_zh":120,"answer_zh":121,"source_url":122},23907,"Spider 2.0 的完整数据集在哪里？为什么只发布了部分数据？","目前 Spider 2.0、Spider 2.0-lite 和 Spider 2.0-snow 已发布包含 50% 开发集拆分的数据集。为了确保竞赛的公平性，团队暂时不计划发布包含所有问题的完整数据集。建议用户遵循官方提交的指南进行方法评估。团队可能会在几个月后考虑释放所有问题，如有变更会及时通知。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fissues\u002F1",{"id":124,"question_zh":125,"answer_zh":126,"source_url":127},23908,"如何区分 Spider 2.0 中不同数据库类型（BigQuery, Snowflake, SQLite）的数据集 ID？","可以通过数据实例 ID 的前缀来区分：\n- 以 \"bq\" 或 \"ga\" 开头：代表 BigQuery 示例。\n- 以 \"sf\" 开头：代表 Snowflake 示例（Spider2-snow 中的所有示例均以 sf 开头）。\n- 以 \"local\" 开头：代表 SQLite 示例。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fissues\u002F29",{"id":129,"question_zh":130,"answer_zh":131,"source_url":132},23909,"运行 Spider-Agent 时遇到 \"IndexError: list index out of range\" 或找不到 postgres 设置文件的错误怎么办？","该错误通常是因为环境配置中缺少必要的文件或目录（例如报错提示 \"..\u002F..\u002Fspider2\u002Fexamples\u002Fpostgres_chinook001 is neither a file nor a directory\"）。请检查是否已正确下载并放置了所有必需的数据库文件和脚本。此外，如果日志中出现类似 \"pip install clickhouse\" 导致的包安装错误（如找不到 izihawa-commons），这通常是模型生成的错误指令，与核心代码库无关，可以忽略该特定安装步骤，重点检查本地文件路径配置是否正确。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fissues\u002F31",{"id":134,"question_zh":135,"answer_zh":136,"source_url":137},23910,"找不到 BowlingLeague、electronic_sales 等 SQLite 数据库文件怎么办？","部分数据库文件可能未包含在最初的下载链接中。维护者曾提供过更新的 Google Drive 链接供下载缺失的数据库文件。如果原链接失效，请在 Issue 评论区查看维护者提供的最新替代链接或联系维护者获取资源。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fissues\u002F40",{"id":139,"question_zh":140,"answer_zh":141,"source_url":142},23911,"使用 Snowflake 数据集时遇到 \"No active warehouse selected\" 错误或账户被暂停怎么办？","如果遇到 \"No active warehouse selected\" 错误，请确保在会话中正确选择了仓库。如果收到 \"账户因缺乏支付方式而被暂停\" 的错误，这通常是平台侧的问题。用户应通过邮件将 Snowflake 用户名或注册邮箱发送给维护者（lfy79001@gmail.com），以便后台解除账户暂停状态。恢复后通常可正常执行查询。","https:\u002F\u002Fgithub.com\u002Fxlang-ai\u002FSpider2\u002Fissues\u002F33",{"id":144,"question_zh":145,"answer_zh":146,"source_url":127},23912,"Snowflake 数据集的主机服务会持续多久？","Snowflake 数据集预计将长期托管。这是项目方与 Snowflake 的紧密合作项目，旨在为研究者提供稳定的评估环境。",[]]