BIRD-Interact

677 15 中等 1 次阅读 1周前MIT语言模型其他

AI 解读由 AI 自动生成，仅供参考

BIRD-Interact 是一个专为评估“文本转 SQL"（Text-to-SQL）能力而设计的开源基准测试框架。它由香港大学与谷歌云联合推出，并荣获 ICLR 2026 口头报告奖。传统评估往往只关注模型能否一次性生成正确的 SQL 语句，忽略了真实场景中人类专家会通过多轮对话逐步澄清需求、修正错误的过程。BIRD-Interact 创新性地引入“动态交互”视角，将评估重点从单次输出转向多轮交互过程，从而更真实地反映模型在复杂数据查询任务中的实际表现。

该工具特别适合从事自然语言处理、数据库交互或大模型应用的研究人员与开发者使用。如果你正在训练或优化一个能理解自然语言并生成数据库查询的 AI 系统，BIRD-Interact 能提供更细腻、更具现实意义的性能反馈。其技术亮点在于构建了支持多轮追问、上下文记忆和错误修正的交互式评估流程，并配套提供了轻量级数据集（bird-interact-lite），便于快速集成与实验。目前项目已开放 leaderboard 和 HuggingFace 数据接口，支持 Python 3.10+ 环境，兼容主流大模型 API。通过这一框架，社区可以更系统地推动 Text-to-SQL 技术向实用化、人性化方向演进。

使用场景

某金融科技公司数据团队正在评估新一代 Text-to-SQL 模型，以构建能让业务人员通过自然语言直接查询复杂交易数据库的智能助手。

没有 BIRD-Interact 时

评估结果虚高：传统静态评测仅对比最终 SQL 语句，模型即使靠“猜”对了答案但逻辑完全错误，仍被判为合格，掩盖了真实的推理缺陷。
缺乏交互反馈：无法模拟真实用户在面对模糊意图时的追问或澄清过程，导致模型在实际对话中一旦遇到歧义就立刻“胡编乱造”。
调试黑盒化：当模型生成错误查询时，开发人员只能看到最终错误的 SQL，无法定位是哪一步理解偏差或中间推理断裂导致了失败。
场景覆盖单一：测试集多为固定问答对，难以覆盖真实业务中需要多轮交互、动态修正的复杂查询场景。

使用 BIRD-Interact 后

动态精准验真：引入动态交互视角，强制模型在生成 SQL 前进行必要的澄清或分步确认，确保执行逻辑与用户意图严格对齐，剔除侥幸得分。
还原真实对话：支持多轮交互评测，模拟用户补充条件或纠正误解的过程，验证模型在复杂沟通链条中的鲁棒性和适应能力。
过程透明可溯：完整记录从自然语言到最终 SQL 的交互推导路径，帮助开发者快速定位是语义解析错误还是逻辑规划失误，大幅缩短调优周期。
覆盖长尾场景：基于动态交互构建的测试用例，有效覆盖了需多次澄清的模糊查询，显著提升了模型在真实生产环境中的可用性。

BIRD-Interact 通过将静态的“答题考试”升级为动态的“真人面试”，彻底解决了 Text-to-SQL 模型在真实复杂交互中“高分低能”的落地难题。

运行环境要求

操作系统

未说明 (基于 Docker 和 Python，通常支持 Linux/macOS/Windows)

GPU

未说明 (主要依赖外部 LLM API，如 OpenAI、Google ADK 等，本地无大型模型训练/推理需求)

内存

未说明 (建议至少 8GB 以运行 Docker 容器和数据库环境)

依赖

notes1. 核心功能依赖 Docker 运行数据库环境（提供 Base/Full DB Env 镜像），使用前需安装 Docker 并拉取指定镜像。 2. 评估前务必检查 Docker 日志，确认数据库加载成功，否则会导致评估结果异常偏低。 3. 项目主要作为基准测试工具，通过 API 调用外部大模型（如 GPT, Claude, Gemini 等），而非本地部署模型。 4. 推荐使用 'BIRD-Interact-ADK' 架构进行研究，支持模块化替换 Agent、用户模拟器和数据库环境。 5. 需注意 sqlglot 版本必须为 26.16.4 以修复 SQL 解析 bug。

python3.10+

openai>=1.40

sqlglot==26.16.4

docker

litellm (可选，用于 BIRD-Interact-ADK)

快速开始

🌐 语言

BIRD-INTERACT 1.0

⚠️ 公告

请注意，在进行评估之前，当 Docker 加载数据库时，由于环境不一致，可能会偶尔出现错误（这些错误不会终止进程，但会显示在 Docker 日志中）。因此，部分数据库可能无法正确加载，导致数据库为空。这将使评估结果异常偏低。
👉 因此，我们强烈建议您在运行评估之前，先检查 Docker 日志中是否存在任何错误，并确认所有数据库是否已成功加载。

👉 我们已更新了提交指南，其中支持自定义智能体框架。请随时查看我们的详细提交指南此处。

📰 新闻

[2026-03-29] 🔥🔥🔥 BIRD-Interact-ADK: 我们发布了基于Google ADK的实现——BIRD-Interact-ADK，采用模块化的三微服务架构（智能体、用户模拟器和数据库环境）。您可以轻松替换自己的智能体、用户模拟器或数据库环境。支持并行执行以及任何与LiteLlm兼容的LLM提供商。建议您在研究中使用此实现。
[2026-02-08] 🔥🔥🔥 我们的**Bird-Interact论文已被ICLR 2026（口头报告）**接收！里约热内卢见哦 🇧🇷！
[2025-11-06] 🐛 Bug修复 & 🐳 Docker更新: 将sqlglot版本更新至26.16.4，以修复用户模拟器中SQL解析器无法正确解析SQL的问题。您可以通过在bird_interact_eval环境中运行pip install sqlglot==26.16.4来解决此问题。同时，bird_interact_eval镜像也已更新，您可以拉取新镜像并重新创建bird_interact_eval容器。
[2025-10-21] 🐳 Docker更新: 我们新增了完整数据库环境的Docker镜像，并将3个Docker镜像（基础镜像、完整数据库环境镜像以及用于a-Interact和c-Interact的评估环境镜像）推送到Docker Hub，以简化环境搭建。无需再手动下载数据库转储文件并构建镜像！
[2025-10-08] 📝 我们的**Bird-Interact论文**现已公开发布！
论文详细介绍了我们的交互式文本到SQL基准测试的全部细节、方法论及评估结果。
👉 欢迎查阅，了解更多关于BIRD-Interact背后的理念。
[2025-08-26] 🚀 我们很高兴宣布推出**BIRD-Interact-Full (600)数据集！
这是一份极具挑战性的数据集——目前最佳的LLM模型仅能达到16.33%的成功率，其中c-Interact和a-Interact部分的成功率更是低至10.0%**。
👉 更多详情请访问我们的项目官网。
[2025-08-26] 📬 本周我们将向邮件列表发送真值数据与测试用例。
若您希望提前获取，请按照网站上的说明发送邮件，即可获得自动下载链接。
[2025-08-26] 💾 另外，我们还发布了SQLite版本的**LiveSQLBench-Lite，方便本地研究。
完整版的LiveSQLBench-Base和-Large**也将很快推出！
[2025-08-22] Bug修复: 在Bird-Interact-Agent代码中，我们修复了一个bug：在评估第二阶段SQL时，存储的第一阶段SQL无法成功执行，从而导致第二阶段的成功率降低。该bug仅影响那些第一阶段SQL会对数据库进行操作的任务，例如CREATE TABLE等。

🧸 概述

BIRD-INTERACT是一个交互式的文本到SQL基准测试，它通过动态交互的视角重新定义了文本到SQL的评估方式。该环境结合了分层知识库、数据库文档以及函数驱动的用户模拟器，以重现涵盖完整CRUD操作的真实企业级环境。它提供两种严格的测试模式：(1)被动的对话式交互和(2)主动的代理式交互，共包含600个标注任务，涵盖商业智能（BI）、CRUD操作等，每个任务都配有可执行的测试用例。典型的评估过程中，模型与用户模拟器之间会进行1,968至5,496轮交互，而当前最先进的推理模型仅能分别解决约**24%和18%**的任务，这充分体现了该基准测试的挑战性。

✅ 两种评估模式

如上所述，BIRD-INTERACT支持两种评估模式：

c-Interact: 对话式交互，属于被动模式，工作流程固定。相关代码和详细信息可在bird_interact_conv中找到。
a-Interact: 代理式交互，属于主动模式，工作流程由模型主导且动态变化。相关代码和详细信息可在bird_interact_agent中找到。

🐣 精简版

我们发布了BIRD-INTERACT的精简版bird-interact-lite-exp，其中包括270个高质量的真实世界任务，专门针对PostgreSQL。这是进行快速实验的良好起点。

🦜 完整版

BIRD-INTERACT的完整版bird-interact-full是一个全面的基准测试，包含600个针对PostgreSQL的任务，覆盖广泛的SQL操作和用户查询。完整版即将发布。

BIRD-INTERACT-FULL上的模型性能结果

1. c-Interact文本到SQL性能

排名	模型名称	归一化奖励	每任务平均成本（美元）	水平
1	Gemini-2.5-Pro	20.92	$0.04	🏆 卓越聊天
2	O3-Mini	20.27	$0.07	🏆 卓越聊天
3	Claude-Sonnet-4	18.35	$0.29	💎 优秀聊天
4	Qwen-3-Coder-480B	17.75	$0.11	💎 优秀聊天
5	Deepseek-Chat-V3.1	15.15	$0.12	✨ 标准
6	Claude-Sonnet-3.7	13.87	$0.29	✨ 标准
7	GPT-5	12.58	$0.08	⚪ 基础

2. a-Interact文本到SQL性能

排名	模型名称	归一化奖励	每任务平均成本（美元）	水平
1	GPT-5	25.52	$0.24	🏆 卓越互动
2	Claude-Sonnet-4	23.28	$0.51	🏆 卓越互动
3	Claude-Sonnet-3.7	17.45	$0.60	💎 良好互动
4	Gemini-2.5-Pro	17.33	$0.22	💎 良好互动
5	O3-Mini	16.43	$0.06	✨ 标准
6	Deepseek-Chat-V3.1	13.47	$0.06	✨ 标准
7	Qwen-3-Coder-480B	10.58	$0.07	⚪ 基础

* 预算参数：初始预算/用户耐心预算，以我们的虚拟货币bird-coins衡量。更多详情请参阅bird_interact_agent/README.md。

交互时间缩放定律（ITS）

交互时间缩放定律（ITS）是指模型通过多轮交互能够持续提升其最终性能的能力。当这种交互性能在完全明确、无歧义的任务上超越了模型的理想化单轮性能时，我们就说该模型满足ITS定律。随着用户耐心的增加和交互轮次的累积，性能会不断提升，这表明模型能够在长时间的对话中保持有效的沟通。目前，我们只发现claude-3-7-sonnet满足ITS定律。

环境搭建

运行用于bird-interact-lite数据库、bird-interact-full数据库以及评估环境的Docker容器：

如果你只想在bird-interact-lite上进行评估，可以注释掉docker-compose.yml中的postgresql_full服务，以加快环境搭建速度。

通过以下命令启动环境：

cd env
docker compose pull 
docker compose up -d

等待几分钟完成数据库初始化。

你可以通过以下命令跟踪构建进度：

docker compose logs -f --tail=100 bird_interact_postgresql_full # 或者 bird_interact_postgresql 用于 bird-interact-lite

如果完成，你应该会看到没有错误的日志，例如：

bird_interact_postgresql_full  | 2025-10-28 17:58:30.413 HKT [1] LOG:  database system is ready to accept connection

如果你之前已经创建过容器并希望重新创建，可以运行以下命令：

docker compose down -v # 此命令会移除容器及其数据卷
docker compose pull   # 从Docker Hub拉取最新镜像
docker compose up -d --force-recreate # 重新构建并启动容器。--force-recreate表示强制重新创建容器。
# 或者 `docker compose up -d --force-recreate bird_interact_eval` 只重新创建用于评估代码环境的bird_interact_eval容器。

这将使用Docker Hub上的预构建镜像运行3个容器：

bird_interact_postgresql: 用于bird-interact-lite的PostgreSQL数据库
bird_interact_postgresql_full: 用于bird-interact-full的PostgreSQL数据库
bird_interact_eval: 用于a-Interact和c-Interact评估的环境。

现在，你可以通过执行以下命令来启动评估环境：

docker compose exec bird_interact_eval bash

（可选）手动搭建环境（如果你想从头开始构建镜像）：
- 下载数据库转储文件
  - bird-interact-lite。解压后重命名为env/postgre_table_dumps。
  - bird-interact-full。解压后重命名为env/postgre_table_dumps_full。
- 通过运行docker-compose.build.yml手动构建环境。
```
cd env/
docker compose -f docker-compose.build.yml build
docker compose -f docker-compose.build.yml up -d
```
（推荐）检查数据库容器是否已成功构建并运行。

打印容器构建日志，以确保数据库成功构建且无错误：

docker logs bird_interact_postgresql > build_bird_interact_postgresql.log 2>&1
docker logs bird_interact_postgresql_full > build_bird_interact_postgresql_full.log 2>&1

如果出现错误，日志文件中会显示“导入过程中发生错误：”字样。

检查数据库容器的状态是否良好。

使用我们提供的Python脚本验证数据库元数据：
```
docker compose exec bird_interact_eval bash
cd /app/env
python check_db_metadata.py --host bird_interact_postgresql
python check_db_metadata.py --host bird_interact_postgresql_full
```
预期结果：
- bird-interact-lite：
  - 📈 数据库总数：18
  - 📋 表格总数：175
  - 🔢 列总数：2286
  - 📈 每表平均行数：1,038.48
  - 💾 总大小：207.15 MB（左右）
- bird-interact-full：
  - 📈 数据库总数：22
  - 📋 表格总数：244
  - 🔢 列总数：2011
  - 📈 每表平均行数：1,121.19
  - 💾 总大小：272.00 MB（左右）

📦 数据集详情

数据集描述

数据库：完整的PostgreSQL数据库可以从鸟互动轻量版和鸟互动完整版下载。
数据：每个数据实例包含以下主要部分：
- selected_database：数据库名称。
- query：明确的用户查询。
- amb_user_query：注入歧义后的用户查询。
- user_query_ambiguity：注入到用户查询中的歧义。
- non_critical_ambiguity：非关键性歧义，如排序、限制等。
- knowledge_ambiguity：由外部知识掩盖而产生的歧义。
- sol_sql：真实答案SQL解决方案。
- preprocess_sql：在执行解决方案或预测之前需要运行的SQL查询。
- clean_up_sql：测试用例执行完毕后，用于恢复数据库状态的SQL查询。
- test_cases：一组用于验证预测修正后SQL的测试用例。
- follow_up：标注好的后续问题。
- external_knowledge：与特定任务相关的外部知识。
评估：评估代码位于./evaluation目录中。
整理者：BIRD团队 & Google Cloud
许可证：cc-by-sa-4.0
HuggingFace 数据集卡片：bird-interact-lite 和 bird-interact-full 对应PostgreSQL；以及 mini-interact 对应SQLite。

数据集用途

为避免因自动爬取导致的数据泄露，我们未随数据一同提供GT解决方案SQL及测试用例。请发送邮件至bird.bench25@gmail.com，标题注明[bird-interact-lite GT&Test Cases]或[bird-interact-full GT&Test Cases]，即可自动获取bird-interact-lite或bird-interact-full数据集的真实答案和测试用例。

将公开数据与真实标签和测试用例结合

然后使用以下脚本将公开数据与真实标签和测试用例结合：

以完整版为例： (1) 运行：

python combine_public_with_gt.py /path/to/bird-interact-full/bird_interact_data.jsonl /path/to/bird_interact_full_gt_kg_testcases_08022.jsonl /path/to/bird_interact_data.jsonl  # bird_interact_full_gt_kg_testcases_08022.jsonl 是真实标签字段的数据，可通过邮件向我们索取。

这将在 /path/to/bird_interact_data.jsonl 创建一个包含合并后数据的新文件。

(2) 然后用合并后的数据替换原始的公开数据：

cp /path/to/bird_interact_data.jsonl /path/to/bird-interact-full/bird_interact_data.jsonl

其他版本（如 bird-interact-lite、mini 版等）也相同。只需设置正确的公开数据路径以及真实标签和测试用例路径，然后用合并后的数据替换原始的公开数据即可。

文件夹结构

.
├── LICENSE
├── README.md
├── BIRD-Interact-ADK
│   ├── ...
│   └── README.md
├── bird_interact_conv
│   ├── ...
│   └── README.md
├── bird_interact_agent
│   ├── ...
│   └── README.md
├── evaluation
│   ├── docker-compose.yml
│   ├── env
│   ├── postgre_table_dumps
│   ├── run
│   └── src
├── materials
│   ├── ...
└── requirements.txt

关于运行 a-interact 的详细信息，请参阅 ./bird_interact_agent/README.md；c-interact 的相关信息请查阅 ./bird_interact_conv/README.md；而基于 ADK 的实现则可在 ./BIRD-Interact-ADK/README.md 中找到。

📋 待办事项清单

发布轻量版，bird-interact-lite（270）。
发布对话版，bird-interact-conv。
发布代理版，bird-interact-agent。
发布完整版 bird-interact-full（600）。
发布基于 ADK 的实现，BIRD-Interact-ADK。
对用户模拟器进行 SFT / RL 训练。

致谢

我们衷心感谢 Irina Saparina、Mohammadreza Pourreza、Mehdi Bouzouina、Hailong Li、Jiatong Shi 以及 Shinji Watanabe 教授，感谢他们富有成效的讨论和宝贵见解，这些都极大地帮助改进了本项目。

创作团队：

BIRD 团队 & Google Cloud

引用

@inproceedings{
huo2026birdinteract,
title={{BIRD}-{INTERACT}: Re-imagining Text-to-{SQL} Evaluation via Lens of Dynamic Interactions},
author={Nan Huo and Xiaohan Xu and Jinyang Li and Per Jacobsson and Shipei Lin and Bowen Qin and Binyuan Hui and Xiaolong Li and Ge Qu and Shuzheng Si and Linheng Han and Edward Alexander and Xintong Zhu and Rui Qin and Ruihan Yu and Yiyao Jin and Feige Zhou and Weihao Zhong and Yun Chen and Hongyu Liu and Chenhao Ma and Fatma Ozcan and Yannis Papakonstantinou and Reynold Cheng},
booktitle={The Fourteenth International Conference on Learning Representations},
year={2026},
url={https://openreview.net/forum?id=nHrYBGujps}
}

变更日志

[2025-11-06] 🐛 Bug 修复 & 🐳 Docker 更新：将 sqlglot 版本更新至 26.16.4，以修复用户模拟器中 SQL 解析器无法正确解析 SQL 的问题。你可以在 bird_interact_eval 环境中通过运行 pip install sqlglot==26.16.4 来解决此问题。同时，bird_interact_eval 镜像也已更新，因此你可以拉取最新镜像并重新创建 bird_interact_eval 容器。
[2025-10-21] 🐳 Docker 更新：新增完整数据库环境的 Docker 镜像。我们已将 3 个 Docker 镜像（基础镜像、完整数据库环境镜像以及用于 a-Interact 和 c-Interact 的评估环境镜像）推送到 Docker Hub，以方便环境搭建。无需再手动下载数据库转储文件并构建镜像！请从 Docker Hub 拉取最新镜像，并重新创建容器，例如使用 docker compose down -v && docker compose pull && docker compose up -d --force-recreate。
[2025-08-22] 🐛 Bug 修复：修复了在评估第二阶段 SQL 时，无法成功执行第一阶段 SQL 的问题，该问题会导致第二阶段的成功率降低。此 bug 仅影响那些第一阶段 SQL 会对数据库进行操作的任务，例如 CREATE table 等。

BIRD-Interact 快速上手指南

BIRD-Interact 是一个交互式 Text-to-SQL 基准测试工具，旨在通过动态交互（对话式与代理式）重新定义 SQL 生成模型的评估方式。本指南将帮助您快速搭建环境并运行基础评估。

1. 环境准备

在开始之前，请确保您的系统满足以下要求：

操作系统: Linux 或 macOS (推荐)，Windows 需使用 WSL2。
Python 版本: 3.10 或更高版本。
Docker: 必须安装并运行 Docker Desktop 或 Docker Engine，用于加载数据库环境。
API Key: 准备好您所使用的 LLM 提供商（如 OpenAI, Anthropic, Google Cloud 等）的 API Key。

前置依赖检查：

python --version  # 确保 >= 3.10
docker --version  # 确保已安装

2. 安装步骤

2.1 克隆项目

首先从 GitHub 克隆仓库：

git clone https://github.com/bird-bench/BIRD-Interact.git
cd BIRD-Interact

2.2 创建虚拟环境

推荐使用 conda 或 venv 创建独立的 Python 环境：

python -m venv bird_interact_env
source bird_interact_env/bin/activate  # Windows 用户请使用: bird_interact_env\Scripts\activate

2.3 安装核心依赖

安装基础依赖包。如果遇到网络问题，可临时指定国内镜像源（如清华源）：

# 使用默认源
pip install -r requirements.txt

# 或使用国内加速源 (推荐)
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

2.4 关键组件修复与更新

根据官方最新公告，需特别注意以下两点以确保评估准确性：

修复 SQL 解析器 bug：强制安装特定版本的 sqlglot。
```
pip install sqlglot==26.16.4
```

拉取 Docker 镜像：项目已提供预构建的 Docker 镜像（包含完整数据库环境和评估环境），无需手动下载数据库转储文件。

# 拉取基础评估环境镜像
docker pull birdsql/bird_interact_eval:latest

# 如果需要完整数据库环境 (Full DB Env)
docker pull birdsql/bird_interact_full_db:latest

3. 基本使用

BIRD-Interact 提供两种主要的评估模式：c-Interact (被动对话式) 和 a-Interact (主动代理式)。以下以最常用的 c-Interact 为例演示运行流程。

3.1 配置 API Key

在终端中导出您的 API Key（以 OpenAI 为例）：

export OPENAI_API_KEY="your-api-key-here"

注：若使用其他模型提供商，请参考对应目录下的 .env 配置说明。

3.2 运行评估脚本

进入对话式交互目录并运行评估。以下命令将启动 Docker 容器加载数据库，并使用指定模型对 Lite 版本数据集进行评估：

cd bird_interact_conv

# 运行评估示例 (请替换 model_name 和 dataset_path)
python eval.py \
    --model_name gpt-4o \
    --dataset_path ../data/bird-interact-lite-exp \
    --output_dir ./results

参数说明：

--model_name: 您要测试的模型名称（需符合 LiteLLM 命名规范）。
--dataset_path: 数据集路径，可使用 HuggingFace 下载的 bird-interact-lite-exp (270 任务) 或 bird-interact-full (600 任务)。
--output_dir: 评估结果保存目录。

3.3 查看结果

运行结束后，检查输出目录中的 JSON 文件或日志，获取 Normalized Reward (标准化奖励) 和成功率指标。

⚠️ 重要提示：在正式运行大规模评估前，请务必先检查 Docker 容器的日志，确认所有数据库已成功加载且无报错。若数据库加载失败（显示为空），会导致评估结果异常偏低。

检查命令示例：
docker logs <container_id_or_name>

更多高级用法（如自定义 Agent 架构、并行执行等）请参考项目根目录下的 BIRD-Interact-ADK 模块及官方详细文档。

常见问题

BIRD-INTERACT mini-interact 数据集在哪里可以下载？

数据集中缺少 `clarifications` 字段，用户模拟器报错怎么办？

运行 BIRD-Interact Agent 时推荐使用哪种脚本？

相似工具推荐

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 156k|★★☆☆☆|今天

开发框架Agent语言模型

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|1周前

语言模型图像Agent

NextChat

NextChat 是一款轻量且极速的 AI 助手，旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性，以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发，NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言，它也提供了便捷的自托管方案，支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性，原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型，让用户在一个界面即可自由切换不同 AI 能力。此外，它还率先支持 MCP（Model Context Protocol）协议，增强了上下文处理能力。针对企业用户，NextChat 提供专业版解决方案，具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能，满足公司对数据隐私和个性化管理的高标准要求。

★ 87.6k|★★☆☆☆|1周前

开发框架语言模型

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85.1k|★★☆☆☆|4天前

图像数据工具视频

funNLP

funNLP 是一个专为中文自然语言处理（NLP）打造的超级资源库，被誉为"NLP 民工的乐园”。它并非单一的软件工具，而是一个汇集了海量开源项目、数据集、预训练模型和实用代码的综合性平台。面对中文 NLP 领域资源分散、入门门槛高以及特定场景数据匮乏的痛点，funNLP 提供了“一站式”解决方案。这里不仅涵盖了分词、命名实体识别、情感分析、文本摘要等基础任务的标准工具，还独特地收录了丰富的垂直领域资源，如法律、医疗、金融行业的专用词库与数据集，甚至包含古诗词生成、歌词创作等趣味应用。其核心亮点在于极高的全面性与实用性，从基础的字典词典到前沿的 BERT、GPT-2 模型代码，再到高质量的标注数据和竞赛方案，应有尽有。无论是刚刚踏入 NLP 领域的学生、需要快速验证想法的算法工程师，还是从事人工智能研究的学者，都能在这里找到急需的“武器弹药”。对于开发者而言，它能大幅减少寻找数据和复现模型的时间；对于研究者，它提供了丰富的基准测试资源和前沿技术参考。funNLP 以开放共享的精神，极大地降低了中文自然语言处理的开发与研究成本，是中文 AI 社区不可或缺的宝藏仓库。

★ 79.9k|★☆☆☆☆|6天前

语言模型数据工具其他

cs-video-courses

cs-video-courses 是一个精心整理的计算机科学视频课程清单，旨在为自学者提供系统化的学习路径。它汇集了全球知名高校（如加州大学伯克利分校、新南威尔士大学等）的完整课程录像，涵盖从编程基础、数据结构与算法，到操作系统、分布式系统、数据库等核心领域，并深入延伸至人工智能、机器学习、量子计算及区块链等前沿方向。面对网络上零散且质量参差不齐的教学资源，cs-video-courses 解决了学习者难以找到成体系、高难度大学级别课程的痛点。该项目严格筛选内容，仅收录真正的大学层级课程，排除了碎片化的简短教程或商业广告，确保用户能接触到严谨的学术内容。这份清单特别适合希望夯实计算机基础的开发者、需要补充特定领域知识的研究人员，以及渴望像在校生一样系统学习计算机科学的自学者。其独特的技术亮点在于分类极其详尽，不仅包含传统的软件工程与网络安全，还细分了生成式 AI、大语言模型、计算生物学等新兴学科，并直接链接至官方视频播放列表，让用户能一站式获取高质量的教育资源，免费享受世界顶尖大学的课堂体验。

★ 79.8k|★☆☆☆☆|6天前

其他图像数据工具