ML4DB-paper-list

770 93 非常简单 1 次阅读 2天前数据工具其他

AI 解读由 AI 自动生成，仅供参考

ML4DB-paper-list 是一个专注于“人工智能赋能数据库系统”领域的开源论文合集。它系统性地整理了将机器学习、深度学习及强化学习应用于数据库内核优化的前沿学术成果，涵盖配置自动调优、索引推荐、查询优化、基数估计、资源管理以及 Text-to-SQL 等核心方向。

面对数据库智能化研究中论文数量激增且分类分散的痛点，该资源库通过精细化的目录结构，将海量文献按功能模块（如物理设计、负载预测、执行引擎等）进行归类，帮助从业者快速定位特定细分领域的高质量研究，有效降低了追踪最新技术动态的门槛。

这份清单特别适合数据库内核开发者、系统架构师以及从事 AI4DB 方向研究的科研人员使用。无论是希望引入自调优机制的工程团队，还是探索新型算法模型的学术界人士，都能从中获取宝贵的理论依据与技术灵感。其独特亮点在于不仅收录了经典的系统性综述与教程，还持续跟进如零样本学习、通用优化模型等新兴趋势，并开放社区协作机制，鼓励全球开发者共同补充完善，是进入智能数据库领域不可或缺的导航图。

使用场景

某大型电商公司的数据库团队正致力于优化核心交易系统的查询性能，计划引入机器学习技术实现索引自动推荐和基数估计优化。

没有 ML4DB-paper-list 时

研究人员需要在海量学术库中盲目搜索，难以区分哪些论文真正解决了生产环境的“长尾查询”延迟问题。
缺乏系统性的分类指引，团队容易遗漏如"LSM-tree 相关优化”或“并发代价估计”等关键细分领域的最新突破。
从零复现算法成本极高，因无法快速定位像 UDO 这样附带开源代码的高质量论文，导致验证周期长达数月。
对 Text-to-SQL 等新兴方向缺乏权威评估，难以判断哪些成果具备落地价值，极易在低质量研究上浪费算力资源。

使用 ML4DB-paper-list 后

团队直接通过"Index Recommendation"和"Cardinality Estimation"分类，精准锁定针对高并发场景的最新 SOTA 算法。
借助清晰的目录结构，迅速发现并采纳了关于自适应查询处理（Adaptive Query Processing）的前沿方案，填补了技术盲区。
利用列表中提供的源码链接（如 UDO），将算法验证周期从数月缩短至两周，快速完成了内部基准测试。
参考社区对 Text-to-SQL 方向的讨论与补充，规避了不成熟的技术路线，集中资源攻关高回报的自治调优模块。

ML4DB-paper-list 将原本分散杂乱的学术海洋转化为结构化的技术地图，让数据库智能化改造从“大海捞针”变为“按图索骥”。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个学术论文列表（Paper List），用于整理人工智能在数据库系统中的应用研究，本身不是一个可运行的软件工具或代码库，因此没有具体的操作系统、GPU、内存、Python 版本或依赖库要求。部分列出的论文附带了外部源代码链接，那些独立项目的运行环境需参考其各自的仓库说明。

python未说明

快速开始

[论文列表] AI4DB / ML4DB / 自动化数据库 / 自动驾驶数据库 / 智能数据库 / 自治数据库

包含人工智能（机器学习、深度学习、强化学习）在数据库系统中应用的论文列表

新论文不断涌现，如果你对这个话题感兴趣，请记得 Watch 这个仓库。

关于机器学习、神经网络、强化学习、自调优技术等在数据库系统中的应用的文章列表，列表持续更新中，记得按赞、分享、打开小铃铛！

欢迎提交 PR！

欢迎大家补充！

关于 Text-To-SQL 的论文层出不穷！可惜我并不是这方面的专家，无法判断这些论文的质量。
非常期待大家在 Text-To-SQL 方面的贡献（PR、评论、讨论）！🫶

如果有同学需要稳定访问GitHub的方式，可以试试这个链接

SageDB：一个学习型数据库系统（CIDR 2019）
数据库学习：迈向每次使用都更智能的数据库（SIGMOD 2017）
自动驾驶数据库管理系统（CIDR 2017）
自动驾驶：从通用到专用的DBMS（Phd@PVLDB 2018）
面向ML增强型数据库系统的主动学习（SIGMOD 2020）
数据库遇见人工智能：综述（TKDE 2020）
自动驾驶数据库系统：一种概念性方法（分布式与并行数据库 2020）
统一模型统治一切：迈向数据库的零样本学习（arXiv 2021）
UDO：利用强化学习进行通用数据库优化（arXiv 2021）源代码
走向学习型系统的基准测试（SMDB研讨会 2021）
面向ML增强型DBMS的统一可迁移模型 [愿景]（arXiv 2021）
AI遇见数据库：AI4DB与DB4AI（SIGMOD 2021）
扩展你的训练极限！为基于ML的数据管理生成训练数据（SIGMOD 2021）
MB2：自动驾驶数据库管理系统的分解行为建模（SIGMOD 2021）
走向实例优化的数据系统（VLDB 2021，Tim Kraska提出）
让你的数据库系统梦见电动绵羊：迈向自动驾驶操作（VLDB 2021，Andy Pavlo提出）
openGauss：一个自治数据库系统（VLDB 2021，Guoliang Li提出）
经验增强型学习：在自动数据库管理中，一刀切仍然不适用（arXiv 2021）
百合：面向AI驱动数据库的SysML框架（arXiv 2022）
可学习数据库综述：机器学习视角（大数据研究 2021）
学习时代的数据库优化器（ICDE 2022）
数据管理中的机器学习：系统视角（ICDE 2022）
味道很棒！分量更少！高性能且准确的自动驾驶数据库管理系统训练数据收集（SIGMOD 2022）
SAM：基于监督自回归模型从查询工作负载生成数据库（SIGMOD 2022）源代码
检测、蒸馏与更新：学习型DB系统应对分布外数据（SIGMOD 2023）源代码
SageDB：一个实例优化的数据分析系统（VLDB 2023）
走向在Azure上构建自治数据服务（SIGMOD-Companion ’23）
数据库健身房（CIDR 2023）
来看看BRAD的大脑吧：用学习型自动化数据网格简化云上数据处理（VLDB 2023）
学习型数据库中的机器遗忘：实验分析（SIGMOD 2024）源代码
PilotScope：用机器学习驱动程序操控数据库（VLDB 2024）源代码
数据库中的机器学习：基础、范式与开放问题（SIGMOD 2024）
NeurDB：一个由AI驱动的自治数据系统（arXiv 2024）
GaussML：一个端到端的数据库内机器学习系统（ICDE 2024）
NeurDB：关于AI驱动自治数据库的设计与实现（arXiv 2024）
LLM用于数据管理（VLDB 2024）
云端蓝图：用BRAD统一并自动优化云上数据基础设施（VLDB 2024）
Holon方法：通过合成原型动作，利用机器学习同时调优自动驾驶数据库管理系统中的多个组件（VLDB 2024）
NeurBench：用数据和工作负载漂移建模来评估学习型数据库组件（arXiv 2025）
GaussMaster：一个基于LLM的数据库副驾驶系统（arXiv 2025）
D-Bot：一个LLM驱动的DBA副驾驶（SIGMOD-Companion 2025）
鱼需要自行车吗？DBMS中片上NPU的必要性（CIDR 2026）

训练数据收集

扩展你的训练极限！为基于机器学习的数据管理生成训练数据（SIGMOD 2021）
DataFarm：为你的基于机器学习的查询优化器“耕种粮食”！——人类引导的训练数据生成——（CIDR 2022）
为你的基于机器学习的查询优化器“耕种粮食”。（ICDE 2022，最佳演示奖）
去健身房：加速查询执行，以高效地启动自动驾驶数据库管理系统的行为模型（VLDB 2024）
通过分布可学习性对分布漂移下的学习型数据库操作进行理论分析（ICML 2024）

数据访问

配置调优

SARD：一种用于对数据库调优参数进行排序的统计方法（ICDEW，2008）
基于强化学习的正则化代价模型无关数据库调优（2016）
通过大规模机器学习实现数据库管理系统的自动调优（SIGMOD 2017）
使用深度强化学习进行自动数据库管理的案例研究（2018 ArXiv）
基于深度强化学习的端到端自动云数据库调优系统（SIGMOD 2019）
外部与内部：关于用于自治数据库管理系统的机器学习智能体的探讨
QTune：一种基于深度强化学习的查询感知型数据库调优系统（VLDB 2019）
通过学习固态硬盘的隐藏参数来优化数据库（VLDB 2019）
iBTune：面向大规模云数据库的个性化缓冲区调优（VLDB 2019）
黑色还是白色？如何开发用于内存型分析的自动调优器（SIGMOD 2020）
学习分布式SGD的高效参数服务器同步策略（ICLR 2020）
调优的旋钮太多？通过预先选择重要旋钮来加快数据库调优速度（HotStorage 2020）
运行中数据库管理系统的动态配置调优（LifeTech 2020）
用于在线数据库调优的自适应多模型强化学习（EDBT 2021）
关于在真实世界数据库管理系统上使用机器学习进行自动配置调优服务的探究（VLDB 2021）
增强NLP的数据库调优：迈向能够“阅读手册”的调优工具（VLDB 2021）
CGPTuner：一种上下文相关的高斯过程多臂赌博机方法，用于在不同工作负载条件下自动调整IT配置（VLDB 2021）
ResTune：由元学习驱动的面向资源的云数据库调优增强方案（SIGMOD 2021）
KML：利用机器学习改进存储系统（arXiv 2021）
基于自然语言处理的数据库调优（SIGMOD Record 2021）
向云数据库的动态且安全的配置调优迈进（SIGMOD 2022）
分布式数据流处理系统的自动性能调优（ICDE 2022）
用于Spark配置调优的自适应代码学习（ICDE 2022）
DB-BERT：一款能够“阅读手册”的数据库调优工具（SIGMOD 2022）
HUNTER：一个针对个性化需求的在线云数据库混合调优系统（SIGMOD 2022）
LOCAT：面向Spark SQL应用的低开销在线配置自动调优（SIGMOD 2022）
通过超参数优化促进数据库调优：一项全面的实验评估（VLDB 2022）
LlamaTune：样本高效的DBMS配置调优（VLDB 2022）
BLUTune：基于ML的查询驱动型多阶段IBM Db2调优（CIKM 2022）
用于自治DBMS调优的统一高效协调框架（arXiv 2023）
数据库旋钮自动调优：一项综述（TKDE）
基于深度学习的数据库管理系统自动调优（arXiv 2023）
KeenTune：用于云应用性能测试与优化的自动化调优工具（ISSTA 2023）
ContTune：基于保守贝叶斯优化的分布式流数据处理系统的连续调优（arXiv 2023）
GPTuner：一种通过GPT引导的贝叶斯优化实现的手册阅读型数据库调优系统（arXiv 2023）
一种基于迁移学习的高效数据库调优顾问（VLDB 2024）
DB‑GPT：大型语言模型与数据库的结合（DSE 2024）
一款用于自适应、细粒度参数调优的Spark优化器（arXiv 2024）
TIE：面向内存数据分析的快速实验驱动型ML配置调优（IEEE计算机汇刊）
VDTuner：面向向量数据管理系统的自动性能调优（ICDE 2024）源代码
Nautilus：一个用于DBMS旋钮调优的基准测试平台（DEEM 2024）源代码
大型语言模型擅长数据库旋钮调优吗？一项全面的实验评估（arXiv 2024）
CTuner：基于因果强化学习的自动NoSQL数据库调优（Internetware 2024）
KnobTree：通过可解释强化学习实现的智能数据库参数配置（arXiv 2024）
KnobCF：不确定性感知的旋钮调优（arXiv 2024）
Db2une：通过深度学习在压力下进行调优（VLDB 2024）
{\lambda}-Tune：利用大型语言模型实现数据库系统的自动化调优（arXiv 2024）
Db2une：通过深度学习在压力下进行调优（VLDB 2024）
LOFTune：一种低开销且灵活的Spark SQL配置调优方法（TKDE 2025）
EAST：一个可解释的云数据库旋钮估算系统（ICDE 2025）
AQETuner：面向分析型查询引擎的可靠查询级配置调优（arXiv 2025）
自动数据库调优与人工调优在模拟高压工作环境中的对比：数据库健身房的演示（SIGMOD 2025）
Rabbit：检索增强生成技术助力更好的自动数据库旋钮调优（ICDE 2025）
BitTuner：一套用于自动配置已学习数据压缩器的工具箱（ICDE 2025）
AgentTune：一个基于代理的大型语言模型框架，用于数据库旋钮调优（SIGMOD 2025）
L2T-Tune：LLM引导的混合数据库调优，结合LHS和TD3（arXiv 2025）

物理设计

提瑞西阿斯：实现预测性自治存储与索引（VLDB 2022）
超级：基于多智能体强化学习的混合物理设计顾问（ICDE 2025）

学习型结构

堆叠过滤器：基于结构的学习式过滤（VLDB 2021）
LEA：面向列存数据库的学习型编码顾问（aiDM 2021）
面向数据库的集合学习（EDBT 2024）
分布式学习哈希表（arXiv 2025）

索引

索引结构

大数据索引中的学习哈希——综述（2016）
学习型索引结构的必要性（SIGMOD 2018）
A-Tree：一种有界近似索引结构（2017）
FITing-Tree：一种数据感知型索引结构（SIGMOD 2019）
面向动态工作负载的学习型索引（2019）
SOSD：学习型索引基准测试（2019）
多维学习型索引的学习方法（2019）
ALEX：一种可更新的自适应学习型索引（SIGMOD 2020）
空间索引的有效学习（VLDB 2020）GitHub链接
用于数据流的稳定学习布隆过滤器（VLDB 2020）
START——自调优自适应基数树（ICDEW 2020）
学习型数据结构（2020）
RadixSpline：单次遍历学习型索引（aiDM2020）
ML-Index：一种用于点查询、范围查询及最近邻查询的多维学习型索引（EDBT 2020）
PGM-index：一种具有可证明最坏情况边界且完全动态的压缩学习型索引（VLDB 2020）
学习型多维索引教程（SIGSPATIAL 2020）
为什么学习型索引如此有效？（ICML 2020）
面向谷歌规模磁盘数据库的学习型索引（arXiv 2020）
SIndex：一种适用于字符串键的可扩展学习型索引（APSys 2020）
XIndex：一种面向多核数据存储的可扩展学习型索引（PPoPP 2020）
海啸：一种适用于相关数据和倾斜工作负载的多维学习型索引（VLDB 2021）
一种用于高效索引学习的懒惰方法（2021）
RLR-Tree：一种基于强化学习的空间R树（arXiv 2021）
基于空间插值的学习型索引，用于范围查询和kNN查询（arXiv 2021）
APEX：一种高性能的持久内存学习型索引（arXiv 2021）
RUSLI：实时可更新的样条学习型索引（aiDM 2021）
PLEX：迈向实用的学习型索引（arXiv 2021）
SPRIG：一种用于范围查询和kNN查询的学习型空间索引（SSTD 2021）
学习型索引的基准测试（VLDB 2021）
具有精确位置的可更新学习型索引（VLDB 2021）
学习型内存内连接的必要性（arXiv 2021）
限制最后一公里：高效的字符串学习型索引（arXiv 2021）
FINEdex：一种针对可扩展并发内存系统的细粒度学习型索引方案（VLDB 2022）
数据库索引的未来五十年，或：自动构建索引结构的必要性（VLDB 2022）
面向多核数据存储的并发学习型索引（Transactions on Storage 2022）
TONE：降低学习型索引的尾延迟（CHEOPS 22）
一种用于度量空间中精确相似性搜索的学习型索引（ArXiv 2022）
RW-tree：一种学习型的工作负载感知框架，用于R树构建（ICDE 2022）
“AI+R”树：一种实例优化的R树（MDM 2022）
LHI：一种用于高效相似性搜索的学习型汉明空间索引框架（SIGMOD 2022）
熵学习哈希：在可控均匀性下实现10倍速度的哈希运算（SIGMOD 2022）
磁盘及其他介质上分层学习型索引的调优（SIGMOD 2022）
FLIRT：一种用于滚动时间窗口的快速学习型索引（EDBT 2022）
学习型索引结构的鲁棒性测试（arXiv 2022）
机器学习增强型高维索引的必要性（2022）
一种用于度量空间中精确相似性搜索的学习型索引（arxiv 2022）
PLIN：一种高性能且可即时恢复的非易失性存储持久化学习型索引（VLDB 2023）
一种面向高效写入的数据感知学习型索引方案（ICPP 2022）
数据流中的频率估计：学习最优哈希方案（TKDE）
FILM：一种完全学习型的超内存数据库索引（VLDB 2023）
WISK：一种面向空间关键词查询的工作负载感知学习型索引（arXiv 2023）
空间索引的高效学习（ICDE 2023）
将学习型索引拆解分析：对可更新学习型索引的深入探讨（ICDE 2023）
DILI：一种由分布驱动的学习型索引（arXiv 2023）
学习型索引：全面实验评估（VLDB 2023）
LMSFC：一种基于学习单调填充曲线的新型多维索引（扩展版）（arXiv 2023）
一石二鸟：一种轻量级多维学习型索引，支持基数计算（arXiv 2023）
一种简单却性能卓越的磁盘学习型索引：能否兼得蛋糕与食用？（aiXiv 2023）
快速分区学习布隆过滤器（arXiv 2023）
通过模型复用与微调实现高效索引学习（ICDEW 2023）
COAX：关联感知索引（ICDEW 2023）
动态e的学习型索引（openreview 2023）
学习优化LSM树：面向动态工作负载的强化学习键值存储（arXiv 2023）
SALI：一种基于概率模型的可扩展自适应学习型索引框架（SIGMODE 2024）
Sieve：一种用于数据分析的学习型跳过数据索引（VLDB 2023）
展示华夫格：一种自动驾驶网格索引（VLDB Demo 2023）
局部敏感哈希是否能被神经网络取代？（arXiv 2023）
工作负载感知与学习型Z索引（arXiv 2023）
AirIndex：通过数据和存储进行多功能索引调优（SIGMOD 2024）
一种面向并发分布式系统的快速学习型键值存储（TKDE 2023）
当学习型索引遇到持久性内存时：分析与优化（TKDE 2023）
PLATON：采用学习型分区策略的自顶向下R树打包（PACMMOD 2023）
一种用于数据流上可变大小滑动窗口的近似成员资格查询的学习型杜鹃过滤器（PACMMOD 2023）
WIPE：一种面向持久性内存的写优化学习型索引（TACO 2023）
动态学习型索引的算法复杂度攻击（VLDB 2024）
一种完全可在磁盘上更新的学习型索引（ICDE 2024）
豪华轿车：融合学习型与传统索引，自主设计超内存云存储引擎（SIGMOD 2024）
AStore：面向支持RDMA的键值存储的统一自适应学习型索引与缓存（TKDE 2024）
Cabin：一种压缩自适应分箱扫描索引（SIGMOD 2024）
SWIX：一种内存效率高的滑动窗口学习型索引（SIGMOD 2024）
豪华轿车：融合学习型与传统索引，自主设计超内存云存储引擎（SIGMOD 2024）
多维空间学习型索引综述（arXiv 2024）
超级：一种高性能且内存高效的混合构建学习型索引（ACM关于数据管理的会议论文集 2024）
谓词缓存：面向云数据仓库的查询驱动二级索引（SIGMOD 2024）
AStore：面向支持RDMA的键值存储的统一自适应学习型索引与缓存（TKDE 2024）
学习型索引能否高效构建？抽样权衡的深度探讨（SIGMOD 2024）
让内存中的学习型索引在磁盘上同样高效（SIGMOD 2024）
LeaderKV：通过学习型索引和解耦KV表提升KV存储的读取性能（ICDE 2024）
变色龙：面向局部倾斜数据的更新高效学习型索引探索（ICDE 2024）
重新审视使用字节寻址持久性存储的学习型索引（ICPP 2024）
UpLIF：一个可更新的自调优学习型索引框架（arXiv 2024）
LITS：一种面向字符串的优化学习型索引（VLDB 2024）
对外部内存连接中学习型索引的评估（arXiv 2024）
通过虚拟点平滑分布的学习型索引（arXiv 2024）
VEGA：一种具有分组学习粒度的主动调优学习型索引（SIGMOD 2025）
ALT-Index：一种面向并发内存数据库系统的混合学习型索引（ICDE 2025）
BMTree：为多维数据索引设计、学习并更新分段式空间填充曲线（arXiv 2025）
LIOF：让学习型索引以更高精度更快地学习（TKDE 2025）
TELEX：一种用于基于Enclave的区块链系统上丰富查询的两层学习型索引（TKDE 2025）
学习型索引结构中的分段线性逼近：理论与实证分析（arXiv 2025）
从一维到多维空间的学习型索引：挑战、技术和机遇（SIGMOD 2025）
在LSM树系统中评估学习型索引：基准、洞见和设计选择（arXiv 2025）
leSAX索引：一种用于时间序列相似性搜索的学习型SAX表示索引（ICDE 2025）
高性能还是低内存？一种用于时空权衡的可更新学习型索引框架（SIGMOD 2025）
解析可更新学习型索引的鲁棒性问题：实验与分析（SIGMOD 2025）
LETIndex：一种带有TEE的安全学习型索引（VLDB 2025）
对RL增强型空间索引与传统、先进及学习型对应物的基准测试（arxiv 2025）

LSM树相关

Leaper：一种用于LSM树存储引擎中缓存失效的学习型预取器（VLDB 2020）
从WiscKey到波本：一种用于日志结构合并树的学习型索引（OSDI 2020）
TridentKV：一种通过自适应索引和空间高效分区优化读取性能的LSM树基KV存储（TPDS 2022）
LearnedKV：将LSM与学习型索引结合，在SSD上实现卓越性能（arXiv 2024）
CAMAL：通过主动学习优化LSM树（arXiv 2024）
DobLIX：一种面向日志结构合并树的双目标学习型索引（arXiv 2025）
学习型LSM树：两种利用学习布隆过滤器的方法（aiXiv 2025）

索引推荐

自适应数据库管理系统中的索引选择（SIGMOD 1976）
AutoAdmin“假设”索引分析工具（SIGMOD 1998）
自调优数据库系统：十年进展（VLDB 2007）
AI遇见AI：利用查询执行改进索引推荐（SIGMOD 2019）
使用无模型强化学习的自动化数据库索引（ICAPS 2020）
DRLindex：面向集群数据库的深度强化学习索引顾问（2020年国际数据库工程与应用研讨会）
手中魔镜啊，请告诉我谁是这世上最好的索引选择算法？索引选择算法的实验评估（VLDB 2020）GitHub链接
基于深度强化学习的索引顾问（CIKM 2020）GitHub链接
DBA强盗们：在临时性和分析性工作负载下安全驾驶索引调优（ICDE 2021）
MANTIS：使用深度强化学习进行多种类型和属性索引的选择（IDEAS 2021）
AutoIndex：一种面向动态工作负载的增量索引管理系统（ICDE 2022）GitHub链接
SWIRL：利用强化学习选择工作负载感知索引（EDBT 2022）GitHub链接
Indexer++：结合变压器和强化学习进行工作负载感知在线索引调优（ACM SIGAPP SAC，2022）
基于预算的强化学习索引调优（SIGMOD 2022）
ISUM：高效压缩大型复杂工作负载，实现可扩展索引调优（SIGMOD 2022）
DISTILL：低开销数据驱动技术，用于筛选和估算索引成本，从而实现可扩展索引调优（VLDB 2022）
SmartIndex：一款带有学习成本估算器的索引顾问（CIKM 2022）
HMAB：用于集成物理数据库设计调优的自驱动强盗层级（VLDB 2022）
学习型索引收益：基于机器学习的索引性能估算（VLDB 2023）GitHub链接
AIM：一种面向SQL数据库的自动化索引管理实用方法（ICDE 2023）
可更新学习型索引与磁盘驻留DBMS相遇——从评估到设计选择（SIGMOD 2023）
利用量子计算机上的机器学习进行大规模数据库应用的索引调优（AIDB@VLDB 2023）
一种面向慢查询的数据驱动索引推荐系统（CIKM 2023）
机器学习赋能索引调优：近期进展与开放挑战概述（arXiv 2023）
可更新学习型索引顾问对抗中毒攻击的鲁棒性（SIGMOD 2024）
重构索引调优流程，加入收益估算环节（VLDB 2024）GitHub链接
利用动态和异构工作负载知识提升索引顾问性能（VLDB 2024）[GitHub链接](https://github.com/XMUDM/BALANCE）
MFIX：一种高效可靠的多保真贝叶斯优化索引顾问（ICDE 2024）
TRAP：通过对抗扰动对索引顾问进行定制化鲁棒性评估（ICDE 2024）
面向慢查询的在线索引推荐（ICDE 2024）
自动索引调优：综述（TKDE）
拆解剖析：索引顾问的深度研究（VLDB 2024）
不确定性量化能否促进更好的学习型索引调优？（arXiv 2024）
混合成本建模以减少索引调优中的查询性能退化（TKDE 2024）
学习型索引调优的新范式：强化学习增强方法（arXiv 2025）
LLMIdxAdvis：一种利用大型语言模型的资源节约型索引顾问（arXiv 2025）
通过潜在估计引导索引调优探索（ICDE 2025）
AutoIndexer：一种面向规模化工作负载的强化学习增强索引顾问（arXiv 2025）
Rainbow：面对分布外工作负载的风险感知索引收益估算（SIGMOD 2025）
Oracle中的自动索引（VLDB 2025）

物化视图

基于深度学习和强化学习的自动视图生成（ICDE 2020）
基于深度强化学习的自主物化视图管理系统（ICDE 2021）
使用图神经网络进行动态物化视图管理的技术报告
HMAB：用于集成物理数据库设计调优的自驱动多臂老虎机层次结构（VLDB 2022）
AutoView：基于编码器-解码器的自主物化视图管理系统（TKDE 2022）
使用图神经网络的动态物化视图管理（ICDE 2023）

模式与分区

Schism：一种工作负载驱动的数据库复制与分区方法（VLDB 2010）
在无共享并行OLTP系统中考虑倾斜的自动数据库分区（SIGMOD 2012）
面向高度可扩展且强一致事务的自动化数据分区（2016年《并行与分布式系统汇刊》）
GridFormation：利用强化学习实现自驱动在线数据分区（aiDM@SIGMOD 2018）
使用深度强化学习学习分区顾问（2019年）
Qd-tree：为大数据分析学习数据布局（SIGMOD 2020）
面向大数据仓库的遗传优化物理规划器（2020年）
Lachesis：面向以用户定义函数为中心的分析的自动化分区（VLDB 2021）
针对云分析工作负载的实例优化数据布局（SIGMOD 2021）
Jigsaw：用于不规则表分区的数据存储与查询处理引擎（SIGMOD 2021）
Dalton：面向分布式数据流的学习型分区（VLDB 2023）
Grep：基于图学习的数据库分区系统（Management of Data 2023）
学习空间数据分区（arXiv 2023）
放松并让数据库在线完成分区（BIRTE 2011）
SWORD：面向事务类工作负载的可扩展、工作负载感知数据放置策略（EDBT 2013）
分布式数据库系统中的在线数据分区（EDBT 2015）
面向即席查询工作负载的稳健分区方案（SOCC 2017）
Amazon Redshift中的自动化多维数据布局（SIGMOD 2024）
Oasis：最优的不相交分段学习型范围过滤器（VLDB 2024）

缓存相关

开销极低的学习型缓存淘汰框架（arXiv 2023）

工作负载

工作负载生成

展示SQLBarber：利用大型语言模型生成定制化且真实的SQL工作负载（SIGMOD 2025）

资源管理与自动伸缩

关系型数据库即服务中的自动化按需资源伸缩（SIGMOD 2016）
基于时间序列分析和机器学习的数据库工作负载容量规划（SIGMOD 2020）
Seagull：用于负载预测和优化资源分配的基础设施（VLDB 2020）
FIRM：面向SLO导向微服务的智能细粒度资源管理框架（OSDI 2020）
无服务器查询的最佳资源分配（arXiv 2021）
sinan：基于ML且关注QoS的云原生微服务资源管理（ASPLOS 2021）
向大数据分析的最佳资源分配迈进（EDBT 2022）
超额订阅数据库即服务集群中的租户放置（VLDB 2022）
面向大数据处理的智能资源管理的细粒度建模与优化（arXiv 2022）
SIMPPO：用于无服务器资源管理的可扩展增量式在线学习框架（SoCC 2022）
SUFS：通过自适应集成学习提供通用存储使用预测服务（ICDE 2023）
Auto-WLM：Amazon Redshift中的机器学习增强型工作负载管理（SIGMOD-Companion ’23）
SeLeP：面向探索性数据库工作负载的基于学习的语义预取（arXiv 2023）
Amazon Redshift中的智能伸缩（SIGMOD 2024）
智能资源伸缩的预测算法：一项实验分析（Socc 2024）
LORE：面向大数据查询的学习型资源推荐（ICDE 2025）

性能诊断与建模

高并发OLTP工作负载中的性能与资源建模（SIGMOD 2013）
DBSherlock：事务型数据库的性能诊断工具（SIGMOD 2016）
自顶向下实现数据库系统性能可预测性的方法（SIGMOD 2017）
诊断云数据库中间歇性慢查询的根本原因（VLDB 2020）
面向自治DBMS的工作负载感知性能调优（ICDE 2021）
Sage：面向微服务的实用且可扩展的ML驱动性能调试（ASPLOS 2021）
D-Bot：基于大型语言模型的数据库诊断系统（arXiv 2023）
为学习型数据库系统建模变化的工作负载（SIGMOD 2024）
Andromeda：利用检索增强型大型语言模型调试数据库性能问题（SIGMOD 2025）

工作负载变化检测

向自治数据库的工作负载变化检测与预测迈进（CIKM 2007）
数据库工作负载事件的一致性在线分类（CIKM 2009）
关于优化并行OLTP系统中事务执行的预测建模（VLDB 2011）
面向学习型数据库操作的概念漂移情境适应（arXiv 2025）

工作负载特征描述与预测

关于关系型数据库环境的工作负载特征描述（TSE 1992）
自治数据库管理系统的工作负载模型（2006年国际自治与自主系统会议）
云端的工作负载特征描述与预测：多时间序列方法（APNOMS 2012）
面向自动驾驶数据库管理系统的查询驱动型工作负载预测（SIGMOD 2018）
Query2Vec：评估NLP技术在通用工作负载分析中的应用（Arxiv 2018）
使用查询计划编码器进行数据库工作负载特征描述（arXiv 2021）
利用贝叶斯优化解释推理查询（VLDB 2021）
基于奥卡姆剃刀的统计模式学习（SIGMOD 2022）
面向数据库平台迁移的智能自动化工作负载分析（SIGMOD 2022）
Stitcher：从历史性能足迹中学习合成工作负载（EDBT 2022）
DBAugur：面向多样化工作负载的对抗式趋势预测系统（ICDE 2023）
使用剪枝GRU神经网络高效在线预测主机工作负载（arXiv 2023）
云计算中的不确定性感知工作负载预测（arXiv 2023）
大规模云数据库的实时工作负载模式分析（VLDB 2023）
基于概率性工作负载预测的云数据库稳健自动伸缩（ICDE 2024）
QPSEncoder：带有深度学习的数据库工作负载编码器（DEXA 2024）
从特征选择到资源预测：常用工作流程与技术的分析（EDBT 2025）

查询优化

学习型查询优化器：最新进展与未来方向（SIGMOD 2024）
GLO：迈向通用的学习型查询优化（ICDE 2024）
机器学习时代的鲁棒查询优化：现状与未来方向（ICDE 2024）
Presto 的基于历史的查询优化器（VLDB 2024）
基于学习的空间查询优化（VLDB 2024）
DBG-PT：大型语言模型辅助的查询性能回归调试器（VLDB 2024）
学习型代价模型究竟有多好？来自查询优化任务的洞察（SIGMOD 2025）GitHub 链接
SERAG：用于查询优化的自进化 RAG 系统（arXiv 2025）
面向大型语言模型的 SQL 查询执行中的逻辑与物理优化（SIGMOD 2025）
SEFRQO：一种自进化的微调 RAG 基查询优化器（arXiv 2025）
JOB-Complex：面向传统与学习型查询优化的挑战性基准测试集（arXiv 2025）
LLM4Hint：利用大型语言模型进行离线查询优化中的提示推荐（arXiv 2025）
用于查询计划表示的图变换器：潜力与挑战（VLDB 2026）

查询重写

Sia：使用学习型谓词优化查询（SIGMOD 2021）
基于蒙特卡洛树搜索的学习型查询重写系统（VLDB 2022）
WeTune：自动发现与验证查询重写规则（SIGMOD 2022）
一种学习型查询重写系统（VLDB 2023）
基于大型语言模型的查询重写（arXiv 2024）
LLM-R2：增强规则的大型语言模型重写系统，用于提升查询效率（arXiv 2024）GitHub
R-Bot：基于 LLM 的查询重写系统（arXiv 2024）
QUITE：超越规则、采用 LLM 代理的查询重写系统（arXiv 2025）
利用查询优化器验证基于 LLM 的查询重写的正确性，以应对真实世界的工作负载，以及其他更多内容！（CIDR 2026）

基数估计

我们准备好采用学习型基数估计了吗？（VLDB 2021）GitHub链接
面向基数估计的统一深度学习模型：同时从数据和查询中学习（SIGMOD 2021）
最新进展：面向时空文本流的辅助学习选择率估计（ICDE 2021）
Fauce：用于基数估计的快速且准确的不确定性深度集成模型（VLDB 2021）
数据库管理系统中的基数估计：全面基准评估（arXiv 2021）GitHub链接
学习型基数估计：设计空间探索与比较评估（VLDB 2022）
Glue：自适应融合单表基数以估计连接查询规模（aiXiv 2021）
通过整合高斯混合模型与自回归模型实现无监督选择率估计（EDBT 2022）
范围查询的选择率函数可被学习（SIGMOD 2022）
学习型基数估计的预测区间：实验评估（ICDE 2022）
学习型基数估计：深入研究（SIGMOD 2022）
FactorJoin：一种用于连接查询的新基数估计框架（SIGMOD 2023）
AutoCE：一款准确高效的模型顾问，用于学习型基数估计（ICDE 2023）
Couper：在非均衡分布下进行内存高效的基数估计（ICDE 2023）
ALECE：一种基于注意力机制的学习型基数估计器，适用于动态工作负载下的SPJ查询（VLDB 2023）
高级数据集发现：当多查询数据集基数估计至关重要时（aiXiv 2024）
利用几何深度学习实现样本高效基数估计（VLDB 2024）
PRICE：一个用于跨数据库基数估计的预训练模型（arXiv 2024）GitHub链接
ByteCard：利用学习型基数估计增强字节跳动的数据仓库（SIGMOD 2024）
ASM实战：快速实用的学习型基数估计（SIGMOD 2024）
CardBench：关系数据库中学习型基数估计的基准测试（arXiv 2024）
Duet：高效且可扩展的混合神经关系理解模型。（ICDE 2024）
使用深度学习对LIKE谓词查询进行基数估计（SIGMOD 2025）
TardySketch：一个可适应滑动窗口的基数估计框架（arXiv 2025）
针对所有学习型基数估计器的算法复杂度攻击：一种以数据为中心的方法（arXiv 2025）
DistJoin：基于自适应神经谓词调制的解耦式连接基数估计器（TKDE 2026）GitHub链接

基于数据的方法

自调优、GPU加速的核密度模型，用于多维选择率估计（SIGMOD 2015）
使用带宽优化的核密度模型估计连接选择率（VLDB 2017）
DeepDB：从数据中学习，而非从查询中学习！（VLDB 2020）GitHub链接
深度无监督基数估计（VLDB 2019）
利用深度学习进行多属性选择率估计（arXiv 2019）
用于多属性查询选择率估计的深度学习模型（SIGMOD 2020）
NeuroCard：一款适用于所有表的基数估计器（VLDB 2020）GitHub链接
学会采样：使用复杂查询计数（VLDB 2020）
使用概率模型进行选择率估计（SIGMOD 2001）
无需独立性假设的轻量级图形模型用于选择率估计（VLDB 2011）
高效调整图形模型以用于选择率估计（VLDB 2013）
基于贝叶斯网络的查询选择率估计方法（DASFAA 2019）
BayesCard：一个用于基数估计的统一贝叶斯框架（arXiv 2020）GitHub链接
基于在线草图的查询优化（arXiv 2021）
LMKG：知识图谱中用于基数估计的学习模型（arXiv 2021）
LHist：迈向为海量空间数据学习多维直方图（ICDE 2021）
FLAT：一种快速、轻量且准确的基数估计方法（VLDB 2021）GitHub链接
Astrid：利用深度学习对字符串谓词进行精确选择率估计（VLDB 2021）
FACE：基于归一化流的基数估计器（VLDB 2022）
面向基数估计的结构化数据集摘要模型预训练（VLDB 2022）
使用深度学习对近似子串查询进行基数估计（VLDB 2022）
通过基于学习的渐进式基数估计加速端到端查询执行（ACM数据管理学报）
使用平滑自回归模型进行基数估计（WWW 2023）
使用归一化流进行基数估计（VLDBJ 2023）
LPLM：用于LIKE查询基数估计的神经语言模型（SIGMOD 2024）
ASM：将自回归模型、采样和多维统计合并用于基数估计（SIGMOD 2024）
ASM实战：快速实用的学习型基数估计（SIGMOD 2024）
SAFE：针对动态空间数据的采样辅助快速学习型基数估计（DEXA 2024）
可更新的数据驱动基数估计器，具有有界Q-error（arXiv 2024）
Grid-AR：基于网格的助推器，用于学习型基数估计和范围连接（arXiv 2024）
SSCard：利用后缀树引导的学习型FM索引进行子串基数估计（arXiv 2025）
一款轻量级的学习型基数估计模型（TKDE 2025）
用于基数估计的扩散模型小型化（arXiv 2025）

基于查询的方法

利用查询反馈进行自适应选择率估计（SIGMOD 1994）
扩展性数据库中的选择率估计——基于神经网络的方法（VLDB 1998）
使用神经网络有效估计查询规模。（应用智能 2002）
LEO——DB2的学习型优化器（VLDB 2011）
查询基数估计的黑盒方法（CIDR 07）
使用神经网络进行基数估计（2015）
向共享云环境中的学习型优化器迈进（VLDB 2018）
利用深度强化学习学习查询优化的状态表示（DEEM@SIGMOD2018）
学习型基数：利用深度学习估计相关联接（CIDR2019）GitHub链接
使用深度草图估计基数（SIGMOD 2019）GitHub链接
使用轻量级模型对范围谓词进行选择率估计（VLDB 2019）
（综述）关于深度学习在基数估计中应用的实证分析（arXiv 2019）
通过深度学习实现灵活的操作符嵌入（arXiv 2019）
通过学习查询包含率改进基数估计（EDBT 2020）
基于NN的任意SQL基数估计器改造，以处理DISTINCT、AND、OR和NOT操作符（2020）
QuickSel：使用混合模型快速学习选择率（SIGMOD 2020）
使用低开销回归模型高效近似选择率函数（VLDB 2020）
面向相似度查询的学习型基数估计（SIGMOD 2021）
神经网络高斯过程支持下的不确定性感知基数估计（arXiv 2021）
Flow-Loss：学习真正重要的基数估计值（VLDB 2021）
Warper：高效适应数据与工作负载漂移的学习型基数估计器（SIGMOD 2022）
使用神经网络高斯过程实现轻量且准确的基数估计，用于近似复杂事件处理（SIGMOD 2022）
通过混合谓词组合增强查询特征化，以支持基于ML的基数估计（EDBT 2023）
通过基于学习的渐进式基数估计加速端到端查询执行（SIGMOD 2023）
在变化的工作负载下实现稳健的查询驱动基数估计（VLDB 2023）
面向高维近似NN搜索的学习型探测式基数估计（ICDE 2023）
CEDA：带有领域适应性的学习型基数估计（VLDB 2023）
使用双向压缩器集成学习实现高效的基数与成本估计（arXiv 2023）
将领域知识添加到查询驱动的学习型数据库中（arXiv 2023）
PACE：针对学习型基数估计的中毒攻击（SIGMOD 2024）
利用几何深度学习实现样本高效基数估计（VLDB 2024）
基于XGBoost自动化的局部学习用于基数估计（知识与信息系统）
不依赖特定数据的基数学习，适用于不完美工作负载（arXiv 2025）
SPACE：基于序列学习的路径查询基数估计，具备基数意识（SIGMOD 2025）

成本估算

单一查询

面向XML查询成本估算的统计学习技术（VLDB 2005）
查询多指标预测：机器学习赋能更优决策（ICDE 2009）
预测型数据库系统的机遇与挑战（CIDR 2011）
基于学习的查询性能建模与预测（ICDE 2012）
利用统计技术对SQL查询资源消耗进行稳健估计（VLDB 2012）
基于学习的SPARQL查询性能建模与预测（WWW 2017）
面向查询性能预测的计划结构化深度神经网络模型（arXiv 2019）
端到端基于学习的成本估算器（arXiv 2019）（VLDB 2019）
大数据查询处理的成本模型：学习、改造及我们的发现（2020）
DBMS拟合：为何要学习我们已知的知识？（CIDR 2020）
关于算子级查询执行成本建模的注记（2020）
基于ML的跨平台查询优化（ICDE 2020）
零样本成本模型：开箱即用的学习型成本预测（VLDB 2022）
基于伪标签的高效学习用于查询成本估算（CIKM 2022）
gCBO：面向图数据库的成本优化器（CIKM 2022）
QueryFormer：用于查询计划表示的树形变换器模型（VLDB 2022）
BASE：弥合查询优化中成本与延迟之间的鸿沟（VLDB 2023）
重新思考学习型成本模型：为何要从头开始？（PACMMOD 2023）
预算感知的查询调优：AutoML视角（arXiv 2024）
OS预训练变换器：在不断变化的系统环境中预测查询延迟 GitHub链接
精准与鲁棒并重：结合不确定性量化实现跨数据库泛化，以支持稳健的成本估算（CIKM 2024）
DACE：一种数据库无关的成本估算器（ICDE 2024）
QCFE：高效的查询成本估算特征工程（ICDE 2024）
T3：使用编译型决策树为关系数据库系统提供准确且快速的性能预测（arXiv 2025）
在LinkedIn评估学习型查询性能预测模型：挑战、机遇与发现（arXiv 2025）
LEAP：利用成对比较的低成本Spark SQL查询优化器（VLDB 2025）
CONCERTO：考虑复杂查询执行机制的学习型成本估算（arXiv 2025）
GRACEFUL：面向UDF的学习型成本估算器（arXiv 2025）
跨数据库查询成本估算：经典ML、Transformer与LLM的比较研究
使用合成SQL查询自举学习型成本模型（arXiv 2025）

并发

PQR：预测查询执行时间以实现自主工作负载管理（ICAC 2008）
并发数据库工作负载的性能预测（SIGMOD 2011）
利用交互感知模型和仿真预测批处理查询工作负载的完成时间（EDBT 2011）
报表生成工作负载的交互感知调度（VLDB 2011）（包含调度策略）
向并发且动态数据库工作负载的查询执行时间预测迈进（非机器学习）（VLDB 2014）
Contender：面向并发查询性能预测的资源建模方法（EDBT 2014）
利用图嵌入进行并发查询性能预测（VLDB 2020）
面向大规模查询工作负载的高效深度学习管道，用于精确成本估算（SIGMOD 2021）
面向大数据查询处理的资源感知深度成本模型（ICDE 2022）
Stage：亚马逊Redshift中的查询执行时间预测（SIGMOD 2024）
PlanRGCN：预测SPARQL查询性能（VLDB 2025）
学习型成本模型用于查询优化：从批处理到流式系统（VLDB 2025）

连接优化

超大连接查询的适应性优化（SIGMOD 2018）（非机器学习）
基于深度强化学习的连接次序枚举（aiDM@SIGMOD 2018）
利用深度强化学习优化连接查询（ArXiv）
使用Tree-LSTM进行连接次序选择的强化学习（ICDE 2020）
基于深度强化学习的连接查询优化研究挑战（aiDM 2020）
基于图表示的高效连接次序选择学习（KDD 2022）
SOAR：具有图注意力机制的学习型连接次序选择器（IJCNN 2022）
基于动态双深度Q网络的查询连接次序优化方法（Electronics 2023）
Coral：基于深度强化学习的联邦查询连接次序优化（WWW 2023）
JoinGym：面向强化学习的高效查询优化环境（arXiv 2023）
基于深度强化学习的连接次序选择：基础、技术和挑战（VLDB 2023）
利用L1误差识别次优连接次序（SIGMOD 2024）
TESSM：基于树状选择性状态空间模型的高效连接次序选择学习（CIKM 2024）
SOLAR：通过学习型优化实现可扩展的分布式空间连接（arXiv 2025）

参数化查询优化

基础理论

动态查询执行计划（SIGMOD 1989）
参数化查询优化（VLDB 1992）
动态查询执行计划的优化（SIGMOD 1994）
参数化查询优化算法的设计与分析（VLDB 1998）
最小期望成本查询优化：我们能期待什么？（SIGMOD 2002）
针对线性和分段线性成本函数的参数化查询优化（VLDB 2002）
AniPQO：几乎无侵入式的非线性成本函数参数化查询优化（VLDB 2003）

工程与数据驱动的PQO

分析数据库查询优化器的计划图（VLDB 2005）
关于厌食症式计划图的生产（VLDB 2007）
通过计划图约简识别稳健计划（VLDB 2008）
高效近似查询优化器的计划图（VLDB 2008）
在Oracle 11g中闭合查询处理循环（VLDB 2008）
渐进式参数化查询优化（TKDE 2009）
针对参数化查询的动态计划生成（SIGMOD 2009）
考虑方差的参数化查询优化（SIGMOD 2010）
关于计划成本稳定性与成本稳定性的讨论（VLDB 2010）
利用密度聚类进行参数化计划缓存（ICDE 2012）
借助再成本计算实现有保障的参数化查询在线优化（SIGMOD 2017）

基于ML的PQO与稳健查询优化

利用查询日志和机器学习进行参数化查询优化（VLDB 2022）
Kepler：稳健学习助力更快的参数化查询优化（SIGMOD 2023）
RankPQO：面向参数化查询优化的学习排序方法（VLDB 2024）
PARQO：惩罚感知的稳健计划选择在查询优化中的应用（VLDB 2024）
PAR2QO：参数化惩罚感知的稳健查询优化（VLDB 2024）
APQO：一个自适应的参数化查询优化框架（SIGMOD 2025）

查询计划

基于查询聚类的计划选择（VLDB 2002）
基于成本的查询优化：利用人工智能规划方法（AAAI 2014）
基于采样的查询重优化（SIGMOD 2016）
使用深度强化学习学习查询优化的状态表示（DEEM@SIGMOD2018）
通过深度学习迈向免手动干预的查询优化器（CIDR 2019）
Neo：一个基于学习的查询优化器（VLDB 2019）
Bao：学习引导查询优化器（2020）
基于机器学习的跨平台查询优化（ICDE 2020）
基于学习的声明式查询优化（2021）
Bao：使基于学习的查询优化走向实用（SIGMOD 2021 最佳论文！）文档 GitHub链接
Microlearner：微软针对大数据工作负载的细粒度学习型优化器（2021）
引导查询优化器：面向大数据工作负载的实用方案（SIGMOD 2021）
面向ML增强DBMS的统一可迁移模型（CIDR 2021）
Balsa：无需专家示范即可学习查询优化器（SIGMOD 2022）
利用查询日志与机器学习进行参数化查询优化（VLDB 2022）
在微软生产环境中部署引导式查询优化器（SIGMOD 2022）
构建基于学习的联邦查询优化器（VLDB 2022博士生研讨会）
基于成本还是基于学习？用于查询计划选择的混合查询优化器（VLDB 2022）
学习真正重要的内容：基于排序学习的ML查询优化方法（BTW 2023）
Lero：基于排序学习的查询优化器（VLDB 2023）GitHub链接
基于学习的查询超优化（arXiv 2023）
Kepler：稳健学习以加速参数化查询优化（SIGMOD 2023）
LOGER：学习型优化器，旨在生成高效且稳健的查询执行计划（VLDB 2023）
BitE：在混合工作负载环境中加速基于学习的查询优化（arXiv 2023）
基于强化学习的SPARQL连接顺序优化器
LEON：用于ML辅助查询优化的新框架（VLDB 2023）
AutoSteer：适用于任何SQL数据库的基于学习的查询优化（VLDB 2023）
FASTgres：使基于学习的查询优化提示机制更加有效（VLDB 2023）
简单自适应查询处理与基于学习的查询优化器：观察与分析（VLDB 2023）
QO-Insight：检查引导式查询优化器（VLDB演示2023）
QPSeeker：一种高效的神经规划器，通过变分推断结合数据与查询（EDBT 2024）
FOSS：为查询优化器服务的自我学习型医生（ICDE 2024）
Lemo：一种缓存增强型并发查询学习优化器（PACMMOD 2023）
ML4DB研究中查询计划表示技术的比较研究与组件分析（VLDB 2024）
用于数据探索的在线近似查询处理的学习型优化器（TKDE 2024）
基于学习的空间连接处理框架：估计、优化与调优（VLDB 2024）
Roq：基于风险感知的学习成本模型的稳健查询优化（arXiv 2024）
PLAQUE：查询时自动谓词学习（SIGMOD 2024）
GLO：迈向通用的学习型查询优化（ICDE 2024）
Eraser：消除基于学习的查询优化器中的性能退化（VLDB 2024）
低秩近似用于学习型查询优化（aiDM 2024）
Lero：在查询优化器中应用排序学习（VLDB 2024）
RobOpt：基于不确定性感知机器学习的稳健工作负载优化工具（SIGMOD 2024）
一种基于图神经网络的新型查询计划表示技术（大数据分析与知识发现）
查询计划表示的探索性案例研究（aiXiv 2024）
JAPO：学习云原生连接优化中的连接与下推顺序（计算机科学前沿2024）
使用提示引导PostgreSQL查询优化器：现状与开放挑战（第35届GI数据库基础研讨会）
PARQO：惩罚感知的稳健查询优化计划选择（arXiv 2024）
HERO：基于提示的高效可靠查询优化器（arXiv 2024）
大型语言模型能否成为关系数据库的查询优化器？（arXiv 2025）
基于贝叶斯优化的离线查询计划学习（arXiv 2025）
一种利用大型语言模型的查询优化方法（arXiv 2025）
RankPQO：面向参数化查询优化的排序学习（VLDB 2025）
低秩学习用于离线查询优化（arXiv 2025）
LIMAO：终身模块化学习型查询优化框架（arXiv 2025）
Athena：一种有效的基于学习的查询优化器性能提升框架（SIGMOD 2025）
Delta：基于混合成本的学习型查询优化框架（arXiv 2025）
基于LLM计划相似性的免训练查询优化（arXiv 2025）
基于学习成本模型的跨引擎SQL工作负载优化器（arXiv 2025）
FOSS：为查询优化服务的自学医生（VLDBJ）

查询执行

排序

学习型排序算法的必要性（SIGMOD 2020）
消除重复：重新设计LearnedSort算法（aiXiv 2021）
向并行学习排序迈进（arXiv 2022）

连接

SkinnerDB：基于强化学习的后悔约束查询评估（VLDB 2018）
内存中连接学习的必要性（arXiv 2021）

自适应查询处理

Eddies：持续自适应的查询处理。（SIGMOD 2000）
Vectorwise中的微观自适应性（SIGMOD 2013）
Cuttlefish：自适应查询处理的轻量级原语（2018）
基于强化学习的可扩展多查询执行（SIGMOD 2021）

近似查询处理

DBEST：利用机器学习模型重新审视近似查询处理引擎（SIGMOD 2019）
LAQP：基于学习的近似查询处理（2020）
利用深度生成模型进行数据探索的近似查询处理（ICDE 2020）
ML-AQP：基于机器学习的查询驱动型近似查询处理（2020）
基于条件生成模型的Group-By查询近似处理（2021）
学习型近似查询处理：轻量、准确且快速（CIDR 2021）
NeuroSketch：利用神经网络对范围聚合查询进行快速近似评估（SIGMOD 2023）
利用机器学习模型进行近似查询处理（大数据2022）
元组气泡：用于可调近似查询处理的学习型元组表示（aiDM 2023）
基于学习的样本调优，用于交互式数据探索中的近似查询处理（TKDE 2024）

调度

通过机器学习进行云数据库的工作负载管理（ICDE 2016 WiseDB）
基于学习的云数据库成本与性能管理服务（ICDEW 2017）（WiSeDB的简短版本）
WiSeDB：面向云数据库的基于学习的工作负载管理顾问（2016 VLDB）
面向数据处理集群的学习型调度算法（SIGCOMM 2019）
CrocodileDB：通过智能延迟实现高效的数据库执行（CIDT 2020）
基于深度强化学习的缓冲池感知查询调度（2020）
面向分析型工作负载的自适应查询调度（SIGMOD 2021）
LSched：面向分析型数据库系统的负载感知学习型查询调度器（SIGMOD 2022）
DBMLSched：调度数据库内机器学习作业（AIDB@VLDB 2023）
学习可解释的数据处理集群调度算法（arXiv 2024）
CCaaLF：可学习函数形式的并发控制（arXiv 2025）
Laser：主从式数据库中的缓冲区感知学习型查询调度（VLDB 2025）
利用准确的并发查询性能预测改进DBMS调度决策（VLDB 2025）

（事务👇）

通过学习型中止预测调度OLTP事务（aiDM@SIGMOD 2019）
通过机器学习调度OLTP事务（2019）
Polyjuice：基于学习型并发控制的高性能事务（OSDI 2021）

文本转SQL

SQLNet：无需强化学习即可从自然语言生成结构化查询（arXiv 2017）
面向数据库的端到端神经网络自然语言接口（arXiv 2018）
SyntaxSQLNet：用于复杂且跨领域的文本转SQL任务的语法树网络（EMNLP 2018）
基于执行引导解码的稳健文本转SQL生成（arXiv 2018）
朝着具有中间表示的跨领域数据库中复杂文本转SQL迈进（ACL 2019）
面向文本转SQL解析的数据库结构全局推理（EMNLP 2019）
使用图神经网络表示模式结构以进行文本转SQL解析（ACL 2019）
自然语言到SQL：我们目前处于什么阶段？（VLDB 2020）
桥接文本与表格数据，实现跨领域文本转SQL语义解析（EMNLP Findings 2020）
RAT-SQL：面向文本转SQL解析器的关系感知模式编码与链接（ACL 2020）
探索跨数据库语义解析中尚未被充分研究的泛化挑战（ACL 2020）
TAPAS：通过预训练实现弱监督下的表格解析（ACL 2020）
TaBERT：用于文本与表格数据联合理解的预训练模型（ACL 2020）
基于提炼测试集的文本转SQL语义评估（EMNLP 2020）
SMBOP：半自回归式自底向上语义解析（NAACL-HLT 2021）
Natural SQL：使SQL更容易从自然语言规范中推导出来（EMNLP Findings 2021）
LGESQL：带有混合局部与非局部关系的线图增强型文本转SQL模型（ACL 2021）
面向文本转SQL的结构基础预训练（NAACL-HLT 2021）
GraPPa：用于表格语义解析的语法增强型预训练模型（ICLR 2021）
SADGA：面向文本转SQL的结构感知双图聚合网络（NeurIPS 2021）
GP：面向文本转SQL解析器的无上下文语法预训练模型（arXiv 2021）
关系感知的半自回归式语义解析用于NL2SQL（arXiv 2021）
关于神经网络语义解析器鲁棒性的讨论（EACL 2021）
MT-Teql：在真实世界的语言和模式变化下评估并增强神经网络NLIDB的能力（VLDB 2021）
PICARD：为受限自回归解码从语言模型中逐步解析（EMNLP 2021）
通过生成增强型预训练学习语义解析的上下文表示（AAAI 2021）
朝着提高文本转SQL模型对同义词替换的鲁棒性努力（ACL 2021）
探索跨领域文本转SQL泛化的未被充分研究的局限性（EMNLP 2021）
CodexDB：使用GPT-3 Codex生成处理SQL查询的代码（arXiv 2022）
S2SQL：将句法注入到问题-模式交互图编码器中，用于文本转SQL解析器（arXiv 2022）
UNIFIEDSKG：利用文本到文本的语言模型统一并多任务处理结构化知识接地（EMNLP 2022）
RASAT：将关系结构整合进预训练的Seq2Seq模型中用于文本转SQL（EMNLP 2022）
UNISAR：一种统一的结构感知自回归语言模型用于文本转SQL（arXiv 2022）
文本转SQL系统中的最佳假设重排序（SLT 2022）
通过迭代学习模式链接图来增强语义的文本转SQL解析（KDD 2022）
SeaD：端到端的文本转SQL生成，具备模式感知去噪功能（NAACL-HLT Findings 2022）
STAR：面向情境依赖型文本转SQL解析的SQL引导预训练（EMNLP Findings 2022）
朝着通用且鲁棒的文本转SQL解析努力（EMNLP Findings 2022）
SUN：探索文本转SQL解析器中的内在不确定性（COLING 2022）
朝着提高文本转SQL模型对自然及现实对抗性表格扰动的鲁棒性努力（ACL 2022）
评估大型语言模型的文本转SQL能力（arXiv 2022）
关于文本转SQL的深度学习方法综述（VLDBJ 2023）
GAR：一种生成并排序的自然语言到SQL翻译方法（ICDE 2023）
探索情境依赖型文本转SQL解析中的组合泛化能力（arXiv 2023）
改善基于语言模型的文本转SQL语义解析的泛化能力：两种简单的基于语义边界的技巧（arXiv 2023）
探索面向文本转SQL的思维链式提示方法（arXiv 2023）
利用结构与内容提示学习进行少量样本的文本转SQL翻译（SIGMOD 2023）
结合结构化知识进行多任务预训练以生成文本转SQL内容（ACL 2023）
展示GPT-DB：使用GPT-4生成针对特定查询且可定制的SQL处理代码（VLDB Demo 2023）
Graphix-T5：将预训练的Transformer与图感知层结合用于文本转SQL解析（AAAI 2023）
SQL-PaLM：改进大型语言模型对文本转SQL的适应性（arXiv 2023）
教授大型语言模型自我调试能力（arXiv 2023）
对ChatGPT零样本文本转SQL能力的全面评估（arXiv 2023）
DIN-SQL：分解式的情境学习文本转SQL，并带有自我修正功能（arXiv 2023）
C3：使用ChatGPT进行零样本文本转SQL（arXiv 2023）
RESDSQL：将模式链接与骨架解析解耦，用于文本转SQL（AAAI 2023）
Dr.spider：一个旨在提升文本转SQL鲁棒性的诊断评估基准（ICLR 2023）
下一代数据库接口：基于LLM的文本转SQL综述（arXiv 2024）
自然语言到SQL【资源库】（https://github.com/yechens/NL2SQL）
将小型语言模型与大型语言模型结合用于零样本NL2SQL（VLDB 2024）
Awesome-Text2SQL【资源库】（https://github.com/eosphoros-ai/Awesome-Text2SQL）
Spider 2.0：在真实世界的企业级文本转SQL工作流上评估语言模型【资源库】（https://github.com/xlang-ai/Spider2）（arXiv 2024）

SQL 相关

Query2Vec (ArXiv)
促进 SQL 查询的组合与分析 (ArXiv 2020)
从自然语言处理到神经数据库 (VLDB 2021)
BERT 遇上关系数据库：关系数据库的上下文表示
LearnedSQLGen：基于强化学习的约束感知 SQL 生成 (SIGMOD 2022)
PreQR：用于 SQL 理解的预训练表示 (SIGMDO 2022)
从 BERT 到 GPT-3 Codex：挖掘超大规模语言模型在数据管理中的潜力 (VLDB 2022)
基于生成对抗网络的查询生成 (arXiv 2023)

星标随时间变化

ML4DB-paper-list 快速上手指南

ML4DB-paper-list 并非一个需要编译运行的软件工具，而是一个持续更新的学术论文索引仓库。它系统性地整理了人工智能（机器学习、深度学习、强化学习）在数据库系统中的应用文献。本指南旨在帮助开发者快速获取该资源列表并在本地或云端进行查阅。

环境准备

本项目主要为文档和链接集合，无复杂的系统依赖，仅需具备基础的代码版本管理环境和网络访问能力。

操作系统：Windows / macOS / Linux 均可。
前置依赖：
- Git：用于克隆仓库到本地。
- 现代浏览器（Chrome, Edge, Firefox 等）：用于阅读 Markdown 渲染后的内容或访问论文链接。
- （可选）Markdown 编辑器：如 VS Code, Typora，用于离线浏览。
网络建议：
- 由于仓库托管于 GitHub，国内用户访问可能不稳定。推荐配置科学上网环境，或使用文中提供的国内加速/镜像方案。

安装步骤

你可以通过以下两种方式获取论文列表：

方式一：在线浏览（推荐）

直接访问 GitHub 仓库页面查看最新整理的目录和链接：

https://github.com/eosphoros-ai/ML4DB-paper-list

国内加速访问方案：如果无法稳定访问 GitHub，可尝试使用以下镜像服务或文中提到的加速链接：

GitHub 镜像站：将上述 URL 中的 github.com 替换为 mirror.ghproxy.com (或其他可用的公共镜像)。
文中推荐通道：参考原仓库描述中提供的 azabudai.org 注册获取稳定访问方式。

方式二：克隆到本地

若需离线查阅或贡献内容（PR），请使用 Git 克隆仓库。

# 1. 克隆仓库
git clone https://github.com/eosphoros-ai/ML4DB-paper-list.git

# 2. 进入目录
cd ML4DB-paper-list

# 【可选】国内用户若克隆速度慢，可使用 Gitee 镜像（如有）或设置 git 代理
# 示例：设置 http 代理 (请替换为你的实际代理地址)
# git config --global http.proxy http://127.0.0.1:7890
# git config --global https.proxy https://127.0.0.1:7890

基本使用

获取仓库后，主要通过查阅 README.md 文件来定位所需的学术资源。该列表按数据库系统的核心模块进行了分类整理。

1. 查看分类目录

打开项目根目录下的 README.md 文件，你将看到如下核心分类结构：

System and Tutorial: 综述、教程及自治数据库系统架构（如 SageDB, openGauss）。
Data Access: 数据访问层优化，包括参数调优 (Configuration Tuning)、物理设计 (Physical Design)、索引 (Index) 和物化视图。
Workload: 负载管理，涵盖负载生成、资源自动伸缩、性能诊断及负载漂移检测。
Query Optimization: 查询优化核心，包含基数估计 (Cardinality Estimation)、代价估计、连接优化及参数化查询优化。
Query Execution: 查询执行层，涉及排序、自适应查询处理及近似查询处理。
Text-to-SQL: 自然语言转 SQL 的相关研究。

2. 查找特定领域论文

假设你想研究 “基于强化学习的数据库参数自动调优”：

在 README.md 中找到 Data Access -> Configuration Tuning 章节。
浏览该章节下的论文列表，例如：
- QTune: A Query-Aware Database Tuning System with Deep Reinforcement Learning (VLDB 2019)
- An End-to-End Automatic Cloud Database Tuning System Using Deep Reinforcement Learning (SIGMOD 2019)
点击论文标题链接，直接跳转至论文原文（arXiv, ACM DL, IEEE Xplore 等）或对应的开源代码仓库（如标注了 [Source Code]）。

3. 贡献内容 (PR)

如果你发现了新的相关论文希望补充到列表中：

# 1. 创建新分支
git checkout -b add-new-paper

# 2. 编辑 README.md，在对应分类下添加论文条目
# 格式示例：* ***Paper Title*** (Conference Year) [Link]

# 3. 提交更改
git add README.md
git commit -m "Add new paper: [Paper Title]"

# 4. 推送到远程并发起 Pull Request
git push origin add-new-paper
# 随后在 GitHub 网页端发起 PR

通过以上步骤，你可以高效地利用 ML4DB-paper-list 追踪 AI4DB 领域的最新研究进展。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|昨天

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他