awesome-monte-carlo-tree-search-papers

698 76 非常简单 1 次阅读 2天前CC0-1.0开发框架Agent其他

AI 解读由 AI 自动生成，仅供参考

awesome-monte-carlo-tree-search-papers 是一个精心整理的开源资源库，专注于收录蒙特卡洛树搜索（MCTS）领域的学术论文及其配套代码实现。它解决了研究人员和开发者在探索 MCTS 技术时面临的痛点：以往寻找高质量论文往往耗时费力，且难以快速定位可复现的代码项目。该资源库将分散在 NeurIPS、ICML、CVPR、AAAI 等顶级会议期刊中的成果进行了系统化分类，涵盖机器学习、计算机视觉、自然语言处理、机器人及游戏等多个前沿方向。

这份清单特别适合人工智能领域的研究人员、算法工程师以及高校学生使用。无论是希望深入了解 MCTS 理论演进，还是急需寻找基准代码进行二次开发，用户都能在此高效获取所需资源。其独特亮点在于“论文 + 代码”的双向链接模式，不仅列出了如 LiteSearch、Strategist 等结合大模型推理与树搜索的最新 2025 年研究成果，还确保了大部分条目都附带可运行的实现方案，极大地降低了复现门槛，助力社区快速推动决策智能技术的创新与应用。

使用场景

某 AI 实验室团队正致力于开发一个基于大语言模型（LLM）的复杂数学推理 Agent，旨在通过搜索算法提升解题准确率。

没有 awesome-monte-carlo-tree-search-papers 时

文献检索大海捞针：团队成员需手动在 NeurIPS、ICLR 等数十个顶会网站中筛选 MCTS 相关论文，耗时数周仍难以覆盖最新成果（如 2025 年的 LiteSearch 或 Strategist）。
复现门槛极高：找到论文后，往往发现官方未开源代码，或实现版本分散在不同仓库，缺乏统一标准的参考基线，导致算法验证周期被大幅拉长。
跨领域应用盲区：团队仅关注传统博弈论中的 MCTS 应用，忽略了该列表中包含的用于知识图谱推理（ThoughtForest-KGQA）或软件代理优化（SWE-Search）等前沿跨界案例，限制了技术视野。
选型决策盲目：由于缺乏对各类变体（如成本约束型 Threshold UCT 或多链搜索）的系统对比，难以根据具体任务特性选择最合适的算法架构。

使用 awesome-monte-carlo-tree-search-papers 后

一站式获取前沿资源：直接定位到 2025 年最新的 AAAI 和 ICLR 论文及其配套代码链接，将文献调研时间从数周压缩至几天。
快速构建高质量基线：利用列表中整理好的开源实现，团队迅速复现了针对数学推理优化的 LiteSearch 算法，并在此基础上进行微调，显著降低了工程启动成本。
激发创新应用场景：受列表中"VLMs 3D 场景生成”和“多智能体协作”等案例启发，团队成功将全局 - 局部树搜索策略迁移至当前的数学推理任务中，提升了复杂步骤的规划能力。
精准匹配算法变体：通过对比列表中不同论文的适用场景，团队果断采用了适合长链条推理的双层树搜索（Bi-Level Tree Search）架构，避免了无效的技术试错。

awesome-monte-carlo-tree-search-papers 通过聚合顶级会议论文与可运行代码，将原本分散的研究资源转化为即插即用的技术加速器，极大缩短了从理论到落地的路径。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库是一个蒙特卡洛树搜索（MCTS）相关学术论文的精选列表，并非一个可直接运行的软件工具或代码库。README 中列出的论文链接和代码链接大多为空或指向外部独立仓库，因此本仓库本身没有特定的操作系统、GPU、内存、Python 版本或依赖库要求。用户需根据列表中具体某篇论文对应的独立代码仓库来确定其运行环境需求。

python未说明

awesome-monte-carlo-tree-search-papers hero image

快速开始

优秀的蒙特卡洛树搜索论文集。

一份精心整理的蒙特卡洛树搜索论文列表，包含来自以下会议和期刊的实现：

机器学习
- NeurIPS
- ICML
计算机视觉
- CVPR
- ICCV
自然语言处理
- ACL
数据科学
- KDD
人工智能
- AAAI
- AISTATS
- IJCAI
- UAI
机器人学
- RAS
游戏
- CIG

类似的集合还包括关于图分类、梯度提升、分类/回归树、欺诈检测以及社区发现的论文及其实现。

2025年

LiteSearch：用于数学推理的动态探索预算高效树搜索（AAAI 2025）
- Ante Wang, Linfeng Song, Ye Tian, Baolin Peng, Dian Yu, Haitao Mi, Jinsong Su, Dong Yu
- [论文]
- [代码]
阈值UCT：基于帕累托曲线的成本约束蒙特卡洛树搜索（AAAI 2025）
- Martin Kurecka, Václav Nevyhostený, Petr Novotný, Vít Uncovsk
- [论文]
- [代码]
HAVER：最大均值估计的实例相关误差界及其在Q学习和蒙特卡洛树搜索中的应用（AISTATS 2025）
- Tuan Nguyen, Jay Barrett, Kwang-Sung Jun
- [论文]
- [代码]
大型语言模型代理中用于图推理的蒙特卡洛树搜索（CIKM 2025）
- Lihui Liu
- [论文]
- [代码]
ThoughtForest-KGQA：用于知识图谱推理的多链树搜索（CIKM 2025）
- Xingrun Quan, Yongkang Zhou, Junjie Yao
- [论文]
- [代码]
用于3D室内场景生成的VLM中的全局-局部树搜索（CVPR 2025）
- Wei Deng, Mengshi Qi, Huadong Ma
- [论文]
- [代码]
用于增强具身多智能体协作的协同树搜索（CVPR 2025）
- Lizheng Zu, Lin Lin, Song Fu, Na Zhao, Pan Zhou
- [论文]
- [代码]
SWE-Search：通过蒙特卡洛树搜索和迭代精炼增强软件代理（ICLR 2025）
- Antonis Antoniades, Albert Örwall, Kexun Zhang, Yuxi Xie, Anirudh Goyal, William Yang Wang
- [论文]
- [代码]
Strategist：通过双层树搜索实现LLM决策的自我改进（ICLR 2025）
- Jonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu
- [论文]
- [代码]
CARTS：通过多样化战术校准和抗偏见树搜索推进神经定理证明（ICLR 2025）
- Xiao-Wen Yang, Zhi Zhou, Haiming Wang, Aoxue Li, Wen-Da Wei, Hui Jin, Zhenguo Li, Yu-Feng Li
- [论文]
- [代码]
DeepSeek-Prover-V1.5：利用证明助手反馈进行强化学习和蒙特卡洛树搜索（ICLR 2025）
- Huajian Xin, Z. Z. Ren, Junxiao Song, Zhihong Shao, Wanjia Zhao, Haocheng Wang, Bo Liu, Liyue Zhang, Xuan Lu, Qiushi Du, Wenjun Gao, Haowei Zhang, Qihao Zhu, Dejian Yang, Zhibin Gou, Z. F. Wu, Fuli Luo, Chong Ruan
- [论文]
- [代码]
认识论蒙特卡洛树搜索（ICLR 2025）
- Yaniv Oren, Viliam Vadocz, Matthijs T. J. Spaan, Wendelin Boehmer
- [论文]
- [代码]
基于最优传输的不确定性传播蒙特卡洛树搜索（ICML 2025）
- Tuan Dam, Pascal Stenger, Lukas Schneider, Joni Pajarinen, Carlo D'Eramo, Odalric-Ambrym Maillard
- [论文]
- [代码]
使用树搜索对推理上下文重新排序使大型视觉-语言模型更强大（ICML 2025）
- Qi Yang, Chenghao Zhang, Lubin Fan, Kun Ding, Jieping Ye, Shiming Xiang
- [论文]
- [代码]
CombiMOTS：用于双目标分子生成的组合式多目标树搜索（ICML 2025）
- Thibaud Southiratn, Bonil Koo, Yijingxiu Lu, Sun Kim
- [论文]
- [代码]
随机连续蒙特卡洛树搜索中的幂平均估计（ICML 2025）
- Tuan Dam
- [论文]
- [代码]
Alpha-SQL：使用蒙特卡洛树搜索的零样本文本到SQL转换（ICML 2025）
- Boyan Li, Jiayi Zhang, Ju Fan, Yanwei Xu, Chong Chen, Nan Tang, Yuyu Luo
- [论文]
- [代码]
策略引导的树搜索以增强LLM推理能力（ICML 2025）
- Yang Li
- [论文]
- [代码]
KBQA-o1：基于蒙特卡洛树搜索的代理式知识库问答（ICML 2025）
- Haoran Luo, Haihong E, Yikai Guo, Qika Lin, Xiaobao Wu, Xinyu Mu, Wenhao Liu, Meina Song, Yifan Zhu, Anh Tuan Luu
- [论文]
- [代码]
用于LLM自动启发式设计全面探索的蒙特卡洛树搜索（ICML 2025）
- Zhi Zheng, Zhuoliang Xie, Zhenkun Wang, Bryan Hooi
- [论文]
- [代码]
语言模型作为隐式树搜索（ICML 2025）
- Ziliang Chen, Zhao-Rong Lai, Yufeng Yang, Liangda Fang, Zhanfu Yang, Liang Lin
- [论文]
- [代码]
SRA-MCTS：用于代码生成的蒙特卡洛树搜索驱动的自我推理增强（IJCAI 2025）
- Bin Xu, Yiguan Lin, Yinghao Li, Yang Gao
- [论文]
- [代码]

2024

基于树搜索的进化多臂老虎机用于蛋白质序列优化（AAAI 2024）
- 邱嘉豪、袁辉、张静宏、陈文涛、王华正、王梦迪
- [论文]
- [代码]
用于部分可观测多智能体路径规划的去中心化蒙特卡洛树搜索（AAAI 2024）
- 阿列克谢·斯克里尼克、安东·安德烈丘克、康斯坦丁·S·亚科夫列夫、亚历山大·帕诺夫
- [论文]
- [代码]
存在转移不确定性时的蒙特卡洛树搜索（AAAI 2024）
- 法尔纳兹·科汉卡基、基亚拉什·阿加卡西里、张洪明、魏廷翰、高超、马丁·穆勒
- [论文]
- [代码]
利用锚点和蒙特卡洛树搜索为动态决策系统提供时序逻辑解释 %28摘要重印%29（AAAI 2024）
- 邱子怡、杰罗姆·勒尼、让-皮埃尔·大卫
- [论文]
- [代码]
随机执行延迟下的基于树搜索的策略优化（ICLR 2024）
- 大卫·瓦伦西、埃丝特·德尔曼、希·曼诺尔、加尔·达拉尔
- [论文]
- [代码]
在树搜索中结合强化学习以实现快速宏布局（ICML 2024）
- 耿子杰、王杰、刘子言、徐思远、唐振涛、袁明轩、郝建业、张永东、吴峰
- [论文]
- [代码]
通过状态占用正则化实现蒙特卡洛树搜索中可证明高效的长 horizon 探索（ICML 2024）
- 利安·施拉姆、阿卜德斯拉姆·布拉里亚斯
- [论文]
- [代码]
语言智能体树搜索统一了语言模型中的推理、行动与规划（ICML 2024）
- 安迪·周、严凯、米哈尔·什拉彭托赫-罗斯曼、王浩然、王宇雄
- [论文]
- [代码]
用于 SMT 策略综合的分层分阶段蒙特卡洛树搜索（IJCAI 2024）
- 卢郑阳、斯特凡·西默尔、皮尤什·贾、乔尔·D·戴、弗洛林·马内亚、维杰·加内什
- [论文]
- [代码]
基于蒙特卡洛树搜索的空间迁移用于黑箱优化（NIPS 2024）
- 王淑宽、薛科、雷松、黄晓斌、钱超
- [论文]
- [代码]
利用蒙特卡洛树搜索引导大型语言模型生成代码世界模型（NIPS 2024）
- 尼古拉·戴内塞、马泰奥·梅尔莱尔、敏图·阿拉库亚拉、佩卡·马蒂宁
- [论文]
- [代码]
ReST-MCTS：通过过程奖励引导的树搜索进行 LLM 自训练（NIPS 2024）*
- 张丹、周边思宁、胡子牛、岳一松、董宇潇、唐杰
- [论文]
- [代码]
推测性蒙特卡洛树搜索（NIPS 2024）
- 斯科特·程、马赫穆特·T·坎德米尔、洪定勇
- [论文]
- [代码]
随机蒙特卡洛树搜索中的幂平均估计（UAI 2024）
- 段团、奥达尔里克-昂布里姆·迈亚尔、艾米莉·考夫曼
- [论文]
- [代码]
通过在线状态条件动作抽象实现高效的蒙特卡洛树搜索（UAI 2024）
- 夸克云赫、黄仁宇、金度荣、李相赫、张炳泽
- [论文]
- [代码]
Hybrid CtrlFormer：通过基于 Transformer 的蒙特卡洛树搜索学习自适应搜索空间划分以实现混合动作控制（UAI 2024）
- 刘家顺、郝晓天、郝建业、郑燕、胡玉晶、范昌杰、吕唐杰、胡志鹏
- [论文]
- [代码]

2023

AlphaRoute：基于蒙特卡洛树搜索的大规模协同路线规划（AAAI 2023）
- 罗桂阳、王彦涛、张辉、袁泉、李京林
- [论文]
- [代码]
符号物理学习器：通过蒙特卡洛树搜索发现控制方程（ICLR 2023）
- 孙方正、刘洋、王建勋、孙浩
- [论文]
- [代码]
NuTrea：用于上下文引导的多跳知识图谱问答的神经树搜索（NIPS 2023）
- 崔炯奎、李承勋、秋在元、金贤宇 J.
- [论文]
- [代码]
LightZero：面向通用序列决策场景的蒙特卡洛树搜索统一基准（NIPS 2023）
- 牛雅哲、蒲源、杨振杰、李雪妍、周彤、任继元、胡帅、李洪生、刘宇
- [论文]
- [代码]
利用概率树状态抽象加速蒙特卡洛树搜索（NIPS 2023）
- 傅扬青、孙明、聂步青、高悦
- [论文]
- [代码]
带有玻尔兹曼探索的蒙特卡洛树搜索（NIPS 2023）
- 迈克尔·潘特、穆罕默德·巴尤米、尼克·霍斯、布鲁诺·拉塞尔达
- [论文]
- [代码]

2022

寻找整数规划中的后门：一种蒙特卡洛树搜索框架（AAAI 2022）
- 埃利亚斯·B·哈利勒、帕舒坦·瓦埃齐普尔、比斯特拉·迪尔基纳
- [论文]
NSGZero：利用神经蒙特卡洛树搜索在大规模网络安全博弈中高效学习不可被利用的策略（AAAI 2022）
- 薛万奇、安博、蔡家毅
- [论文]
基于树搜索和图神经网络求解具有受限时间可控性的不确定性析取时序网络（AAAI 2022）
- 凯文·奥桑卢、杰里米·弗兰克、安德烈·布尔苏克、特里斯坦·卡赞纳夫、埃里克·雅科潘、克里斯托夫·盖蒂耶、J·本顿
- [论文]
利用图神经网络辅助的蒙特卡洛树搜索进行量子比特路由（AAAI 2022）
- 阿尼梅什·辛哈、乌特卡尔什·阿扎德、哈尔金德尔·辛格
- [论文]
蒙特卡洛树搜索中的拆分动作（AAAI 2022）
- 雅库布·科瓦尔斯基、马克西米利安·米卡、沃伊切赫·帕夫利克、雅库布·苏托维奇、马雷克·希库拉、马克·H·M·温南兹
- [论文]
拖延式树搜索：带有延迟、噪声和多保真度反馈的黑盒优化（AAAI 2022）
- 王俊雄、黛巴布罗塔·巴苏、伊曼纽尔·特鲁默
- [论文]
通过自适应树搜索实现任意翻译目标（ICLR 2022）
- 王凌、沃伊切赫·斯托科维茨、多梅尼克·多纳托、克里斯·戴尔、于磊、洛朗·萨特朗、奥斯汀·马修斯
- [论文]
组合优化中树搜索的深度学习有何问题？（ICLR 2022）
- 马克西米利安·博瑟、奥托·基西格、马丁·塔拉兹、萨雷尔·科恩、卡伦·赛德尔、托比亚斯·弗里德里希
- [论文]
利用蒙特卡洛树搜索在医学住院医师匹配中实现随时扩招（IJCAI 2022）
- 安部健史、小宫山淳平、岩崎敦
- [论文]
基于扩张式树搜索的潜在规划（NIPS 2022）
- 罗伯特·吉泽尔曼、弗洛里安·T·波科尔尼
- [论文]
基于蒙特卡洛树搜索的高维贝叶斯优化变量选择（NIPS 2022）
- 宋蕾、薛可、黄晓斌、钱超
- [论文]
用于组合型黑盒优化的乐观树搜索（NIPS 2022）
- 塞德里克·马莱尔布、安托万·格罗斯尼特、拉斯尔·图图诺夫、海萨姆·布阿马尔、王军
- [论文]
利用蒙特卡洛树搜索实现快速且准确的用户冷启动学习（RECSYS 2022）
- 迪莉娜·钱迪卡·拉贾帕克塞、道格拉斯·莱斯
- [论文]

2021

学会停止：动态模拟蒙特卡洛树搜索（AAAI 2021）
- 兰立成、吴提荣、吴以晨、谢卓睿
- [论文]
Dec-SGTS：用于多智能体协调的去中心化子目标树搜索（AAAI 2021）
- 李明龙、蔡仲轩、杨文静、吴丽霞、徐英辉、王继
- [论文]
基于优先级动作分支的改进型部分可观测马尔可夫决策过程树搜索规划（AAAI 2021）
- 约翰·默恩、阿尼尔·尤尔迪兹、劳伦斯·布什、塔潘·穆克吉、迈克尔·J·科亨德费尔
- [论文]
面向蒙特卡洛树搜索的动态自动机引导奖励塑造（AAAI 2021）
- 阿尔瓦罗·贝拉斯克斯、布雷特·比西、利奥尔·巴拉克、安德烈·贝库斯、伊斯梅尔·阿尔胡里、丹尼尔·梅尔策、乔治·K·阿蒂亚
- [论文]
基于普拉凯特-卢斯模型的单人蒙特卡洛树搜索（AAAI 2021）
- 费利克斯·莫尔、维克托·本格斯、艾克·许勒迈尔
- [论文]
学习装箱：一种数据驱动的树搜索算法，用于大规模三维装箱问题（CIKM 2021）
- 朱倩雯、李熙涵、张子涵、罗志兴、童夏亮、袁明轩、曾佳
- [论文]
应用于分子设计的实用大规模并行蒙特卡洛树搜索（ICLR 2021）
- 杨秀峰、塔努杰·克拉·阿萨瓦特、吉木义则
- [论文]
蒙特卡洛树搜索中的凸正则化（ICML 2021）
- 段团、卡洛·德埃拉莫、扬·彼得斯、乔尼·帕亚里宁
- [论文]
结合树搜索与动作预测，在斗地主游戏中达到最先进水平（IJCAI 2021）
- 张云生、闫东、石蓓、付浩博、傅强、苏航、朱俊、陈宁
- [论文]

2020年

基于带后悔界约束的沃罗诺伊乐观优化的连续空间蒙特卡洛树搜索（AAAI 2020）
- Beomjoon Kim、Kyungjae Lee、Sungbin Lim、Leslie Pack Kaelbling、Tomás Lozano-Pérez
- [论文]
利用深度神经网络和蒙特卡洛树搜索进行神经架构搜索（AAAI 2020）
- Linnan Wang、Yiyang Zhao、Yuu Jinnai、Yuandong Tian、Rodrigo Fonseca
- [论文]
- [代码]
带有价值梯度的连续动作空间中的蒙特卡洛树搜索（AAAI 2020）
- Jongmin Lee、Wonseok Jeon、Geon-Hyeong Kim、Kee-Eung Kim
- [论文]
- [代码]
利用蒙特卡洛树搜索和价值函数对离散分布进行近似推理（AISTATS 2020）
- Lars Buesing、Nicolas Heess、Theophane Weber
- [论文]
观察未观测到的内容：一种并行化蒙特卡洛树搜索的简单方法（ICLR 2020）
- Anji Liu、Jianshu Chen、Mingze Yu、Yu Zhai、Xuewen Zhou、Ji Liu
- [论文]
- [代码]
信息粒子滤波树：一种用于具有基于信念奖励的连续域部分可观测马尔可夫决策过程的在线算法（ICML 2020）
- Johannes Fischer、Ömer Sahin Tas
- [论文]
- [代码]
子目标树：一种基于目标的强化学习框架（ICML 2020）
- Tom Jurgenson、Or Avner、Edward Groshev、Aviv Tamar
- [论文]
用于可扩展联盟形成的蒙特卡洛树搜索（IJCAI 2020）
- Feng Wu、Sarvapali D. Ramchurn
- [论文]
蒙特卡洛树搜索中的广义均值估计（IJCAI 2020）
- Tuan Dam、Pascal Klink、Carlo D'Eramo、Jan Peters、Joni Pajarinen
- [论文]
具有连续观测空间的部分可观测马尔可夫决策过程中的稀疏树搜索最优性保证（IJCAI 2020）
- Michael H. Lim、Claire Tomlin、Zachary N. Sunberg
- [论文]
混合与匹配：一种基于乐观树搜索的从混合分布中学习模型的方法（NeurIPS 2020）
- Matthew Faw、Rajat Sen、Karthikeyan Shanmugam、Constantine Caramanis、Sanjay Shakkottai
- [论文]
利用蒙特卡洛树搜索从网络文本中提取知识（WWW 2020）
- Guiliang Liu、Xu Li、Jiakang Wang、Mingming Sun、Ping Li
- [论文]

2019年

ACE：一种用于连续控制的基于树搜索的演员集成算法（AAAI 2019）
- Shangtong Zhang、Hengshuai Yao
- [论文]
- [代码]
一种用于“鸟之友”纸牌游戏的蒙特卡洛树搜索玩家（AAAI 2019）
- Christian Roberson、Katarina Sperduto
- [论文]
- [代码]
基于蒙特卡洛树搜索的藤 Copula 结构学习（AISTATS 2019）
- Bo Chang、Shenyi Pan、Harry Joe
- [论文]
- [代码]
使用多保真查询的噪声黑箱优化：一种树搜索方法（AISTATS 2019）
- Rajat Sen、Kirthevasan Kandasamy、Sanjay Shakkottai
- [论文]
- [代码]
基于强化学习的蒙特卡洛树搜索在时间路径发现中的应用（ICDM 2019）
- Pengfei Ding、Guanfeng Liu、Pengpeng Zhao、An Liu、Zhixu Li、Kai Zheng
- [论文]
用于策略优化的蒙特卡洛树搜索（IJCAI 2019）
- Xiaobai Ma、Katherine Rose Driggs-Campbell、Zongzhang Zhang、Mykel J. Kochenderfer
- [论文]
蒙特卡洛树搜索中的基于子目标的时间抽象（IJCAI 2019）
- Thomas Gabor、Jan Peter、Thomy Phan、Christian Meyer、Claudia Linnhoff-Popien
- [论文]
- [代码]
基于蒙特卡洛树搜索的自动化机器学习（IJCAI 2019）
- Herilalaina Rakotoarison、Marc Schoenauer、Michèle Sebag
- [论文]
- [代码]
多策略价值蒙特卡洛树搜索（IJCAI 2019）
- Li-Cheng Lan、Wei Li、Ting-Han Wei、I-Chen Wu
- [论文]
利用递归树搜索和规划学习组合式神经程序（NeurIPS 2019）
- Thomas Pierrot、Guillaume Ligner、Scott E. Reed、Olivier Sigaud、Nicolas Perrin、Alexandre Laterre、David Kas、Karim Beguir、Nando de Freitas
- [论文]

2018年

用于游戏《王国纪元》的蒙特卡洛方法（CIG 2018）
- 马格努斯·盖达、米卡埃尔·Z·拉格奎斯特、马丁·巴特勒
- [论文]
- [代码]
- [游戏服务器]
机器人损伤恢复中的无重置试错学习（RAS 2018）
- 康斯坦蒂诺斯·哈齐利格鲁迪斯、瓦西里斯·瓦西利亚德斯、让-巴普蒂斯特·穆雷
- [论文]
- [代码]
- [MCTS C++库]
记忆增强型蒙特卡洛树搜索（AAAI 2018）
- 肖晨俊、梅金成、马丁·穆勒
- [论文]
基于反馈的树搜索在强化学习中的应用（ICML 2018）
- 丹尼尔·R·姜、埃马纽埃尔·埃克韦迪克、韩刘
- [论文]
非单位成本领域的扩展递增成本树搜索（IJCAI 2018）
- 泰恩·T·沃克、内森·R·斯特凡特、阿里埃尔·费尔纳
- [论文]
蒙特卡洛树搜索的三头神经网络架构（IJCAI 2018）
- 高超、马丁·穆勒、瑞安·海沃德
- [论文]
利用启发式和动态蒙特卡洛树搜索进行周期性双边拍卖竞价（IJCAI 2018）
- 莫伊努尔·莫尔谢德·波拉格·乔杜里、克里斯托弗·基金特维尔德、孙·陈、威廉·叶
- [论文]
基于图卷积网络与引导树搜索的组合优化（NIPS 2018）
- 李竹文、陈奇峰、弗拉德伦·科尔顿
- [论文]
M-Walk：使用蒙特卡洛树搜索学习在图上行走（NIPS 2018）
- 沈业龙、陈建树、黄博森、郭宇清、高建峰
- [论文]
具有保证的单智能体策略树搜索（NIPS 2018）
- 劳伦特·奥尔索、莱维·莱利斯、托尔·拉蒂莫尔、西奥芬·韦伯
- [论文]
约束POMDPs的蒙特卡洛树搜索（NIPS 2018）
- 李钟敏、金健亨、帕斯卡尔·普帕尔、金基英
- [论文]

2017年

蒙特卡洛树搜索的分析（AAAI 2017）
- 史蒂文·詹姆斯、乔治·迪米特里·科尼达里斯、本杰明·罗斯曼
- [论文]
超越蒙特卡洛树搜索：使用深度替代神经网络和长期评估下棋（AAAI 2017）
- 王金卓、王文敏、王荣刚、高文
- [论文]
利用蒙特卡洛树搜索设计更优的播放列表（AAAI 2017）
- 埃拉德·利布曼、皮尤什·坎德尔瓦尔、迈塔尔·萨尔-策汉斯基、彼得·斯通
- [论文]
在POMDPs中使用蒙特卡洛树搜索进行学习（ICML 2017）
- 萨米·卡特、弗兰斯·A·奥利霍克、克里斯托弗·阿马托
- [论文]
在树搜索中学习运行启发式方法（IJCAI 2017）
- 伊利亚斯·B·哈利勒、比斯特拉·迪尔基娜、乔治·L·内姆豪瑟、沙比尔·艾哈迈德、邵玉芬
- [论文]
利用领域知识采样估计搜索树大小（IJCAI 2017）
- 格列布·别洛夫、塞缪尔·埃斯勒、迪伦·费尔南多、皮埃尔·勒博迪克、乔治·L·内姆豪瑟
- [论文]
主动恶意软件分析的蒙特卡洛树搜索方法（IJCAI 2017）
- 里卡多·萨尔特亚、亚历山德罗·法里内利
- [论文]
基于最佳臂识别的蒙特卡洛树搜索（NIPS 2017）
- 埃米莉·考夫曼、沃特·M·库伦
- [论文]
结合深度学习与树搜索的快思考与慢思考（NIPS 2017）
- 托马斯·安东尼、田正、大卫·巴伯
- [论文]
使用完美信息批量价值的蒙特卡洛树搜索（UAI 2017）
- 沙哈夫·S·施佩尔贝格、所罗门·埃亚尔·希莫尼、阿里埃尔·费尔纳
- [论文]

2016年

利用领域知识提升参数化扑克方块中蒙特卡洛树搜索性能（AAAI 2016）
- 罗伯特·阿灵顿、克莱·兰利、史蒂文·博加茨
- [论文]
多机器人任务分配中的蒙特卡洛树搜索（AAAI 2016）
- 比拉尔·卡尔塔尔、欧内斯托·努涅斯、胡里奥·戈多伊、玛丽亚·L·吉尼
- [论文]
利用蒙特卡洛树搜索进行大规模困难样本挖掘（CVPR 2016）
- 奥利维埃·卡内韦、弗朗索瓦·弗勒雷
- [论文]
蒙特卡洛树搜索中复杂备份策略的分析（ICML 2016）
- 皮尤什·坎德尔瓦尔、埃拉德·利布曼、斯科特·尼克姆、彼得·斯通
- [论文]
用于奖励设计的深度学习以改进ATARI游戏中蒙特卡洛树搜索（IJCAI 2016）
- 郭晓晓、萨廷德·P·辛格、理查德·L·刘易斯、李洪洛克
- [论文]
带有执行不确定性的连续动作空间中的蒙特卡洛树搜索（IJCAI 2016）
- 蒂莫西·耶、维利亚姆·利西、迈克尔·H·鲍林
- [论文]
通过蒙特卡洛树搜索学习预测状态表示（IJCAI 2016）
- 刘云龙、朱赫兴、曾义峰、戴宗雄
- [论文]

2015年

利用树搜索实现高效的全局最优一致性最大化（CVPR 2015）
- 塔特-俊·秦、普拉克·普尔凯特、安德斯·P·埃里克松、大卫·苏特
- [论文]
利用蒙特卡洛树搜索进行行星际轨道规划（IJCAI 2015）
- 丹尼尔·亨尼斯、达里奥·伊佐
- [论文]

2014年

蒙特卡洛树搜索中的状态聚合（AAAI 2014）
- 杰西·霍斯特勒、艾伦·费恩、汤姆·迪特里希
- [论文]
基于离线蒙特卡洛树搜索规划的深度学习实时雅达利游戏玩法（NIPS 2014）
- 郭晓晓、萨廷德·P·辛格、洪拉克·李、理查德·L·刘易斯、王小石
- [论文]
学习部分策略以加速MDP树搜索（UAI 2014）
- 杰维斯·平托、艾伦·费恩
- [论文]

2013年

用于活动识别调度的蒙特卡洛树搜索（ICCV 2013）
- 穆罕默德·R·阿梅尔、西尼沙·托多罗维奇、艾伦·费恩、朱松春
- [论文]
同步走子游戏中蒙特卡洛树搜索的收敛性（NIPS 2013）
- 维利亚姆·利西、沃杰特赫·科瓦里克、马克·兰克托、布拉尼斯拉夫·博桑斯基
- [论文]
基于Thompson采样的贝叶斯混合建模与推理在蒙特卡洛树搜索中的应用（NIPS 2013）
- 白爱军、吴峰、陈晓平
- [论文]

2012年

面向通用博弈的广义蒙特卡洛树搜索扩展（AAAI 2012）
- 希尔马尔·芬森
- [论文]

2011年

确定性规划中的局部蒙特卡洛树搜索方法（AAAI 2011）
- 谢凡、胡坦·纳科斯特、马丁·穆勒
- [论文]
基于蒙特卡洛博弈树搜索的量化CSP实时求解（IJCAI 2011）
- 佐藤美智子、乔永俊、岩崎敦史、横尾真
- [论文]
蒙特卡洛树搜索中的嵌套回放策略适应（IJCAI 2011）
- 克里斯托弗·D·罗辛
- [论文]
蒙特卡洛树搜索中的方差缩减（NIPS 2011）
- 乔尔·维内斯、马克·兰克托、迈克尔·H·鲍林
- [论文]
学习即规划：通过蒙特卡洛树搜索实现近似贝叶斯最优强化学习（UAI 2011）
- 约翰·阿斯穆斯、迈克尔·L·利特曼
- [论文]

2010年

理解完美信息蒙特卡洛采样在博弈树搜索中的成功（AAAI 2010）
- 杰弗里·理查德·朗、内森·R·斯图特万特、迈克尔·布罗、蒂莫西·富塔克
- [论文]
蒙特卡洛树搜索中的贝叶斯推断（UAI 2010）
- 杰拉尔德·特索罗、V. T. 拉詹、理查德·塞格尔
- [论文]

2009年

克里格斯皮尔棋类游戏中的蒙特卡洛树搜索技术（IJCAI 2009）
- 保罗·奇安卡里尼、吉安·皮耶罗·法维尼
- [论文]
从博弈树搜索中进行自举（NIPS 2009）
- 乔尔·维内斯、大卫·西尔弗、威廉·T·B·尤瑟、艾伦·布莱尔
- [论文]

2008年

基于模型搜索树直接挖掘判别性和本质频繁模式（KDD 2008）
- 费伟、张坤、程宏、高静、严锡锋、韩家威、余Philip、奥利维尔·韦尔舍尔
- [论文]

2007年

用于树搜索的赌博机算法（UAI 2007）
- 皮埃尔-阿诺·科克兰、雷米·穆诺斯
- [论文]

2006年

博弈树搜索中前向剪枝的性质（AAAI 2006）
- 林耀进、李伟顺
- [论文]
图分支算法：一种针对带弧共现约束的评分依赖图的最优树搜索方法（ACL 2006）
- 平川英树
- [论文]

2005年

具有组合爆炸式信念状态的博弈树搜索（IJCAI 2005）
- 奥斯汀·帕克、戴娜·S·瑙、V. S. 苏布拉马尼亚
- [论文]

2003年

通过局部一致性和树搜索求解有限域约束层次结构（IJCAI 2003）
- 斯特法诺·比斯塔雷利、菲利普·科多涅、许锦泉、李振民
- [论文]

2001年

使用自适应探测的不完全树搜索（IJCAI 2001）
- 惠勒·鲁姆尔
- [论文]

1998年

KnightCap：结合TD与博弈树搜索学习的国际象棋程序（ICML 1998）
- 乔纳森·巴克ستر、安德鲁·特里杰尔、莱克斯·韦弗
- [论文]

1988年

用于图像序列目标检测的树搜索算法（CVPR 1988）
- 史蒂文·D·布洛斯坦、托马斯·S·黄
- [论文]

许可

CC0 Universal

awesome-monte-carlo-tree-search-papers 快速上手指南

awesome-monte-carlo-tree-search-papers 并非一个可直接安装的软件库或框架，而是一个精选的蒙特卡洛树搜索（MCTS）学术论文与代码实现清单。本指南旨在帮助开发者快速检索、定位并运行列表中收录的前沿算法代码。

环境准备

由于该仓库收录的论文涵盖机器学习、自然语言处理、机器人等多个领域，不同论文对应的代码实现依赖环境差异较大。建议准备以下基础环境：

操作系统：Linux (Ubuntu 20.04+) 或 macOS（部分游戏/机器人仿真可能仅支持 Linux）。
核心依赖：
- Python 3.8+
- Git
- CUDA Toolkit (如需运行深度学习相关 MCTS 实现，建议版本 11.7+)
包管理工具：pip 或 conda（推荐用于隔离不同论文的实验环境）。

安装步骤

该仓库本身无需“安装”，只需克隆到本地即可浏览索引。若要运行具体论文的代码，需针对单项实现进行配置。

1. 克隆仓库

获取论文清单及索引：

git clone https://github.com/benedekrozemberczki/awesome-monte-carlo-tree-search-papers.git
cd awesome-monte-carlo-tree-search-papers

2. 获取特定论文代码

在 README 中找到你感兴趣的论文（例如 2024 年的 ReST-MCTS*），点击其 [[Code]] 链接跳转至原作者的代码仓库。假设目标仓库地址为 https://github.com/example/Rest-MCTS：

# 替换为实际论文的代码仓库地址
git clone https://github.com/example/Rest-MCTS.git
cd Rest-MCTS

3. 配置独立环境

大多数现代 AI 项目提供 requirements.txt 或 environment.yml。推荐使用 Conda 创建隔离环境：

# 创建名为 mcts-paper 的环境
conda create -n mcts-paper python=3.9
conda activate mcts-paper

# 安装依赖 (根据项目实际文件选择)
pip install -r requirements.txt
# 或
conda env create -f environment.yml

提示：国内用户若遇下载慢，可临时切换 pip 源： pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

基本使用

使用流程通常为：阅读论文索引 -> 定位代码仓库 -> 复现示例。

示例：运行一个 MCTS 推理任务

以列表中的 Language Agent Tree Search (ICML 2024) 为例，通常此类项目会提供简单的推理脚本。

查看使用说明：进入代码目录后，首先阅读 README.md 确认具体的运行命令。

执行演示脚本：大多数仓库会提供 demo.py 或 run.sh。以下为通用执行模式：

# 运行简单的推理示例
python demo.py --config configs/default.yaml

# 或者运行训练/搜索脚本
python main.py --mode search --task math_reasoning

验证结果：观察终端输出，通常会显示 MCTS 的搜索轨迹、奖励值（Reward）或最终生成的答案。

如何高效利用本清单

按年份筛选：直接查看 ## 2025 或 ## 2024 章节，获取最新 SOTA 方法。
按领域筛选：根据标签（如 NIPS, ICML, CVPR）查找特定会议的高质量实现。
代码可用性：优先选择同时标注了 [[Paper]] 和 [[Code]] 的条目，确保可复现性。

版本历史

v_00042021/11/27

v_00032021/08/31

v_000022021/07/25

常见问题

GraphBLAS 是否擅长处理稀疏线性代数运算？

该仓库中“树搜索”的定义是否包含使用颜色编码算法（Color-coding algorithms）进行子图匹配的技术？

列表中的某些论文链接失效了（返回 404 或连接错误），该如何获取这些资源？

是否有针对生物分子网络基序计数（Biomolecular network motif counting）的相关论文推荐？

维护者是否计划扩展仓库内容以涵盖更广泛的图因子分解或网络嵌入技术？

如何报告仓库中的死链问题？

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|2天前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|3天前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 145.9k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.1k|★★☆☆☆|今天

开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|2天前

插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目，旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型（LLM）。它不仅是同名技术著作的官方代码库，更提供了一套完整的实践方案，涵盖模型开发、预训练及微调的全过程。该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型，却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码，用户能够透彻掌握 Transformer 架构、注意力机制等关键原理，从而真正理解大模型是如何“思考”的。此外，项目还包含了加载大型预训练权重进行微调的代码，帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API，而是渴望探究模型构建细节的技术人员而言，这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计：将复杂的系统工程拆解为清晰的步骤，配合详细的图表与示例，让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础，还是为未来研发更大规模的模型做准备

★ 90.1k|★★★☆☆|2天前

语言模型图像Agent