Awesome-LLM-Reasoning
Awesome-LLM-Reasoning 是一个精心整理的开源资源库,旨在帮助开发者与研究人员深入探索并解锁大语言模型(LLM)及多模态模型的推理能力。从基础的“思维链”(Chain-of-Thought)提示技术,到前沿的 OpenAI o1 和 DeepSeek-R1 等复杂推理模型,该项目系统性地汇集了相关学术论文、代码实现及技术综述。
当前大模型虽强大,但在逻辑推导、数学解题及符号推理等方面仍存在挑战。Awesome-LLM-Reasoning 通过分类梳理“如何让模型学会思考”的关键技术,解决了从业者难以快速追踪领域进展、缺乏系统性学习路径的痛点。其内容涵盖推理机制分析、多模态推理应用、小模型推理扩展以及防数据污染评测等多个维度,并持续更新 2024 至 2025 年的最新研究成果。
该资源库特别适合 AI 研究人员、算法工程师以及对大模型底层逻辑感兴趣的技术爱好者使用。无论是希望复现经典推理算法,还是寻找提升模型逻辑表现的最新方案,都能在此找到高质量的参考依据。作为连接理论研究与工程实践的桥梁,Awesome-LLM-Reasoning 以清晰的结构和权威的选品,成为理解大模型推理演进不可或缺的工具。
使用场景
某金融科技公司算法团队正致力于研发一款能自动解析复杂衍生品合同并识别潜在风险条款的智能审计系统。
没有 Awesome-LLM-Reasoning 时
- 技术选型盲目:团队在海量论文中迷失,难以区分哪些推理技术(如思维链 CoT、自一致性)真正适用于法律逻辑推导,导致反复试错。
- 模型表现不稳定:直接调用通用大模型处理多步逻辑题时,常出现“幻觉”或中间步骤跳跃,无法准确追踪合同条款间的因果链条。
- 缺乏评估基准:找不到针对符号推理和复杂谜题的专业评测集,无法量化模型在逻辑严密性上的真实提升幅度。
- 研发周期冗长:从零复现前沿推理算法耗时数月,错过了产品上线的最佳窗口期。
使用 Awesome-LLM-Reasoning 后
- 精准锁定方案:通过其整理的综述与资源,团队快速定位到适合法律场景的“多模态思维链”及最新开源模型(如 DeepSeek-R1),直接复用成熟架构。
- 推理能力跃升:依据列表中关于内部一致性与自我反馈的研究优化提示词,模型现在能一步步拆解合同逻辑,错误率降低 40%。
- 科学量化效果:利用推荐的 LLMSymbolicReasoningBench 等基准测试,团队建立了严格的逻辑能力评估体系,确保每次迭代都有据可依。
- 加速落地进程:站在巨人肩膀上,将原本数月的预研工作压缩至两周,迅速完成了原型验证并推向生产环境。
Awesome-LLM-Reasoning 不仅是一份资源清单,更是开发者解锁大模型深层逻辑推理能力、从“盲目尝试”转向“科学构建”的关键导航图。
运行环境要求
未说明
未说明

快速开始
Awesome LLM Reasoning
一份精心整理的论文与资源合集,聚焦于如何激发大型语言模型及多模态语言模型的推理能力。
如果你想测试大型语言模型的符号推理能力,可以查看:LLMSymbolicReasoningBench 😄
综述
2025年
-
王耀庭、吴圣琼、张跃成、威廉·王、刘子威、罗杰波、费浩。 预印本'25
大型语言模型基准测试在应对数据污染方面的最新进展:从静态评估到动态评估。 [代码]
陈思敏、陈一鸣、李泽鑫、蒋义凡、万中伟、何怡欣、冉德志、顾天乐、李海舟、谢涛、雷百石。 预印本'25
2024年
-
郑子凡、王叶昭辉、黄宇欣、宋世超、唐博、熊飞宇、李志宇。 预印本'24
-
梁勋、宋世超、郑子凡、王涵宇、于青晨、李寻凯、李荣华、熊飞宇、李志宇。 预印本'24
-
帕纳约蒂斯·贾迪基亚罗格鲁、玛丽亚·林佩赖欧、乔治斯·菲兰德里亚诺斯、乔治斯·斯塔穆。 预印本'24
-
珍妮丝·安、里舒·维尔马、伦泽·楼、李迪、张睿、尹文鹏。 ACL'24
2022年
-
黄杰、陈传昌凯文。 ACL'23 研究成果
-
乔硕飞、欧义新、张宁宇、陈翔、姚云芝、邓淑敏、谭川奇、黄飞、陈华军。 ACL'23
分析
2025年
-
刘思诺、吕晨阳、吴明浩、王隆悦、罗卫华、张凯富、尚子福。 预印本'25
2024
-
刘俊楠、刘洪伟、肖林晨、王子怡、刘奎坤、高松阳、张文伟、张松阳、陈凯。 预印本'24
从Medprompt到o1:医学挑战性问题及更广泛领域的运行时策略探索。
哈沙·诺里、宇山直人、尼古拉斯·金、斯科特·梅耶·麦金尼、泽维尔·费尔南德斯、张升、埃里克·霍维茨。 预印本'24
-
扎因·斯普拉格、尹方聪、胡安·迭戈·罗德里格斯、蒋东伟、玛尼亚·瓦德瓦、普拉桑·辛哈尔、赵欣宇、叶曦、凯尔·马霍瓦尔德、格雷格·杜雷特。 预印本'24
大语言模型能否生成新颖的研究思路?一项由100多位自然语言处理研究人员参与的大规模人类研究。
司成磊、杨迪毅、桥本达则。 预印本'24
-
江博文、谢阳心宇、郝卓群、王晓萌、马利克·坦维、苏伟杰、泰勒·卡米洛、罗斯·丹。 EMNLP'24
-
维维安·卡巴内斯、查尔斯·阿尔纳尔、瓦西姆·布阿齐兹、爱丽丝·杨、弗朗索瓦·夏尔通、朱莉娅·肯佩。 NeurIPS'24
-
杨素熙、格里博夫斯卡娅·埃琳娜、卡斯纳·诺拉、盖瓦·莫尔、里德尔·塞巴斯蒂安。 ACL'24
-
陈鑫云、奇·瑞安、王雪芝、周登尼。 ICML'24
-
金明宇、于钦凯、舒东、赵海燕、华文悦、孟艳达、张永峰、杜梦楠。 ACL'24 Findings
-
黄杰、陈鑫云、米什拉·斯瓦鲁普、郑怀秀·史蒂文、余·亚当斯·魏、宋·新莹、周·登尼。 ICLR'24
-
马英伟、刘岳、于岳、张元亮、姜宇、王昌健、李珊珊。 ICLR'24
2023
-
塔梅拉·兰厄姆、安娜·陈、安什·拉达克里希南、贝努瓦·施泰纳、卡森·丹尼森、丹尼·埃尔南德斯、达斯汀·李、埃辛·杜尔穆斯、埃文·休宾格、杰克逊·科尔尼恩、卡米莱·卢科修特、卡丽娜·阮、牛顿·程、尼古拉斯·约瑟夫、尼古拉斯·希弗、奥利弗·劳施、罗宾·拉尔森、萨姆·麦坎德利什、桑迪潘·昆杜、萨乌拉夫·卡达瓦特、香农·杨、托马斯·赫尼根、蒂莫西·麦克斯韦尔、蒂莫西·特利恩-劳顿、特里斯坦·休姆、扎克·哈特菲尔德-多兹、贾里德·卡普兰、扬·布劳纳、塞缪尔·R·鲍曼、伊森·佩雷斯。 预印本'23
信仰与命运:Transformer模型在组合性方面的局限性。
努哈·德齐里、陆锡铭、梅拉妮·斯克拉尔、李向洛林、蒋立伟、林·武义臣、彼得·韦斯特、查德拉·巴加瓦图拉、罗南·勒·布拉斯、黄珍娜·D、桑雅尔·苏米娅、威尔克·肖恩、任向、艾莉森·埃廷格、哈查乌伊·扎伊德、崔艺珍。 NeurIPS'23
语言模型并不总是说出它们所想的:思维链提示中的不忠实解释。 [代码]
迈尔斯·特平、朱利安·迈克尔、伊森·佩雷斯、塞缪尔·R·鲍曼。 NeurIPS'23
对ChatGPT在推理、幻觉和交互性方面的多任务、多语言、多模态评估。
邦艺珍、卡亚维贾亚·塞缪尔、李娜妍、戴文亮、苏丹、威利·布莱恩、洛维尼亚·霍利、季紫薇、于铁正、钟威利、杜·屈越、徐燕、冯·帕斯卡尔。 AACL'23
-
史芙蕾达、陈鑫云、米斯拉·卡尼什卡、斯凯尔斯·内森、多汉·大卫、奇·埃德、舍尔利·纳撒尼尔、周·登尼。 ICML'23
再想想吧,我们还是不要一步一步地思考了!零样本推理中的偏见与毒性。
奥马尔·谢赫、张宏鑫、威廉·赫尔德、伯恩斯坦·迈克尔、杨迪毅。 ACL'23
-
王博思、闵世温、邓向、沈嘉明、吴友、泽特洛默·卢克、孙欢。 ACL'23
BIG-Bench难题及其是否能通过思维链解决的问题。 [代码]
苏兹贡·米拉克、斯凯尔斯·内森、舍尔利·纳撒尼尔、格尔曼·塞巴斯蒂安、泰·易、钟·弘源、乔德里·阿坎克莎、黎·国荣、奇·埃德、周·登尼、魏·杰森。 ACL'23 Findings
2022
-
魏·杰森、泰·易、博马萨尼·里希、拉法尔·科林、佐夫·巴雷特、博尔格奥德·塞巴斯蒂安、尤加塔马·丹尼、博斯马·马尔滕、周·登尼、梅茨勒·唐纳德、奇·埃德、桥本·达则、维尼亚尔斯·奥里奥尔、梁·珀西、迪恩·杰夫、费杜斯·威廉。 TMLR'22
-
兰皮宁·安德鲁·K、达斯古普塔·伊希塔、陈·斯蒂芬妮·C·Y、马修森·科里、特斯勒·迈克尔·亨利、克雷斯韦尔·安东尼娅、麦克莱兰德·詹姆斯·L、王·简·X、希尔·菲利克斯。 EMNLP'22
技术
🔤 大型语言模型中的推理——一种涌现能力
2025
-
陈诺、胡志远、邹清云、吴佳颖、王倩、布莱恩·胡伊、何炳生。 预印本'25
-
陈思敏、普拉纳夫·普萨尔拉、贝莎基·雷。 ICML'25
-
德邦舒·班纳吉、塔伦·苏雷什、舒巴姆·乌加雷、萨沙·米赛洛维奇、加甘迪普·辛格。 ICML'25
思维草图:基于自适应认知启发式草图的高效LLM推理。 [代码]
西蒙·A·艾特斯、白振宪、黄成柱。 预印本'25
-
熊伟、张汉宁、叶晨露、陈立昌、蒋楠、张彤。 预印本'25
-
OpenAI:艾哈迈德·埃尔-基什基、亚历山大·魏、安德烈·萨赖瓦、博里斯·米纳耶夫、丹尼尔·塞尔萨姆、大卫·多翰、弗朗西斯·宋、亨特·莱特曼、伊格纳西·克拉韦拉、雅库布·帕乔茨基、杰里·特沃雷克、洛伦茨·库恩、卢卡什·凯泽、马克·陈、马克斯·施瓦策、莫斯塔法·罗哈内贾德、纳特·麦卡利斯、o3贡献者、奥列格·穆尔克、瑞瑟姆·加格、瑞·舒、西蒙·西多尔、维尼特·科萨拉朱、周文达。 预印本'25
-
尼克拉斯·门尼霍夫、杨子彤、史伟嘉、李香丽莎、李飞飞、汉娜内·哈吉希尔齐、卢克·泽特勒莫耶、珀西·梁、埃马纽埃尔·坎德斯、桥本达津纪。 预印本'25
DeepSeek-R1:通过强化学习激励LLM的推理能力。 [项目]
郭达亚、杨德健、张浩伟、宋俊晓、张若宇、徐润欣、朱启豪、马世荣、王培义、毕晓、张孝康、于兴凯、吴宇、吴Z.F.、苟志斌、邵志宏、李卓书、高子怡等。 预印本'25
-
黄薇儿、查理·斯奈尔、卡尼什克·甘地、阿隆·阿尔巴拉克、阿尼凯特·辛格、切斯·布拉格登、杜伊·冯、拉斐尔·拉法伊洛夫、内森·莱尔、达科塔·马汉、路易斯·卡斯特里卡托、扬-菲利普·弗兰肯、尼克·哈伯、切尔西·芬恩。 预印本'25
2024
-
陈俊英、蔡振阳、季可、王锡东、刘万龙、王荣盛、侯建业、王本友。 预印本'24
PPM:用于基准测试代码生成模型的多样化编程问题自动生成 [代码] 陈思敏、冯晓宁、韩晓红、刘聪、杨伟 FSE'24
-
王佳安、孟凡东、梁云龙、周杰。 预印本'24
-
苏米特·拉梅什·莫特瓦尼、钱德勒·史密斯、罗克蒂姆·焦提·达斯、马尔基安·雷布丘克、菲利普·H·S·托尔、伊万·拉普捷夫、法比奥·皮扎蒂、罗纳德·克拉克、克里斯蒂安·施罗德·德·维特。 预印本'24
SmartAgent:面向网络世界的具身化个性化代理的用户思维链。
张佳琪、高晨、张丽媛、李勇、尹洪志。 预印本'24
Marco-o1:迈向开放性解决方案的开放推理模型。 [代码] [模型]
赵宇、尹慧峰、曾波、王浩、石天奇、吕晨阳、王龙跃、罗卫华、张凯富。 预印本'24
-
高阔峰、蔡焕秋、帅庆瑶、龚迪宏、李志峰。 预印本'24
面向LLM的深思熟虑推理:具有精确世界模型的结构感知规划。 [代码]
熊思恒、阿里·帕亚尼、杨源、费拉马兹·费克里。 预印本'24
-
高子添、牛博野、何旭正、许浩天、刘洪章、刘爱伟、胡旭明、温立杰。 预印本'24
-
阿维拉尔·库马尔、文森特·庄、里沙布·阿加瓦尔、苏毅、JD·科-雷耶斯、阿维·辛格、凯特·鲍姆利、沙里克·伊克巴尔、科尔顿·比绍普、丽贝卡·罗洛夫斯、张蕾·M、凯·麦金尼、迪莎·施里瓦斯塔瓦、科斯敏·帕杜拉鲁、乔治·塔克、多伊娜·普雷库普、费里亚尔·贝赫巴哈尼、亚历山德拉·福斯特。 预印本'24
-
Open AI团队。 技术报告'24
-
普拉纳夫·普塔、埃德蒙·米尔斯、纳曼·加尔格、苏米特·莫特瓦尼、切尔西·芬恩、迪万尚·加尔格、拉斐尔·拉法伊洛夫。 预印本'24
DotaMath:借助代码辅助和自我修正实现思维分解的数学推理。 [代码]
李承鹏、董冠廷、薛明峰、彭汝、王翔、刘大亨。 预印本'24
-
阿迪蒂亚·卡利亚努普尔、凯拉什·萨拉瓦纳库马尔、维克托·巴雷斯、珍妮弗·楚-卡罗尔、戴维·梅尔维尔、戴维·费鲁奇。 预印本'24
-
王超杰、邓燕辰、吕志义、颜水成、安博。 预印本'24
-
杨凌、于兆臣、张天军、曹世义、徐敏凯、张文涛、约瑟夫·E·冈萨雷斯、崔彬。 预印本'24
-
田烨、彭宝林、宋林峰、金立峰、于典、米海涛、于东。 预印本'24
-
Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, Nan Du. 预印本'24
-
Shijie Xia, Xuefeng Li, Yixin Liu, Tongshuang Wu, Pengfei Liu. 预印本'24
-
Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun. 预印本'24
LLM3:基于大语言模型的任务与运动规划,附运动失败推理功能。 [代码]
Shu Wang, Muzhi Han, Ziyuan Jiao, Zeyu Zhang, Ying Nian Wu, Song-Chun Zhu, Hangxin Liu. IROS'24
-
Eric Zelikman, Georges Harik, Yijia Shao, Varuna Jayasiri, Nick Haber, Noah D. Goodman. 预印本'24
GLoRe:何时、何地以及如何通过全局与局部优化提升LLM推理能力。
Alex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau. ICML'24
-
Xuezhi Wang, Denny Zhou. 预印本'24
-
Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron Courville, Alessandro Sordoni, Rishabh Agarwal. 预印本'24
InternLM-Math:开放数学大语言模型迈向可验证推理。
Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin. 预印本'24
-
Pei Zhou, Jay Pujara, Xiang Ren, Xinyun Chen, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou, Swaroop Mishra, Huaixiu Steven Zheng. 预印本'24
DeepSeekMath:推动开放语言模型数学推理能力的极限。
Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo. 预印本'24
-
Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Yan Xia, Man Lan, Furu Wei. 预印本'24
-
Silin Gao, Jane Dwivedi-Yu, Ping Yu, Xiaoqing Ellen Tan, Ramakanth Pasunuru, Olga Golovneva, Koustuv Sinha, Asli Celikyilmaz, Antoine Bosselut, Tianlu Wang. 预印本'24
-
Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu. NAACL'24
-
Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, Stefan Wermter. COLING'24
-
Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, Jason Weston. ACL'24研究发现
-
Xuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang. ICLR'24
-
Ansh Radhakrishnan, Karina Nguyen, Anna Chen, Carol Chen, Carson Denison, Danny Hernandez, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Sam McCandlish, Sheer El Showk, Tamera Lanham, Tim Maxwell, Venkatesa Chandrasekaran, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez. 预印本'23
-
Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, Karl Cobbe. ICLR'24
REFINER:基于中间表示的推理反馈。 [项目] [代码]
Debjit Paul, Mete Ismayilzada, Maxime Peyrard, Beatriz Borges, Antoine Bosselut, Robert West, Boi Faltings. EACL'24
-
Shizhe Diao, Pengcheng Wang, Yong Lin, Tong Zhang. ACL'24
-
Zonglin Yang, Li Dong, Xinya Du, Hao Cheng, Erik Cambria, Xiaodong Liu, Jianfeng Gao, Furu Wei. EACL'24
2023年
-
Xijie Huang, Li Lyna Zhang, Kwang-Ting Cheng, Mao Yang. 预印本'23
Logic-LM:用符号求解器赋能大语言模型,实现忠实的逻辑推理。 [代码]
Liangming Pan, Alon Albalak, Xinyi Wang, William Yang Wang. EMNLP'23研究发现
思维递归:一种基于语言模型的多上下文推理分治方法。 [代码] [海报]
Soochan Lee, Gunhee Kim. ACL'23研究发现
-
Shibo Hao, Yi Gu, Haodi Ma, Joshua Jiahua Hong, Zhen Wang, Daisy Zhe Wang, Zhiting Hu. EMNLP'23
-
Hao Fei, Bobo Li, Qian Liu, Lidong Bing, Fei Li, Tat-Seng Chua. ACL'23
-
姚顺宇、于典、赵杰弗里、伊扎克·沙夫兰、托马斯·L·格里菲斯、曹源、卡尔蒂克·纳拉西曼。 NeurIPS'23
SatLM:利用声明式提示的可满足性辅助语言模型。 [代码]
叶曦、陈乔楚、伊希尔·迪利格、格雷格·杜雷特。 NeurIPS'23
-
巴尔加维·帕兰贾佩、斯科特·伦德伯格、萨米尔·辛格、汉娜内·哈吉希尔齐、卢克·泽特勒莫耶、马尔科·图利奥·里贝罗。 Preprint'23
-
舒嘉舜、刁世哲、张彤。 EMNLP'23 Findings
-
邵志宏、龚烨云、沈业龙、黄民烈、段楠、陈伟祖。 ICML'23
-
吕青、施瑞娅·哈瓦尔达尔、亚当·斯坦、李章、德利普·拉奥、埃里克·王、玛丽安娜·阿皮迪亚纳基、克里斯·卡利森-伯奇。 IJCNLP-AACL'23
-
何航峰、张洪明、丹·罗斯。 Preprint'23
-
赛义德·梅赫兰·卡泽米、金娜琼、迪普蒂·巴蒂亚、徐欣、迪帕克·拉马昌德兰。 ACL'23
-
哈尔什·特里维迪、尼兰詹·巴拉苏布拉马尼安、图沙尔·科特、阿希什·萨布瓦尔。 ACL'23
-
翁一轩、朱敏俊、何仕柱、刘康、赵军。 EMNLP'23 Findings
检索增强型语言模型能进行推理吗?检索器与语言模型之间的责任归属。 [代码]
帕里沙德·贝赫南加德尔、圣地亚哥·米雷特、西瓦·雷迪。 EMNLP'23 Findings
-
叶曦、斯里尼瓦桑·艾耶尔、阿斯莉·切利基尔马兹、韦斯·斯托亚诺夫、格雷格·杜雷特、拉马克坎特·帕苏努鲁。 ACL'23 Findings
-
陈文虎、马学光、王馨怡、威廉·W·科恩。 TMLR'23
-
程思杰、吴志勇、陈江杰、李志兴、刘洋、孔令鹏。 AAAI'23
PAL:程序辅助语言模型。 [项目] [代码]
高璐瑜、阿曼·马达安、周书妍、乌里·阿隆、刘鹏飞、杨一鸣、杰米·卡兰、格雷厄姆·纽比格。 ICML'23
-
朱新宇、王俊杰、张林、张宇翔、甘如意、张佳星、杨宇久。 ACL'23
-
黄家鑫、顾世祥、侯乐、吴悦欣、王雪芝、于鸿坤、韩家伟。 EMNLP'23
-
刘睿博、魏Jason、顾世祥、吴特彦、沃索吉·索鲁什、崔克莱尔、周登尼、戴安德鲁·M。 ICLR'23
-
张卓生、张阿斯顿、李牧、亚历克斯·斯莫拉。 ICLR'23
-
史芙蕾达、苏兹贡·米拉克、弗莱塔格·马库斯、王雪芝、斯里瓦茨·苏拉杰、沃索吉·索鲁什、郑炯元、泰易、鲁德尔·塞巴斯蒂安、周登尼、达斯·迪潘詹、魏Jason。 ICLR'23
-
阿罗拉·西姆兰、纳拉扬·阿瓦妮卡、陈梅伊·F、奥尔·劳雷尔、古哈·尼尔、巴蒂亚·库什、查米·伊内斯、萨拉·弗雷德里克、雷·克里斯托弗。 ICLR'23
通过策略梯度进行动态提示学习,用于半结构化数学推理。 [项目] [代码]
陆攀、邱亮、常凯威、吴颖年、朱松春、拉杰普罗希特·坦迈、克拉克·彼得、卡利安·阿什温。 ICLR'23
-
李一飞、林泽奇、张士卓、傅强、陈蓓、楼建广、陈伟祖。 ACL'23
-
周登尼、谢尔利·纳撒尼尔、侯乐、魏Jason、斯凯尔斯·内森、王雪芝、舒尔曼斯·戴尔、崔克莱尔、布斯盖特·奥利维尔、黎国强、奇·埃德。 ICLR'23
-
王雪芝、魏Jason、舒尔曼斯·戴尔、黎国强、奇·埃德、纳朗·沙兰、乔德里·阿坎克莎、周登尼。 ICLR'23
2022
-
Wenhao Yu, Chenguang Zhu, Zhihan Zhang, Shuohang Wang, Zhuosheng Zhang, Yuwei Fang, Meng Jiang. EMNLP'22
-
Aman Madaan, Shuyan Zhou, Uri Alon, Yiming Yang, Graham Neubig. EMNLP'22
-
Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, Vedant Misra. NeurIPS'22
-
Karthik Valmeekam, Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati. NeurIPS'22
-
Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, Yusuke Iwasawa. NeurIPS'22
-
Boshi Wang, Xiang Deng, Huan Sun. EMNLP'22
-
Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou. NeurIPS'22
🧠 大型语言模型中的多模态推理
2025
在多模态大型语言模型中引入视觉感知标记。 [代码] [模型] [数据集]
Runpeng Yu, Xinyin Ma, Xinchao Wang. 预印本'25
LlamaV-o1:重新思考大型语言模型中的逐步视觉推理。 [项目] [代码] [模型]
Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan. 预印本'25
Embodied-Reasoner:协同视觉搜索、推理和行动以完成具身交互任务 [项目][代码][数据集]
Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang. 预印本'25
2024
Insight-V:探索多模态大型语言模型中的长链式视觉推理。 [代码] [模型]
Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu. 预印本'24
-
Guowei Xu, Peng Jin, Hao Li, Yibing Song, Lichao Sun, Li Yuan. 预印本'24
视觉速写板:将草图作为多模态语言模型的视觉思维链。 [项目] [代码]
Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna. 预印本'24
-
Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma. NAACL'24 Findings
SpatialVLM:赋予视觉语言模型空间推理能力。 [项目]
Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia. CVPR'24
-
Zilong Wang, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen-Yu Lee, Tomas Pfister. ICLR'24
-
Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu. CVPR'24
2023
Gemini在推理中的应用:揭示多模态大语言模型中的常识理解。
王宇清、赵云. 预印本'23
-
高佳辉、皮仁杰、张继鹏、叶家成、钟万军、王宇飞、洪兰青、韩建华、徐航、李振国、孔令鹏. 预印本'23
Chameleon:基于大语言模型的即插即用式组合推理。 [项目] [代码]
陆攀、彭宝林、程浩、米歇尔·加利、蔡开元、吴英年、朱松纯、高剑锋. NeurIPS'23
MM-REACT:通过提示引导ChatGPT实现多模态推理与行动。 [项目] [代码] [演示]
杨正元、李林杰、王建峰、林凯文、阿扎尔纳斯布、艾哈迈德、刘子诚、刘策、曾迈克尔、王丽娟. 预印本'23
ViperGPT:通过Python执行进行视觉推理。 [项目] [代码]
迪达克·苏里斯、萨奇特·梅农、卡尔·冯德里克. ICCV'23
Visual ChatGPT:与视觉基础模型对话、绘图和编辑。 [代码]
吴晨菲、尹圣明、齐伟珍、王小东、唐泽成、段楠. 预印本'23
-
张卓生、张 Aston、李牧、赵海、卡里皮斯、斯莫拉. 预印本'23
视觉编程:无需训练的组合式视觉推理。 [项目] [代码]
坦迈·古普塔、阿尼鲁达·肯布哈维. CPVR'23
Socratic Models:利用语言构建零样本多模态推理。 [项目] [代码]
安迪·曾、玛丽亚·阿塔里安、布莱恩·伊希特、克日什托夫·霍罗马斯基、阿德里安·王、斯特凡·韦尔克、费德里科·汤巴里、阿维克·普罗希特、迈克尔·里奥、维卡斯·辛德瓦尼、约翰尼·李、文森特·范胡克、皮特·弗洛伦斯. ICLR'23
在多模态大型语言模型中引入视觉感知标记。 [代码] [模型] [数据集]
Runpeng Yu, Xinyin Ma, Xinchao Wang. 预印本'25
LlamaV-o1:重新思考大型语言模型中的逐步视觉推理。 [项目] [代码] [模型]
Omkar Thawakar, Dinura Dissanayake, Ketan More, Ritesh Thawkar, Ahmed Heakl, Noor Ahsan, Yuhao Li, Mohammed Zumri, Jean Lahoud, Rao Muhammad Anwer, Hisham Cholakkal, Ivan Laptev, Mubarak Shah, Fahad Shahbaz Khan, Salman Khan. 预印本'25
Embodied-Reasoner:协同视觉搜索、推理和行动以完成具身交互任务 [项目][代码][数据集] Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang. 预印本'25
Insight-V:探索多模态大型语言模型中的长链式视觉推理。 [代码] [模型]
Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu. 预印本'24
Guowei Xu, Peng Jin, Hao Li, Yibing Song, Lichao Sun, Li Yuan. 预印本'24
视觉速写板:将草图作为多模态语言模型的视觉思维链。 [项目] [代码]
Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A Smith, Ranjay Krishna. 预印本'24
Victor Carbune, Hassan Mansoor, Fangyu Liu, Rahul Aralikatte, Gilles Baechler, Jindong Chen, Abhanshu Sharma. NAACL'24 Findings
SpatialVLM:赋予视觉语言模型空间推理能力。 [项目]
Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia. CVPR'24
Zilong Wang, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen-Yu Lee, Tomas Pfister. ICLR'24
Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu. CVPR'24
Gemini在推理中的应用:揭示多模态大语言模型中的常识理解。
王宇清、赵云. 预印本'23
高佳辉、皮仁杰、张继鹏、叶家成、钟万军、王宇飞、洪兰青、韩建华、徐航、李振国、孔令鹏. 预印本'23
Chameleon:基于大语言模型的即插即用式组合推理。 [项目] [代码]
陆攀、彭宝林、程浩、米歇尔·加利、蔡开元、吴英年、朱松纯、高剑锋. NeurIPS'23
MM-REACT:通过提示引导ChatGPT实现多模态推理与行动。 [项目] [代码] [演示]
杨正元、李林杰、王建峰、林凯文、阿扎尔纳斯布、艾哈迈德、刘子诚、刘策、曾迈克尔、王丽娟. 预印本'23
ViperGPT:通过Python执行进行视觉推理。 [项目] [代码]
迪达克·苏里斯、萨奇特·梅农、卡尔·冯德里克. ICCV'23
Visual ChatGPT:与视觉基础模型对话、绘图和编辑。 [代码]
吴晨菲、尹圣明、齐伟珍、王小东、唐泽成、段楠. 预印本'23
张卓生、张 Aston、李牧、赵海、卡里皮斯、斯莫拉. 预印本'23
视觉编程:无需训练的组合式视觉推理。 [项目] [代码]
坦迈·古普塔、阿尼鲁达·肯布哈维. CPVR'23
Socratic Models:利用语言构建零样本多模态推理。 [项目] [代码]
安迪·曾、玛丽亚·阿塔里安、布莱恩·伊希特、克日什托夫·霍罗马斯基、阿德里安·王、斯特凡·韦尔克、费德里科·汤巴里、阿维克·普罗希特、迈克尔·里奥、维卡斯·辛德瓦尼、约翰尼·李、文森特·范胡克、皮特·弗洛伦斯. ICLR'23
🤏 将小型语言模型扩展至推理能力
2025
-
李燕阳、吕迈克尔、王立伟. 预印本'25
S²R:通过强化学习教导大语言模型自我验证与自我修正。 [代码]
马若天、王培松、刘成、刘星言、陈嘉琪、张邦、周欣、杜楠、李佳. 预印本'25
rStar-Math:小型语言模型可通过自我进化式深度思考掌握数学推理。 [代码]
关鑫宇、张莉娜、刘一飞、尚宁、孙佑然、朱毅、杨帆、杨茂. 预印本'24
2024
-
唐正阳、张兴兴、王本友、魏福如. 预印本'24
2023
-
森下照文、森尾岳、山口敦纪、曾川康弘. ICML'23
-
李念安·哈罗德、杰克·赫塞尔、柳英宰、任翔、蔡开元、崔艺珍. ACL'23
-
傅瑶、彭浩、欧立图、萨巴瓦尔、科特. ICML'23
-
何南圭、劳拉·施密德、尹世荣. ACL'23
-
露西·夏洛特·马吉斯特、乔纳森·马林森、雅库布·阿达梅克、埃里克·马尔米、阿里克谢·塞维尔金. ACL'23 短文
-
库马尔·施里达尔、亚历山德罗·斯托尔福、姆林玛亚·萨昌. ACL'23 发现
2022
-
郑亨源、侯乐、朗普雷、佐夫、泰伊、费杜斯、李埃里克、王学智、德格哈尼、布拉马、韦布森、顾世祥、戴竹云、苏兹贡、陈欣韵、乔德里、纳朗、米什拉、余亚当斯、赵文轩、黄艳萍、戴安德鲁、于鸿坤、彼得罗夫、奇埃德、迪恩杰夫、德夫林、罗伯茨、周登尼、黎国强、魏贾森. JMLR'22
李燕阳、吕迈克尔、王立伟. 预印本'25
S²R:通过强化学习教导大语言模型自我验证与自我修正。 [代码]
马若天、王培松、刘成、刘星言、陈嘉琪、张邦、周欣、杜楠、李佳. 预印本'25
rStar-Math:小型语言模型可通过自我进化式深度思考掌握数学推理。 [代码]
关鑫宇、张莉娜、刘一飞、尚宁、孙佑然、朱毅、杨帆、杨茂. 预印本'24
唐正阳、张兴兴、王本友、魏福如. 预印本'24
森下照文、森尾岳、山口敦纪、曾川康弘. ICML'23
李念安·哈罗德、杰克·赫塞尔、柳英宰、任翔、蔡开元、崔艺珍. ACL'23
傅瑶、彭浩、欧立图、萨巴瓦尔、科特. ICML'23
何南圭、劳拉·施密德、尹世荣. ACL'23
露西·夏洛特·马吉斯特、乔纳森·马林森、雅库布·阿达梅克、埃里克·马尔米、阿里克谢·塞维尔金. ACL'23 短文
库马尔·施里达尔、亚历山德罗·斯托尔福、姆林玛亚·萨昌. ACL'23 发现
郑亨源、侯乐、朗普雷、佐夫、泰伊、费杜斯、李埃里克、王学智、德格哈尼、布拉马、韦布森、顾世祥、戴竹云、苏兹贡、陈欣韵、乔德里、纳朗、米什拉、余亚当斯、赵文轩、黄艳萍、戴安德鲁、于鸿坤、彼得罗夫、奇埃德、迪恩杰夫、德夫林、罗伯茨、周登尼、黎国强、魏贾森. JMLR'22
其他实用资源
- LLM Reasoners 一个用于高级大型语言模型推理的库。
- Chain-of-Thought Hub 使用思维链提示来评估大型语言模型的推理性能。
- ThoughtSource 大型语言模型中与思维链推理相关的数据和工具的集中且开放的资源。
- AgentChain 将多个大型语言模型串联起来进行推理,并协调多个大型模型完成复杂任务。
- google/Cascades 一个Python库,支持语言模型的复杂组合,例如草稿纸、思维链、工具使用、选择-推理等。
- LogiTorch 基于PyTorch的自然语言逻辑推理库。
- salesforce/LAVIS 集成语言与视觉智能的一站式库。
- facebookresearch/RAM 一个用于研究人工智能模型在推理、对齐及内存(RAM)使用方面的框架。
其他精彩列表
- Awesome-Controllable-Generation 关于使用扩散模型进行可控生成的论文和资源合集。
- Chain-of-ThoughtsPapers 该趋势始于“思维链提示能够激发大型语言模型的推理能力”。
- LM-reasoning 大型语言模型推理相关论文和资源的集合。
- Prompt4ReasoningPapers 论文《通过语言模型提示进行推理:综述》的存储库。
- ReasoningNLP 自然语言处理中关于推理的论文列表。
- Awesome-LLM 精选的大型语言模型列表。
- Awesome LLM Self-Consistency 大型语言模型中自我一致性相关资源的精选列表。
- Deep-Reasoning-Papers 包括神经符号推理、逻辑推理和视觉推理在内的最新论文。
如何贡献
- 添加新论文或更新现有论文时,请考虑该工作应归入哪个类别。
- 描述工作时,请采用与现有条目相同的格式。
- 添加论文的摘要链接(如果是arXiv预印本,则为
/abs/格式)。
即使不小心做错了也没关系,我们会帮你修正!
贡献者
相似工具推荐
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
NextChat
NextChat 是一款轻量且极速的 AI 助手,旨在为用户提供流畅、跨平台的大模型交互体验。它完美解决了用户在多设备间切换时难以保持对话连续性,以及面对众多 AI 模型不知如何统一管理的痛点。无论是日常办公、学习辅助还是创意激发,NextChat 都能让用户随时随地通过网页、iOS、Android、Windows、MacOS 或 Linux 端无缝接入智能服务。 这款工具非常适合普通用户、学生、职场人士以及需要私有化部署的企业团队使用。对于开发者而言,它也提供了便捷的自托管方案,支持一键部署到 Vercel 或 Zeabur 等平台。 NextChat 的核心亮点在于其广泛的模型兼容性,原生支持 Claude、DeepSeek、GPT-4 及 Gemini Pro 等主流大模型,让用户在一个界面即可自由切换不同 AI 能力。此外,它还率先支持 MCP(Model Context Protocol)协议,增强了上下文处理能力。针对企业用户,NextChat 提供专业版解决方案,具备品牌定制、细粒度权限控制、内部知识库整合及安全审计等功能,满足公司对数据隐私和个性化管理的高标准要求。
ML-For-Beginners
ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程,旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周,包含 26 节精炼课程和 52 道配套测验,内容涵盖从基础概念到实际应用的完整流程,有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。 无论是希望转型的开发者、需要补充算法背景的研究人员,还是对人工智能充满好奇的普通爱好者,都能从中受益。课程不仅提供了清晰的理论讲解,还强调动手实践,让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持,通过自动化机制提供了包括简体中文在内的 50 多种语言版本,极大地降低了全球不同背景用户的学习门槛。此外,项目采用开源协作模式,社区活跃且内容持续更新,确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路,ML-For-Beginners 将是理想的起点。
ragflow
RAGFlow 是一款领先的开源检索增强生成(RAG)引擎,旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体(Agent)能力相结合,不仅支持从各类文档中高效提取知识,还能让模型基于这些知识进行逻辑推理和任务执行。 在大模型应用中,幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构(如表格、图表及混合排版),显著提升了信息检索的准确度,从而有效减少模型“胡编乱造”的现象,确保回答既有据可依又具备时效性。其内置的智能体机制更进一步,使系统不仅能回答问题,还能自主规划步骤解决复杂问题。 这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统,还是致力于探索大模型在垂直领域落地的创新者,都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口,既降低了非算法背景用户的上手门槛,也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目,它正成为连接通用大模型与行业专有知识之间的重要桥梁。