Awesome-Reasoning-Foundation-Models

GitHub
654 61 非常简单 1 次阅读 2周前MIT语言模型开发框架其他Agent
AI 解读 由 AI 自动生成,仅供参考

Awesome-Reasoning-Foundation-Models 是一个专注于大模型推理能力的开源资源库,旨在系统梳理该领域的最新论文、基准测试与技术进展。随着人工智能从单纯的知识记忆向复杂逻辑推演进化,如何提升模型在数学、逻辑、因果及多模态场景下的“思考”能力成为关键挑战。该项目通过构建结构化的知识体系,有效解决了研究人员在面对海量碎片化文献时难以快速定位核心资源的痛点。

它特别适合 AI 研究人员、算法工程师以及对大模型底层机制感兴趣的技术开发者使用。无论是希望追踪前沿学术动态,还是寻找特定任务(如常识推理、智能体决策)的解决方案,都能在此获得指引。其独特亮点在于不仅按语言、视觉、多模态等基础模型类型进行分类,还深度整合了预训练、微调、对齐训练、混合专家模型(MoE)及上下文学习等关键推理技术。此外,该资源库依托于高质量的综述论文《A Survey of Reasoning with Foundation Models》,确保了内容的权威性与前瞻性,是探索大模型推理边界不可或缺的参考指南。

使用场景

某高校人工智能实验室的研究团队正致力于开发一款能解决复杂数学应用题的教育大模型,急需筛选最适合的推理架构与基准测试方案。

没有 Awesome-Reasoning-Foundation-Models 时

  • 文献检索如大海捞针:研究人员需在 arXiv 上手动搜索"reasoning"、"math"、"CoT"等关键词,面对海量论文难以快速识别哪些是真正针对基础模型推理能力的最新成果。
  • 技术路线选择盲目:缺乏系统分类,团队难以厘清“预训练”、“微调”与“思维链(In-context Learning)”在不同推理任务(如逻辑推理 vs 因果推理)中的具体适用性,导致实验方向频繁试错。
  • 基准测试标准混乱:找不到权威且统一的评测榜单,不同论文使用的数据集各异,导致团队无法客观评估自家模型在数学或常识推理上的真实水平,复现对比极其耗时。

使用 Awesome-Reasoning-Foundation-Models 后

  • 资源获取一站式完成:直接查阅该仓库整理的精选列表,迅速定位到最新的语言、视觉及多模态推理模型论文,将文献调研时间从数周缩短至几天。
  • 技术决策有的放矢:利用其清晰的分类体系(如数学推理、代理推理),团队快速锁定了适合教育场景的“混合专家(MoE)”与“对齐训练”技术组合,大幅减少了无效实验。
  • 评估体系科学规范:参考仓库中汇总的权威基准测试(Benchmarks),建立了标准化的评估流程,不仅能准确量化模型提升效果,还能直接与业界最先进水平进行公平对标。

Awesome-Reasoning-Foundation-Models 通过系统化梳理前沿论文与评测标准,将研究团队从繁琐的信息筛选中解放出来,使其能专注于核心算法的创新与落地。

运行环境要求

GPU

未说明

内存

未说明

依赖
notes该仓库是一个综述列表(Awesome List),主要整理了关于推理基础模型(Reasoning Foundation Models)的论文、代码库和项目链接,本身不是一个可直接运行的软件工具或框架,因此 README 中未包含具体的操作系统、硬件配置、Python 版本或依赖库等运行环境需求。用户需根据列表中具体引用的模型(如 Llama, Qwen, Mistral 等)前往其各自的官方仓库查询相应的部署要求。
python未说明
Awesome-Reasoning-Foundation-Models hero image

快速开始

令人惊叹的推理基础模型

Awesome DOI arXiv

overview

survey.pdf | 一个精心整理的、关于用于推理大型AI模型基础模型的精彩列表。

我们把当前的基础模型分为三类:语言基础模型视觉基础模型多模态基础模型。 此外,我们还详细介绍了这些基础模型在推理任务中的应用,包括常识推理数学推理逻辑推理因果推理视觉推理音频推理多模态推理智能体推理等。 推理技术,如预训练微调对齐训练专家混合模型上下文学习自主智能体,也被总结在此。

我们欢迎为本仓库贡献更多资源。如果您想贡献力量,请提交拉取请求!详情请参阅CONTRIBUTING

目录

目录

0 概述

overview

本仓库主要基于以下论文:

基础模型推理综述:概念、方法与展望

[论文][ArXiv]

孙建凯()、郑传扬()、谢恩泽()、刘正颖()、楚睿航()、邱佳宁()、徐嘉琪()、丁明宇()、李洪洋()、耿孟哲()、吴岳()、王文海()、陈俊松()、尹章悦()、任晓哲()、傅杰()、何俊贤()、吴源()、刘奇()、刘希辉()、李宇()、董浩()、程宇()、张明()、彭安恒()、戴继峰()、罗平()、王京东()、温继荣()、邱锡鹏()、郭义克()、熊辉()、刘群()和李振国()

如果您觉得本仓库有所帮助,请考虑引用:

@article{sun2025survey,
  author = {孙建凯、郑传扬、谢恩泽、刘正颖、楚睿航、邱佳宁、徐嘉琪、丁明宇、李洪洋、耿孟哲、吴岳、王文海、陈俊松、尹章悦、任晓哲、傅杰、何俊贤、吴源、刘奇、刘希辉、李宇、董浩、程宇、张明、彭安恒、戴继峰、罗平、王京东、温继荣、邱锡鹏、郭义克、熊辉、刘群、李振国},
  title = {基础模型推理综述:概念、方法与展望},
  year = {2025},
  publisher = {美国计算机协会},
  address = {纽约, 美国},
  issn = {0360-0300},
  url = {https://doi.org/10.1145/3729218},
  doi = {10.1145/3729218},
  abstract = {推理是解决复杂问题的关键能力,在谈判、医学诊断和刑事侦查等多种现实场景中发挥着核心作用。它也是通用人工智能(AGI)领域的基本方法论。随着基础模型的不断发展,人们对其在推理任务中的能力越来越感兴趣。本文介绍了可用于或可适配于推理的代表性基础模型,并重点展示了各类推理任务、方法和基准测试的最新进展。随后,我们探讨了基础模型中推理能力出现的潜在未来方向。同时,我们也讨论了多模态学习、自主智能体和超级对齐在推理背景下的相关性。通过探讨这些未来的研究方向,我们希望激励研究人员进一步探索这一领域,推动基础模型(例如大型语言模型LLM)在推理方面的更多进展,并为AGI的发展做出贡献。},
  journal = {ACM 计算机科学评论},
  month = apr,
  keywords = {推理、基础模型、多模态、AI智能体、通用人工智能、LLM}
}

1 相关综述与链接

相关综述

(返回顶部)

  • 在大语言模型时代对抗虚假信息:机遇与挑战 - [arXiv] [链接]

  • 基于大语言模型的智能体的兴起与潜力:综述 - [arXiv] [链接]

  • 多模态基础模型:从专家系统到通用助手 - [arXiv] [教程]

  • 多模态大语言模型综述 - [arXiv] [链接]

  • 交互式自然语言处理 - [arXiv] [链接]

  • 大语言模型综述 - [arXiv] [链接]

  • 自监督多模态学习:综述 - [arXiv] [链接]

  • 大型人工智能模型在健康信息学中的应用、挑战与未来 - [arXiv] [论文] [链接]

  • 向大语言模型推理迈进:综述 - [arXiv] [论文] [链接]

  • 使用语言模型提示进行推理:综述 - [arXiv] [论文] [链接]

  • 优秀多模态推理资源 - [链接]

2 基础模型

基础模型

(返回顶部)

foundation_models

目录 - 2

基础模型(目录)

(返回顶部)

2.1 语言基础模型

LFMs

基础模型(返回顶部)


2.2 视觉基础模型

VFMs

基础模型(返回顶部)


2.3 多模态基础模型

MFMs

基础模型(返回顶部)


2.4 推理应用

推理应用

基础模型(返回顶部)


3 推理任务

推理任务

(返回顶部)

目录 - 3

推理任务(目录)

3.1 常识推理

常识推理

推理任务(返回顶部)


3.1.1 常识问答(QA)

3.1.2 物理常识推理

3.1.3 空间常识推理

3.1.x 基准、数据集和指标


3.2 数学推理

数学推理

推理任务(返回顶部)


3.2.1 算术推理

数学推理(返回顶部)

3.2.2 几何推理

数学推理(返回顶部)

3.2.3 定理证明

数学推理(返回顶部)

3.2.4 科学推理

数学推理(返回顶部)

3.2.x 基准、数据集和指标

数学推理(返回顶部)


3.3 逻辑推理

逻辑推理

推理任务(返回顶部)


3.3.1 命题逻辑

  • 2022/09 | 通过神经 Transformer 语言模型进行命题推理 - [论文]

3.3.2 谓词逻辑

3.3.x 基准、数据集和指标


3.4 因果推理

因果推理

推理任务(返回顶部)


3.4.1 反事实推理

3.4.x 基准、数据集和指标


3.5 视觉推理

视觉推理

推理任务(返回顶部)


3.5.1 3D 推理

3.5.x 基准、数据集和指标


3.6 音频推理

音频推理

推理任务(返回顶部)


3.6.1 语音

3.6.x 基准、数据集和指标


3.7 多模态推理

多模态推理

推理任务(返回顶部)


3.7.1 对齐

3.7.2 生成

3.7.3 多模态理解

3.7.x 基准、数据集和度量


3.8 代理推理

代理推理

推理任务(返回顶部)


3.8.1 内省式推理

3.8.2 外省式推理

3.8.3 多智能体推理

3.8.4 驾驶推理

3.8.x 基准、数据集和指标


3.9 其他任务与应用

其他任务与应用

推理任务(返回顶部)

3.9.1 心理理论 (ToM)

3.9.2 大型语言模型在天气预报中的应用

  • 2022/09 | MetNet-2 | 基于深度学习的十二小时降水预报 - [论文]

  • 2023/07 | Pangu-Weather | 利用三维神经网络实现高精度的中期全球天气预报 - [论文]

3.9.3 抽象推理

3.9.4 可废止推理

3.9.5 医学推理

  • 2024/01 | CheXagent / CheXinstruct / CheXbench | Chen 等人 引用数 星标
    CheXagent:迈向胸部X光片解读的基础模型
    [arXiv] [论文] [代码] [项目页面] [Hugging Face]

  • 2024/01 | EchoGPT | Chao 等人 引用数
    EchoGPT:用于超声心动图报告摘要的大语言模型
    [medRxiv] [论文]

  • 2023/10 | GPT4V-医学报告 | Yan 等人 引用数 星标
    面向医疗应用的多模态ChatGPT:GPT-4V的实验研究
    [arXiv] [论文] [代码]

  • 2023/10 | VisionFM | Qiu 等人 引用数
    VisionFM:一种通用眼科人工智能的多模态多任务视觉基础模型
    [arXiv] [论文]

  • 2023/09 | Yang 等人 引用数
    LMMs 的曙光:使用 GPT-4V(ision) 的初步探索
    [arXiv] [论文]

  • 2023/09 | RETFound | Zhou 等人,Nature 引用数 星标
    一种用于从视网膜图像中进行泛化疾病检测的基础模型
    [论文] [代码]

  • 2023/08 | ELIXR | Xu 等人 引用数
    ELIXR:通过对齐大语言模型和放射影像编码器,迈向通用X射线人工智能系统
    [arXiv] [论文]

  • 2023/07 | Med-Flamingo | Moor 等人 引用数 星标
    Med-Flamingo:一种多模态医学小样本学习模型
    [arXiv] [论文] [代码]

  • 2023/07 | Med-PaLM M | Tu 等人 引用数 星标
    迈向通用生物医学人工智能
    [arXiv] [论文] [代码]

  • 2023/06 | Endo-FM | Wang et al., MICCAI 2023 citations Star
    基于大规模自监督预训练的内窥镜视频分析基础模型
    [arXiv] [paper] [code]

  • 2023/06 | XrayGPT | Thawkar et al. citations Star
    XrayGPT:利用医学视觉-语言模型进行胸部X光片摘要生成
    - [arXiv] [paper] [code]

  • 2023/06 | LLaVA-Med | Li et al., NeurIPS 2023 citations Star
    LLaVA-Med:一天内训练一个用于生物医学的大规模语言-视觉助手
    [arXiv] [paper] [code]

  • 2023/05 | HuatuoGPT | Zhang et al., Findings of EMNLP 2023 citations Star
    HuatuoGPT:朝着驯服语言模型成为医生的目标迈进
    [arXiv] [paper] [code]

  • 2023/05 | Med-PaLM 2 | Singhal et al. citations
    迈向使用大型语言模型实现专家级医学问答
    [arXiv] [paper]

  • 2022/12 | Med-PaLM / MultiMedQA / HealthSearchQA | Singhal et al., Nature citations
    大型语言模型编码临床知识
    [arXiv] [paper]

3.9.6 生物信息学推理

3.9.7 长链推理


4 推理技术

推理技术

(返回顶部)

目录 - 4

推理技术(目录)

4.1 预训练

预训练

推理技术(返回顶部)

4.1.1 数据

a. 数据 - 文本
b. 数据 - 图像
c. 数据 - 多模态

4.1.2 网络架构

a. 编码器-解码器
b. 仅解码器
c. CLIP 变体
d. 其他

4.2 微调

微调

推理技术(返回顶部)

4.2.1 数据

4.2.2 参数高效微调

a. Adapter微调
b. 低秩适应
c. 提示词微调
d. 部分参数微调
e. 多模态混合适应

4.3 对齐训练

对齐训练

推理技术(返回顶部)

4.3.1 数据

a. 数据 - 人类
b. 数据 - 合成

4.3.2 训练流程

a. 在线人类偏好训练
b. 离线人类偏好训练

4.4 混合专家模型(MoE)

混合专家模型

推理技术(返回顶部)


4.5 上下文学习

上下文学习

推理技术(返回顶部)


4.5.1 示范样例选择

a. 先验知识方法
b. 检索方法

4.5.2 思维链

a. 零样本思维链
b. 少样本思维链
c. 多路径聚合

4.5.3 多轮提示法

a. 学习型精炼器
b. 提示型精炼器

4.6 自主代理

自主代理

推理技术(返回顶部)


版本历史

v1.0.02023/12/08

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

349.3k|★★★☆☆|昨天
Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。

162.1k|★★★☆☆|2天前
开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上

143.9k|★★☆☆☆|今天
开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。

107.9k|★★☆☆☆|昨天
开发框架图像Agent

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器

93.4k|★★☆☆☆|昨天
插件开发框架

LLMs-from-scratch

LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备

90.1k|★★★☆☆|昨天
语言模型图像Agent