machine-learning-list
machine-learning-list 是一份专为系统掌握基础模型(Foundation Models)而设计的开源学习大纲,内容涵盖从零基础入门到前沿技术探索的全路径。它旨在解决机器学习领域知识更新快、资料分散且难以构建完整认知体系的痛点,帮助学习者高效筛选出最具价值的核心论文与教程。
这份清单最初用于指导 Elicit 团队的新员工快速建立机器学习背景,特别聚焦于语言模型。其内容结构严谨,按“基础理论、推理策略、实际应用、工程实践、进阶主题及宏观视野”六大板块组织,并创新性地采用“分级阅读”模式:用户可先攻克 Tier 1 核心概念,再逐步深入 Tier 2 及更高阶内容。资源形式丰富,既包含经典的学术文章,也精选了 Karpathy 等专家的高质量视频讲解,兼顾生产部署技巧与长期可扩展性技术。
machine-learning-list 非常适合希望转行或深耕 AI 领域的开发者、研究人员,以及需要快速补齐大模型知识短板的工程师使用。无论你是想理解 Transformer 架构底层原理,还是探索 AI 安全、世界模型等前沿议题,都能在这里找到清晰的学习指引。它不仅是一份书单,更是一张通往大模型技术深处的可靠地图。
使用场景
某科技公司的新晋 AI 工程师团队正急需构建大语言模型应用,但成员背景各异,对从基础理论到前沿部署的知识体系缺乏统一认知。
没有 machine-learning-list 时
- 学习路径混乱:团队成员在海量论文和教程中盲目摸索,有人沉迷过时的反向推导数学细节,有人直接跳跃阅读高深架构,导致知识断层严重。
- 理论与实战脱节:大家花费大量时间研读纯学术理论,却忽略了“生产环境部署”和“基准测试”等关键工程环节,模型无法落地。
- 前沿视野缺失:由于缺乏系统指引,团队对“上下文推理”、“工具使用”及"AI 安全”等决定产品竞争力的前沿策略知之甚少。
- 沟通成本高昂:因缺乏共同的知识基准,技术评审时大家对基础概念理解不一,反复解释基础术语浪费了宝贵的开发时间。
使用 machine-learning-list 后
- 路径清晰高效:团队严格遵循 Tier 1 至 Tier 3 的分级阅读顺序,先通过 Karpathy 的视频直观掌握 Transformer 核心,再深入微积分细节,全员快速对齐基础。
- 工程导向明确:课程专门涵盖“生产部署”与“数据集”章节,引导成员在学习初期就关注模型在实际业务中的可扩展性与稳定性。
- 掌握前沿策略:通过“推理与运行时策略”模块,团队迅速掌握了任务分解、辩论机制及工具调用等高级技巧,显著提升了模型解决复杂问题的能力。
- 协作无缝顺畅:所有人基于同一份权威大纲建立知识体系,技术讨论时术语统一、逻辑同频,大幅缩短了从学习到编码的转化周期。
machine-learning-list 通过将碎片化的机器学习知识重构为从入门到前沿的系统化课程,帮助团队以最低成本建立了兼具理论深度与工程广度的核心竞争力。
运行环境要求
未说明
未说明

快速开始
Elicit 机器学习阅读清单
目的
本课程旨在帮助 Elicit 的新员工学习机器学习的基础知识,重点关注语言模型。我试图在适用于生产环境中部署机器学习的相关论文与对长期可扩展性至关重要的技术之间取得平衡。
如果你尚未加入 Elicit——我们正在招聘机器学习工程师和软件工程师(点击此处查看职位)。
阅读指南
推荐阅读顺序:
- 所有主题先读“Tier 1”
- 再读“Tier 2”
- 以此类推
✨ = 2025年11月26日之后新增
目录
基础概念
机器学习导论
Tier 1
Tier 2
Tier 3
- 神经网络与反向传播详解:从零构建 micrograd(Karpathy)
- 反向传播的数学推导
Transformer 模型
Tier 1
Tier 2
- ✨ 深入解析 ChatGPT 等大型语言模型(Karpathy)
- 让我们一起构建 GPT 分词器(Karpathy)
- 图解 GPT-2:可视化 Transformer 语言模型
- 通过联合学习对齐与翻译实现神经机器翻译
- Attention Is All You Need
Tier 3
- ✨ 反转诅咒:以“A 是 B”训练的语言模型无法学会“B 是 A”
- 注释版 Transformer
- TabPFN:能在一秒内解决小型表格分类问题的 Transformer
- Grokking:超越过拟合的小型算法数据集上的泛化能力
- Transformer 电路的数学框架
Tier 4 及以上
重要基础模型架构
第一层
- 语言模型是无监督的多任务学习者(GPT-2)
- 语言模型是少样本学习者(GPT-3)
第二层
- ✨ DeepSeek-R1(DeepSeek-R1)
- ✨ DeepSeek-V3 技术报告(DeepSeek-V3)
- ✨ Llama 3 模型家族(Llama 3)
- LLaMA:开放且高效的基座语言模型(LLaMA)
- 通过人类反馈训练语言模型遵循指令(OpenAI Instruct)
第三层
- ✨ LLaMA 2:开放的基座模型与微调后的聊天模型(LLaMA 2)
- ✨ Qwen2.5 技术报告(Qwen2.5)
- ✨ Titans:在推理时学习记忆
- ✨ 字节潜伏变换器
- ✨ Phi-4 技术报告(phi-4)
第四层及以上
- 评估基于代码训练的大规模语言模型(OpenAI Codex)
- Mistral 7B(Mistral)
- 探索统一文本到文本变换器的迁移学习极限(T5)
- Gemini:高度强大的多模态模型家族(Gemini)
- Mamba:具有选择性状态空间的线性时间序列建模(Mamba)
- 扩展指令微调语言模型(Flan)
- 利用结构化状态空间高效建模长序列(视频)(S4)
- 一致性模型
- Claude 模型的模型卡片与评估(Claude 2)
- OLMo:加速语言模型科学研究
- PaLM 2 技术报告(Palm 2)
- 教科书就够了 II:phi-1.5 技术报告(phi 1.5)
- 视觉指令微调(LLaVA)
- 通用语言助手作为对齐的实验室
- 微调后的语言模型是零样本学习者(Google Instruct)
- Galactica:面向科学的大规模语言模型
- LaMDA:用于对话应用的语言模型(Google Dialog)
- OPT:开放的预训练变换器语言模型(Meta GPT-3)
- PaLM:通过 Pathways 扩展语言建模能力(PaLM)
- 利用大规模语言模型进行程序合成(Google Codex)
- 扩展语言模型:方法、分析及训练 Gopher 的洞见(Gopher)
- 利用语言模型解决定量推理问题(Minerva)
- UL2:统一语言学习范式(UL2)
训练与微调
第二层级
第三层级
第四层级及以上
- 少样本参数高效微调比上下文学习更好更便宜
- 超越人类数据:扩展语言模型的问题解决自训练
- 通过自然语言反馈训练提升代码生成能力
- 语言建模即压缩
- LIMA:对齐之道,少即是多
- 使用梗概标记学习压缩提示
- 迷失于中间:语言模型如何利用长上下文
- LoRA:大型语言模型的低秩适应
- Quiet-STaR:语言模型可以自我训练,在开口前先思考
- 用于语言建模的强化自训练(ReST)
- 无需人类示范即可解决奥林匹克几何问题
- 告知而非展示:声明性事实影响 LLM 的泛化能力
- 只需教科书就够了
- TinyStories:语言模型能有多小,仍能说出连贯的英语?
- 大规模使用语言反馈训练语言模型
- 图灵完备的 Transformer:两个 Transformer 比一个更强大
- ByT5:迈向无标记未来——预训练字节到字节模型
- 数据分布特性驱动 Transformer 中涌现的上下文学习
- Diffusion-LM 改善可控文本生成
- ERNIE 3.0:面向语言理解和生成的大规模知识增强预训练
- 高效训练语言模型以填补中间空白
- ExT5:迈向极端多任务规模的迁移学习
- 前缀调优:优化连续提示以进行生成
- 数据点之间的自注意力:超越深度学习中的单个输入输出对
- 真正的少样本学习与提示——现实视角
推理与运行时策略
上下文推理
第二层级
第三层级
- ✨ s1:简单的测试时缩放
- ✨ 使自我改进型推理者成为可能的认知行为,或,高效率 STaR 的四种习惯
- ✨ 测试时训练在抽象推理中的惊人效果
- ✨ 大型语言模型目前尚无法自我纠正推理
- 无需提示的思维链推理
第四层级及以上
任务分解
第一层
第二层
第三层
第四层及以上
- 去语境化:使句子独立存在
- 分解认知入门
- 思维图:利用大型语言模型解决复杂问题
- Parsel:用于算法推理的统一自然语言框架
- AI链:通过串联大型语言模型提示实现透明且可控的人机交互
- 挑战BIG-Bench任务及思维链能否解决它们
- 逐项评估论证
- 从最简单到最复杂提示法使大型语言模型具备复杂推理能力
- 助产术式提示:借助递归解释实现逻辑一致的推理
- 衡量并缩小语言模型中的组合性差距
- PAL:程序辅助语言模型
- ReAct:在语言模型中协同推理与行动
- 选择—推理:利用大型语言模型进行可解释的逻辑推理
- 展示你的工作:语言模型的中间计算草稿本
- Summ^N:针对长篇输入对话和文档的多阶段摘要框架
- Thinksum:利用大型语言模型对集合进行概率推理
辩论
第二层
第三层
工具使用与支架搭建
第二层
第三层
- ✨ 可执行代码操作能激发更好的LLM代理
- ✨ GEPA:反思式提示进化可超越强化学习
- ✨ TextGrad:通过文本实现自动“微分”
- 无需昂贵的再训练即可显著提升AI能力
- 利用语言模型自动发现统计模型
第四层及以上
诚实、事实性和认识论
第二层
第三层
应用场景
科学
第二层级
第三层级
- ✨ 迈向人工智能联合科学家
- 大型语言模型能否为研究论文提供有用反馈?一项大规模实证分析
- 大型语言模型编码临床知识
- 大型语言模型对科学发现的影响:基于GPT-4的初步研究
- 以研究论文为基础的信息检索问答数据集
第四层级及以上
- 通用基础模型能否超越专用微调?以医学为例的研究
- Nougat:面向学术文档的神经光学理解
- Scim:科学论文的智能略读支持
- SynerGPT:基于上下文学习的个性化药物协同效应预测与药物设计
- 利用大型语言模型实现精准的鉴别诊断
- 迈向人类与机器科学理解能力的基准测试
- 用于发现科学挑战与研究方向的搜索引擎
- 借助自动化工具,仅用两周便完成了一篇完整的系统综述:案例研究
- 事实还是虚构:科学主张的验证
- Multi-XScience:面向科学文献极端多文档摘要的大规模数据集
- PEER:协作式语言模型
- PubMedQA:生物医学研究问答数据集
- SciCo:科学概念的跨文档层次化指代消解
- SciTail:来自科学问答的文本蕴含数据集
预测
第三层级
- ✨ 语言模型预测器的一致性检验
- ✨ LLM Processes:基于自然语言条件的数值预测分布
- AI增强预测:LLM助手提升人类预测准确性
- 利用语言模型逼近人类水平的预测能力
- 利用神经网络预测未来世界事件
第四层级及以上
搜索与排序
第二层级
- 大规模学习短语的稠密表示
- 通过对比预训练生成文本和代码嵌入(OpenAI嵌入)
第三层级
第四层级及以上
机器学习实践
生产部署
第一层级
第二层级
基准测试
第二层级
- ✨ GAIA:通用人工智能助手的基准测试
- GPQA:一项研究生级别的防谷歌问答基准测试
- SWE-bench:语言模型能否解决现实世界的 GitHub 问题?
- TruthfulQA:衡量模型如何模仿人类的谬误
第三层级
- ✨ RE-Bench:评估前沿人工智能研发能力
- ✨ SimpleQA:衡量简短形式的事实准确性
- ✨ ARC Prize 2024:技术报告
- ✨ FrontierMath:评估人工智能高级数学推理能力的基准测试
- 衡量大规模多任务语言理解能力
第四层级及以上
数据集
第二层级
第三层级
高级主题
世界模型与因果关系
第三层级
第四层级及以上
规划
第四层级及以上
不确定性、校准与主动学习
第二层级
第三层级
可解释性与模型编辑
2级
3级
- ✨ 稀疏自编码器的扩展与评估
- ✨ 打开 AI 黑箱:通过机制性可解释性进行程序合成
- 从机制角度分析微调对过程化定义任务的影响
- 表征工程:一种自上而下的 AI 透明度方法
- 利用影响函数研究大型语言模型的泛化能力
4级及以上
强化学习
2级
- ✨ DeepSeekMath:突破开放语言模型的数学推理极限 (GRPO)
- 直接偏好优化:你的语言模型其实是个奖励模型
- Reflexion:具备口头强化学习能力的语言智能体
- 使用通用强化学习算法通过自我博弈掌握国际象棋和将棋 (AlphaZero)
- MuZero:通过基于学习模型的规划掌握雅达利、围棋、国际象棋和将棋
3级
- 人类反馈强化学习的开放问题与根本局限
- AlphaStar:掌握即时战略游戏《星际争霸 II》
- 决策 Transformer
- 仅用少量数据掌握雅达利游戏 (EfficientZero)
- 掌握经典不完全信息博弈 Stratego (DeepNash)
4级及以上
全局视角
AI 扩展
1级
2级
- AI 与计算资源
- 迁移学习的规模法则
- 训练计算最优的大语言模型 (Chinchilla)
3级
- ✨ 无限计算条件下的预训练
- 大型语言模型的涌现能力
- 以 0.1% 的额外计算超越规模法则 (U-PaLM)
4级及以上
人工智能安全
一级
二级
三级
- ✨ 大型语言模型中的对齐伪装
- ✨ 宪法分类器:防御通用越狱攻击
- ✨ 涌现式不对齐:窄范围微调可能导致广泛不对齐的语言模型
- ✨ 逐步去权力化:渐进式AI发展带来的系统性生存风险
- 阴谋型AI:AI会在训练过程中假装对齐以获取权力吗?
四级及以上
- 面向启发式估计器的迭代期望法则探索
- 衡量大型语言模型可扩展监督的进展
- 通过奖励建模实现可扩展的智能体对齐
- AI欺骗:案例、风险及潜在解决方案综述
- 检测测量篡改的基准测试
- 国际象棋作为AI安全“预言家”方法的试验场
- 关闭通向非人未来的大门:我们为何以及如何选择不开发超人类通用人工智能
- 极端风险下的模型评估
- 前沿AI发展的负责任报道
- 安全论证:如何证明先进AI系统的安全性
- 休眠代理:训练能在安全训练中持续存在的欺骗性语言模型
- 技术报告:大型语言模型在压力下会策略性地欺骗用户
- 张量信任:来自在线游戏的可解释提示注入攻击
- 验证神经网络训练数据的工具
- 迈向具有收敛安全边界谨慎科学家AI的探索
- 语言智能体的对齐
- 激发潜在知识
- 使用语言模型对抗语言模型以减少危害:方法、规模化行为与经验教训
- 用语言模型对抗语言模型
- 高级机器学习系统中学习优化带来的风险
- ML安全领域的未解决问题
经济与社会影响
二级
三级
四级及以上
哲学
二级
维护者
相似工具推荐
openclaw
OpenClaw 是一款专为个人打造的本地化 AI 助手,旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚,能够直接接入你日常使用的各类通讯渠道,包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息,OpenClaw 都能即时响应,甚至支持在 macOS、iOS 和 Android 设备上进行语音交互,并提供实时的画布渲染功能供你操控。 这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地,用户无需依赖云端服务即可享受快速、私密的智能辅助,真正实现了“你的数据,你做主”。其独特的技术亮点在于强大的网关架构,将控制平面与核心助手分离,确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者,以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力(支持 macOS、Linux 及 Windows WSL2),即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你
stable-diffusion-webui
stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面,旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点,将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。 无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师,还是想要深入探索模型潜力的开发者与研究人员,都能从中获益。其核心亮点在于极高的功能丰富度:不仅支持文生图、图生图、局部重绘(Inpainting)和外绘(Outpainting)等基础模式,还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外,它内置了 GFPGAN 和 CodeFormer 等人脸修复工具,支持多种神经网络放大算法,并允许用户通过插件系统无限扩展能力。即使是显存有限的设备,stable-diffusion-webui 也提供了相应的优化选项,让高质量的 AI 艺术创作变得触手可及。
everything-claude-code
everything-claude-code 是一套专为 AI 编程助手(如 Claude Code、Codex、Cursor 等)打造的高性能优化系统。它不仅仅是一组配置文件,而是一个经过长期实战打磨的完整框架,旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。 通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能,everything-claude-code 能显著提升 AI 在复杂任务中的表现,帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略,使得模型响应更快、成本更低,同时有效防御潜在的攻击向量。 这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库,还是需要 AI 协助进行安全审计与自动化测试,everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目,它融合了多语言支持与丰富的实战钩子(hooks),让 AI 真正成长为懂上
ComfyUI
ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎,专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式,采用直观的节点式流程图界面,让用户通过连接不同的功能模块即可构建个性化的生成管线。 这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景,也能自由组合模型、调整参数并实时预览效果,轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性,不仅支持 Windows、macOS 和 Linux 全平台,还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构,并率先支持 SDXL、Flux、SD3 等前沿模型。 无论是希望深入探索算法潜力的研究人员和开发者,还是追求极致创作自由度的设计师与资深 AI 绘画爱好者,ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能,使其成为当前最灵活、生态最丰富的开源扩散模型工具之一,帮助用户将创意高效转化为现实。
markitdown
MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具,专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片(含 OCR)、音频(含语音转录)、HTML 乃至 YouTube 链接等多种格式的解析,能够精准提取文档中的标题、列表、表格和链接等关键结构信息。 在人工智能应用日益普及的今天,大语言模型(LLM)虽擅长处理文本,却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点,它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式,成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外,它还提供了 MCP(模型上下文协议)服务器,可无缝集成到 Claude Desktop 等 LLM 应用中。 这款工具特别适合开发者、数据科学家及 AI 研究人员使用,尤其是那些需要构建文档检索增强生成(RAG)系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性,但其核心优势在于为机器
LLMs-from-scratch
LLMs-from-scratch 是一个基于 PyTorch 的开源教育项目,旨在引导用户从零开始一步步构建一个类似 ChatGPT 的大型语言模型(LLM)。它不仅是同名技术著作的官方代码库,更提供了一套完整的实践方案,涵盖模型开发、预训练及微调的全过程。 该项目主要解决了大模型领域“黑盒化”的学习痛点。许多开发者虽能调用现成模型,却难以深入理解其内部架构与训练机制。通过亲手编写每一行核心代码,用户能够透彻掌握 Transformer 架构、注意力机制等关键原理,从而真正理解大模型是如何“思考”的。此外,项目还包含了加载大型预训练权重进行微调的代码,帮助用户将理论知识延伸至实际应用。 LLMs-from-scratch 特别适合希望深入底层原理的 AI 开发者、研究人员以及计算机专业的学生。对于不满足于仅使用 API,而是渴望探究模型构建细节的技术人员而言,这是极佳的学习资源。其独特的技术亮点在于“循序渐进”的教学设计:将复杂的系统工程拆解为清晰的步骤,配合详细的图表与示例,让构建一个虽小但功能完备的大模型变得触手可及。无论你是想夯实理论基础,还是为未来研发更大规模的模型做准备