machine-learning-yearning

1.3k 404 非常简单 1 次阅读 3天前CC-BY-SA-4.0其他

AI 解读由 AI 自动生成，仅供参考

machine-learning-yearning 是吴恩达（Andrew Ng）经典著作《Machine Learning Yearning》的中文开源翻译项目。它并非传统的代码库或软件工具，而是一份系统化的机器学习工程实战指南，旨在帮助从业者掌握构建高效机器学习项目的核心策略。

在深度学习算法日益成熟的今天，许多开发者往往精通模型调优，却缺乏统筹整个项目流程的经验。machine-learning-yearning 正是为了解决这一痛点而生，它详细讲解了如何科学划分开发与测试集、通过偏差与方差分析定位问题、利用学习曲线优化模型，以及判断何时采用端到端深度学习等关键决策。全书共 58 章，覆盖了从项目启动到错误分析的全生命周期，填补了理论算法与实际工程落地之间的空白。

这份资料特别适合人工智能领域的开发者、算法工程师及研究人员阅读。对于正在着手实施机器学习项目但感到无从下手的团队，或者希望提升项目成功率的资深从业者，它都能提供极具价值的指导。其独特的技术亮点在于将复杂的工程决策拆解为可执行的具体步骤，强调“先快速构建系统再迭代优化”的务实理念。作为社区驱动的翻译成果，machine-learning-yearning 让高质量的英文技术内容得以无障碍传播，是每一位机器学习实践者案头必备的参考手册。

使用场景

某电商初创公司的算法团队正致力于构建一个商品推荐系统，但在项目初期陷入了方向不明和效率低下的困境。

没有 machine-learning-yearning 时

团队在数据划分上凭感觉行事，导致开发集与测试集分布不一致，模型在内部评估表现良好但上线后效果骤降。
面对模型性能瓶颈，工程师盲目尝试增加网络层数或收集更多数据，无法判断当前主要问题是高偏差还是高方差，浪费了大量算力资源。
缺乏系统的错误分析流程，团队成员对坏案例的归因各执一词，难以确定是特征工程不足还是标注数据有误，项目迭代陷入停滞。
过度迷信“端到端”深度学习，试图用单一模型解决所有问题，忽略了模块化调试的重要性，导致推理延迟过高且难以优化。

使用 machine-learning-yearning 后

依据书中指导科学构建了开发与测试集，确保数据分布符合业务真实场景，使离线评估指标能准确预测线上表现。
学会利用学习曲线和偏差 - 方差分析诊断模型状态，精准决策是应增加模型复杂度还是扩充数据集，研发效率提升显著。
建立了结构化的错误分析机制，通过定量分析误分类样本，快速定位到特定类别的标注噪声问题并针对性修复。
理性评估端到端方案的适用性，转而采用分步调试策略，在保证准确率的同时大幅降低了系统延迟和维护成本。

machine-learning-yearning 将模糊的直觉转化为科学的决策框架，帮助团队在复杂的机器学习项目中少走弯路，直击核心痛点。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该项目并非可执行的 AI 软件工具，而是吴恩达（Andrew Ng）《Machine Learning Yearning》手稿的中文翻译文档库。内容以 PDF 文件和 GitBooks 网页形式呈现，无需安装任何运行环境、GPU、特定 Python 版本或依赖库，仅需普通阅读器或浏览器即可查阅。

python未说明

快速开始

说明文档

简介
目的
翻译章节
英文原文
重要声明

简介

吴恩达的手稿共58章现已全部发布。我一边学习一边进行翻译，并随手记录下来，以加深对内容的理解，仅供学习交流之用。

官网：http://www.mlyearning.org/

更新记录：

更新于2018年2月2日：完成第1至14章的翻译（已完成）
更新于2018年4月25日：NG终于发布了第15至19章的手稿，等待已久（已完成）

提示：在原来的第12章和第13章之间新增了一个章节 13 快速构建你的第一个系统，然后迭代，原先的第13章变为第14章，第14章变为第15章。

更新于2018年5月2日：手稿第20至22章已发布（已完成）
更新于2018年5月9日：手稿第23至27章已发布（已完成）
更新于2018年5月16日：手稿第28至30章已发布（已完成）
更新于2018年5月23日：手稿第31至32章已发布（已完成）
更新于2018年5月30日：手稿第33至35章已发布（已完成）
更新于2018年6月6日：手稿第36至39章已发布（已完成）
更新于2018年6月13日：手稿第40至43章已发布（已完成）
更新于2018年6月20日：手稿第44至46章已发布（已完成）
更新于2018年6月27日：手稿第47至49章已发布（已完成）
更新于2018年7月4日：手稿第50至52章已发布（已完成）
更新于2018年9月29日：手稿第53至58章已发布（已完成）

本翻译为业余时间完成，水平有限，如有不当或错误之处，欢迎指正。

目的

本书旨在教你如何做出组织一个机器学习项目所需的大量决策。你将学习：

如何建立开发集和测试集
基本的错误分析方法
如何利用偏差与方差来决定下一步该做什么
学习曲线
将学习算法的表现与人类水平进行比较
调试推理算法
何时应该以及不应该使用端到端深度学习
按步骤进行错误分析的方法

翻译章节

全书共58章，分为10个小节：

设置开发集和测试集
基本错误分析
偏差与方差
学习曲线
与人类水平表现的比较
在不同分布上训练和测试
调试推理算法
端到端深度学习
分步错误分析
结论

翻译内容请移步GitBook：Machine Learning Yearning

英文原文

详见draft目录：

第1至14章：Ng_MLY01-01-14.pdf

第15至19章：Ng_MLY02-15-19.pdf

第20至22章：Ng_MLY03-20-22.pdf

第23至27章：Ng_MLY04-23-27.pdf

第28至30章：Ng_MLY05-28-30.pdf

第31至32章：Ng_MLY06-31-32.pdf

第33至35章：Ng_MLY07-33-35.pdf

第36至39章：Ng_MLY08-36-39.pdf

第40至43章：Ng_MLY09-40-43.pdf

第44至46章：NG_MLY10-44-46.pdf

第47至49章：NG_MLY11-47-49.pdf

第50至52章：Ng_MLY12-50-52.pdf

第53至58章：Ng_MLY13-53-58.pdf

Machine Learning Yearning 快速上手指南

《Machine Learning Yearning》是吴恩达（Andrew Ng）撰写的机器学习战略指南，旨在帮助开发者掌握构建高效机器学习项目的决策方法。本项目为该书的中文翻译版，适合希望提升工程落地能力的 AI 从业者阅读。

环境准备

本资源为电子书文档（PDF/Markdown），无需安装复杂的开发环境或依赖库。

系统要求：Windows / macOS / Linux 均可
前置依赖：
- PDF 阅读器（如 Adobe Reader, Foxit, 或浏览器内置阅读器）
- 或支持 Markdown 预览的编辑器（如 VS Code, Typora）
- Git（用于克隆仓库获取最新源码）

安装步骤

你可以通过克隆 GitHub 仓库或直接下载 PDF 草案来获取内容。

方式一：克隆仓库（推荐）

git clone https://github.com/xiaqunfeng/machine-learning-yearning.git
cd machine-learning-yearning

方式二：在线阅读（免安装）

直接访问 GitBooks 在线中文版，无需本地部署： https://xiaqunfeng.gitbooks.io/machine-learning-yearning/content/

方式三：下载英文原版草案

如需查阅英文原文 PDF，进入项目根目录下的 draft 文件夹，根据章节范围下载对应文件，例如：

# 示例：查看第 1-14 章英文原稿
open draft/Ng_MLY01-01-14.pdf  # macOS
# 或在文件管理器中直接双击打开

基本使用

1. 阅读中文译本

克隆仓库后，主要翻译内容通常位于 content 或根目录的 Markdown 文件中。使用任意文本编辑器或 Markdown 阅读器打开即可。

最简单示例： 使用 VS Code 打开项目并预览：

code .

在 VS Code 中安装 "Markdown Preview Enhanced" 插件，右键点击 .md 文件选择 "Open Preview" 即可舒适阅读。

2. 查阅特定主题

本书共 58 章，分为 10 个核心部分。建议按以下顺序阅读以建立系统性认知：

Setting up development and test sets (设置开发与测试集)
Basic Error Analysis (基本错误分析)
Bias and Variance (偏差与方差)
Learning curves (学习曲线)
Comparing to human-level performance (与人类水平表现对比)
Training and testing on different distributions (不同分布下的训练与测试)
Debugging inference algorithms (调试推理算法)
End-to-end deep learning (端到端深度学习)
Error analysis by parts (分步错误分析)
Conclusion (结论)

3. 对照英文原文

在阅读中文译文遇到疑惑时，可对照 draft 目录下的英文 PDF 原文进行确认，确保理解准确。

提示：本书侧重于“如何做决策”而非具体的代码实现，建议在阅读过程中结合自己手头的机器学习项目进行思考和应用。

相似工具推荐

ML-For-Beginners

ML-For-Beginners 是由微软推出的一套系统化机器学习入门课程，旨在帮助零基础用户轻松掌握经典机器学习知识。这套课程将学习路径规划为 12 周，包含 26 节精炼课程和 52 道配套测验，内容涵盖从基础概念到实际应用的完整流程，有效解决了初学者面对庞大知识体系时无从下手、缺乏结构化指导的痛点。无论是希望转型的开发者、需要补充算法背景的研究人员，还是对人工智能充满好奇的普通爱好者，都能从中受益。课程不仅提供了清晰的理论讲解，还强调动手实践，让用户在循序渐进中建立扎实的技能基础。其独特的亮点在于强大的多语言支持，通过自动化机制提供了包括简体中文在内的 50 多种语言版本，极大地降低了全球不同背景用户的学习门槛。此外，项目采用开源协作模式，社区活跃且内容持续更新，确保学习者能获取前沿且准确的技术资讯。如果你正寻找一条清晰、友好且专业的机器学习入门之路，ML-For-Beginners 将是理想的起点。

★ 85k|★★☆☆☆|今天

图像数据工具视频

ragflow

RAGFlow 是一款领先的开源检索增强生成（RAG）引擎，旨在为大语言模型构建更精准、可靠的上下文层。它巧妙地将前沿的 RAG 技术与智能体（Agent）能力相结合，不仅支持从各类文档中高效提取知识，还能让模型基于这些知识进行逻辑推理和任务执行。在大模型应用中，幻觉问题和知识滞后是常见痛点。RAGFlow 通过深度解析复杂文档结构（如表格、图表及混合排版），显著提升了信息检索的准确度，从而有效减少模型“胡编乱造”的现象，确保回答既有据可依又具备时效性。其内置的智能体机制更进一步，使系统不仅能回答问题，还能自主规划步骤解决复杂问题。这款工具特别适合开发者、企业技术团队以及 AI 研究人员使用。无论是希望快速搭建私有知识库问答系统，还是致力于探索大模型在垂直领域落地的创新者，都能从中受益。RAGFlow 提供了可视化的工作流编排界面和灵活的 API 接口，既降低了非算法背景用户的上手门槛，也满足了专业开发者对系统深度定制的需求。作为基于 Apache 2.0 协议开源的项目，它正成为连接通用大模型与行业专有知识之间的重要桥梁。

★ 77.1k|★★★☆☆|2天前

Agent图像开发框架

PaddleOCR

PaddleOCR 是一款基于百度飞桨框架开发的高性能开源光学字符识别工具包。它的核心能力是将图片、PDF 等文档中的文字提取出来，转换成计算机可读取的结构化数据，让机器真正“看懂”图文内容。面对海量纸质或电子文档，PaddleOCR 解决了人工录入效率低、数字化成本高的问题。尤其在人工智能领域，它扮演着连接图像与大型语言模型（LLM）的桥梁角色，能将视觉信息直接转化为文本输入，助力智能问答、文档分析等应用场景落地。 PaddleOCR 适合开发者、算法研究人员以及有文档自动化需求的普通用户。其技术优势十分明显：不仅支持全球 100 多种语言的识别，还能在 Windows、Linux、macOS 等多个系统上运行，并灵活适配 CPU、GPU、NPU 等各类硬件。作为一个轻量级且社区活跃的开源项目，PaddleOCR 既能满足快速集成的需求，也能支撑前沿的视觉语言研究，是处理文字识别任务的理想选择。

★ 74.9k|★★★☆☆|今天

语言模型图像开发框架

awesome-machine-learning

awesome-machine-learning 是一份精心整理的机器学习资源清单，汇集了全球优秀的机器学习框架、库和软件工具。面对机器学习领域技术迭代快、资源分散且难以甄选的痛点，这份清单按编程语言（如 Python、C++、Go 等）和应用场景（如计算机视觉、自然语言处理、深度学习等）进行了系统化分类，帮助使用者快速定位高质量项目。它特别适合开发者、数据科学家及研究人员使用。无论是初学者寻找入门库，还是资深工程师对比不同语言的技术选型，都能从中获得极具价值的参考。此外，清单还延伸提供了免费书籍、在线课程、行业会议、技术博客及线下聚会等丰富资源，构建了从学习到实践的全链路支持体系。其独特亮点在于严格的维护标准：明确标记已停止维护或长期未更新的项目，确保推荐内容的时效性与可靠性。作为机器学习领域的“导航图”，awesome-machine-learning 以开源协作的方式持续更新，旨在降低技术探索门槛，让每一位从业者都能高效地站在巨人的肩膀上创新。

★ 72.1k|★☆☆☆☆|2天前

开发框架其他

scikit-learn

scikit-learn 是一个基于 Python 构建的开源机器学习库，依托于 SciPy、NumPy 等科学计算生态，旨在让机器学习变得简单高效。它提供了一套统一且简洁的接口，涵盖了从数据预处理、特征工程到模型训练、评估及选择的全流程工具，内置了包括线性回归、支持向量机、随机森林、聚类等在内的丰富经典算法。对于希望快速验证想法或构建原型的数据科学家、研究人员以及 Python 开发者而言，scikit-learn 是不可或缺的基础设施。它有效解决了机器学习入门门槛高、算法实现复杂以及不同模型间调用方式不统一的痛点，让用户无需重复造轮子，只需几行代码即可调用成熟的算法解决分类、回归、聚类等实际问题。其核心技术亮点在于高度一致的 API 设计风格，所有估算器（Estimator）均遵循相同的调用逻辑，极大地降低了学习成本并提升了代码的可读性与可维护性。此外，它还提供了强大的模型选择与评估工具，如交叉验证和网格搜索，帮助用户系统地优化模型性能。作为一个由全球志愿者共同维护的成熟项目，scikit-learn 以其稳定性、详尽的文档和活跃的社区支持，成为连接理论学习与工业级应用的最

★ 65.6k|★☆☆☆☆|今天

开发框架其他数据工具

keras

Keras 是一个专为人类设计的深度学习框架，旨在让构建和训练神经网络变得简单直观。它解决了开发者在不同深度学习后端之间切换困难、模型开发效率低以及难以兼顾调试便捷性与运行性能的痛点。无论是刚入门的学生、专注算法的研究人员，还是需要快速落地产品的工程师，都能通过 Keras 轻松上手。它支持计算机视觉、自然语言处理、音频分析及时间序列预测等多种任务。 Keras 3 的核心亮点在于其独特的“多后端”架构。用户只需编写一套代码，即可灵活选择 TensorFlow、JAX、PyTorch 或 OpenVINO 作为底层运行引擎。这一特性不仅保留了 Keras 一贯的高层易用性，还允许开发者根据需求自由选择：利用 JAX 或 PyTorch 的即时执行模式进行高效调试，或切换至速度最快的后端以获得最高 350% 的性能提升。此外，Keras 具备强大的扩展能力，能无缝从本地笔记本电脑扩展至大规模 GPU 或 TPU 集群，是连接原型开发与生产部署的理想桥梁。

★ 63.9k|★★☆☆☆|昨天

开发框架数据工具其他