data-science-question-answer

2.4k 648 非常简单 1 次阅读 6天前MIT数据工具开发框架其他

AI 解读由 AI 自动生成，仅供参考

data-science-question-answer 是一个专注于数据科学领域的问答知识库，旨在为从业者提供面试准备指南，并帮助初学者快速掌握核心概念。它主要解决了学习者在面对海量理论知识时难以抓住重点、缺乏系统性复习材料以及面试前不知如何高效梳理知识广度的痛点。

这份资源特别适合即将参加数据科学或机器学习岗位面试的开发者、希望转行进入该领域的新人，以及需要快速回顾基础概念的从业人员。需要注意的是，官方已标记此仓库为“弃用”状态，并引导用户关注其最新的进阶项目，但其中涵盖的基础分类依然具有参考价值。

其独特亮点在于强调“知识广度”而非深度钻研，定位为速查手册而非深层教材。内容覆盖简历优化技巧（如如何量化项目成果）、SQL 连接操作详解、主流框架（如 Spark）速览，以及统计学与机器学习核心议题（如交叉验证、正则化、偏差方差权衡等）。此外，它倡导社区共建模式，鼓励用户通过提交 Pull Request 共同完善内容，体现了开源协作的精神。对于想要快速构建数据科学知识体系的用户来说，这是一份实用且友好的入门指引。

使用场景

一位刚转行数据科学的求职者正在紧急备战下周的技术面试，同时需要优化简历以突出项目亮点。

没有 data-science-question-answer 时

简历描述空洞，只写“训练过机器学习系统”，缺乏量化指标和技术栈细节，难以吸引面试官注意。
面对"SQL 连接类型区别”或"L1 与 L2 正则化差异”等基础概念题，需翻阅多本厚书或搜索零散博客，复习效率极低。
对 Spark 等框架仅停留在理论层面，缺乏快速查阅的速查表（Cheat Sheet），无法在短时间内梳理 API 核心用法。
缺乏系统性的知识广度梳理，容易在“生成式与判别式模型”等宏观对比问题上逻辑混乱，回答不够专业。

使用 data-science-question-answer 后

参考简历章节，将项目经历改写为“使用 Keras 和 Tensorflow 部署深度学习模型，推理速度提升 5 倍”，具体量化成果并明确技术栈。
直接查阅 SQL 和统计学章节，快速获取内连接与外连接的清晰定义及图示，几分钟内掌握面试高频考点。
利用工具提供的 PySpark 速查表和官方文档指引，迅速重温关键 API，建立起从理论到代码的快速映射。
通过浏览监督学习、无监督学习等分类目录，构建完整的知识图谱，确保在回答宏观概念对比时条理清晰、覆盖全面。

data-science-question-answer 通过提供结构化的速查指南和实战建议，帮助从业者高效填补知识盲区并显著提升面试竞争力。

运行环境要求

GPU

未说明

内存

未说明

依赖

notes该仓库已废弃（deprecated），作者建议转向新的项目 'Nailing Machine Learning Concepts'。当前内容主要为数据科学面试准备的概念性问答和快速参考指南（涵盖 SQL、统计学、机器学习理论等），并非可运行的软件工具或代码库，因此无需特定的操作系统、GPU、内存或依赖库环境。

python未说明

快速开始

此仓库已弃用，请查看最新的 Nailing Machine Learning Concepts

本仓库的目的有两个：

帮助数据科学从业者准备相关面试
向不了解但希望学习数据科学基础知识的人介绍一些基本概念

重点在于知识的广度，因此这更像是一份快速参考手册，而非深入的学习资料。如果你希望详细学习某个特定主题，请参考其他资源，或者联系我，我很乐意为你推荐我曾觉得有用的材料。

我可能会不时添加一些新内容，不过这也应该是一项社区共同参与的工作，对吧？欢迎任何 Pull Request！

以下是分类目录：

简历
SQL
工具与框架
统计学与机器学习概论
监督学习
无监督学习
强化学习
自然语言处理
系统

简历

关于简历，我能给出的唯一建议就是以具体、可量化的方式描述你过去的数据科学/机器学习项目。请对比以下两种表述：

训练了一个机器学习系统

和

使用 Keras、TensorFlow 和 Node.js 设计并部署了一套深度学习模型来识别物体。该模型的参数量仅为传统神经网络（如 ResNet）的 1/30，训练时间缩短至 1/3，推理速度提升至 5 倍，且收敛速度提高了 2 倍。

第二种表述要好得多，因为它量化了你的贡献，并突出了你所使用的技术（从而表明你的专业能力）。这就要求你在实验过程中记录下自己所做的工作。不过也不要夸大其词。

花些时间仔细检查你的简历或过往项目，确保能够清晰地解释它们。

SQL

JOIN 的区别

JOIN 的区别

(INNER) JOIN：返回两个表中匹配值的记录
LEFT (OUTER) JOIN：返回左表中的所有记录，以及右表中匹配的记录
RIGHT (OUTER) JOIN：返回右表中的所有记录，以及左表中匹配的记录
FULL (OUTER) JOIN：当左表或右表中有匹配时，返回所有记录

返回顶部

工具与框架

这里的资源仅用于帮助你复习相关主题，而不是让你成为专家。

Spark

Spark

使用 PySpark API。

最好的资源当然是 Spark 的官方文档。请仔细阅读相关章节。
如果时间非常紧张，可以快速浏览 Spark 文档，并查阅 PySpark 备忘录，了解基础知识。

返回顶部

项目流程

对于一个数据科学/机器学习项目，我们应该遵循哪些步骤呢？以下是我通常的做法：

明确业务目标。 我们的目标是吸引更多客户、提高满意度，还是增加收入？
定义问题。 在理想状态与现实之间，究竟存在怎样的差距需要通过机器学习来弥补？提出那些能够利用现有数据和预测建模（机器学习算法）来解决的问题。
建立常识基线。 在求助于机器学习之前，先尝试在完全不懂数据科学的情况下解决问题，看看效果如何。你可能会惊讶地发现，这种基线方法往往非常有效，比如推荐最受欢迎的前 N 个商品，或者基于规则的逻辑。这个基线也可以作为评估机器学习模型性能的良好基准。
回顾机器学习文献。 避免重复造轮子，并从中获得灵感，了解哪些技术或算法适合用我们的数据来解决当前问题。
设定单一指标。 成功意味着什么——高准确率、低误差，还是更高的 AUC——又该如何衡量？这个指标必须与高层目标保持一致，通常是与业务成功相关的指标。设定一个统一的数值指标，用来评估所有模型的表现。
进行探索性数据分析 (EDA)。 通过玩转数据，大致了解数据类型、分布、变量之间的相关性、分面等信息。这一步通常涉及大量的可视化操作。
划分数据集。 验证集应足够大，以便检测不同模型之间的差异；测试集也应足够大，以反映最终模型的整体性能；而训练集，则自然是越大越好。
数据预处理。 包括数据集成、清洗、转换、降维、离散化等操作。
特征工程。 构建特征是一项困难且耗时的工作，需要丰富的专业知识。实际上，应用机器学习的核心就是特征工程。这一步通常涉及特征选择和构造，需要结合领域知识。对于深度学习项目，特征工程可能相对简单。
开发模型。 选择合适的算法、调整超参数、设计网络架构等。
集成模型。 集成通常可以提升性能，但这取决于各个模型或特征之间的相关性。因此，尝试集成总是值得的。不过也要做好心理准备，因为有些集成方案过于复杂或运行缓慢，难以投入生产。
部署模型。 将模型部署到生产环境中进行推理。
监控模型。 监控模型的表现，并收集反馈。
迭代。 重复上述步骤。数据科学往往是一个迭代的过程，随着时间推移会不断开发出新的、更优秀的模型。

返回顶部

交叉验证

交叉验证是一种评估预测模型的技术，它将原始样本划分为训练集和验证集，其中训练集用于训练模型，验证集用于评估模型。例如，k折交叉验证会将数据分成k个折叠（或分区），每次使用k-1个折叠进行训练，并在剩下的1个折叠上进行评估。这样可以得到k个模型/评估结果，然后对这些结果取平均，从而获得模型的整体性能。

返回顶部

特征重要性

在线性模型中，特征重要性可以通过系数的大小来计算。
在基于树的方法中（如随机森林），重要的特征通常会出现在树的更靠近根节点的位置。对于随机森林，我们可以通过计算该特征在森林中所有树上的平均出现深度来衡量其重要性。

返回顶部

均方误差与平均绝对误差

相似性：两者都用于衡量模型预测误差的平均值；取值范围从0到无穷大；数值越小越好。
均方误差（MSE）对较大的误差赋予更高的权重（例如，误差为10比误差为5糟糕两倍以上），而平均绝对误差（MAE）则对所有误差赋予相同的权重（误差为10只是误差为5的两倍糟糕）。
均方误差是连续可导的，而平均绝对误差则不是（当预测值等于真实值时）。

返回顶部

L1正则化与L2正则化

相似性：L1和L2正则化都通过收缩（施加惩罚）系数来防止过拟合。
差异：L2（岭回归）会按相同比例缩小所有系数，但不会将任何系数置零；而L1（套索回归）可以将部分系数缩小到零，从而实现变量选择。
如何选择：如果所有特征都与标签相关，岭回归的表现优于套索回归，因为岭回归中的系数永远不会为零。如果只有部分特征与标签相关，则套索回归的表现更好，因为它可以将某些系数缩小到零。
图(a)中的黑色正方形代表L1正则化的可行域，而图(b)则代表L2正则化的可行域。图中的等高线表示不同的损失值（针对无约束的回归模型）。由于图(a)的形状更加棱角分明，因此使损失最小化的可行点更可能出现在图(a)的坐标上，而不是图(b)上。当系数数量增加时，这种效应会更加明显，例如从2个增加到200个。这意味着L1正则化会产生稀疏估计，即在高维空间中，大多数系数为零，只有少数非零系数。

返回顶部

增加数据是否能解决欠拟合问题？

欠拟合是指模型不够复杂，无法很好地从数据中学习的情况。这主要是模型本身的问题，而非数据量不足所致。因此，解决欠拟合的一种方法是提高模型的复杂度（例如，为线性模型添加更高次的项，为基于树的方法增加深度，为神经网络增加层数或神经元数量等）。

返回顶部

激活函数

对于神经网络：

非线性：常使用ReLU。为了解决ReLU“死亡”问题，可以使用Leaky ReLU（对负输入赋予一个小的正梯度，例如当x < 0时，y = 0.01x）。
多分类：softmax。
二分类：sigmoid。
回归：线性。

返回顶部

装袋法

为了应对过拟合问题，我们可以使用一种称为装袋法（Bootstrap Aggregating）的集成方法，它可以降低元学习算法的方差。装袋法可以应用于决策树或其他算法。

这里有一个很好的示例展示了单个估计器与装袋法的区别：链接。

装袋法是在有放回的情况下进行抽样。如果没有放回地进行抽样，则称为粘贴法。
装袋法之所以受欢迎，不仅因为它能够提升模型性能，还因为各个基学习器可以并行训练且具有良好的可扩展性。
集成方法的效果最好是在各个基学习器尽可能相互独立的情况下。
投票方式：软投票（预测概率并取所有基学习器的平均值）通常比硬投票效果更好。
装袋法中未被选中的样本可以用作验证集。

返回顶部

堆叠法

不再使用简单的聚合方法（如硬投票）来综合各个基学习器的预测结果，而是训练一个模型来进行这种聚合。
首先将训练集分成两个子集：第一个子集用于训练第一层的基学习器。
然后利用第一层的基学习器对第二个子集进行预测（生成元特征），并将这些预测结果用于训练第二层的其他模型（以确定不同基学习器的权重）。
我们可以在第二层训练多个模型，但这需要将原始数据集进一步分成三份。

堆叠法

返回顶部

生成式与判别式

判别式算法建模的是 p(y|x; w)，即在给定数据集和学习到的参数的情况下，y 属于某一特定类别的概率。判别式算法并不关心数据是如何生成的，它只是简单地对给定的样本进行分类。
生成式算法则试图建模 p(x|y)，即在已知样本属于某一类别时，特征的分布情况。生成式算法是对数据生成过程的建模。

给定一个训练集，像逻辑回归或感知机这样的算法（基本上）会尝试找到一条直线——也就是决策边界——来将大象和狗分开。然后，为了将一个新的动物分类为大象或狗，它会检查该动物落在决策边界的哪一侧，并据此做出预测。

这里还有另一种方法。首先，通过观察大象，我们可以建立一个关于大象外观的模型。接着，通过观察狗，我们也可以建立一个关于狗外观的独立模型。最后，为了对一个新的动物进行分类，我们可以将这个新动物与大象模型进行匹配，同时也与狗模型进行匹配，以判断这个新动物更像我们在训练集中见过的那些大象，还是更像那些狗。

返回顶部

参数化与非参数化

使用一组大小固定（与训练样本数量无关）的参数来总结数据的学习模型称为参数化模型。
在非参数化模型中，参数的数量在训练之前是不确定的。非参数化并不意味着它们没有参数。相反，随着数据量的增加，非参数化模型可能会变得越来越复杂。

返回顶部

监督学习

线性回归
逻辑回归
朴素贝叶斯
K近邻
支持向量机
决策树
随机森林
提升树
多层感知器
卷积神经网络
循环神经网络与LSTM

线性回归

如何学习参数：最小化损失函数。
如何最小化损失函数：梯度下降法。
正则化：
- L1（Lasso）：可以将某些系数缩减至零，从而实现特征选择。
- L2（Ridge）：以相同的比例缩减所有系数；通常性能优于 L1。
- 弹性网络：将 L1 和 L2 正则化相结合。
假设特征与标签之间存在线性关系。
可以添加多项式特征和交互特征以引入非线性。

返回顶部

逻辑回归

用于二分类问题的广义线性模型（GLM）。
将 sigmoid 函数应用于线性模型的输出，使目标值被压缩到 [0, 1] 范围内。
预测时的阈值：通常如果输出 > 0.5，则预测为 1；否则预测为 0。
它是 softmax 函数的一个特例，后者用于处理多分类问题。

返回顶部

朴素贝叶斯

朴素贝叶斯（NB）是一种基于贝叶斯定理的监督学习算法。
称之为“朴素”，是因为它假设每个特征之间相互独立。
NB 可以做出不同的假设（即数据分布，如高斯分布、多项式分布、伯努利分布等）。
尽管假设过于简化，朴素贝叶斯分类器在实际应用中表现相当不错，尤其是在文本分类领域（例如垃圾邮件过滤）。
与更复杂的方法相比，朴素贝叶斯的速度非常快。

返回顶部

K近邻

给定一个数据点，我们使用某种距离度量（如欧几里得距离）计算出其 K 个最近的数据点（邻居）。对于分类任务，我们取邻居中多数的标签；对于回归任务，我们取标签值的平均值。
需要注意的是，KNN 并不训练模型，而是在推理时直接进行计算。这可能会导致较高的计算开销，因为每个测试样本都需要与每一个训练样本进行比较，以确定它们之间的距离。
有一些近似方法可以通过将训练数据划分为多个区域来加快推理速度（例如 annoy）。
当 K 等于 1 或其他较小的数值时，模型容易过拟合（方差较大）；而当 K 等于数据点总数或其他较大的数值时，模型则容易欠拟合（偏差较大）。

KNN

返回顶部

支持向量机

可以执行线性分类、非线性分类，或异常值检测（无监督）。
大间隔分类器：使用 SVM 不仅可以得到决策边界，还可以使该边界尽可能远离最近的训练点。
最接近的训练样本被称为支持向量，因为决策边界的绘制正是基于这些点。
SVM 对特征缩放较为敏感。

svm

返回顶部

决策树

非参数、监督学习算法
给定训练数据后，决策树算法会将特征空间划分为若干区域。在推理时，我们首先确定测试数据点落在哪个区域，然后取该区域的平均标签值（回归）或多数标签值（分类）。
构建：自顶向下，选择一个变量来分割数据，使得每个区域内的目标变量尽可能同质化。常用的两种指标是基尼不纯度或信息增益，但在实际应用中差异不大。
优点：易于理解和解释，贴近人类的决策过程。
缺点：
- 如果不限制树的深度，容易过拟合（泛化能力差）。
- 不够稳健：训练数据的微小变化可能导致完全不同的树结构。
- 不稳定性：由于其正交的决策边界，对训练集的旋转较为敏感。

决策树

返回顶部

随机森林

随机森林通过引入随机性进一步改进了袋装法。在随机森林中，每次构建树时只随机选择一部分特征（而通常不会对样本进行子采样）。这样做的好处是使各棵树之间 去相关化。

例如，假设我们有一个数据集，其中有一个非常有预测性的特征，以及几个中等预测性的特征。在袋装树中，大多数树会在根节点使用这个非常有预测性的特征进行分裂，因此这些树看起来非常相似，并且高度相关。然而，对大量高度相关的结果取平均，并不能像对不相关的结果那样显著降低方差。

而在随机森林中，每次分裂时只考虑部分特征，从而通过引入更多不相关的树来进一步降低方差。

我编写了一个笔记本来说明这一点。

在实践中，调参随机森林时需要设置较大的树数量（越多越好，但也要考虑计算资源的限制）。此外，还需要调整 min_samples_leaf 参数（叶节点上的最小样本数），以控制树的大小和过拟合问题。始终要对参数进行交叉验证。

返回顶部

提升树

工作原理

提升方法基于弱学习器，采用迭代的方式构建模型。在每一轮迭代中，都会添加一个新的弱学习器，而现有的所有弱学习器保持不变。每个弱学习器会根据其表现（如准确率）被赋予相应的权重。当新弱学习器加入后，数据会被重新加权：那些被错误分类的样本权重会增加，而正确分类的样本权重会减少。这样一来，后续的弱学习器会更加关注之前弱学习器未能正确分类的样本。

与随机森林的区别

随机森林是并行构建树，而提升树是串行的。
随机森林主要降低方差，而提升树则通过减少偏差来降低误差。

XGBoost（极端梯度提升）

XGBoost 使用了更正则化的模型形式来控制过拟合，因此性能更好。

返回顶部

多层感知机（MLP）

一种多层前馈神经网络。每一层可以包含多个神经元，下一层的每个神经元都是上一层所有神经元的线性或非线性组合。为了训练网络，我们采用逐层反向传播误差的方法。理论上，MLP 可以逼近任意函数。

mlp

返回顶部

卷积神经网络（CNN）

卷积层是卷积神经网络的基本构成单元。卷积层由一组可学习的滤波器组成（例如 5×5×3，宽度×高度×深度）。在前向传播过程中，我们会将滤波器在整个输入上滑动（更准确地说，进行卷积运算），并计算点积。网络通过逐层反向传播误差来完成学习。

早期的卷积层主要捕捉低层次特征，如角度和边缘；而随着层数的增加，它们会学习到更高层次的特征，比如形状和物体的部分结构。

CNN

返回顶部

循环神经网络（RNN）与长短期记忆网络（LSTM）

RNN 是另一种神经网络范式，它由多层细胞组成，每一层的细胞不仅接收来自上一层的输入，还会接收本层之前的细胞状态作为输入。这使得 RNN 具备建模序列的能力。

RNN

听起来很棒，但实际上 RNN 往往难以有效工作，因为存在梯度爆炸或梯度消失的问题，这是由一系列相同矩阵的乘法造成的。为了解决这个问题，我们可以使用 RNN 的一种变体——长短期记忆网络（LSTM），它能够学习长期依赖关系。

LSTM 的数学原理可能比较复杂，但从直观上看，LSTM 引入了以下机制：

输入门
输出门
忘记门
记忆细胞（内部状态）

LSTM 类似于人类的记忆：它会忘记旧的信息（旧的内部状态乘以忘记门），同时从新的输入中学习（输入节点乘以输入门）。

lstm

返回顶部

无监督学习

聚类
主成分分析
自编码器
生成对抗网络

聚类

聚类是一种无监督学习算法，它将数据分组，使得同一组内的数据点彼此相似度高于与其他组数据点的相似度。
相似度通常通过距离度量来定义（如欧氏距离、余弦相似度、Jaccard 系数等）。
其目标通常是发现数据中的潜在结构（通常是高维数据）。
最常见的聚类算法是 K-means，用户需要指定聚类的数量 K，算法会迭代地为每个数据点分配所属的聚类。

scikit-learn 实现了多种聚类算法。以下是其官网页面上的一张对比图。

clustering

返回顶部

主成分分析

主成分分析（PCA）是一种降维技术，它将数据投影到低维空间。
PCA 使用奇异值分解（SVD），这是一种矩阵分解方法，可以将一个矩阵分解为三个较小的矩阵（关于 SVD 的更多详细信息请参见这里）。
PCA 会找到前 N 个主成分，这些主成分是数据变化（分散）最大的方向。直观地说，数据在某个特定维度上越分散，所包含的信息就越多，因此这个维度对于数据集的模式识别就越重要。
PCA 可以用作数据可视化的预处理步骤：将高维数据降维到 2D 或 3D。另一种降维技术是 t-SNE。

以下是 PCA 的可视化解释：

pca

返回顶部

自编码器

自编码器的目标是为一组数据学习一种表示（编码）。
自编码器通常由两部分组成：编码器和解码器。编码器会找到原始输入的低维表示（潜在变量），而解码器则用于从这个低维向量中重建原始数据，使得重建数据与原始数据之间的距离最小化。
可用于数据去噪和降维。

生成对抗网络

生成对抗网络（GAN）是一种无监督学习算法，同时也带有监督学习的特性：在训练过程中会使用监督损失。
GAN 通常有两个主要组成部分：生成器和判别器。生成器试图生成“假”数据（例如图像或句子），以欺骗判别器使其认为这些数据是真实的；而判别器则试图区分真实数据和生成的数据。两者之间是一种对抗关系，因此得名“对抗”，这种对抗促使双方不断改进，直到“假”数据与真实数据无法区分。
直观的工作原理：
- 生成器接收一个随机输入，并生成一个数据样本。
- 判别器随后会接收到生成的样本或真实的数据样本，尝试预测输入是真实数据还是生成的数据（即解决一个二分类问题）。
- 在 [0, 1] 的真值评分范围内，理想情况下，我们希望判别器对生成的数据给出较低的分数，而对真实数据给出较高的分数。另一方面，我们也希望生成的数据能够成功欺骗判别器。这种矛盾推动双方不断强化自身。
从训练的角度来看，工作原理如下：
- 如果没有经过训练，生成器只会生成“垃圾”数据，而判别器则过于“天真”，无法区分真假数据。
- 通常我们会先用真实数据（标签为 1）和生成数据（标签为 0）对判别器进行 N 个 epoch 的训练，使其能够较好地判断什么是真实数据，什么是生成数据。
- 然后我们将判别器设置为不可训练，并开始训练生成器。尽管此时判别器处于不可训练状态，我们仍然将其作为分类器来使用，这样误差信号就可以反向传播，从而使生成器得以学习。
- 上述两个步骤会交替进行，直到双方都无法再进一步提升。
以下是一些使 GAN 能够有效工作的技巧和窍门。
需要注意的一点是，对抗部分只是辅助性的：使用 GAN 的最终目标是生成连专家都难以分辨真假的数据。

gan

返回顶部

强化学习

[待办]

自然语言处理

分词
词干提取和词形还原
N 元语法
词袋模型
word2vec

分词

分词是将字符序列转换为标记序列的过程。
举个例子：The quick brown fox jumped over the lazy dog。在这种情况下，每个单词（由空格分隔）就是一个标记。
有时分词并没有明确的答案。例如，O'Neill 可以被分词为 o 和 neill、oneill 或 o'neill。
在某些情况下，分词需要特定于语言的知识。例如，将 aren't 分词为 aren 和 t 就没有意义。
如需更详细的分词介绍，请参阅这里。

返回顶部

词干提取和词形还原

词干提取和词形还原的目的都是将一个词的不同屈折形式以及有时相关的派生形式归约为一个共同的基础形式。
词干提取通常指一种粗略的启发式过程，通过截断词尾来简化词形。
词形还原通常是指利用词汇表和词的形态学分析来进行更规范的操作。
如果面对标记 saw，词干提取可能会直接返回 s，而词形还原则会根据该标记是用作动词还是名词，尝试返回 see 或 saw。
如需更详细的介绍，请参阅这里。

返回顶部

N 元语法

n 元语法是从给定文本或语音样本中连续选取的 n 个元素组成的序列。
大小为 1 的 n 元语法称为“一元语法”；大小为 2 的称为“二元语法”，大小为 3 的称为“三元语法”。更大的 n 值有时会用现代语言中的数字来表示，例如“四元语法”、“五元语法”等。
举个例子：The quick brown fox jumped over the lazy dog.
- 二元语法将是 the quick、quick brown、brown fox……，即每两个连续的单词（或标记）。
- 三元语法将是 the quick brown、quick brown fox、brown fox jumped……，即每三个连续的单词（或标记）。
n 元语法模型是对序列的建模，即根据前面的 1、2、3……n-1 个词来预测下一个词（第 n 个词）。
多元语法（二元及以上）能够捕捉上下文。
选择 n 元语法中的 n 值需要通过实验，在估计的稳定性与适用性之间做出权衡。经验法则：对于大型训练语料库（数百万词），三元语法是一个常见的选择；而对于较小的语料库，则常使用二元语法。
n 元语法可以用作机器学习和下游自然语言处理任务的特征。

返回顶部

词袋模型

为什么？机器学习模型无法直接处理原始文本；它们需要以数值作为输入。
词袋模型（BoW）会构建一个包含数据集中所有唯一词汇的词汇表，并为词汇表中的每个词分配一个唯一的索引。
它被称为“词袋”，是因为这种表示方法完全忽略了单词的顺序。
举个例子：有两句话：(1) John likes to watch movies, especially horor movies.，(2) Mary likes movies too.。首先我们会构建一个不区分大小写且忽略标点符号的唯一词汇表：[john, likes, to, watch, movies, especially, horor, mary, too]。然后可以用词频来表示每句话，即某个词出现的次数。因此，句子 (1) 可表示为 [1, 1, 1, 1, 2, 1, 1, 0, 0]，而句子 (2) 则是 [0, 1, 0, 0, 1, 0, 0, 1, 1]。
使用字典的一种常见替代方案是哈希技巧，它通过哈希函数将单词直接映射到索引。
随着词汇表规模的增大（达到数万级别），用于表示短句或文档的向量会变得非常稀疏（几乎全是零）。

返回顶部

word2vec

是一种浅层的两层神经网络，经过训练可以捕捉词语的语言学上下文。
输入是一个大型语料库，输出是一个通常由几百维组成的向量空间，语料库中的每个词都会被映射到这个空间中的一个向量。
其核心思想是上下文：经常出现在相同上下文中的词，其含义应该相近或相反。
主要有两种形式：
- 连续词袋模型（CBOW）：根据当前词周围的上下文窗口预测当前词。
- 跳字模型（Skip-Gram）：根据当前词预测周围的上下文词。

返回顶部

系统

Cron 作业
Linux

Cron 作业

软件工具 cron 是类 Unix 操作系统中的一种基于时间的任务调度器。负责搭建和维护软件环境的人员使用 cron 来安排任务（命令或 Shell 脚本）在固定的时间、日期或间隔周期性地运行。它通常用于自动化系统维护或管理——尽管其通用性也使其适用于诸如定期从互联网下载文件或定时收发电子邮件等任务。

工具：

Apache Airflow

返回顶部

Linux

以 Ubuntu 为例。

切换到 root 用户：sudo su
安装软件包：sudo apt-get install <package>

返回顶部

忏悔：部分图片来自网络，未注明原作者。如果您是这些图片的作者，并认为这会对您造成困扰，请告知我。

data-science-question-answer 快速上手指南

⚠️ 重要提示：本仓库（data-science-question-answer）已弃用。作者建议转向最新的替代项目：Nailing Machine Learning Concepts。

本指南基于原仓库内容整理，旨在帮助数据科学从业者准备面试或快速复习核心概念。本项目主要为知识库/文档类资源，无需复杂的环境配置或安装过程。

环境准备

本项目本质是一个包含面试题解、概念解析和最佳实践的 Markdown 文档集合，因此对系统环境要求极低。

操作系统：Windows, macOS, Linux 均可。
前置依赖：
- Git：用于克隆代码仓库。
- 浏览器 或 Markdown 阅读器：用于查看内容（如 VS Code, Typora, 或直接在 GitHub 网页端浏览）。
- (可选) Python & Jupyter：如果你希望运行文中提到的部分代码示例（如 PySpark, Scikit-learn 相关），建议安装 Anaconda 或 Miniconda。

安装步骤

由于这是一个文档型仓库，"安装"即为克隆代码到本地。

克隆仓库 打开终端（Terminal 或 CMD），执行以下命令：

git clone https://github.com/jayinai/data-science-question-answer.git

国内用户加速方案（如果直接克隆速度慢）：

# 使用 Gitee 镜像（如果有）或通过代理加速
git clone https://gitee.com/mirror/data-science-question-answer.git 
# 注：若官方无 Gitee 镜像，建议使用 git clone --depth=1 来减少下载量
git clone --depth=1 https://github.com/jayinai/data-science-question-answer.git

进入目录
```
cd data-science-question-answer
```
查看内容
- 方式 A（推荐）：直接在 GitHub 网页版浏览，体验最佳（含目录跳转和图片渲染）。
- 方式 B：在本地使用 VS Code 打开文件夹，安装 Markdown Preview Enhanced 插件进行预览。
- 方式 C：直接使用文本编辑器打开 README.md 文件。

基本使用

本工具的核心用法是按需查阅特定主题的知识要点。以下是几个典型的使用场景示例：

1. 准备简历优化

在 Resume 章节，学习如何将项目经历量化。

错误示范：Trained a machine learning system
正确示范：Designed and deployed a deep learning model to recognize objects using Keras, Tensorflow, and Node.js. The model has 1/30 model size, 1/3 training time, 1/5 inference time, and 2x faster convergence compared with traditional neural networks.
操作：阅读文档中关于简历的建议，检查并修改你自己的简历描述。

2. 复习 SQL 连接区别

在 SQL 章节快速回顾 Join 的类型。

操作：搜索 Difference between joins。
核心知识点：
- INNER JOIN: 返回两表匹配的记录。
- LEFT JOIN: 返回左表所有记录及右表匹配记录。
- RIGHT JOIN: 返回右表所有记录及左表匹配记录。
- FULL JOIN: 返回任一表有匹配的所有记录。

3. 理解机器学习工作流

在 Statistics and ML In General -> Project Workflow 章节，掌握标准的数据科学项目流程。

关键步骤速查：
1. Specify business objective: 明确业务目标（如增加营收）。
2. Define problem: 定义具体问题。
3. Create a common sense baseline: 建立常识基线（如推荐 Top N 热门商品）。
4. EDA: 探索性数据分析。
5. Feature Engineering: 特征工程（核心环节）。
6. Model Development & Ensemble: 模型开发与集成。
7. Deploy & Monitor: 部署与监控。

4. 辨析核心概念 (面试高频)

利用文档快速对比易混淆概念，例如：

L1 vs L2 正则化：
- L1 (Lasso): 可将系数压缩为 0，用于特征选择，产生稀疏解。
- L2 (Ridge): 按比例缩小系数但不为 0，防止过拟合。
MSE vs MAE：
- MSE: 对大误差惩罚更重（平方级），连续可导。
- MAE: 对误差线性惩罚，鲁棒性更强但不可导点较多。
欠拟合对策：
- 增加数据量不能解决欠拟合。
- 解决方法：增加模型复杂度（如增加树深度、神经网络层数、多项式特征等）。

5. 查阅 Spark 速查表

在 Tools and Framework -> Spark 章节。

操作：文档提供了 PySpark Cheat Sheet 的链接，适合时间紧迫时快速扫描基础 API。

注：本指南仅涵盖基础查阅流程。如需深入某个具体算法（如 Stacking, Bagging, NLP 等），请直接翻阅仓库对应的 Markdown 章节。

相似工具推荐

openclaw

OpenClaw 是一款专为个人打造的本地化 AI 助手，旨在让你在自己的设备上拥有完全可控的智能伙伴。它打破了传统 AI 助手局限于特定网页或应用的束缚，能够直接接入你日常使用的各类通讯渠道，包括微信、WhatsApp、Telegram、Discord、iMessage 等数十种平台。无论你在哪个聊天软件中发送消息，OpenClaw 都能即时响应，甚至支持在 macOS、iOS 和 Android 设备上进行语音交互，并提供实时的画布渲染功能供你操控。这款工具主要解决了用户对数据隐私、响应速度以及“始终在线”体验的需求。通过将 AI 部署在本地，用户无需依赖云端服务即可享受快速、私密的智能辅助，真正实现了“你的数据，你做主”。其独特的技术亮点在于强大的网关架构，将控制平面与核心助手分离，确保跨平台通信的流畅性与扩展性。 OpenClaw 非常适合希望构建个性化工作流的技术爱好者、开发者，以及注重隐私保护且不愿被单一生态绑定的普通用户。只要具备基础的终端操作能力（支持 macOS、Linux 及 Windows WSL2），即可通过简单的命令行引导完成部署。如果你渴望拥有一个懂你

★ 349.3k|★★★☆☆|1周前

Agent开发框架图像

stable-diffusion-webui

stable-diffusion-webui 是一个基于 Gradio 构建的网页版操作界面，旨在让用户能够轻松地在本地运行和使用强大的 Stable Diffusion 图像生成模型。它解决了原始模型依赖命令行、操作门槛高且功能分散的痛点，将复杂的 AI 绘图流程整合进一个直观易用的图形化平台。无论是希望快速上手的普通创作者、需要精细控制画面细节的设计师，还是想要深入探索模型潜力的开发者与研究人员，都能从中获益。其核心亮点在于极高的功能丰富度：不仅支持文生图、图生图、局部重绘（Inpainting）和外绘（Outpainting）等基础模式，还独创了注意力机制调整、提示词矩阵、负向提示词以及“高清修复”等高级功能。此外，它内置了 GFPGAN 和 CodeFormer 等人脸修复工具，支持多种神经网络放大算法，并允许用户通过插件系统无限扩展能力。即使是显存有限的设备，stable-diffusion-webui 也提供了相应的优化选项，让高质量的 AI 艺术创作变得触手可及。

★ 162.1k|★★★☆☆|1周前

开发框架图像Agent

everything-claude-code

everything-claude-code 是一套专为 AI 编程助手（如 Claude Code、Codex、Cursor 等）打造的高性能优化系统。它不仅仅是一组配置文件，而是一个经过长期实战打磨的完整框架，旨在解决 AI 代理在实际开发中面临的效率低下、记忆丢失、安全隐患及缺乏持续学习能力等核心痛点。通过引入技能模块化、直觉增强、记忆持久化机制以及内置的安全扫描功能，everything-claude-code 能显著提升 AI 在复杂任务中的表现，帮助开发者构建更稳定、更智能的生产级 AI 代理。其独特的“研究优先”开发理念和针对 Token 消耗的优化策略，使得模型响应更快、成本更低，同时有效防御潜在的攻击向量。这套工具特别适合软件开发者、AI 研究人员以及希望深度定制 AI 工作流的技术团队使用。无论您是在构建大型代码库，还是需要 AI 协助进行安全审计与自动化测试，everything-claude-code 都能提供强大的底层支持。作为一个曾荣获 Anthropic 黑客大奖的开源项目，它融合了多语言支持与丰富的实战钩子（hooks），让 AI 真正成长为懂上

★ 154.3k|★★☆☆☆|今天

开发框架Agent语言模型

ComfyUI

ComfyUI 是一款功能强大且高度模块化的视觉 AI 引擎，专为设计和执行复杂的 Stable Diffusion 图像生成流程而打造。它摒弃了传统的代码编写模式，采用直观的节点式流程图界面，让用户通过连接不同的功能模块即可构建个性化的生成管线。这一设计巧妙解决了高级 AI 绘图工作流配置复杂、灵活性不足的痛点。用户无需具备编程背景，也能自由组合模型、调整参数并实时预览效果，轻松实现从基础文生图到多步骤高清修复等各类复杂任务。ComfyUI 拥有极佳的兼容性，不仅支持 Windows、macOS 和 Linux 全平台，还广泛适配 NVIDIA、AMD、Intel 及苹果 Silicon 等多种硬件架构，并率先支持 SDXL、Flux、SD3 等前沿模型。无论是希望深入探索算法潜力的研究人员和开发者，还是追求极致创作自由度的设计师与资深 AI 绘画爱好者，ComfyUI 都能提供强大的支持。其独特的模块化架构允许社区不断扩展新功能，使其成为当前最灵活、生态最丰富的开源扩散模型工具之一，帮助用户将创意高效转化为现实。

★ 108.3k|★★☆☆☆|3天前

开发框架图像Agent

gemini-cli

gemini-cli 是一款由谷歌推出的开源 AI 命令行工具，它将强大的 Gemini 大模型能力直接集成到用户的终端环境中。对于习惯在命令行工作的开发者而言，它提供了一条从输入提示词到获取模型响应的最短路径，无需切换窗口即可享受智能辅助。这款工具主要解决了开发过程中频繁上下文切换的痛点，让用户能在熟悉的终端界面内直接完成代码理解、生成、调试以及自动化运维任务。无论是查询大型代码库、根据草图生成应用，还是执行复杂的 Git 操作，gemini-cli 都能通过自然语言指令高效处理。它特别适合广大软件工程师、DevOps 人员及技术研究人员使用。其核心亮点包括支持高达 100 万 token 的超长上下文窗口，具备出色的逻辑推理能力；内置 Google 搜索、文件操作及 Shell 命令执行等实用工具；更独特的是，它支持 MCP（模型上下文协议），允许用户灵活扩展自定义集成，连接如图像生成等外部能力。此外，个人谷歌账号即可享受免费的额度支持，且项目基于 Apache 2.0 协议完全开源，是提升终端工作效率的理想助手。

★ 100.8k|★★☆☆☆|4天前

插件Agent图像

markitdown

MarkItDown 是一款由微软 AutoGen 团队打造的轻量级 Python 工具，专为将各类文件高效转换为 Markdown 格式而设计。它支持 PDF、Word、Excel、PPT、图片（含 OCR）、音频（含语音转录）、HTML 乃至 YouTube 链接等多种格式的解析，能够精准提取文档中的标题、列表、表格和链接等关键结构信息。在人工智能应用日益普及的今天，大语言模型（LLM）虽擅长处理文本，却难以直接读取复杂的二进制办公文档。MarkItDown 恰好解决了这一痛点，它将非结构化或半结构化的文件转化为模型“原生理解”且 Token 效率极高的 Markdown 格式，成为连接本地文件与 AI 分析 pipeline 的理想桥梁。此外，它还提供了 MCP（模型上下文协议）服务器，可无缝集成到 Claude Desktop 等 LLM 应用中。这款工具特别适合开发者、数据科学家及 AI 研究人员使用，尤其是那些需要构建文档检索增强生成（RAG）系统、进行批量文本分析或希望让 AI 助手直接“阅读”本地文件的用户。虽然生成的内容也具备一定可读性，但其核心优势在于为机器

★ 93.4k|★★☆☆☆|1周前

插件开发框架

使用场景

没有 data-science-question-answer 时

使用 data-science-question-answer 后

运行环境要求

快速开始

此仓库已弃用，请查看最新的 Nailing Machine Learning Concepts

简历

SQL

JOIN 的区别

工具与框架

Spark

统计学与机器学习概论

项目流程

交叉验证

特征重要性

均方误差与平均绝对误差

L1正则化与L2正则化

相关性与协方差

增加数据是否能解决欠拟合问题？

激活函数

装袋法

堆叠法

生成式与判别式

参数化与非参数化

推荐系统

监督学习

线性回归

逻辑回归

朴素贝叶斯

K近邻

支持向量机

决策树

随机森林

提升树

多层感知机（MLP）

卷积神经网络（CNN）

循环神经网络（RNN）与长短期记忆网络（LSTM）

无监督学习

聚类

主成分分析

自编码器

生成对抗网络

强化学习

自然语言处理

分词

词干提取和词形还原

N 元语法

词袋模型

word2vec

系统

Cron 作业

Linux

data-science-question-answer 快速上手指南

环境准备

安装步骤

基本使用

1. 准备简历优化

2. 复习 SQL 连接区别

3. 理解机器学习工作流

4. 辨析核心概念 (面试高频)

5. 查阅 Spark 速查表

相似工具推荐

openclaw

stable-diffusion-webui

everything-claude-code

ComfyUI

gemini-cli

markitdown