机器学习 - freeCodeCamp.org

如何通过机器学习计算两个数字的和

Miya Liu — Wed, 16 Aug 2023 04:19:00 +0000

原文： How to Add Two Numbers – The Machine Learning Way

在机器学习领域，我们经常会遇到复杂的问题，从图像识别到自然语言处理。

但是，让我们退后一步，探索一些更基本但同样有趣的东西：加法！是的，你没看错，就是加法。

在本教程中，我们将构建一个神经网络，学习计算两个数字的和。

在开始学习之前，有一点需要注意：在实践中，我不建议使用机器学习求两个数的和。我在开始学习机器学习时，出于好奇尝试了一下。我只是希望与大家分享，让学习变得有趣。

你可以将本教程作为机器学习之旅的入门指南。初级机器学习工程师有时很难找到好的、干净的数据集。如果没有可靠的数据集，就很难研究和学习机器学习问题。

不过你不用担心，在本教程中，我们将创建自己的数据集（将成对的数字相加）并清理数据。这样，你就有了一个好的数据集，可以处理自己的问题以及训练模型。

好了，在深入学习之前，我们先来学习一些机器学习和深度学习的基础知识。

深度学习基础知识

我将在练习中使用一些机器学习和深度学习术语。因此，在深入学习之前，最好先通过几句话大概理解它们。

神经网络（Neural Network）

神经网络是一种计算模型，其灵感来源于人脑的结构和功能。它由一层层相互连接的节点（神经元）组成。神经网络通过数据训练来学习模式并进行预测。

激活函数（Activation Function）

激活函数应用于神经元的输出，以增加非线性。它允许神经网络学习数据中的复杂关系。常见的激活函数包括 ReLU（整流线性单位函数）和 Sigmoid 函数。

损失函数（Loss Function）

损失函数是衡量模型预测与真实目标值匹配程度的指标。在训练过程中，目标是最小化损失函数，引导模型做出更好的预测。

梯度下降法（Gradient Descent）

梯度下降法是一种用于最小化损失函数的优化算法。它以损失函数相对于参数的梯度为导向，沿着最陡下降的方向迭代调整模型参数。

反向传播（Backpropagation）

反向传播是一种用于训练神经网络的基本算法。它计算与每个模型参数相关的损失函数梯度，并在梯度下降过程中通过网络向后传播以更新权重。

批次数量（Batch Size）

批量大小表示训练过程中一次正向/反向传递所使用的训练样本数量。批次大小越大，训练速度越快，但需要的内存也越多。

训练轮数（Epoch）

一个 Epoch 表示在训练过程中对整个训练数据集进行一次完整的迭代。

在广阔的机器学习和深度学习领域，你会遇到很多术语，以上只是其中的几个。但它们足以帮助你理解下面的练习。

准备

以下是一份帮助你开始学习机器学习基础知识的清单。在学习本教程之前，你应该安装并准备好这些工具（但并非必须）。

安装 Anaconda（它打包了许多默认的机器学习库）。
在 Anaconda 中创建一个环境：强烈建议这样做，因为如果出现问题，只有创建的环境会受到影响。你的整个 Anaconda 安装不会受到影响。
确保你有一个良好的代码编辑器/IDE，如 Visual Studio Code。
安装 Keras（这是本练习的特定要求）。

这些都准备好了吗？希望你保持好状态。让我们开始练习吧。

如何使用机器学习求两个数的和

创建文件夹和文件

创建一个新文件夹，给它取个名字。导航进入文件夹并创建名为 addition.ipynb 的文件。在 Visual Studio Code 或其他 IDE 中打开该文件夹。

然后，按下 VS Code 左上角的 “+ Code” 按钮，为以下各部分创建代码块。

导入库

使用这些命令导入 numpy 和 keras 库：

import numpy as np
from keras.models import Sequential
from keras.layers import Dense

导入要求的库

准备数据

机器学习模型的准确性有赖于训练模型的数据。

为了创建我们在这里需要的加法数据，让我们创建 1000 对随机数字作为输入。输出将是每对数字之和。

num_samples = 1000
X_train = np.random.rand(num_samples, 2)
y_train = X_train[:, 0] + X_train[:, 1]

生成输入数据集

定义神经网络

让我们构建一个有两个输入层的神经网络——一个有 8 个神经元的隐藏层和一个有单个神经元的输出层。我们将使用 “relu” 激活函数。

model = Sequential()
model.add(Dense(8, input_shape=(2,), activation='relu'))
model.add(Dense(1))

定义有 2 个输入层的模型

编译模型

使用 MSE（均方误差）作为损失函数和 Adam 优化器编译模型。

model.compile(loss='mse', optimizer='adam')

使用 MSE 编译模型

训练模型

对模型进行 100 轮训练，批次数量为 32。

batch_size = 32
epochs = 100
model.fit(X_train, y_train, batch_size=batch_size, epochs=epochs, verbose=1)

训练模型

这可能需要几秒钟，取决于你的 CPU 配置。我的笔记本电脑大约需要 10 到 15 秒才能完成。

测试模型

现在我们已经训练好了模型，让我们用一些自定义输入来测试它。我使用了两个输入，但你也可以使用任意数量的输入来测试你的模型。

test_input = np.array([[1, 2], [0.3, 0.4]])
predicted_sum = model.predict(test_input)

通过自定义输入预测输出

打印数值

预测已经完成。让我们打印预测值，看看它们是否正确：

print("Predicted sums:")
print(predicted_sum)

打印预测的总和

预测值的输出示例

很接近，对吧？

总结

在本教程中，你学会了如何构建一个执行加法运算的神经网络。

如果你感到好奇，也可以尝试构建一个神经网络来执行减法运算。祝你好运 :)

希望你喜欢阅读本文。如果你想了解更多有关人工智能/机器学习/深度学习的信息，请访问我的网站订阅我的文章，那里有我所有博客的综合列表。

9 个核心机器学习算法

Michael He — Thu, 02 Mar 2023 04:40:00 +0000

原文： 9 Key Machine Learning Algorithms Explained in Plain English

如今，机器学习正改变着我们的世界。借助机器学习（ML），谷歌在为我们推荐搜索结果，奈飞在为我们推荐观看影片，脸书在为我们推荐可能认识的朋友。

机器学习从未像在今天这样重要。但与此同时，机器学习这一领域也充斥着各种术语，晦涩难懂，各种机器学习的算法每年层出不穷。

本篇文章将向您介绍机器学习领域的基础概念。更确切地说，我们将讨论时下9大核心机器学习算法背后的基本概念。

Galton 是一名研究父母-子女关系的科学家。具体而言，他研究的是父亲身高同其儿子身高之间的关系。

Galton的第一个发现是，儿子倾向于大致同父亲一样高，这并不足为奇。

但后来，获得一个更有趣的发现。那就是，一个儿子的身高倾向于更接近所有人身高的平均值，比其同其父亲身高的接近度还要高。

Galton 为这一现象命名为：回归。用他的话说，“一位父亲的儿子的身高倾向于回归到所有人身高的平均值”。

自此，统计学和机器学习迎来了一个崭新的领域，即回归。

线性回归的数学原理

创建回归模型时，我们要做的就是绘制一条尽可能接近数据集中每个点的线。

一个典型的例子是线性回归的“最小二乘法”，该方法仅计算上下方向上的一条线的相似度。

下面这个示例可以帮助阐释这一点：

在创建回归模型时，你最终会产出一个方程式。利用它，你可以预测给定x值时的y值，而无需事先知道y值。

逻辑回归

逻辑回归与线性回归类似。但不同的是，逻辑回归并不计算 y 的数值，而是估计一个数据点所属的类别。

什么是逻辑回归？

逻辑回归是一种用于解决分类问题的机器学习模型。

下面是几种机器学习分类问题的举例：

垃圾邮件（垃圾还是非垃圾？）
汽车保险索赔（销记还是维修？）
疾病诊断

以上每一个分类问题都有且仅有两类，被称为二进制分类问题。

逻辑回归非常适合用于解决二进制分类问题，我们只需要把不同类别的值分别设定为 0 和 1 就行了。

我们为什么需要逻辑回归？答案是，线性回归模型无法做出二进制分类推测，因为当用一个只包含两个可能值的数据集拟合一条直线时，拟合效果可想而知。

这张图片或能帮助你理解为什么线性回归模型不适用于解决二进制分类问题：

图中，y-axis 代表一个肿瘤是恶性的可能性。相反，1-y 代表其为良性的可能性。可以看到，就数据集中的大多数观测值而言，线性回归模型在预测这一可能性方面表现很差。

这也解释了逻辑回归的有用性。它拟合出的最佳曲线有一个偏向，这使它更适合预测分类数据。

下面是使用相同训练数据分别生成的线性回归模型与逻辑回归模型比较：

S型函数

逻辑回归模型生成的曲线之所以有一个偏向是因为它不是用线性方程计算得的，而是由S型函数（因其在逻辑回归中的应用又名逻辑函数）构建。

要在机器学习领域有所成就，你并不需要记忆 S型函数，但是理解它的外形还是对你有帮助的。

其方程如下：

有关S型函数值得知道的一点是，它有这样一个主要特征：无论你输入的值有多大，该函数输出的值始终分布在0到1之间。

利用逻辑回归模型开展预测

要利用线性回归模型进行预测，通常需要设定一个临界点，该临界点通常为 0.5。

我们不妨使用先前图片中的癌症诊断示例来在实践中理解这一原理。如果逻辑回归模型输出的值低于0.5，该数据点将被归为良性肿瘤。反之，如果S型函数输出的值大于0.5，则将被归为恶性。

使用混淆矩阵来衡量逻辑回归的性能

在机器学习领域，混淆矩阵可以用于比较真阳性，真阴性，假阳性和假阴性。

尤其是在衡量逻辑回归模型的性能时，混淆矩阵非常有用。下面是混淆矩阵的一个使用示例：

图中，TN代表“真阴性”，FN代表“假阴性”。FP代表“假阳性”，TP代表“真阳性”。

混淆矩阵可用于评估模型在混淆矩阵的某一特定象限中是否性能很差。举例来说，图中模型的假阳性异常偏高。

这种评估在某些应用场景中可以发挥很大的用处。它可以确保模型在混淆矩阵中极为危险的区域仍能表现良好。

拿癌症的例子来说，你会非常想要确定你的模型没有很高的假阴性率。因为真是那样的话，就意味着一个人明明患有恶性肿瘤，但你却将其错误地归为了良性。

本节小结

本节，你初次了解了逻辑回归机器学习模型。

以下是你就逻辑回归学到的知识总结：

哪些类型的分类问题适合利用逻辑回归模型解决
逻辑函数（也称为S型函数）的输出值永远在0到1之间
如何借助临界点来利用逻辑回归机器学习模型进行预测
为什么混淆矩阵可用于衡量逻辑回归模型的性能

K近邻算法

K近邻算法可以帮助解决类别多于两个的分类问题。

什么是K近邻算法？

K近邻算法是一种分类算法。其基于的原理非常简单，通过一个示例我们便能对其进行很好的理解。

假设你有一些足球运动员和篮球运动员的身高、体重数据，那么当数据中出现了一个新运动员时，K近邻算法便可帮你推测这名运动员是足球运动员还是篮球运动员。

为实现这一推测，K近邻算法会识别最接近新观测值的 K 个数据点。

下图是这一过程的展示，其中K值为 3：

图中，我们将足球运动员数据点标记为了蓝色，篮球运动员标记为了橙色，待归类的数据点标记为了绿色。

由于新数据点最邻近的数据点中大多数（2/3）是蓝色（足球运动员），因此K近邻算法预测这一新数据点也应为蓝色（足球运动员）。

建立K近邻算法的步骤

通常，建立一个K近邻算法有以下步骤：

存储所有数据
计算从新数据点 x 到数据集中其它所有数据点的欧式距离
按照距新数据点 x 的距离递增的顺序对数据集中的各数据点进行排序
根据距新数据点 x 最近的 K 个数据点中绝大多数所属的类别推测新数据点的类别

K近邻算法中K值的重要性

尽管在一开始可能并不明显，但在K近邻算法中更改 K 值的大小或将改变对新数据点所属类别的推测结果。

具体而言，如果 K 值很小，那么一个模型便能完美地预测训练数据，但在预测测试数据时会表现较差。同样，K 值太大则会导致模型过于复杂。

下图很好地说明了这一问题：

K近邻算法的优缺点

在K近邻算法介绍的最后，我想简要讨论一下使用该模型的利弊。

这是使用K近邻算法的一些主要优点：

该算法简单易懂
训练模型时没太大必要在新的训练数据上训练
适用于分类问题中的任何数量的类别
向数据集中添加更多数据时较为容易
该模型仅包含两个参数：K 值和使用的距离指标（通常是欧式距离）

同时，以下是该算法的一些主要缺点：

由于需要对整个数据集进行排序，做出预测的计算成本高
不适用于分类功能

本节小结

以下是刚刚讲到的有关k近邻算法的知识总结：

K近邻算法可以解决的分类问题示例（足球运动员与篮球运动员的例子）
K近邻算法如何依据相邻数据点的欧几里得距离来预测新数据点属于哪个类别
为什么 K 值的大小对预测结果很重要
使用K近邻算法的优缺点

决策树和随机森林

决策树和随机森林都归属于树方法。

具体来说，决策树也是一种机器学习模型，用于通过循环遍历数据集中的每个特征进行预测。随机森林则是按照数据集中的各个特征随机排布的决策树集合。

什么是树方法？

树方法是机器学习的一种方法。在深入探讨其理论依据之前，我们不妨先看一个示例。

假设你每个星期一都打篮球，而且你总是邀请同一个朋友和你一起打。

而你的这位朋友有些时候来了，有些时候没来。

他是否会来取决于多个因素，如天气好坏，气温高低，风的大小，身体疲惫程度。你渐渐注意到了这些因素，并开始记录你朋友是否会来的决定以及当天这些因素的具体情况。

如此一来，你便可以用这些数据来预测你的朋友在某个周一是否会来，而你预测时可选择的方法之一就是决策树。下图是本示例中的决策树：

每个决策树中都有两种构成元素：

节点：位于决策树根据某个属性的值分叉的位置
方案枝：拆分到下一个节点的结果

上图中，可以看到的一些节点有 outlook（推测），humidity（湿度） 和 windy（风）。这些属性的每种潜在值旁边都有一条树枝状的线条。

在继续深入探讨之前，你还需要了解下面两个决策树术语：

根节点：进行第一次拆分的节点
叶节点：预测最终结果的终端节点

现在，你对决策树已经有了一个基本的了解。在下一部分的讲解中，我们将学习如何从零开始构建决策树。

如何从零开始构建决策树

构建一个决策树比你想象的要难，因为要确定分割数据的特征（一个属于熵和信息增益）范畴的话题）在数学上是一个非常复杂的问题。

为了解决这个问题，机器学习从业人员通常会使用多个决策树，这些决策树分割特征的选取是从众多样本中随机挑选的。

换句话说，每个决策树在每个分割处都会随机选择一个新的特征样本，该方法被称为随机森林。

总体而言，从业人员通常会将数据集中的特征总数 p 的平方根作为随机特征样本中包含的样本数量 m。简而言之，m 等于 p 的平方根，每一个分割特征将从 m 中随机选择。

如果现在你无法完全理解也不必担心。当你最终构建第一个随机森林模型时，你便会对一切认识得更加清楚。

使用随机森林的优点

想象一下，假设你正在使用的数据集有一项非常显著的特征，这一特征比数据集中的其它任何特征都更能准确预测最终结果。

如果你用手工去构建决策树，便会将此特征画在决策树的顶部分叉，这也就意味着你将拥有多棵预测相关性很高的决策树。

然而，我们要避免这种情况的发生，因为取高度相关变量的平均值不能显著减小方差。相反，通过为随机森林中的每棵树随机选择特征，这些树之间便会失去相关性，从而减小结果模型的方差。这种去相关性是使用随机森林优于手工决策树的主要优势。

本节小结

以下是刚刚讲到的有关决策树和随机森林的知识总结：

可以使用决策树来进行预测的问题示例
决策树的构成元素：节点、方案枝、根节点和叶节点
随机抽取决策树特征样本建立随机森林的原理
为什么使用随机森林对变量进行去相关有助于减小最终模型的方差

支持向量机

支持向量机属于分类算法（尽管从技术上讲，它们也可以用于解决回归问题），它通过切分类别之间的最大差距，将数据集分为多个类别。稍后我们将以图示的方式对这一概念进行更加清晰的认识。

什么是支持向量机？

支持向量机是一种监督机器学习模型，简称SVMs（Support vector machines），该类模型具有用于分析数据和识别模式的关联学习算法。

支持向量机既可用于分类问题也可用于回归问题。本文将专门研究使用支持向量机解决分类问题。

支持向量机如何工作？

让我们一探究竟。

给定一组训练样本 – 标记每个样本属于两个类别中的一个 – 支持向量机训练算法建立模型。这样，输入新样本时，该模型便会将其归为两个类别之一。由此，支持向量机便成了一个非概率二进制线性分类器。

SVM进行分类预测时所依据的是几何学。

具体而言，SVM模型会将数据点映射为空间中的点并将每个单独的类别分隔开来，从而使划分的开放间隙尽可能宽。根据新数据点属于间隙的哪一侧，SVM将预测它们属于哪个类别。

下图是一个可视化示例，可以帮你更好理解支持向量机背后的机理：

如图所示，如果新数据点位于绿线的左侧，则SVM会将其标记为红色类别。反之，如果新数据点位于绿线的右侧，SVM则会将其标记为蓝色类别。

而这条绿线被称为超平面，这是支持向量机算法相关的一个重要术语。

让我们看一下支持向量机的另一种视觉表示形式：

这幅图中的超平面被标记为了最佳超平面。支持向量机理论将最佳超平面定义为能够最大化每个类别之间最接近的几个数据点之间间距的超平面。

如图所示，示例中的边距线共接触到三个数据点，其中两个来自红色类别，一个来自蓝色类别。这些触及边距线的数据点被称为支持向量，支持向量机也因其得名。

本节小结

以下是刚刚讲到的有关支持向量机的知识总结：

支持向量机是一种监督机器学习算法
支持向量机可用于解决分类和回归问题
支持向量机是如何利用（可最大化数据集中类别之间间距的）超平面对数据点进行分类的
支持向量机中，接触边距线的数据点被称为支持向量，支持向量机也因其得名。

K均值聚类

K均值聚类是一种可用于识别数据集内类似数据片段的机器学习算法。

什么是K均值聚类？

K均值聚类是一种无监督机器学习算法。

意思是说，接收未标记的数据后它会尝试将数据中类似的观测组归在一起。

K均值聚类算法在解决现实问题时非常有用。下面是该机器学习模型的几个应用举例：

帮助营销团队对客户进行细分
文件分类
帮助亚马逊、UPS、联邦快递等公司最优化快递运输路线
识别、应对城市犯罪中心
专业运动分析
预防网络犯罪

K均值聚类算法的主要功能是将数据集划分为不同的组，使每组内的观测结果彼此相似。

下图是其实际运作的可视化呈现：

我们将在下一节探索K均值聚类背后的数学原理。

K均值聚类算法如何运作？

运行K均值聚类算法的第一步是选择要将数据划分为多少个集群。这一集群数便是该算法名称中的 K 值。

使用K均值聚类算法时，K 值的选择非常关键。稍后我们会讨论如何选择合适的 K 值。

下一步，必须随机将数据集中的每个数据点都分配到随机聚类中，这也是第一步任务的根源所在。然后运行以下迭代，直到集群停止更改：

通过计算该集群内数据点的平均向量来计算每个集群的几何中心
将每个数据点重新分配到同其先前所在集群几何中心最接近的集群

下面的动画是这一实践过程的示例。其中，K均值聚类算法的 K 值为 3。可以看到，每个集群的几何中心均由黑色的 + 字符表示。

如图所示，此迭代将一直持续到集群停止更改为止，这一停止更改意味着数据点将不会再被分配到新的集群。

为K均值聚类算法选择合适的K值

要为K均值聚类算法选择一个合适的 K 值实际上相当困难。该值的“最佳”选择没有“标准”答案。

机器学习从业者经常使用的一种方法叫作肘部法。

使用肘部法时，第一步要先计算一组 K 值下K均值聚类算法的误差平方和（SSE，sum of squared errors）。SSE表示一个集群中的每个数据点与该集群几何中心之间的距离的平方之和。

举例来说，计算 SSE时，你可以选择 K 值为 2、4、6、8、10。

接着，将不同 K 值下的SSE绘制在图表中。可以看到，随着 K 值的增大，错误逐渐减少。

这也是符合常理的——数据集中创建的类别越多，每个数据点接近其特定集群几何中心的可能性就越大。

说了这么多，肘部法的用意就在于选择SSE下跌速度突然放缓处的 K 值，这种突然的放缓在图表中往往会生成了一个肘形。

下图是一个SSE和 K 的关系图表示例。图中，肘部法建议的 K 值大约为 6。

值得注意的是，6 只是对最佳 K 值的一种估计。K均值聚类算法中并没有标准的“最佳” K 值。同机器学习领域的许多事物一样，这一最佳选择高度依赖具体情况。

本节小结

以下是本节内容的小结：

K均值聚类算法能够解决的无监督机器学习问题示例
K均值聚类算法的基础机理
K均值聚类算法的工作原理
如何利用肘方法为K均值聚类模型选择合适的 K 值

主要组件分析

主要组件分析用于将多特征数据集转换为具有较少特征的转换数据集，转换数据集中的每个新特征是预先数据集存在特征的线性组合。此转换数据集旨在更简单地解释原始数据集中的绝大部分变量。

什么是主要组件分析

主要组件分析是一种用于检查变量集间相互关系的机器学习方法。

不同的是，主要组件分析研究一组变量，以确定这些变量的根本结构。

主要组件分析有时也被称为 因子分析。

基于此描述，你可能会感觉主要组件分析与线性回归非常相似。

但事实并非如此。其实，二者存在一些显著区别。

线性回归与主要组件分析的区别

线性回归通过数据集确定一条最佳拟合线，而主要组件分析会确定出几条最拟合数据集的正交线。

正交的意思可以理解为线与线之间呈直角（90度）相交——就像地图上指示北、东、南、西的方向坐标那样。

我们不妨通过下面的示例来帮助你更好的理解。

仔细看图中的轴标。

图中，x轴的主要组件代表了该数据集中73%的变量，y轴的主要组件则解释了数据集中23%的变量。

这就意味着数据集中仍有4%的变量未得到解释。通过在分析中添加更多主要组件，这一未解释变量的数量便能减至更少。

本节小结

以下是刚刚讲到的有关主要组件分析的知识总结：

主要组件分析致力于找到确定数据集变异性的正交因子
主要组件分析与线性回归之间的区别
正交主要组件在数据集内的可视化图示
添加更多主要组件可以帮助解释数据集中的更多变量

零基础入门机器学习（视频教程）

luojiyin — Fri, 14 Oct 2022 03:30:00 +0000

原文： Machine Learning for Everybody

机器学习技术现在非常普遍，你可能每天都会使用它几十次，却没有意识到。由于它有如此多的应用，对于任何有大量机器学习经验的人来说，工作前景都很好。

我们刚刚在 freeCodeCamp.org 的 YouTube 频道上发布了一个机器学习课程，这是你开始学习之旅的最佳地方。

Kylie Ying 开发了这个课程。Kylie 曾在许多有趣的地方工作，如麻省理工学院、欧洲核子研究中心和 freeCodeCamp。她是一位物理学家、工程师，也是一位优秀的老师。

这个课程是对许多关键的机器学习概念的一个很好的介绍。在这个视频中，你将了解监督和无监督学习模型背后的逻辑和数学。你还将学习如何能够在谷歌合作项目上对不同的机器学习模型进行编程。

谷歌为本课程的研发提供了资金支持。

以下是本课程涵盖的主题：

Data/Colab 介绍
Intro to Machine Learning（机器学习简介）
Features（特征）
Classification/Regression（分类/回归）
Training Model （训练模型）
Preparing Data （准备数据）
K-Nearest Neighbors （K-最近邻）
KNN Implementation （KNN 实施）
Naive Bayes （朴素贝叶斯）
Naive Bayes Implementation （朴素贝叶斯实现）
Logistic Regression （逻辑回归）
Log Regression Implementation （对数回归实现）
Support Vector Machine （支持向量机）
SVM Implementation （支持向量机实现）
Neural Networks （神经网络）
Tensorflow （张量流）
Classification NN using Tensorflow （使用 Tensorflow 的分类 NN）
Linear Regression （线性回归）
Lin Regression Implementation （林回归实现）
Lin Regression using a Neuron （使用神经元的 Lin 回归）
Regression NN using Tensorflow （使用 Tensorflow 的回归 NN）
K-Means Clustering （K-Means 聚类）
Principal Component Analysis （主成分分析）
K-Means and PCA Implementations （K-Means 和 PCA 实现）

观看下面的完整课程或在 freeCodeCamp.org YouTube 频道上观看（观看 2 小时）。

YouTube 地址

bilibili 地址，有中英文字幕

如何在机器学习中检测异常值——4 种检测异常值的方法

freeCodeCamp.org — Tue, 19 Jul 2022 10:00:00 +0000

原文：How to Detect Outliers in Machine Learning – 4 Methods for Outlier Detection，作者：Bala Priya C

你是否使用过现实数据来对机器学习模型进行过训练？如果答案是肯定的，你很可能遇到过_异常点_。

异常点通常_明显_地不同于数据集中其他数据。异常点的存在会扭曲数据集的数据分布，提高数据的不连贯性或使观测产生错误。

为了使训练模型在进行测试时有更好的泛用性，发现并删除异常点非常重要。

在本文中，我们将介绍几个常用来发现并去除异常点的统计学工具。

为什么需要发现异常点

在机器学习流程中_数据清洗_和_数据预处理_是两个关键步骤，它们能帮助你更好地理解你所面对的数据。这些步骤中包括处理丢失值，发现异常值等操作。

过高或过低的异常值常常会扭曲数据集的统计分析结果。这会使得训练出来的模型低效甚至完全无效。

处理异常值需要一定的专业性，在_不清楚_所面对的数据和消除异常值工具适用环境的情况下不应冒然使用。

举例来说，如果你在房价数据集中发现_少量_房价处于150万美金并显著高于所有房价中位数时，这些150万美金的房价很可能是异常值。但是，当数据集包含有大量100万美金以上的房价时，房价呈现上涨趋势。此时将150万美金的房价将视为异常值是_不合适_的。在此情境下，数据分析者需要一定的房地产知识以便正确处理异常值。

发现异常值的目的是为了去除_真正的异常值_以便构建一个泛用的，即使面对未知数据依旧能表现良好的模型。我们将几个有助于发现异常值的统计工具。

如何通过标准差发现异常值

如果一组数据，或数据集中某些特征符合正态分布时，可以考虑使用正态分布及等效的Z-分数（z-score）来发现异常值。

在统计学中，标准差（standard deviation）反映了_数据点和均值（mean）之间的关系+，一言以蔽之，标准差衡量的是数据点离数据的算数平均有多远。

对于正态分布的数据来说，约68.2%的数据在均值的一倍标准差之内。约有95.4%和99.7%的数据点在均值的两倍和三倍标准差以内。

我们约定标准差为σ，算术平均为μ。

一个发现异常值的方法是将_阈值下限_设为均值减去三倍标准差 (μ - 3*σ) ，_阈值上限_设为均值加上三倍标准差 (μ + 3*σ) 。所有在阈值之外的数据点都被视为异常值。

因为99.7%的数据点会在均值的±三倍标准差以内，此方法将会发现并标记0.3%的数据点为异常值。

使用标准差检测异常点的代码

我们通过构造一个正态分布的学生分数数据集，用以解释发现异常点的过程。

第一步，载入必须的python库。

import numpy as np
import pandas as pd
import seaborn as sns

第二步，定义名为generate_scores()的函数，这个函数会生成一个有包含有200个数据的正态分布的分数数据集。我们会使用这个函数生成数据集并存储到变量scores_data中。

def generate_scores(mean=60,std_dev=12,num_samples=200):
	np.random.seed(27)
	scores = np.random.normal(loc=mean,scale=std_dev,size=num_samples)
	scores = np.round(scores, decimals=0)
	return scores
scores_data = generate_scores()

你可以使用Seaborn的displot()函数来生成数据集分布图像。通过下图可以看出，这个数据集服从正态分布。

sns.set_theme()
sns.displot(data=scores_data).set(title="Distribution of Scores", xlabel="Scores")

图表1：正态分布

接下来，我们可以把该数据集导入Pandas dataframe 以便进一步分析。

df_scores = pd.DataFrame(scores_data,columns=['score'])

你可以使用.mean()和.std()方法来获取数据集df_scores的均值和标准差。

df_scores.mean()
# Output
score    61.005
dtype: float64
df_scores.std()
# Output
score    11.854434
dtype: float64

像之前说的一样，阈值下限(lower_limit)设为算数平均减去三倍标准差，阈值上限(upper_limit)设为算术平均加上三倍标准差。

lower_limit = df_scores.mean() - 3*df_scores.std()
upper_limit = df_scores.mean() + 3*df_scores.std()
print(lower_limit)
print(upper_limit)
# Output
25.530716709142666
96.47928329085734

通过上一步我们定义了阈值的上下限，我们可以使用这个阈值[lower_limit, upper_limit]来筛选数据集df_score中处于这个阈值的数据点，代码如下。

df_scores_filtered=df_scores[(df_scores['score']>lower_limit)&(df_scores['score']


通过上面的输出，我们发现这个方法移除了两个数据点，数据集df_scores_filtered包含有198个数据点。
如何用过z-score检测异常值
接下来我们尝试使用z-score检测异常值的方法。对于均值为μ标准差为σ的正态分数来说，数据点x的z-score可以这么计算：
z = (x - μ)/σ
通过上述公式，我们可以推导出以下条件：

当 x = μ 时，z-score 为 0
当 x = μ ± 1, μ ± 2, 或 μ ± 3 时，z-score 为 ± 1, ± 2, 或 ± 3

我们可以发现，通过z-score检测异常值的方法其实等价于我们之前尝试过的通过标准差检测异常值的方法。通过对数据点进行标准化（z = (x - μ)/σ），所有低于标准差方法中低阈（(μ - 3*σ）的数据点将等价于z-score小于-3的数据点。
类似的，通过标准化，大于上阈值（μ + 3*σ）的数据点等价于z-score大于3的数据点。所以上下阈值[lower_limit, upper_limit]可以理解为[-3, 3]。
接下来我们将使用z-score方法来检测数据集df_scores中的异常点。
使用z-score检测异常点方法的代码
第一步，我们计算所有数据点的z-score，并把z_score作为新的一列添加进数据集df_scores中。
df_scores['z_score']=(df_scores['score'] - df_scores['score'].mean())/df_scores['score'].std()
df_scores.head()
# Output
score	z_score
0	75.0	1.180571
1	56.0	-0.422205
2	67.0	0.505718
3	65.0	0.337005
4	63.0	0.168291

第二步，我们用阈值[-3, 3]来过滤掉数据集df_scores中z-score不在范围内的数据点。由于此方法等价与之前解释过的标准差方法，过滤后的数据集包含有198个数据点。
以上两种方法（通过标准差检测异常值和通过z-score来检测异常值）只适用于服从正态分布的数据。
接下来，我们将研究两种对数据分布_没有要求_的检测异常值的方法。
通过四分位距(IQR)检测异常值的方法
统计学上，四分位距（IQR）反映了给定数据集中第一和第三分位数之间的距离。

第一份位数又称为四分之一分位数或25%分位数
我们约定q25为第一分位数，这意味这数据集中有25%的数据点小于q25
第三份位数又称为四分之三分位数或75%分位数
我们约定q75为第三分位数，这意味这数据集中有75%的数据点大于q75
使用上述表述方法, IQR = q75 - q25

通过四分位距（IQR）检测异常值方法的代码
我们可以使用箱型图或者箱线图来图形化数据集中的异常值。明显位于箱线图之外的数据点可以被视为异常值。
我们可以使用Seaborn中的boxplot函数生成箱型图。
sns.boxplot(data=scores_data).set(title="Box Plot of Scores")


图表2：箱型图
现在，我们调用.describe()函数检测数据集df_scores。
df_scores.describe()
# Output
score
count	200.000000
mean	61.005000
std	    11.854434
min	    20.000000
25%	    54.000000
50%	    62.000000
75%	    67.000000
max	    98.000000

我们使用25%和75%分位数来计算四分位距（IQR），并使用它们（25%分位数到75%分位数）作为阈值。
IQR = 67-54
lower_limit = 54 - 1.5*IQR
upper_limit = 67 + 1.5*IQR
print(upper_limit)
print(lower_limit)
# Output
86.5
34.5

下一步，利用四分位距（IQR）对数据集df_scores进行筛选。
df_scores_filtered = df_scores[(df_scores['score']>lower_limit) & (df_scores['score']

从以上结果可以看出，四分位距方法把八个数据点标记为异常值，筛选后的数据集包含有192个数据点。
我们除了可以使用.describe()来计算分位数，还可以使用NumPy库中的.percentile()函数来计算分位数。
以下代码展示了如何使用.percentile()函数计算第一和第三分位数。
q25,q75 = np.percentile(a = df_scores,q=[25,75])
IQR = q75 - q25
print(IQR)
# Output
13.0

利用百分位数方法检测异常值
上一小节中我们探讨了四分位距和利用它进行异常值检测的方法。四分位距可以认为是百分位数的一个特例，所以我们也可以用百分位数来检测异常值。
上一节中的四分位距方法使用[q25 - 1.5*IQR, q75 + 1.5*IQR]作为阈值，不在此范围内的数据点被标记为异常值。四分位距方法适用于数据点分布较分散的数据集，这种方法倾向于过多的标记异常值。
为了更好地标记异常值，我们可能需要使用除第一和第三分位数之外的其他分位数。接下来我们将通过百分位数方法再次检测scores数据集中的异常值。
使用百分位数检测异常值方法的代码
第一步，我们首先找到0.5百分位数和99.5百分位数的范围。我们可以利用.percentile()函数带入q = [0.5, 99.5]来计算这个范围，代码如下：
lower_limit, upper_limit = np.percentile(a=df_scores,q=[0.5,99.5])
print(upper_limit)
print(lower_limit)

# Output
91.035
28.955

下一步，我们可以使用之前计算的阈值对数据集进行检测。
df_scores_filtered = df_scores[(df_scores['score']>lower_limit) & (df_scores['score']

通过以上代码的结果我们可以看出有两个数据点被标记为异常值，过滤后的数据集包含有198个数据点。
结语
本文介绍了什么是异常值，我们为什么需要检测异常值，及我们如何检测异常值。本文介绍了四种最常见的检测异常值的方法。
总结如下：

如果要研究的数据或特征符合正态分布，我们可以使用标准差或z-score来标记异常值。通常我们标记超出均值正负三倍标准差的数据点为异常值。
如果要研究的数据不服从正态分布是，我们可以使用四分位距或者百分位数来检测异常值。

此外我们还介绍了检测异常值的一些特殊情况。当数据集中有大量数据被标记为异常值时要慎重，因为造成这种情况的原因可能是因为我们手头的数据集属于一个更大更完备的数据集，被标记的异常值可能描述了更大的数据集的分布情况。
除此之外，在检测异常值的过程中要根据数据集的特征适时调整用来筛选检测异常值的阈值。



 Python 基础教程之应用领域 
FengJiaJun — Mon, 14 Sep 2020 08:50:28 +0000
 如果你想学习 Python，或者如果你最近开始学习 Python，你也许会这么问自己：
“我到底可以使用 Python 做什么？”
这是一个棘手的问题去回答，因为已经有许多 Python 的程序。
但是随着时间的迁移，我发现 Python 有三个主要的流行应用程序：
Web 开发
数据科学 - 包括机器学习，数据分析和数据可视化
脚本编写
我们依次讨论它们。
Web开发
基于 Python 的 web 框架（比如 Django 和 Flask ）最近变得非常流行。
这些 web 框架帮助你使用 Python 创建服务器端代码（后台代码），即运行在你服务器上的代码，相对于运行在用户的设备、浏览器上（前端代码）。如果你不熟悉后端代码和前端代码的区别，请参考下面的脚注。
但是等一下，为什么我需要一个 web 框架呢？
那是因为 web 框架在构建共同后端逻辑非常方便，包括映射不同的 URLS 到 Python 代码块，处理数据库和产生用户在浏览器中看到的 HTML 文件。
我应该用哪一个 web 框架？
Django 和 Flask 是两个最受欢迎的 Python web 框架。如果你刚刚入门 Python,我建议你使用他们其一。
Django 和 Flask 之间的区别是什么？
这里有一篇 Gareth Dwyer 编写的关于这个问题的出色文章，所以我在这里引用它：
<开始引用>
主要对比：
Flask 提供了简单性，灵活性和细粒度的控制。It is unopinionated （它让你可以决定你想要实现的东西）。
Django 提供全方位的体验：你可以开箱即用式地获得管理面板、数据库接口、ORM [对象关系映射]以及目录结构。
你可能应该选择：
Flask，如果你专注于体验和学习机会，或者如果你想要去控制更多使用的组件（比如你想要使用哪些数据库和你想要如何与它们交互）。
Django,如果你专注于最终产品。特别是如果你正在开发一个简单易用的应用比如新闻网站、电子商店、博客，并且你想要有一种简单，显而易见的方法去搭建这个应用。
<结束引用>
换一种说法，如果你是一个初学者，Flask 可能是更好的选择。因为它需要处理的组件更少。同时，如果你想要更多的定制化，Flask 是更好的选择。
在另一方面，如果你正在寻找简单易用的方式构建程序，Django 将会让你更快完成。
现在如果你想学习 Django，我推荐你一本书《Django for Beginners》。你可以从这里找到它。
你也可以找到免费的章节案例在这本书里。
好的，让我们开始下一个的话题。
数据科学 - 包括机器学习，数据分析和数据可视化
首先，回顾下机器学习是什么 。
我认为最好的方式解释什么是机器学习，就是给你一个简单的样例。
假如你想要开发一个程序去自动检测数图片里面的内容。
你想要你的程序去识别这是一只狗。
图 1
另一张图片，你想要你的程序去识别这是一张桌子。
图 2
你或许会说，好的，我可以写一些代码去完成这个功能。比如，如果图片中有很多白色像素，那么我们可以说这里是一只狗。
或者，你可以找出如何检测图片中的边缘。然后，你可能会说，如果有很多直边，那就是一张桌子。
然而，这种方法很快就会变得棘手。如果图片里有一只白狗没有棕色毛发呢？如果图片只展示桌子的圆形部分呢？
这就是机器学习的用武之地。
机器学习通常实现一种算法，可以自动检测给定的输入模型。
你可以传入1000张狗的图片和1000张桌子的图片到机器学习算法中。之后算法将会去学习狗和桌子之间的差异。之后你传入一张新的狗或者桌子的图片，算法将能够识别出它属于哪一个。
我认为这个机器学习算法就是某种与婴儿学习新鲜事物具有相似性。婴儿是如何学习到一个事物是狗还是桌子呢？可能是从一堆样例中学习到的。
你应该不会去明确告诉一个婴儿：“如果某个动物毛茸茸的并且有着浅棕色毛发，那么它就很可能是一只狗。”；
你可能会这么说：“这是一只狗，这也是一只狗。并且这是一张桌子，这也是一张桌子。”
机器学习算法的工作方式类似这样。
你可以将相同的想方法应用于：
推荐系统（例如 YouTube、Amazon、Netflix）
人脸识别
语音识别
以及其他应用程序。
你可能听过的流行的机器学习算法包括：
神经网络
深度学习
支持向量机
随机森林
你可以使用上门任意一种算法解决我之前解释的图片标记问题。
适用于机器学习的 Python
有很多 Python 语言的机器学习类库和框架。
两个最流行的框架是 scikit-learn 和 TensorFlow。
scikit-learn 内置了一些更加流行的机器学习算法。我在上面提到了其中一些。
TensorFlow 更像是一个低级别类库，它可以让你自定义机器学习算法。
如果你刚刚开始进行机器学习的项目，我将会建议你首先使用 scikit-learn。如果你开始遇到效率问题，那么我将会建议你开始研究 TensorFlow。
我应该如何学习机器学习？
为了学习机器学习的基础，我将会推荐斯坦福大学的或者加州理工学院的机器学习课程。
请注意，你需要微积分和线性代数的基本知识才能理解这些课程中的某些资料。
之后我将使用 Kaggle 去训练你从其中一门课程中学习到的知识。这是一个人们可以对于一个特定问题的最好的机器学习算法进行竞赛的网站。他们也为初学者提供不错的课程。
关于数据分析和数据可视化呢?
为了帮助你理解这些知识点是什么，让我给你几个简单案例。
假设你在一家在线销售某些产品的公司工作。
作为数据分析师，你可能回绘制一个条形图。
条形图 1 - Python 生成的
从这幅图我们可以得知，在这个特定的星期日，男性购买了400多种产品，女性购买了350多种产品。
作为数据分析师，你可能会针对这种差异提出一些可能的解释。
一个明显的解释是这个产品对于男性更具有吸引力。另一个可能的解释是样本数量太小了，并且这种差异是具有偶然性的。还有另一个可能的解释是，由于某种原因男人倾向于只在星期日购买更多该产品。
为了了解这些解释哪些事正确的，你可能会绘制另一些图表比如下面这个。
线形图 1 - Python 生成的
我们将查看整整一周的数据，而不是仅显示周日的数据。正如你说看到的，从这个线形图，我们可以看到这种差异在不同的日子是相当一致的。
从这个小分析，你也许会得出如下结论，关于这种差异的最令人信服的解释是，相较于女性，该产品更受男性欢迎。
另一方面，如果你看到如下另一个图表呢？
线形图2 - 也是由Python生成的
那么，你怎么解释周日的差异？
你也许会说，男人可能出于某个原因倾向于在周日购买这个产品。或者，这也许只是一种巧合，男人购买更多产品在周日。
因此，这是数据分析在现实世界中的简化示例。
我在 Google 和 Microsoft 工作时所做的数据分析工作与该示例非常相似，只是更为复杂。我实际上在 Google 公司使用 Python 去处理这种分析问题，然而在 Microsoft 公司我使用 JavaScript 技术。
我在两家公司都是用SQL从数据库中抽取数据。之后，我将会使用 Python 和 Matplotlib （在 Google 公司）或者 JavaScript和D3.js（在 Microsoft 公司）去可视化和分析数据。
使用Python做数据分析和可视化
最流行的数据可视化类库是 Matplotlib。
这是一个很好的入门库，因为：
入门简单
其他一些库，例如 [seaborn] 9 也以此为基础。因此，学习 Matplotlib 将有助于你今后学习这些其他库。
我应该怎么学习使用 Python 进行数据分析和可视化？
你首先应该学习数据分析和可视化的基础知识。当我在网上寻找好的资源时，找不到任何资源。因此，我最终制作了有关此话题的 YouTube 视频：
我还最终完成了关于 Pluralsight 的主题的完整课程，你可以通过注册 10 天的免费试用期来免费获取。
我建议这两种方式都采取。
在学习了数据分析和可视化的基础知识之后，从 Coursera 和 Khan Academy 等网站学习统计基础知识也将有所帮助。
脚本编写
什么是脚本编写？
脚本编写通常指的是编写自动化简单任务的小型程序。
所以，根据我个人经验给你一个参考样例。
我曾经在一家日本的拥有邮件维护系统的公司工作过。我们用这个系统来回答客户通过电子邮件发送给我们的问题。
当我在那工作的时候，我的任务是计算包含某些关键词的邮件个数，以便我们可以分析我们收到的邮件。
我们本来可以手动完成，但是我编写了一个简单的程序/简单的脚本去自动完成该任务。
实际上我们使用 Ruby 作为程序后端，但是 Python 也可以作为这个任务的不错的语言。Python 很适合这种任务，主要是因为它具有相对简单的语法并且易于编写。
关于嵌入式应用呢？
我并不是嵌入式应用专家，但是我知道 Python 可与 Raspberry Pi 一起使用。Raspberry Pi 似乎在硬件爱好者中很流行。
关于游戏编程呢？
你可以使用 PyGame 的库来开发游戏，但它不是最受欢迎的游戏引擎。你可以使用它来构建一个喜好的项目，但是如果你想正式学习游戏开发，我个人不会建议选择它。
相反，我建议使用 Unity C＃（最受欢迎的游戏引擎之一）入门。你可以使用它构建很多平台支持的游戏，包括 Mac、Windows、iOS 以及 Android。
关于桌面应用呢？
你可以使用功能 Python 的 Tkinter 模块，但是它并不是最受欢迎的选择。
取而代之的是，似乎 Java，C＃和C ++ 之类的语言更受欢迎。
最近一些公司也开始使用 JavaScript 来创建桌面应用。
例如，Slack 公司的桌面应用是由 Electron 构建的。Electron 允许你使用 JavaScript 构建桌面应用。
对于我个人而言，如果我正在构建一个桌面应用，我将会选择使用 JavaScript 语言。如果你使用 JavaScript 的话，它可以让你重用Web版本中的某些代码。
然后，我并不是一个桌面应用的专家，所以请给我留言，告诉我你支持还是反对我的观点。
Python 3 还是 Python 2？
我建议使用 Python 3，因为它是较新版本，并且是目前最受欢迎的选择。
脚注：关于后端代码与前端代码的注释（以防你不熟悉这些术语）：
假设你想制作类似 Instagram 的产品。
你需要去创建你想要支持的每一个类型设备的前端代码。
你或许会使用如下技术，比如：
Swift for iOS
Java for Android
JavaScript for web browsers
每组代码将在各自类型的设备/浏览器上运行。这将是一组用于确定应用程序的布局、单击时的按钮样式等的代码。
然而，你仍然需要能够存储用户的信息和图片。你将会想要存储这些信息到你的服务器上，而不仅仅是存储到你的用户的设备上，以至于可以让每个用户的关注者可以访问到他/她的图片。
这就是后端代码/服务器端代码出现的地方。你将会需要写一些后台代码去完成下面的事情：
追踪谁关注了谁
压缩照片以免占用太多存储空间
在 discovery 功能中向每个用户推荐照片和新用户
所以，这就是前端和后台代码之间的差异。
顺便说一下，Python 并不是编写后端/服务器端代码的唯一的选择。还有很多流行的选择，包括基于 JavaScript 的 Node.js。
喜欢这篇文章吗？ 然后，你可能也喜欢我的 YouTube 频道。
我在 YouTube 有一个编程教育频道，叫作 CS Dojo，有 440,000 多名订阅者，在这里我可以创作更多类似本文的内容。
非常感谢你阅读我的文章！
原文：What exactly can you do with Python? Here are Python's 3 main applications，作者：YK Sugi

机器学习 - freeCodeCamp.org

如何通过机器学习计算两个数字的和

深度学习基础知识

神经网络（Neural Network）

激活函数（Activation Function）

损失函数（Loss Function）

梯度下降法（Gradient Descent）

反向传播（Backpropagation）

批次数量（Batch Size）

训练轮数（Epoch）

准备

如何使用机器学习求两个数的和

创建文件夹和文件

导入库

准备数据

定义神经网络

编译模型

训练模型

测试模型

打印数值

总结

9 个核心机器学习算法

推荐系统

什么是推荐系统？

推荐系统和线性代数

推荐系统的工作原理是什么呢？

本节小结

线性回归

线性回归的历史

线性回归的数学原理

逻辑回归

什么是逻辑回归？

S型函数

利用逻辑回归模型开展预测

使用混淆矩阵来衡量逻辑回归的性能

本节小结

K近邻算法

什么是K近邻算法？

建立K近邻算法的步骤

K近邻算法中K值的重要性

K近邻算法的优缺点

本节小结

决策树和随机森林

什么是树方法？

如何从零开始构建决策树

使用随机森林的优点

本节小结

支持向量机

什么是支持向量机？

支持向量机如何工作？

本节小结

K均值聚类

什么是K均值聚类？

K均值聚类算法如何运作？

为K均值聚类算法选择合适的K值

本节小结

主要组件分析

什么是主要组件分析

线性回归与主要组件分析的区别

本节小结

零基础入门机器学习（视频教程）

如何在机器学习中检测异常值——4 种检测异常值的方法

为什么需要发现异常点

如何通过标准差发现异常值

使用标准差检测异常点的代码

如何用过z-score检测异常值

使用z-score检测异常点方法的代码

通过四分位距(IQR)检测异常值的方法

通过四分位距（IQR）检测异常值方法的代码

利用百分位数方法检测异常值

使用百分位数检测异常值方法的代码

结语

Python 基础教程之应用领域

Web开发

但是等一下，为什么我需要一个 web 框架呢？

我应该用哪一个 web 框架？

Django 和 Flask 之间的区别是什么？

数据科学 - 包括机器学习，数据分析和数据可视化

首先，回顾下机器学习是什么 。

适用于机器学习的 Python

首先，回顾下机器学习是什么。