原文: Statistics for Beginners – Top Stats Concepts to Know Before Getting into Data Science

你可能听说过,统计学是数据科学的入门门槛,是打开数据科学的钥匙。

可能你还听说过,想学数据科学,必须先学统计。 这时候你也许会迟疑,“我不是理工科背景,没有相关数学基础,我是不是要把统计学的相关知识学习完,才算入门了数据科学啊?“ 有些人会告诉你:“是的!你必须先学习统计学。”

而我的回答是:在开始数据科学之前,你不需要学习所有的统计学(尽管你需要掌握一些基础知识)。

你可以边学边做,而不是浪费时间在数据科学之前先修统计学(也就是说,随着你对数据科学知识的进一步了解,你同时可以学到更多的统计学概念)。

话虽如此,了解一些统计学基础知识,还是很有必要的。确实可以这样说,统计学是打开数据科学的钥匙,因为它会让你对数据更为敏感,知道如何处理它们。

在这篇文章中,我将介绍一些入门数据科学所必须的统计学概念。我将尽量用简单的语言来介绍,即使你不是理工科出身,我相信你听完以后也会十分兴奋,迫不及待想进入数据科学领域。让我们开始吧。

什么是统计学?

根据经济学家和抽样方法先驱阿瑟-里昂-鲍利(Arthur Lyon Bowley)的说法,统计学是:

“对调查事件的量化描述,并将之与其他事件进行联系。”

这句话的意思是,统计学帮助我们理解数据,并向他人传达数据得出的结果。

统计方法(即在处理统计数据时所采用的技术方法)分为两种类型:

  1. 描述统计
  2. 推断统计

描述统计是统计学的一大分支,它协助我们通过数值或图形可视化来总结数据。

描述统计帮助我们识别和理解数据中的一些关键属性。它包含如中心极限、离散、箱形图、直方图等概念,我们将在下文讨论这些概念。

推断统计是统计学的另一大分支,它帮助我们根据收集到的数据做出决策或预测。

推断统计是在描述性统计的基础上,更进一步的推理判断。它包括诸如假设、概率等概念。

数据科学入门必备统计学概念

既然你现在已经熟悉了统计学的定义,让我们来看看在统计学中需要知道的一些相关概念,这些概念将带你入门统计学。

其中最基本的概念包括:

什么是对象?

对象是我们想要观测的具体事物。它可以是一个人,一个动物,或其他东西。它也被称为观测点。

什么是总体?

总体指的是我们感兴趣的(也就是我们想观察的)整个对象集,比如一个国家的全体女性人数。

什么是样本?

现实情况下,观察一个总体几乎不可能(因为它费时费力)。

比如:你希望观测世界上所有女性数量,但进行这种观测成本很大。所以,在统计学中,我们有一种叫做样本的东西,它是总体的一部分或子集。我们可以利用样本对全部人口做出判断(推断统计)。

什么是参数?

参数是描述总体特征的度量。比如,你正在观测一个国家的人口,你发现90%的居民为男性,10%为女性。数值90%和10%是整个人口的性别度量(描述统计)。它就是总体特征的一个参数。

什么是统计量?

统计量(不要与统计学混淆)是描述样本特征的度量。如前所述,我们没法观测总体,只能观测样本,统计量就是对样本特征的数值度量。

希望现在你对什么是总体、样本、统计量和参数有了基本了解。让我们来看看另一个我们都很熟悉的概念:"数据"。

数据代表了事件信息,也就是说,它向我们传达了一个事实。它可以被分为两类:

  1. 定量数据。
  2. 定性数据。

什么是定量数据?

它也被称为数值数据。它是一种可以计数或计量数值的数据。定量数据可以进一步分为两种类型:

定量离散数据:它可以计数但不能精确计量, 比如计数鞋店中的鞋子个数。

定量连续数据:这是一种基于精确计量的数值数据。例如,测量一个玻璃缸的重量。

什么是定性数据?

它是代表类别或数据组的各种数据。它也被称为类别数据。它通常是特征、名字或其他东西的名称分类。

常见的例子包括人名,狗的品种等等。然而,有一些数据看起来像数值数据,但也被归为类别数据。

例如,假设你想根据年龄对某一群人进行分组,发现最低和最高年龄分别是10岁和60岁。然后你把年龄分成5个类别(10-20岁,21-30岁,31-40岁,41-50岁,51-60岁),并给每个类别分配数值,其中1代表10-20岁,2代表21-30岁,以此类推。

在这种情况下,数值将被作为定性数据而不是定量数据来处理。随着不断深入数据科学,你将学会如何处理类别数据。

了解了数据分类,现在我们来看看定量和定性数据在统计学中是如何计量的。统计学依据数据的计量尺度将数据划分为4类,它们分别是:

  1. 名义数据
  2. 有序数据
  3. 间隔数据
  4. 比率数据

定性数据可以用以下方式计量:

名义数据:名义数据是无序的分类数据,也就是说,它们不能被排序。

每一组数据都代表一个分类,比如颜色。蓝色没有任何理由排在黄色之前。在处理名义数据时,每组数据都必须作为一个独立的分类来处理。

有序数据:有序数据是有顺序的分类数据。当数据被排序后,就有了先后顺序。像优秀、良好、满意和不满意这样的调查回答就是一个例子。将优秀排在良好之上符合现实需要。

定量数据可以用以下方式计量:

间隔数据:间隔数据是指有排序的数值数据,并且可以进行测量(比如,数据之间可以相减)。温度计的读数就是一个间隔数据例子。

例如,你可以测量摄氏4度和10度之间的差值,10度比4度高6度。间隔刻度数据有两个特点:

  1. 它没有一个起点(也就是说,它不从零开始,可以有一个低于零的温度值)
  2. 无法计算出它们的比例。比如,80摄氏度比20摄氏度高4倍,这不符合逻辑,因为它们没有一个起点。

比率数据:比率数据具有间隔数据可以被排序和计量的特点,但比率数据有一个共同的起点,所以能计算它们之间的比率。

比如考试成绩分别为20、68、90或80分。我们可以给它排序,计算差值,并找到数值之间的比率,比如80分比20分高4倍。

现在我们已经介绍了数据的基本概念,接下来我们看看第一大类统计方法(描述统计)如何处理数据。

如前所述,描述统计需要用数字或图形来总结数据。让我们来看看在处理数据时,你会经常用到的一些最典型的数字和图形。

平均数 vs 中位数 vs 众数 --- 它们有什么区别?

Visualisation_mode_median_mean

上图解释了平均数、中位数和众数的区别。众数是最高点,中位数是中间点,而平均数是均值。

什么是平均数?

当我们有一组像4,5,6,7,10这样的数值数据时,这组数据中的每个值都被称为一个数据点。我们可能想找到这组数据的平均值。

平均值本质上就是一组数据的平均数,计算方法是所有数据点的总和除以数据点的总个数。

上面的数据集的总和是32,数据点的总个数是5,所以平均数,也就是平均值,是6.4。

平均数只存在于定量数据上,定性数据没有平均数。

什么是中位数?

给定一组数值,我们可能想找到位于中间位置的数值,中位数就是最中间的数据点,中位数也只存在于定量数据。

什么是众数?

众数是最高频出现的数据点(也就是出现次数最多的数值)。定量数据和定性数据都有众数。

什么是离群值?

离群值是指与其他数据点显著不同的异常数据点。离群值会导致我们得出错误的结论。下面就是一个典型的例子。

假设你有一台机器能计算每天进入超市的顾客数。它某一周值为20、23、26、27、302。我们可以判断302就是一个离群值,因为它与其他数值有很大的差别。

离群值可能是由突然的变化、机器故障或其他情况造成的。它们的出现会导致错误结论。例如,如果想知道平均超市顾客访问量,数值302就可能具有误导性,让我们认为平均访问量是75。

什么是标准差?

标准差是一种描述性数值,表明数据点与平均值的偏离程度。它被用来确定数据的分布情况。

标准差越接近于零,数据点就越趋近于平均值。

标准差是一种非常重要的描述性统计。它能告诉我们数据集的离散程度。下图是一张数据正态分布图,X轴以标准差为刻度。

1920px-Standard_deviation_diagram.svg

从上图可以看出,34.1% + 34.1% = 68.2% 的所有观测值都在一个标准差之内,或1σ(读作一个西格玛)。

加上13.6%+13.6%=27.2%的观测值在两个标准差之内,或2σ,以此类推。

不知道你是否听说过六西格玛这个工程学概念。它表示在质量保证过程中要考虑到六个标准差的可能性。这意味着除了最最极端的异常值之外,你要考虑到所有的情况。准确地说,是所有可能性的99.99966%。

现在我们已经掌握了一些以数字进行描述统计的方法,接下来让我们来看看一些常见的图形描述方法。

什么是柱状图?

柱状图用于类别数据的可视化。用它可以来展示每组数据的频数(即一个类别中数据点出现的次数)。如图所示:

download-1

什么是直方图?

直方图与柱状图类似,用以展示数据组的频数。但与柱状图不同的是,它展示了定量连续数据组的频数,这些连续数据组也被称为区间或组距。

直方图是非常有效的可视化图形,可以帮助展示定量数据的分布。你可以在这里读到更多关于直方图的信息。

image-2

什么是箱型图?

另一个非常棒的数据描述图表就是箱型图。

箱型图可以直观地查看是否存在离散点,它还展示了诸如最小区间值、第一四分位数,中位数,第三四分位数和最大区间值等数字。箱型图如图所示:

图片由 Ibrahim Ogunbiyi 提供
图片由 Ibrahim Ogunbiyi 提供

让我们来来看看上图都代表了什么意思。

最小区间值:最小区间值并不是最小值。它等于 ( Q1 -1.5*IQR) 。

  • Q1是第一四分位数。
  • IQR是第三四分位数和第一四分位数的差值。

最小区间界定了正常数据点的范围,它可以帮助我们发现那些小于正常范围的离散点。

举个例子,假设我们的数据点是像这样分布[345, 402, 295, 386, 10]。我们可以判断数据点10是一个离群点,因为它远低于其他观察值。

第一四分位数告诉我们25%的数据点低于这个数值,75%的数据点高于这个数值。它也被称为第25百分位数。

第二四分位数告诉我们50%的数据点低于该数值,其余50%高于该数值。它也被称为第50百分位数。

第三四分位数告诉我们75%的数据点低于该数值,其余25%高于该数值。它也被称为第75百分位数。

最大区间值,和最小区间值一样,也不是数据集中的最高值。它的计算公式是(Q3+1.5*IQR)。

  • Q3 是第三四分位数。
  • IQR是第三四分位数和第一四分位数的差值。

最大区间值可以帮助我们发现那些远高于其他观察值的离散点。

比如,假设我们的数据点是像这样分布[645, 40, 25, 38, 42]。我们可以确定645是一个离散点,因为它是远远高于其他观察值。

总结完不同类型的数据图形展示后,让我们进入最后一个话题:

什么是定量变量之间的相关性?

变量是代表任何一组数值的统称,时常表示为表格中的一列。

如果一个变量中的数值变化引起另一个变量中的数值变化,我们就称这两个变量具有相关性。

为了度量两个定量变量之间的相关性,我们常常用卡尔-皮尔逊公式来计算,其结果在-1和+1之间。

如果相关值接近1,表明这两个变量正相关(也就是说,当一个变量数值增加时,另一个变量数值也会增加)。如果数值接近-1,表明这两个变量负相关(即随着一个变量数值增加,另一个变量数值减少)。最后,如果相关值为0,则两个变量之间没有相关性。

你可以在这里阅读更多关于相关性和卡尔-皮尔逊公式的知识。

什么是散点图?

我们可以通过散点图来表示定量变量之间的相关性,如下图所示。

图片来源:散点(XY)图(mathsisfun.com)
图片来源:散点(XY)图(mathsisfun.com)

想要了解更多散点图内容,可以点击这里

结论:学无止境

在本教程中,我们已经探讨了一些基本的统计学概念,这些概念将帮助你更有效地处理数据。

但学无止境---还有一些基本的统计学概念我们没有涉及,你必须自己去学习。这只是一个开始,你可以通过查阅在线资源或教科书进行更深入地学习。

非常感谢你阅读本文。请将本文分享给那些也想涉足数据科学的初学者。