数据分析包含了数据检查、清洗、变换和建模等流程,借助数据分析,我们可以从数据中获取有用的信息。

在现代生活中,数据分析无处不在:它有助于技术的改进,软件的构建以及产品的发展。

本文首先会介绍数据分析的核心原则及其应用,接着会提供一些示例,借助这些示例所展示的方法,你也可以在自己的数据集上获得有价值的信息。

同时,我也会分享几个大家所熟悉的,诸如网页优化、健康和饮食软件,农业和保险等产品中的数据分析应用。

如果你也认同“数据是影响你决定的向导“,那么就往下继续学习吧。

例题

首先,看看你是否可以回答以下这些问题。

即使现在不能轻易地回答出这些问题,也没有关系。

相信通过本文的学习,你一定可以轻松地给出答案。

一家只售卖一件商品的互联网零售业务经理发现,大约有 26% 的网页访问者会购买商品。他同时也发现这些消费者的行为是独立的。

现在假设有 8 位潜在的消费者每天都会访问网站。这位经理参加了一个激励计划:如果一天之内有超过三位(包含三位)消费者在该网站上进行了消费,那么经理将得到 $300 的日薪,否则他只能得到 $100 的日薪。

a. 这位经理得到 $300 日薪的概率是多少呢?

答案:~35%

b. 这位经理的期望日薪是多少呢?

答案:$170

c. 现在,这位经理一共有三个可选择的激励计划:(a) 没有基础工资,但是每卖出一件商品,就可以获得 $75 的奖励;(b) 每天固定工资 $165;(c) 保持原激励计划不变

如果这位经理想要最大化自己的期望收益,他该选择哪一个激励计划呢?

答案:原来的激励计划

数据分析的基本概念

我们需要先对数据本身有一定的了解,才能在此基础继续学习,从而解决上述问题。

关于数据分析首先要知道的是,数据有不同的类型。这个概念就和听上去的一样简单易懂。

按照不同的数据分类规则,数据可以被分为不同类型。

数据可以是分类数据(性别、地点等);也可以是数值型数据(客户数量、活跃用户数等)。

数据可以是离散的,比如说一份工作的应聘人数就是离散的;也可以是连续的,比如说一些无限可能的结果。

在开始数据分析前,了解你的数据类型是非常有必要的。

你所拥有的数据是离散的还是连续?你的数据是分类数据还是数值型数据?

在回答了这些问题之后,你才可以对数据进行进一步的挖掘。

除了上述两种分法外,数据还可以根据其和时间的关系,分为下面三大类:

  1. 截面数据类型:这种数据描述了某个时间点上,事物的模式或者趋势。像人口普查这种民意调查的结果就是截面数据的一种。
  2. 时间序列数据类型:这种数据与一段时间相关,比如我的测试成绩、一段时间内的工资、 公司一年的折扣情况等都属于时间序列数据。
  3. 面板数据:像公司存在客户关系管理(CRM)系统中的数据就是面板数据的一种。面板数据包含了多个事物在多个时间点上的信息。随着存储设备日趋便宜,这种数据类型也变得更加普遍。

离散程度:数据是如何组织的

通过观察数据的形状,你可以大致地了解到它们的离散程度。

我们也可以使用集中趋势这一方法对数据进行组织。

首先我们让数据从小到大排序。

当数据有序地排列时,你就可以直观地看到他们的离散程度。

你可以通过最大数据值减去最小数据值的方式得到数据的取值范围,这是衡量数据离散程度一种方式。

如果数据的取值范围很大,我们就可以称这样的数据具有较高的离散程度。

最后,你可以在现有可获得的数据或是数据集中,尝试计算出他们的平均值,中位数和众数。

现在试想一下这个实验:假设你在装满 M&M 巧克力豆的不透明罐子里取出了一颗红色的巧克力豆,你对这罐巧克力豆会有什么样的想法呢?

显然,仅仅一次的实验结果并不能让我们得出什么有用的推断。下面我们就用置信区间这一概念进行解释。

置信区间

置信区间就是当前样本数据可能的取值范围,这个可能性的大小我们用置信度来描述。

置信区间以置信上限和置信下限作为区间的上下限,整个数据的均值往往也是这个区间的均值,置信度则用百分数来表示。

回到 M&M 巧克力豆的问题。

假设你做了无数次的实验,每次都从这个罐子里取出了红色的巧克力豆。也就是说,你只能取出红色的巧克力豆。那么此时你对这罐巧克力豆有什么样的猜测呢?

你会觉得_很有可能_这个罐子里只有红色的巧克力豆。这是一个有效的结论。

需要注意的是,我们并不是说“这个罐子里没有其他颜色的巧克力豆”。而是说有很大的可能性,这个罐子里只有一种红色的巧克力豆。

你每取出一颗红色巧克力豆,这个推论的置信度就会相应增加。

抽样 vs 整体测量

在收集数据的时候,你既可以关注总体所有的数据,也可以关注总体数据的抽样样本。

为了说明世界上的 M&M 巧克力豆只有一种颜色,你是否需要看遍每一颗巧克力豆?还是只需要关注抽样后的巧克力豆?

当总体数据过于庞大时,抽样就有了意义。

抽样总体是总体数据中的一个子集。通过对这个子集的分析我们可以推测出总体数据的某些特性。

抽样可以帮助我们了解在某一个分布中,某一件事发生了多少次或者某一种类型的结果出现了多少次。

整合:抽样和期望

观察是数据分析的关键,因为观察可以帮助你回答一些特定的问题:

  1. 事情发生的可能性有多大?
  2. 如果某件事的概率已知,那么当这件事发生的时候,你可以获得多少收益?

某件事发生的期望就是这件事情发生的概率乘上总的事件发生次数。

当大多数的收益数据都低于该数据集的中点值,那么你的期望收益就会增加。想象一下创立一家成功的公司的概率。大多数公司不会发起首次公开募股(IPO),因此它们不能从中得到收益。

那么相应地,那些发起 IPO 的公司就会获得巨大的收益。当我成立一个[帮助人们远程办公]的网站时,我认为成功的概率最多只有 10%。

Jeff Bezos 曾说他认为 Amazon 成功的概率有30%。

我们经常用标准差来描述数据的离散度,标准差就是方差的算术平方根。

方差是每个数据与该数据集的平均值的差的平方的总和。

例题和答案

本文已经概括性地介绍了统计和数据分析中的核心概念。

现在利用这些新学到的知识,尝试回答下面两个问题。

如果你能成功解决它们,说明你学习得不错!

网站的设计者和程序员 John Bell 想要知道,创立一家网页设计公司是否可以盈利。

根据客户需求的不同,John 认为他的公司可以提供四种不同的服务:

  • 极低需求 - 只有 1% 的公司会使用这种服务,John 因此会损失 $100,000
  • 低需求 - 只有 5% 的公司会使用这种服务,John 因此可以盈利 $10,000
  • 中等需求 - 有 10% 的公司会使用这种服务,John 因此可以盈利 $25,000
  • 高需求 - 有 29% 的公司会使用这种服务,John 因此可以盈利 $75,000

根据过往的设计网站的经验,John 认为每种需求的占比如下:

P(极低需求) = 0.20
P(低需求) = 0.50
P(中等需求) = 0.20
P(高需求) = 0.10

(a) 建立决策树并计算提供服务的期望收益

.2 * (-100,000) + .5 * (10,000) + .2 * (25,000) + .1 * (75,000)
= $ -2,500

(b) 当 John 知道每种需求的类型时,计算他的期望收益(也就是他可以拒绝极低需求的开发工作)

.5*100,000 + .2*25,000 + .1*75,000 = $17,500

换言之,John 相信如果开设公司,他将会赚 $17,500。

有了数据分析作为前瞻性指导,John 可以决定是继续开公司还是寻找另一种展现才华的方式。

关于数据分析的个人想法

本文只是一篇启发式读物,希望它可以激发你学习和研究数据分析的兴趣。

学习数据分析将帮助你更好地理解软件和开发自己的产品。就像 John 的例子一样,你也可以使用数据分析的方法为你的决策提供更具前瞻性的指导。

在了解成功与失败的赔率时,你可以选择冒险一试。你也可以运用计数原理来做出不同决策。

数据分析也会帮助你理解科技是如何改变线下环境,因此促使你成为一名更有想法的消费者。

数据分析的应用范围十分广阔。不知道看到这里的你是否也对它在科学、技术、商业、软件或者产品设计等方面的应用感兴趣呢?

现在我将正式说明数据分析在这些领域中的深远影响。

首先考虑我们的身体。

健康产品健康营销,健身 app 都使用了来自用户的数据,并通过分析这些数据来优化自身产品(比如说心率数据、血氧数据、睡眠模式等)。

这些产品通过数据分析评估用户实时状态、生理特征识别和情绪分析。

再来看看软件。

低代码量开发 工具也使用了数据分析的方法为开发者们提供了各式各样可能的用户体验。在这个项目中,数据模块是提前定义好的。

和软件很像,教育行业也正在通过数据分析进行转型。学校的在线学习模式和儿童编程 app依赖于数据分析进行风险管理(当学生的进度落后时)和复习。

接着再考虑保险险别是如何定价的。

当保险公司需要对不同保险政策定价时,抽样就发挥了作用。越来越多的金融机构和保险公司运用数据分析来评估用户的声誉,以此来定价和销售保险合同,以及自动化与客户的互动。

网页设计也值得一提。

无论你是否主动想要将数据分析运用到搭建下个电话追踪软件还是真相收集网页,数据分析都会帮助你衡量事物重要性并且将数据转化为有价值的信息。

数据分析在农业领域也很重要。

高科技种植业比如 JoyOrganicsTakeSpruce都在使用数据分析对农产品进行了完整的追踪,从种子萌芽成长开始一直到收获销售。

农民们使用数据分析嗅到高回报的信号,并且优化他们的种植过程。

再想想室内环境检测自然语言处理

还有CRM 软件的搭建和人们在日常生活中的实时交流

简而言之,多想想我们身处的现代社会。

所有这些产品都使用了数据分析,包括但不限于计算抽样误差、标准差、回归等手段,保证了产品质量和用户满意度。

当然,在开始使用这些复杂的统计学工具前,大家都是从最基础的要素入手的,包括频率、离散度、平均值和标准差。

有了这些手段,数据分析就可以把数据转换为我们所需要的有用信息。

更重要的是,所有这些工业产品都使用了数据分析来做取舍,也用数据分析更深层次地理解他们的用户是如何使用自己的产品。

在这些领域的深度探索,无疑会使你成为一位更加全面和坚持不懈的开发者。

姑且不论上述提到的种种好处,学习数据分析本身也是一件十分有价值的事情。

原文:What is Data Analytics? A 30,000-Foot Intro to Key Data Analysis Concepts,作者:Adam Naor