原文:What is Data Analysis,作者:Dionysia Lemonaki

如今,数据无处不在。随着时间流逝,我们产生的数据总量也与日俱增。

目前虽有大量的可用数据,但是我们应该怎么处理这些数据?如何使用它们?这些数据又意味着什么?

如果我们只是在电子表格或数据库中收集和存储数据,而不去观察它、探索它、研究它,那么数据就没有意义。

数据分析师使用工具和流程去挖掘数据的意义。他们负责数据的收集、处理、调查、分析,得到洞察并获取新知。

这也是对数据分析师存在大量需求的原因之一:他们在商业和科学中发挥着不可或缺的作用。

在这篇文章中,我会首先介绍数据分析作为一个术语的含义,并解释它为什么如此重要。

我也会拆解数据分析的过程,并列出进行数据分析所需的一些必要技能。

以下是我们将涉及内容的概览:

  1. 什么是数据?
  2. 什么是数据分析?
  3. 数据分析为何重要?
    1. 精准定位客户
    2. 衡量成功和表现
    3. 解决问题
  4. 数据分析流程概览
    1. 步骤一:识别并明确需要解答的问题
    2. 步骤二:收集原始数据
    3. 步骤三:清洗数据
    4. 步骤四:分析数据
    5. 步骤五:分享结果
  5. 数据分析需要什么技能?
    1. 熟练掌握数学和统计学知识
    2. 了解 SQL 和关系型数据库
    3. 掌握一门编程语言
    4. 熟悉数据可视化工具
    5. 了解 Excel

什么是数据?数据的含义和定义

数据是指事实和碎片信息的集合。

数据对决策、计划甚至讲故事都至关重要。

有两种广泛而普遍的数据类型:

  • 定性数据
  • 定量数据

定性数据 是指用非数字字符表示的数据。

它表现为图片、视频、文稿或音频。

这一类型的数据不能被测量或计数。

它用于确定人们对于某事的感受——它关于人们的感受、动机、观点、看法,并包含偏见。

它是描述性的,旨在回答诸如“为什么”、“如何”和“是什么”等问题。

定性数据通过观察、调查和对受访者的访问收集。

定性数据用数字字符表示。

这一类型的数据可计数、可测量、可比较。

它关于数字的数量,涉及诸如总量和平均数。

它旨在回答诸如“多少”、“多频繁”、“多久”的问题。

收集、分析、解释定量数据的行为,被称为统计分析。

统计分析有助于发掘数据中的潜在模式和趋势。

什么是数据分析?给初学者的定义

数据分析是通过对数据的清理、转换、操纵和检查,以将原始、混乱的数据转化为有用认知的行为。

从数据中获得的认知,会以图表、图形或仪表盘的形式,直观地展现出来。

被提取出的认知可以帮助企业或组织成长。决策者将能够得出可行的结论,并做出正确的商业决策。

从原始数据中获取知识,将帮助企业或组织推行触达更广泛客户群体的举措,在提升业绩的同时,增加利润。

数据分析的核心是识别和预测趋势,从现有数据中找出模式、相关性和联系,并为复杂问题找到解决方案。

数据分析为何重要?

数据即知识。

这意味着,数据对各行各业都不可或缺。

即使对行业内的每个部门来说,数据也是大有裨益的,不论是行政部、财务部、后勤部、营销部、设计部或工程部,不一而足。

下面,我将解释为何探寻数据、并为数据赋予背景和意义至关重要。

数据分析提升目标客户定位

通过分析数据,了解你的竞争对手,你将使自己的产品或服务与当前市场需求相匹配。

数据分析还能帮你确定产品或服务的最佳受众群体。

这样,你将能通过精准的定价策略,确保你的产品或服务实现盈利。

你也能开展更具针对性的活动,并了解将广告和内容直接有效触达受众的方法和形式。

了解你产品或服务的真正受众将改变你的整个战略,它将变得更以客户为导向,并根据客户需求定制。

本质上讲,有了适当的信息和工具,你将明白怎样交付既有价值,又有质量的产品或服务。

你也确保自己的产品或服务能为客户解决一个痛点。

这在产品开发阶段尤其重要,因为它既减少开支,又节省时间。

数据分析衡量成功和表现

通过分析数据,你可以衡量自身产品或服务与市场其他竞品的相对表现。

你既能识别出自身具有成功且理想结果的优势领域,也能确定存在问题的弱势领域。

此外,你还可以预估问题可能发生的领域并防患于未然。通过采取行动,防止问题的发生。

通过分析数据,你会明白在未来应该在何事上深度聚焦,在何事上抓大放小。

通过创建表现图,你可以设定目标并确定潜在机会。

数据分析可以帮助解决问题

通过对关联、正确且准确的数据进行分析,你将对需要做出的正确选择及如何做出更明智的决定都有更好的理解。

数据分析意味着拥有更好的洞察力,这有助于改善决策,并导向问题的解决。

以上这些都会帮助业务成长。

缺少数据分析或数据不足,可能是你的业务停滞的原因之一。

如果是这种情况,数据分析将有助于你在未来提出更有效的战略。

如果你的业务正在成长,数据分析将让它如虎添翼。

数据分析将助力业务潜力发挥,满足不同的目标:如提升客户留存率、开发新客户或提供更顺畅、愉悦的客户体验。

数据分析流程概览

步骤一:识别并明确需要解答的问题

确立一个明确目标是数据分析过程的第一步。

在着手收集大量的数据之前,首先要想清楚为什么要进行数据分析。

你希望解决什么问题?

此次数据分析的目的是什么?

你想做什么尝试?

你想要达成什么?

最终目标是什么?

你想从数据分析中获得什么?

你真的需要数据分析吗?

在这个阶段,对自身商业目标的洞察和理解是至关重要的。

首先,明确你需要答案的正确问题,以及近期和长期的业务目标。

接着,确定数据分析需要什么、需要什么样的数据、需要跟踪和测量什么数据,并思考你想解决的具体问题。

步骤二:收集原始数据

下一步要确定收集数据的类型--它是定性的(非数字、描述性的)还是定量的(数字的)。

收集数据的方式和来源,取决于数据是定性的还是定量的。

下面是一些收集相关且适当数据的方法:

  • 查阅此前在用户分类、调查、表单、问卷、内部文档和业内访谈中的已有结果。
  • 查看客户评论和满意度反馈。
  • 查看交易和历史购买记录,以及由企业财务部或营销部编制的相关报告。
  • 使用公司的客户关系管理系统(CRM)。
  • 监测网站、社交媒体上的活动以及每月访客。
  • 监测社交媒体的用户参与度。
  • 追踪常见的搜索关键词和搜索语句。
  • 检查常被点击的广告。
  • 检查客户转换率。
  • 检查电子邮件打开率。
  • 使用第三方的服务,比较公司与竞争对手的数据。
  • 查阅数据库。
  • 利用网络爬虫,通过爬取开放数据集来获取收据。网络爬虫 是指从网站上提取数据和收集内容的行为。

步骤三:清洗数据

一旦你从多个渠道完成了数据收集的工作,了解其中数据的结构是很重要的。

同样重要的是,检查你是否已经已经收集了全部所需数据,以及其中是否有任何关键数据被遗漏。

如果你通过多个来源收集数据,你的数据很可能是非结构化的。

原始的、非结构化的数据无法使用。不是所有的数据都必然是好数据。

清洗数据是数据分析过程中最重要的部分,也是数据分析师投入大部分时间的部分。

数据需要被清理,这意味着对数据进行纠错、打磨和分类。

这可能包括:

  • 寻找离群值(异常大或异常小的数值)。
  • 修正错别字。
  • 删除错误。
  • 删除重复数据。
  • 处理格式的不一致。
  • 检查空值或纠正失真的数据。
  • 检查矛盾之处。
  • 舍弃无关数据和在分析中不需要的数据。

这一步将确保你聚焦于分析正确、适当和高质量的数据。

如果你对无关或错误的数据进行分析,它不仅会影响你的单次分析结果,甚至对整体分析都会产生负面影响。

所以,你最终分析的准确性将取决于这一步。

步骤四:分析数据

下一步,是基于在步骤一中确定的问题和目标,对数据展开分析。

根据企业的目标及目的,共有四种不同的数据分析技术:

  • 描述性分析:这一步是分析过程中的起始和基础步骤。它通过总结收集到的数据,以回答“发生了什么?”。它回顾数据中的关键点,并强调已经发生的事情。
  • 诊断性分析:这一步利用收集到的数据,试图了解当前问题背后的原因,并识别模式。它的目的是回答“这为什么会发生?”。
  • 预测性分析:这一步着眼于察觉和预测未来的趋势,对企业未来的发展尤其重要。它旨在回答"未来可能会发生什么
  • 规范性分析:这一步需要收集前三个步骤中的所有见解,为未来提出建议,并创建一个可行的计划。它的目的是回答“需要做什么?

步骤五:分享结果

最后一步是阐释你的发现。

通常会使用数据可视化工具来创建报告、图表、图形或交互式仪表盘。

当你向利益相关者、业务主管和决策者介绍发现和分析结果时,上述这些都会起到帮助作用。

数据分析师是讲故事的人,这意味着拥有强大的沟通技巧很重要。

他们需要数据和叙事,从而以清晰、简洁、直截了当的方式来展示结果。

这一步将影响企业的决策和未来选择。

数据分析需要什么技能?

熟练掌握数学和统计学知识

作为一名数据分析师,你使用的数学知识量将根据工作的不同而不同。有些工作可能比其他工作更需要使用数学。

你不一定非要成为一个数学奇才,但对数学基础知识的基本了解,将对你有很大帮助。

这里有一些数学课程可以让你起步:

数据分析师需要掌握统计学和概率知识,以收集和分析数据,找出其中的模式,并从数据中得出结论。

要想开始学习,可以先从统计学入门课程入手,然后继续学习进阶课题:

了解 SQL 和关系型数据库

数据分析师需要了解如何运用数据库以提取数据。

数据库是储存数据的电子空间,其中的数据可以很容易地被检索和查询。

关系型数据库是结构化的,所有存储的数据项目都有预先定义的相互关系。

SQL 是 Structured Query Language (结构化查询语言)的缩写,是用于查询和与关系型数据库互动的语言。

通过编写 SQL 查询语句,你可以对数据进行 CRUD (Create(创建)、Read(读取)、Update(更新)和 Delete(删除))操作。

要想学习 SQL ,可以参考以下资源:

掌握一门编程语言

掌握一门编程语言,会让数据分析师在进一步组织和操作数据库中受益良多。

在数据分析领域,最受欢迎的两种语言是 Python 和 R 。

Python 是一种通用的编程语言,因其语法类似英语,所以对初学者非常友好。它也是数据分析中最常用的技术工具之一。

Python 提供了丰富的用于数据处理的包和库,如 Pandas 和 NumPy ,以及用于数据可视化的 Matplotlib 。

要想开始学习,可以先看下零基础如何学习 Python

一旦你理解了基础知识,你就可以继续学习 Pandas 、 NumPy 和 Matplotlib 。

这里是一些可供学习的资源:

R 是一种用于统计分析和数据分析的语言。换言之,它不像 Python 那样适合初学者。

要开始学习 R 语言,可以从以下课程入手:

熟悉数据可视化工具

数据可视化是对数据的图形化解释和展示。

这包括创建图形、图表、交互式仪表板或地图,以便于与其他团队成员及重要的利益相关者分享。

数据可视化工具本质上是用于依托数据讲故事并推动决策。

Tableau 是最受欢迎的数据可视化工具之一。

要学习 Tableau ,请查看以下课程:

了解 Excel

Excel 是数据分析中最必不可少的工具之一。

它用于存储、结构化和格式化数据,运行计算、总结数据和识别趋势,将数据进行分类,并创建报告。

你也可以使用 Excel 来创建图表和图形。

要学习如何使用 Excel ,请查看以下课程:

总结

这是文章的最后一部分了——非常感谢你能阅读到最后。

希望这篇指南对你有所帮助,能让你了解什么是数据分析、数据分析为何重要,以及进入这个领域需要何种技能。

感谢你阅读本文!