<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/"
    xmlns:atom="http://www.w3.org/2005/Atom" xmlns:media="http://search.yahoo.com/mrss/" version="2.0">
    <channel>
        
        <title>
            <![CDATA[ 统计数据 - freeCodeCamp.org ]]>
        </title>
        <description>
            <![CDATA[ freeCodeCamp 是一个免费学习编程的开发者社区，涵盖 Python、HTML、CSS、React、Vue、BootStrap、JSON 教程等，还有活跃的技术论坛和丰富的社区活动，在你学习编程和找工作时为你提供建议和帮助。 ]]>
        </description>
        <link>https://www.freecodecamp.org/chinese/news/</link>
        <image>
            <url>https://cdn.freecodecamp.org/universal/favicons/favicon.png</url>
            <title>
                <![CDATA[ 统计数据 - freeCodeCamp.org ]]>
            </title>
            <link>https://www.freecodecamp.org/chinese/news/</link>
        </image>
        <generator>Eleventy</generator>
        <lastBuildDate>Sun, 24 May 2026 19:37:59 +0000</lastBuildDate>
        <atom:link href="https://www.freecodecamp.org/chinese/news/tag/statistics/rss.xml" rel="self" type="application/rss+xml" />
        <ttl>60</ttl>
        
            <item>
                <title>
                    <![CDATA[ 统计学入门——数据科学领域最需要了解的统计学基础概念 ]]>
                </title>
                <description>
                    <![CDATA[ 你可能听说过，统计学是数据科学的入门门槛，是打开数据科学的钥匙。 可能你还听说过，想学数据科学，必须先学统计。 这时候你也许会迟疑，“我不是理工科背景，没有相关数学基础，我是不是要把统计学的相关知识学习完，才算入门了数据科学啊？“ 有些人会告诉你：“是的！你必须先学习统计学。” 而我的回答是：在开始数据科学之前，你不需要学习所有的统计学（尽管你需要掌握一些基础知识）。 你可以边学边做，而不是浪费时间在数据科学之前先修统计学（也就是说，随着你对数据科学知识的进一步了解，你同时可以学到更多的统计学概念）。 话虽如此，了解一些统计学基础知识，还是很有必要的。确实可以这样说，统计学是打开数据科学的钥匙，因为它会让你对数据更为敏感，知道如何处理它们。 在这篇文章中，我将介绍一些入门数据科学所必须的统计学概念。我将尽量用简单的语言来介绍，即使你不是理工科出身，我相信你听完以后也会十分兴奋，迫不及待想进入数据科学领域。让我们开始吧。 什么是统计学？ 根据经济学家和抽样方法先驱阿瑟-里昂-鲍利（Arthur Lyon Bowley）的说法，统计学是： > “对调查事件的量化描述，并将之与 ]]>
                </description>
                <link>https://www.freecodecamp.org/chinese/news/top-statistics-concepts-to-know-before-getting-into-data-science/</link>
                <guid isPermaLink="false">6375f35e7cdd940712f7c762</guid>
                
                    <category>
                        <![CDATA[ 统计数据 ]]>
                    </category>
                
                    <category>
                        <![CDATA[ 数据科学 ]]>
                    </category>
                
                <dc:creator>
                    <![CDATA[ Yaxing Li ]]>
                </dc:creator>
                <pubDate>Thu, 17 Nov 2022 08:45:59 +0000</pubDate>
                <media:content url="https://chinese.freecodecamp.org/news/content/images/2022/11/who-s-denilo-3ECPkzvwlBs-unsplash.jpeg" medium="image" />
                <content:encoded>
                    <![CDATA[ <p data-test-label="translation-intro">
        <strong>原文：</strong> <a href="https://www.freecodecamp.org/news/top-statistics-concepts-to-know-before-getting-into-data-science/" target="_blank" rel="noopener noreferrer" data-test-label="original-article-link">Statistics for Beginners – Top Stats Concepts to Know Before Getting into Data Science</a>
      </p><!--kg-card-begin: markdown--><p>你可能听说过，统计学是数据科学的入门门槛，是打开数据科学的钥匙。</p>
<p>可能你还听说过，想学数据科学，必须先学统计。 这时候你也许会迟疑，“我不是理工科背景，没有相关数学基础，我是不是要把统计学的相关知识学习完，才算入门了数据科学啊？“ 有些人会告诉你：“是的！你必须先学习统计学。”</p>
<p>而我的回答是：在开始数据科学之前，你不需要学习所有的统计学（尽管你需要掌握一些基础知识）。</p>
<p>你可以边学边做，而不是浪费时间在数据科学之前先修统计学（也就是说，随着你对数据科学知识的进一步了解，你同时可以学到更多的统计学概念）。</p>
<p>话虽如此，了解一些统计学基础知识，还是很有必要的。确实可以这样说，统计学是打开数据科学的钥匙，因为它会让你对数据更为敏感，知道如何处理它们。</p>
<p>在这篇文章中，我将介绍一些入门数据科学所必须的统计学概念。我将尽量用简单的语言来介绍，即使你不是理工科出身，我相信你听完以后也会十分兴奋，迫不及待想进入数据科学领域。让我们开始吧。</p>
<h1 id="">什么是统计学？</h1>
<p>根据经济学家和抽样方法先驱阿瑟-里昂-鲍利（Arthur Lyon Bowley）的说法，统计学是：</p>
<blockquote>
<p>“对调查事件的量化描述，并将之与其他事件进行联系。”</p>
</blockquote>
<p>这句话的意思是，统计学帮助我们理解数据，并向他人传达数据得出的结果。</p>
<p>统计方法（即在处理统计数据时所采用的技术方法）分为两种类型：</p>
<ol>
<li>描述统计</li>
<li>推断统计</li>
</ol>
<p><strong>描述统计</strong>是统计学的一大分支，它协助我们通过数值或图形可视化来总结数据。</p>
<p>描述统计帮助我们识别和理解数据中的一些关键属性。它包含如中心极限、离散、箱形图、直方图等概念，我们将在下文讨论这些概念。</p>
<p><strong>推断统计</strong>是统计学的另一大分支，它帮助我们根据收集到的数据做出决策或预测。</p>
<p>推断统计是在描述性统计的基础上，更进一步的推理判断。它包括诸如假设、概率等概念。</p>
<h1 id="">数据科学入门必备统计学概念</h1>
<p>既然你现在已经熟悉了统计学的定义，让我们来看看在统计学中需要知道的一些相关概念，这些概念将带你入门统计学。</p>
<p>其中最基本的概念包括：</p>
<h2 id="">什么是对象？</h2>
<p>对象是我们想要观测的具体事物。它可以是一个人，一个动物，或其他东西。它也被称为观测点。</p>
<h2 id="">什么是总体？</h2>
<p>总体指的是我们感兴趣的（也就是我们想观察的）整个对象集，比如一个国家的全体女性人数。</p>
<h2 id="">什么是样本？</h2>
<p>现实情况下，观察一个总体几乎不可能（因为它费时费力）。</p>
<p>比如：你希望观测世界上所有女性数量，但进行这种观测成本很大。所以，在统计学中，我们有一种叫做样本的东西，它是总体的一部分或子集。我们可以利用样本对全部人口做出判断（推断统计）。</p>
<h2 id="">什么是参数？</h2>
<p>参数是描述总体特征的度量。比如，你正在观测一个国家的人口，你发现90%的居民为男性，10%为女性。数值90%和10%是整个人口的性别度量（描述统计）。它就是总体特征的一个参数。</p>
<h2 id="">什么是统计量？</h2>
<p>统计量（不要与统计学混淆）是描述样本特征的度量。如前所述，我们没法观测总体，只能观测样本，统计量就是对样本特征的数值度量。</p>
<p>希望现在你对什么是总体、样本、统计量和参数有了基本了解。让我们来看看另一个我们都很熟悉的概念："<strong>数据</strong>"。</p>
<p><strong>数据</strong>代表了事件信息，也就是说，它向我们传达了一个事实。它可以被分为两类：</p>
<ol>
<li>定量数据。</li>
<li>定性数据。</li>
</ol>
<h2 id="">什么是定量数据？</h2>
<p>它也被称为数值数据。它是一种可以计数或计量数值的数据。定量数据可以进一步分为两种类型：</p>
<p><strong>定量离散数据</strong>：它可以计数但不能精确计量， 比如计数鞋店中的鞋子个数。</p>
<p><strong>定量连续数据</strong>：这是一种基于精确计量的数值数据。例如，测量一个玻璃缸的重量。</p>
<h2 id="">什么是定性数据？</h2>
<p>它是代表类别或数据组的各种数据。它也被称为类别数据。它通常是特征、名字或其他东西的名称分类。</p>
<p>常见的例子包括人名，狗的品种等等。然而，有一些数据看起来像数值数据，但也被归为类别数据。</p>
<p>例如，假设你想根据年龄对某一群人进行分组，发现最低和最高年龄分别是10岁和60岁。然后你把年龄分成5个类别（10-20岁，21-30岁，31-40岁，41-50岁，51-60岁），并给每个类别分配数值，其中1代表10-20岁，2代表21-30岁，以此类推。</p>
<p>在这种情况下，数值将被作为定性数据而不是定量数据来处理。随着不断深入数据科学，你将学会如何处理类别数据。</p>
<p>了解了数据分类，现在我们来看看定量和定性数据在统计学中是如何计量的。统计学依据数据的计量尺度将数据划分为4类，它们分别是：</p>
<ol>
<li>名义数据</li>
<li>有序数据</li>
<li>间隔数据</li>
<li>比率数据</li>
</ol>
<p>定性数据可以用以下方式计量：</p>
<p><strong>名义数据</strong>：名义数据是无序的分类数据，也就是说，它们不能被排序。</p>
<p>每一组数据都代表一个分类，比如颜色。蓝色没有任何理由排在黄色之前。在处理名义数据时，每组数据都必须作为一个独立的分类来处理。</p>
<p><strong>有序数据</strong>：有序数据是有顺序的分类数据。当数据被排序后，就有了先后顺序。像优秀、良好、满意和不满意这样的调查回答就是一个例子。将优秀排在良好之上符合现实需要。</p>
<p>定量数据可以用以下方式计量：</p>
<p><strong>间隔数据</strong>：间隔数据是指有排序的数值数据，并且可以进行测量（比如，数据之间可以相减）。温度计的读数就是一个间隔数据例子。</p>
<p>例如，你可以测量摄氏4度和10度之间的差值，10度比4度高6度。间隔刻度数据有两个特点：</p>
<ol>
<li>它没有一个起点（也就是说，它不从零开始，可以有一个低于零的温度值）</li>
<li>无法计算出它们的比例。比如，80摄氏度比20摄氏度高4倍，这不符合逻辑，因为它们没有一个起点。</li>
</ol>
<p><strong>比率数据</strong>：比率数据具有间隔数据可以被排序和计量的特点，但比率数据有一个共同的起点，所以能计算它们之间的比率。</p>
<p>比如考试成绩分别为20、68、90或80分。我们可以给它排序，计算差值，并找到数值之间的比率，比如80分比20分高4倍。</p>
<p>现在我们已经介绍了数据的基本概念，接下来我们看看第一大类统计方法（描述统计）如何处理数据。</p>
<p>如前所述，描述统计需要用数字或图形来总结数据。让我们来看看在处理数据时，你会经常用到的一些最典型的数字和图形。</p>
<h2 id="vsvs">平均数 vs 中位数 vs 众数 --- 它们有什么区别？</h2>
<p><img src="https://www.freecodecamp.org/news/content/images/2022/06/Visualisation_mode_median_mean.svg" alt="Visualisation_mode_median_mean" width="600" height="400" loading="lazy"></p>
<p>上图解释了平均数、中位数和众数的区别。众数是最高点，中位数是中间点，而平均数是均值。</p>
<h3 id="">什么是平均数？</h3>
<p>当我们有一组像4，5，6，7，10这样的数值数据时，这组数据中的每个值都被称为一个数据点。我们可能想找到这组数据的平均值。</p>
<p>平均值本质上就是一组数据的平均数，计算方法是所有数据点的总和除以数据点的总个数。</p>
<p>上面的数据集的总和是32，数据点的总个数是5，所以平均数，也就是平均值，是6.4。</p>
<p>平均数只存在于定量数据上，定性数据没有平均数。</p>
<h3 id="">什么是中位数？</h3>
<p>给定一组数值，我们可能想找到位于中间位置的数值，中位数就是最中间的数据点，中位数也只存在于定量数据。</p>
<h3 id="">什么是众数？</h3>
<p>众数是最高频出现的数据点（也就是出现次数最多的数值）。定量数据和定性数据都有众数。</p>
<h2 id="">什么是离群值？</h2>
<p>离群值是指与其他数据点显著不同的异常数据点。离群值会导致我们得出错误的结论。下面就是一个典型的例子。</p>
<p>假设你有一台机器能计算每天进入超市的顾客数。它某一周值为20、23、26、27、302。我们可以判断302就是一个离群值，因为它与其他数值有很大的差别。</p>
<p>离群值可能是由突然的变化、机器故障或其他情况造成的。它们的出现会导致错误结论。例如，如果想知道平均超市顾客访问量，数值302就可能具有误导性，让我们认为平均访问量是75。</p>
<h2 id="">什么是标准差？</h2>
<p>标准差是一种描述性数值，表明数据点与平均值的偏离程度。它被用来确定数据的分布情况。</p>
<p>标准差越接近于零，数据点就越趋近于平均值。</p>
<p>标准差是一种非常重要的描述性统计。它能告诉我们数据集的离散程度。下图是一张数据正态分布图，X轴以标准差为刻度。</p>
<p><img src="https://www.freecodecamp.org/news/content/images/2022/06/1920px-Standard_deviation_diagram.svg.png" alt="1920px-Standard_deviation_diagram.svg" width="600" height="400" loading="lazy"></p>
<p>从上图可以看出，34.1% + 34.1% = 68.2% 的所有观测值都在一个标准差之内，或1σ（读作一个西格玛）。</p>
<p>加上13.6%+13.6%=27.2%的观测值在两个标准差之内，或2σ，以此类推。</p>
<p>不知道你是否听说过六西格玛这个工程学概念。它表示在质量保证过程中要考虑到六个标准差的可能性。这意味着除了最最极端的异常值之外，你要考虑到所有的情况。准确地说，是所有可能性的99.99966%。</p>
<p>现在我们已经掌握了一些以数字进行描述统计的方法，接下来让我们来看看一些常见的图形描述方法。</p>
<h2 id="">什么是柱状图？</h2>
<p>柱状图用于类别数据的可视化。用它可以来展示每组数据的频数（即一个类别中数据点出现的次数）。如图所示：</p>
<p><img src="https://www.freecodecamp.org/news/content/images/2022/06/download-1.png" alt="download-1" width="600" height="400" loading="lazy"></p>
<h2 id="">什么是直方图？</h2>
<p>直方图与柱状图类似，用以展示数据组的频数。但与柱状图不同的是，它展示了定量连续数据组的频数，这些连续数据组也被称为区间或组距。</p>
<p>直方图是非常有效的可视化图形，可以帮助展示定量数据的分布。你可以在<a href="https://www.cuemath.com/data/histograms/">这里</a>读到更多关于直方图的信息。</p>
<!--kg-card-end: markdown--><figure class="kg-card kg-image-card"><img src="https://chinese.freecodecamp.org/news/content/images/2022/11/image-2.png" class="kg-image" alt="image-2" width="600" height="400" loading="lazy"></figure><!--kg-card-begin: markdown--><h2 id="">什么是箱型图？</h2>
<p>另一个非常棒的数据描述图表就是箱型图。</p>
<p>箱型图可以直观地查看是否存在离散点，它还展示了诸如最小区间值、第一四分位数，中位数，第三四分位数和最大区间值等数字。箱型图如图所示：</p>
<figure class="kg-card kg-card-image kg-card-hascaption">
    <img src="https://www.freecodecamp.org/news/content/images/2022/06/OutliersAnomalies--1-.png" alt="图片由 Ibrahim Ogunbiyi 提供" class="kg-image" width="600" height="400" loading="lazy">
    <figcaption>图片由 Ibrahim Ogunbiyi 提供</figcaption>
</figure>
<p>让我们来来看看上图都代表了什么意思。</p>
<p><strong>最小区间值</strong>：最小区间值并不是最小值。它等于 ( Q1 -1.5*IQR) 。</p>
<ul>
<li>Q1是第一四分位数。</li>
<li>IQR是第三四分位数和第一四分位数的差值。</li>
</ul>
<p>最小区间界定了正常数据点的范围，它可以帮助我们发现那些小于正常范围的离散点。</p>
<p>举个例子，假设我们的数据点是像这样分布[345, 402, 295, 386, 10]。我们可以判断数据点10是一个离群点，因为它远低于其他观察值。</p>
<p><strong>第一四分位数</strong>告诉我们25%的数据点低于这个数值，75%的数据点高于这个数值。它也被称为第25百分位数。</p>
<p><strong>第二四分位数</strong>告诉我们50%的数据点低于该数值，其余50%高于该数值。它也被称为第50百分位数。</p>
<p><strong>第三四分位数</strong>告诉我们75%的数据点低于该数值，其余25%高于该数值。它也被称为第75百分位数。</p>
<p><strong>最大区间值</strong>，和最小区间值一样，也不是数据集中的最高值。它的计算公式是（Q3+1.5*IQR）。</p>
<ul>
<li>Q3 是第三四分位数。</li>
<li>IQR是第三四分位数和第一四分位数的差值。</li>
</ul>
<p>最大区间值可以帮助我们发现那些远高于其他观察值的离散点。</p>
<p>比如，假设我们的数据点是像这样分布[645, 40, 25, 38, 42]。我们可以确定645是一个离散点，因为它是远远高于其他观察值。</p>
<p>总结完不同类型的数据图形展示后，让我们进入最后一个话题：</p>
<h2 id="">什么是定量变量之间的相关性？</h2>
<p><strong>变量</strong>是代表任何一组数值的统称，时常表示为表格中的一列。</p>
<p>如果一个变量中的数值变化引起另一个变量中的数值变化，我们就称这两个变量具有相关性。</p>
<p>为了度量两个定量变量之间的相关性，我们常常用卡尔-皮尔逊公式来计算，其结果在-1和+1之间。</p>
<p>如果相关值接近1，表明这两个变量正相关（也就是说，当一个变量数值增加时，另一个变量数值也会增加）。如果数值接近-1，表明这两个变量负相关（即随着一个变量数值增加，另一个变量数值减少）。最后，如果相关值为0，则两个变量之间没有相关性。</p>
<p>你可以在<a href="https://chinese.freecodecamp.org/news/top-statistics-concepts-to-know-before-getting-into-data-science/(https://www.statisticshowto.com/probability-and-statistics/correlation-coefficient-formula/)">这里</a>阅读更多关于相关性和卡尔-皮尔逊公式的知识。</p>
<h2 id="">什么是散点图？</h2>
<p>我们可以通过散点图来表示定量变量之间的相关性，如下图所示。</p>
<figure class="kg-card kg-card-image kg-card-hascaption">
    <img src="https://www.freecodecamp.org/news/content/images/2022/06/scatter-ice-cream1.svg" alt="图片来源：散点（XY）图（mathsisfun.com）" class="kg-image" width="600" height="400" loading="lazy">
    <figcaption>图片来源：散点（XY）图（mathsisfun.com）</figcaption>
</figure>
<p>想要了解更多散点图内容，可以点击<a href="https://byjus.com/maths/scatter-plot/#:~:text=Scatter%20plots%20are%20the%20graphs,plotted%20on%20the%20Y%2Daxis.">这里</a>。</p>
<h1 id="">结论：学无止境</h1>
<p>在本教程中，我们已经探讨了一些基本的统计学概念，这些概念将帮助你更有效地处理数据。</p>
<p>但学无止境---还有一些基本的统计学概念我们没有涉及，你必须自己去学习。这只是一个开始，你可以通过查阅在线资源或教科书进行更深入地学习。</p>
<p>非常感谢你阅读本文。请将本文分享给那些也想涉足数据科学的初学者。</p>
<!--kg-card-end: markdown--> ]]>
                </content:encoded>
            </item>
        
    </channel>
</rss>
