美文网首页
数据分布

数据分布

作者: 自天佑之吉无不利 | 来源:发表于2023-11-25 23:52 被阅读0次

在实际生活当中,我们最常见的是正态分布和拉普拉斯分布,这两个分布反映了现实生活当中隐藏在数据背后的“势”。了解这些数据的趋势,才可以让你更好地了解实际的工作和生活本身。

正态分布

我们先来看正态分布。正态分布就是你在课本里曾经学过的那个两头低、中间高然后左右轴对称的钟形曲线。

学术上是这么来定义正态分布的:“如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布”。

大数定律研究的是随机变量序列依概率收敛到其均值的算术平均,说白了就是为了说明频率在概率附近摇摆,也为我们将频率当作概率提供了依据。

而中心极限定理要求的是独立随机样本,在中心极限定理下,随着样本数量趋于无穷大,独立随机样本和独立随机样本和的分布会越来越像正态分布。

还是用抛骰子的例子来给你解释一下中心极限定理。比如你抛 6 次骰子发现求和是 18,你又抛 6 次发现加起来是 20,你又抛了 6 次,这次发现加起来是 25。如果你抛的次数足够多,你把 18、20、25 等这些数据画出一个图来,这个图是符合正态分布的。

所以大数定律和中心极限定理说的不是一个维度的事情。大数定律算的是概率,中心极限定理算的是样本和的分布。

拉普拉斯分布

还记得我们这节课开头提到的房价这件事吗?理论上房价应该和人的身高一样,在某一个地区有一个均价,并且整体的房价和身高是一样呈正态分布。但为什么在某一个区域可能就隔了一条街,房价却翻了好几倍,而且数量也不少?这不符合刚刚说的中心极限定理呀。

关于这个问题,我的答案是:我们的房价其实和我们的身高是不一样的,它不是我们想象当中的正态分布,而是我下面提到的拉普拉斯分布。

拉普拉斯分布就和上图一样,是一个“凸”字形的塔尖儿曲线,从左到右,斜率先缓慢增大再快速增大,到达最高点后变为负值继续先快速减小,最后再缓慢地减小,所以有点像“往里边凹陷的金字塔”

而全国的城市房价分布、一个城市当中的小区房价分布现在也是符合拉普拉斯分布的。因为在信息透明和市场竞争的情况下,工资、房价、股票都会符合一个特点:越塔尖的个体越具有资源吸附能力。那么在整体资源恒定的情况下,这已经不是一个简单的符合随机分布的市场了,简单来讲,“大势”变了。

所以当你在做数据分析的时候,一定得先考虑一下,原有的数据分布模型是否还适用于现有的市场情况?

准确把握住数据分布这个大势,我们才能够做出更为正确的决策。

正态分布和拉普拉斯分布,这是我们在现实生活当中最常用到的两个分布。希望这两个分布能够帮助你分析工作生活里数据背后的“势”,做好对生活、工作的决策。

将来无论在什么场景下做数据分析,数据的分布应该能贴合地描述我们社会上的“大势”,所以当你面临生活中的决策时,而不能就数据套数据、为了算法而算法,领域背后的知识对于我们更加重要。

就像今天我给你讲的正态分布和拉普拉斯分布的例子一样,现如今我们的生活中,有的事物符合正态分布,有的事物符合拉普拉斯分布。就比如说我们在买房的时候,没有判断好我们所处城市的房价到底是正态分布还是拉普拉斯分布,很有可能会导致你错误的投资决策。

更进一步来说,这两个数据分布其实给我们的工作生活也有一个大的启示,那就是为什么会有这样一句话的流行:“Work Hard, Play Hard”,因为这句话背后的含义其实是指当你要获得更多的自由的时候,你也要付出同等的甚至更多的自律(控制自己既能使劲玩也能使劲工作)。当今社会的人才分布是呈拉普拉斯分布的,我们要争取做顶尖,这样才会有更多的资源和机会。

此文章为11月Day21学习笔记,内容来源于极客时间《数据分析思维课》,强烈推荐该课

相关文章

  • 第10章 集群

    1. 数据分布 1.1 数据分布理论 哈希分区:离散度好,数据分布业务无关 顺序分区:离散度易倾斜,数据分布业务相...

  • 数据特征分析(一)

    1 分布分析 1.1 定义 分布分析 :研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量定量数据:...

  • 第三章:数据探索

    3.1餐饮销售额数据异常值检测 2数据特征分析 分布分析:分布分析能揭示数据的分布特征和分布类型;定量数据的分布分...

  • 分布分析

    【课程1.2】 分布分析分布分析 → 研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量极差 / ...

  • Ceph CRUSH算法

    1. 数据分布算法挑战 数据分布和负载均衡:a. 数据分布均衡,使数据能均匀的分布到各个节点上。b. 负载均衡,使...

  • 数据库基础 并行与分布式数据库

    1 简介 并行数据库系统:通过并行实现数据操作 分布式数据库系统:数据分布存储,每个存储地都有DBMS,数据分布和...

  • MySQL Cluster 与 MongoDB 复制群集分片设计

    分布式数据库计算涉及到分布式事务、数据分布、数据收敛计算等等要求 分布式数据库能实现高安全、高性能、高可用等特征,...

  • 数据特征分析

    本文内容摘自《Python数据分析与挖掘实战》 1. 分布分析 分布分析能揭示数据的分布特征和分布类型。 1.1 ...

  • 一致性hash

    应用领域(数据分布式存储) 数据缓存集群(redis、memcache) hadoop ESearch 分布式数据...

  • 数据分布、参数估计

    数据分布 数据的分布分为离散变量的分布和连续变量的分布,连续变量的分布是统计推断的数学基础,其根据分布的表现形式分...

网友评论

      本文标题:数据分布

      本文链接:https://www.haomeiwen.com/subject/icfawdtx.html