统计学 + 思维

作者: dataTONG | 来源:发表于2020-06-11 10:14 被阅读0次

JOURNAL-统计学思维很重要
DataWhale 统计学 Task2 2019-4-4
第五模块统计学思维
学习
[数据分析] 数据分析入门
统计学 + 思维
时间权和概率权
你知道医学统计学吗？
统计学阶段一——基础
常用统计学思维

思维

1相关思维、目标思维、假设思维、溯源思维、逆向思维
因为业务想要的数据并不一定就是他真正需要的数据：而我们在接到业务的需求之后，需要先想一下这个需求的真正核心目的是什么，如果知道了业务目标，那么就可以把这样一个取数需求变成一个分析类需求，最终的交付形式就成了一份PPT，这样就能避免成为取数机器。
2结构思维
如【定位异常下降的内部原因5W2H】5W2H是最常見的七個問題：Why（為什麼），What（是什麼），Where（在何處），When（在何時），Who（由誰做），How（怎麼做），How Much（要多少）。
3归纳（因果关系；【致命误区、以偏概全、黑天鹅事件】）与演绎
归纳（归纳法是从结果出发，寻找原因，通过观察对比、分析，找到事物之间因果关系的一种方法）是从个体属性出发，寻找因子之间的共性，总结出一个一般的特性；
而演绎则相反，是从一般整体出发，寻找事物之间的逻辑，从而得到某个个体的特性。

统计学

【迷你距】也叫“四分位距”。是一组数据中较小四分位数与较大四分位数之差，即：迷你距= 上四分位数 - 下四分位数。
迷你距可以反映中间50%的数据，如果出现了极大或极小的异常值（弥补极差的局限性：若数据中存在异常值的情况，会产生偏差），将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。
统计学知识大梳理（附框架图&公式）

四分位数的应用1（优缺点：能从整体上描述数据集的分布状况，但不能衡量数据集的波动大小）：使用python绘制箱线图来比较不同类别数据的整体情况；
四分位数的应用2：识别出可能的异常值，对异常值进行检查和处理：Tukey's test。

【标准分（又叫z分数和标准化值，用于表示某一数值距离平均值有多少个标准差）】表征了距离均值的标准差的个数（应用场景：对于拥有不同均值和不同标准差的多个数据集我们如何比较呢？）
当比较均值和标准差各不相同的数据集时，我们可以把这些数值视为来自同一个标准的数据集，然后进行比较。标准分（1）把每一个数据集转化为通用的分布形态，进行比较；（2）还有个重要的作用，它可以把正态分布变为标准正态分布。

【变异系数（相对程度指标、没有单位——scale free比值的概念）】CV=std/x，如果cv=2，表示1均值=2单位的标准差。
std标准差在金融领域：衡量风险；CV（风险越低越好）用于衡量一个投资组合的风险，对于他们的均值来讲的话，风险到底有多大。
（1）变异系数可以消除单位和（或）平均数不同对两个或多个资料变异程度比较的影响。
（2）比起标准差来，变异系数的好处是不需要参照数据的平均值。变异系数是一个无量纲量，因此在比较两组量纲不同或均值不同的数据时，应该用变异系数而不是标准差来作为比较的参考。

当进行两个或多个资料变异程度的比较时，如果度量单位与平均数相同，可以直接利用标准差来比较。如果单位和（或）平均数不同时，比较其变异程度就不能采用标准差，而需采用标准差与平均数的比值（相对值）来比较。

【散点图、矩阵图 / 象限图】散点图总结特征点的分布模式，即矩阵图（象限图）。
【相关关系分析（由相关性确定因果性）：散点图的形状可能表现为变量间的线性关系、指数关系或对数关系等】需要注意的是，相关关系不同于因果关系，相关性表示两个变量同时变化，而因果关系是一个变量导致另一个变量变化。散点图只是一种数据的初步分析工具，能够直观地观察两组数据可能存在什么关系，在分析时如果找到变量间存在可能的关系，则需要进一步确认是否存在因果关系，使用更多的统计分析工具进行分析。
Excel-散点图（相关性及数据分布）分析

【帕累托法则】长尾理论（互联网领域）聚焦于曲线的尾部，而二八定律（工程管理领域）聚焦曲线的头部，提供了解决问题的不同视角。——客观规律是不变的，变化的是我们身处的具体环境，面对的具体问题/具体的现象，我们可以自由选择不同的切入点。

1本质是正反馈机制 (positive feedback loop)；
2广泛运用于/适用于（经济学、生活；工程管理领域的为二八定律）；帕累托法在互联网领域的应用：长尾理论曲线（即幂律分布曲线）。

帕累托法在互联网领域的应用：长尾理论曲线（即幂律分布曲线）——靠近纵轴的部份为tall head，而靠近横轴的部份则是所谓的long tail 纵坐标为单个产品的销量，横坐标为不同类型的产品。在此场景下，20%的产品占据了80%的销量，这20%的大众消费品正是传统商业模式所看中的。——网店相当于用极小的成本，便换来几乎无限长的货架，可以同时包括大热门以及几乎无人问津的众多冷门。这众多冷门带来的效益总和则相当可观，甚至可以去与几个大热门相较量。用一个不恰当的比喻，「蚁多咬死象」。相较而言，线下实体商店由于可观的空间等成本是无法做到同样的事情的，边际效益不允许。

3核心观点：20%的变量操纵着80%的局面。在高动态的复杂系统中，事件间往往不再独立：a. 事件之间通信成本降低; b. 事件之间的作用力增强（如马太效应）。
【高斯分布】

1本质是独立性 (independence)；大量同质独立事件将导致高斯分布。
2适用于（自然科学与行为科学领域）如啄木鸟的鸟嘴长度、人类的身高、人类睡眠时间，都是绝大多数样本在整体平均值的一定范围浮动，少数样本极低或极高。
通用法则解读（一）：二八定律（80/20法则） VS 长尾理论
二八法则的成因是什么？ – 高德纳的回答 – 知乎

【正态分布（因素相加）】只适合各种因素累加的情况，如果这些因素不是彼此独立的，会互相加强影响（如果出生在上层家庭，那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会，反之亦然。也就是说，这不是 1 + 1 = 2 的效果，而是 1 + 1 > 2），那么就不是正态分布了。
【对数正态分布（因素相乘）】统计学家发现，如果各种因素对结果的影响不是相加，而是相乘，那么最终结果不是正态分布，而是对数正态分布（log normal distribution），即x的对数值log(x)满足正态分布。（这就是说，财富的对数值满足正态分布。如果平均财富是10,000元，那么1000元～10,000元之间的穷人（比平均值低一个数量级，宽度为9000）与10,000元~100,000元之间的富人（比平均值高一个数量级，宽度为90,000）人数一样多。因此，财富曲线左侧的范围比较窄，右侧出现长尾）

【最大熵的角度去理解正态分布】在二阶矩一定的情况下，正态分布的熵是最大的，由于自然界有熵增的规律，正态分布自然也就常见了。
正态分布为什么常见？

【概率】离散型分布 → 正态 / 连续分布（离散分布转化为正态分布）

离散型分布

【误差】误差 = 测量值 - 参考值。
【相对误差】相对误差指的是测量所造成的绝对误差与被测量（约定）真值之比乘以100%所得的数值，以百分数表示。一般来说，相对误差更能反映测量的可信程度。
所得的误差或绝对误差为Δ = 测量结果y - 被测量约定真值t。
相对误差 = 绝对误差Δ / 约定真值t。
【方差】方差 = 衡量源数据和期望值相差的度量值。
方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。
【协方差】
协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反，即其中一个大于自身的期望值，另外一个却小于自身的期望值，那么两个变量之间的协方差就是负值。
在概率论和统计学中用于衡量两个变量的总体误差。方差是协方差的特殊情况，当两个变量相同时则为方差。协方差仅能进行定性分析，并不能进行定量分析，例如两个变量的协方差是-385.5，但两者之间的相关性的强度是多少，协方差并没有给出定量的判断标准，因此需要计算两者之间的相关系数来判断。

#判断是否存在重复值
pd.duplicated().any()

人人都是产品经理

【需求的来源在表象上来看有很多，但是总结起来无非两点，一个是来自用户的痛点（由痛点产生的需求，大多数会成为刚性需求），另一个是来自用户的兴奋点（由兴奋点产生的需求往往是非刚性需求）】
公众号：大白产品随笔（ID：dabaixuetang）

【数据的分析最重要的一条原则是基于业务的理解作出价值取向，它往往决定了你的分析框架】举个例子，我们需要分析一家电器公司是否具有投资价值。

如果你重视价值投资，你可能会关注现金流，净资产收益率，市场占有率，毛利率，存货周转率等指标。
如果你重视短期投机，你可能回去关注百度热点，微博热点指数，公司公告，成交量，换手率，KDJ等指标。

【痛点是发现需求的第一步，痛点 ≥ 需求。我们所体验到的和看到的往往不一定就是真相】这个痛点是否可以转化成需求，还需要对这个痛点进行判断，有的人通过自身体验来判断，有的人通过数据分析，有的人通过用户调研，有的人通过拍脑袋判断，套路各异，花样很多。在这么多套路背后，有没有什么方法和思路可以一直复用呢？我总结出了一下几个判断维度：

痛点的价值有多大（是否是迫切的、是否必须解决、出现频率是否高、持续时间是否长）：
在实际的应用中，oppo手机很好的利用来这个痛点，打出了“充电5分钟，通话两小时”的广告语，正因为痛点把握的准，所以oppo手机已经成为国内销量第一的手机了。
判断痛点能否被解决
目标用户群体有多大：
发现了一个痛点后，正确的做法是，想办法弄清楚有这个痛点的用户边界和数量——（1）初步收集用户特征，将其特征标签化（2）假设问题：一般在产品初期，目标用户不明确，我们可以多做些假设，然后去研究，去拓展目标群体的边界，在目标用户确定了以后，在产品中后期，可以基于具体的问题去假设分析。（3）用户访谈：在访谈的过程中收集和记录用户信息，并将其进行标签化处理，基本上是重复第一步的工作，只不过在第一步工作的时候，用户样本非常单一，这个时候，经过拓展，用户样本非常丰富。（4）统计分析（5）输出画像，明确用户是谁（6）调查用户群体数量
人群的商业价值有多大：一个是收入；另一个是可支配的消费。
当发现一个痛点后，判断发现这个痛点的价值很高，你也能够解决，用户群体也很大，而且这个群体的商业价值又很高，这个痛点就可以转化成需求，如果情况正好相反的话，这个痛点就不能变成需求，这种情况也就是我们常说的伪需求。