美文网首页
统计概率思维:描述统计学

统计概率思维:描述统计学

作者: Rich_Billions | 来源:发表于2018-04-24 21:42 被阅读0次

    Live 简介:

    1. 谁适合本课程?
      想用统计概率思维提升认知,在生活、工作中应用的你;
      想从零开始学会数据分析,实现升职加薪或者转行数据分析的你,零基础即可加入。
    2. 你将从本次课程中学到什么?
      人工智能时代,你天天看到各种推送的新闻和数据,如何看懂数据才是发现你未来机会的当务之急。

    内容大纲:

    • 学习统计学对你人生的重要意义是什么?
      你将了解:究竟什么是统计概率?为什么要学习统计学?在实际生活中对我有什么用?
    • 集中趋势:均值、中位数、众数
      案例:你的工资为何被平均了?
    • 差异性:如何使用标准差定量分析数据的分布
      案例:如何从数据中识别出异常值?
    • 归一化:使用标准分将分布转化为标准正态分布
      案例:你家孩子考试成绩是进步了还是退步了?
    • 你将挑战的实战项目:如何用Python对数据进行描述分析?

    1、简介:什么是描述统计学?有什么用?

    Q:学习统计学有什么用?
    A:现在统计学已经是人工智能的基础知识,它同样是投资领域的核心技能,所以统计学是我们进入下一个时代的入口

    两条有价值的信息:

    • IT行业平均工资首次超过金融行业,位居各个行业的首位。这表明IT技术已经成为了各行业的基础设施,以技术驱动的新经济特征日益显著。人才、资金往IT行业流动就很正常了。所以我们在未来进行职业选择的时候,最好选择与互联网相关的行业。
    • 个人收入为什么与平均值相比差那么多呢?
      详见"第二章 平均值:你的工资为何被平均了?"

    什么是描述统计学:描述统计学就是用几个关键的数字来描述数据集的整体情况。

    描述数据集常用的4个指标:平均值、四分位数、标准差、标准分。


    2、平均值:你的工资为何被平均了?

    平均值的缺点是:它对异常数据不敏感。这也是为什么我们不应该用人均收入来衡量中国各个行业的平均收入。因为在收入分配的顶端有着一群人,他们的收入非常高,普通人的收入会被这些“土豪”的光环所掩盖。综上:当数据集中有异常数据时,用平均值描述是不准确的。


    3、四分位数是什么?


    4、案例:分析就餐人员距离


    5、如何绘制箱线图?

    箱线图(四分位数)的第1个应用:比较不同类别数据集的整体情况

    上图第1个箱线图是对不同城市数据分析师的薪酬比较,横轴是对数据分析师需求排名前6的城市,纵轴是每月的薪酬。通过比较发现:这6大城市的薪酬分布情况总体来说是比较集中的(中位数相差不多)。深圳薪酬分布中位数大约在15K左右,居全国第一位;其次是北京,大约是12.5K;之后是上海和杭州。所以说深圳确实是一个创造奇迹的城市,如果以后想在数据分析师的方向发展,留在深圳是一个不错的选择。

    上图第2个箱线图是不同工作经验的薪酬比较,其中横轴是工作年限,纵轴是薪酬。通过比较发现:随着工作年限的上升,薪资待遇的上升也是非常明显的,尤其是3~5年这一段提升的跨度非常大。另外,从现有的数据来看,数据分析师似乎是个常青的职业方向,在10年内,大概不会因为年龄的增长而导致收入下降,反而会导致收入的急剧上升。

    这里只要理解箱线图的原理和应用即可,如何使用Python绘制箱线图留待后面的数据可视化课程中详细介绍。


    6、案例:如何从数据中找出异常值?

    箱线图(四分位数)的第2个应用:识别出可能的异常值

    处理异常值的3种办法:

    • 异常值可能是一个被错误标记记录的数据值,我们就可以在进一步的数据分析之前把它修正;
    • 异常值可能是一个被错误包含在数据集中的值,我们就需要将这个异常值删除;
    • 异常值可能是一个反常的数据值,它被正确记录到数据集中了,这种情况下它就应该保留。

    识别出可能异常值的方法:Tukey's test 方法


    7、练习:绘制箱线图

    练习:在草稿纸上绘制前面房间温度案例里的箱线图,掌握以下内容:
    1)什么是四分位数?
    2)如何绘制箱线图?
    3)箱线图有什么用?


    8、标准差:衡量数据集的波动大小


    9、如何衡量NBA球员的稳定性?

    1)标准差的单位与相应计算数据的单位是相同的;
    2)取决于用标准差做什么事情。如果研究的是生产机器的标准零件,这样标准差小一点好;如果研究的是大公司的工资,这样标准差大一点好。


    10、案例:如何衡量股票波动大小?

    无风险回报:银行存款、国库券这些比较稳健的投资回报。

    夏普比率越高说明投资相对而言回报越高,风险越低。

    图中的表格是这么几个国家的股指基金最近10年的夏普比率。可以看出:美国的股市表现是最好的,中国排在了第二名。股市的风险是非常大的,在10年的范围内,即使表现最好的美国股市,它的夏普比率是0.47,约等于0.5。这个数值说明波动性几乎是回报的2倍,也就是说风险几乎是回报的2倍。排在第一位的美国股市它的风险已经是回报的2倍了,中国和德国股市的风险几乎是回报的5倍左右。所以我们感觉股市像过山车一样也就不奇怪了。至于其他一些发达国家,在过去的10年,股市几乎没有回报,只有波动。


    11、标准分:对数据集进行归一化处理

    标准分(z-分数或标准化值)表示【某个数值】距离平均值多少个标准差。


    12、案例:如何用标准分进行质量管理?

    这个标准差,通常用每百万次采样数的缺陷率来衡量。
    1个标准差就是每百万件抽样中,有69万个不合格,相当于一本书每页有170个错别字。
    3个标准差就是每百万件抽样中,有6.7万个不合格,相当于一本书每页有1.5个错字。
    6个标准差就是每百万件抽样中,有3.4个不合格,相当于整个小型图书馆的所有藏书中,只有1个错别字。


    13、练习:如何通过财经网站分析股票数据?

    当在电脑前面时,再打开财经网站(长按此处可以复制):https://finance.google.com


    14、练习:如何通过编程分析股票数据?


    15、总结:一句话记住知识

    查理·芒格是一个完全凭借智慧取得成功的人。在《穷查理宝典》中他说:首先必须掌握基础的数学知识,如果不能把数学变成生活的一部分,就是把巨大的优势拱手送给别人。要学会应用复利原理、排列组合、概率方法和决策树理论。

    相关文章

      网友评论

          本文标题:统计概率思维:描述统计学

          本文链接:https://www.haomeiwen.com/subject/vqzjlftx.html