美文网首页
【数据分析商业实战】chapter3课程笔记

【数据分析商业实战】chapter3课程笔记

作者: 深海suke | 来源:发表于2019-05-10 08:48 被阅读0次

    数据分析要做什么 做一个描述型的数据报告。

    #数据类型

    名义型:民族,等级,等等.对名义型变量要进行编码,因为很多库是不能识别中文字符。对于关注多的一般编码为1.

    等级:1,2,4

    连续:数值型.特征,位置,分布,偏度。

        均值易代偏,众数在很干净的时候可以用(少用),中位数(数据不对称用)

        对数分布(最多的分布,例如利润,用中位数描述,建模时对数据取对数)

        泊松分布:网页点击,排队;伽马分布:损失,投保;  

        方差,标准差,极差,四分位差IQR。

        何须图,数据1.5倍外算离群值。

        整体分布1std68% 2std95% 3std99%

    分类变量是维度指标;连续变量是度量指标。        

    snd.price.agg(['mean','median','sum','std','skew'])

    对于skew来说 大于1认为右偏严重,不大于1 认为右偏不严重。

    # 问题数据

    脏数据——不正确的数据,缺失的数据

    不一致的数据——单位不一致

    数据重复

    缺失值——过大量的缺失值考虑加入哑变量

    离群值

    # 抽样

    简单随机抽样,分层抽样……

    相关文章

      网友评论

          本文标题:【数据分析商业实战】chapter3课程笔记

          本文链接:https://www.haomeiwen.com/subject/tgmioqtx.html