数据分析要做什么 做一个描述型的数据报告。
#数据类型
名义型:民族,等级,等等.对名义型变量要进行编码,因为很多库是不能识别中文字符。对于关注多的一般编码为1.
等级:1,2,4
连续:数值型.特征,位置,分布,偏度。
均值易代偏,众数在很干净的时候可以用(少用),中位数(数据不对称用)
对数分布(最多的分布,例如利润,用中位数描述,建模时对数据取对数)
泊松分布:网页点击,排队;伽马分布:损失,投保;
方差,标准差,极差,四分位差IQR。
何须图,数据1.5倍外算离群值。
整体分布1std68% 2std95% 3std99%
分类变量是维度指标;连续变量是度量指标。
snd.price.agg(['mean','median','sum','std','skew'])
对于skew来说 大于1认为右偏严重,不大于1 认为右偏不严重。
# 问题数据
脏数据——不正确的数据,缺失的数据
不一致的数据——单位不一致
数据重复
缺失值——过大量的缺失值考虑加入哑变量
离群值
# 抽样
简单随机抽样,分层抽样……
网友评论