美文网首页
python数据分析(四)

python数据分析(四)

作者: AIhenry从入门到放弃 | 来源:发表于2017-08-27 17:33 被阅读0次

    1、基本统计

    基本统计分析:描述性统计分析,用来概括事物整体状况以及事物间联系(即事物的基本特征),以发现其内在规律的统计分析方法。
    常用的统计指标:计数、求和、平均值、方差、标准差
    描述性统计分析函数:describe();常用统计函数size()计数,sum()求和,mean()平均值,var()方差,std()标准差
    例如:描述性分析data.score.describe(),最大值data.score.max(),平均值data.score.mean(),方差data.score.var()
    累积求和data.score.cumsum(),最小值所在位置data.score.argmin()

    2、分组分析

    分组分析是指根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间的差异性的一种分析方法。
    分组类型主要有两大类:定性分组,定量分组,定性分组按事物已有的属性划分,如性别,年龄。定量分组即数值分组。
    常用的统计指标:计数,求和,平均值
    分组统计函数:groupby(by=[分组列])[统计列].agg({统计列别名:统计函数}),by用于分组的列,中括号用于统计的列,agg统计别名显示统计值的名称,统计函数用于统计数据。
    例如:aggResult = data.groupby( by = ['class'] ) ['score'].agg({ '总分' : numpy.sum, '人数'.numpy.size, '平均数'.numpy.mean})

    3、分布分析

    分不分析是指根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法。
    常用于用户消费分布,收入分布,年龄分布等。
    先进行数值分组
    bins = [min(data.年龄-1,20,30,40,max(data.年龄+1))]
    data['年龄分层'] = pandas.cut(data.年龄,bins,labels = labels)
    在进行分组aggResult = data.groupby(by = ['年龄分层'])['年龄'].agg({'人数':numpy.size})

    百分比的表现形式:
    pAggResult = round( aggResult/aggResult.sum(), 2 )*100 pAggResult['人数'].map('{:,.2f}%'.format)

    4、交叉分析

    通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析。
    定量、定量分组交叉;定量、定性分组交叉;定性、定性分组交叉。
    交叉计数函数:pivot_table(values,index,columns,aggfunc,fill_value),参数说明:
    values:数据透视表中的值;Index:数据透视表中的行;columns:数据透视表中的列;aggfunc:统计函数;fill_value:NA值的统一替换。
    例如:ptResult = data.pivot_table(values = ['年龄'],index = ['年龄分层'],columns = ['性别'],aggfunc=[numpy.size])

    5、结构分析

    是在分组以及交叉的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。
    数据库的外运算:add,sub,multiply,div,分别是加减乘除;数据框的内运算函数:sum,mean,var,sd分别是求和,平均值,方差,标准差
    在上述的交叉分析的基础上进行结构分析:ptResult.sum()ptResult.div(ptResult.sum.(axis = 1),axis = 0)

    6、相关分析

    是研究两个或两个以上速记变量之间相互依存关系的方向和密切程度的方法。分为线性相关和非线性相关。
    线性相关关系主要采用皮尔孙相关系数r来度量连续变量之间线性相关强度。
    相关分析函数:DataFrame.corr() ,Series.corr()
    如果由数据框调用corr方法,那么将会计算每个列两两之间的相似度;如果由序列调用corr方法,那么只是计算该序列与传入的序列之间的相关度。
    data[['超市购物率','网上购物率','文盲率','人口']]

    7、RFM分析

    是根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法。

    RFM分析过程:

    1、计算RFM各项分值

    R_S,距离当前日期越近,得分越高,最高5分,最低1分
    F_S,交易频率越高,得分越高,最高5分,最低1分
    M_S,交易金额越高,得分越高,最高5分,最低1分

    2、汇总RFM分值

    RFM=100R_S+10F_S+1*M_S

    3、根据RFM分值对客户分类

    RFM分析前提

    1、最近有过交易行为的客户,再次发生交易的可能性要高于最近没有交易行为的客户
    2、交易频率较高的客户比交易频率较低的客户,更有可能再次发生交易行为
    3、过去所有交易总金额较多的客户,比交易总金额较少的客户,更有消费积极性

    相关文章

      网友评论

          本文标题:python数据分析(四)

          本文链接:https://www.haomeiwen.com/subject/sceohxtx.html