美文网首页我爱编程
python数据分析与挖掘实战

python数据分析与挖掘实战

作者: ICDI_z | 来源:发表于2018-01-23 17:26 被阅读0次

    前三章:

    1,python中的常见库:

    2,截断均值是去掉高低极端值之后的平均数。

    3,众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更用于定性变量。众数不具有唯一性。

    4,极差=最大值-最小值

    5,标准差: 标准差度量数据偏离均值的程度,计算公式为:

    6,变异系数

    变异系数度量标准差相对于均值的集中趋势,计算公式为:

    7,统计量分析:均值,中位数,众数。

    8,集中趋势度量:极差,标准差,变异系数,4分位数间距

    9,周期性分析和贡献度分析

    10,相关系数

    10.1 Pearson相关系数

    一般用于分析两个连续性变量之间的关系,其计算公式如下。

    10.2Spearman秩相关系数

    Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数来描述。

    其计算公式如下:

    只要两个变量具有严格单调的函数关系,那么他们就是完全Spearman相关的,这与Pearson相关不同,Pearson相关只有在变量具有箱型关系时才是完全相关的。

    11,pandas 主要统计函数特征函数:

    其中corr()中有一个参数method 参数,支持pearson , kendall ,spearman

    12,累计统计特征函数:

    注意:

    pd.rolling_sum(D) D为Series对象

    14,统计做图函数

    相关文章

      网友评论

        本文标题:python数据分析与挖掘实战

        本文链接:https://www.haomeiwen.com/subject/pqzsaxtx.html