美文网首页
Python学习笔记-3群18组-杜杜狼-2017.7.24

Python学习笔记-3群18组-杜杜狼-2017.7.24

作者: 渡笃狼 | 来源:发表于2017-07-25 00:12 被阅读22次

    Lesson 26 虚拟变量

    虚拟变量又叫哑变量和离散特征编码,用来表示分类变量,非数量因素可能产生的影响

    1. 离散特征的取值之间有大小意义, eg xl ,l, m, s
    pandas.Series.map(dict)
    dict是映射的字典
    

    2.离散特征的取值之间没有大小意义

    pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, drop_first=False)
    data: 要处理的dataframe
    prefix: 列名的前缀,在多个列有相同的离散项时使用
    prefix_sep: 前缀和离散值之间的分隔符,默认为下划线
    dummy_na: 是否把NA值作为一个离散值进行处理,默认不处理
    columns: 要处理的列名,如果不指定该列,那么默认处理所有列
    drop_first: 是否从备选项中删第一个
    

    Lesson 27 基本统计

    基本统计分析又叫做描述性统计分析,用来概括十五整体状况以及事物间的联系(食物基本特征),以发现其内在的规律的统计分析方法
    常用方法:
    计数: size
    求和: sum
    平均值: mean
    方差: var
    标准差: std
    累计求和: cumsum
    最小值所在位置:argmin
    最大值所在位置:argmax
    分位函数:quantile(0.3)

    Lesson 28 分组分析

    根据分组字段,将分析对象划分成不同的部分,已进行对比分析各组之间的差异性的分析方法
    常用统计指标:计数,求和,平均值
    定性分组
    定量分组

    分组统计函数:
    groupby(by=[分组列1,分组列2,...])
    [统计列1,统计列2,...]
    .agg({统计列别名1:统计函数1,统计列别名2:统计函数2})
    Attention: 当统计列名有多个时,统计列别名会自动变成: 统计列别名_统计列名

    Lesson 29 分布分析

    根据分析目的,讲数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法
    Step1: 定义各数值区段,例如“20岁以下”,“20到30岁”...
    Step2: 进行数值分段处理:pandas.cut()
    Step3: 按照已分区段,进行数据分组

    data.groupby(by=[column_name])[column_name].agg({column_alias: function})
    

    相关文章

      网友评论

          本文标题:Python学习笔记-3群18组-杜杜狼-2017.7.24

          本文链接:https://www.haomeiwen.com/subject/oszbkxtx.html