Python学习笔记-3群18组-杜杜狼-2017.7.24

作者: 渡笃狼 | 来源:发表于2017-07-25 00:12 被阅读22次

Lesson 26 虚拟变量

虚拟变量又叫哑变量和离散特征编码，用来表示分类变量，非数量因素可能产生的影响

离散特征的取值之间有大小意义， eg xl ,l, m, s

pandas.Series.map(dict)
dict是映射的字典

2.离散特征的取值之间没有大小意义

pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, drop_first=False)
data: 要处理的dataframe
prefix: 列名的前缀，在多个列有相同的离散项时使用
prefix_sep: 前缀和离散值之间的分隔符，默认为下划线
dummy_na: 是否把NA值作为一个离散值进行处理，默认不处理
columns: 要处理的列名，如果不指定该列，那么默认处理所有列
drop_first: 是否从备选项中删第一个

Lesson 27 基本统计

基本统计分析又叫做描述性统计分析，用来概括十五整体状况以及事物间的联系（食物基本特征），以发现其内在的规律的统计分析方法
常用方法：
计数: size
求和: sum
平均值: mean
方差: var
标准差: std
累计求和: cumsum
最小值所在位置：argmin
最大值所在位置：argmax
分位函数：quantile(0.3)

Lesson 28 分组分析

根据分组字段，将分析对象划分成不同的部分，已进行对比分析各组之间的差异性的分析方法
常用统计指标：计数，求和，平均值
定性分组
定量分组

分组统计函数：
groupby(by=[分组列1，分组列2，...])
[统计列1，统计列2，...]
.agg({统计列别名1：统计函数1，统计列别名2：统计函数2})
Attention: 当统计列名有多个时，统计列别名会自动变成: 统计列别名_统计列名

Lesson 29 分布分析

根据分析目的，讲数据（定量数据）进行等距或者不等距的分组，进行研究各组分布规律的一种分析方法
Step1: 定义各数值区段，例如“20岁以下”，“20到30岁”...
Step2: 进行数值分段处理:pandas.cut()
Step3: 按照已分区段，进行数据分组

data.groupby(by=[column_name])[column_name].agg({column_alias: function})

网友评论

本文标题：Python学习笔记-3群18组-杜杜狼-2017.7.24

本文链接：https://www.haomeiwen.com/subject/oszbkxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！