第三章:巧妇难为无米之炊-数据准备
1、理解数据
字段与记录、数据类型--文字与文字、数据表、二维表与一维表转换(数据透视表)
2、数据来源
导入数据--分列、来自网站导入等
问卷录入要求--数值题、单选题(1、2、3、4)、多选题(01或者数字)、排序题(1、2、3......)、开放性文字题(分类录入)
第四章:三心二意-数据处理
1、数据处理的内容:数据清洗、数据加工
2、数据清洗
(1)重复数据的处理
a.函数:COUNTIF(range,计算条件)
b.高级筛选--不重复的数据
c.数据透视表
d.删除重复数据
(2)缺失数据的处理--定位输入(ctrl+G)-可定位空值
a.用样本统计量的值替代缺失值,如样本均值
b.应统计模型计算结果替代缺失值,如回归模型、判别模型等
c.将缺失值的记录删除--会导致样本量变少
d.保留缺失值记录,仅在分析时做必要排除
----利用ctrl+enter快捷键,可以一键在选中的单元格内用一样的公式或者一样的内容
(3)检查数据逻辑错误
a.IF函数--IF(逻辑表达式结果为TRUE或者FALSE,为TRUE时返回的值,为FALSE时返回的值)
b.用条件格式标记错误
3、数据加工
(1)数据抽取--提取字段中某些信息
a.字段分列
b.函数法:LEFT(待提取的字段,指定字符数量)--提取字符串左边指定个数的字符
RIGHT(待提取的字段,指定字符数量)--提取字符串右边指定个数的字符
CONCATENATE(TEXT1,TEXT2...)--J将几个文本字符合并为一个文本字符串
Vlookup(查找值,查找范围,希望返回匹配的列数,是否精确匹配)
(2)数据计算
a.简单计算
b.函数计算-AVERAGE\SUM\TODAY\NOW\DATE\MONTH\DAY\DATEDIF(返回两个日期的间隔天数)
(3)数据分组--VLOOKUP(模糊匹配)
(4)数据转换
a.行列转换--选择性粘贴-转置
b.Hlookup-按行查找,用法与Vlookup类似
Isnumber-看是否是数值,是返回true,不是返回false
Seach(要查找的字符串、要在那个字符串中查找、从第几个字符串开始查找)-返回指定字符串在原始字符串中首次出现的位置
4、数据抽样
Rand()-返回[0,1]均匀分布随机数
网友评论