数据分析的流程:数据收集-数据整理-数据清洗-数据分析-数据展示
1.50%-60% 数据清洗时间,首先要明确本研究的主要目的。
2.保存在电子表格文件中,后缀名称为xlsx,每个xlsx文件仅保留一个sheet,电子表格的名称建议用英文或者拼音。
3.不要在原始数据文件进行数据清洗。
4.每行为一个患者的一次就诊记录,每列为一个变量。分次就诊信息可分行。
5.连续性变量用数值,分类变量可以用英语,尽量小写英文,不用中文。
6.时间变量比如OS或者DFS可以先用电子表格的函数进行计算出结果,应用 电子表格函数(dataif)
7.一个患者的不同治疗方式尽量不进行排列组合。
8.缺失值的内容填写为na。
9.每个病人的每次记录的唯一确认信息要保存好。
10.清除电子表格中的所有格式。
11.每列数据用筛选功能单独查看,注意极值,异常值,缺失值等特殊情况。注意应用电子表格的筛选功能整列查看数据情况。
12.Vlookup 函数可以用于合并表格。
13.批量替换可用于编码,防止复制出现的错误(黏贴值到可见单元格)。
14.个人体会,在后续数据分析的过程中,统计软件报错有一半原因与数据清洗有关,好的数据清洗可以节省后续的分析时间。
网友评论