美文网首页数据分析
数据清洗时的注意事项

数据清洗时的注意事项

作者: 灵活胖子的进步之路 | 来源:发表于2021-06-10 11:18 被阅读0次

    数据分析的流程:数据收集-数据整理-数据清洗-数据分析-数据展示

    1.50%-60% 数据清洗时间,首先要明确本研究的主要目的。
    2.保存在电子表格文件中,后缀名称为xlsx,每个xlsx文件仅保留一个sheet,电子表格的名称建议用英文或者拼音。
    3.不要在原始数据文件进行数据清洗。
    4.每行为一个患者的一次就诊记录,每列为一个变量。分次就诊信息可分行。
    5.连续性变量用数值,分类变量可以用英语,尽量小写英文,不用中文。
    6.时间变量比如OS或者DFS可以先用电子表格的函数进行计算出结果,应用 电子表格函数(dataif)
    7.一个患者的不同治疗方式尽量不进行排列组合。
    8.缺失值的内容填写为na。
    9.每个病人的每次记录的唯一确认信息要保存好。
    10.清除电子表格中的所有格式。
    11.每列数据用筛选功能单独查看,注意极值,异常值,缺失值等特殊情况。注意应用电子表格的筛选功能整列查看数据情况。
    12.Vlookup 函数可以用于合并表格。
    13.批量替换可用于编码,防止复制出现的错误(黏贴值到可见单元格)。
    14.个人体会,在后续数据分析的过程中,统计软件报错有一半原因与数据清洗有关,好的数据清洗可以节省后续的分析时间。

    相关文章

      网友评论

        本文标题:数据清洗时的注意事项

        本文链接:https://www.haomeiwen.com/subject/olyueltx.html