美文网首页自然语言处理(NLP)
浅谈格式内容清洗的步骤和方法

浅谈格式内容清洗的步骤和方法

作者: 6c643a7fc0e6 | 来源:发表于2019-12-25 23:59 被阅读0次

    如果数据是由系统日志而来,那么通常在格式和内容方面,会与元数据的描述一致。而如果数据是由人工收集或用户填写而来,则有很大可能性在格式和内容上存在一些问题,简单来说,格式内容问题有以下几类:

    1、时间、日期、数值、全半角等显示格式不一致
    这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可

    2、内容中有不该存在的字符
    某些内容可能只包括一部分字符,比如身份证号是数字+字母,中国人姓名是汉字(赵C这种情况还是少数)。最典型的就是头、尾、中间的空格,也可能出现姓名中存在数字符号、身份证号中出现汉字等问题。这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符

    3、内容与该字段应有内容不符
    姓名写了性别,身份证号写了手机号等等,均属这种问题。 但该问题特殊性在于:并不能简单的以删除来处理,因为成因有可能是人工填写错误,也有可能是前端没有校验,还有可能是导入数据时部分或全部存在列没有对齐的问题,因此要详细识别问题类型

    相关文章

      网友评论

        本文标题:浅谈格式内容清洗的步骤和方法

        本文链接:https://www.haomeiwen.com/subject/hwnhoctx.html