01 企业名址数据处理的难点
在做姓名与地址的处理时,我们经常会遇到一些困难,影响结构化的进行。例如:
1.美国、印尼等其他国家与中国的地址呈现方式是不同的。美国的地址可能会含有州,而印尼的地址当中可能包含某些岛屿名称。
2.有些人在填写地址时会省去一些字,像是填写”深圳市”时没有填写”市”;填写”福田区”时省去了这个”区”。也有人会因为失误而填错地址,像是误把广州市天河区写成天山区。
3.当人们用小写阿拉伯数字呈现门牌号码时,也会因为系统误判而出现错误的数据。
由此可见,真实的数据比我们想象的要复杂的多,也可能会伴随着各种各样的错误出现。错误的数据对于用户画像、用户标签是没有用处的。因此,为了达到结构化的效果,我们必须做数据清洗。
02 针对名址数据处理难点的解决方法
针对上面提到的三种情况,目前现行的解决方法如下:
1.自动纠正明显的错误:像是将天山区这种明显不存在的区域纠正为天河区。
2.补全与补漏:对于有一定结构化的数据,例如将深圳福田这条地址补全为深圳市福田区。这种做法的目的是为了确认该数据是否为重复数据,如此一来便能检查该客户是否有多条数据记录。
然而,面对如阿拉伯数字的误判、英文大小写、空格的错误、姓名上多了“先生”“夫人”等字眼的问题,也许是数据输入时造成的,也可能是系统导入等其他原因所致,如果我们要形成360度的用户画像,就要对这些问题进行结构化处理。一般怎么办呢?
华矩科技在对姓名和地址数据进行处理时形成一套科学的数据清洗流程,这一流程不仅仅能运用在姓名和地址的分析上,也能运用于其他的领域的数据处理上:
数据预处理->数据质量诊断->质量清洗->姓名地址补全->数据标准化->反馈后端。
华矩的处理工具能够快速识别完整的数据问题类型有多少,如大小写、空格、符号全角半角等等,发现问题后纠错补全,并进行清洗,标准化后反馈给前端和后端,为相应的业务系统提供业务服务的。
03 华矩数据工具在名址数据处理的应用
华矩数据处理工具在名址数据处理上主要涵盖以下几种功能:
1.文字匹配:无论是大小写、阿拉伯数字、全角半角等字形,甚至是姓名里的称谓,我们都有对应的数据库进行匹配
2.地址识别:我们的工具能够针对遗漏的地址信息进行补全。如当地址里包含了大厦名称,我们也能自动识别是哪一大厦哪一单元号和房间号;数据中缺少邮政编码,我们也能依照地址进行识别和匹配;地址输入错误时,也能识别并自动校正。系统识别时不仅仅是针对字面意义进行纠正,而是有详细解析的。
3.人名识别:我们的工具能清楚识别出姓、名与称谓。例如张大明先生与张大明这两个词语解析出来的名字成分是一样的,系统能自动比较识别。
4.智能比较:系统并非以原始值进行比较。相反地,它会智能分析所输入的内容,例如同样的数字即便有全角和半角之分,系统也能够自动识别并依照解析的结果确认两者的匹配度。
5. 匹配度分等:针对相似却不全然相同的信息,系统也会给出一个相似度,依照相似度进行打分与分等。一共分为ABCD四个等级,匹配度最高的放在A等。此规则无论是姓名还是地址的分析都适用,姓名和地址分别都会有一个打分。
系统针对名址数据质量打分规则
系统会对姓名和地址分别进行打分,比如对于两个字段的匹配,分ABCD4个等级,这个过程是在系统里设置的,然后系统自动推荐出来,就是说地址姓名进行匹配之后,得到不同的分数来判断这两条记录是否匹配。
那么遇到姓名和地址都很匹配的情况呢?这时候我们会观察是否只是因为地址填写的方式不一样,然后给出一个不同的匹配值。在评分的时候,我们也会考量姓名所占的比重是不是大一点,这时候如果姓名匹配度高的话,系统就会显示两者是可匹配的。
若是遇到地址匹配但姓名不匹配的情况,因为无法确认是否为不同人或者是笔误,系统这时就会产出另一个分数,并将它列为可疑记录,方便我们做后续的处理。
若是姓名和地址的匹配度差异都极大,基本上就可以确认两者是完全不同的数据了。
示例
王大海先生与王大海两种数据在姓名的评分上就会被评为A级,因为两者基本上就是一样的。接着看到地址,如果前半部份都相同,只是后面单元的部份分别为单元304室以及1-304房,那系统可能就会将结果评价为B。最后的匹配值就会依据两者评分的结果进行综合结算。
遇到地址绝对匹配但名字差的非常远的情况,系统就会将其列为可疑记录,甚至不会显示匹配值,而会直接呈现非匹配的结果。
这个工具除了可以应用在姓名与地址的匹配上,也可以加入其他更多的元素,例如身份证号码或电话号码的匹配度计算等。这个过程重点在于我们要收集足够多的客户的信息,比如说我们有其他的客户画像信息或者行为信息的时候,我们综合各个字段比较来进行评分,然后根据相似度,我们就可以得到说这两个记录是否一样,在这个过程中间,这个也是我们在查找同一客户的时候的工作原理,也就是通过这种方式来判断是不是同一个客户或者说同一个人。
名址数据处理流程解析
数据探查
如果仔细审视工具运作的过程,会看到每个客户都会有一个编码。工具在运作时就会识别这些编码的长度、数字以及字母内容甚至空格字符,做出相应的探查与判断,依据资料相关性查找出需要的客户信息,分析匹配度。
数据标准化
通常而言,你输入的地址是各种各样的非结构化的数据,但是在系统里它会自动分成省、市、区、县、路等,然后还有邮政编码以及具体的建筑名称。
地址匹配
除了前面所提的进行地址补漏与错误校正,系统也能分析出相同场所的不同缩写与称号。例如同样是一间医院,来自供应商、内部员工或客户所给出的名称不尽相同。系统能够依据我们的要求进行识别、判断两者是否属于相同数据,方便后续数据处理的进行。
04 华矩数据工具在名址数据处理上的优势
有助于业务与IT部门的协作,它不是一个非常技术化的工具,并不仅是只能由受过专业技术训练的人才能使用。相反地,它更适合业务分析人员或是用户分析人员使用,操作界面十分简单易上手。
支持并适用于230多个国家,数据库能依据该当地的文化作出改变。例如亚洲许多国家的女生姓名是有分婚前姓名与婚后姓名的,工具能依据这个特点做出相应的识别。
含全球经纬度数据,只要给出一个确定的地址,工具就能精准定位到相应的经纬度,这对全球数据的快速剖析十分有帮助。
网友评论