DatistEQ之字母井名逆向匹配流程

作者: 了无_数据科学 | 来源:发表于2020-09-25 19:33 被阅读0次

深刻体会到,数据整理工作是一门科学,貌似是非常简单的工作,里蕴含着大量的技术与思考。

1、拼音直接匹配方法;拼音井名有重复,同时项目中井有大量的标记性字母;
2、空间匹配取最小距离;数据库中井坐标存在空缺、坐标不准确的现象。
3、文字相似度方法;求文字相似度的方法有很多,有最大公共子串法、汉明距离、杰卡德距离等,计算文字相似度超级耗时,2920*152853,几十亿次计算。但由于井名本身的相似度都比较大,直接计算文字相似度方法,也不可取。
4、考虑到计算工作量,采用一个综合的方法,先是拼音直接匹配法,再对完全匹配与未匹配部分,分别进行求距离、文字相似度的计算。

井名逆向匹配流程

相关文章

网友评论

    本文标题:DatistEQ之字母井名逆向匹配流程

    本文链接:https://www.haomeiwen.com/subject/zfzfuktx.html