DatistEQ之字母井名逆向匹配流程

作者: 了无_数据科学 | 来源:发表于2020-09-25 19:33 被阅读0次

    深刻体会到,数据整理工作是一门科学,貌似是非常简单的工作,里蕴含着大量的技术与思考。

    1、拼音直接匹配方法;拼音井名有重复,同时项目中井有大量的标记性字母;
    2、空间匹配取最小距离;数据库中井坐标存在空缺、坐标不准确的现象。
    3、文字相似度方法;求文字相似度的方法有很多,有最大公共子串法、汉明距离、杰卡德距离等,计算文字相似度超级耗时,2920*152853,几十亿次计算。但由于井名本身的相似度都比较大,直接计算文字相似度方法,也不可取。
    4、考虑到计算工作量,采用一个综合的方法,先是拼音直接匹配法,再对完全匹配与未匹配部分,分别进行求距离、文字相似度的计算。

    井名逆向匹配流程

    相关文章

      网友评论

        本文标题:DatistEQ之字母井名逆向匹配流程

        本文链接:https://www.haomeiwen.com/subject/zfzfuktx.html