深刻体会到,数据整理工作是一门科学,貌似是非常简单的工作,里蕴含着大量的技术与思考。
1、拼音直接匹配方法;拼音井名有重复,同时项目中井有大量的标记性字母;
2、空间匹配取最小距离;数据库中井坐标存在空缺、坐标不准确的现象。
3、文字相似度方法;求文字相似度的方法有很多,有最大公共子串法、汉明距离、杰卡德距离等,计算文字相似度超级耗时,2920*152853,几十亿次计算。但由于井名本身的相似度都比较大,直接计算文字相似度方法,也不可取。
4、考虑到计算工作量,采用一个综合的方法,先是拼音直接匹配法,再对完全匹配与未匹配部分,分别进行求距离、文字相似度的计算。
网友评论