美文网首页地震会商技术系统地震数据专家[DataEQ]
DatistEQ之字母井名可逆向匹配方案设计

DatistEQ之字母井名可逆向匹配方案设计

作者: 了无_数据科学 | 来源:发表于2020-09-23 19:11 被阅读0次
字母井名可逆性分析

一、R系统字母井名现状
基本规则,以井名拼音作为字母井名,对于转换后重复的井名加字母区分。(字母为大写)R系统中共有152853口井,其中字母井名数据现状:
1、320口井,以空格开始。
2、47642口井,拼音字段为空。
3、193个拼音数据项井名重复,涉及394口井。
4、重复井名,拼音编号加字母区分的方式,实用性较差。

二、GE系统拼音井名逆向匹配
13个三维工区3408口井(时深井关系),去重后2963口井。
1、直接匹配仅39口井。
2、转换为大写后,可匹配1292口井,1671口井未匹配。

三、井名重新拼音编号
R系统15万口井名重新拼音编号,重复编号1697个,涉及井数3506口;
新编号下,三维井可匹配2018口井,未匹配905口(可与原库可匹配的32口井)

四、之前讨论基于了两点假设:

第一条假设地物的井来源于R系统?
现有的数据环境中,未处理大小写转换仅有39井能完全匹配上,处理后43%(1292口)能匹配上。

新方案,直接转为拼音后能匹配68%(2018口),剩余部分可与R系统原有井名匹配的仅32口井。

从这些数据上看,第一条假设不完全成立,悲观地说地物仅有1%井来源于R系统。通过简单的拼音规则,可以匹配到68%。

第二条假设,R系统的软件接口中的拼音井名,可逆且科研人员是认可的?
从R系统去重的规则来看,推送的拼音井名,科研人员无法直接使用;其次大量的空值,重复的存在,使得可用可逆这条假设也不成立。看来接口的使用情况也一个假象。

这是一个井名匹配问题。
从R系统软件接口的生态环境角度考虑,一是删除R系统中同一井多个身份的井,二是建立拼音井名命名规则,建立新井添加机制;三是老井拼音井名修改。通过这三点,建立汉字井名与拼音井名唯一对应的字典,完成拼音的井名的可逆向查询工作。
关于三维项目,有30%根据简单的拼音规则不能匹配,同时井名也不来源于R系统。自动匹配,看来只能通过坐标或是文字相似度来进行,一种是动态方式,给定坐标(100米范围)平台给井位,就是平台给猜一个井位(井名上给个标记即可)。另一种方法,静态的维护一张对应关系表(这个方案,个人不建议,系统建立起来了,地物随便命名,维护工作太大)。

相关文章

  • DatistEQ之字母井名逆向匹配流程

    深刻体会到,数据整理工作是一门科学,貌似是非常简单的工作,里蕴含着大量的技术与思考。 1、拼音直接匹配方法;拼音井...

  • DatistEQ之字母井名可逆向匹配方案设计

    一、R系统字母井名现状基本规则,以井名拼音作为字母井名,对于转换后重复的井名加字母区分。(字母为大写)R系统中共有...

  • 常用正则符号

    1、字母:匹配单个字母 (1)A:表示匹配字母A; (2)\\:匹配转义字符“\”; (3)\t:匹配转义字符“\...

  • DatistEQ之Windows标准API

    2021 Q1版DatistEQ提供标准Windows API,应用程序可给DatistEQ发送一个或多个文件的路...

  • python网络爬虫3:使用正则表达式匹配

    2.非贪婪匹配之(.*?) \d 匹配1个数字字符 \w 匹配1个字母,数字或下划线字符 \s 匹配1个空白字符,...

  • 正则速查表

    1. 字面量 模式说明字母、数字匹配字面量本身。比如 /f/,匹配字母 "f"\0匹配 NUL 字符\t匹配水平...

  • 常用的匹配模式

    \w 匹配字母数字及下划线\W 匹配f非字母数字下划线\s 匹配任意空白字符,等价于...

  • JavsScript正则表达式选录

    分别匹配元音字母 **统计字母、数字和其他字符 **

  • day18、正则表达式和pygame 2019-01-16

    一、复习 1.正则表达式 (1)匹配字符的符号 .\w, \W -->匹配数字,字母,下划线(和除了ASCLL码之...

  • re正则表达式

    正则表达式 \w 匹配字母数字及下划线的字符 \w 匹配额不是字母、数字、下划线字符 \s 匹配任...

网友评论

    本文标题:DatistEQ之字母井名可逆向匹配方案设计

    本文链接:https://www.haomeiwen.com/subject/ddwoyktx.html