sql截取字符串这么奇怪的需求?
原因是我们的pr和master build每次运行都会产生大量的数据。我们将这部分数据存在关系型数据库里。为了日后方便进行统计和甄别pr的质量,是否引入regression。
由于pr采用的是webhook的方式,定制化了各种触发的参数,比如:run,run-ui, build等等。一旦用户输入了这几种comment,jenkins就会自动运行构建脚本。与此同时,我们也将用户的行为记录下来。
研究过github api的人一定知道,api中携带了大量的信息,包括pr的owner,组织,reviewer等等。虽然是json格式的。我们存储的时候,还是一股脑的存的text。一方面是快捷,而且不需要过多的考虑占用的字段长度。虽然存储的时候开心了,但是当我们想把其中的数据抽取出来的时候Orz,太难受了。巨长的json串还是array类型的。
没有办法,无法使用postgres自带的解析json串的函数,具体可参考http://www.postgres.cn/docs/12/datatype-json.html
我们的问题在于,怎样从一堆巨长的json串中,抠出我们想要的comment。没办法,截取字符串吧。
position 函数,SELECT POSITION('Tutorial' IN 'GeeksForGeeks Tutorial');
简单用法就是在字符串里找出我需要截取的值。 类似于如下

我的json由于比较大,且是一个数组串,根据一般的key来获取值,并不能达到要求。因为key可能都是一样的name。
所以我们通过识别性比较大的值:ghprbCommentBody,其中一部分信息是这样的:
{"name":"ghprbCommentBody","value":"run only-build"},
且value的值是动态变化的。
因此可以通过position来截取。首先定位到ghprbCommentBody,
POSITION (
'ghprbCommentBody' IN b."parameters"
) FOR 50
取出长度为50。
然后拿到了小部分的值,再在这个基础上进一步截取,

会发现结果变成这样

接下来就需要对子串进行截取,去除引号,以及不相关的键值。
TRIM (
TRAILING '"'
FROM
TRIM (
LEADING ':"'
FROM
TRIM (
LEADING '"ghprbCommentBody","value"'
FROM
SUBSTRING (
b."parameters"
FROM
POSITION (
'"ghprbCommentBody' IN b."parameters"
) FOR POSITION (
'}' IN SUBSTRING (
b."parameters"
FROM
POSITION (
'ghprbCommentBody' IN b."parameters"
) FOR 50
)
)
)
)
)
) AS "parameters"
LEADING 表示从头部开始。这样就达到了我们的预期

网友评论