美文网首页大数据
hivesql 正则提取url

hivesql 正则提取url

作者: 堂哥000 | 来源:发表于2021-03-05 16:24 被阅读0次

整体写法

regexp_replace(regexp_extract(text,'([a-z0-9:/A-Z]+\\\\.(?![0-9]{2}[^0-9a-zA-Z.:/])[0-9/:-a-zA-z.]+)',1),'^:','' ) 
分步解释
  1. url一定有'.'存在 : 在点的前后一定有字母、数字、冒号、斜杠等字符(无中文)
    按这个想法可得到 [a-z0-9:/A-Z]+\\\\.[0-9/:-a-zA-z.]+
  2. 剔除干扰数据
    a. 开头冒号:使用regexp_replace(result_text,'^:','' )统一替换
    b.一段文本中有多个疑似url ,比如99.99等同样会干扰输出
    对于这样的使用零宽断言来实现:在点的后面不允许出现两个数字结尾
    \\\\.(?![0-9]{1,2}[^0-9a-zA-Z.:/])

相关文章

  • hivesql 正则提取url

    整体写法 分步解释 url一定有'.'存在 : 在点的前后一定有字母、数字、冒号、斜杠等字符(无中文)按这个想法可...

  • 使用正则提取url(iOS)

    直接上代码: NSString*string =@"我是大大www.baidu.com咪咪咪"; NSError*...

  • 2019-06-15 JS

    email正则, url正则

  • Jmeter提取器-正则,json,xpath,边界值提取器

    提取器 jmeter--后置处理器--正则提取器 常用的提取器: 1、正则提取器 适用于所有返回的格式 ...

  • 获取URL查询参数转换成对象

    获取URL查询参数并转换成对象 提取正则含义 多个非“[^?&=]+”字符后面接等于号“=”,后面分组为任意个非“...

  • 正则表达式

    正则表达式 (?P .*)提取字符串re.M,re.S,贪婪,非贪婪正则表达式,html标签 提取Python正则...

  • JMETER重定向后正则提取

    不要使用正则提取器。例如,以下是我们要提取token的位置。 普通的正则提取器,无法看到重定向后的接口内容。这时需...

  • 爬虫数据筛选

    目录清单 正则表达式提取数据 正则表达式案例操作 Xpath提取数据 Xpath案例操作 BeautifulSou...

  • 爬虫处理之结构化数据操作

    目录清单 正则表达式提取数据 正则表达式案例操作 Xpath提取数据 Xpath案例操作 BeautifulSou...

  • 爬虫处理之结构化数据操作

    目录清单 正则表达式提取数据 正则表达式案例操作 Xpath提取数据 Xpath案例操作 BeautifulSou...

网友评论

    本文标题:hivesql 正则提取url

    本文链接:https://www.haomeiwen.com/subject/gzarqltx.html