美文网首页
[SparkSQL] regexp_replace函数使用 去除

[SparkSQL] regexp_replace函数使用 去除

作者: 林沐之森 | 来源:发表于2019-08-10 17:21 被阅读0次

1、函数介绍

REGEXP_REPLACE(inputString, regexString, replacementString)
第一个参数:表中字段
第二个参数:正则表达式
第三个参数:要替换称为的字符

2、使用中的坑

函数使用起来比较简单,但是也有坑,当要匹配特殊的隐藏字符\n \r \t ,等回车符、制表符时,需要通过使用\color{red}{四个 斜杠 进行转译}

sparkSession.sql(
  """
    |select
    |regexp_replace(title, '\\\\n|\\\\\t|\\\\\r', ',') title
    |from tableName
  """.stripMargin)

3、解决的问题

如果不删除这些隐藏字符,在我们导出数据写入文件时会产生异常,会在数据中间进行换行

相关文章

  • Spark自定义函数(2)

    使用SparkSQL UDFs在Apache Spark中创建日期时间 UDFs 或用户定义函数是向SparkSQ...

  • 【Hive】注册UDF的过程

    实现步骤 对比SparkSQL注册UDF的过程SparkSQL用户自定义函数UDF和UDAF、UDTF[https...

  • hive字符串函数

    1.regexp_replace 正则表达式替换函数 语法: regexp_replace(string A, s...

  • SQL正则表达式(一)

    一、hive正则表达式 三个函数:regexp,regexp_extract,regexp_replace, 1....

  • spark 定制 UDF

    好久没有发布文章,今天抽点时间写个 spark 自定义 UDF 函数,使用 sparksql 实现数据内部的两两比...

  • 21.重构

    要点:提取子函数、上移函数到父类、下移函数到子类、封装固定的调用逻辑、使用泛型去除重复逻辑、使用对象避免过多的函数...

  • Python : 闭包Closures

    闭包 Closures 是由另外一个函数返回的函数.使用闭包去除重复代码.

  • Python-删除字符串函数strip\lstrip\rstri

    一、删除空白 使用strip()函数来删除字符串两端空白;lstrip()去除开头空白;rstrip()去除结尾空...

  • spark SQL利用窗口函数操作hive

    ** * sparksql支持了hive的窗口函数 * 罗列一些窗口函数 * 1.row_number分组排序 *...

  • Swift-05.Array的常见操作

    map / filter / reduce map接收函数作为参数 compactMap默认解包并去除nil 使用...

网友评论

      本文标题:[SparkSQL] regexp_replace函数使用 去除

      本文链接:https://www.haomeiwen.com/subject/gjesjctx.html