Chapter 26《Extractors》

作者: liqing151 | 来源:发表于2018-08-14 11:51 被阅读0次
    • 到目前为止所使用的模式匹配的拆解和匹配都建立在case class的基础上,如果要创建自己的模式而不定义case class,提取器提供了一种实现手段。

    提取器

    • Scala中,只要有一个object拥有unapply的方法,该object就被称为提取器,这个unapply的作用是跟selector进行匹配,如果匹配成功,就将其拆解开来。
    object EMail {
    // The injection method (optional)
    def apply(user: String, domain: String) = user + "@" + domain
    // The extraction method (mandatory)
    def unapply(str: String): Option[(String, String)] = {
    val parts = str split "@"
    if (parts.length == 2) Some(parts(0), parts(1)) else None
    }
    }
    

    定义了一个名为EMail的提取器。unapply方法是apply方法的逆操作,unapply的入参为email地址,返回userdomain,但是为了处理字符串不是email的情况,将unapply的返回值定义为Option类型。在模式匹配中,如果case后面遇到了提取器,就调用unapply方法,其入参是选择表达式。

    selectorString match { case EMail(user, domain) => ... }
    EMail.unapply(selectorString)
    

    unapply方法的返回值必须是Option类型的。这里的case Email(param1)模式,如果没有定义apply方法,有两种写法,第一种是Email(param1),这个param1unapply返回的整个元组;第二种就是Email(param1, param2, ……),参数的个数和unapply定义的返回参数个数相同。定义了apply方法也是同样的情况。

    目前选择器selectorString的类型和提取器unapply的参数类型是一致的,都是String,但这并不是必须的,selectorString可以为任何类型,unapply会首先检查selectorString的类型是不是String类型的,applyunapply是对偶的,如果两者存在于一个对象中的话,Email.unapply(Email.apply(user, domain))的返回值是Some(user, domain)apply使用参数来构建对象,unapply将对象解析为构造参数。推荐将两者放在一起。


    0个或者1个变量的模式

    • 如果返回多个模式元素,可将这个元素放在元组中,并使用Some包裹起来进行返回,如果要返回单个元素,直接使用Some将这个元素进行包装。如果不返回元素,则返回布尔值。
    object UpperCase {
    def unapply(s: String): Boolean = s.toUpperCase == s
    }
    

    case EMail(Twice(x @ UpperCase()), domain)中含有三个unapply模式。UpperCase()要带上,不然匹配的就是UpperCase自身的类型。UpperCase自身虽然没有绑定任何变量,但可以使用变量绑定@将跟它匹配的模式关联一个变量,DIDI@xiaomi.com返回的x就是DI,可见嵌套的模式匹配是从最外层进行的。


    提取可变长度参数的模式

    如何使用提取器支持下面的代码:

    dom match {
    case Domain("org", "acm") => println("acm.org")
    case Domain("com", "sun", "java") => println("java.sun.com")
    case Domain("net", _*) => println("a .net domain")
    }
    

    就是一个提取器可生成多个匹配模式,使用unapplySeq方法。

    def unapplySeq(whole: String): Option[Seq[String]] Some(whole.split("\\.").reverse)
    

    返回的是Option[Seq[String]]类型。

    def unapplySeq(email: String): Option[(String, Seq[String])] 
    

    既能够返回固定元素String,也能够返回不定元素,不定元素需要写在最后面。这里的Seq也可以换成List,Array,IndexedSeq等。


    提取器和序列模式

    • 列表模式其实就是在List中存在一个unapplySeq方法。SetMap应该是不可以的。因为在比较的时候是有序的。

    提取器和样例类的比较

    • 样例类将数据的具体实现细节暴露给了使用方。在能够正确匹配构造器模式的情况下,选择器selector的具体实现细节是暴露的。
    • 提取器则隐藏了数据的具体实现,既可以使用模式匹配又可以隐藏,模式可以跟数据类型无关,这种特性称之为表现独立,在大型的开发系统中是非常有必要的,可以更改实现细节而不影响客户端的实现。
    • 表现独立是提取器相对于样例类一个重要的优势,样例类相对于提取器的优点主要有:样例类更好实现,编译器可以更好的优化,因为case class的实现是固定的,但是提取器中可以写任何代码,最后,如果case class继承自sealed trait或者sealed class,则在进行模式匹配的时候编译器可以帮助检查所有的情况。
    • 如果是封闭的应用,则使用样例类是更好的,因为方便,还可以提供静态检查;如果类的继承关系是需要改变的,且需要暴露给使用方,提取器是不错的选择,保持了表现独立。

    正则表达式

    • 提取器的另外一个应用场景是正则表达式,ScalaJava一样,通过一个类库来提供对正则表达式的支持。
    • scala的正则表达式支持在scala.util.matching中。新的正则表达式是将一个字符串传递给Regex构造方法来完成的,在String中需要对特殊字符进行转义。也可以直接在""""""中写入原生字符串,比如"""(-)?(\d+)(\.\d*)?"""
    scala> val Decimal = new Regex("""(-)?(\d+)(\.\d*)?""")
    

    或者 val Decimal = """(-)?(\d+)(\.\d*)?""".r,因为在StringOps中存在一个名为r的方法可以生成Regex表达式。

    查找正则表达式
    • 可以使用不同的操作符,在字符串中查找正确的正则表达式
        1. regex findFirstIn str,在str中查找regex,返回Option类型;
        1. regex findAllIn str,在str中查找regex,返回Iterator类型;
        1. regex findPrefixOf str,在str的一开始查找regex,返回Option类型。
    使用正则表达式提取信息
    • 每一个正则表达式都有对应的提取器,用来表示正则表达式中匹配的字符串。
    scala> val Decimal(sign, integerpart, decimalpart) = "-1.23"
    sign: String = -
    integerpart: String = 1
    decimalpart: String = .23
    

    可绑定的变量是正则表达式中的各个组。

    • 提取器泛化了模式匹配,允许定义自己的模式,并不需要跟selector的类型相关,同时提取器在模式和数据的具体表现形式之间增加了一层保护层,使得大型软件的实现更为灵活,保持了表现独立性。

    相关文章

      网友评论

        本文标题:Chapter 26《Extractors》

        本文链接:https://www.haomeiwen.com/subject/rqtpbftx.html