检验易位构词算法

作者: 小草凡 | 来源:发表于2017-09-21 00:21 被阅读53次

不要以恶报恶。众人以为美的事,要留心去做。若是能行,总要尽力与众人和睦。 ---(罗马书12:17-18)

什么是易位构词

以下介绍来自维基百科

易位构词游戏的英文词汇是 anagram,这个词来源于有“反向”或“再次”的含义的希腊语字根ana-和有“书写”、“写下”的意思的词根grahpein。易位构词是一类文字游戏(更准确地说是一类“词语游戏”),是将组成一个词或短句的字母重新排列顺序,原文中所有字母的每次出现都被使用一次,这样构造出另外一些新的词或短句。

通俗的讲易位构词,就是对原单词的字母进行重新排列从而构词一个新词,它满足:

  1. 新词语的每个字母都是出自原词。
  2. 新词语单词长度跟原单词长度一样。
  3. 原单词的每个字母都在新单词里出现。
  4. 单词默认都是小写
    比如dog-->god就符合易位构词规则,而good--->god则不符合。

算法思路

观察新词跟旧词,有个特点单词中的字母都是成对出现的,结合之前的博文犀利的异或求解,那么我们可以将新旧单词当成一个整体,挨个对字母异或操纵,最终的结果为0,则认为符合易位构词。于是有了下面的算法:

private static boolean isAnagrams1(String str1, String str2) {
        if (str1 == null || str2 == null || (str1.length() != str2.length())) {
            return false;
        }
        String string = str1 + str2;
        int x = 0;
        for (int i = 0; i < string.length(); i++) {
            x ^= string.charAt(i);
        }
        return (x == 0) ? true : false;
}

看起来程序结构清晰明了,且时间复杂度O(n)。似乎很完美啊。

但这其中有个雷点,如果新单词是形如"bb"这样的词,旧单词形如"aa",循环异或后结果为0,但明显此时不符合易位构词的要求。

重新想办法解决,易位构词只是字母的顺序不同,如果用一个数据桶,将新单词中相同字母放入同一个桶中,然后在遍历旧单词,遇到相同的字母,就去桶里将字母取出来。最后各个桶都为空,则说明新旧单词符合易位构词。
在详细想下一些细节:

  • 需要多少个数据桶?
    a~z共有26个字母,因此只要26个数据桶就能保证单词中的每个字母都能找到对应的数据桶。a对应0号桶,b对应1号桶。。。z对应25号桶
  • 桶需要做标记,根据标记我们就知道这个桶用来放哪个字母,更进一步,桶里只用放数据的个数即可,因为最后只关心桶是不是为空。这样桶可以用int[26]来实现,而放一个字母a就是对int[0]+1,取一个字母a就是对int[0]-1

java代码实现:

private static boolean isAnagrams2(String str1, String str2) {
        if (str1 == null || str2 == null || (str1.length() != str2.length())) {
            return false;
        }
        int[] buckets = new int[26];
        for (int i = 0; i < str2.length(); i++) {
            buckets[str1.charAt(i) - 'a']++;
            buckets[str2.charAt(i) - 'a']--;
        }
        for (int bucket : buckets) {
            if (bucket != 0) {
                return false;
            }
        }
        return true;
    }

相关文章

  • 检验易位构词算法

    不要以恶报恶。众人以为美的事,要留心去做。若是能行,总要尽力与众人和睦。 ---(罗马书12:17-18) 什么是...

  • 易位词

    如果对调字符,使得单词 w 变成单词 v,那么 w 就是 v 的易位构词。假设有一个集合包含了 n个最大长度为 k...

  • 搭配--语义消岐

    频率 均值和方差 假设检验---t检验-皮尔逊卡方检验-似然比-互信息 非组成构词法--不可替换性有监督学习--无...

  • 大规模分布式系统原理解析和架构实践

    1 架构词汇 1.1 高可用 负载均衡(负载均衡算法) 反向代理 服务隔离 服务限流 服务降级(自动优雅降级) 大...

  • 易位

    我们在真实账号的朋友圈用虚拟的名字,极力隐藏自己,低调不轻易发言表态。 却在空中账号的朋友圈里用真实的名字,极力证...

  • 易位

    有这么一说,该来的总会来的,只是时间问题。好像有点深层了,直白点说,水到渠成。如果这话是本人说的,有傲娇嫌疑;如果...

  • 【系列】统计基础(2)简单理解t检验与z检验

    这一部分的内容是后续所有算法的基础的基础。就是我们常说的各种检验,例如:t检验,Z检验,F检验,卡方检验等等。这些...

  • 英语词汇构词法(Word Formation)——词缀法之前缀法

    词缀法可定义为通过给词干加构词词缀或派生词缀构成新词的一种构词方法。用这种方法构词叫派生构词,因为这类新词是从旧...

  • 大数据算法系列10:字符串检验算法

    一. 字符串检验算法 字符串检验算法: 奇偶校验:磁盘阵列的Raid5就是使用了奇偶校验。 海明码: 二. 练习 ...

  • 银行卡合法性校验

    Luhn检验数字算法(Luhn Check Digit Algorithm),也叫做模数10公式,是一种简单的算法...

网友评论

    本文标题:检验易位构词算法

    本文链接:https://www.haomeiwen.com/subject/oriasxtx.html