iOS搜索引擎 - trie树

作者: 蒲公英yy | 来源:发表于2019-06-23 21:35 被阅读0次

背景

前段时间产品锦鲤说APP内要做搜索关键字提示功能，后台由于能(人)力有限，所以这功能由前台来做。

Google搜索

Google、百度这类的搜索引擎，有一堆大佬对它进行优化，它的关键词提示会非常全面和精准，不过原理都差不多，就是利用了trie树。

Trie树

Trie树又称字典树，利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较。

假设现在有四个字符串，分别为aa、abc、abcd、ac，我们要在这里面查找某个字符串是否存在，就需要依次遍历这四个字符串。即使像查找“cc”这样和所有的字符串的首字符都不同的字符串也要一个个的比较，那么查询效率就比较低了。

我们可以先对这四个字符串进行处理，提取公共前缀生成trie树，这样每次查询都是在trie树里进行匹配，这时候查找“cc”字符串是否存在只需要匹配一次就可以了，极大的提升了效率。如下图所示。

Trie树图中每一条路径代表一个字符串，每个节点对应字符串中的字符。不过看起来似乎只有三个字符串，很难看出还有abc字符串，所以需要在c节点加一个标志位，表示有一个单词到这里结束了。如果要查询“ab”字符串，当匹配到“b”时，标志位没有表明到这里结束，所以没有“ab”字符串，它是其他字符串的前缀。

节点头文件如下

@interface Node : NSObject

@property (nonatomic, copy) NSString *string;
@property (nonatomic, copy) NSString *character;
@property (nonatomic, assign) BOOL isFinish;
@property (nonatomic, strong, nullable) NSMutableDictionary *children;

- (void)add:(NSString *)str;

@end

character：当前节点的字符
string：这条路径上到当前字符前的所有字符
isFinish：字符串是否结束
children：存放了后续所有路径的首字符

@implementation Node

+ (Node *)initWithValue:(NSString *)str parent:(Node *)node
{
    Node *n = [[Node alloc] init];
    n.character = str;
    n.string = [NSString stringWithFormat:@"%@%@", node.string, node.character];
    return n;
}

- (instancetype)init
{
    if (self = [super init]) {
        self.children = [NSMutableDictionary dictionary];
        self.character = @"";
        self.string = @"";
    }
    
    return self;
}

- (void)add:(NSString *)str
{
    if (!self.children[str]) {
        self.children[str] = [Node initWithValue:str parent:self];
    }
}

@end

前两个方法很好理解，重点说下add:方法。例如在上面的trie树中，再添加一个“iOS”字符串，发现根节点下没有“i”字符，于是根节点的children新增一个键值对，key是i，值是character为i的节点node。

image.png

trie树只有两个功能，一个是添加字符串生成trie树，另一个就是在trie树种匹配字符串。创建一个管理类来处理trie树，并提供这两个方法。

@interface searchManager : NSObject

- (void)insert:(NSString *)word;
- (NSArray *)find:(NSString *)word;

@end

管理类的实现。

- (instancetype)init
{
    if (self = [super init]) {
        self.root = [[Node alloc] init];
    }
    
    return self;
}

这个root节点就是根节点，它不包含任何字符，所有的字符路径都从root根节点开始。

- (void)insert:(NSString *)word
{
    if (word.length == 0) {
        return;
    }
    word = [word lowercaseString];
    
    Node *node = self.root;
    
    int index = 0;
    NSString *str = @"";
    while (index < word.length) {
        str = [word substringWithRange:NSMakeRange(index, 1)];
        
        if (!node.children[str]) {
            [node add:str];
        }
        
        node = node.children[str];
        index++;
    }
    node.isFinish = YES;
}

- (NSArray *)find:(NSString *)word
{
    if (word.length == 0) {
        return @[];
    }
    word = [word lowercaseString];
    
    Node *node = self.root;
    
    int index = 0;
    NSString *str = @"";
    while (index < word.length) {
        str = [word substringWithRange:NSMakeRange(index, 1)];
        
        if (node.children[str]) {
            node = node.children[str];
            index++;
        } else {
            break;
        }
    }
    
    if (index == word.length) {
        NSMutableArray *arr = [NSMutableArray array];
        [self addAllData:node arr:arr];
        return arr;
    }
    return @[];
}

- (void)addAllData:(Node *)node arr:(NSMutableArray *)arr
{
    if (node.isFinish) {
        [arr addObject:[NSString stringWithFormat:@"%@%@", node.string, node.character]];
    }
    
    NSArray *arrKey = node.children.allKeys;
    
    for (int i = 0; i < arrKey.count; i++) {
        Node *n = node.children[arrKey[i]];
        
        if (n.children.count > 0) {
            [self addAllData:n arr:arr];
        } else {
            [arr addObject:[NSString stringWithFormat:@"%@%@", n.string, n.character]];
        }
    }
}

find:其实就是插入的逆过程，根据目标字符串在trie树中进行匹配查询，当遇到一个不存在的字符时，就意味着目标字符串不存在。如果目标字符串能完全匹配，那么就取出该路径下的所有字符串。例如输入“a”，匹配到“a”时，继续遍历节点“a”的children，直到“a”下的所有路径都遍历完成。

image.png

到这里，trie树的基本功能都已完成，接下来就验证一下trie树的正确性和效率。

和系统方法做对比

我从某学习网站获取了1327条课程名称，先用系统方法遍历一下看看效率如何

- (void)systemFind:(NSArray *)array
{
    NSMutableArray *arr = [NSMutableArray array];
    NSString *str = @"";
    
    NSLog(@"开始....");
    for (int i = 0; i < array.count; i++) {
        str = array[i];
            
        if ([str hasPrefix:@"java"] || [str hasPrefix:@"JAVA"] || [str hasPrefix:@"Java"]) {
            [arr addObject:str];
        }
    }
    NSLog(@"结束....");
    
    self.result1 = arr;
}
2019-05-19 13:40:33.064389+0800 trie树[9817:359745] 开始....
2019-05-19 13:40:33.064886+0800 trie树[9817:359745] 结束....

1327条里匹配了19条数据，耗时0.000497s。

- (void)trieFind:(NSArray *)array
{
    NSLog(@"开始4----------");
    searchManager *model = [[searchManager alloc] init];
    for (int i = 0; i < array.count; i++) {
        [model insert:array[i]];
    }
    
    NSMutableArray *arr = [NSMutableArray array];
    NSLog(@"开始3----------");
    [arr addObjectsFromArray:[model find:@"java"]];
    NSLog(@"结束3----------");
    
    self.result2 = arr;
}
2019-05-19 20:55:57.287762+0800 trie树[10390:399224] 开始3----------
2019-05-19 20:55:57.288423+0800 trie树[10390:399224] 结束3----------

trie树搜索，耗时0.000661s，数据太少，体现不出优势，将核心查询方法循环10w次，再比较两者的消耗时间。

//    系统方法：16.148049s
//    2019-05-19 21:04:46.893443+0800 trie树[10522:406446] 开始....
//    2019-05-19 21:05:03.041492+0800 trie树[10522:406446] 结束....
//    trie树：41.086426s
//    2019-05-19 21:05:03.084477+0800 trie树[10522:406446] 开始3----------
//    2019-05-19 21:05:44.170903+0800 trie树[10522:406446] 结束3----------

怎么肥四，写了半天的trie树还没有系统遍历来的快！通过分析发现，遍历10w次需占用内存2.5G，因为课程的名称平均长度大概是20个字，最长的有50个字，这就导致遍历的时候堆栈太深，不仅耗时，还耗内存。这就需要对生成的trie树进行缩点优化。例如有四个字符串，分别为aa、abcd、ac、iOS，就需要对abcd字符串进行缩点优化。

trie树优化

这样就可以有效的降低查询的递归深度。

- (void)optimization
{
    Node *node = self.root;
    
    NSArray *arrKey = node.children.allKeys;
    for (int i = 0; i < arrKey.count; i++) {
        [self optimization:node.children[arrKey[i]]];
    }
}

- (BOOL)optimization:(Node *)node
{
    NSArray *arrKey = node.children.allKeys;
    if (arrKey.count == 0) {
        return YES;
    }
    for (int i = 0; i < arrKey.count; i++) {
        Node *n = node.children[arrKey[i]];
        if ([self optimization:n]) {
            if (n.children.count == 0 && arrKey.count == 1 && !node.isFinish) {
                Node *n2 = [node.children.allValues lastObject];
                node.character = [NSString stringWithFormat:@"%@%@", node.character, n2.character];
                node.children = nil;
                return YES;
            }
        }
    }
    
    return NO;
}

在最终生成的trie树之后调用该方法进行缩点优化，再来看看10w次查询耗时

//    3.814531s
//    2019-05-19 21:08:43.831729+0800 trie树[10582:409365] 开始3----------
//    2019-05-19 21:08:47.646260+0800 trie树[10582:409365] 结束3----------

不到4秒就可以循环10w次查询1327条数据了，1秒大约可以查询3300w条。具体的查询效率需要根据实际的数据来看，极端情况下如果3300w条数据的首字符都不相同，那就需要依次对比每个字符串。
代码

网友评论

本文标题：iOS搜索引擎 - trie树

本文链接：https://www.haomeiwen.com/subject/xtpxzqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

iOS搜索引擎 - trie树

背景

Trie树

和系统方法做对比

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读