搜索学习基础--基本概念的简单阐述

作者: _时间海 | 来源:发表于2018-06-08 09:48 被阅读0次

搜索学习基础--基本概念的简单阐述
Android MediaPlayer 基础简介
系统学习 Zabbix 系统监控（一）
系统学习 Zabbix 系统监控（二）
系统学习 Zabbix 系统监控（三）
2020-08-16
MongoDB基本介绍
2019-05-14 2. 使用 scikit-learn 的
18年第18周：300行代码入门Numpy、Pandas
python语言系统地自学方法，方向的选择和实际应用等

关于查询

查询数据分为精确查找和模糊查找

精确查找：对于精确查找，我们都非常熟悉，就是这个值必须等于这个条件。比如我们常用的数据库查询中：
select * from user_info where user_id = ?

模糊查找：对于模糊查找，我们需要查找的范围就是结果中的某个值必须包含这个条件。平时我们在一个文档中查找某个
单词，这就是模糊查找。

对于普通的查找，我们是从一个文档中，一个一个的去遍历匹配。比如我们要从10w个数据中，
查找包含字符串“abc”的，那就相当得慢。如果这些数据在数据库中，我们通常会建立索引，去优化查询速度。对于比较大的文本内容，
我们通常使用全文检索的方式。总结：对于优化查询，我们使用数据库建立索引和使用全文检索。

关于数据库建立索引

为了优化查询速度，我们会对数据库中的数据建立索引。在mysql数据库中，有两种索引方法：Btree和Hash
这两种方式为什么会加速查询。两种方式有什么区别，这是我们必须了解的。

Hash方法建立索引

Hash，就是我们所谓的散列表，它的存储是key-value结构的。当我们对数据建立索引后，我们的每个数据都会有一个对于的Hash值。当我们去查找数据的时候，只要取条件
的Hash值即可。数据存储的位置通过Hash值快速找到。我们也从Hash算法的原理中可以看到，这种索引方式比较适合精确查找。下面举个简单的Hash查找的例子：
HashCode = 2x+1
|hashcode|value|
|----|----|
|11|5|
|101|50|
|121|60|
...
假设库中有大量的数据，此时我们的搜索条件是60,我们取得HashCode = 2*60+1 = 121，然后拿着121去库中寻找其存放的位置。这样就非常的速度。当然这只是一个简单的Hash。
对于优化散列表，减少冲突这些我们这里就不做讨论。
如果想实现以下Hash算法整个过程，可以看下此博客哈希算法的Java实现

Btree方法建立索引

看到这个名字，我想大学里面学过数据结构这门课程的都会首先想到数据结构中的树这个概念。用于搜索，我们肯定会想到二叉树。不管数据库索引它用的是哪种树，
它肯定是一种基于二叉搜索树优化的树，所以我们只要了解二叉搜索树这个结构算法，我们就可以知道为什么使用Btree方式建立索引会加速查找了。它把原来的时间复杂度从
O(n) 转变成了 O(log2(n))。因为二叉树的中序遍历的结果就是根据key值排序的列表，所以这种方式对于范围查找是非常合适的。
如果想实现以下二叉搜索树的建立和查找的整个过程，可以看下此博客二叉搜索树的Java实现