美文网首页
全文检索技术--理论篇

全文检索技术--理论篇

作者: Mr_Elliot | 来源:发表于2018-12-18 23:46 被阅读0次
全文检索技术

什么是全文检索技术?

数据分类,一共分为两种:结构化数据非结构化数据
通俗上讲,做开发的同学应该对结构化的数据已经非常的了解。比如说我们的一些关系型数据库中的数据(Oracle PG MySql..)也就是指固定格式或者是有限长度的数据。
非结构化数据,其实我们也是很常见,比如说 *.txt *.docx Email 之类的,这些数据通常是不定长或者是没有固定的格式。
当然也会有小伙伴会说,还有第三种数据格式,*.xml *.html 这些也是我们的同学再开发中比较常见的几种文件类型。暂且可以称为半结构化数据。

结构化数据的搜索方式

常见的结构化数据也就是数据库中的数据。在数据库中搜索很容易实现,通常都是使用sql语句进行查询,而且能很快的得到查询结果。
为什么数据库搜索很容易?
因为数据库中的数据存储是有规律的,有行有列而且数据格式、数据长度都是固定的。

非结构化数据的查询方法

1.顺序扫描法(Serial Scanning)

所谓顺序扫描,比如要找内容包含某一个字符串的文件,就是一个文档一个文档的看,对于每一个文档,从头看到尾,如果此文档包含此字符串,则此文档为我们要找的文件,接着看下一个文件,直到扫描完所有的文件。如利用windows的搜索也可以搜索文件内容,只是相当的慢。

2.全文检索(Full-text Search)

将非结构化数据中的一部分信息提取出来,重新组织,使其变得有一定结构,然后对此有一定结构的数据进行搜索,从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息,我们称之索引。
例如:字典。字典的拼音表和部首检字表就相当于字典的索引,对每一个字的解释是非结构化的,如果字典没有音节表和部首检字表,在茫茫辞海中找一个字只能顺序扫描。然而字的某些信息可以提取出来进行结构化处理,比如读音,就比较结构化,分声母和韵母,分别只有几种可以一一列举,于是将读音拿出来按一定的顺序排列,每一项读音都指向此字的详细解释的页数。我们搜索时按结构化的拼音搜到读音,然后按其指向的页数,便可找到我们的非结构化数据——也即对字的解释。
这种先建立索引,再对索引进行搜索的过程就叫全文检索(Full-text Search)。

虽然创建索引的过程也是非常耗时的,但是索引一旦创建就可以多次使用,全文检索主要处理的是查询,所以耗时间创建索引是值得的。

全文检索过程图解
全文检索过程图解

通过上图的流程,我们可以看出全文检索技术分为两个流程
索引流程:采集数据>>>文档数据处理>>>储存到索引库中
搜索流程:查询条件>>>查询器查询索引>>>从索引库库中取出>>>视图渲染

全文检索技术应用的场景

狗东

当然这只是举个例子 ,还有很多,比如说专业做搜索引擎的Google Baidu ,还有一些提供站内数据搜索的网站等。

相关文章

  • 全文检索技术--理论篇

    什么是全文检索技术? 数据分类,一共分为两种:结构化数据和非结构化数据通俗上讲,做开发的同学应该对结构化的数据已经...

  • Lucene全文检索技术

    1.什么是全文检索技术是一种搜索技术,一般对于结构化数据,有固定格式和长度的数据,我们使用sql进行查询,而对于非...

  • 全文检索技术简介

    1.什么是搜索? 搜索,就是在任何场景下,找寻你想要的信息,这个时候,会输入一段你要搜索的关键字,然后就期望找到这...

  • Lucene全文检索技术

    什么是全文检索 数据分类 结构化数据:指具有固定格式或有限长度的数据,如数据、元数据等 非结构化数据:指不定长或无...

  • 全文检索技术 Lucene

    1.搜索技术理论基础 1.1. 为什么要学习Lucene 原来的方式实现搜索功能,我们的搜索流程如下图: 上图就是...

  • 一文让你轻松了解全文检索

    全文检索技术被广泛的应用于搜索引擎,查询检索等领域。我们在网络上的大部分搜索服务都用到了全文检索技术。 对于数据量...

  • ElasticSearch 全文检索技术(一)

    ElasticSearch 全文检索技术 简介 Elastic官网:https://www.elastic.co/...

  • ElasticSearch-搜索查询

    URL querystring语法 全文检索: 单字段全文检索: 条件组合 单字段精确检索: 多个检索条件的组合:...

  • 初识elasticsearch

    概念 全文检索 从文本或数据库中、不限定数据字段、自由的萃取出信息的技术运行全文检索任务的程序,一般称作搜索引...

  • 全文检索

    概念 从文本或者数据库中,不限定资料字段,自由地萃取出讯息的技术 执行全文检索任务的程式,一般称作搜索引擎, 将使...

网友评论

      本文标题:全文检索技术--理论篇

      本文链接:https://www.haomeiwen.com/subject/wtarkqtx.html