Lucene基础

作者: 大林_3a76 | 来源:发表于2019-04-01 15:33 被阅读0次

Lucene基础
Lucene基础篇-初识Lucene
Lucene总结
搜索学习入门--使用LuceneHighlighter高亮显示L
Lucene(一)——基础
Lucene基础入门.
ES、Kibana的安装、配置和运行--Windows
Elasticsearch routing功能
lucene入门基础2
lucene入门基础1

简介

Lucene是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。

全文检索

数据总体分为两种：结构化数据和非结构化数据。

（1）结构化数据：指具有固定格式或有限长度的数据，如数据库，元数据等。

（2）非结构化数据：指不定长或无固定格式的数据，如邮件，word文档等磁盘上的文件

非结构化数据查询方法

（1）顺序扫描法(Serial Scanning)：所谓顺序扫描完所有的文件，速度慢。

（2）全文检索(Full-text Search)：将非结构化数据中的一部分信息提取出来，重新组织，使其变得有一定结构，然后对此有一定结构的数据进行搜索，从而达到搜索相对较快的目的。这部分从非结构化数据中提取出的然后重新组织的信息，我们称之索引。

这种先建立索引，再对索引进行搜索的过程就叫全文检索(Full-text Search)。

lucene全文检索流程

索引和搜索流程图

创建索引

将用户要搜索的文档内容进行索引，索引存储在索引库（index）中。

原始文档

原始文档是指要索引和搜索的内容。原始内容包括互联网上的网页、数据库中的数据、磁盘上的文件等。

从互联网上、数据库、文件系统中等获取需要搜索的原始信息，这个过程就是信息采集，信息采集的目的是为了对原始内容进行索引。在Internet上采集信息的软件通常称为爬虫，，爬虫访问互联网上的每一个网页，将获取到的网页内容存储起来。

爬虫开源软件，Nutch，jsoup， heritrix。

获取磁盘上文件的内容，可以通过文件流来读取文本文件的内容，对于pdf、doc、xls等文件可通过第三方提供的解析工具读取文件内容，比如Apache POI读取doc和xls的文件内容。

文档对象

在索引前需要将原始内容创建成文档（Document），文档中包括一个一个的域（Field），域中存储内容。

将磁盘上的一个文件当成一个document，Document中包括一些Field，每个Field由name和对应value组成，那么如file_name文件名称、file_path文件路径、file_size文件大小、file_content文件内容等，value则存储了其实际对应的值。

（1）每个Document可以有多个Field

（2）不同的Document可以有不同的Field

（3）同一个Document可以有相同的Field（域名和域值都相同）

（4）每个文档都有一个唯一的编号，就是文档id。

分析文档

将原始内容创建为包含域（Field）的文档（document），需要再对域中的内容进行分析，分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元，可以将语汇单元理解为一个一个的单词，term。语汇单元

创建索引

对所有文档分析得出的语汇单元进行索引，索引的目的是为了搜索，最终要实现只搜索被索引的语汇单元从而找到Document（文档）。

1）创建索引是对语汇单元索引，通过词语找文档，这种索引的结构叫倒排索引结构。

2）传统方法是根据文件找到该文件的内容，在文件内容中匹配搜索关键字，这种方法是顺序扫描方法，数据量大、搜索慢。

3）倒排索引结构是根据内容（词语）找文档，如下图：

倒排索引

倒排索引结构也叫反向索引结构，包括索引和文档两部分，索引即词汇表，它的规模较小，而文档集合较大。

查询语法

　　1、基础的查询语法，关键词查询：

　　　　域名+“：”+搜索的关键字

　　　　例如：content:java

　　2、范围查询

　　　　域名+“:”+[最小值 TO 最大值]

　　　　例如：size:[1 TO 1000]

　　　　范围查询在lucene中支持数值类型，不支持字符串类型。在solr中支持字符串类型。

　　3、组合条件查询

　　　　1）+条件1 +条件2：两个条件之间是并且的关系and

　　　　　　例如：+filename:apache +content:apache

　　　　2）+条件1 条件2：必须满足第一个条件，应该满足第二个条件

　　　　　　例如：+filename:apache content:apache

　　　　3）条件1 条件2：两个条件满足其一即可。

　　　　　　例如：filename:apache content:apache

　　　　4）-条件1 条件2：必须不满足条件1，要满足条件2

　　　　　　例如：-filename:apache content:apache

4、布尔查询

Occur.MUST：必须满足此条件，相当于and

　　 Occur.SHOULD：应该满足，但是不满足也可以，相当于or

　　 Occur.MUST_NOT：必须不满足。相当于not

网友评论

本文标题：Lucene基础

本文链接：https://www.haomeiwen.com/subject/hoelbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Lucene基础

简介

全文检索

非结构化数据查询方法

lucene全文检索流程

创建索引

原始文档

文档对象

分析文档

创建索引

查询语法

1、基础的查询语法，关键词查询：

2、范围查询

3、组合条件查询

1）+条件1 +条件2：两个条件之间是并且的关系and

2）+条件1 条件2：必须满足第一个条件，应该满足第二个条件

3）条件1 条件2：两个条件满足其一即可。

4）-条件1 条件2：必须不满足条件1，要满足条件2

4、布尔查询

相关文章

Lucene基础

Lucene基础篇-初识Lucene

Lucene总结

搜索学习入门--使用LuceneHighlighter高亮显示L

Lucene(一)——基础

Lucene基础入门.

ES、Kibana的安装、配置和运行--Windows

Elasticsearch routing功能

lucene入门基础2

lucene入门基础1

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读