首先我们要认识一下现在生活中主要的搜索有四种
-
1.windows中搜索
-
2.Eclipse中搜索
-
3.在数据库中搜索
-
4.搜索引擎
各式各样的搜索 每一种搜索方式所用到的技术也是不一样的
什么是全文检索
官网一点的说法就是从全文数据中进行检索就叫做全文检索(全名搜索)。是基于文本的搜索。
通俗一点的话就是百度搜索,百度就是用的全文检索
全文数据搜索方式
1.顺序扫描法 相对慢 添加索引之后会快一点
2.全文检索 相对就很快
从非结构化数据中提取出的然后重新组织的信息,就称之为“索引”。即为文本数据建立类似“字典目录”,从而提高检索速度
- 索引:对于文本的搜索,可以把非结构化进行重组,转换成有结构的数据,这个过程叫做索引。
全文检索的核心
创建索引
搜索索引
全文搜索的特点
1.快的很
2.相关度最高的排在最前面
3.对摘要进行截取
4.关键字高亮显示
5.只关注文本,不考虑语义
全文检索的使用场景
1.可替换数据库模糊查询,提高查询速度
2.全文索引是搜索引擎的基础
3.只对“指定领域”的网站进行索引与搜索(即垂直搜索)
4.在word、pdf等各种各样的数据格式中检索内容 比如:ctrl+F
5.其他场合:比如搜狗拼音输入法 、QQ输入法等
- 垂直搜索 就是指 专注一个领域的搜索 比如:在百度搜索招聘 就会搜索到这个领域了所有
全文检索应用架构
①采集数据 ②用户查询 ③创建索引返回客户
Lucene
Apache Lucene 是一个用Java写的高性能、可伸缩的全文检索引擎工具包。它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。Lucene的目标是为各种中小型应用程序加入全文检索功能。ElatisSearch(处理分布式)
Lucene的核心作者:Doug Cutting是一位资深全文索引/检索专家
网友评论