美文网首页SEO优化文章
分词与索引库-国平

分词与索引库-国平

作者: shameyou | 来源:发表于2017-05-30 15:58 被阅读10次

用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢?
首先搜索引擎要尽可能多的把互联网上的网页搜集下来,这样能提供大量的网页给用户查询。这一部分由爬虫来解决,顺着互联网上的链接一个个往下抓取。最后就有了一堆记录着网页各种信息的资料库。目前的现状,最后能使这个资料库里有大概100多亿个网页。资料库里记录了这些网页的URL,整个网页的HTML代码,网页标题等等信息。
然后,搜索引擎拿到用户输入的这个关键词后,要从这个资料库里把相关的网页找出来给用户。

1.搜索引擎如何找到匹配的网页呢?

建立一份索引库

搜索引擎查找网页流程

2.索引库的分类方式:词语/分词

搜索引擎的索引库

3.搜索引擎处理过程

搜索引擎处理过程

相关文章

  • 分词与索引库-国平

    用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢?首先搜索引擎要尽可能多的把互联网上的网...

  • Elasticsearch---索引管理、基于scroll+bu

    创建索引的语法 示例: 添加索引(索引一旦建立,不能修改) 删除索引 分词器的修改与定制 修改分词器设置 默认分词...

  • ElasticSearch学习笔记

    倒排索引:分词之后按照行存储分词,把拥有分词的记录到分词的行上数据库排名网站https://db-engines....

  • Elasticsearch(一):概念与基本API

    安装 Elasticsearch 常用 API index Document 倒排索引与分词 倒排索引 倒排索引与...

  • es的ik分词器测试命令记录

    查看分词效果 创建索引,为字段title指定索引分词 查看索引映射情况 添加数据 搜索

  • 04_Lucene域

    域的详细介绍 是否分词:   分词的作用是为了索引  需要分词: 文件名称, 文件内容  不需要分词: 不需要索引...

  • Elasticsearch中ik分词器的使用

    1.ES分词简介 Elasticsearch是基于倒排索引来实现搜索功能,而倒排索引的基础就是分词。因此分词对于学...

  • 智能问答初识

    1. 智能问答的一般实现步骤包括:1)文本库分词,训练模型,由模型将文本库转换为词向量;2)将词向量与索引进行存储...

  • 【ES】ElasticSearch analyzer 和 ana

    [TOC] 一、分词 搜索引擎的核心是倒排索引,而倒排索引的基础就是分词。所谓分词可以简单理解为将一个完整的句子切...

  • 05. ElasticSearch极速入门

    ElasticSearch操作 一、ES快速入门 1). 创建索引库 逻辑概念,包括了分词列表以及文档列表,,同一...

网友评论

    本文标题:分词与索引库-国平

    本文链接:https://www.haomeiwen.com/subject/wmjrfxtx.html