美文网首页
随手理理:基于Google搜索引擎的信息检索

随手理理:基于Google搜索引擎的信息检索

作者: Horn_ | 来源:发表于2020-03-10 00:08 被阅读0次
图片来源于网络,仅做封面

概览

本文有助于读者解决两个问题:怎么检索关键词;怎么检索网址。
阅读用时:因人而异

对于信息检索工作而言,无外乎解决两个问题:

  1. 描述问题:想要检索什么信息?
  2. 解决问题:信息在什么位置?

第一个问题往往很容易想得清楚,却难以说的明白。在搜索引擎中检索信息不同于发出自然问句,好比“都有谁知道我的密码?”和“谁知道我的密码”这两个问题在对话中会得到不同的答案,且使用方式存在差异。为了辨析到底想问那一个问题,并进一步用逻辑化的方法解释问题,就最终将一个可能冗长的问题变成了关键词。也即,搜索结果中应当包含或不包含什么内容。
使用搜索引擎的意义,即在于发现哪些内容之中包含/不包含某些词,而不是发布一个问题等待不确定的声音前来回答。
第二,信息在什么位置。如果是在图书馆中,这一问题的答案会变成一个编号,用来告诉你待查找的信息在某一房间的某一书架上的某一本书中,甚至是这本书的第几页第几行中。同理可得,在网页中,这一答案即变成了在某一个网站的某一子页的某处,即一串满足特定条件的网址。

对于使用数据库工具(例如知网、WOS等,或公共图书馆的检索引擎等)进行检索而言,第二个问题是不存在的,因为搜索边界就是这一网站可以提供的所有内容,无论如何搜索,结果都在这一固定的网址范围之内;而对于使用搜索引擎工具(例如Google,百度,Bing等),则往往因不预知搜索结果所在的网址而内容边界不定,或必须经过特别限定以后才能够确定内容边界。本文讨论第二种情况的信息检索,作者认为其实使用搜索引擎的实质是同时检索两类信息,即关键词和网址。
主题所限,就不对搜索指令进行逐一介绍,如有需要可查看官方帮助文档或更多高手的辑录。

一、关键词的检索

基本逻辑:交(AND)、并(OR)、非(NOT)

在搜索引擎中表达关键词时,我们最容易想到的一个方案就是,将能够想到的关键词全部罗列上去,于是便有了三种需求:

  1. AND:既包含这些关键词,也包含另一些关键词
  2. OR:包含其中一个或几个关键词
  3. NOT:仅包含这些关键词,而不包含另一些关键词

对于OR的表达是默认的,即用空格隔开的一组关键词会被默认为交集或并集关系,如果不能检索到以空格隔开、为交集关系的两个词,即以并集关系检索,并提示某一关键词未被包含在内。有时可能需要强调并集关系,可采用"[word_1] | [word_2]"的搜索语句。
对于AND的表达,并非直接如固定范围的数据库检索方法一般采用AND相连,而是通过* "[key_word]" 强调,即搜索结果必须包含某词。
NOT以西文减号 - 表达,形如
"[word_1] [word_2]-[word_3]" *即排除关键词[word_3]。
由于搜索引擎仅仅是判断内容中包含或不包含某些关键词,所以搜索结果可能被关键词的热度所影响,即想要得到的关键词的某一词义恰不是该关键词在网络语境中的多数用法,此时就用得到逻辑搜索了。

基本逻辑的应用举例
AND
Q:关注加拿大、墨西哥和美国三国最近的贸易关系,是否有新的贸易协定。

使用AND逻辑检索
OR
Q:查找America最近有哪些新的法律法规出台。
使用OR逻辑检索
NOT
Q:检索刚果共和国总统的最近动向,而非刚果民主共和国的总统。
使用NOT逻辑检索

限制内容所在的位置

intext:仅在文本中出现
insubject:仅在内容中出现
intitle:仅在网页标题head中出现

例如


检索文本中有labor但全文都没有law的内容
但不能这么用,因为逻辑上行不通

对词义的应用

解释特定词的词义
可以使用 define: 进行限定。这一语法是仅检索能够解释关键词的检索结果,如果Google已经辑录了这一关键词,就会优先呈现。


define:电解质,检索结果变少
直接检索 电解质

二、网址的检索

确定边界的网址检索

site:搜索内容来自某一站点,即针对特定网站的内容进行检索,从而限制检索信息边界。这里需要注意的是,site是可以使用通配符的,而不一定是用来表达一个确定的网址。因此,可以被用来检索具有特定后缀的网址,用以辨识信息来源的类型。

只看巴基斯坦网址关于infrastructure的内容

inurl:网站的URL片段中包含某些字符片段。

检索 唐装
用inurl去淘宝买唐装

不确定边界的网址检索

related:检索与某一网站具有相似内容的网站。

使用related发现更多导航网页

三、其他限定方式

filetype :可以限定待查找的文件类型,例如filetype:pdf。当然了,一般不会有人直接把*.mp4这样的文件挂上去,更多的用途依旧是检索文章。
daterange:在其后添加儒略历格式的日期可以用来查找特定范围的内容,例如daterange:2458850-表示只检索20190101以后的信息。转换规则是通用的公历日期到标准儒略历的转换。当然了,工具栏里面有现成的,直接用不好嘛。

儒略历检索
工具栏日期检索

实际应用场景:组合出击

cambodia "legal|act|law" "new|change|access" -casino -draft
柬埔寨自2019年11月以来通过诸多法律文本,欲对此进行检索。
但是我并不知道当地有哪些有影响力的媒体报道,且这些媒体对该国重大法律法规的通过进行了报道;同时,发现检索结果中较多有涉及该国严格规制赌场的报道和个人信息草案未通过的报道。因此排除了casino和draft两个关键词。而新通过的法律法规文件往往除了change以外还用到了access来说明文件已经通过。此外,也未必所有通过的法律文本都是law,也并未经常用到legislation,而是以act和legal居多,因此调整。
最后检索结果如图

检索结果还值得优化

未完待续,不确定时间修改

相关文章

  • 随手理理:基于Google搜索引擎的信息检索

    概览 本文有助于读者解决两个问题:怎么检索关键词;怎么检索网址。阅读用时:因人而异 对于信息检索工作而言,无外乎解...

  • 搜索引擎检索技巧

    搜索引擎检索技巧 我们常用的搜索引擎是google和百度,掌握一些常用的搜索技巧对检索信息的效率和准确度有很大帮助...

  • 搜索引擎营销中网站评估指标体系?

    搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目...

  • 2020年03月16日 DF-IDF

    信息检索概述 信息检索是当前应用十分广泛的一种技术,论文检索、搜索引擎都属于信息检索的范畴。通常,人们把信息检索问...

  • 第二节.详解搜索引擎的检索和排名机制 - 老船长外贸网站SEO分

    第二节:详解GOOGLE搜索引擎的检索和排名机制 –外贸网站SEO优化基础篇 (一)理解Google等搜索引擎结果...

  • 搜索引擎营销站内站外优化?

    seo搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候尽可能将...

  • Flutter GoogleMap 搜索

    关键字检索位置信息 收到关键字检索位置的的需求,Google之后,发现可以用到google_maps_webser...

  • 搜索原理和SEO学习

    本文来自《信息检索实战》和《走进搜索引擎》,目的想学习下搜索原理和SEO。学习笔记很乱,大家不要看。 信息检索=结...

  • Lucene、Elasticsearch、Kibana 入门教程

    信息检索模型 信息检索模型最重要的概念就是倒排索引,倒排索引是搜索引擎中常见的索引方法,用来存储在全文搜索下某个单...

  • 前端搜索引擎优化SEO

    什么叫做搜索引擎 搜索引擎(search engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的信息 ...

网友评论

      本文标题:随手理理:基于Google搜索引擎的信息检索

      本文链接:https://www.haomeiwen.com/subject/uxbsdhtx.html