美文网首页
随手理理:基于Google搜索引擎的信息检索

随手理理:基于Google搜索引擎的信息检索

作者: Horn_ | 来源:发表于2020-03-10 00:08 被阅读0次
    图片来源于网络,仅做封面

    概览

    本文有助于读者解决两个问题:怎么检索关键词;怎么检索网址。
    阅读用时:因人而异

    对于信息检索工作而言,无外乎解决两个问题:

    1. 描述问题:想要检索什么信息?
    2. 解决问题:信息在什么位置?

    第一个问题往往很容易想得清楚,却难以说的明白。在搜索引擎中检索信息不同于发出自然问句,好比“都有谁知道我的密码?”和“谁知道我的密码”这两个问题在对话中会得到不同的答案,且使用方式存在差异。为了辨析到底想问那一个问题,并进一步用逻辑化的方法解释问题,就最终将一个可能冗长的问题变成了关键词。也即,搜索结果中应当包含或不包含什么内容。
    使用搜索引擎的意义,即在于发现哪些内容之中包含/不包含某些词,而不是发布一个问题等待不确定的声音前来回答。
    第二,信息在什么位置。如果是在图书馆中,这一问题的答案会变成一个编号,用来告诉你待查找的信息在某一房间的某一书架上的某一本书中,甚至是这本书的第几页第几行中。同理可得,在网页中,这一答案即变成了在某一个网站的某一子页的某处,即一串满足特定条件的网址。

    对于使用数据库工具(例如知网、WOS等,或公共图书馆的检索引擎等)进行检索而言,第二个问题是不存在的,因为搜索边界就是这一网站可以提供的所有内容,无论如何搜索,结果都在这一固定的网址范围之内;而对于使用搜索引擎工具(例如Google,百度,Bing等),则往往因不预知搜索结果所在的网址而内容边界不定,或必须经过特别限定以后才能够确定内容边界。本文讨论第二种情况的信息检索,作者认为其实使用搜索引擎的实质是同时检索两类信息,即关键词和网址。
    主题所限,就不对搜索指令进行逐一介绍,如有需要可查看官方帮助文档或更多高手的辑录。

    一、关键词的检索

    基本逻辑:交(AND)、并(OR)、非(NOT)

    在搜索引擎中表达关键词时,我们最容易想到的一个方案就是,将能够想到的关键词全部罗列上去,于是便有了三种需求:

    1. AND:既包含这些关键词,也包含另一些关键词
    2. OR:包含其中一个或几个关键词
    3. NOT:仅包含这些关键词,而不包含另一些关键词

    对于OR的表达是默认的,即用空格隔开的一组关键词会被默认为交集或并集关系,如果不能检索到以空格隔开、为交集关系的两个词,即以并集关系检索,并提示某一关键词未被包含在内。有时可能需要强调并集关系,可采用"[word_1] | [word_2]"的搜索语句。
    对于AND的表达,并非直接如固定范围的数据库检索方法一般采用AND相连,而是通过* "[key_word]" 强调,即搜索结果必须包含某词。
    NOT以西文减号 - 表达,形如
    "[word_1] [word_2]-[word_3]" *即排除关键词[word_3]。
    由于搜索引擎仅仅是判断内容中包含或不包含某些关键词,所以搜索结果可能被关键词的热度所影响,即想要得到的关键词的某一词义恰不是该关键词在网络语境中的多数用法,此时就用得到逻辑搜索了。

    基本逻辑的应用举例
    AND
    Q:关注加拿大、墨西哥和美国三国最近的贸易关系,是否有新的贸易协定。

    使用AND逻辑检索
    OR
    Q:查找America最近有哪些新的法律法规出台。
    使用OR逻辑检索
    NOT
    Q:检索刚果共和国总统的最近动向,而非刚果民主共和国的总统。
    使用NOT逻辑检索

    限制内容所在的位置

    intext:仅在文本中出现
    insubject:仅在内容中出现
    intitle:仅在网页标题head中出现

    例如


    检索文本中有labor但全文都没有law的内容
    但不能这么用,因为逻辑上行不通

    对词义的应用

    解释特定词的词义
    可以使用 define: 进行限定。这一语法是仅检索能够解释关键词的检索结果,如果Google已经辑录了这一关键词,就会优先呈现。


    define:电解质,检索结果变少
    直接检索 电解质

    二、网址的检索

    确定边界的网址检索

    site:搜索内容来自某一站点,即针对特定网站的内容进行检索,从而限制检索信息边界。这里需要注意的是,site是可以使用通配符的,而不一定是用来表达一个确定的网址。因此,可以被用来检索具有特定后缀的网址,用以辨识信息来源的类型。

    只看巴基斯坦网址关于infrastructure的内容

    inurl:网站的URL片段中包含某些字符片段。

    检索 唐装
    用inurl去淘宝买唐装

    不确定边界的网址检索

    related:检索与某一网站具有相似内容的网站。

    使用related发现更多导航网页

    三、其他限定方式

    filetype :可以限定待查找的文件类型,例如filetype:pdf。当然了,一般不会有人直接把*.mp4这样的文件挂上去,更多的用途依旧是检索文章。
    daterange:在其后添加儒略历格式的日期可以用来查找特定范围的内容,例如daterange:2458850-表示只检索20190101以后的信息。转换规则是通用的公历日期到标准儒略历的转换。当然了,工具栏里面有现成的,直接用不好嘛。

    儒略历检索
    工具栏日期检索

    实际应用场景:组合出击

    cambodia "legal|act|law" "new|change|access" -casino -draft
    柬埔寨自2019年11月以来通过诸多法律文本,欲对此进行检索。
    但是我并不知道当地有哪些有影响力的媒体报道,且这些媒体对该国重大法律法规的通过进行了报道;同时,发现检索结果中较多有涉及该国严格规制赌场的报道和个人信息草案未通过的报道。因此排除了casino和draft两个关键词。而新通过的法律法规文件往往除了change以外还用到了access来说明文件已经通过。此外,也未必所有通过的法律文本都是law,也并未经常用到legislation,而是以act和legal居多,因此调整。
    最后检索结果如图

    检索结果还值得优化

    未完待续,不确定时间修改

    相关文章

      网友评论

          本文标题:随手理理:基于Google搜索引擎的信息检索

          本文链接:https://www.haomeiwen.com/subject/uxbsdhtx.html