美文网首页资源搜索
信息检索的从入门到入门——生活版

信息检索的从入门到入门——生活版

作者: 我叫蔚蓝 | 来源:发表于2016-09-26 09:37 被阅读207次

    战争来了又走,我们的士兵却永远忠诚。感谢这么多年大家对于这篇日志的喜爱,从2011年白妮老师的一句话,引出了这篇日志,到后来的不断添砖加瓦,现在这个的原文已经太过臃肿。所以现在重新写一下,精简一点的,给大朋友、小朋友们。我的自由时间已经越来越少了,以后除非有极具价值的idea,否则这个就作为最终版了。

    如果你会使用互联网,但是不知道如何去接近自己想要的资源,那么就从头开始看吧。我没什么实力去瞬间提高你的搜商,但是提高常规问题的解决效率还是可以的。

    如果你是一个检索高手,只是苦于不知道哪些数据库或者网站有你需要的资源,那么可以直接去看看检索网站花名册那边。

    如果你能找到自己需要的资源,只是在资源的获取上面遇到了一些阻碍,那么可以试试我提供的灰色的工具们。

    这篇先来说说搜索思路的问题

    我想安利一个自己长久以来信奉的检索哲学。那就是:

    不要总是想着怎么找到答案,而是去想有答案的地方是什么样子的

    这句话有种让人懵逼的感觉,下面我举例讲述这句话的意思。当我在百度搜索“旋转蒸发器”的时候,才输入前两个字,浏览器的页面突然抽风旋转起来了。很显然,我发现了一个彩蛋。此时我想知道更多这种类似的彩蛋,我该怎么找?

    我开始在心里想,其他发现彩蛋的人,会怎么告诉其他人这类的消息?地点在哪?论坛、贴吧、还是个人博客?怎么说?我想他们发帖发文应该会是“百度搜索XXX这几个字有惊喜”“你在百度里面打XXX这几个字看看发生了什么”这类的话。没错,这样的话出现的地方就是有答案的地方。那么很显然,我们开始进入构建关键词的阶段。

    我的关键词是“百度搜索”+“旋转”,搜索结果如图所示。

    “百度搜索”+“旋转”,搜索结果

    构建关键词是一门学问,但是任何上升到理论层面的东东都会变得枯燥。如果让我上检索实践类课程,我会用半学期的时间去聊聊关键词构造的思路与技巧。个人对于新手构建关键词的建议就是:尽量在保持主要信息完整的情况下简化关键词

    还是通过实例来讲讲吧。NBA比赛直播有这么一个有意思的环节,那就是摄像师会随机把镜头切到观众席锁定一对情侣,而这对情侣在这个时候需要接吻。然而并不是所有情侣那一天都是开心的,也并不是所有的看着像情侣的坐在一起的两个人都是情侣。

    并不是所有镜头中的情侣都是开心的 并不是所有镜头中的情侣都是开心的 并非所有镜头中的男女都是情侣 甚至性别都不那么确定,摄影师中饭加鸡腿

    这些都不是问题,问题是我该怎么知道这个活动是叫啥,我知道叫啥我才能找到更多的这个的现场镜头去看呀。我不懂篮球也不看篮球,对NBA的了解仅限于姚明在火箭队打过球。

    我们该怎么构建关键词?

    尽量在保持主要信息完整的情况下简化关键词!这里你不能以“篮球”+“情侣”作为关键词,很显然这样会找到很多和NBA无关的篮球情侣的网页内容。稍微有点直觉的人,都会在关键词里面放上“NBA”。这个时候难道要“NBA”+“调皮的摄影师”?当然不是,首先这个已经违反了简洁原则,检索词不应该带到“调皮的”这样的形容词。试想一下,如果真的检索了“NBA”+“摄影师”得到的答案会是什么?肯定是一大堆的和NBA有关的摄影师的生活相关的东西。那么“NBA”+“观众”行不行?我认为也不好,这样完全没有抓住终点,得到的应该是一大堆球迷的事情。我给出的检索策略是“NBA”+“kiss”,当然如果使用的是百度主要检索中国网页,那么应该检索“NBA”+(“亲吻”or“接吻”)。搜索结果如图所示。(请不要纠结我为何没用引号和加号,我习惯这样直接搜索,发现无效内容太多的时候才会进行数据清洗)

    “NBA”+“kiss”在谷歌里面的检索结果

    这样我们就能找到这个活动环节叫啥,当知道这个环节叫啥,然后再搜索这个环节的名字就能找到一大堆相关视频。

    现在回头来看看这样先构建关键词找“Kiss-Cam”,然后再找视频是不是比直接搜索“NBA中场休息摄像头拍到的情侣必须接吻的视频”这样的关键词高效很多?

    如果这个小例子能让你放弃以前那种直接一句白话文送进百度搜索框的习惯,我的文字就没有白费。


    度娘和谷哥哥算是广谱型的搜索引擎,给我们带来最通用的检索方式。技能算是全而不精,真的是见人要说人话,见鬼要说鬼话,你不能在蛋糕店买拖鞋,你也不能在宜家撸串。检索有技巧,在哪里检索同样是技巧。上面说过,要想着资源是长什么模样,这里要说的是资源长在什么地方。

    搜电影,你要是知道有地方叫做电影天堂,电影FM,MP4吧……那么你是不是找起来就简单多了。也许有人告诉你,只要在电影的名字后面加上BT就能找到资源了。你试完了后,还觉得好使吗?没有被假资源欺骗过,没有被骗装了各种广告下载器,都不好意思说自己在中国上过网。具体什么资源在什么地方,在下面的章节里面我会给出列表。这里唠叨这么几句就是提醒一下大家,看看自己找不到资源时候是不是这个地方犯错了。


    关于检索思路上面,还想安利大家一点,希望大家可以像邪教一样去相信。应该说所有检索牛逼的人都在或明或暗使用的技巧:步步为营

    例如,我想去找下面这个动漫的被传播最广的那首主题曲。

    就是这个催泪的动画

    我先只记得旋律,也就是我找到那首歌的时候肯定知道是我要找的歌,但是我已经忘记了这个动漫的名字,我该怎么找歌曲呀?

    在描述这个问题的时候,你已经知道了该怎么办了。显然是先去以图搜图找到动漫的名字,然后百度百科知道有哪些主题曲,然后搜索听听就知道,当然也可以去网易云音乐找到这个动漫的歌单,直接试听就好了。

    一步一步来,别妄图一步找到自己的资源。事实上,真的接手一些检索任务的时候,都是在尝试检索的过程中不断修正关键词,或者改变检索位置

    下面举一个我好多年前检索课分享的一个例子

    某一天,老师给了我几个文件,让我找软件打开,然后把软件给他一份。

    就是这堆文件

    那一年,我还很傻很天真,没有见过什么高大上的设备,完全不知道这个是什么来路。于是,我还是找度娘娘问一下。

    得到了 电镜 这个线索

    这个,度娘娘没有提供啥直奔我问题的答案,不过给了一个重要的提示,那就是这货是电镜的输出文件呀。

    dm3 和 电镜 作为关键词检索

    然后把我引进了那个帖子里面

    得到了 重要的线索,知道这个软件叫啥了

    这里给出了两个提示,这两个软件可以打开dm3文件。下面就简单了,只要用DigitalMicrograph加上“破解”、“crack”这类的关键词就好了。下面那个ImageJ是免费的,只要加载相应的包就可以打开了。

    这个是打开后的情形

    然后检索就结束了,这个就是一流水账。现在回头看看,你觉得这个问题有可能一步到位解决吗?运气再好,那也要先找到软件名再找到软件呀。其中缘由,各位看官自己体会一下吧。


    初稿的生活篇就到这了,请教专家后再做修改。不同信息的分类实战 写起来太费时间,应该会鸽。

    相关文章

      网友评论

        本文标题:信息检索的从入门到入门——生活版

        本文链接:https://www.haomeiwen.com/subject/usqqyttx.html