(有关博客是基于《自制搜索引擎》)
1、基本的来源数据(wiki上的数据(xml格式))
https://dumps.wikimedia.org/zhwiki/latest/ 这里可以查看到
2、涉及到的工具 wiser (实验是在mac上操作,其他的系统也是差不错吧)
(需要安装wiser依赖的库)
依赖库的安装:xcode先安装、sqlite(一般mac上都是有的)、expat
Expat是一个用C语言开发的、用来解析XML文档的开发库,它最初是开源的、Mozilla 项目下的一个XML解析器。
https://github.com/xiaozhuangqing/wiser wiser 源代码链接
Wiser 是一个全文搜索引擎;
在源码的目录下:make就进行了编译;
然后查看编译的结果:
wiser可选项
选项解释
个人安装在这个目录下
配置为全局
配置了对应的内容;由于已经配置了,但是好像.bash_profile 这个文件有的时候没有执行到,如果输入wiser不行,可以source .bash_profile 文件,然后就可以了;
PS: 基于上面的内容就是基本上就已经安装环境成功了,并且有了对应的资源。
将Wikipedia中的300条数据存储在数据库里面对Wikipedia的数据库内容进行查询
linux上的grep也是一个查询工具,但是比较发现wiser比grep快很多。
网友评论