美文网首页大数据BigData
Elasticsearch集成ik分词器

Elasticsearch集成ik分词器

作者: geekAppke | 来源:发表于2018-12-20 11:08 被阅读7次
爬取data数据 → java-api(数据清洗、转换成document) → 上传es分布式集群(倒排索引) → 搜索


1、爬虫,来获取网站的html数据
    nutch,Python(主流),wget(c语言)
    安装:yum install wget
    堵塞运行:wget -o /tmp/wget.log -P /root/data  --no-parent --no-verbose -m -D news.cctv.com   -N --convert-links --random-wait -A html,HTML,shtml,SHTML http://news.cctv.com
    动态查看:tail -f /tmp/wget.log
2、数据抽取:从网页中抽取数据
    news.cctv.com/2017/10/06/ARTIZbHyClb2f7DMTDr1uDO9171006.shtml
3、把抽取出来的数据同ES建立索引
4、搜索


拿到网页不是马上做倒排索引,先把无用数据去掉

集群安装ik分词器

1.关闭es集群
2.共享模式下`hadoop`用户在`plugins`下创建同步创建 `ik目录`

3.把ik分词器压缩包(2.2.1),上传到node002 的`ik`目录
4.使用`hadoop`用户解压 unzip -d
5.修改ik插件描述符的配置 `vi plugin-descriptor.properties`,版本变为2.2.1 (/version 搜索)
# plugins with the incorrect elasticsearch.version.
elasticsearch.version=2.2.1

6.将ik分发给别的节点:[hadoop@node002 plugins]~ scp -r ik/ hadoop@node003:`pwd`
7.重启动集群

对中文进行分词

ik分词器和es版本有严格要求



参考资料

elasticsearch集成ik分词器 - appke的专栏 - CSDN博客

相关文章

网友评论

    本文标题:Elasticsearch集成ik分词器

    本文链接:https://www.haomeiwen.com/subject/egnjkqtx.html