美文网首页
中文分词

中文分词

作者: 爱吃醋的工程师 | 来源:发表于2021-07-27 20:22 被阅读0次

    本文是对ElasticSearch中文分词学习的一个知识总结,包括如下章节的内容:

    • 基本概念
    • ik分词器的安装
    • ik中文分词器的使用
    • ik的自定义词典
    • 文档的中文分词使用

    参考资料:
    1、如果希望先对ElasticSearch组件的基本概念有所了解,可先阅读《ElasticSearch学习笔记》

    一、基本概念

    当一个文档被存储时,ES会使用分词器从文档中提取出若干词元(token)来支持索引的存储和搜索。
    ES内置了很多分词器,但内置的分词器对中文的处理不好。下面通过例子来看内置分词器的处理。在web客户端发起如下的一个REST请求,对英文语句进行分词:

    POST http://localhost:9200/_analyze
    {  
        "text": "hello world"  
    }
    
    

    操作成功后,响应的内容如下:

    {
      "tokens": [
        {
          "token": "hello",
          "start_offset": 0,
          "end_offset": 5,
          "type": "<ALPHANUM>",
          "position": 0
        },
        {
          "token": "world",
          "start_offset": 6,
          "end_offset": 11,
          "type": "<ALPHANUM>",
          "position": 1
        }
      ]
    }
    
    

    上面结果显示 "hello world"语句被分为两个单词,因为英文天生以空格分隔,自然就以空格来分词,这没有任何问题。

    下面我们看一个中文的语句例子,请求REST如下:

    POST http://localhost:9200/_analyze
    {  
        "text": "世界如此之大"  
    }
    
    

    操作成功后,响应的内容如下:

    {
      "tokens": [
        {
          "token": "世",
          "start_offset": 0,
          "end_offset": 1,
          "type": "<IDEOGRAPHIC>",
          "position": 0
        },
        {
          "token": "界",
          "start_offset": 1,
          "end_offset": 2,
          "type": "<IDEOGRAPHIC>",
          "position": 1
        },
        {
          "token": "如",
          "start_offset": 2,
          "end_offset": 3,
          "type": "<IDEOGRAPHIC>",
          "position": 2
        },
        {
          "token": "此",
          "start_offset": 3,
          "end_offset": 4,
          "type": "<IDEOGRAPHIC>",
          "position": 3
        },
        {
          "token": "之",
          "start_offset": 4,
          "end_offset": 5,
          "type": "<IDEOGRAPHIC>",
          "position": 4
        },
        {
          "token": "大",
          "start_offset": 5,
          "end_offset": 6,
          "type": "<IDEOGRAPHIC>",
          "position": 5
        }
      ]
    }
    
    

    从结果可以看出,这种分词把每个汉字都独立分开来了,这对中文分词就没有意义了,所以ES默认的分词器对中文处理是有问题的。好在有很多不错的第三方的中文分词器,可以很好地和ES结合起来使用。在ES中,每种分词器(包括内置的、第三方的)都会有个名称。上面默认的操作,其实用的分词器的名称是standard。下面的请求与前面介绍的请求是等价的,如:

    POST http://localhost:9200/_analyze
    {  
        "analyzer": "standard",
        "text": "世界如此之大"  
    }
    
    

    当我们换一个分词器处理分词时,只需将"analyzer"字段设置相应的分词器名称即可。
    ES通过安装插件的方式来支持第三方分词器,对于第三方的中文分词器,比较常用的是中科院ICTCLAS的smartcn和IKAnanlyzer分词器。在本文中,我们介绍IKAnanlyzer分词器(下面简称ik)的使用。

    因为是在网上搜索资料来进行ik的安装,碰到了很多坑,折腾很长时间才搞定,主要原因是网上的很多资料都是针对旧版本的ES和IK版本,有很多信息在新版本中已经有变化。下面的内容会介绍那些遇到的坑。

    二、ik分词器的安装

    ES提供了一个脚本elasticsearch-plugin(windows下为elasticsearch-plugin.bat)来安装插件,脚本位于ES安装目录的bin目录下。elasticsearch-plugin脚本可以有三种命令,靠参数区分:

    1、 elasticsearch-plugin install 插件地址
    install 参数指定的命令是安装指定的插件到当前ES节点中。

    2、 elasticsearch-plugin list
    list参数指定的命令是显示当前ES节点已经安装的插件列表。

    3、 elasticsearch-plugin remove 插件名称
    remove 参数指定的命令是删除已安装的插件。

    使用elasticsearch-plugin install 安装插件时,插件地址既可以是一个远程文件地址(在线安装),也可以是下载到本地的文件,不管是远程文件或本地文件,对于ik插件来说都是一个zip文件。
    注意,ik的版本要与ES的版本一致,因为本文ES用的是5.6.9版本,所以我们ik也用的是5.6.9版本。

    远程文件安装命令如下:

    elasticsearch-plugin  install  
    https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v5.6.9/elasticsearch-analysis-ik-5.6.9.zip
    
    

    因为使用的Linux机器无法直接上外网,所以就考虑采用本地文件安装的方式,这是碰到的第一个坑。从上面地址上下载了elasticsearch-analysis-ik-5.6.9.zip文件到本地,然后执行命令如下(实际下面写法是错误的):

    elasticsearch-plugin  install 
    /home/hadoop/elasticsearch-analysis-ik-5.6.9.zip
    
    

    上面命令是在linux系统下执行的,zip文件位于本地的/home/hadoop目录下。但是无论怎么执行,都报错,报/home/hadoop/elasticsearch-analysis-ik-5.6.9.zip不是插件。在网上搜索了半天,也没有找到原因,甚至怀疑是下载的二进制包有问题,直接下载源代码自己编译打包成zip包,结果还是有问题。后来请教了同事,才知道elasticsearch-plugin install后面跟的路径,如果是本地的话,需要带file:///协议头。果然,带上协议头无论是在liunx下还是windows下安装都是成功的。这个事情给的教训是,不要想当然,因为以为本地直接采用本地路径即可,没想到要加file:///协议头;第二,有问题一段时间搞不定时及时向他人请教,省得浪费时间。

    正确的linux下的本地安装命令是:

    elasticsearch-plugin  install 
    file:///home/hadoop/elasticsearch-analysis-ik-5.6.9.zip
    
    

    正确的windows下本地安装的命令是:

    elasticsearch-plugin.bat install 
    file:///D:/hadoop/elasticsearch-analysis-ik-5.6.9.zip
    
    

    安装完毕后,发现在ES的安装目录下的plugins目录下多了一个analysis-ik目录(内容是ik的zip包解压后根目录下的所有文件,一共是5个jar文件和1个properties配置文件),另外ES的安装目录下的config目录下多了一个analysis-ik目录(内容是ik的zip包解压后根目录下的config目录下所有文件,用于放置ik的自定义词库)。

    遇到的第二个坑是,网上很多资料说,安装ik插件后,需要在ES的配置文件elasticsearch.yml中加上如下一行内容:

    index.analysis.analyzer.ik.type: "ik"
    
    

    可是,实际情况是加上这句话后,ES启动失败,从报的错误信息也看不到原因。又在网上查了半天,终于在一篇文章中看到对这个问题的解释:“index.analysis.analyzer.ik.type这个在新版本的ES中已经不需要了,添加了启动时反而会报错,ES5.X版本不再通过elasitcsearch.yml配置设置分词规则,而是在创建索引时指定”。

    下面再介绍遇到的第三个坑,网上给出使用ik的例子,请求命令如下:

    POST http://localhost:9200/_analyze
    {  
        "analyzer": "ik",
        "text": "世界如此之大"  
    }
    
    

    但是总是返回错误信息,错误如下:

    {
      "error": {
        "root_cause": [
          {
            "type": "remote_transport_exception",
            "reason": "[IefRKZ0][localhost:9300][indices:admin/analyze[s]]"
          }
        ],
        "type": "illegal_argument_exception",
        "reason": "failed to find global analyzer [ik]"
      },
      "status": 400
    }
    
    

    错误信息还是很明确的,找不到分词器ik。就以为是配置文件哪里配错了,折腾试了半天没找到原因。后来查找资料才知道在新的ik版本中,分词器的名称变了(不再叫ik),新版本的ik提供了两个分词器,分别是ik_max_word 和ik_smart,用任何一个替换ik,就没问题了。
    三、ik中文分词器的使用
    上面提到,ik提供了两个分词器,分别是ik_max_word 和ik_smart,下面我们分别测试下。
    先测试ik_max_word,输入命令如下:

    POST http://localhost:9200/_analyze
    {
    "analyzer": "ik_max_word",
    "text": "世界如此之大"
    }
    响应结果如下:

    {
    "tokens": [
    {
    "token": "世界",
    "start_offset": 0,
    "end_offset": 2,
    "type": "CN_WORD",
    "position": 0
    },
    {
    "token": "如此之",
    "start_offset": 2,
    "end_offset": 5,
    "type": "CN_WORD",
    "position": 1
    },
    {
    "token": "如此",
    "start_offset": 2,
    "end_offset": 4,
    "type": "CN_WORD",
    "position": 2
    },
    {
    "token": "之大",
    "start_offset": 4,
    "end_offset": 6,
    "type": "CN_WORD",
    "position": 3
    }
    ]
    }
    再测试ik_smart,输入命令如下:

    POST http://localhost:9200/_analyze
    {
    "analyzer": "ik_smart",
    "text": "世界如此之大"
    }
    响应结果如下:

    {
    "tokens": [
    {
    "token": "世界",
    "start_offset": 0,
    "end_offset": 2,
    "type": "CN_WORD",
    "position": 0
    },
    {
    "token": "如此",
    "start_offset": 2,
    "end_offset": 4,
    "type": "CN_WORD",
    "position": 1
    },
    {
    "token": "之大",
    "start_offset": 4,
    "end_offset": 6,
    "type": "CN_WORD",
    "position": 2
    }
    ]
    }
    比较两个分词器对同一句中文的分词结果,ik_max_word比ik_smart得到的中文词更多(从两者的英文名含义就可看出来),但这样也带来一个问题,使用ik_max_word会占用更多的存储空间。

    四、ik的自定义词典
    有时,可能ik自身提供的分词词典无法满足特定的一些需求(如专用名词等),ik提供了自定义词典的功能,也就是用户可以自己定义一些词汇,这样ik就会把它们当作词典中的内容来处理。

    举个例子,对于上面例子中的“世界如此之大”这个中文语句,ik词库中不会有“界如此”这样一个单词,假设“界如此”就是一个专用名词,我们希望ik能识别出来。这时就可自定义ik的词典。具体方法是:

    1、新建扩展名为dic的文本文件,文件中写入想增加的词条,每个词条单独一行,如文件名是test.dic,文件内容如下:

    界如此
    高潜
    上面例子中有两个自定义词条。

    2、将上面的dic文件保存到ES安装目录的config目录下的analysis-ik目录(安装ik插件时产生的目录)下,可以建立子目录,放在子目录下。比如文件的路径如:
    ** config/analysis-ik/mydic/test.dic**

    3、修改ik的配置文件IKAnalyzer.cfg.xml(位于config/analysis-ik目录下),在配置文件中增加如下条目:

    <entry key="ext_dict">mydict/test.dic</entry>
    这样就将自定义的字典文件加到ik的字典中了。

    4、重启ES让生效。

    这时我们发起如下的REST请求:

    POST http://localhost:9200/_analyze
    {
    "analyzer": "ik_max_word",
    "text": "世界如此之大"
    }
    响应结果如下:

    {
    "tokens": [
    {
    "token": "世界",
    "start_offset": 0,
    "end_offset": 2,
    "type": "CN_WORD",
    "position": 0
    },
    {
    "token": "界如此",
    "start_offset": 1,
    "end_offset": 4,
    "type": "CN_WORD",
    "position": 1
    },
    {
    "token": "如此之",
    "start_offset": 2,
    "end_offset": 5,
    "type": "CN_WORD",
    "position": 2
    },
    {
    "token": "如此",
    "start_offset": 2,
    "end_offset": 4,
    "type": "CN_WORD",
    "position": 3
    },
    {
    "token": "之大",
    "start_offset": 4,
    "end_offset": 6,
    "type": "CN_WORD",
    "position": 4
    }
    ]
    }
    可以看出,自定义的“界如此”词条被分词出来了。不过如果我们将analyzer改为ik_smart却发现“界如此”词条没能被识别出来。

    五、文档的中文分词使用
    前面的介绍只是简单举例介绍了ik的使用,下面我们来通过一个更完整的例子介绍分词。ES的分词在创建索引(index)后,可以通过REST命令来设置,这样后续插入到该索引的数据都会被相应的分词器进行处理。

    为了比较ik的ik_smart和ik_max_word这两个分词器及默认的分词器standard,我们创建3个索引来分别使用这3个分词器。

    1、创建索引

    PUT http://192.168.226.132:9200/index_ik_s
    PUT http://192.168.226.132:9200/index_ik_m
    PUT http://192.168.226.132:9200/index_stan
    2、设置分析器

    POST http://localhost:9200/index_ik_s/resource/_mapping
    {
    "properties": {
    "content": {
    "type": "text",
    "analyzer": "ik_smart",
    "search_analyzer": "ik_smart"
    }
    }
    }
    POST http://localhost:9200/index_ik_m/resource/_mapping
    {
    "properties": {
    "content": {
    "type": "text",
    "analyzer": "ik_max_word",
    "search_analyzer": "ik_max_word"
    }
    }
    }
    POST http://localhost:9200/index_stan/resource/_mapping
    {
    "properties": {
    "content": {
    "type": "text",
    "analyzer": "standard",
    "search_analyzer": "standard"
    }
    }
    }
    3、插入数据
    为了批量插入,我们使用了linxu的curl命令来执行REST操作。

    curl -XPOST http://localhost:9200/index_ik_s/resource/1 -d'
    {"content":"上海牛人科技有限公司"}'

    curl -XPOST http://localhost:9200/index_ik_s/resource/2 -d'
    {"content":"上海牛人科技有限公司,牛人聚集的地方"}'

    curl -XPOST http://localhost:9200/index_ik_s/resource/3 -d'
    {"content":"最牛的人所在的地方,上海牛人科技有限公司"}'

    curl -XPOST http://localhost:9200/index_ik_s/resource/4 -d'
    {"content":" This is an English test case"}'

    curl -XPOST http://localhost:9200/index_ik_s/resource/5 -d'
    {"content":" English Test Case"}'
    curl -XPOST http://localhost:9200/index_ik_m/resource/1 -d'
    {"content":"上海牛人科技有限公司"}'

    curl -XPOST http://localhost:9200/index_ik_m/resource/2 -d'
    {"content":"上海牛人科技有限公司,牛人聚集的地方"}'

    curl -XPOST http://localhost:9200/index_ik_m/resource/3 -d'
    {"content":"最牛的人所在的地方,上海牛人科技有限公司"}'

    curl -XPOST http://localhost:9200/index_ik_m/resource/4 -d'
    {"content":" This is an English test case"}'

    curl -XPOST http://localhost:9200/index_ik_m/resource/5 -d'
    {"content":" English Test Case"}'
    curl -XPOST http://localhost:9200/index_stan/resource/1 -d'
    {"content":"上海牛人科技有限公司"}'

    curl -XPOST http://localhost:9200/index_stan/resource/2 -d'
    {"content":"上海牛人科技有限公司,牛人聚集的地方"}'

    curl -XPOST http://localhost:9200/index_stan/resource/3 -d'
    {"content":"最牛的人所在的地方,上海牛人科技有限公司"}'

    curl -XPOST http://localhost:9200/index_stan/resource/4 -d'
    {"content":" This is an English test case"}'

    curl -XPOST http://localhost:9200/index_stan/resource/5 -d'
    {"content":" English Test Case"}'
    4、测试验证和对比
    先测下他们对中文标准单词的支持,查询“科技”,3种索引效果都一样的,都能胜任。请求命令如下:

    POST http://localhost:9200/_search
    {
    "query": {
    "query_string": {
    "query": "科技",
    "fields": ["content"]
    }
    }
    }
    再测试下非标准的搜索,搜索“海牛”,ik_smart搜索不出结果,因为在smart的反向索引中分词是“上海”、“牛人”。ik_max_word搜索得到结果,因为在maxword的反向索引中“上海”、“牛人”、“海牛”这些都有分词。Stardard可以搜索的到结果,因为startard的反向索引中每个字都拆分成一个分词“海”、“牛”,在搜索时又将每个字都拆成一个检索条件,所以查询得到。

    案例中也给了英文的例子,测试后发现,ik_smart和ik_max_word对英文的分词不比standard差多少。

    对比后我们的结论是:ik_smart既能满足英文的要求,又更智能更轻量,占用存储最小,所以首推ik_smart;standard对英语支持是最好的,但是对中文是简单暴力每个字建一个反向索引,浪费存储空间而且效果很差;ik_max_word比ik_smart对中文的支持更全面,但是存储上的开销实在太大,不建议使用。

    相关文章

      网友评论

          本文标题:中文分词

          本文链接:https://www.haomeiwen.com/subject/ufctvltx.html