链接http://www.phpbone.com/phpanalysis/
此分词库本身很简单,主要介绍如何导入自定义词
-
先下载分词源码
图片.png
-
解压到自己本地,随便搞个虚拟目录做为站点
图片.png
-
运行此文件dict_build.php, 看到两个选项,我们需要生成新的词典
图片.png
-
打开dict\not-build\base_dic_full.txt文件(原始的文本文件),到文件最后一行开始添加自定义词
图片.png
每个词一行,我加了一行:高一,2,n
此行分为三段组成,
第一段表示自定义词(高一)
第二段表示该词的词频(2),也就是说是被搜索的权重,值越大,权重越高,被搜索利用的概率越大
第三段表示该词的词性(n),也就是词语的性质,高一的词性就是名词,英语缩写为n -
自定义词弄好了之后,运行此文件dict_build.php
图片.png
就会重新生成新的编译过的词典,在你的目录里面,你可以根据文件的修改时间找到该词典base_dic_full.dic
另外推荐使用solr的分词,或者百度分词(http://zhannei.baidu.com/api/customsearch/keywords?title=高一月考)
网友评论