美文网首页
Spark中使用HanLP分词

Spark中使用HanLP分词

作者: lanlantian123 | 来源:发表于2018-10-30 08:42 被阅读0次

1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如:

root=hdfs://localhost:9000/tmp/

2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口:

3.设置IoAdapter,创建分词器:

然后,就可以在Spark的操作中使用segment进行分词了。

文章来源于云聪的博客

相关文章

网友评论

      本文标题:Spark中使用HanLP分词

      本文链接:https://www.haomeiwen.com/subject/avywtqtx.html