1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如:
root=hdfs://localhost:9000/tmp/
2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口:
data:image/s3,"s3://crabby-images/63356/63356c06b55dc159c8e951cf1e4b5b7efe7c3151" alt=""
3.设置IoAdapter,创建分词器:
data:image/s3,"s3://crabby-images/7cfe8/7cfe8706b7485a4e4f50dbd433013289a1b55359" alt=""
然后,就可以在Spark的操作中使用segment进行分词了。
文章来源于云聪的博客
1.将HanLP的data(包含词典和模型)放到hdfs上,然后在项目配置文件hanlp.properties中配置root的路径,比如:
root=hdfs://localhost:9000/tmp/
2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口:
3.设置IoAdapter,创建分词器:
然后,就可以在Spark的操作中使用segment进行分词了。
文章来源于云聪的博客
本文标题:Spark中使用HanLP分词
本文链接:https://www.haomeiwen.com/subject/avywtqtx.html
网友评论