美文网首页
在Mac OS中安装和使用HanLP

在Mac OS中安装和使用HanLP

作者: 字节码 | 来源:发表于2019-05-16 01:11 被阅读0次

HanLP 在Mac OS 的 Python 环境中安装、介绍及使用

demo链接

HanLP 介绍

hanlp简称汉语言处理包,它是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:

  • 中文分词
  • 词性标注
  • 命名实体识别
  • 关键词提取
  • 自动摘要
  • 短语提取
  • 拼音转换
  • 简繁转换
  • 文本推荐
  • 依存句法分析
  • 文本分类
  • 文本聚类
  • word2vec
  • 语料库工具

可参考的官网链接

https://github.com/hankcs/HanLP
http://hanlp.com

hanlp环境安装

hanlp是java写的开源库,在python环境中调用hanlp需要java环境的支持和python调用java的工具

  • 安装java
  • 安装Jpype

JPype是一个能够让 python 代码方便地调用 Java 代码的工具,从而克服了 python 在某些领域(如服务器端编程)中的不足。

pip install jpype1
  • 测试环境
#coding=utf=8

import jpype

if __name__=='__main__':
    # 获取系统的jvm路径
    jvm_path = jpype.getDefaultJVMPath()
    # 设置jvm路径,以启动java虚拟机
    jpype.startJVM(jvm=jvm_path)
    # 执行java代码
    jpype.java.lang.System.out.println('hello world')
    # 关闭jvm虚拟机,当使用完 JVM 后,可以通过 jpype.shutdownJVM() 来关闭 JVM,该函数没有输入参数。当 python 程序退出时,JVM 会自动关闭。
    jpype.shutdownJVM()

打印结果:

hello world
JVM has been shutdown

至此环境配置完成

hanlp 安装

  • 下载hanlp.jar包
  • 下载data.zip
    下载完成后,将data.zip和hanlp-1.7.3-release.zip解压,并将解压后hanlp-1.7.3-release目录下的所有文件和的data放在同一个目录下,这里我新建一个hanlp_source的目录用于存放这些文件的
  • 配置文件
    hanlp的配置文件是hanlp.properties,配置文件的作用是告诉HanLP数据包的位置,只需修改第一行: root=hanlp_source/,hanlp_source必须为hanlp_source所在的路径哦。

以上两个文件下载会比较慢,也可通过我的网盘下载

demo 和 hanlp_source 的目录结构


屏幕快照 2019-05-16 上午1.06.53.png

错误

  • 错误1,JClass加载HanLP时报错:jpype._jexception.RuntimeExceptionPyRaisable: java.lang.RuntimeException: Class com.hankcs.hanlp.HanLP not found
  • 错误2,执行HanLP.segment()时,报错:jpype._jexception.ExceptionInInitializerErrorPyRaisable: java.lang.ExceptionInInitializerError
    堆栈
Traceback (most recent call last):
  File "/Applications/PyCharm.app/Contents/helpers/pydev/pydevd.py", line 1596, in <module>
    globals = debugger.run(setup['file'], None, None, is_module)
  File "/Applications/PyCharm.app/Contents/helpers/pydev/pydevd.py", line 974, in run
    pydev_imports.execfile(file, globals, locals)  # execute the script
  File "/Applications/PyCharm.app/Contents/helpers/pydev/_pydev_imps/_pydev_execfile.py", line 18, in execfile
    exec(compile(contents+"\n", file, 'exec'), glob, loc)
  File "/Users/swae/Documents/Github/learningNLP/02/05_hanlp/test_hanlp.py", line 27, in <module>
    print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))
jpype._jexception.ExceptionInInitializerErrorPyRaisable: java.lang.ExceptionInInitializerError

错误1和错误2的解决方法:
这两个问题都是因为在启动jvm时,参数-Djava.class.path设置错误导致,注意路径的正确性,下面为windows和linux的正常启动方法


    # windows下启动jvm
    # startJVM(getDefaultJVMPath(),
    #          "-Djava.class.path=D:\change\parsenoun\hanlp\hanlp-1.5.0.jar;D:\change\parsenoun\hanlp",
    #          "-Xms1g",
    #          "-Xmx1g")  # 启动JVM,Linux需替换分号;为冒号:

    # mac 和 linux 下启动jvm
    jarpath = os.path.join(os.path.abspath('.'), '/Users/swae/Documents/Github/learningNLP/02/05_hanlp/hanlp_source/hanlp-1.7.3.jar')
    dependency = os.path.join(os.path.abspath('.'), '/Users/swae/Documents/Github/learningNLP/02/05_hanlp/hanlp_source')
    # 注意: -Djava.class.path= 在Linux和mac下 jarpath和dependency需替换分号;为冒号:
    startJVM(getDefaultJVMPath(),
             "-Djava.class.path="+jarpath+":"+dependency,
             "-Xms1g",
             "-Xmx1g")

相关文章