自然语言处理基础技术工具篇之HanLP

作者: yuquanle | 来源:发表于2018-12-07 11:27 被阅读0次

    声明:转载请注明出处,禁止二次转载,谢谢:https://www.jianshu.com/p/6e7dbe716fe7
    另外,更多实时更新的个人学习笔记分享,请关注:


    知乎https://www.zhihu.com/people/yuquanle/columns
    微信订阅号:AI小白入门
    CSDN地址http://blog.csdn.net/m0_37306360


    StudyForAI

    Hanlp简介

    HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。

    HanLP主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等等。

    Github地址:https://github.com/hankcs/HanLP

    官网地址:http://hanlp.linrunsoft.com/


    HanLP工具Demo

    安装:pip install pyhanlp

    from pyhanlp import *
    
    Using local c:\users\yuquanle\anaconda3\envs\nlpcoure\lib\site-packages\pyhanlp\static\data-for-1.7.0.zip, ignore http://hanlp.linrunsoft.com/release/data-for-1.7.0.zip
    Extracting data.zip...
    

    1.分词和词性标注

    sentence = "我爱自然语言处理技术!"
    s_hanlp = HanLP.segment(sentence)
    for term in s_hanlp:
        print(term.word, term.nature)
    
    我 rr
    爱 v
    自然语言处理 nz
    技术 n
    ! w
    

    2.依存句法分析

    s_dep = HanLP.parseDependency(sentence)
    print(s_dep)
    
    1   我   我   r   r   _   2   主谓关系    _   _
    2   爱   爱   v   v   _   0   核心关系    _   _
    3   自然语言处理  自然语言处理  v   v   _   4   定中关系    _   _
    4   技术  技术  n   n   _   2   动宾关系    _   _
    5   !   !   wp  w   _   2   标点符号    _   _
    

    3.关键词提取

    document = u'''
    自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
    它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
    自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
    因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
    所以它与语言学的研究有着密切的联系,但又有重要的区别。
    自然语言处理并不是一般地研究自然语言,
    而在于研制能有效地实现自然语言通信的计算机系统,
    特别是其中的软件系统。因而它是计算机科学的一部分。
    '''
    
    doc_keyword = HanLP.extractKeyword(document, 3)
    for word in doc_keyword:
        print(word)
    
    研究
    自然语言
    自然语言处理
    

    4.摘要抽取

    doc_keysentence = HanLP.extractSummary(document, 3)
    for key_sentence in doc_keysentence:
        print(key_sentence)
    
    自然语言处理并不是一般地研究自然语言
    自然语言处理是计算机科学领域与人工智能领域中的一个重要方向
    它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法
    

    5.感知机词法分析器

    PerceptronLexicalAnalyzer = JClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer')
    analyzer = PerceptronLexicalAnalyzer()
    print(analyzer.analyze("上海华安工业(集团)公司董事长谭旭光和秘书胡花蕊来到美国纽约现代艺术博物馆参观"))
    
    [上海/ns 华安/nz 工业/n (/w 集团/n )/w 公司/n]/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国纽约/ns 现代/ntc 艺术/n 博物馆/n]/ns 参观/v
    

    6.中国人名识别

    NER = HanLP.newSegment().enableNameRecognize(True)
    p_name = NER.seg('王国强、高峰、汪洋、张朝阳光着头、韩寒、小四')
    print(p_name)
    
    [王国强/nr, 、/w, 高峰/n, 、/w, 汪洋/n, 、/w, 张朝阳/nr, 光着头/l, 、/w, 韩寒/nr, 、/w, 小/a, 四/m]
    

    7.音译人名识别

    sentence = '微软的比尔盖茨、Facebook的扎克伯格跟桑德博格、亚马逊的贝索斯、苹果的库克,这些硅谷的科技人'
    person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
    p_name = person_ner.seg(sentence)
    print(p_name)
    
    [微软/ntc, 的/ude1, 比尔盖茨/nrf, 、/w, Facebook/nx, 的/ude1, 扎克伯格/nrf, 跟/p, 桑德博格/nrf, 、/w, 亚马逊/nrf, 的/ude1, 贝索斯/nrf, 、/w, 苹果/nf, 的/ude1, 库克/nrf, ,/w, 这些/rz, 硅谷/ns, 的/ude1, 科技/n, 人/n]
    

    8.短语提取

    phraseList = HanLP.extractPhrase(document, 3)
    print(phraseList)
    
    [计算机科学, 中的重要, 之间自然语言]
    

    9.拼音转换

    s = '重载不是重任'
    pinyinList = HanLP.convertToPinyinList(s)
    for pinyin in pinyinList:
        print(pinyin.getPinyinWithoutTone(),pinyin.getTone(), pinyin, pinyin.getPinyinWithToneMark())
    
    chong 2 chong2 chóng
    zai 3 zai3 zǎi
    bu 2 bu2 bú
    shi 4 shi4 shì
    zhong 4 zhong4 zhòng
    ren 4 ren4 rèn
    

    声母、韵母

    for pinyin in pinyinList:
        print(pinyin.getShengmu(), pinyin.getYunmu())
    
    ch ong
    z ai
    b u
    sh i
    zh ong
    r en
    

    10.繁简转换

    Jianti = HanLP.convertToSimplifiedChinese("我愛自然語言處理技術!")
    Fanti = HanLP.convertToTraditionalChinese("我爱自然语言处理技术!")
    print(Jianti)
    print(Fanti)
    
    我爱自然语言处理技术!
    我愛自然語言處理技術!
    

    相关文章

      网友评论

        本文标题:自然语言处理基础技术工具篇之HanLP

        本文链接:https://www.haomeiwen.com/subject/wbxthqtx.html