美文网首页
NLP之分词

NLP之分词

作者: 半笔闪 | 来源:发表于2019-10-16 13:54 被阅读0次

其实市面上的分词工具很多,python的c++的都有,那为啥还要写分词呢,因为分词的很多方法可以套用到其他nlp基础任务中,比如命名实体识别、词性标注。
在中文中,最小单位首先是字,由字组成词,再由词组成句子,然后由句子组成段落,最后由段落组成文章。尽管字是最小单位,但是文章的语义表达却是以词来划分的。因此在中文的NLP中,我们首先要先做分词,中文不像英文,每一个单词就是一个词用空格划分好了,所以英文的分词简单,只需要按空格分割就行。但是中文的词语是连在一起的,所以相对于英文会困难一些。
到目前为止,中文的分词主要有四种方法:1)基于规则的分词;2)基于概率统计的分词;3)混合分词(1+2);4)基于深度学习的分词。下面就来介绍这四种分词:

基于规则的分词

基于规则的分词有三种:正向最大匹配法,逆向最大匹配发,双向最大匹配发。他们的基本思想都相同,都是通过维护一个词典,按字典中最长的词的长度在句子中枚举字符串域词典中的词逐一匹配,能在词典中找到则切分,不能则最长的长度减一再枚举匹配。

  • 正向最大匹配法
    算法步骤:
    1)查看字典最长的词的字符数m,从左到右枚举句子中的m个字符作为匹配字段。
    2)查找字典域1)中的字段进行匹配,匹配成功则划分出一个词,匹配不成功,去掉字段最后一个字,继续再字典中匹配,直到分出词为止。
  • 逆向最大匹配法
    逆向最大匹配法的步骤和正向最大匹配法的步骤相差不大,只是把从左到右枚举句子中的字符改为从右到左。
  • 双向最大匹配法
    双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取词数切分最少的作为结果。

基于概率统计的分词

基于概率统计的分词的思想是:如果在已经建立的大规模语料库中,相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。所以可以利用字与字相邻出现的频率来反应组成词的可靠度,统计预料中相邻共现的各个字的组合的频度,当组合频度高于莫一个临界值时,便可认为此字组可能会构成一个词语。

基于深度学习的分词

如采用google开源的bert模型来分词,还有lstm+crf等。

相关文章

  • NLP—博客推荐

    NLP词法、句法、语义、语篇综合系列:NLP+词法系列(一)︱中文分词技术小结、几大分词引擎的介绍与比较NLP+词...

  • NLP 分词

    资源 mantch的博客NLP-LOVE/Introduction-NLP stopwords 英文停用词中文停用...

  • “结巴”中文分词:做最好的 Python中文分词组件

    “结巴”中文分词:做最好的 Python中文分词组件 1 jieba中文分词简介: 中文分词是中文NLP的第一步,...

  • NLP-分词器设计

    1. 简介 主要介绍NLP中分词器实现原理,常用分词方法,创建自己的基于词典的分词器。 To be continued!

  • NLP基础

    NLP基础 NLP涉及知识 NLTK库 分词 TF-IDF 手动操作安装NLTK库 代码小练 什么是NLP 词处理...

  • 中文分词

    用过的中文分词有jieba,hanlp,word,grid,standford.nlp。 从分词原理的直接到间接说...

  • NLP 学习 - 3分类问题命名实体识别

    ? NLP中的分类问题 ? 2020年9月4日 一、分词算法 Jieba分词 http://github.co...

  • NLP 的中文分词技术之规则分词

    在英语中,单词本身就是词的表达,一篇英文文章由单词和分隔符组成,而在汉语中,词是以字为基本单位的,但是一篇文章的语...

  • 一文让你了解中文分词

    分词,是NLP-自然语言处理(还不了解NLP的小伙伴点这里跳转)的重要步骤。 顾名思义,分词就是将句子、段落、文章...

  • FastAI08-NLP的分词化和数字化

    在NLP中,第一步基本上都是分词化(Tokenization)和数字化(Numericalization).分词化...

网友评论

      本文标题:NLP之分词

      本文链接:https://www.haomeiwen.com/subject/uxzetctx.html