美文网首页
正向匹配分词

正向匹配分词

作者: 龙小江i | 来源:发表于2018-10-09 11:43 被阅读0次
# 定义分词的判断条件
def getSeg(text,wd_dict):
    if not text:
        return ''
    if len(text)==1:
        return text
    if text in wd_dict:
        return text
    else:
        new_length=len(text)-1
        text=text[0:new_length]
        res=getSeg(text,wd_dict)
        return res
# 定义最大正向匹配
def main (text_str,n_len,dict_name):
    text_str=text_str.strip()#去除字符串前后空格
    max_len=n_len#定义最大匹配分词长度
    result_str=''#保存要输出的结果
    while text_str:
        new_text=text_str[0:max_len]
        seg_str=getSeg(new_text,dict_name)
        result_str=result_str+seg_str+'/'
        seg_len=len(seg_str)
        text_str=text_str[seg_len:]
    return result_str
    print('分词结束')
word_dict=['一个','吃饭']
string='我一个人吃饭'
main(string,5,word_dict)

相关文章

  • 中文分词的方法

    1、基于字符串匹配的方法 1.1 正向最大匹配分词算法1.2 逆向最大匹配分词算法1.3 双向最大匹配分词算法1....

  • 正向匹配分词

  • NLP入门(2)-分词结果评价及实战

    上一篇中我们介绍了词典分词的方法,并介绍了正向最长匹配、逆向最长匹配和双向最长匹配几种分词规则。本文主要介绍一下如...

  • Python基于规则的中文分词

    Python基于规则中文分词(正向最大匹配,逆向最大匹配,双向最大匹配) 最大匹配方法(基于规则的)是一种基于词典...

  • 中文分词引擎 python实现 — 正向最大、逆向最大、双向最大

    正向最大匹配法 分词目标: 在词典中进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配...

  • 0.NLP技术总览

    分词 常见问题 分词标准 序列标注 命名实体识别(NER) 新词发现 语义消歧 基于词典与规则 正向最大匹配 反向...

  • 中文分词之正向最大匹配法

    中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因...

  • NLP-中文分词:最大正向匹配算法

    一、前言 1、什么是分词 在讲分词算法之前,先来研究一下什么是分词?分词是将语句按照语境,以字词为单位划分的一个过...

  • Lucene中文分词

    中文分词算法现在一般分为三类:基于字符串匹配,基于理解,基于统计的分词。 基于字符串匹配分词:机械分词算法,这里我...

  • Elasticsearch 实现模糊搜索

    1、match query实现模糊搜索,该方式会对匹配文本进行分词然后匹配分词后的每个词项,匹配操作有OR和AND...

网友评论

      本文标题:正向匹配分词

      本文链接:https://www.haomeiwen.com/subject/areeaftx.html