再构建词模型和字模型语料，如何分字和分词？

作者: Babyzpj | 来源:发表于2018-12-04 11:35 被阅读0次

再构建词模型和字模型语料，如何分字和分词？
中文自然语言处理工具hanlp隐马角色标注详解
987.vertical-order-traversal-of-
处理英文文本数据
gensim TF-IDF模型中文关键词抽取
中文分词十年回顾
您的选房系统已上线——利用python和R如何进行房价预测
CMU Sphinx语音识别入门：构建语言模型
分词算法和模型
招聘是唯心主义（五）—求才心法2

对于一个文本、想要处理成字模型、词模型语料，如下：

词模型语料：

    '''分词--'''
title = "新鲜现摘大菠萝海南香水 菠萝8斤装热带金菠萝*时令水果&除味"
 # 将字符串title中的一些杂质字符过滤出去
title = re.sub("[\s+\.\!\/_,$%^*()?;；:【】+\"\']+|[+——！，;:。？“”、~@#￥%……&*（）]","",title)

 然后再调用分词接口（结巴、或分词api）,对title进行分词即可

字模型模型语料：
法1

    title1 = "新鲜 invisalign现123摘菠萝"
    title = re.findall(r'[\u3400-\u4DB5\u4E00-\u9FA5\uF900-\uFA2C]|[，．？：；！,.?:;!]+|[A-Za-z]{1,}|[\'\-]+|[0-9\.]+',title1)
    title
    
     ['新', '鲜', 'invisalign', '现', '123', '摘', '菠', '萝']

法2

myStr='Hello world一般是我们学习一种语言时掌握的第一个操作。'
engChr=[chr(i) for i in range(65,90+1)]+[chr(i) for i in range(97,122+1)]
myWordList=[]
tempStr=''
for _ in myStr:
    if _ in engChr:
        tempStr+=_
    else:
        myWordList.append(tempStr)
        tempStr = _
print (myWordList)
>>>['Hello', ' world', '一', '般', '是', '我', '们', '学', '习', '一', '种', '语', '言', '时', '掌', '握', '的', '第', '一', '个', '操', '作']

网友评论

本文标题：再构建词模型和字模型语料，如何分字和分词？

本文链接：https://www.haomeiwen.com/subject/salmcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

再构建词模型和字模型语料，如何分字和分词？

相关文章

再构建词模型和字模型语料，如何分字和分词？

中文自然语言处理工具hanlp隐马角色标注详解

987.vertical-order-traversal-of-

处理英文文本数据

gensim TF-IDF模型中文关键词抽取

中文分词十年回顾

您的选房系统已上线——利用python和R如何进行房价预测

CMU Sphinx语音识别入门：构建语言模型

分词算法和模型

招聘是唯心主义（五）—求才心法2

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读