美文网首页
再构建词模型和字模型语料,如何分字和分词?

再构建词模型和字模型语料,如何分字和分词?

作者: Babyzpj | 来源:发表于2018-12-04 11:35 被阅读0次

    对于一个文本、想要处理成字模型、词模型语料,如下:

    • 词模型语料:
        '''分词--'''
    title = "新鲜现摘大菠萝海南香水 菠萝8斤装热带金菠萝*时令水果&除味"
     # 将字符串title中的一些杂质字符过滤出去
    title = re.sub("[\s+\.\!\/_,$%^*()?;;:【】+\"\']+|[+——!,;:。?“”、~@#¥%……&*()]","",title)
    
     然后再调用分词接口(结巴、或分词api),对title进行分词即可
                  
    
    
    • 字模型模型语料:
    • 法1
        title1 = "新鲜 invisalign现123摘菠萝"
        title = re.findall(r'[\u3400-\u4DB5\u4E00-\u9FA5\uF900-\uFA2C]|[,.?:;!,.?:;!]+|[A-Za-z]{1,}|[\'\-]+|[0-9\.]+',title1)
        title
        
         ['新', '鲜', 'invisalign', '现', '123', '摘', '菠', '萝']
    
    • 法2
    myStr='Hello world一般是我们学习一种语言时掌握的第一个操作。'
    engChr=[chr(i) for i in range(65,90+1)]+[chr(i) for i in range(97,122+1)]
    myWordList=[]
    tempStr=''
    for _ in myStr:
        if _ in engChr:
            tempStr+=_
        else:
            myWordList.append(tempStr)
            tempStr = _
    print (myWordList)
    >>>['Hello', ' world', '一', '般', '是', '我', '们', '学', '习', '一', '种', '语', '言', '时', '掌', '握', '的', '第', '一', '个', '操', '作']
    
    

    相关文章

      网友评论

          本文标题:再构建词模型和字模型语料,如何分字和分词?

          本文链接:https://www.haomeiwen.com/subject/salmcqtx.html