美文网首页
sklearn的分词方式

sklearn的分词方式

作者: thirsd | 来源:发表于2018-01-28 15:57 被阅读0次

    从sklearn的sklearn.feature_extraction.text提取的分词语法:

    
    def build_tokenizer(doc):
    
        token_pattern=r"(?u)\b\w\w+\b"
    
        token_pattern = re.compile(token_pattern)
    
        return token_pattern.findall(doc)
    
    tokens=build_tokenizer("you like who? who-is-you")
    
    print [tokens] 
    

    输出为:
    [['you', 'like', 'who', 'who', 'is', 'you']]

    相关文章

      网友评论

          本文标题:sklearn的分词方式

          本文链接:https://www.haomeiwen.com/subject/ykqzaxtx.html