美文网首页
2021-04-10 ch6 文本处理绪论

2021-04-10 ch6 文本处理绪论

作者: 柠樂helen | 来源:发表于2021-04-10 22:01 被阅读0次
    文本分析流程

    分词

    image.png

    分词效果怎么评价?

    • 有语料集来算准召率
    • 下游任务来评价

    单词纠错

    第一步:找到拼写错误的单词
    第二步:生成跟上述单词类似的其他单词,当作是候选集
    第三步:根据单词在上下文中的统计信息来排序并选出最好的。

    # 例子:提取词干的方法来纠错
    from nltk.stem.porter import *
    stemmer = PorterStemmer()
    test_strs = ['caresses', 'flies', 'dies', 'mules', 'denied',
        'died', 'agreed', 'owned', 'humbled', 'sized',
        'meeting', 'stating', 'siezing', 'itemization',
        'sensational', 'traditional', 'reference', 'colonizer',
        'plotted']
    singles = [stemmer.stem(word) for word in test_strs]
    print(' '.join(singles)) # doctest: +NORMALIZE_WHITESPACE
    
    # 结果: caress fli die mule deni die agre own humbl 
    # size meet state siez item sensat tradit refer colon plot
    

    相关文章

      网友评论

          本文标题:2021-04-10 ch6 文本处理绪论

          本文链接:https://www.haomeiwen.com/subject/cptnkltx.html