文本特征向量化方法

作者: Sudden | 来源:发表于2018-07-06 18:43 被阅读24次

    01 NB的第一步

    在之前的文章中,我们学习了一种分类方法:朴素贝叶斯,朴素贝叶斯特别适合文本分类,比如:

    1. 根据邮件内容,判断哪些是垃圾邮件
    2. 根据新闻内容,判断新闻情感是正面、负面还是中立
      ……

    如果想要使用朴素贝叶斯模型去给文本数据分类,就必须对文本数据进行处理。

    怎么处理呢?一般是这样的:

    1. 对文本分词(作为特征),比如把这句话“我是天才”分词为“我”“是”“天才”(这里面的学问就更多了,本文不赘述)
    2. 统计各词在句子中是否出现(词集模型)
    3. 统计各词在句子中出现次数(词袋模型)
    4. 统计各词在这个文档的TFIDF值(词袋模型+IDF值)

    本文主要讲解并实践三种文本特征向量化方法:

    词集模型:one-hot编码向量化文本
    词袋模型+IDF:TFIDF向量化文本
    哈希向量化文本

    在以下三种向量化方法中,待处理的文本都长这样:

    02 one-hot编码向量化文本

    两种方式实现,本文主要讲解自定义函数实现:

    • 自定义函数 doc2onehot_matrix()
    • sklearn DictVectorizer
    # 自定义方法:文本转onehot编码
    """
    说明:
    文档格式txt,每行表示一个训练样本(一句话,一段文字都可以)
    文档如果是不分行的一段话,可以用nltk.tokenize.sent_tokenize(text)将文档分句,然后把每句话当作一个样本进行编码
    """
    import numpy as np
    import pandas as pd
    import jieba
    
    def doc2onthot_matrix():
        # 读取待编码的文件
        file_path=input("请输入待编码文件路径及文件名:")
        with open(file_path,encoding="utf-8") as f:
            docs=f.readlines()
        
        # 将文件每行分词,分词后的词语放入words中
        words=[]
        for i in range(len(docs)):
            docs[i]=jieba.lcut(docs[i].strip("\n"))
            words+=docs[i]
        
        # 找出分词后不重复的词语,作为词袋,是后续onehot编码的维度
        vocab=sorted(set(words),key=words.index)
        
        # 建立一个M行V列的全0矩阵,M问文档样本数,这里是行数,V为不重复词语数,即编码维度
        V=len(vocab)
        M=len(docs)
        onehot=np.zeros((M,V))
        
        for i,doc in enumerate(docs):
            for word in doc:
                if word in vocab:
                    pos=vocab.index(word)
                    onehot[i][pos]=1
        onehot=pd.DataFrame(onehot,columns=vocab)
        return onehot
    
    我们将待处理文本输入到代码中,得到如下输出,可以看到,每句话都统计出各词语是否出现

    03 TF-IDF文本向量化

    同样的,也可以通过两种方式实现,本文主要讲解自定义函数实现:

    • 自定义函数 doc2tfidf_matrix()
    • sklearn TfidfVectorizer,CountVectorizer,TfidfTransformer
    import numpy as np
    import pandas as pd
    import math
    import jieba
    
    def doc2tfidf_matrix():
        # 读取待编码的文件
        file_path=input("请输入待编码文件路径及文件名:")
        with open(file_path,encoding="utf-8") as f:
            docs=f.readlines()
        
        # 将文件每行分词,分词后的词语放入words中
        words=[]
        for i in range(len(docs)):
            docs[i]=jieba.lcut(docs[i].strip("\n"))
            words+=docs[i]
        
        # 找出分词后不重复的词语,作为词袋
        vocab=sorted(set(words),key=words.index)
        
        # 建立一个M行V列的全0矩阵,M问文档样本数,这里是行数,V为不重复词语数,即编码维度
        V=len(vocab)
        M=len(docs)
        onehot=np.zeros((M,V)) # 二维矩阵要使用双括号
        tf=np.zeros((M,V))
        
        for i,doc in enumerate(docs):
            for word in doc:
                if word in vocab:
                    pos=vocab.index(word)
                    onehot[i][pos]=1
                    tf[i][pos]+=1 # tf,统计某词语在一条样本中出现的次数
    
        row_sum=tf.sum(axis=1) # 行相加,得到每个样本出现的词语数
        # 计算TF(t,d)
        tf=tf/row_sum[:,np.newaxis] #分母表示各样本出现的词语数,tf为单词在样本中出现的次数,[:,np.newaxis]作用类似于行列转置
        # 计算DF(t,D),IDF
        df=onehot.sum(axis=0) # 列相加,表示有多少样本包含词袋某词
        idf=list(map(lambda x:math.log10((M+1)/(x+1)),df))
        
        # 计算TFIDF
        tfidf=tf*np.array(idf)
        tfidf=pd.DataFrame(tfidf,columns=vocab)
        return tfidf
    
    我们将待处理文本输入到代码中,得到如下输出,可以看到,每句话都统计出各词语的TFIDF值

    03 哈希向量化文本

    调用sklearn HashingVectorizer实现。

    什么时候使用哈希向量化呢?

    TfidfVectorizer在执行时,需要先将词袋矩阵放入内存,再计算各位置单词的TFIDF值,如果词袋维度大,将占用过多内存,效率低,此时可以使用哈希向量化。

    哈希向量化可以缓解TfidfVectorizer在处理高维文本时内存消耗过大的问题。

    哈希技巧是无固定状态的(stateless),它把任意的数据块映射到固定数目(n_features)的位置,并且保证相同的输入一定产生相同的输出,不同的输入尽可能产生不同的输出。它可以用并行,线上,流式传输创建特征向量,因为它初始化是不需要文集输入的。(额,其实这段话我目前还不太明白,待学习~~)

    04 总结

    朴素贝叶斯模型特别适合分类文本数据,但分类之前需要对文本提取特征并向量化。

    本文总结了三种文本特征向量化的方法:onehot,TFIDF,Hashing,这是使用/自定义朴素贝叶斯模型的前提。之后我们会进行下一步:朴素贝叶斯模型的调用和自定义(造个轮子?)

    相关文章

      网友评论

        本文标题:文本特征向量化方法

        本文链接:https://www.haomeiwen.com/subject/bupbuftx.html