美文网首页
文本分类和情感分类(1)

文本分类和情感分类(1)

作者: 刘亭_6d15 | 来源:发表于2019-04-08 16:08 被阅读0次

    一、文本分类


    1554706625(1).png

    如图所示,文本分类的大体流程如上:

    1. 文本的预处理
      本文不涉及(能考虑到的会涉及,标点符号处理、停用词处理、中文分词等等)
    2. 文本表示
      如何将文本表示为计算机可以计算的数值。(这些数值应体现文档相关的一些特性,或者由于目的是应用于分类,则这些数值也应该具有不同文档间的区分性。)
      主要的思想是,在一个特征空间中,针对不同的特征(作为坐标轴)对文档进行相关的表示(各个点的值),利用表示后的向量,可以计算向量间的距离(内积、余弦值等)从而对文档的相似度进行度量。
      文档的向量空间表示如下图所示:


      image.png

      其中tj则是特征,wij为对应的点。
      从上面的表述可知,文本的表示涉及两点,一个是空间中坐标轴的选取(特征的选取),再就是向量空间中的点(在对应坐标轴上的大小)-特征权重。
      特征选择——选定利于文档分类的坐标轴
      就是选取哪些词或者短语
      选取的依据:文档频率、信息增益、卡方统计量、互信息
      特征权重——对应坐标轴上的点(值的大小)
      大小的依据:tf,idf tf-idf等等

    3. 分类器
      1)朴素贝叶斯
      基于DF(特征是否在文档中出现)
      基于TF(特征在文档中出现的次数)
      2)SVM

    二、情感分类
    1.依据机器学习进行分类(针对文中提到的小点子进行总结)
    1)有监督的分类
    加入主观句摘要,加入其中(增加了特征的维度)
    2)半监督分类
    针对标注较少的文本,加入了协同过滤(稍后文章分析下这种方法)
    3)无监督分类
    利用种子词(应该是已经有情感倾销的词语),计算文档中词语与种子词的点信息(度量词的情感倾向),然后通过词语计数,来计算文档的情感性倾向。
    通过Hownet的语义分析抽取单词的情感信息。
    利用LDA进行浅层的语义分析。
    情感分析相关的评测涉及观点抽取和要素抽取。

    相关文章

      网友评论

          本文标题:文本分类和情感分类(1)

          本文链接:https://www.haomeiwen.com/subject/qaouiqtx.html