分类

作者: dreampai | 来源:发表于2019-01-30 18:30 被阅读0次

    第 14 章:余弦定律和新闻分类

    计算机根本读不懂新闻,计算机的本质上只能做快速计算。

    计算向量余弦的技巧

    image.png
    • 坟墓部分不需要重复计算,向量的长度计算保存起来
    • 只考虑向量中的非零元素,计算的复杂度取决于两个向量中非零元素个数的最小值。
    • 删除虚词,不仅可以提高计算速度,对新闻分类的准确性也大有好处,因为虚词的权重其实是一种噪音,干扰分类的正常进行。
      位置的加权,出现在文本不同位置的词在分类时的重要性也不相同。显然,出现- - 在标题中的词对主题的贡献远比出现在新闻正文中的重要
    • 出现在文章开头和结尾的词比出现在中间的词重要
      要对标题和重要位置的词进行额外加权,以提高文本分类的准确性。

    第 15 章:矩阵运算和文本处理中两个分类问题

    文本和词汇的矩阵

    最常见的两个分类问题:

    • 将文本按主题归类
    • 将词汇表中的字词按意思归类
      新闻分类乃至各种分类其实是一个聚类问题,关键是计算两篇新闻的相似程度。
      奇异值分解(SVD)
      每一行对应一篇文章,每一列对应一个词,如果有 N 个词,M 篇文章,则得到一个 M*N 的矩阵:
      image.png
      奇异值分解,就是把上面这样一个大矩阵,分解成三个小矩阵相乘。相应的存储量和计算量都会小很多。
    image.png
    • 第一个矩阵 X 是对词进行分类的一个结果。它的每一行表示一个词,每一列表示一个语义相近的词类,简称语义类。这一行的每个非零元素表示这个词在每个语义类中的重要性,数值越大越相关。


      image.png
    • 矩阵 Y 是文本的分类结果。它的每一列对应一篇文本,每一行对应一个主题。这一列的每个元素表示这篇文本在不同主题中的相关性。


      image.png
    • 中间的矩阵则表示词的类和文章的类之间的相关性
      image.png
      只要对关联矩阵 A 进行一次奇异值分解,就可以同时完成近义词分类和文章的分类,另外,还能得到每个主题和每个词的语义类之间的相关性。

    在实际应用中,可以先进行奇异值分解,得到粗分类结果,再利用计算向量余弦的方法,在粗分类结果的基础上,进行几次迭代,得到比较精确的结果。这样,这两个方法一先一后结合使用,可以充分利用两者的优势,既节省时间,又能获得很好的准确性。

    第 20 章:最大熵模型

    最大熵原理和最大熵模型

    最大熵:要保留全部的不确定性,将风险降到最小。
    最大熵原理指出:对一个随机事件的概率分布预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布均匀,预测的风险最小。因为这时概率分布的信息熵最大,“最大熵模型”。


    image.png

    第 21 章:拼音输入法的数学原理

    个性化的语言模型

    image.png
    image.png

    第 23 章:布隆过滤器

    相关文章

      网友评论

          本文标题:分类

          本文链接:https://www.haomeiwen.com/subject/ywnxsqtx.html