第 14 章:余弦定律和新闻分类
计算机根本读不懂新闻,计算机的本质上只能做快速计算。
计算向量余弦的技巧
image.png- 坟墓部分不需要重复计算,向量的长度计算保存起来
- 只考虑向量中的非零元素,计算的复杂度取决于两个向量中非零元素个数的最小值。
- 删除虚词,不仅可以提高计算速度,对新闻分类的准确性也大有好处,因为虚词的权重其实是一种噪音,干扰分类的正常进行。
位置的加权,出现在文本不同位置的词在分类时的重要性也不相同。显然,出现- - 在标题中的词对主题的贡献远比出现在新闻正文中的重要 - 出现在文章开头和结尾的词比出现在中间的词重要
要对标题和重要位置的词进行额外加权,以提高文本分类的准确性。
第 15 章:矩阵运算和文本处理中两个分类问题
文本和词汇的矩阵
最常见的两个分类问题:
- 将文本按主题归类
- 将词汇表中的字词按意思归类
新闻分类乃至各种分类其实是一个聚类问题,关键是计算两篇新闻的相似程度。
奇异值分解(SVD)
每一行对应一篇文章,每一列对应一个词,如果有 N 个词,M 篇文章,则得到一个 M*N 的矩阵:
image.png
奇异值分解,就是把上面这样一个大矩阵,分解成三个小矩阵相乘。相应的存储量和计算量都会小很多。
-
第一个矩阵 X 是对词进行分类的一个结果。它的每一行表示一个词,每一列表示一个语义相近的词类,简称语义类。这一行的每个非零元素表示这个词在每个语义类中的重要性,数值越大越相关。
image.png -
矩阵 Y 是文本的分类结果。它的每一列对应一篇文本,每一行对应一个主题。这一列的每个元素表示这篇文本在不同主题中的相关性。
image.png - 中间的矩阵则表示词的类和文章的类之间的相关性
image.png
只要对关联矩阵 A 进行一次奇异值分解,就可以同时完成近义词分类和文章的分类,另外,还能得到每个主题和每个词的语义类之间的相关性。
在实际应用中,可以先进行奇异值分解,得到粗分类结果,再利用计算向量余弦的方法,在粗分类结果的基础上,进行几次迭代,得到比较精确的结果。这样,这两个方法一先一后结合使用,可以充分利用两者的优势,既节省时间,又能获得很好的准确性。
第 20 章:最大熵模型
最大熵原理和最大熵模型
最大熵:要保留全部的不确定性,将风险降到最小。
最大熵原理指出:对一个随机事件的概率分布预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布均匀,预测的风险最小。因为这时概率分布的信息熵最大,“最大熵模型”。
image.png
第 21 章:拼音输入法的数学原理
个性化的语言模型
image.pngimage.png
网友评论