4.4 向量空间模型
向量空间模型是将文本转换为向量的代数模型,主要用于自然语言处理、文本分析等领域。目前,空间向量模型广泛用于各个领域,它是将文本直接转换为数学问题的最直接方式。
4.4.1 词袋模型
词袋模型是一种基于广泛应用于自然语言处理和信息检索的词语模型,不考虑词语之间的语法及词语之间的相互顺序。

4.2.2 TF-IDF算法
向量空间模型是很多算法应用的理论基础,其中一个典型的应用是在一堆文件中选择属于每个文件最具有代表性的词汇,该算法的名称为TF-IDF,它是一种常用于检索系统的加权技术。其核心思想是:文件中每个词的重要性与它在当前文件中出现的次数成正比,但是与它在其他文件中出现的次数成反比。
用数学公式表达TF-IDF的IF(词频),如下



网友评论