停用词(stop words):是指自然语言处理当中会被过滤掉的一些单词,一般是指无意义的定冠词,不定冠词(a,an,the), 连接词(of,but...),这个并没有统一的标准,而是针对具体的任务和文档来说,那些高频经常出现的词语因为对具体任务来说其实没有帮助(比如文档分类,几乎每个文档都有上面提到的词语,对分类没有任何帮助),所以在处理的时候会去掉这些单词,来提升针对性任务的结果。
词袋(bag of words):假定对于一个文本,忽略其词序,语法和句法,仅将其看作是一个词集合,文本中每个词的出现都是独立的,不依赖于其他词是否出现。
LDA模型(Latent Dirichlet Allocation):将文档中每篇文档的主题以概率分布的形式给出,然后通过分析分到同一主题下的文档抽取其实际的主题,根据主题分布进行主题聚类或者文本分类。
网友评论