文本建模
基于词袋模型的文章关键字提取、相似度分析。
TF-IDF是一种词袋模型,作用是在一个由多个文章组成的文集中计算出每个单词对其所在文本的重要程度。
词汇处理
1.中文分词
基于规则和基于统计
2.相似词挖掘
主题模型
1.三层模型
文档-主题-单词
2.非负矩阵分解(NMF)
将一个矩阵近似转换为两个矩阵相乘形式的想法
3.潜在语义分析(LSA)
LSA是矩阵奇异值分解(SVD)的最早应用之一。
4.隐含迪利克雷分配(LDA)
基于词袋模型的文章关键字提取、相似度分析。
TF-IDF是一种词袋模型,作用是在一个由多个文章组成的文集中计算出每个单词对其所在文本的重要程度。
1.中文分词
基于规则和基于统计
2.相似词挖掘
1.三层模型
文档-主题-单词
2.非负矩阵分解(NMF)
将一个矩阵近似转换为两个矩阵相乘形式的想法
3.潜在语义分析(LSA)
LSA是矩阵奇异值分解(SVD)的最早应用之一。
4.隐含迪利克雷分配(LDA)
本文标题:第八章 自然语言处理
本文链接:https://www.haomeiwen.com/subject/szomzqtx.html
网友评论