1 利用TF-IDF与余弦相似性自动提取关键词
2 Kmeans聚类
3 文本标签路径比抽取新闻网页正文、时间、标题等信息
4 基于改进编辑距离的字符串相似度求解算法
5 新闻中完整性对象的识别
6 基于互信息和左右信息熵的短语提取
7 C-value、D-value算法
这一部分分享的主要是之前在研究NLP时,涉及的一些算法,在这里做过总结。另,上面的算法都是亲自代码实现过的。
1 利用TF-IDF与余弦相似性自动提取关键词
2 Kmeans聚类
3 文本标签路径比抽取新闻网页正文、时间、标题等信息
4 基于改进编辑距离的字符串相似度求解算法
5 新闻中完整性对象的识别
6 基于互信息和左右信息熵的短语提取
7 C-value、D-value算法
涉及内容有点多,慢慢来,平常心 。。。。。。
END
网友评论