第三篇:自己动手挖掘Web数据
存储链接之间的关系,小型的可以放在内存中,大的在内存数据库中建立链接关系。
Web图包含出度和入度信息,可以根据这个对链接进行排序。
PageRank算法,一个网页重要程度依赖于它的入链,高等级的文件链接到网页,则此网页的等级也高。
HITS算法,网页赋两个值hub和authority ... ...
去掉重复的文档:a> 可以比较checksum值判断完全相同的文档。可以用MD5算法计算checksum值。 b> 文档结构化再生成语义指纹,
分类与聚类:机器学习。
网友评论