美文网首页
《自己动手写网络爬虫》第三篇笔记

《自己动手写网络爬虫》第三篇笔记

作者: ve_故食 | 来源:发表于2017-05-30 12:21 被阅读35次

    第三篇:自己动手挖掘Web数据

    存储链接之间的关系,小型的可以放在内存中,大的在内存数据库中建立链接关系。

    Web图包含出度和入度信息,可以根据这个对链接进行排序。

    PageRank算法,一个网页重要程度依赖于它的入链,高等级的文件链接到网页,则此网页的等级也高。

    HITS算法,网页赋两个值hub和authority ... ...

    去掉重复的文档:a> 可以比较checksum值判断完全相同的文档。可以用MD5算法计算checksum值。 b> 文档结构化再生成语义指纹,

    分类与聚类:机器学习。

    相关文章

      网友评论

          本文标题:《自己动手写网络爬虫》第三篇笔记

          本文链接:https://www.haomeiwen.com/subject/huhrfxtx.html