主题网络爬虫
传统网络爬虫与基于主题网络爬虫对比主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接 ,保留主题相关的链接并将其放入待抓取的 U RL 队列中 ;然后根据一定的搜索策略从队列中选择下一步要抓取的网页 URL , 并重复上述过程 , 直到达到系统的某一条件时停止。
基于本体的主题网络爬虫
根据网页内容关键词判定主题相关性的方法精确度不高,会遗漏相关网页或者产生诸多噪声网页。基于本体的目的是对领域概念及概念间关系的明确定义来提高判定精度。
流程:网页抓取->网页预处理->主题过滤->链接分析
1.网页抓取:从种子URL集出发,分配多个spider程序并行地进行网页的抓取
2.网页预处理:从页面中提取链接、元数据、正文、标题、摘要等
3.主题过滤:使用向量空间模型,本质是统计页面中出现给定关键词的次数,出现的次数越多则越相关。但有个弊端:概念和关键词是多对多的关系,同时还存在子类和父类的关系,对于这些情况处理的效果不是很好。
主题向量处理过程
4.链接分析
爬虫在取回页面前对链接进行一次过滤以剔除明显偏离主题的链接,将有效提高主题网络爬虫的效率和可靠性。
具体实施时 , 可以取链接周围的文本来确定目标页面是否和主题相关。考虑链接 p ->q , p 中有若干链接标记 , 文本 1 <a href =q >锚文</a >文本 2 , 统计在文本 1 、锚文本 、文本 2 出现指定主题的关键词次数 , 从而判断目标页面是否和主题相关来决定是否取回目标页面 。文本 1 和文本 2 的长度可以经过统计和测试取一个合适的长度 。
网友评论