美文网首页
网页爬虫的业务抽象

网页爬虫的业务抽象

作者: ffffffffffffff | 来源:发表于2015-04-23 16:51 被阅读0次
爬虫动作

网页爬虫需要获取网页特定的HTML标签内容和内容中的资源文件,分解下来动作有:

  1. 拿网页HTML
  2. 抓标签(通过 id、标签名、name、class、自定义attr等条件匹配)
  3. 下载资源
流程

将文本内容和资源内容的获取分离,先获取文本,最后集中处理资源文件,在修改和实现UI时会方便。资源一般会用到线程下载,因为单线程会使用户界面进入假死状态,下载是提供进度条会是一个友好的交互选择。

相关文章

网友评论

      本文标题:网页爬虫的业务抽象

      本文链接:https://www.haomeiwen.com/subject/muvufttx.html