美文网首页
网页抓取提前应对网站改版

网页抓取提前应对网站改版

作者: 佑岷 | 来源:发表于2019-01-22 16:47 被阅读0次

From《learning Scrapy》

  • 避免使用数组序号,尽可能找到离目标标签近的元素;
    B //*[@id="myid"]/div/div/div[1]/div[2]/div/div[1]/div[1]/a/img
    G //div[@class="thumbnail"]/a/img
    
    B行影响取值的xpath元素很多,样式稍微调整有可能就取不到值。
  • 使用class属性取值不一定好,class本身就是用于定义样式的,因此改版最有可能改变的就是class值;
  • 数据指向的class优于样式指向的class;
    class="Green" vs class="departure-time"
    
    Green颜色属性在界面改版时改变的概率,远大于departure-time。
  • id指向通常是最可靠的。

相关文章

网友评论

      本文标题:网页抓取提前应对网站改版

      本文链接:https://www.haomeiwen.com/subject/cvqrjqtx.html