美文网首页
scrapy爬虫练习-3-27

scrapy爬虫练习-3-27

作者: Python小学生邬恒 | 来源:发表于2020-03-27 22:00 被阅读0次

今天,没有练习什么,重新熟悉了一下有关selenium定位的两个关键的方法。xpath和css selector。这两种方法不仅能在selenium中使用,也能够很多解析网页的库中使用,且很简单,容易学。所以就出现了一个问题,没有需求,没需求就没有供给,就没有目标,就没有动力。我想既然没有什么需求,不如自己创造的需求,或者说创造点问题,借此来锻炼自己的技术。

在github上有很多爬虫项目,我看了一下简介,不少是需要模拟登陆的,这涉及到验证码的绕过,我一直奉行着能拖就拖的原则,越是要紧的东西,越是喜欢拖延(不太好)。在这些项目中有一个是看起来比较容易的。其需求如下:“可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中”。

我觉得我也能做,于是乎就想试试看,我的要求如下:

  1. 爬取豆瓣所有的电影。
  2. 需要包含电影的名字,导演名,主要演员,评分,片长,上映日期、国家,类型。
  3. 使用selenium渲染器去爬取。
  4. 保存为mysql版本,和csv版本。

截图如下:


在这里插入图片描述 在这里插入图片描述

其中我认为比较麻烦的一点是需要从主页中爬取出链接,然后在跳转去爬取主要信息,这里还涉及到滚动翻页的问题。

项目主要就是使用selenium,这个是一个自动化测试工具,也能够将代码中JavaScript和css效果渲染到页面上。这样就能够获得动态页面的效果。做到“所见即所得”。selenium类似的渲染工具在爬虫中很常用,经常用于绕过验证码和一些反爬虫。不过也有缺点,就是会降低爬虫效率。

为什么要爬取电影呢?我认为这是之前小项目的一个延伸,同时也能够提高自己的爬虫水平,做到循序渐进(就是懒)。同时又可以将selenium这个工具使用的更熟练。

结果会怎么呢?明天见。

相关文章

网友评论

      本文标题:scrapy爬虫练习-3-27

      本文链接:https://www.haomeiwen.com/subject/gotduhtx.html