今天,没有练习什么,重新熟悉了一下有关selenium定位的两个关键的方法。xpath和css selector。这两种方法不仅能在selenium中使用,也能够很多解析网页的库中使用,且很简单,容易学。所以就出现了一个问题,没有需求,没需求就没有供给,就没有目标,就没有动力。我想既然没有什么需求,不如自己创造的需求,或者说创造点问题,借此来锻炼自己的技术。
在github上有很多爬虫项目,我看了一下简介,不少是需要模拟登陆的,这涉及到验证码的绕过,我一直奉行着能拖就拖的原则,越是要紧的东西,越是喜欢拖延(不太好)。在这些项目中有一个是看起来比较容易的。其需求如下:“可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中”。
我觉得我也能做,于是乎就想试试看,我的要求如下:
- 爬取豆瓣所有的电影。
- 需要包含电影的名字,导演名,主要演员,评分,片长,上映日期、国家,类型。
- 使用selenium渲染器去爬取。
- 保存为mysql版本,和csv版本。
截图如下:
其中我认为比较麻烦的一点是需要从主页中爬取出链接,然后在跳转去爬取主要信息,这里还涉及到滚动翻页的问题。
项目主要就是使用selenium,这个是一个自动化测试工具,也能够将代码中JavaScript和css效果渲染到页面上。这样就能够获得动态页面的效果。做到“所见即所得”。selenium类似的渲染工具在爬虫中很常用,经常用于绕过验证码和一些反爬虫。不过也有缺点,就是会降低爬虫效率。
为什么要爬取电影呢?我认为这是之前小项目的一个延伸,同时也能够提高自己的爬虫水平,做到循序渐进(就是懒)。同时又可以将selenium这个工具使用的更熟练。
结果会怎么呢?明天见。
网友评论