scrapy爬虫练习-3-27

作者: Python小学生邬恒 | 来源:发表于2020-03-27 22:00 被阅读0次

scrapy爬虫练习-3-27
Pycharm+Scrapy框架运行爬虫糗事百科（无items数
scrapy爬虫框架学习之路-3-24
Scrapy笔记
scrapy学习之爬虫练习平台爬取
scrapy爬虫
深度爬虫
爬虫框架常见命令（善忘者）
(六)Scrapy爬虫框架的认识(读书笔记)|Python网络爬
2018-05-13

今天，没有练习什么，重新熟悉了一下有关selenium定位的两个关键的方法。xpath和css selector。这两种方法不仅能在selenium中使用，也能够很多解析网页的库中使用，且很简单，容易学。所以就出现了一个问题，没有需求，没需求就没有供给，就没有目标，就没有动力。我想既然没有什么需求，不如自己创造的需求，或者说创造点问题，借此来锻炼自己的技术。

在github上有很多爬虫项目，我看了一下简介，不少是需要模拟登陆的，这涉及到验证码的绕过，我一直奉行着能拖就拖的原则，越是要紧的东西，越是喜欢拖延（不太好）。在这些项目中有一个是看起来比较容易的。其需求如下：“可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中”。

我觉得我也能做，于是乎就想试试看，我的要求如下：

爬取豆瓣所有的电影。
需要包含电影的名字，导演名，主要演员，评分，片长，上映日期、国家，类型。
使用selenium渲染器去爬取。
保存为mysql版本，和csv版本。

截图如下：

在这里插入图片描述

其中我认为比较麻烦的一点是需要从主页中爬取出链接，然后在跳转去爬取主要信息，这里还涉及到滚动翻页的问题。

项目主要就是使用selenium，这个是一个自动化测试工具，也能够将代码中JavaScript和css效果渲染到页面上。这样就能够获得动态页面的效果。做到“所见即所得”。selenium类似的渲染工具在爬虫中很常用，经常用于绕过验证码和一些反爬虫。不过也有缺点，就是会降低爬虫效率。

为什么要爬取电影呢？我认为这是之前小项目的一个延伸，同时也能够提高自己的爬虫水平，做到循序渐进（就是懒）。同时又可以将selenium这个工具使用的更熟练。

结果会怎么呢？明天见。