美文网首页与Linda一起100天写作爬虫Scrapy
Day1-用scrapy爬《盗墓笔记》章节

Day1-用scrapy爬《盗墓笔记》章节

作者: 小红鱼 | 来源:发表于2017-03-04 16:21 被阅读78次

    最近学习了scrapy,于是准备拿《盗墓笔记》来练手,谁叫我是三叔的脑残粉呢。

    1.分析原站

    原站:http://www.lread.net/read/70/,分析源代码,发现结构还是比较简单。我们需要的是章节名,每一章的链接。

    2.开始下手吧

    新建一个工作目录,然后用命令行创建工程,工程名为daomubiji。

    >scrapy startproject daomubiji

    然后用IDE打开你的工程,会得到如下的目录结构:

    在spiders文件中创建一个python文件,叫daomu.py,做为爬虫的脚本。内容如下:

    在命令行里运行一下试试:

    >cd daomubiji

    >scrapy crawl daomu

    可以看到章节和对应的url已经打印出来了。

    3.使用管道Pipelines

    在工程结构中还有几个文件是干嘛的?

    items.py:定义需要抓取并后期处理的数据。

    settings.py:配置scrapy,从而修改user-agent,设定爬取间隔时间,设置代理,配置各种中间件等。

    pipeline.py:对已抓取的内容的后期处理,可以写入本地文件或者数据库。

    在items.py中定义一个class来描述我要抓取的内容:

    修改爬虫的代码:

    在pipeline.py文件中,把爬虫传过来的item保存到一个result.csv文件中:

    重新运行:

    >scrapy crawl daomu

    检查result.csv,盗墓笔记的章节信息就被爬下来啦:

    To Be Continued...

    相关文章

      网友评论

      本文标题:Day1-用scrapy爬《盗墓笔记》章节

      本文链接:https://www.haomeiwen.com/subject/zkbdgttx.html