美文网首页程序员
从0搭建区块链资讯网站(6-1)Scrapy抓取数据源准备及网页

从0搭建区块链资讯网站(6-1)Scrapy抓取数据源准备及网页

作者: 子鱼文业 | 来源:发表于2018-07-23 22:52 被阅读0次

    本小节主要介绍Scrapy抓取数据的部分,我们可以选择几个区块链的资讯类网站,然后定向爬取里面的内容做展示,初步选择这么几个网站:

    巴比特 : http://www.8btc.com/

    区块链见闻: http://www.qkljw.com/

    代码编写:

    代码编写主要在Windows上完成,最后提交到服务器上部署即可。

    1. 在本地新建scrapy项目,我选的是D:\Python\scrapy, 用cmd命令行,切换到这个目录下,输入: scrapy startproject blockchain

    命令行 新建项目

    2. Scrapy的基本介绍可以百度了解一下,这里我们直接切换到spider路径下面(D:\Python\scrapy\blockchain\blockchain\spiders),去新建抓取的文件,新建一个linkblock.py的文件

    新建抓取文件

    这个文件就是我们的爬虫文件,所有对网页的操作,都在这个文件里面实现

    打开文件,编写代码,这里的编辑器可以自己选择,我用的Notpad++,这里我们先选择:http://www.8btc.com/ 这个网站进行爬取

    主页

    首先,我们分析一下这个页面,我们发现主页的内容非常多,而且排序比较多样化,而我们本次的目标是爬取区块链相关的文章,所以我们选择:区块链 -->文章,这个地址,http://www.8btc.com/blockchain,这个地址会找到非常标准的文章列表,而且格式很规则,我们就需要这个地方的文章即可

    文章页面

    我用的Chrome浏览器,右键点击文章的标题,选择检查,看一下Elements,可以看到所有的文章都是以非常规整的div标签下

    文章

    我们从这个页面将可以非常容易的获取到他的标题,描述,图片,作者头像,以及文章的详细链接等信息,那么就可以开始我们的爬虫编写了,如下是代码部分:

    查看是否可以获取到

    写完以后保存,cmd切换路径到spider下,输入:scrapy crawl 8bits  

    8bits就是爬虫的名字,结果是啥也没获取到,并且返回了none

    返回

    说明这个网址是做了反爬取策略的,下一节我们将介绍如何反爬取,及设置item,pipeline,setting和最终的入库

    相关文章

      网友评论

        本文标题:从0搭建区块链资讯网站(6-1)Scrapy抓取数据源准备及网页

        本文链接:https://www.haomeiwen.com/subject/ygdqpftx.html