从0搭建区块链资讯网站（6-1）Scrapy抓取数据源准备及网页

从0搭建区块链资讯网站（6-1）Scrapy抓取数据源准备及网页

作者: 子鱼文业 | 来源:发表于2018-07-23 22:52 被阅读0次

从0搭建区块链资讯网站（6-1）Scrapy抓取数据源准备及网页
从0搭建区块链资讯网站（3）Linux 系统的Tomcat
从0搭建区块链资讯网站（2）Linux 系统的Java
从0搭建区块链资讯网站（4-1）Linux 系统的Mysql
Scrapy
【工具安装和配置】Linux(Centos)下搭建Scrapy环
Python开发区块链之04如何生成多签名的bitcoin ad
Python开发区块链之03如何生成bitcoin addres
从0搭建区块链资讯网站（6-4）pipelines并入库
区块链招聘信息爬取与分析

本小节主要介绍Scrapy抓取数据的部分，我们可以选择几个区块链的资讯类网站，然后定向爬取里面的内容做展示，初步选择这么几个网站：

巴比特： http://www.8btc.com/

区块链见闻： http://www.qkljw.com/

代码编写：

代码编写主要在Windows上完成，最后提交到服务器上部署即可。

1. 在本地新建scrapy项目，我选的是D:\Python\scrapy，用cmd命令行，切换到这个目录下，输入： scrapy startproject blockchain

命令行

新建项目

2. Scrapy的基本介绍可以百度了解一下，这里我们直接切换到spider路径下面（D:\Python\scrapy\blockchain\blockchain\spiders），去新建抓取的文件，新建一个linkblock.py的文件

新建抓取文件

这个文件就是我们的爬虫文件，所有对网页的操作，都在这个文件里面实现

打开文件，编写代码，这里的编辑器可以自己选择，我用的Notpad++，这里我们先选择：http://www.8btc.com/ 这个网站进行爬取

主页

首先，我们分析一下这个页面，我们发现主页的内容非常多，而且排序比较多样化，而我们本次的目标是爬取区块链相关的文章，所以我们选择：区块链 -->文章，这个地址，http://www.8btc.com/blockchain，这个地址会找到非常标准的文章列表，而且格式很规则，我们就需要这个地方的文章即可

文章页面

我用的Chrome浏览器，右键点击文章的标题，选择检查，看一下Elements，可以看到所有的文章都是以非常规整的div标签下

文章

我们从这个页面将可以非常容易的获取到他的标题，描述，图片，作者头像，以及文章的详细链接等信息，那么就可以开始我们的爬虫编写了，如下是代码部分：

查看是否可以获取到

写完以后保存，cmd切换路径到spider下，输入：scrapy crawl 8bits

8bits就是爬虫的名字，结果是啥也没获取到，并且返回了none

返回

说明这个网址是做了反爬取策略的，下一节我们将介绍如何反爬取，及设置item，pipeline，setting和最终的入库

相关文章

从0搭建区块链资讯网站（6-1）Scrapy抓取数据源准备及网页
本小节主要介绍Scrapy抓取数据的部分，我们可以选择几个区块链的资讯类网站，然后定向爬取里面的内容做展示，初步选...
从0搭建区块链资讯网站（3）Linux 系统的Tomcat
本文为一系列文章，主要是自己从0搭建一个区块链资讯网站，记录在搭建过程中的一些细节，便于以后查看，本节内容主要是开...
从0搭建区块链资讯网站（2）Linux 系统的Java
本文为一系列文章，主要是自己从0搭建一个区块链资讯网站，记录在搭建过程中的一些细节，便于以后查看，本节内容主要是开...
从0搭建区块链资讯网站（4-1）Linux 系统的Mysql
本文为一系列文章，主要是自己从0搭建一个区块链资讯网站，记录在搭建过程中的一些细节，便于以后查看，本节内容主要是开...
Scrapy
Scrapy简介 Scrapy是一个健壮的网络框架，它可以从各种数据源中抓取数据。Scrapy能够识别残缺的HTM...
【工具安装和配置】Linux(Centos)下搭建Scrapy环
Scrapy是一个健壮的网络框架，他可以从各种数据源中抓取数据。作为一个普通的网络用户，你会发现自己经常需要从网站...
Python开发区块链之04如何生成多签名的bitcoin ad
欢迎关注专栏《区块链Blockchain》《Python开发区块链之01环境搭建》《Python开发区块链之0...
Python开发区块链之03如何生成bitcoin addres
欢迎关注专栏《区块链Blockchain》《Python开发区块链之01环境搭建》《Python开发区块链之0...
从0搭建区块链资讯网站（6-4）pipelines并入库
上一节已经将爬虫，items编写完成，本节我们将完成pipelines的编写，以及入库的操作，如下是详细步骤： ...
区块链招聘信息爬取与分析
最近在研究区块链，闲来无事抓取了拉勾网上450条区块链相关的招聘信息。过程及结果如下。拉勾网爬取首先是从拉勾网...

网友评论

程序员

本文标题：从0搭建区块链资讯网站（6-1）Scrapy抓取数据源准备及网页

本文链接：https://www.haomeiwen.com/subject/ygdqpftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

程序员

关于我们|服务条款|联系我们|从0搭建区块链资讯网站（6-1）Scrapy抓取数据源准备及网页|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！