美文网首页
Scrapy框架入门实例(爬取腾讯社招招聘信息含代码)

Scrapy框架入门实例(爬取腾讯社招招聘信息含代码)

作者: zhangxuhui | 来源:发表于2018-04-26 10:10 被阅读0次

    Scrapy简单入门及实例讲解

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
    Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

    29-978666187.png
    scrapy介绍1.png
    scrapy执行过程.png
    clipboard.png

    1.安装scrapy包

    pip install scrapy
    

    2.查看scrapy命令

    scrapy

    clipboard.png

    测试爬取数据的根据机器性能

    scrapy bench

    下载响应文件

    scrapy fetch "http://www.baidu.com"

    获取对应文件

    scrapy shell "http://www.baidu.com"

    3.开始创建一个项目

    scrapy startproject zhangxuhui(项目名称)

    4.创建一个爬虫

    scrapy genspider tencent(爬虫名称) "tencent.com" (url)

    5.运行爬虫

    scrapy crawl tencent(爬虫名称)

    6.保存文件

    scrapy crawl tencent(爬虫名称) -o data.json

    源码下载地址:
    https://github.com/itzhangxuhui/scrapy-tencent

    相关文章

      网友评论

          本文标题:Scrapy框架入门实例(爬取腾讯社招招聘信息含代码)

          本文链接:https://www.haomeiwen.com/subject/gqhplftx.html