美文网首页我爱编程
scrapy从入门到放弃

scrapy从入门到放弃

作者: 寒云暮雨 | 来源:发表于2017-12-11 13:31 被阅读43次

    什么是scrapy

    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

    其最初是为了页面抓取(更确切来说,网络抓取)所设计的, 也可以应用在获取API所返回的数据(例如Amazon Associates Web Services) 或者通用的网络爬虫。

    了解scrapy你需要知道的知识

    1、xpath

    2、正则表达式。

    3、基本的HTML、css知识。

    4、selenium。

    5、Python的基础语法。对于有编程基础的开发人员来说,这个不是必须的,你可以边写边查询。但是个人建议首先要了解Python的基础语法。


    一、第一个scrapy项目(以爬取京东数据为例)

    1、scrapy 命令创建项目

    scrapy startproject jd jd.com:说明,scrapy startproject  项目名称    (这里是空格)  要爬取的网站的域名

    项目目录结构

    jd-|项目的根目录

    --spiders|爬虫代码

    --items.py|爬虫的模型文件,这里定义了爬取的数据的关键数据(个人认为这个非必须,有了之后维护更加方便)

    --middlewares.py|中间件,爬虫爬请求数据可以通过这个进行爬取

    --pipelines.py|管道,这个地方主要和数据存储打交道,把模型定义好的数据进行存储

    --settings.py|项目的配置文件

    scrapy.cfg-项目的主配置文件,定义了项目的入口,爬虫的位置

    相关文章

      网友评论

        本文标题:scrapy从入门到放弃

        本文链接:https://www.haomeiwen.com/subject/avsiixtx.html