美文网首页QUANTAXIS量化
QUANTAXIS.SPIDER 爬虫部分

QUANTAXIS.SPIDER 爬虫部分

作者: yutiansut | 来源:发表于2017-02-05 19:03 被阅读104次

    QUANTAXIS 爬虫部分

    目前的QUANTAXIS爬虫是用python的scrapy框架写的,为了运行JavaScript,还使用了selenium+phantomjs作为浏览器内核.爬完的数据都存放在mongodb里面.


    原始的quantaxis_spider架构

    之后可能会向纯JavaScript爬虫去转变,但目前先把python下的爬虫框架梳理一下.

    python -m pip install -i https://pypi.doubanio.com/simple scrapy
    python -m pip install -i https://pypi.doubanio.com/simple selenium
    

    安装scrapy,selenium


    安装完在命令行输入scrapy
    scrapy startproject projectName(你的爬虫名)
    cd projectName
    
    
    安装项目

    安装完了会有几个项目

    -项目名称
      --scrapy.cfg(配置文件)
      --爬虫名命名的文件夹
          --items.py
          --middleware.py
          --pipelines.py
          --settings.py
          --_init.py
          --spider(文件夹)
              --_init_.py
              --爬的网站名命名的python文件.py
    
    第一层目录 第二层目录
    第三层目录

    运行爬虫在第一层

    scrapy crawl 爬虫名
    

    组件都在第二层目录里
    items.py 主要是保存的管道
    middleware.py 中间件,一般而言,只用他的下载中间件
    pipelines.py 和数据库交互的管道
    settings.py 设置文件

    第三层目录下
    主要是核心逻辑,从哪里爬(start_url)
    爬到以后的响应处理(从response里面取出,selector去选择你需要的内容),一般是正则化或者是xpath取出
    处理后的存储(items的引入)

    具体的案例
    QUANTAXIS_SPIDER

    相关文章

      网友评论

        本文标题:QUANTAXIS.SPIDER 爬虫部分

        本文链接:https://www.haomeiwen.com/subject/mpieittx.html