QUANTAXIS.SPIDER 爬虫部分

作者: yutiansut | 来源:发表于2017-02-05 19:03 被阅读104次

QUANTAXIS 爬虫部分

目前的QUANTAXIS爬虫是用python的scrapy框架写的,为了运行JavaScript,还使用了selenium+phantomjs作为浏览器内核.爬完的数据都存放在mongodb里面.

原始的quantaxis_spider架构

之后可能会向纯JavaScript爬虫去转变,但目前先把python下的爬虫框架梳理一下.

python -m pip install -i https://pypi.doubanio.com/simple scrapy
python -m pip install -i https://pypi.doubanio.com/simple selenium

安装scrapy,selenium

安装完在命令行输入scrapy

scrapy startproject projectName(你的爬虫名)
cd projectName

安装项目

安装完了会有几个项目

-项目名称
  --scrapy.cfg(配置文件)
  --爬虫名命名的文件夹
      --items.py
      --middleware.py
      --pipelines.py
      --settings.py
      --_init.py
      --spider(文件夹)
          --_init_.py
          --爬的网站名命名的python文件.py

第一层目录

第二层目录

第三层目录

运行爬虫在第一层

scrapy crawl 爬虫名

组件都在第二层目录里
items.py 主要是保存的管道
middleware.py 中间件,一般而言,只用他的下载中间件
pipelines.py 和数据库交互的管道
settings.py 设置文件

第三层目录下
主要是核心逻辑,从哪里爬(start_url)
爬到以后的响应处理(从response里面取出,selector去选择你需要的内容),一般是正则化或者是xpath取出
处理后的存储(items的引入)

具体的案例
QUANTAXIS_SPIDER

网友评论

本文标题：QUANTAXIS.SPIDER 爬虫部分

本文链接：https://www.haomeiwen.com/subject/mpieittx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

QUANTAXIS.SPIDER 爬虫部分

QUANTAXIS 爬虫部分

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

QUANTAXIS

量化