美文网首页
scrapy笔记

scrapy笔记

作者: _好孩子 | 来源:发表于2019-03-23 13:24 被阅读0次

    创建项目步骤:

    0:pycharm安装scrapy

    1:创建一个空目录,用来存放项目

    2:File->new projiect->pure python 选择上面创建的目录,点完成

    3.当前项目下点Terminal,进入项目跟目录(默认就是),输入scrapy startproject <projectName>

    4.当前项目下点Terminal,cd进入项目的spider目录(默认目录两级子目录)输入scrapy genspider <spiderName> <域名>

    注意:spiderName和projectName不能重复

    5.编辑item文件

    6.编辑spider文件

    7.运行spider:Terminal中用cd进入 scrapy.cfg所在目录下  执行:scrapy crawl <spiderName> 【-o data.json/data.csv】

    8.如果包403,更改setting文件的USER_AGENT值,值可以在你要爬的网站中找一个请求,复制里面的user_agent值

    9.上面每次要运行spider都要在Terminal输入命令,很麻烦,可以在和settings文件同一文件加下创建main.py文件,加入以下内容:

    from scrapyimport cmdline

    cmdline.execute('scrapy crawl douban_spider'.split())

    通过运行该文件来启动spider

    10.setting文件中打开pipline,配置数据库连接信息;编写pipline文件

    11.http代理设置:

        download_midleware中(注意不是spider_midleware)定义代理类,并在setting文件中配置

    12.useragent伪装

        同上

    相关文章

      网友评论

          本文标题:scrapy笔记

          本文链接:https://www.haomeiwen.com/subject/hhrujqtx.html