Django

作者: 查无此人asdasd | 来源:发表于2017-09-22 22:59 被阅读0次

    在经历了很麻烦的安装之后,终于能用了

    交互模式

        命令行直接scrapy shell 加上网址,开启交互模式。

        response 显示http响应

        view(response)用默认浏览器打开返回的页面

        response.xpath("xpath路径").extract()   以列表元素返回

    scrapy项目

        命令行中    scrapy startproject 项目名,然后就会显示项目所在目录

        打开目录查看 tree :目录下有__init__.py   items.py   middlewares.py  pipelines.py   settings.py  以及spiders里的__init__.py

      items.py有很多的已经定义了的函数,包括使用代理什么的。

      middlewares.py则需要当你使用更加高级的用法时才会使用

      pipelines.py 管道文件 ,会根据项目名称生成函数。你可以将收集的数据放如管道文件

     setting.py 配置文件:   bot_name 项目名称     spider_modules  爬虫文件所放的目录

                                        USER_AGENT:可以选择默认的网站     

                                        ROBOTSTXT_OBEY 是否遵从网站的反爬取,当然是要关闭的

                                        CONCURRENT_REQUESTS  默认并发量

                                        COOKIES_ENABLED 是否启用cookie,有可能网站会检测cookie所以关闭

                                       DEFAULT_REQUEST_HEADER 默认请求报头

                                       以及爬虫和下载中间件

       创建完项目后可以使用scrapy genspider project_name "目标网站" 的方式创建一个basic模板的爬虫,基于spider类,当然还可以指定其他模板。语句执行完后的得到一个project_name.py的文件

    在cmd中输入scrapy可以查看可以使用的命令

    一个项目里可以有多个爬虫,区别爬虫的其实是每个爬虫类中初始化的那个name  大多数的命令都是需要爬虫名来运行

    常用的scrapy crawl name 运行

    python2默认使用ascii编码 ,所以出现中文时需要加上

    import sys

    reload sys

    sys.setdefaultencoding("utf-8")

    相关文章

      网友评论

          本文标题:Django

          本文链接:https://www.haomeiwen.com/subject/wqzzsxtx.html