Django

作者: 查无此人asdasd | 来源:发表于2017-09-22 22:59 被阅读0次

在经历了很麻烦的安装之后,终于能用了

交互模式

    命令行直接scrapy shell 加上网址,开启交互模式。

    response 显示http响应

    view(response)用默认浏览器打开返回的页面

    response.xpath("xpath路径").extract()   以列表元素返回

scrapy项目

    命令行中    scrapy startproject 项目名,然后就会显示项目所在目录

    打开目录查看 tree :目录下有__init__.py   items.py   middlewares.py  pipelines.py   settings.py  以及spiders里的__init__.py

  items.py有很多的已经定义了的函数,包括使用代理什么的。

  middlewares.py则需要当你使用更加高级的用法时才会使用

  pipelines.py 管道文件 ,会根据项目名称生成函数。你可以将收集的数据放如管道文件

 setting.py 配置文件:   bot_name 项目名称     spider_modules  爬虫文件所放的目录

                                    USER_AGENT:可以选择默认的网站     

                                    ROBOTSTXT_OBEY 是否遵从网站的反爬取,当然是要关闭的

                                    CONCURRENT_REQUESTS  默认并发量

                                    COOKIES_ENABLED 是否启用cookie,有可能网站会检测cookie所以关闭

                                   DEFAULT_REQUEST_HEADER 默认请求报头

                                   以及爬虫和下载中间件

   创建完项目后可以使用scrapy genspider project_name "目标网站" 的方式创建一个basic模板的爬虫,基于spider类,当然还可以指定其他模板。语句执行完后的得到一个project_name.py的文件

在cmd中输入scrapy可以查看可以使用的命令

一个项目里可以有多个爬虫,区别爬虫的其实是每个爬虫类中初始化的那个name  大多数的命令都是需要爬虫名来运行

常用的scrapy crawl name 运行

python2默认使用ascii编码 ,所以出现中文时需要加上

import sys

reload sys

sys.setdefaultencoding("utf-8")

相关文章

网友评论

      本文标题:Django

      本文链接:https://www.haomeiwen.com/subject/wqzzsxtx.html