在经历了很麻烦的安装之后,终于能用了
交互模式
命令行直接scrapy shell 加上网址,开启交互模式。
response 显示http响应
view(response)用默认浏览器打开返回的页面
response.xpath("xpath路径").extract() 以列表元素返回
scrapy项目
命令行中 scrapy startproject 项目名,然后就会显示项目所在目录
打开目录查看 tree :目录下有__init__.py items.py middlewares.py pipelines.py settings.py 以及spiders里的__init__.py
items.py有很多的已经定义了的函数,包括使用代理什么的。
middlewares.py则需要当你使用更加高级的用法时才会使用
pipelines.py 管道文件 ,会根据项目名称生成函数。你可以将收集的数据放如管道文件
setting.py 配置文件: bot_name 项目名称 spider_modules 爬虫文件所放的目录
USER_AGENT:可以选择默认的网站
ROBOTSTXT_OBEY 是否遵从网站的反爬取,当然是要关闭的
CONCURRENT_REQUESTS 默认并发量
COOKIES_ENABLED 是否启用cookie,有可能网站会检测cookie所以关闭
DEFAULT_REQUEST_HEADER 默认请求报头
以及爬虫和下载中间件
创建完项目后可以使用scrapy genspider project_name "目标网站" 的方式创建一个basic模板的爬虫,基于spider类,当然还可以指定其他模板。语句执行完后的得到一个project_name.py的文件
在cmd中输入scrapy可以查看可以使用的命令
一个项目里可以有多个爬虫,区别爬虫的其实是每个爬虫类中初始化的那个name 大多数的命令都是需要爬虫名来运行
常用的scrapy crawl name 运行
python2默认使用ascii编码 ,所以出现中文时需要加上
import sys
reload sys
sys.setdefaultencoding("utf-8")
网友评论