一.源码
def __init__(self, url, callback=None, method='GET', headers=None, body=None,
cookies=None, meta=None, encoding='utf-8', priority=0,
dont_filter=False, errback=None, flags=None):
一.url(必须)
填写的参数
:请求的地址
数据类型
:str
二.callback
填写的参数
:响应返回的回调函数(必须是类当中或者父类当中的方法),默认为parse
方法
数据类型
:str
三.method
填写的参数
:请求的方式
数据类型
:str
推荐Python大牛在线分享技术 扣qun:855408893
领域:web开发,爬虫,数据分析,数据挖掘,人工智能
零基础到项目实战,7天学习上手做项目
四.headers
填写的参数
:请求头
数据类型
:dict
五.meta
填写的参数
:我是这样理解的理解成传输时候一个类似容器的东西
数据类型
:dict
取
response.meta['key']可以获得设置的value
六.dont_filter
填写的参数
:表明该请求不由调度器过滤。这是当你想使用多次执行相同的请求,忽略重复的过滤器。默认为False.
数据类型
:bool
七.encoding
填写的参数
:编码格式
数据类型
:str
八.errback
填写的参数
:响应返回的错误的回调函数(必须是类当中或者父类当中的方法)默认返回'dealerr'方法
数据类型
:dict
九.body补充点post参数提交
方法一.
scrapy.FormRequest(url=url,formdata=formdata)
#这里的formdata是dict格式的,里面不能存在数字,如果有数字用引号括起来;
方法二.
scrapy.Request(url=url,method="POST",body=formdata)
#这里的formdata必须得是字符串,如果是表单格式,那么需要用json.dumps()转为字符串格式;
十.priority和flags(我没怎么用资料都是网上的)
priority是优先级,(默认为0,越大优先级越大),实际应用中我没用过.
flags网上说指针,我没怎么用,也没深究,如果有知道的人欢迎补充
网友评论