1.scrapy开始start_url为post请求:
以前的做法:在spider里面定义好start_urls,会调用父类scrapy.Spider的start_requests,这样只适用get请求,当遇到post请求的时候该怎么办呢?
现在的做法:重写父类的start_requests方法
# 当请求参数是json格式
def start_requests(self):
data = {"request": {"body": {"page": 1, "row": 10}}}
# FormRequest 是Scrapy发送POST请求的方法
yield scrapy.Request(self.start_url, method="POST",
body=json.dumps(data),
headers={'Content-Type': 'application/json'})
# 当请求参数是form表单
def start_requests(self):
form_data = {'account':'jack123@gmail.com', 'password':'123456'} # 表单数据,字典格式,注意数字也要用引号引起来,否则报错。
yield scrapy.FormRequest(url, formdata=form_data)
⚠️form请求时必须是字符串格式的对象,否则会出现以下问题:
对象中含有int类型
整数类型.png
⚠️form请求时遇到多个相同的参数时,会出现覆盖,scrapy.FormRequest传入的参数必须是键值对,这个时候要把相同key的数据保存在列表中,源码中是这样的:
FormRequest类
对参数进行编码
这里显示是遍历键值对,所以修改为:
修改传递参数
2.scrapy爬取时,parse必须返回的是scrapy.request或者dict:
def parse(self, response):
# 解析具体的产品
selector = Selector(response)
for product_item in selector.xpath("//tbody/tr"):
item = BankproductItem()
item['bankCode'] = 'cib'
item['channel'] = 'web'
item['proCode'] = re.search('lccp(.*?).png', product_item.xpath('td[9]/img/@src').extract()[0]).group(1)
# 判断属否有超链接
proName = re.search('<a[\S\s]*>(.*?)</a>', product_item.xpath('td[1]').extract()[0])
item['proName'] = proName.group(1) if (proName != None) else product_item.xpath('td[1]/text()').extract()[0]
item['incomeRate'] = product_item.xpath('td[7]/text()').extract()[0]
item['currency'] = product_item.xpath('td[4]/text()').extract()[0]
item['startDate'] = product_item.xpath('td[2]/text()').extract()[0]
item['endDate'] = product_item.xpath('td[3]/text()').extract()[0]
# 大额客户参考净收益率(客户要求放在next_income_rate)
item['nextIncomeRate'] = product_item.xpath('td[8]/text()').extract()[0]
# 判断是否含有超链接
href_num = len(product_item.xpath('td[1]/a/@href').extract())
if href_num > 0:
next_page_url = "{}{}".format(self.base_url, product_item.xpath('td[1]/a/@href').extract()[0])
yield scrapy.Request(next_page_url, meta={'item': item}, callback=self.parse_product_detail,
dont_filter=True)
else:
yield item
pass
3.获取response对象的中的request属性中的参数:
#获取body属性,字节转化为字符
str(response.request.body,encoding="utf-8")
4.解析table表格中遇到多行合并的情况(遇到:xpath helper插件和python xpath有区别):
# 判断是否是购买渠道
title = title_item.xpath("td[13]/text()").extract()[0]
if title == '购买渠道':
# 兼容有的情况下多行合并的情况
if title_num == child_num:
item['sellChannel'] = product_item.xpath("td[13]/text()").extract()[0]
else:
siblings = len(product_item.xpath("preceding-sibling::tr"))
for i in range(1, siblings):
# 依次向上寻找兄弟节点
sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
if len(sibling.css("td")) == title_num:
item['sellChannel'] = sibling.xpath("td[13]/text()").extract()[0]
break
else:
if title_num == child_num:
item['sellChannel'] = product_item.xpath("td[15]/text()").extract()[0]
else:
# 兄弟节点的个数
siblings = len(product_item.xpath("preceding-sibling::tr"))
for i in range(1, siblings):
# 依次向上寻找兄弟节点
sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
if len(sibling.css("td")) == title_num:
item['sellChannel'] = sibling.xpath("td[15]/text()").extract()[0]
break
5.python中定义静态的方法:
@staticmethod
,可以通过类名直接调用
6.遍历一个list集合,怎么可以得到索引下标
# enumerate将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列
for index, product_item in enumerate(table_selector.xpath("tr[not(contains(td,'产品名称'))]")):
7.python使用pymongo操作mongodb,设置不返回_id
字段的状态设置为08.字符串分割
使用python内部字符串的split方法,只能支持单个分隔str.split('/')
,要使用多个分隔符,可以使用re库,re.split('/|=')
,不同的分割符号之间必须使用|分割开来。
9.多个xpath可以一起使用,中间用|分割
# 多个xpath路径可以一起使用
item['incomeRate'] = self.__get_xpath_value(product_item,"td[9]/strong/text()|td[9]/text()").strip()
网友评论