美文网首页蜂采
python+scrapy爬虫总结

python+scrapy爬虫总结

作者: 风一样的存在 | 来源:发表于2019-01-23 14:11 被阅读403次
    1.scrapy开始start_url为post请求:

    以前的做法:在spider里面定义好start_urls,会调用父类scrapy.Spider的start_requests,这样只适用get请求,当遇到post请求的时候该怎么办呢?
    现在的做法:重写父类的start_requests方法

    # 当请求参数是json格式
    def start_requests(self):
    
            data = {"request": {"body": {"page": 1, "row": 10}}}
    
            # FormRequest 是Scrapy发送POST请求的方法
            yield scrapy.Request(self.start_url, method="POST",
                                 body=json.dumps(data),
                                 headers={'Content-Type': 'application/json'})
    
    # 当请求参数是form表单
    def start_requests(self):
        form_data = {'account':'jack123@gmail.com', 'password':'123456'}  # 表单数据,字典格式,注意数字也要用引号引起来,否则报错。
        yield scrapy.FormRequest(url, formdata=form_data) 
    

    ⚠️form请求时必须是字符串格式的对象,否则会出现以下问题:


    对象中含有int类型
    整数类型.png

    ⚠️form请求时遇到多个相同的参数时,会出现覆盖,scrapy.FormRequest传入的参数必须是键值对,这个时候要把相同key的数据保存在列表中,源码中是这样的:


    FormRequest类
    对参数进行编码
    这里显示是遍历键值对,所以修改为:
    修改传递参数
    2.scrapy爬取时,parse必须返回的是scrapy.request或者dict:
    def parse(self, response):
            # 解析具体的产品
            selector = Selector(response)
            for product_item in selector.xpath("//tbody/tr"):
                item = BankproductItem()
                item['bankCode'] = 'cib'
                item['channel'] = 'web'
                item['proCode'] = re.search('lccp(.*?).png', product_item.xpath('td[9]/img/@src').extract()[0]).group(1)
    
                # 判断属否有超链接
                proName = re.search('<a[\S\s]*>(.*?)</a>', product_item.xpath('td[1]').extract()[0])
                item['proName'] = proName.group(1) if (proName != None) else product_item.xpath('td[1]/text()').extract()[0]
    
                item['incomeRate'] = product_item.xpath('td[7]/text()').extract()[0]
                item['currency'] = product_item.xpath('td[4]/text()').extract()[0]
                item['startDate'] = product_item.xpath('td[2]/text()').extract()[0]
                item['endDate'] = product_item.xpath('td[3]/text()').extract()[0]
                # 大额客户参考净收益率(客户要求放在next_income_rate)
                item['nextIncomeRate'] = product_item.xpath('td[8]/text()').extract()[0]
    
                # 判断是否含有超链接
                href_num = len(product_item.xpath('td[1]/a/@href').extract())
                if href_num > 0:
                    next_page_url = "{}{}".format(self.base_url, product_item.xpath('td[1]/a/@href').extract()[0])
                    yield scrapy.Request(next_page_url, meta={'item': item}, callback=self.parse_product_detail,
                                         dont_filter=True)
                else:
                    yield item
            pass
    
    3.获取response对象的中的request属性中的参数:
    #获取body属性,字节转化为字符
    str(response.request.body,encoding="utf-8")
    
    4.解析table表格中遇到多行合并的情况(遇到:xpath helper插件和python xpath有区别):
     # 判断是否是购买渠道
            title = title_item.xpath("td[13]/text()").extract()[0]
            if title == '购买渠道':
                # 兼容有的情况下多行合并的情况
                if title_num == child_num:
                    item['sellChannel'] = product_item.xpath("td[13]/text()").extract()[0]
                else:
                    siblings = len(product_item.xpath("preceding-sibling::tr"))
                    for i in range(1, siblings):
                        #  依次向上寻找兄弟节点
                        sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                        if len(sibling.css("td")) == title_num:
                            item['sellChannel'] = sibling.xpath("td[13]/text()").extract()[0]
                            break
            else:
                if title_num == child_num:
                    item['sellChannel'] = product_item.xpath("td[15]/text()").extract()[0]
                else:
                    # 兄弟节点的个数
                    siblings = len(product_item.xpath("preceding-sibling::tr"))
                    for i in range(1, siblings):
                        # 依次向上寻找兄弟节点
                        sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                        if len(sibling.css("td")) == title_num:
                            item['sellChannel'] = sibling.xpath("td[15]/text()").extract()[0]
                            break
    
    5.python中定义静态的方法:

    @staticmethod,可以通过类名直接调用

    6.遍历一个list集合,怎么可以得到索引下标
    # enumerate将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列
    for index, product_item in enumerate(table_selector.xpath("tr[not(contains(td,'产品名称'))]")):
    
    7.python使用pymongo操作mongodb,设置不返回_id
    字段的状态设置为0
    8.字符串分割

    使用python内部字符串的split方法,只能支持单个分隔str.split('/'),要使用多个分隔符,可以使用re库,re.split('/|='),不同的分割符号之间必须使用|分割开来。

    9.多个xpath可以一起使用,中间用|分割
    # 多个xpath路径可以一起使用
    item['incomeRate'] = self.__get_xpath_value(product_item,"td[9]/strong/text()|td[9]/text()").strip()
    

    相关文章

      网友评论

        本文标题:python+scrapy爬虫总结

        本文链接:https://www.haomeiwen.com/subject/ppcwcqtx.html