美文网首页
day5、scrapy抓取糗事百科

day5、scrapy抓取糗事百科

作者: 是东东 | 来源:发表于2018-08-21 20:25 被阅读0次

    qiubai.py

    # -*- coding: utf-8 -*-
    import scrapy
    from fiveScrapy.items import FivescrapyItem
    
    
    #创建出一个爬虫类,继承自scrapy的Spider爬虫(基础爬虫),下载器下载下来的数据都会传递到整个类中处理
    class QiubaiSpider(scrapy.Spider):
        # 爬虫的名字,我们在调用爬虫的时候要根据爬虫的name来寻找爬虫
        name = 'qiubai' #没有name引擎调用不起来
        #域名列表。允许访问的域名,在下载器下载数据的时候首先会考察当前下载的这个url是否在该域名列表的某个域名,如果不在会停止下载
        allowed_domains = ['qiushibaike.com']
        #下载器在被调度的时候,首先会让调度器从这里取url,然后比照域名列表是否有该域名,如果验证成功,就会下载(下载指请求),一般情况下这个列表只存放一条数据
        start_urls = ['http://www.qiushibaike.com/']
    
    
        #这个成员方法非常重要,它是一个回调方法,当下载器下载完数据以后就会回调该方法,并且把其下载下来的数据放至response这个参数中,response是响应对象。
        def parse(self, response): #用于解析网页
            print("____________________________________")#通过这个显示查找到以下打印内容
            # print(response.text)
            #自带Xpath和bs4的解析机制
            #通过xpath
            qiushi_list = response.xpath("//div[starts-with(@id, 'qiushi_tag_')]")
            # print(qiushi_list)
            #遍历解析出来的哪些糗事列表
            items = []
            for qiushi in qiushi_list:
            #     #创建模型工具
                item = FivescrapyItem()
                item["author"] = qiushi.xpath("./div[@class='author clearfix']//h2/text()").extract()[0]
            #     # print(item["author"])
                item["author_img"] = qiushi.xpath("./div[@class='author clearfix']//img/@src").extract()[0]
                item["content"] = qiushi.xpath(".//div[@class='content']/span/text()").extract()[0]
            #     # 由于图片不是每个人都有,需处理图片
                imgs = qiushi.xpath(".//div[@class='thumb']/a/img/@src").extract()
                if len(imgs) == 0:
                    item["img_url"] = ""
                else:
                    item["img_url"] = imgs[0]
            #     # print(item)
                items.append(item)
            # ##这里需要返回一个可迭代对象,这个对象将会被传递到管道中
            # #返回的这个值可以通过指令输出到本地的json、xml、csv等格式的文件中取。
            # #还可以通过管道的相关组件返回到管道中进行处理(注:这里需要在settings.py文件中,打开我们管道组件)
            return items
    

    items.py

    import scrapy
    
    
    class FivescrapyItem(scrapy.Item):
        #这个类主要是用于对我们爬取的内容进行模型化,它的本质是一个模型字典
        author = scrapy.Field()
        author_img = scrapy.Field()
        content = scrapy.Field()
        img_url = scrapy.Field()
    

    pipeline.py

    #这个类主要用于对爬虫返回的数据进行迭代
    class FivescrapyPipeline(object):
    
        # 这个方法是每一个迭代都会被调用,每次被调用都会把其迭代那个item取出来
        def process_item(self, item, spider):
    
            # print("ok")
            print(item["author"])
            return item
    

    settings.py

    #启动管道组件
    ITEM_PIPELINES = {
        #代表管道组件的位置,值代表其优先级,数字越小越优先
       'fiveScrapy.pipelines.FivescrapyPipeline': 300,
    }
    

    相关文章

      网友评论

          本文标题:day5、scrapy抓取糗事百科

          本文链接:https://www.haomeiwen.com/subject/pvcsiftx.html