美文网首页
某网站段子爬取

某网站段子爬取

作者: Lonelyroots | 来源:发表于2022-06-12 11:33 被阅读0次

    logging日志模块

    import scrapy
    from myspider01.items import QiushibaikeItem
    import logging

    logger = logging.getLogger(name) # 日志爬虫脚本名

    class QiushibaikeSpider(scrapy.Spider):
    name = 'qiushibaike'
    allowed_domains = ['qiushibaike.com']
    start_urls = ['https://www.qiushibaike.com/text/']

    def parse(self, response):
        div_list = response.xpath('//div[@id="content"]/div/div[2]/div')  # 得到所有段子
        for div in div_list:
            # 得到每个段子
            author = div.xpath('./div[1]/a[2]/h2/text()')[0].extract()  # 得到第一个Select对象data的数据
            author = author.replace('/n', '')
    
            content = div.xpath('./a[1]/div/span//text()').extract()
            content = ''.join(content)
            content = content.replace('/n', '')
            content = content.replace('"', '“')
            content = content.replace("'", '‘')
    
            # print(author, content)
    
            item = QiushibaikeItem()
            item['author'] = author
            item['content'] = content
    
            # yield item  # 把每一个段子发送给管道
    
            logger.error(item)
    

    这里用到了scrapy框架,详情请点击Python(七十六)scrapy框架入门(下)
    文章到这里就结束了!希望大家能多多支持Python(系列)!六个月带大家学会Python,私聊我,可以问关于本文章的问题!以后每天都会发布新的文章,喜欢的点点关注!一个陪伴你学习Python的新青年!不管多忙都会更新下去,一起加油!

    Editor:Lonelyroots

    相关文章

      网友评论

          本文标题:某网站段子爬取

          本文链接:https://www.haomeiwen.com/subject/nvygmrtx.html