美文网首页
采集川大公管学院教师信息0529

采集川大公管学院教师信息0529

作者: DearIreneLi | 来源:发表于2017-05-29 17:07 被阅读0次

    一、采集前准备#

    在采集之前,首先进入四川大学公共管理学院的师资队伍页面查看页面显示结构,并用开发者工具“ctrl+shift+i”工具查看其代码排列规则,确定采集字段内容。
    基本思想是先在初始页面采集姓名、职称、专业、邮箱,然后通过采集的详情页面链接进入详情页,并采集其基本简历,代表性研究成果,获奖情况、科研项目、人才培养。共10个字段。
    过程的操作指导来源于scrapy的官方文档以及老师同学的帮助。

    二、新建scrapy项目#

    首先新建一个scrapy项目,代码如下:

    cd venv
    scrapy startproject teachersinfo
    
    

    三、编写items.py文件#

    然后编写项目的items文件,在这个文件中定义将要采集的字段。按照规定格式编写之后,这里的字段将直接用于后面步骤中的采集过程,且便于数据的传递。
    代码如下:

    # -*- coding: utf-8 -*-
    
    # Define here the models for your scraped items
    #
    # See documentation in:
    # http://doc.scrapy.org/en/latest/topics/items.html
    
    import scrapy
    
    
    class TeachersinfoItem(scrapy.Item):
        # 教师名字
        name = scrapy.Field()
        # 教师职称
        title = scrapy.Field()
        # 教师院系
        major = scrapy.Field()
        # 教师邮箱
        mail = scrapy.Field()
        # 教师简介
        resume = scrapy.Field()
        # 教师简介
        achieve = scrapy.Field()
        # 教师代表性研究成果
        prize = scrapy.Field()
        # 教师获奖情况
        project = scrapy.Field()
        # 教师科研项目
        training = scrapy.Field()
        # 教师人才培养
        pass
    

    四、编写爬虫#

    在项目之下,可以看到基本结构:

    teachersinfo的子集结构

    在spiders之下新建一个爬虫,命名为:teachers_spider.py

    import scrapy
    import hashlib
    
    from scrapy.selector import Selector
    from teachersinfo.items import TeachersinfoItem
    
    
    class TeachersinfoSpider(scrapy.Spider):
      name = "teachersinfo"
      start_urls = [
        'http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1_page=1',
      ]
    
      def parse(self, response):
        for info in response.xpath("//ul[@class='teachers_ul mt20 cf']/li"):
          item = TeachersinfoItem()
          item['name'] = info.xpath("div[@class='r fr']/h3/text()").extract_first()
          item['title'] = info.xpath("div[@class='r fr']/p/text()").extract_first()
          item['major'] = info.xpath("div[@class='r fr']/div[@class='desc']/p[1]/text()").extract_first().split("E-mail:")[-1]
          item['mail'] = info.xpath("div[@class='r fr']/div[@class='desc']/p[2]/text()").extract_first()
          href = info.xpath("div[@class='l fl']/a/@href").extract_first()
          yield scrapy.Request(response.urljoin(href), meta={'item': item}, callback=self.parse_more_info)
    
        next_page = response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()-1]/a/@href").extract_first()
        last_page = response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()]/a/@href").extract_first()
        if last_page:
            next_page = "http://ggglxy.scu.edu.cn/"+next_page
            yield scrapy.http.Request(next_page, callback=self.parse)
    
      @staticmethod
      def parse_more_info(response):
        item = response.meta['item']
        item['resume'] = response.xpath("//div[@class='desc']/text()").extract()
        item['achieve'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[2]//text()').extract())
        item['prize'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[3]//text()').extract())
        item['project'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[4]//text()').extract())
        item['training'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[5]//text()').extract())
        yield item
    

    通过其中meta方法的传递参数,将基础页面的内容与详情页面的内容联系起来,不用重复采集两次教师的姓名以及职称。

    五、执行爬虫,并保存文件#

    直接用一句代码实现这两步过程,将结果保存为csv格式。

    scrapy crawl teachersinfo -o infos.csv

    其结果显示如下:

    爬虫teachersinfo执行的结果

    将infos.csv文件下载并打开,发现excel内容为乱码,于是采用记事本打开并另存,将编码方式换成ANSI,然后再用excel打开即可呈现结果。显示如下:

    csv文件内容 csv文件内容

    六、补充#

    关于翻页###

    在进行分页时,尝试使用其他方式,其中xpath的sibling是一个很好的方式。
    将翻页代码更改一下:

    next_page = response.xpath('/html/body/div[4]/div[2]/div[1]/div[2]/li[@class]/following-sibling::*[1]//@href').extract_first()
        if next_page is not None:
          next_page = response.urljoin(next_page)
          yield scrapy.http.Request(next_page, callback=self.parse)
    

    保存成csv文件,用相同转编码的方式查看,可知可以得到相同的结果。

    haha.csv

    相关文章

      网友评论

          本文标题:采集川大公管学院教师信息0529

          本文链接:https://www.haomeiwen.com/subject/hhtlfxtx.html