一、采集前准备#
在采集之前,首先进入四川大学公共管理学院的师资队伍页面查看页面显示结构,并用开发者工具“ctrl+shift+i”工具查看其代码排列规则,确定采集字段内容。
基本思想是先在初始页面采集姓名、职称、专业、邮箱,然后通过采集的详情页面链接进入详情页,并采集其基本简历,代表性研究成果,获奖情况、科研项目、人才培养。共10个字段。
过程的操作指导来源于scrapy的官方文档以及老师同学的帮助。
二、新建scrapy项目#
首先新建一个scrapy项目,代码如下:
cd venv
scrapy startproject teachersinfo
三、编写items.py文件#
然后编写项目的items文件,在这个文件中定义将要采集的字段。按照规定格式编写之后,这里的字段将直接用于后面步骤中的采集过程,且便于数据的传递。
代码如下:
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class TeachersinfoItem(scrapy.Item):
# 教师名字
name = scrapy.Field()
# 教师职称
title = scrapy.Field()
# 教师院系
major = scrapy.Field()
# 教师邮箱
mail = scrapy.Field()
# 教师简介
resume = scrapy.Field()
# 教师简介
achieve = scrapy.Field()
# 教师代表性研究成果
prize = scrapy.Field()
# 教师获奖情况
project = scrapy.Field()
# 教师科研项目
training = scrapy.Field()
# 教师人才培养
pass
四、编写爬虫#
在项目之下,可以看到基本结构:
teachersinfo的子集结构在spiders之下新建一个爬虫,命名为:teachers_spider.py
import scrapy
import hashlib
from scrapy.selector import Selector
from teachersinfo.items import TeachersinfoItem
class TeachersinfoSpider(scrapy.Spider):
name = "teachersinfo"
start_urls = [
'http://ggglxy.scu.edu.cn/index.php?c=article&a=type&tid=18&page_1_page=1',
]
def parse(self, response):
for info in response.xpath("//ul[@class='teachers_ul mt20 cf']/li"):
item = TeachersinfoItem()
item['name'] = info.xpath("div[@class='r fr']/h3/text()").extract_first()
item['title'] = info.xpath("div[@class='r fr']/p/text()").extract_first()
item['major'] = info.xpath("div[@class='r fr']/div[@class='desc']/p[1]/text()").extract_first().split("E-mail:")[-1]
item['mail'] = info.xpath("div[@class='r fr']/div[@class='desc']/p[2]/text()").extract_first()
href = info.xpath("div[@class='l fl']/a/@href").extract_first()
yield scrapy.Request(response.urljoin(href), meta={'item': item}, callback=self.parse_more_info)
next_page = response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()-1]/a/@href").extract_first()
last_page = response.xpath("//div[@class='pager cf tc pt10 pb10 mobile_dn']/li[last()]/a/@href").extract_first()
if last_page:
next_page = "http://ggglxy.scu.edu.cn/"+next_page
yield scrapy.http.Request(next_page, callback=self.parse)
@staticmethod
def parse_more_info(response):
item = response.meta['item']
item['resume'] = response.xpath("//div[@class='desc']/text()").extract()
item['achieve'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[2]//text()').extract())
item['prize'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[3]//text()').extract())
item['project'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[4]//text()').extract())
item['training'] = "".join(response.xpath('/html/body/div[3]/div[2]/div/div[5]//text()').extract())
yield item
通过其中meta方法的传递参数,将基础页面的内容与详情页面的内容联系起来,不用重复采集两次教师的姓名以及职称。
五、执行爬虫,并保存文件#
直接用一句代码实现这两步过程,将结果保存为csv格式。
scrapy crawl teachersinfo -o infos.csv
其结果显示如下:
爬虫teachersinfo执行的结果将infos.csv文件下载并打开,发现excel内容为乱码,于是采用记事本打开并另存,将编码方式换成ANSI,然后再用excel打开即可呈现结果。显示如下:
csv文件内容 csv文件内容六、补充#
关于翻页###
在进行分页时,尝试使用其他方式,其中xpath的sibling是一个很好的方式。
将翻页代码更改一下:
next_page = response.xpath('/html/body/div[4]/div[2]/div[1]/div[2]/li[@class]/following-sibling::*[1]//@href').extract_first()
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.http.Request(next_page, callback=self.parse)
保存成csv文件,用相同转编码的方式查看,可知可以得到相同的结果。
haha.csv
网友评论