(一)实验目的
本数据爬取实验的目的在于通过四川大学校方官网,收集获取四川大学公共管理学院全职教师的基本数据并进行相关处理,以掌握基本的数据爬取技能。
(二)实验基本要求
实验要求通过数据抓取工具,获取公共管理学院全职教师的基本信息。包括该教师的姓名、照片、职位等基本介绍,以及教师的代表性科研成果、教师获奖情况、教师的人才培养情况、科研项目等基本信息。
(三)基本实验条件
简易数据爬取工具:八爪鱼采集器,数据处理工具:Microsoft Office Excel 2007。
(四)实验分工
我们小组有5位成员,分别为:骆芷珊、李兴佳、胡云、何春、万若曦。鉴于所要爬取的数据有多个方面内容,我们根据爬取数据的内容进行简要分工如下:
万若曦:完成教师简要信息的爬取,如教师名称、职位、基本介绍、照片的信息爬取。
李兴佳:完成公共管理学院教师所有代表性研究成果的信息爬取。
胡云:完成公共管理学院教师人才培养的相关信息爬取。
何春:完成公共管理学院教师获奖情况的信息爬取。
骆芷珊:完整公共管理学院教师具体从事的科研项目信息爬取。
(五)实验具体过程
1.到八爪鱼官网处下载最新版本的八爪鱼软件
2.登录后选择自定义采集(向导模式)
选择向导模式.png
3.根据向导提示按照以下顺序完成设置:
-
输入网址
输入网址.png -
选择要采集的网页类型(列表或表格/网页列表中每个链接页的详细内容/单网页内容,本次爬取需要爬取的是教师的详细信息中的“科研项目”,故选择第二种类型)
选择采集的网页类型.png -
配置链接列表(按顺序点击第一、第二个链接)
配置链接列表.png -
选择是否需要翻页(教师信息共有17页,所以本次选择翻页,点击“下一页”按钮为翻页按钮并设置翻页次数为“17”)
翻页设置.png -
选择要爬取的数据项
字段选取.png -
完成,开始采集数据
开始采集.png
在具体的数据爬取操作过程中,各个同学根据分工,所进行数据采集时,需要注意的细节如下:
- 直接点击可配置抓取的模板,即需要爬取的数据如教师的姓名,获奖情况的具体内容。将鼠标放到“配置抓取模板”的提取的内容上,可以检查是否选择到完整的数据。如有问题,可以直接删除该字段。然后选择下一步。
- 教师的图片、教师的名称等。需要用户一一选中,并定义相应的字段,如:选中图片定义“教师照片”字段,选中教师名称,定义“教师名称”字段,并设置需要采集文本数据,还是图片数据。
- 用户之前有建立相关的任务,可以直接用以将本次任务命名为【四川大学公共管理学院全职教师】。系统显示成功保存本次任务之后,点击启动本地采集,即跳入爬取数据的界面。本次任务大概经过2-3分钟,即可获得所要爬取的数据。可以选择即刻导出数据,也可稍候导出。点击导出数据,134条数据需要花费14积分八爪鱼免费注册用户最开始会有2000积分。用户可以直接免费的导出数据,格式选择为Excel2007即可。最后,可以选择将本次数据爬取的结果清空,或者保存。
4.软件开始自动采集数据,并生成不同数据的采集结果预览
数据采集过程进行中.png
采集完成.png
09.png
- 然后再选择其它需要采集的元素,进行相同的操作。 最终爬取数据的流程图如图所示: 07.png
5.导出数据为Excel文件
(六)实验数据与处理结果
(1)所获得的实验数据
根据分工,数据挖掘操作结束后,我们得到了5张关系表,分别为教师基本信息表、教师代表性研究成果表、教师人才培养信息表、教师获奖情况信息表、教师从事科研项目信息表。如下图:
教师代表性研究成果.png教师简要信息.png
(2)数据处理结果
由于每个表的记录都是对公共管理学院全职教师的不同方面信息描述,即五张表之间可通过姓名为外键进行连接,故可将五张表进行自然连接形成一张表,即对公共管理学院全职教师的详细信息描述表。
下图为整合后,公共管理学院全职教师信息描述表的部分内容:
教师详细信息.png
网友评论