主要内容
使用Python分别爬取百度搜索页面结果和智联招聘的6大类职业信息,数据主要使用SQLServer SSAS进行分析,并有少量的使用Python分析结果。
对于百度搜索的数据和智联招聘的页面数据是截然不同的方式,百度主要是动态的生成数据而在智联招聘上基本是静态的数据,所以这两个是具有一定的代表性的。
对于展示主要使用Excel,Excel作为SQLServer 数据分析中重要角色,易于操作使用。对于数据只有图形化后,就变的极有吸引力,所以本文档也主要是分析图表进行说明。
百度搜索页面数据抓取
百度搜索页面数据动态生成,且在抓取过程中需要对广告推广项进行排除。对于抓取的数据为,每个搜索项的说明数据及所在搜索页面中的位置,搜索的数据单元项如下
1.jpg
将抓取到数据,构成文本文件,后使用Python的pycloudtag模块和jieba分词模块,进行关键字统计,制作标签云,效果如下:
2.jpg
对于提取到的出现频率较高的关键词有:
地区 北京,深圳,杭州,武汉等
技术 Java,Php,Linux,Html5等
机构 智联,达内,青鸟,58,52CTO等
智联招聘完整信息抓取
对于招聘网站的数据,以静态数据为主,并且结构良好,所以非常适合爬虫进行爬取,本次爬取了7000多个页面的数据,并存储在数据库22万条数据。
爬取的内容为6大类的职业信息: IT运维;IT质量管理;互联网开发;软件;系统集成;运营管理,其中可分为118个具体职业,样例数据如下:
3.jpg
而具体的抽取数据的数据项,包含15个数据项,数据样例如下:
4.jpg
通过抓取的数据构建SSAS多维数据集进行数据分析,对于构造的多维数据模型如下:
度量值为:工资上下限 ;维度有5个为:城市,工种类型,企业,任职要求,时间维度
6.jpg
前期数据情况分析结果
使用事件SSIS事件探测任务
通过SSIS“数据事件探查任务”组件进行对数据构成进行初步分析,这里列举一些具有一些代表性的分析数据: 工作地址;企业规模;企业类型;招聘要求 的分析结果(针对IT运维;IT质量管理;互联网开发;软件;系统集成;运营管理6大类的分析)
工作地点:排名前四位的北 上 深 广 ,即也反应这四地需求量最大
7.jpg
多维数据集分析结果
在构建好多维数据集后,即可进行使用excel进行分析。通过Excel连接到多维数据集后,进行简易的操作,达到数据图表联动,数据钻取,实现多维度结合分析,效果图如下
各不同工作类型间最低工资和最高工资的对比
8.jpg
9.jpg
多维度筛选分析
10.jpg在Excel中连接多维数据集,进行数据挖掘
首先需要有一台SSAS服务器,在Excel中按照了数据挖掘插件。通过在SSAS数据挖掘功能,进行对在Excel中进行数据展示
成功安装插件后,如下:
网友评论