美文网首页
使用Python爬取网络数据并使用SSAS进行数据分析

使用Python爬取网络数据并使用SSAS进行数据分析

作者: NEO_X | 来源:发表于2019-02-16 15:06 被阅读0次

    主要内容

    使用Python分别爬取百度搜索页面结果和智联招聘的6大类职业信息,数据主要使用SQLServer SSAS进行分析,并有少量的使用Python分析结果。

    对于百度搜索的数据和智联招聘的页面数据是截然不同的方式,百度主要是动态的生成数据而在智联招聘上基本是静态的数据,所以这两个是具有一定的代表性的。

    对于展示主要使用Excel,Excel作为SQLServer 数据分析中重要角色,易于操作使用。对于数据只有图形化后,就变的极有吸引力,所以本文档也主要是分析图表进行说明。

    百度搜索页面数据抓取

    百度搜索页面数据动态生成,且在抓取过程中需要对广告推广项进行排除。对于抓取的数据为,每个搜索项的说明数据及所在搜索页面中的位置,搜索的数据单元项如下


    1.jpg

    将抓取到数据,构成文本文件,后使用Python的pycloudtag模块和jieba分词模块,进行关键字统计,制作标签云,效果如下:


    2.jpg
    对于提取到的出现频率较高的关键词有:
    地区 北京,深圳,杭州,武汉等

    技术 Java,Php,Linux,Html5等
    机构 智联,达内,青鸟,58,52CTO等

    智联招聘完整信息抓取

    对于招聘网站的数据,以静态数据为主,并且结构良好,所以非常适合爬虫进行爬取,本次爬取了7000多个页面的数据,并存储在数据库22万条数据。
    爬取的内容为6大类的职业信息: IT运维;IT质量管理;互联网开发;软件;系统集成;运营管理,其中可分为118个具体职业,样例数据如下:


    3.jpg

    而具体的抽取数据的数据项,包含15个数据项,数据样例如下:


    4.jpg
    通过抓取的数据构建SSAS多维数据集进行数据分析,对于构造的多维数据模型如下:
    度量值为:工资上下限 ;维度有5个为:城市,工种类型,企业,任职要求,时间维度
    6.jpg

    前期数据情况分析结果

    使用事件SSIS事件探测任务
    通过SSIS“数据事件探查任务”组件进行对数据构成进行初步分析,这里列举一些具有一些代表性的分析数据: 工作地址;企业规模;企业类型;招聘要求 的分析结果(针对IT运维;IT质量管理;互联网开发;软件;系统集成;运营管理6大类的分析)
    工作地点:排名前四位的北 上 深 广 ,即也反应这四地需求量最大


    7.jpg

    多维数据集分析结果

    在构建好多维数据集后,即可进行使用excel进行分析。通过Excel连接到多维数据集后,进行简易的操作,达到数据图表联动,数据钻取,实现多维度结合分析,效果图如下

    各不同工作类型间最低工资和最高工资的对比


    8.jpg
    9.jpg

    多维度筛选分析

    10.jpg

    在Excel中连接多维数据集,进行数据挖掘

    首先需要有一台SSAS服务器,在Excel中按照了数据挖掘插件。通过在SSAS数据挖掘功能,进行对在Excel中进行数据展示
    成功安装插件后,如下:

    11.jpg

    源码地址 https://github.com/Shadow-Hunter-X/zhilian-data-mine

    相关文章

      网友评论

          本文标题:使用Python爬取网络数据并使用SSAS进行数据分析

          本文链接:https://www.haomeiwen.com/subject/ulobeqtx.html