美文网首页分析lianjia数据
2019-08-14 分析lianjia数据(二)——SPSS数

2019-08-14 分析lianjia数据(二)——SPSS数

作者: 阿康666666 | 来源:发表于2019-08-14 22:27 被阅读0次

    前面写了用python分析lianjia数据,实际上也可用SPSS进行处理。


    使用SPSS进行数据清洗,继续以Lianjia的爬虫数据为例。

    1.数据导入

    首先导入csv到SPSS中,导入过程中可对各列的数据类型进行编辑。部分数据若有异常,则需后续进行修改类型。


    image.png

    导入后的效果:


    image.png

    2.数据类型检查

    点击左下角标签“变量视图”,可快速修改每列的数据类型。
    在变量视图页面,发现“室”、“面积”、“价格”这三项识别为“字符串”。


    image.png

    3.非数字类型处理(价格、面积、室三列)

    有很多处理方式:
    (1)可在“变量视图”直接改为“数值”类型。后续需逐一检查异常数据。
    (2)可在此三列标题上,分别点击右键选择“升序排列”与“降序排列”,可快速查看异常数据。如图所示,此部分数据属于爬虫过程中产生的异常,简单处理的话可以直接删除,也可人工修复数据。


    image.png

    4.重复数据清理

    根据此次数据的特点,选择使用“标签”、“价格”、“面积”属性作为去重的依据。
    点击“数据”-“标识重复个案”


    image.png

    筛选后发现,重复个案占总数的0.3%


    image.png
    具体到数据上,增加了一列“最后一个基本个案”列:
    image.png
    因此,我们可以根据这个“最后一个基本个案”列进行重复数据的清除。

    步骤为:
    (1)“数据”——“选择个案”;
    (2)选中“所有最后一个匹配...[最后一个基本个案]”;
    (3)点击“如果”弹出if选择框,输入条件:“最后一个基本个案”=1。注:此处前面的截图是显示“主个案”与“重复个案”,可以通过取消“值标签”显示来改为1与0.


    image.png
    *其实也可以通过排序,将值为0的部分删除,只不过在数据量大的时候,需要准确的找到0和1的分界线。

    5.增加列

    观察发现,数据中还需增加一列“均价”。步骤为:
    (1)在“变量视图”中插入一行,命名为“均价”,类型为数值。
    (2)点击“转换”-计算变量,目标变量输入“均价”,数字表达式为“ 价格 / 面积”,确认即可。


    image.png

    增加后数据如图所示。


    image.png

    6.异常值的处理

    首先需要整体观察一下数据,特别是“价格”、“面积”、“均价”、“室”、“厅”的分布情况:
    (1)先通过图表粗略观察一下,点击“分析”——“描述统计”——“频率”,图表使用直方图。


    image.png
    image.png
    image.png
    image.png
    image.png

    通过整体直方图与正态曲线,至少没有出现大量异常数据。
    (2)接下来,点击“分析”——“描述统计”——“描述”,选中这5项内容进行分析如下。


    image.png
    在这里看出,至少室、厅=0,均价的极小值与极大值都是可能存在异常状况的,需要对数据进行异常梳理。处理方式为:
    “数据”——“选择个案”,“如果”——输入条件,确认后可直接删除或先过滤后删除。

    6.导出数据

    点击“文件”——另存为即可。


    实际上python和SPSS均可以进行数据的清理工作,选择自己习惯的方式即可。

    相关文章

      网友评论

        本文标题:2019-08-14 分析lianjia数据(二)——SPSS数

        本文链接:https://www.haomeiwen.com/subject/qwnnjctx.html