美文网首页
Kaggle之旅—房价评估(2)

Kaggle之旅—房价评估(2)

作者: no_repeat | 来源:发表于2019-01-28 22:09 被阅读0次

    我们接着继续聊下房价评估这个项目,今天主要来讲讲数据分析中的回归分析。

    有趣点:本文会讨论一个很有趣的观点,包括Kaggle中的多个kernel中也都想当然的引用且使用了的观点。那他真的正确吗?有没有其他可能性呢?

    项目:House Prices: Advanced Regression Techniques

    数据:美国爱荷华州中部爱慕斯的历史房屋相关数据

    深入理解数据

    这个项目提供的数据一共有81个列,即81个变量。这么多个变量,如何知道哪两个变量是强关联关系,哪两个是弱关联关系呢?

    • 这里涉及到变量之间的关系

    1.完全确定关系 → 函数关系

    2.不存在完全确定关系 → 相关关系 → 平行关系[相关分析] + 依存关系[回归分析]

    若两个变量是线性相关,则定会有线性相关系数,也会有相关系数的误差。我们也可以从变量之间线性相关这个角度尝试理解。

    • 开头所提出的变量之间关系问题 → 跟SalaPrice线性相关的变量都有哪些,相关系数大的又有哪些?

    相关矩阵可以告诉我们:

    image

    结果得出由38个变量之间的相关系数组成的相关矩阵。

    38个变量怎么来的?

    相关系数也只能由数值之间进行计算,所以结果中的38个变量 = 3个float类型变量 + 35个int类型变量组成。

    将这个相关矩阵画出来。

    image

    挑选与SalaPrice相关性排名前10的变量们。

    image

    将这10个变量的相关矩阵画出来。

    image

    数据分析

    我们首先来了解下回归分析。

    • 回归分析

    回归分析:研究因变量(目标)和自变量(预测器)之间的关系。

    • 回归分析的好处:

    1.可表明自变量和因变量之间的显著关系

    2.可表明多个自变量对一个因变量的影响强度

    • 回归模型都有哪些?

    1.线性回归

    2.逻辑回归

    3.多项式回归

    4.逐步回归

    5.岭回归

    6.套索回归

    7.ElasticNet回归

    • 回归分析有5个假设:

    1.线性关系

    2.多元正态分布

    3.没有或少量的多重共线性

    4.无自相关

    5.同方差性

    • 回归分析中需要注意点:

    1.对异常值很敏感,需要排除异常值

    2.要求所有变量为多元正态,若不是时,需要进行非线性变换

    3.独立变量之间不过高相关

    使用相关矩阵来计算
    
    计算容差
    
    方差膨胀因子
    

    4.数据应少或没有自相关

    残差彼此不相关时发生自相关
    

    5.同方差性

    问题点

    • 当前这个数据集中,SalaPrice并非是所期望的正态分布,那需要对SalaPrice进行正态分布化处理吗?

    Kaggle中的多个kernel在进行回归分析时,都会校验因变量是否为正态分布,就因为是回归分析中5个假设中的其中之一。

    image

    正态分布化处理

    image
    • 上述这个步骤是必需的吗?

    可以确定的是回归分析中的正态分布,未必是必需的。

    我们下篇文章接着聊回归分析的问题。

    相关文章

      网友评论

          本文标题:Kaggle之旅—房价评估(2)

          本文链接:https://www.haomeiwen.com/subject/qhgzjqtx.html