美文网首页人工智能
洛杉矶房价预测

洛杉矶房价预测

作者: geekAppke | 来源:发表于2018-12-28 21:26 被阅读11次
    (1) 数据一定有空值
    (2) 极小概率事件 2sigma=0.9974:一切皆有可能
    
    为什么会缺失?
    大数定理:趋于稳定
    
    机器学习:No Free Lunch Theory 没有免费的午餐定理
    但凡不下辛苦,不存在最好的机器学习算法
    想泛化要做非常多的努力
    每一套不同的数据,有不同的解法!
    
    机器学习悖论:
    
    
    数据集  & 决策集
    
    失去了对于真实泛化能力考量
    保证泛化,防止过拟合
    

    制作训练集、评测集

    交叉验证

    1. 数据有限,发挥数据本来的效率
    2. 数据的训练集合评测集的矛盾
      a. 如果用更多的数据去训练,那么就会有更少的数据来评测
      b. 如果用更少的数据来训练,很大可能造成欠拟合,在评测集上表现一定不好

    解决方法

    1. 将数据集拆成k份 -> (首先进行shuffle洗牌,防止不均、局限性)
    2. 规定k-1份进行训练,剩下1份进行评测,总共训练k次,轮流每个子数据集作为评测集
      a. 数据集被分成k份,1……k
      b. 第一次训练使用第1份数据集作为评测集,剩下的k-1份作为训练集
      c. 第i次训练使用第i次数据集作为评测集,剩下的k-1份作为训练集
      d. 做k次训练
    3. k次训练之后,评测的分值=k次评测的平均(k折)
    4. 不同的模型会提供不同的子模型的合并方法,会将所有的k个子模型进行合并

    SVM 是否容忍控制NAV?

    基于数值计算/数值回归→ 一定要将所有内容数字化→ 不支持

    DecisionTree 是否容忍控制NAV?

    决策树的学习,实际是对控件的划分。
    把空值当成空间的一部分,不要求连续
    → CART,ID3,C4.5
    水果忍者,黎、水果,切成丁
    超市找东西,容易找到相应的商品的位置

    DNN 是否容忍控制NAV?

    不容忍,基于数值计算

    参考资料

    洛杉矶房价预测-代码
    洛杉矶房价预测-数据快查表
    Some examples of using (LaTeX) in R Markdown documents

    相关文章

      网友评论

        本文标题:洛杉矶房价预测

        本文链接:https://www.haomeiwen.com/subject/fqtylqtx.html