美文网首页
模型匹配分析

模型匹配分析

作者: 张利东 | 来源:发表于2020-05-31 15:19 被阅读0次
image

1. 问题

讨论了这么多模型,有一个问题逐渐浮现了出来,这些模型的效果怎么样?我们需要一些对模型效果进行评价的方法。

2. 分析

最简单的评估方法,是把所有误差平方加总,于是我们有了RSS(Residual Sum of Error)

RSS=\sum_{i=1}^n(y_i-\hat{y}_i)^2

image

RSS的问题是,随着样本数的增加,RSS会一直增加,这就很难评估模型效果。所以我们引入MSE(Mean of Square Error),求误差平方的平均值。

MSE = \frac{1}{n}\sum_{i=1}^n(y_i-\hat{y}_i)^2=\frac{1}{n}RSS

但MSE的问题是,结果单位是平方的。开方以后,我们有了RSE(Residual Standard Error)

RSE = \sqrt{\frac{1}{n}RSS} = \sqrt{MSE}

但是,RSE 依然不算很好的指标,因为它和 y 的单位是一样的,所以我们没办法直观的知道什么时候模型是足够好的。于是进一步,我们有了R^2这个指标。RSE 表示的是模型匹配不佳的情况,R^2表示的是模型匹配更好的情况 —— 也即,预测模型在多大情况下可以解释数据

R^2 = \frac{TSS-RSS}{TSS}

其中的TSS为 Total Sum of Square,表示为

TSS = \sum_{i=1}^n(y_i-\bar{y})^2

这个量从误差的角度比前面几个理解起来困难一些,但从方差的角度就很好理解了。其实TSS就是y的方差求总

\mathrm{Var}(y) = E[(y-\bar{y})^2] = \frac{1}{n}\sum_{i=1}^n (y_i - \bar{y})^2 = \frac{1}{n}TSS \\ TSS = n \mathrm{Var}(y)

RSS 表示的是模型无法解释的误差,那么TSS-RSS就是模型可以解释的误差,再除以TSS就是模型可以解释的误差占比。

所以一般来说,R^2越大模型越好。

3. 总结

今天我们大致聊了聊模型评估的问题,谈到了RSS、MSE、RSE、TSS和R^2

这些指标是比较通用的,对于某种特定算法,还有很多其他指标需要综合考虑。比如查准率(Precision)和查全率(Recall)。

通过数据判断这个世界,从来都不是一件容易的事情。

4. 交流

独学而无友则孤陋寡闻。现有「数据与统计科学」微信交流群,内有数据行业资深从业人员、海外博士、硕士等,欢迎对数据科学、数据分析、机器学习、人工智能有兴趣的朋友加入,一起学习讨论。

大家可以扫描下面二维码,添加荔姐微信邀请加入,暗号:机器学习加群。

Lily

5. 扩展

5.1. 延伸阅读

  1. 参数标准化 - 机器学习

5.2. 参考文献

  1. James, G. et al. (eds) (2013) An introduction to statistical learning: with applications in R. New York: Springer (Springer texts in statistics, 103).
  2. Hastie, T., Tibshirani, R. and Friedman, J. H. (2009) The elements of statistical learning: data mining, inference, and prediction. 2nd ed. New York, NY: Springer (Springer series in statistics).

Data2Science

相关文章

  • 模型匹配分析

    1. 问题 讨论了这么多模型,有一个问题逐渐浮现了出来,这些模型的效果怎么样?我们需要一些对模型效果进行评价的方法...

  • 冰山模型,分析职业匹配

    学习笔记❤️ 对工作有期许,但当下的工作无法满足我们的期许,所以会让我们觉得工作不喜欢,换了工作又不胜任等状况也会...

  • 1-用冰山模型发掘自己

    提要 掌握冰山模型用法,分析自己与工作的匹配度,从而做出正确和另自己有成就感的职业选择。 冰山模型 冰山模型是美国...

  • 分析方法

    常规分析:多组比较、Kaplan-Meier生存曲线,以及Cox风险比例模型。较新方法:倾向得分匹配分析、序贯界标...

  • 学习笔记之一,冰山模型

    冰山模型学习笔记(之一) 一个模型,能够让你分析自己跟工作的匹配度。从而做出正确的职业选择,并能精准找到自己喜欢并...

  • 如何找到自己热爱的工作?

    为什么要找到自己热爱的工作? 为了获得成就感和满足感。 使用冰山模型来分析自己与工作的匹配度 冰山模型是什么? 用...

  • 个性化推荐典型任务与传统算法

    典型任务和算法(模型) 1.相似匹配(基于内容) 1.1 标签匹配 1.2 LDA主题模型 2.评分预测 2.1....

  • 【NLP论文笔记】相似句匹配模型发展历程总结

    本思维导图主要用于梳理,相似句匹配模型的发展历程总结。 【腾讯文档】相似句匹配模型https://docs.qq....

  • Flink JobManager | TaskManager内存

    Flink内存模型分析 JobManager内存模型 TaskManager内存模型 内存模型分析 Flink使用...

  • Java(Model Analysis)

    数据模型分析 业务模型分析 显示和流程分析

网友评论

      本文标题:模型匹配分析

      本文链接:https://www.haomeiwen.com/subject/mmtrzhtx.html