【数据科学家学习小组】之机器学习第一期第二周作业

作者: 行走读书生活 | 来源:发表于2019-11-18 04:59 被阅读0次

【数据科学家学习小组】之机器学习第一期第二周作业
<第八章>假设检验
【数据科学家学习小组】之机器学习第一期第五周作业
【数据科学家学习小组】之机器学习第一期第七周作业
【数据科学家学习小组】之机器学习第一期第六周作业
【数据科学家学习小组】之机器学习第一期第三周作业
【数据科学家学习小组】之机器学习第一期第四周作业
【数据科学家学习小组】之机器学习第一期第八周作业
29/52 summary
机器学习常见算法汇总

【数据科学家学习小组】之机器学习第一期第二周作业

本次作业涉及了很多统计学的知识，对于个人的理解显得有些困难，通过查阅资料，仅对本次要求掌握的重点概念进行了论述，代码部分后期再补，见谅见谅

训练数据集(Train Data)：是指用来构建和训练模型的数据。
测试数据集（Validation Data）：是指用来评估模型的准确率的数据。

训练数据和测试数据都来自于原始数据，选定的训练数据只能在模型检验时使用，绝对不允许用于模型构建过程，否则会导致过渡拟合。

分类准确度（accuracy）：理解分类准确度，首先的先理解分类 (Classification)的真假与正类负类的概念（用放羊的小男孩举例,图片来自： https://blog.csdn.net/qq_14822691/article/details/81051958 ）：

image

精准度就是指我们的模型预测正确的结果所占的比，也就是
${准确度}= \frac {预测正确的样本数}{总样本数}$
，预测正确的对于上例（二元分类）而言， $分类准确度 = \frac{TP + TN}{TP + FP + FN + TN}$
。

精准率：评价的是对于模型预测的结果是否足够准确，通俗讲就是被我们关注事件真实被我们预测到的概率，对于上例，人们最关心的_<u style="box-sizing: border-box;">是狼来了</u>这件事，精准率的值就是预测狼来了事实狼却是来了的次数（TP）与预测狼来了的次数（TP+FP）的比值，即 $精准率=\frac{TP} {TP + FP}$

召回率：评价的是在事件真实发生的情况能否被如实预测到，也就是我们关注的那个事件真实的发生情况下，我们成功预测的比例是多少。亦即 $召回率 = \frac {TP}{TP + FN}$

要全面评估模型的有效性，必须同时检查精确率和召回率，但精准率和召回率指标往往呈负相关的关系，需要我们根据应用场景进行取舍。对于 量化投资领域，我们期望的是系统预测上涨的股票中，真正上涨的比例越大越好，这就是希望查准率高；对于医疗领域做疾病诊断，我们希望模型尽可能地将所有有病的患者都预测出来，此时关注的召回率多一点。

混淆矩阵：也称误差矩阵，是表示精度评价的一种标准格式，用n行n列的矩阵形式来表示，每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目，是一种可视化的工具，比简单的分类准确度更全面。

F1 Score：是精准率和召回率的调和平均值，介于0与1之间，公式表达式为

gif.gif

，其中precision为精准率，recall为召回率。

ROC曲线：是一个用于度量分类中的非均衡性的工具，常和AUC（ ROC曲线下的面积）一起用来评价一个二值分类器的优劣。它描述的是TPR（预测事件发生，占事件真实发生的数据的百分比，即召回率）和FPR（预测为事件发生但真实未发生的数量，占事件未发生的数据总量的百分比）之间的关系，其中x轴是FPR，y轴是TPR。

均方误差（MSE）：是真实值与预测值的差值的平方然后求和平均，可以抵消掉数据量引起的误差影响。

gif (1).gif

均方根误差（RMSE） ：通过将MSE开平方，可以解决量纲的问题，衡量观测值与真实值之间的偏差。

平均绝对误差（MAE）：

gif (2).gif
，加m次再除以m，即可求出平均距离，真实值与预测结果之间的距离最小，可以更好地反映预测值误差的实际情况。
R Squared：衡量模型拟合度的一个量,是一个比例形式，被解释方差/总方差，公式：R-squared = SSR/TSS=1 - RSS/TSS，其中TSS是执行回归分析前，响应变量固有的方差；RSS残差平方和就是，回归模型不能解释的方差；SSR回归模型可以解释的方差。

网友评论

本文标题：【数据科学家学习小组】之机器学习第一期第二周作业

本文链接：https://www.haomeiwen.com/subject/dixvictx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

【数据科学家学习小组】之机器学习第一期第二周作业

【数据科学家学习小组】之机器学习第一期第二周作业

相关文章