美文网首页
影像组学笔记摘抄(2)

影像组学笔记摘抄(2)

作者: 北欧森林 | 来源:发表于2021-02-27 17:47 被阅读0次
    • ...而精度呢,只有在正负样本非常平衡的时候才比较有意义。如果不平衡,比如有100个样本,99个正的,1个负的,我随便拿个模型,来预测,正确率都99%,显然毫无意义。

    • auc代表的是分类或者排序能力,与分类阈值无关;准确率是和阈值有关的。

    • 分类模型评价方法一般包括:混淆矩阵(Confusion Matrix)、收益图(Gain Chart)、提升图(Lift Chart)、KS图(KS Chart)、受试者操作特性曲线(ROC Chart)。

    • 二元线性回归分析时,自变量取对数, 即令 y = a +bln(x), 通常能提高线性关系。

    • 如果容忍度(Tolerance)小于0.1或方差膨胀因子(VIF)大于10,则表示有共线性存在。(医咖会)

    关于变量间多重共线性的问题

    • 在建立模型的时候首先你得搞清楚你关注的是什么。如果你所关注的是模型的拟合或者预测效果,多重共线性问题对模型的拟合值和预测值是没有影响的(当然对置信区间是有影响),那么你不用太考虑这个问题。
    • 如果你关注的是每个解释变量各自对被解释变量的影响(在经济学中称为“结构分析”),那你也没有理由因为多重共线性问题而改变模型的结构,比如把哪个变量删掉,那不就本末倒置了吗?(知乎@黄钟)

    (以下内容来自 CSDN@ Shwan_Ma: "回归过程中的数据标准化")
    需要标准化的情境:

    • 在聚类过程中,标准化显得尤为重要。这是因为聚类操作依赖于对类间距离和类内聚类之间的衡量。如果一个变量的衡量标准高于其他变量,那么我们使用的任何衡量标准都将受到该变量的过度影响。
    • 在PCA降维操作之前。在主成分PCA分析之前,对变量进行标准化至关重要。 这是因为PCA给那些方差较高的变量比那些方差非常小的变量赋予更多的权重。而 标准化原始数据会产生相同的方差,因此高权重不会分配给具有较高方差的变量。
    • KNN操作,原因类似于kmeans聚类。由于KNN需要用欧式距离去度量。标准化会让变量之间起着相同的作用。
    • 在SVM中,使用所有跟距离计算相关的的kernel都需要对数据进行标准化。
    • 在选择岭回归和Lasso时候,标准化是必须的。原因是正则化是有偏估计,会对权重进行惩罚。在量纲不同的情况,正则化会带来更大的偏差。

    不需要标准化的情境:

    • 当采用普通的线性回归的时候,是无需标准化的。因为标准化前后,不会影响线性回归预测值。
    • 同时,标准化不会影响logistic回归,决策树及其他一些集成学习算法:such as random forest and gradient boosting.

    其他关于线性回归的一些易错点

    • 不考虑线性相关直接使用线性模型
      设想建立一个具有两变量X1和X2的线性模型,假设真实模型是Y=X1+X2。理想地,如果观测数据含有少量噪声,线性回归解决方案将会恢复真实模型。然而,如果X1和X2线性相关(大多数优化算法所关心的),Y=2X1, Y=3X1-X2或Y=100X1-99X2都一样好,这一问题可能并无不妥,因为它是无偏估计。然而,它却会使问题变得病态,使系数权重变得无法解释。
    • 将线性或逻辑回归模型的系数绝对值解释为特征重要性
      因为很多现有线性回归量为每个系数返回P值,对于线性模型,许多实践者认为,系数绝对值越大,其对应特征越重要。事实很少如此,因为:(a)改变变量尺度就会改变系数绝对值;(b)如果特征是线性相关的,则系数可以从一个特征转移到另一个特征。此外,数据集特征越多,特征间越可能线性相关,用系数解释特征重要性就越不可靠。

    相关文章

      网友评论

          本文标题:影像组学笔记摘抄(2)

          本文链接:https://www.haomeiwen.com/subject/yttmxltx.html