影像组学笔记摘抄(2)

作者: 北欧森林 | 来源:发表于2021-02-27 17:47 被阅读0次

影像组学笔记摘抄(2)
影像组学笔记摘抄(1)
影像组学全代码截屏记录
科学技术发展与医学科研笔记
影像组学入门
将meta分析应用于影像组学研究
影像组学学习笔记(35)-基于2D超声影像的影像组学特征提取
影像组学综述：Radiomics and “radi-…omic
影像组学学习笔记(34)-使用3D Slicer软件提取影像组学
影像组学必知必会

...而精度呢，只有在正负样本非常平衡的时候才比较有意义。如果不平衡，比如有100个样本，99个正的，1个负的，我随便拿个模型，来预测，正确率都99%，显然毫无意义。
auc代表的是分类或者排序能力，与分类阈值无关；准确率是和阈值有关的。
分类模型评价方法一般包括：混淆矩阵(Confusion Matrix)、收益图(Gain Chart)、提升图(Lift Chart)、KS图(KS Chart)、受试者操作特性曲线(ROC Chart)。
二元线性回归分析时，自变量取对数, 即令 y = a +bln(x), 通常能提高线性关系。
如果容忍度（Tolerance）小于0.1或方差膨胀因子（VIF）大于10，则表示有共线性存在。(医咖会)

关于变量间多重共线性的问题：

在建立模型的时候首先你得搞清楚你关注的是什么。如果你所关注的是模型的拟合或者预测效果，多重共线性问题对模型的拟合值和预测值是没有影响的（当然对置信区间是有影响），那么你不用太考虑这个问题。
如果你关注的是每个解释变量各自对被解释变量的影响（在经济学中称为“结构分析”），那你也没有理由因为多重共线性问题而改变模型的结构，比如把哪个变量删掉，那不就本末倒置了吗？(知乎@黄钟)

(以下内容来自 CSDN@ Shwan_Ma: "回归过程中的数据标准化")
需要标准化的情境：

在聚类过程中，标准化显得尤为重要。这是因为聚类操作依赖于对类间距离和类内聚类之间的衡量。如果一个变量的衡量标准高于其他变量，那么我们使用的任何衡量标准都将受到该变量的过度影响。

在PCA降维操作之前。在主成分PCA分析之前，对变量进行标准化至关重要。这是因为PCA给那些方差较高的变量比那些方差非常小的变量赋予更多的权重。而标准化原始数据会产生相同的方差，因此高权重不会分配给具有较高方差的变量。

KNN操作，原因类似于kmeans聚类。由于KNN需要用欧式距离去度量。标准化会让变量之间起着相同的作用。

在SVM中，使用所有跟距离计算相关的的kernel都需要对数据进行标准化。

在选择岭回归和Lasso时候，标准化是必须的。原因是正则化是有偏估计，会对权重进行惩罚。在量纲不同的情况，正则化会带来更大的偏差。

不需要标准化的情境：

当采用普通的线性回归的时候，是无需标准化的。因为标准化前后，不会影响线性回归预测值。

同时，标准化不会影响logistic回归，决策树及其他一些集成学习算法：such as random forest and gradient boosting.

其他关于线性回归的一些易错点

不考虑线性相关直接使用线性模型
设想建立一个具有两变量X1和X2的线性模型，假设真实模型是Y=X1+X2。理想地，如果观测数据含有少量噪声，线性回归解决方案将会恢复真实模型。然而，如果X1和X2线性相关（大多数优化算法所关心的），Y=2X1, Y=3X1-X2或Y=100X1-99X2都一样好，这一问题可能并无不妥，因为它是无偏估计。然而，它却会使问题变得病态，使系数权重变得无法解释。

将线性或逻辑回归模型的系数绝对值解释为特征重要性
因为很多现有线性回归量为每个系数返回P值，对于线性模型，许多实践者认为，系数绝对值越大，其对应特征越重要。事实很少如此，因为：(a)改变变量尺度就会改变系数绝对值；(b)如果特征是线性相关的，则系数可以从一个特征转移到另一个特征。此外，数据集特征越多，特征间越可能线性相关，用系数解释特征重要性就越不可靠。