美文网首页
2019-02-19 第一章:简介

2019-02-19 第一章:简介

作者: 王子威PtaYoth | 来源:发表于2019-02-19 10:25 被阅读0次

    1.1假设检验,估计和预测

    统计学包括了对其它领域研究的设计、假设检验、估计和预测等方面。本书着重讲述估计和预测,来帮助数据分析师建立预测准确的模型。

    由于预测包含了部分假设检验和统计学估计的内容,因此学习预测模型的构建也可以帮助我们学习假设检验和估计。

    在传统的假设检验中,会首先定义一个H0(无效假设)。例如:研究胆固醇是否是猝死发生的危险因素变量。H0便是:胆固醇的增加不会增加死亡。
    “Hypothesis testing can easily be done within the context of a statistical model, but a model is not required.” 在统计学模型中很容易进行假设检验,但不需要模型。

    当我们只想评估效应是否为0时,P值可通过permutation或秩和(非参数)法计算得到最小假设(minimal assumption)。但相比只能计算P值得方法,仍然选择基于建模的方法的理由有:

    1. Permutation 和秩和法常常不容易估计效应的大小。

    2. 这些方法常常不适用于复杂的情况,如cluster sampling或者样本的重复测量

    3. 一旦被分析人员掌握,模型便可用于进行很多不同的假设检验,而不用掌握特定的公式去解决特定的问题。

    例如两样本student's t检验是普通多元回归模型(ordinary multiple regression model)的特例,它唯一的虚变量(dummy variable)X用于指示分组。
    Wilcoxon-Mann-Whitney检验则是比例优势等级logistic模型(proportional odds ordinal logistic)的特例。

    使用这两种回归模型可以很容易得到多组样本方差分析和 Kruskal–Wallis检验的结果,只需使用多个虚预测变量。

    即使没有诸如“重复测量”这样复杂的情况,当有太多的假设需要被检验时(test too many hypotheses),检验过多的假设差不多相当于在回归模型中拟合过多的变量(fit too many predictors in a regression model)。人们常常会听到这样的说法“数据集太小不允许建模,因此我们只做了假设检验。” 这种情况下得到的推论通常是不可信的,当样本量不足以用于建模,常常也不足以用于假设检验和推断。(特别是当一个人想根据可以得到最小的P值的假设检验来报告预测的效应量,这种预测尤其不可信)。
    通过“数据捕捞”(data dredging,指挖掘的过程中,遇到的一些完全不相关和事实相悖但看起来让人兴奋的数据。)进行定量的,普通的点估计常常会导致严重的偏倚。这种问题可以通过多变量估计时变量的收缩得以解决。

    数据估计常常是基于模型的,例如人们常常使用生存回归模型估计胆固醇从200升到250mg/dl时,对死亡风险的相对效应。

    由于胆固醇以外的其他变量常常也在模型中,因此在估计胆固醇升高的影响时需要控制其他变量。
    准确的估计胆固醇升高的影响需要假定胆固醇及其他变量同死亡风险之间的关系,假如被错误地估计成线性关系,那么预测就会不准确。

    准确的估计也要避免其他变量的过拟合
    如果数据集包含200例样本其中30例死亡,如果为15个“混杂因素”做校正,统计预测可能会因为这15个混杂因素而过度校正,因为这些混杂因素的apparent effect事实上来源于其同响应变量(生存时间)的伪关联(spurious association)。过度校正会降低胆固醇的效应,由此而导致的预测的不可靠等同于模型不能在外部数据中得到验证的程度。(第2页,不太理解这里)

    将效应的预测值看作是模型两个预测值之间的差值通常很有用。 这样就易于解释非线性和相互作用。例如在逻辑回归模型中胆固醇的作用是非线性的,则线性的“X”的变化可以预测事件的优势对数。如250:200 mg/dl胆固醇的优势比(odds ratio)就是模型预测值的反对数(anti-log)。

    1.2 多因素预测模型实例

    多因素模型的运用相当广泛,企业用它来预测盈利表现,对消费者的购买和还贷行为进行建模。在生态学领域,回归模型被用于预测一种鱼类从湖中消失可能性。生存模型用于预测产品的生命周期(某个零件报废的时间,一次性尿布什么时候吸饱水)

    多因素模型广泛地用于医药,流行病学,生物数据科学,卫生服务研究,药学研究以及其他相关的领域。在医学领域的两大应用——诊断&预后,模型用来预测某个病人得某种疾病的概率或者某类患者的生存时间。在观察性研究中,如果想要比较患者接受不同治疗的结局差异的话,多因素模型很重要,因为要控制nonrandom treatment assignment导致的偏倚,同时校正要未控制的变量产生的效应。
    一种更新的技术:倾向评分,可以更为积极地纠正nonrandom treatment assignment产生的nonrandom treatment assignment导致的偏倚。预测的倾向评分是一个多因素模型的预测值,该模型的响应变量是暴露因素或实际采取的治疗措施。得出评分后,再对感兴趣的响应变量进行建模,并将评分作为一个调整变量。

    多因素建模在精心设计的随机化实验中的宝贵作用尚未得到公认。通常设计这类试验来对两个或多个治疗进行相对比较,使用优势比、风险比或其他测量相对效应的方法。但如果想要测量绝对效应则必须根据相应变量构建多变量模型。举例来说,模型可以预测接受治疗A且有特征X的病人可以生存5年,或者可以预测患者的预期寿命。再预测拥有相同特征X的病人接受治疗B的预期寿命,就可以测定治疗A和治疗B的绝对效应之差。这一方法识别出低风险病人的治疗收益小于高风险的病人,但在许多临床试验中都忽视了这一点。

    在随机化临床试验中进行多因素建模的另一个理由:假如基本响应模型是非线性的(如logistic回归,Cox回归,参数生存模型),样本存在轻微的异质性时,就算各个治疗组的基线特征得到完美的平衡,对治疗效应未加校正的估计也会不准确。(在脚注中作者给出的解释是:..)
    所以当研究人员对两组病人的治疗效应进行简单比较的话,多因素建模有好处,有的时候甚至是强制的。

    成本-效果分析(cost-effectiveness analysis)在医疗研究中的使用正在变得广泛,“效应”(即cost-effectiveness ratio的分母)测量的是绝对效应。由于受试者的绝对效应随受试者的risk profile而显著变化,因此必须使用多变量模型对个体受试者进行评估。

    1.3 预测VS分类

    从生物信息学到市场中出现的很多问题,分析师寄希望于开发出一个“分类器”而非建立一个预测模型。我们现在来想象一个开发分类器的场景,响应变量是二分类的,变量的两个水平非黑即白,不存在灰区(如完全成功vs完全失败,不存在部分成功),分类器的使用者被强迫二选一,对于未来每一次做分类,错误分类的成本都是相同的,假阳性风险与假阴性风险的比值隐含在分析人员的分类规则中(通常是隐藏的)。

    即便分类器预测了所有的情况,分类仍然不如用于推动预测工具的开发或用于估计或假设检验的概率建模(probability modeling)。最好使用完整的数据信息来开发概率模型,然后根据估计的概率制定分类规则。 至少这会促使分析师在查找或加权变量时使用精确的系数。

    当因变量是等级的或连续时,强制二分法进行分类可以试图简化问题,但即使使用合适的cutoff值(如中位数),也存在着独断性(arbitrariness)和主要信息丢失。 在不同的点上对结果进行分析可能需要将样本量增加许多倍以弥补丢失的信息。 在医学诊断领域,通常疾病严重程度是连续的,预测疾病的严重程度(而不仅仅是它的存在与否)将大大提高功效和精确度,还减少结果的独断性(arbitrariness)。

    值得注意的是,两分类是人为的强制分类。多数时候分类器的使用者并不非得做出二选一的决定。对于多数课题,避免下决定或者避免去获取更多的数据(例如,进行另一项医学诊断试验)是更好的选择。 灰区是有用的,预测也通常包含灰区。

    与预测(如绝对风险)不同,分类隐含地使用效用函数utility functions(也称为损失或成本函数loss or cost ,例如,假阳性分类的成本)。 隐含效用函数存在很大问题。
    首先,众所周知,the utility function depends on variables that are not predictive of outcome and are not collected (e.g., subjects’ preferences) that are available only at the decision point。
    其次,该方法假设每个个体具有相同的效用函数。 (一个简单的反例是年长患者的假阴性诊断结果被赋予了较少的权重,但患者存在对手术和化疗的厌恶)
    第三,分析师擅自假设个体的效用与他自己的效用相吻合。(我对吻合的理解是:患者觉得“有用”和分析师觉得"有用")

    正规的决策分析包括患者特异效用(subject-specific utilities)和基于所有可获得变量的合适预测(optimum predictions based on all available data)
    注:要做出最佳决策,需要了解有关个体的所有相关数据(用于估计出现某一个结果的概率),以及做出每个决策的效用(成本,损失函数)。而敏感性和特异性不能提供这些信息。例如,如果估计给定年龄,性别和症状的某疾病患病概率为0.1并且假阳性的“成本”等于假阴性的“成本”,则可以认为该人没有这种病。对于其他效用,人们会给出不同的决定。如果效用是未知的,那么给决策者提供结果概率的最佳估计,让他自己根据自己内心的效用估计做出最佳决策。
    除了截断值不适用于个体只适用于群体所以不要在决策时对个体应用截断值这一事实外,我们还要了解到个体决策时不要使用敏感性和特异性。对于一个个体,我们可以计算Prob(Y = 1|X = x),我们不关心Prob(Y =1|X > c),并且当一个个体的X确切等于x时却被告之Prob(X > c|future unknown Y) 时,他会感到困惑的。
    即便要进行群体决策,也可以绕过敏感性和特异性,对于大规模营销,可以根据预测的购买商品概率对个体进行排序,并创建一条上升的曲线,然后将前k个更可能购买的客户选为目标人群,k可以根据营业目标进行调整。
    由此可见,操作特征曲线(ROC)分析具有误导性,除了效用未知的大规模一次性群体决策这种特殊情况(例如,启动流感疫苗接种计划)。

    分析师的目标应该是建立最准确和可靠的预测模型或者建立作为估算或假设检验基础的最佳模型,多数情况下,分类是预测模型使用者的任务,此时效用和成本是已知的。

    1.4 准备建模

    在进行模型开发以预测响应变量时,研究人员面对的第一个问题是“这个模型真的会被使用吗?”许多模型从未使用过,原因如下:
    (1)在作者设想的场景中进行预测没有太大意义
    (2)模型的潜在使用者对模型不信任
    (3)模型中用于预测的变量不易得到
    一旦研究人员确信预测模型值得开发,就有许多研究设计问题需要解决。 模型通常使用“convenience sample”开发,即未考虑此类预测而收集的数据集。 由此产生的模型往往充满了诸如以下的困难:
    1.最重要的预测变量或响应变量可能尚未收集,可能诱使研究人员设法应付不能反应真实过程的变量
    2.数据集中受试者不具有整体的代表性,或者它们不能代表要进行推论的人口; (数据不具有代表性)
    3.大量受试缺少关键变量。
    4.数据丢失不是随机的额; 例如,早期退出研究的受试者或患病太重而无法接受采访的受试者的数据没有被收集。
    5.某些关键变量没有可供操作的定义operational definition。
    6.变量测量的可靠性未知,或存在其他类型的重要测量误差。

    当数据的收集事先计划好,则预测模型更加准确也更加可用。若事先计划好,则需要的变量可以被收集,变量的定义也明确,也可以采取措施最大限度减少收据丢失。
    在医学领域建模,针对health outcome:

    收集以下变量时需要量化:
    1.年龄,
    2.性别,
    3.急性临床稳定性acute clinical stability,
    4.主要诊断,
    5.主要诊断的严重程度,
    6.合并症的程度和严重程度,
    7.身体功能状态,
    8.心理,认知和心理社会功能,
    9.文化,种族和社会经济属性和行为,
    10.健康状况和生活质量,和
    11.患者对结果的态度和偏好。

    确保一些基线协变量被采集:
    1.响应变量的基线测量,
    2.受试者最近的状态,
    3.the subject’s trajectory as of time zero or past levels of a key variable,
    4.解释了响应变量中大部分变化的变量,以及
    5.那些更加微妙而难以察觉的(subtle)预测因子,其分布在观察性研究中关键变量水平之间的差异很大。

    在统计学建模中,很可能会犯以下错误:
    1.生成generate数据的步骤process不稳定。
    2.在非线性或相互作用方面,模型被错误指定,或者缺少预测因子。
    3.在响应变量的变换或模型的分布假设,模型被错误指定。
    4.模型包含不连续性(例如,通过对连续预测变量进行分类或 fitting regression shapes with sudden changes)可以让模型的使用者耍花招
    5.样本之间的相关性不明确,或者错误指定相关结构(the correlation structure is misspecified),导致了无效的参数估计和过于自信的推断。
    6.模型过度拟合,导致预测过于极端或正相关关系是错误的。

    1.4.1 强调连续变量

    在设计数据收集方案时,要使用连续变量而不是分类变量。 一些分类变量是主观的并且难以标准化,它们包含的统计信息不及连续变量。 重要的是,在数据收集时便对连续变量进行分类是不明智的,
    因为没有原始数据无法恢复,假如另一位研究人员认为截断值的选取不恰当,他就无法确定另一个截断值作为替代。许多研究人员错误地认为对连续变量进行分类会导致较少的测量误差。 这是一个错误的假设,因为如果一个样本被置于错误的区间,将是100%的误差。 因此,误差的大小乘以误差的概率在分类变量中并不会更小。

    1.5 选择模型

    真正能够帮助分析师选择潜在统计模型的方法仍未出现。A. P. Dawid如下说道:

    概率模型来自哪里? 通过大多数统计学家对这个问题的"响亮的沉默"来判断,这似乎非常令人尴尬。 一般来说,理论家很高兴地承认他的抽象概率三联(Ω,A,P)是在醋栗丛中下面发现的,而应用统计学家的模型“刚刚成长”。

    在生物统计学,流行病学,经济学,心理学,社会学和许多其他领域中,很少存在学科主体知识允许分析师预先指定模型(例如,Weibull或对数正态生存模型),响应变量的变换,以及预测变量在模型中以何种结构出现(例如,变换,非线性项的添加,交互项)。 实际上,一些作者质疑多数情况下是否存在真实模型的概念。 多数时候,我们都被迫经验地开发模型。 幸运的是,若仔细客观地验证了模型预测相对于观测到的响应是否精确,如果良好的验证不仅仅是过度拟合的结果,那么模型还是值得信赖的。

    以下是选择模型时的一些指导意见

    1.模型必须有效地使用数据。例如,如果有人对预测具有某些特定特征的患者在诊断5年后存活的概率感兴趣,则低效模型将是二元logistic模型。一种更有效的,同时也是一种允许随访时间不足5年的方法,是半参数(基于秩)或参数生存模型。 Such a model uses individual times of events in estimating coefficients,但是它可以容易地用于估计存活五年的概率。
    另一个例子,如果想要以优秀,非常好,良好,公平和差的等级来预测患者的生活质量,那么多元(多项)分类反应模型就不会有效,因为它不能利用等级信息。

    2.选择适合数据整体结构的模型。在拟合慢性病的存活时间 时,人们可能会觉得大多数风险因素的重要性随着时间的推移保持不变。在这种情况下,比例风险模型,如Cox或Weibull模型将是很好的选择。另一方面,如果研究急性病患者,其危险因素随着患者存活时间的延长而变得越来越不重要,那么诸如对数正态(log-normal)或对数逻辑回归(log-logistics)模型将更为合适

    3.选择对数据中难以检查的问题difficult to check具有robust的模型。 例如,Cox比例风险模型和等级逻辑模型ordinal logistic model不受响应变量的单调变换的影响。

    4.选择其数学形式适合响应变量的模型。这通常是为了将添加交互项的需求降至最低,交互项通常只解决最基本的欠拟合。 例如,许多研究人员对二元响应变量使用普通线性回归建模,因为它们非常简单。 但是这样的模型允许预测概率在区间[0,1]之外,因此需要添加预测变量间奇怪交互项以使得预测保持在合理范围内。

    5.选择一个易于扩展的模型。 通过分层,Cox模型很容易允许一些预测因子,特别是分类变量的,来违反比例风险假设。continuation ratio ordinal logistic model 也可以容易地推广,允许某些预测变量系数的改变 "...as one proceeds across categories of the response"。

    RA Fisher有关建模的建议:“(a)我们必须confine ourselves to those 知道如何处理的那些形式,”和(b)“根据数据量的不同,我们可以使建模more or less elaborate f”

    Ameen说,一个好的模型是“(a)相对于既定目标的表现令人满意,(b)逻辑上合理,(c)具有代表性,(d)可接受质询并接受online interrogation,(e) 能够accommodate外部或专家信息,以及(f)能够传达信息。”

    通常使用数据来决定模型的形式以及模型中预测变量的表达形式。 一旦开发出模型,通常整个建模过程好像被遗忘一样,人们开始计算统计量,例如标准误差,置信限,P值和R2,就好像所得模型完全预先指定一样。 然而,将通过经验导出的模型视为理所当然的正确模型所导致的严重问题Faraway,Draper,Chatfield,Buckland等人已经论述过了。 正如查特菲尔德所说:“我们在寻找最佳模型时是看起来像是承认模型具有不确定性的,而用模型进行推断和预测时这种不确定性又好像被忽略了。”

    逐步变量选择是所有数据分析技术中使用最广泛和最被滥用的技术之一。 关于这种技术还有很多可谈的(参见4.3节),但是在进行统计推断时还需要考虑建模的许多其他方面,不幸的是,很难得出对可以对建模的不确定性(uncertainty)作出适当校正的confidence limits之类的定量数据。例如在Weibull和对数正态回归模型之间作出基于数据的选择。

    Ye开发了一种基于最小二乘法的,用来估计任何“数据挖掘”或模型选择中的“广义自由度”(GDF)的通用方法。GDF对指示建模过程出现的“data dredging”或过拟合情况很有帮助。它对于估计estimate the residual variance with lees bias也是有用的。在一个示例中,Ye使用涉及100个观测和10个候选预测变量的递归分类来开发回归树。得到的树有19个节点,GDF为76。估算残差的通常方法是将合并的节点内离均差平方和除以(100 - 19),但是Ye表明除以100 - 76产生了更少的偏倚(和更高的)σ2估计。在另一个例子中,Ye考虑使用20个候选预测因子和22个观察值的逐步变量选择。当任何预测因子与响应之间没有任何真正关联(no true association)时,Ye发现选择最佳的五变量模型策略的GDF = 14.1。

    考虑到已经对模型作出了选择(例如对数正态模型),带有惩罚的最大似然估计在保证模型充分拟合而不过度拟合方面有优势。惩罚项减少了选择模型的需要。

    1.6 拓展阅读

    Briggs and Zaretzki详述了ROC曲线和AUC的问题:

    ROC曲线缺少或隐藏了数个对分析诊断实验operational effectiveness需要的quantities,ROC一开始是用来检查电台接收器对某个范围内的频率的响应,然而在医学领域却不是这么用的...某一项诊断试验的接受者,想要基于某一个Xc做决定,他对于使用了一个不同截断值后他表现的变化没有兴趣。

    在他们论文的discussion中,David Hand表示

    当整合数据得到一个具体的AUC测量时,在整合中确定每一个数值的权重很重要。AUC使用从数据中经验性地得来的加权方式。这是没有道理的。将一个病例错误分类为非病例和将一个非病例分类为病例的想对重要程度,不能从数据本身得到,他必须来自外部,即由分析人员确定的,不同错误分类类型的相对重要程度。

    拓展阅读

    AUC, only because it equals the concordance probability in the binary Y case, is still often useful as a predictive discrimination measure.

    More severe problems caused by dichotomizing continuous variables are discussed in [13, 17, 45, 82, 185, 294, 379, 521, 597].

    See the excellent editorial by Mallows434 for more about model choice. See Breiman and discussants67 for an interesting debate about the use of data models vs. algorithms. This material also covers interpretability vs. predictive accuracy and several other topics.

    See [15, 80, 100, 163, 186, 415] for information about accounting for model selection in making final inferences. Faraway186 demonstrated that the bootstrap has good potential in related although somewhat simpler settings, and Buckland et al.80
    developed a promising bootstrap weighting method for accounting
    for model uncertainty.

    Tibshirani and Knight611 developed another approach to estimating the generalized degrees of freedom. Luo et al.430 developed a way to add noise of known variance to the response variable to tune the stopping rule used for variable selection. Zou et al.689 showed that the lasso, an approach that simultaneously selects variables and shrinks coefficients, has a nice property. Since it uses penalization (shrinkage), an unbiased estimate of its effective number of degrees of freedom is the number of nonzero regression coefficients in the final model.

    相关文章

      网友评论

          本文标题:2019-02-19 第一章:简介

          本文链接:https://www.haomeiwen.com/subject/hhyvjqtx.html