R语言对二分连续变量进行逻辑回归数据分析

作者: 拓端tecdat | 来源:发表于2020-03-24 14:17 被阅读0次

R语言对二分连续变量进行逻辑回归数据分析
数据报告：数据产品经理岗位分析报告
【练习】信用卡欺诈检测
R glm
数据挖掘算法具体用法
r语言对twitter推特数据进行挖掘
16-逻辑回归
11. 分类算法-逻辑回归
R语言对回归模型进行协方差分析
tidymodels包学习实录-2（ preprocess yo

教育或医学的标准情况是我们有一项连续的措施，但随后我们对那些具有临床/实践意义的措施有了切入点。一个例子是BMI。您可能有一个成绩测试，合格分数为70。研究人员有时可能会对30岁以上的BMI建模感兴趣，或者对通过/失败作的结果感兴趣。实质性问题通常落在对某人超过/低于此临床上显着阈值的概率进行建模的范畴之内。因此，我们将连续测量结果分为两部分，并使用逻辑回归等方法分析。

回到介绍性统计信息，您会听到类似的信息:大多数人宁愿使用规则线性回归而不是逻辑回归。但是，在上述情况下，出于实质性原因，我们经常有理由将结果一分为二。

因此，这是建议：

估计连续结果的线性模型

可以对它们取幂以获取赔率。

我们不在乎线性回归的截距，因为它会受到阈值的影响。

那么这种方法在实践中如何起作用？在使用逻辑回归分析之前尝试在不同阈值上将连续变量二等分的任何人都知道，估计的系数确实会发生变化，并且它们会发生很大的变化！这是否与结果不应依赖阈值的说法相符？

我们可以使用模拟进行检查。首先，我将逐步介绍数据生成过程：

set.seed(12345) # Set seed for reproducible results # Our single x variable is binary with 50% 0s and 50% 1s # so like random assignment to treatment and control # Our sample size is 300 dat <- data.frame(x = rbinom(300, 1, .5)) # Outcome ys = intercept of -0.5, the coefficient of x is 1 and there is logistic error dat$yc <- -.5 + dat$x + rlogis(nrow(dat))

yc：

然后，我们可以yc在各个点上将结果分为两部分，以查看x当使用逻辑回归时是否会影响估计系数：

x 0.9619012 x 1.002632 x 0.8382662

数字有些不同。如果我们yc直接将线性回归应用？

# First, we create an equation to extract the coefficients and # transform them using the transform to logit formula above. x 1.157362

所有这些数字彼此之间并没有太大差异。如果我们对它们求幂以获得比值比，它们的差异会更大。现在，我们可以重复此过程几次，以比较结果中的模式。我重复2500次：

vlt.x lt.x mt.x ht.x vht.x ols.x 1.0252116 1.0020822 1.0049156 1.0101613 1.0267511 0.9983772

这些数字是不同方法的平均回归系数。

v代表非常，l / m / h代表低/中/高，t代表阈值，ols是回归结果。因此，例如，vlt.x是来自极低阈值模型的平均x系数。

所有方法的这些估计系数平均约为1，这就是我们编写的程序！每个方法的可变性如何？

boxplot(res)

need-to-insert-img

我们看到，尽管平均值大致相同，但是当阈值极高时，估计的系数就更加可变。最小的可变系数是变换后的线性回归系数，因此当我们使用线性回归方法时，结果有些稳定。阈值越极端，我们获得的可变系数就越多。我们经常将数据二分法用于极端情况下的逻辑回归。

不同方法之间的估计系数如何？

need-to-insert-img

我们看到，尽管所有方法声称x的系数y平均为1，但阈值非常低时的估计系数与阈值非常高时的估计系数非常弱相关（.13）。这些差异仅反映阈值，并且可能在实际数据分析中产生误导。人们可能会相信，在不同的阈值处的估计值差异很大，而在不同的阈值下却代表不同的人口参数（真实系数）。与每种方法最相关的方法是线性回归方法。线性回归方法与中阈值结果最相关。它也是最稳定的。

从本质上讲，当将数据按极端阈值二等分时，我们是否应该相信这些发现？还是应该只使用变换后的线性回归系数？

在结果的不同分位数处，预测变量和结果之间的关系也可能不同--分位数回归情况探讨。

R语言对二分连续变量进行逻辑回归数据分析
原文链接：http://tecdat.cn/?p=10067 教育或医学的标准情况是我们有一项连续的措施，但随后我...
数据报告：数据产品经理岗位分析报告
数据采集、数据清洗、数据分析、数据可视化均是数据产品经理必备的技能，本次报告通过R语言对Boss直聘上的数据进行爬...
【练习】信用卡欺诈检测
1 数据分析与预处理建立逻辑回归模型，对正常交易数据和异常交易数据进行分类。 1.1 数据读取与分析从csv文...
R glm
R 逻辑回归 R 怎么做逻辑回归
数据挖掘算法具体用法
掌握回归分析的方法，通过线性回归和逻辑回归，其实你就可以对大多数的数据进行回归分析，并得出相对精确地结论。这部分需...
r语言对twitter推特数据进行挖掘
原文链接：http://tecdat.cn/r语言对twitter数据进行挖掘/ Twitter is a pop...
16-逻辑回归
逻辑回归应用场景：二分类问题。逻辑回归也能得出概率值逻辑回归为什么叫逻辑回归：因为是二分类，结果非此即彼，与逻...
11. 分类算法-逻辑回归
逻辑回归逻辑回归是解决二分类问题的利器逻辑回归公式 sklearn逻辑回归的API sklearn.linea...
R语言对回归模型进行协方差分析
原文链接：http://tecdat.cn/?p=9529 目录怎么做测试协方差分析拟合线的简单图解模型的...
tidymodels包学习实录-2（ preprocess yo
本次的部分为数据预处理相关内容由于最终的结果变量为二分类，因此我们采用逻辑回归模型进行拟合