美文网首页
【R语言】因子在临床分组中的应用

【R语言】因子在临床分组中的应用

作者: 生信交流平台 | 来源:发表于2021-09-25 08:57 被阅读0次

前面给大家简单介绍了

【R语言】R中的因子(factor)

今天我们来结合具体的例子给大家讲解一下因子在临床分组中的应用。

我们还是以TCGA数据中的CHOL(胆管癌)这套数据为例。关于这套临床数据的下载可以参考

☞如何从TCGA数据库下载RNAseq数据以及临床信息(一)

前面我们也给大家介绍过一些处理临床数据的小技巧

☞【R语言】卡方检验和Fisher精确检验,复现临床paper

☞R生成临床信息统计表

☞玩转TCGA临床信息

☞TCGAbiolinks获取癌症临床信息

接下来我们先读入临床数据

#读取临床数据
clin=read.table("clinical.tsv",header=T,sep="\t",quote="")
#去除重复的行
index=!duplicated(clin$case_submitter_id)
#提取非重复的样本的临床信息
clin=clin[index,]

可以得到如下临床信息表

前面给大家讲过☞肿瘤TNM分期,我们知道组织病理分期分成stage I,stage II,stage III和stage IV四个分期

接下来我们试着把组织病理分期从四个组合并成两个组,并转换成因子

方法一、使用gsub函数

前面也给大家介绍过☞R替换函数gsub

#删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB
stage=gsub("[ABCD]$","",clin$ajcc_pathologic_stage)
#将Stage III和Stage IV替换成stage III/IV
stage=gsub("Stage IV.*","stage III/IV",stage)
stage=gsub("Stage III.*","stage III/IV",stage)
#将剩下的Stage I和Stage II替换成stage I/II
stage=gsub("Stage.*","stage I/II",stage)
#转换成因子
stage=factor(stage)
stage

可以得到下面这个两分组的因子

方法二、直接使用factor函数

#删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB
stage=gsub("[ABCD]$","",clin$ajcc_pathologic_stage)
#通过设置levels和labels实现合并
stage=factor(stage,levels=c("Stage I","Stage II","Stage III","Stage IV"),labels = c("stage I/II","stage I/II","stage III/IV","stage III/IV"))
stage

可以得到跟上面使用gsub一样的结果

接下来我们试着把组织病理分期从四个组合并成三个组,即stage I,stage II和stage III/IV,并转换成因子

也是我们在 m6a甲基化相关基因根据临床信息分组绘制boxplot并显示p值 一文中使用的分组方法

方法一、使用gsub函数方法

#删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB
stage=gsub("[ABCD]$","",clin$ajcc_pathologic_stage)
#将Stage III和Stage IV替换成stage III/IV,剩下的stageI和II保持不变
stage=gsub("Stage IV.*","stage III/IV",stage)
stage=gsub("Stage III.*","stage III/IV",stage)
#转换成因子
stage=factor(stage)
stage

可以得到如下因子

方法二、直接使用factor函数

#删除组织病理学分期末尾的A,B或者C等字母,例如Stage IIIA,Stage IIIB
stage=gsub("[ABCD]$","",clin$ajcc_pathologic_stage)
#通过设置levels和labels实现合并
stage=factor(stage,levels=c("Stage I","Stage II","Stage III","Stage IV"),labels = c("stage I","stage II","stage III/IV","stage III/IV"))
stage

可以得到跟gsub一样的结果

获取clinical.tsv文件,☞【R语言】因子在临床分组中的应用

参考资料:

【R语言】R中的因子(factor)

☞如何从TCGA数据库下载RNAseq数据以及临床信息(一)

☞【R语言】卡方检验和Fisher精确检验,复现临床paper

☞R生成临床信息统计表

☞玩转TCGA临床信息

☞TCGAbiolinks获取癌症临床信息

肿瘤TNM分期

R替换函数gsub

m6a甲基化相关基因根据临床信息分组绘制boxplot并显示p值

相关文章

  • 【R语言】因子在临床分组中的应用

    前面给大家简单介绍了 ☞【R语言】R中的因子(factor)[https://link.zhihu.com/?ta...

  • 【R语言】R中的因子(factor)

    R中的因子用于存储不同类别的数据,可以用来对数据进行分组,例如人的性别有男和女两个类别,根据年龄可以将人分为未成年...

  • 2018-04-19 PCA

    R语言主成分和因子分析篇 - CSDN博客 R语言做PCA的指导,很好 关于 R 中 princomp 和 prc...

  • R 语言-因子

    1、变量分类: (1)连续型变量(2)名义型变量(3)有序型变量在 R 中,名义型变量和有序型变量称为因子(fac...

  • R语言 因子

    因子是用于对数据进行分类并将其存储为级别的数据对象。 它们可以存储字符串和整数。 它们在具有有限数量的唯一值的列中...

  • R语言——因子

    变量课归结为名义型、有序型或连续型变量。 名义型变量是美哟顺序之分的类别变量。有序型变量表示一种顺序关系,而非数量...

  • R语言里面的因子

    R语言中的因子确实不好理解,很多人都这么觉得。在R语言中,因子(factor)表示的是一个符号、一个编号或者一个等...

  • R语言基础--数据类型-总结

    R语言基础--数据类型-总结 1、R语言基础--数据类型之向量 2、R语言基础--数据类型之因子 3、R语言基础-...

  • R语言入门2:数据结构-3

    6. 因子(farcor) 在R语言中,因子是用来处理分类数据的,分类数据又可以分为有序和无序。我们可以把因子简单...

  • R语言卡方检验大全

    本文首发于公众号:医学和生信笔记 医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化。主要分享R...

网友评论

      本文标题:【R语言】因子在临床分组中的应用

      本文链接:https://www.haomeiwen.com/subject/acztnltx.html