2020-10-05 miRNA预后模型文章套路视频(COX模型

作者: whykm | 来源:发表于2020-10-06 06:43 被阅读0次

2020-10-05 miRNA预后模型文章套路视频(COX模型
【搬砖】构建预后signature 实践
纯生信分析套路 lncRNA预后模型+mRNA预后模型联合分析
机器学习之Lasso回归
比例风险(Cox)回归模型——Proportional haza
Cox模型的假设
R语言生存分析04-Cox比例风险模型诊断
R语言ROC曲线绘制01-survivalROC
从Cox回归寻找客户流失的因素
R语言ggplot2绘制箱线图

mRNAdownload-转录组数据下载

Google一下 “TCGA GDC”，进入网址：https://portal.gdc.cancer.gov/
清空cart中的数据

image.png
点击repository下载数据

image.png
先选择“Cases”中的数据

image.png
再选择“Files”中的数据

image.png
选择好以后加入Carts

image.png
要下载三个数据
第一个是Metadata
第二个是Manifest
第三个是Cart
网页版下载可直接点击后下载

image.png
下载好的数据如图所示：

image.png

软件下载数据方法：

先下载gdc_manifest数据和gdc_sample_sheet数据到一个文件夹中
将gdc-client拷贝于同个文件夹

image.png

点击这个圈圈后输入cmd进入终端，然后输入代码【cd 文件夹路径】（例子：cd C:\Users\Administrator\Desktop\m6A_ESCA_data ）进入该文件夹
然后输入代码【软件名 download -m manifest文件名】（例子：）

image.png

转录组数据整理

将cart文件（gdc_download_20191221_001421.542019.tar.gz）和.json文件（metadata.cart.2019-12-21.json）拷贝到同个文件夹，将cart文件进行解压，可看到每个样品有一个目录，目录下是一个压缩包。
+将moveFile.pl脚本拷贝到cart文件解压后的文件夹中，然后运行脚本。

image.png
运行方法：cmd进入终端，然后cd 文件夹名字，然后进入该文件夹，然后输入perl moveFile.pl将所有目录下的压缩包移动到一个文件夹中。

image.png

我们可看到多了个file文件夹

image.png
在这个文件夹中将所有文件解压到当前文件夹，删除压缩包，然后将merge.pl和meta文件拷贝到这个文件夹。

image.png

然后再运行一下perl脚本。运行代码：perl merge.pl metadata.cart.2019-12-21.json（即 perl merge.pl meta文件）

image.png
可得到所需行名为ensemble id，列名为样品名的矩阵，然后得到正常样本和肿瘤样本的个数，将这个数值记录下来。
image.png
image.png

id转换

输入文件准备：一个脚本：symbol.pl，一个是human.gtf（GCA_000001405.27），一个是上面得到的mRNAmatrix.txt文件，运行脚本，得到symbol.txt
临床数据下载谷歌TCGA GDC ，清空cart，然后选cases和files，加入到cart

https://portal.gdc.cancer.gov/

image.png

image.png
只需要下载cart文件

image.png

另外一种下载方法：

先下载好manifest文件，

image.png
image.png

使用gdc-client.exe软件，cmd进入终端，输入gdc-client.exe download -m gdc_manifest_20200406_123044.txt
可下载好文件如图所示，共307个文件：

image.png

getClinical-临床信息提取

将下载好的临床数据的cart文件解压

image.png

将脚本getClinical.pl拷贝进文件夹

image.png

得到clinical.xls文件

image.png

miRNA数据下载

进入TCGA官网，清空cart
https://portal.gdc.cancer.gov/repository

image.png

image.png
加入到cart
仍然是下载三种数据

image.png
下载好的数据如图所示

image.png

miRNA数据合并

输入文件准备：
- cart文件（gdc_download_20191219_135157.526001.tar.gz）
- meta文件（metadata.cart.2019-12-18.json）
  - 将cart文件进行解压
    - image.png
    - 将脚本（miRNA_merge.pl）和meta文件（metadata.cart.2019-12-18.json）拷贝进解压后的文件夹,运行脚本（注意文件名不要有中文！！！！！）

miRNAidTrans-miRNA数据id转换

输入文件准备：得到的miRNAbase.txt
进入miRNAbase数据库，进入download界面（http://www.mirbase.org/ftp.shtml）
image.png
下载成熟体文件
image.png
将下载好的文件进行解压
image.png
将脚本拷贝到同个文件夹
运行脚本：perl matureTrans.pl
可得到结果：
image.png

mRNAdiff-转录组差异分析

准备好输入文件：symbol.txt；
记住正常样本和肿瘤样本的数目：normalTumor.txt

image.png

然后运行R脚本miRNAcox11.edgeR.R

miRNAdiff-miRNA差异分析

准备好输入文件：miRNAmatrix.txt
记住miRNA中的正常赝本和肿瘤样本的是数据：normalTumorMi.txt
运行R脚本：miRNAcox12.edgeR.R
image.png

miRNA数据和生存时间合并

将clinical.txt数据删除掉生存时间不明及生存时间小于三十天数据，然后将id futime fustat三列数据拷贝到time.txt文件中，如图所示：

image.png

可用R语言处理，拙劣的代码如下：

rm(list = ls())
rt_data=read.table("diffMirnaExp.txt",sep="\t",header=T,check.names=F)  
rt_time=read.table("time.txt",sep="\t",header=T,check.names=F) 
t_rt_data=t(rt_data)
colnames(t_rt_data) <- t_rt_data[1,]
t_rt_data <- t_rt_data[-1,]
data <- t_rt_data 
group=sapply(strsplit(rownames(data),"\\-"),"[",4)
table(group=sapply(strsplit(group,""),"[",1))
data <- data[-(1:45),]
dim(data)
rownames(data)=gsub("(.*?)\\-(.*?)\\-(.*?)\\-(.*?)\\-.*","\\1\\-\\2\\-\\3",rownames(data))
data <- cbind(rownames(data),data)
colnames(data)[1] <- "Id"
mergedata <- merge(rt_time, data, by = "Id")
write.table(mergedata,file="expTime.txt",sep="\t",row.names=F,quote=F)