2019-07-03R语言中级作业（修改）

作者: LiuYueRR | 来源:发表于2019-07-03 19:04 被阅读0次

2019-07-03R语言中级作业（修改）
R语言作业·中级
R语言作业—中级
R语言小作业-中级
R语言小作业-中级
R语言中级作业
R语言小作业-中级
R语言小作业-中级
R语言小作业-中级
2019-06-29 R语言作业（中级）

R语言作业（中级）题目链接：http://www.bio-info-trainee.com/3750.html

作业1 根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)

#1.加载这个注释包org.Hs.eg.db
library(org.Hs.eg.db) 
#了解一下这个包 ?org.Hs.eg.db 发现里面含有一个函数可以查看org.Hs.eg.db包的信息 columns()
columns(org.Hs.eg.db)
keytypes(org.Hs.eg.db)
#了解一个函数toTable(),
#toTable(x) turns Bimap object x into a data frame
g2s=toTable(org.Hs.egSYMBOL)
g2e=toTable(org.Hs.egENSEMBL)
head(g2s)
head(g2e)
#根据R包org.Hs.eg.db找到下面ensembl基因ID对应的基因名
ensembl_id <- c('ENSG00000000003.13','ENSG00000000005.5','ENSG00000000419.11','ENSG00000000457.12','ENSG00000000460.15','ENSG00000000938.11')
#切割字符串，得到ensemble_id
library(stringr)
str_split(ensembl_id,pattern = '[.]',simplify = T)[,1]
ensembl_id <- as.data.frame(str_split(ensembl_id,pattern = '[.]',simplify = T)[,1]
)
#合并之前，需要将列明进行改变，方便merge
colnames(ensembl_id) <- c('ensembl_id')
ensembl = merge(ensembl_id, g2e, by='ensembl_id')
#根据geneid再次进行合并找到symbol
work1 <- merge(ensembl,g2s,by='gene_id')

作业2 根据R包hgu133a.db找到下面探针对应的基因名(symbol)

options(BioC_mirror='https://mirrors.ustc.edu.cn/bioc')
if(!require('hgu133a.db')) BiocManager::install('hgu133a.db',ask = F,update = F)
library(hgu133a.db)
columns(hgu133a.db)
ids=toTable(hgu133aSYMBOL)
head(ids)
#找到下面探针对应的基因名(symbol)
prb <- read.table('names.txt')
head(prb)
colnames(prb)='probe_id'
head(prb)
work2 <- merge(prb,ids,by='probe_id')

作业3 找到R包CLL内置的数据集的表达矩阵里面的TP53基因的表达量，并且绘制在 progres.-stable分组的boxplot图

#使用CLL包时，需要了解这个包 ?CLL  发现里面有一个data(sCLLex)
library(CLL)
data("sCLLex")
exprSet=exprs(sCLLex)#提取表达矩阵
dim(exprSet)#表达矩阵的维度
pData(sCLLex)#sCLLex的分组情况
sampleNames(sCLLex)#sCLLex的样本名称
varMetadata(sCLLex)#sCLLex的标签描述
varLabels(sCLLex)#sCLLex的观测变量
#寻找TP53基因的表达量，并且绘制在 progres.-stable分组的boxplot图
head(exprSet)
#head一下发现exprSet里面是probe_id,需要进行id转换
library(hgu95av2.db)
columns(hgu95av2.db)
g3s=toTable(hgu95av2SYMBOL)
head(g3s)
which(g3s[,2]=='TP53')
g3s[c(966,997,1420),c(1,2)]
#绘制在 progres.-stable分组的boxplot图
pdata <- pData(sCLLex)
boxplot(exprSet[966,] ~ pdata$Disease) 
boxplot(exprSet[997,] ~ pdata$Disease)
boxplot(exprSet[1420,] ~ pdata$Disease)
#ggpubr美化图形
mean(exprSet['1939_at',])
mean(exprSet['1974_s_at',])
mean(exprSet['31618_at',])
TP53_exprSet <-cbind(as.data.frame(exprSet['1939_at',]),as.data.frame(pdata$Disease))
colnames(TP53_exprSet)<-c("expression","Disease")
library(ggpubr)
p <- ggboxplot(TP53_exprSet, x = "Disease", y = "expression",
               color = "Disease", palette =c("#00AFBB", "#E7B800"),
               add = "jitter", shape = "Disease")
my_comparisons <- list( c("progres.", "stable"))
p <- p + stat_compare_means(comparisons = my_comparisons)
p

Rplot1.png

Rplot2.png

作业4 作业4 找到BRCA1基因在TCGA数据库的乳腺癌数据集(Breast Invasive Carcinoma (TCGA, PanCancer Atlas))的表达情况

作业5 找到TP53基因在TCGA数据库的乳腺癌数据集的表达量分组看其是否影响生存

作业6 下载数据集GSE17215的表达矩阵并且提取下面的基因画热图

exprSet <- read.table('GSE17215_series_matrix.txt',header = T,comment.char = '!',stringsAsFactors = F)

g6id <- c('ACTR3B','ANLN','BAG1','BCL2' ,'BIRC5' ,'BLVRA', 'CCNB1', 'CCNE1' ,'CDC20' ,'CDC6', 'CDCA1', 'CDH3', 'CENPF', 'CEP55', 'CXXC5', 'EGFR', 'ERBB2', 'ESR1', 'EXO1', 'FGFR4', 'FOXA1', 'FOXC1', 'GPR160', 'GRB7', 'KIF2C', 'KNTC2', 'KRT14', 'KRT17', 'KRT5', 'MAPT', 'MDM2', 'MELK', 'MIA', 'MKI67', 'MLPH', 'MMP11', 'MYBL2', 'MYC', 'NAT1','ORC6L' ,'PGR', 'PHGDH', 'PTTG1', 'RRM2', 'SFRP1', 'SLC39A6', 'TMEM45B', 'TYMS', 'UBE2C', 'UBE2T')
g6id2 <- data.frame(g6id)
colnames(g6id2) <- c('symbol')
GSE17215_annotation <- data.table::fread('GPL3921.annot',header = T)
g6s <- GSE17215_annotation[,c(1,3)]
colnames(g6s) <- c('ID','symbol')
g6id_merge <- merge(g6id2,g6s,by='symbol')
colnames(exprSet)[1] <- 'REF_ID'
colnames(g6id_merge)[2] <- 'REF_ID'
g6_expression <- merge(g6id_merge,exprSet,by='REF_ID')
g6_expression <- g6_expression[,-1]
#绘制热图
library(pheatmap)
table(g6_expression[,1])
length(unique(g6_expression[,1]))
nrow(g6_expression)
#发现探针ID对应了多个基因ID，因此要对基因ID进行删除重复
library(dplyr)
tmp <- g6_expression %>% select(symbol,1:(length(g6_expression))) %>% mutate(rowMean=rowMeans(.[grep('GSM',names(.))])) %>% arrange(desc(rowMean)) %>% distinct(symbol,.keep_all = T) %>% select(-rowMean)
g6_exp <- g6_expression %>% select(symbol,1:(length(g6_expression))) %>% mutate(rowMean=rowMeans(.[grep('GSM',names(.))])) %>% arrange(desc(rowMean)) %>% distinct(symbol,.keep_all = T) %>% select(-rowMean)
rownames(g6_exp) <- g6_exp[,1]
g6_exp <- g6_exp[,-1]
pheatmap(g6_exp,scale = 'row')

Rplot5.png

作业7 下载数据集GSE24673的表达矩阵计算样本的相关性并且绘制热图，需要标记上样本分组信息

exprSet <- read.table('GSE24673_series_matrix.txt',header = T,comment.char = '!',row.names = 1)
cor(exprSet)
library(pheatmap)
pheatmap(cor(exprSet))
colnames(exprSet)
col <- colnames(exprSet)
#添加注释信息
group_list=c(rep('RB_139_09_TR',3),rep('RB_535_09_TR',3),rep('RB_984_09_TR',3),rep('Human_Healthy_Retina',2))
group <- data.frame(col,group_list)
rownames(group) <- group[,1]
group <- group[,-1]
group <- as.character(group)
group <- as.data.frame(group)
rownames(group) <- colnames(exprSet)
pheatmap(cor(exprSet),annotation_col = group,annotation_legend = T)

Rplot3.png

作业8 找到 GPL6244 platform of Affymetrix Human Gene 1.0 ST Array 对应的R的bioconductor注释包，并且安装它

options()$repos
options()$BioC_mirror 
if(length(getOption('BioC_mirror'))==0) options(BioC_mirror='https://mirror.ustc.edu.cn/bioc/')
if(!require('hugene10sttranscriptcluster.db')) BiocManager::install('hugene10sttranscriptcluster.db',ask = F,update = F)

作业9 下载数据集GSE42872的表达矩阵，并且分别挑选出所有样本的(平均表达量/sd/mad/)最大的探针，并且找到它们对应的基因。

rm(list = ls())
options(stringsAsFactors = F)
exprSet <- read.table('GSE42872_series_matrix.txt',header = T,comment.char = '!',row.names = 1)
tmp_mean <- apply(exprSet, 1, mean)
tmp_mean_1 <- sort(tmp_mean,decreasing = T)[1]
tmp_mean_1
tmp_sd <- apply(exprSet, 1, sd)
tmp_sd_1 <- sort(tmp_sd,decreasing = T)[1]
tmp_sd_1
tmp_mad <- apply(exprSet, 1, mad)
tmp_mad_1 <- sort(tmp_mad,decreasing = T)[1]
tmp_mad_1
#寻找到探针对应的基因SYMBOL
library(hugene10sttranscriptcluster.db)
g9s <- toTable(hugene10sttranscriptclusterSYMBOL)
which(g9s$probe_id=='7978905')
which(g9s$probe_id=='8133876')
g9s[16473,]

作业10 下载数据集GSE42872的表达矩阵，并且根据分组使用limma做差异分析，得到差异结果矩阵

library(hugene10sttranscriptcluster.db)
g9s <- toTable(hugene10sttranscriptclusterSYMBOL)
which(g9s$probe_id=='7978905')
which(g9s$probe_id=='8133876')
g9s[16473,]

####作业10下载数据集GSE42872的表达矩阵，并且根据分组使用limma做差异分析，得到差异结果矩阵
rm(list=ls())
exprSet <- read.table('GSE42872_series_matrix.txt',comment.char = '!',header = T)
library(hugene10sttranscriptcluster.db)
g10s <- toTable(hugene10sttranscriptclusterSYMBOL)
colnames(exprSet)[1] <- 'probe_id'
exprSet_merge <- merge(exprSet,g10s,by='probe_id')
nrow(exprSet_merge)
length(unique(exprSet_merge$symbol))
table(exprSet_merge$symbol)
##探针转化以及去重，得到最终的表达矩阵
library(dplyr)
exprSet_expression <- exprSet_merge %>% select(-probe_id) %>%
  select(symbol,1:(length(exprSet)-1)) %>% mutate(rowMean=rowMeans(.[grep('GSM',names(.))]))%>% arrange(desc(rowMean)) %>% distinct(symbol,.keep_all = T) %>% select(-rowMean)
rownames(exprSet_expression) <- exprSet_expression[,1]
exprSet_expression <- exprSet_expression[,-1]
#加载limma包进行差异表达分析
library(limma)
group <- c (rep('con',3),rep('treatment',3))
design <- model.matrix(~factor(group))
colnames(design) <- c('con','treatment')
design
fit <- lmFit(exprSet_expression,design)
fit2 <- eBayes(fit)
allDiff=topTable(fit2,adjust='fdr',coef=2,number = Inf)
diffLab <- subset(allDiff,abs(logFC)>1 & adj.P.Val<0.05)
save(diffLab,group,allDiff,file = 'diff.Rdata')
#火山图的绘制
library(ggplot2)
allDiff[allDiff$adj.P.Val <0.05 & allDiff$logFC >1,ncol(allDiff)+1]="Up"
allDiff[allDiff$adj.P.Val <0.05 & allDiff$logFC < -1,ncol(allDiff)]="Down"
allDiff[allDiff$adj.P.Val>=0.05 | 1 > abs(allDiff$logFC),ncol(allDiff)]="Normal"
colnames(allDiff)[ncol(allDiff)]="Regulate"
allDiff$Regulate=factor(allDiff$Regulate,levels = c("Up","Down","Normal"),order=T)

col=c("red","lightseagreen", "black")
p_volcano=ggplot(allDiff,aes(x=logFC,y=-log10(adj.P.Val)))+
  geom_point(aes(color=allDiff$Regulate),alpha=0.5)+scale_color_manual(values =col)+
  geom_hline(yintercept=c(-log10(0.05)),linetype=4)+
  geom_vline(xintercept=c(-log2(2),log2(2)),linetype=4)+
  theme(
    legend.text = element_text(size = 10, face = "bold"),
    legend.position = 'right',
    legend.key.size=unit(0.5,'cm'),
    axis.text.x=element_text(size = 10,face = "bold", vjust = 0.5, hjust = 0.5),
    axis.text.y=element_text(size = 10,face = "bold", vjust = 0.5, hjust = 0.5),
    axis.title.x = element_text(size = 10,face = "bold", vjust = 0.5, hjust = 0.5),
    axis.title.y = element_text(size = 10,face = "bold", vjust = 0.5, hjust = 0.5),
    
    panel.background = element_rect(fill = "transparent",colour = "black"), 
    panel.grid.minor = element_line(color="lightgrey",size=0.1),
    panel.grid.major = element_line(color="lightgrey",size=0.1),
    plot.background = element_rect(fill = "transparent",colour = "black")
  )
p_volcano

Rplot4.png

2019-07-03R语言中级作业（修改）
R语言作业（中级）题目链接：http://www.bio-info-trainee.com/3750.html 作...
R语言作业·中级
【作业1】请根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol) [提示...
R语言作业—中级
教程对应B站：【生信技能树】生信人应该这样学R语言配套资料：B站的11套生物信息学公益视频配套讲义、练习题及思维导...
R语言小作业-中级
首先需要完成R语言练习题-初级，在[link]http://www.bio-info-trainee.com/37...
R语言小作业-中级
作业 1 请根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)ENSG...
R语言中级作业
主要内容探针ID转换表达矩阵处理任意基因任意癌症表达量和临床形状的关联任意基因任意癌症表达量分组的生存分析...
R语言小作业-中级
未完待续。。。
R语言小作业-中级
学习了一段时间的R，开始做些题，来加深所学的知识。 1.根据R包org.Hs.eg.db找到下面ensembl 基...
R语言小作业-中级
首先需要完成R语言练习题-初级，在http://www.bio-info-trainee.com/3793.htm...
2019-06-29 R语言作业（中级）
R语言作业（中级）题目链接：http://www.bio-info-trainee.com/3750.html 作...

2019-07-03R语言中级作业（修改）

R语言作业（中级）题目链接：http://www.bio-info-trainee.com/3750.html

作业1 根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)

作业2 根据R包hgu133a.db找到下面探针对应的基因名(symbol)

作业3 找到R包CLL内置的数据集的表达矩阵里面的TP53基因的表达量，并且绘制在 progres.-stable分组的boxplot图

作业4 作业4 找到BRCA1基因在TCGA数据库的乳腺癌数据集(Breast Invasive Carcinoma (TCGA, PanCancer Atlas))的表达情况

作业5 找到TP53基因在TCGA数据库的乳腺癌数据集的表达量分组看其是否影响生存

作业6 下载数据集GSE17215的表达矩阵并且提取下面的基因画热图

作业7 下载数据集GSE24673的表达矩阵计算样本的相关性并且绘制热图，需要标记上样本分组信息

作业8 找到 GPL6244 platform of Affymetrix Human Gene 1.0 ST Array 对应的R的bioconductor注释包，并且安装它

作业9 下载数据集GSE42872的表达矩阵，并且分别挑选出所有样本的(平均表达量/sd/mad/)最大的探针，并且找到它们对应的基因。

作业10 下载数据集GSE42872的表达矩阵，并且根据分组使用limma做差异分析，得到差异结果矩阵

相关文章

2019-07-03R语言中级作业（修改）

R语言作业·中级

R语言作业—中级

R语言小作业-中级

R语言小作业-中级

R语言中级作业

R语言小作业-中级

R语言小作业-中级

R语言小作业-中级

2019-06-29 R语言作业（中级）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

工作生活

2019-07-03R语言中级作业（修改）

R语言作业（中级）题目链接：http://www.bio-info-trainee.com/3750.html

作业1 根据R包org.Hs.eg.db找到下面ensembl 基因ID 对应的基因名(symbol)

作业2 根据R包hgu133a.db找到下面探针对应的基因名(symbol)

作业3 找到R包CLL内置的数据集的表达矩阵里面的TP53基因的表达量，并且绘制在 progres.-stable分组的boxplot图

作业4 作业4 找到BRCA1基因在TCGA数据库的乳腺癌数据集(Breast Invasive Carcinoma (TCGA, PanCancer Atlas))的表达情况

作业5 找到TP53基因在TCGA数据库的乳腺癌数据集的表达量分组看其是否影响生存

作业6 下载数据集GSE17215的表达矩阵并且提取下面的基因画热图

作业7 下载数据集GSE24673的表达矩阵计算样本的相关性并且绘制热图，需要标记上样本分组信息

作业8 找到 GPL6244 platform of Affymetrix Human Gene 1.0 ST Array 对应的R的bioconductor注释包，并且安装它

作业9 下载数据集GSE42872的表达矩阵，并且分别挑选出 所有样本的(平均表达量/sd/mad/)最大的探针，并且找到它们对应的基因。

作业10 下载数据集GSE42872的表达矩阵，并且根据分组使用limma做差异分析，得到差异结果矩阵

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

作业9 下载数据集GSE42872的表达矩阵，并且分别挑选出所有样本的(平均表达量/sd/mad/)最大的探针，并且找到它们对应的基因。