#TCGA系列#TCGA基因/miRNA表达谱数据整合

作者: 生信杂谈 | 来源:发表于2017-05-30 20:28 被阅读241次

#本月回顾#基因组分析方法教程汇总
#TCGA系列#TCGA基因/miRNA表达谱数据整合(二)
#TCGA系列#TCGA基因/miRNA表达谱数据整合
#TCGA系列#TCGA基因/miRNA表达谱及临床数据下载
R语言可视化学习笔记之基因组数据可视化
GEPIA:TCGA和GTEx表达谱数据分析平台
零代码合并TCGA表达谱数据
TCGA的ID转换可以一步到位了
用MCP法计算TCGA样本中的免疫浸润
TCGA数据库的利用（三）—做差异分析的三种方法！

上期(#TCGA系列#TCGA基因/miRNA表达谱及临床数据下载)介绍了使用TCGA 的API下载肿瘤表达谱及临床数据,本期来处理上期下载的表达谱文件.还是以肝癌的miRNA表达谱为例.

我们上次已经下载了373个cases的425个表达谱文件,每个样本(case)的表达谱文件格式如下.

单个样本miRNA表达谱

其他所有样本的格式与上图相同.每列依次是miRNA名称,原始reads数目,归一化reads数RPM,最后一列cross-mapped miRNA.

目录结构如下,都是file_ID/file_name的:

425个表达谱文件结构

file_ID和file_name在上期下载的manifest中有,manifest文件如下:

包含file_ID和file name的manifest文件

我们的目的是将425个表达谱文件合并成一个表达谱矩阵,并且以file_ID为列名,如结果是类似下面的:

表达量矩阵

shell脚本如下:

# 合并425个样本的miRNA名及对应表达量RPM,最终结果应该是1882行miRNA和425列样本表达量的矩阵文件,代码如下:

# file_ID和file_name数组分别存储file ID和file name
bash
file_ID=(`awk '{if(NR>1)print $1}' ../gdc_manifest.2017-05-26T16-02-11.963011.tsv`)
file_name=(`awk '{if(NR>1)print $2}' ../gdc_manifest.2017-05-26T16-02-11.963011.tsv`)

# 数组file_path存储文件路径:
for((i=0;i<${#file_ID[@]};i++)){
    file_path[$i]="./"${file_ID[$i]}"/"${file_name[$i]}
    echo ${file_path[$i]}
}

# 使用awk二维数组进行合并:
awk -v file_num=${#file_path[@]} '
    BEGIN{
        OFS="\t";
    }
    {
        # 每一个文件第一行是列名,而我们不需要合并列名,所以要NR>1
        # 然后以miRNA($1),文件ID(ARGIND),构建值为表达量($2)二位数组a[miRNA][exp].
        if(FNR>1){a[$1][ARGIND]=$3;}
    }
    # 构建了425个数组后进行合并:
    END{
        for(i in a){    # 一维是miRNA,所以i就是miRNA
            printf "%s\t",i     #输出miRNA
            j=1;        # 为了不改变文件顺序所以使用渐加的方式循环
            while(j<file_num+1){        #循环输出每个样本中miRNA的表达量
                printf "%s\t",a[i][j];
                j=j+1;
            }
            print ""    #每一行加个换行
        }
    }' ${file_path[@]} >../miRNA_exp_matrix.txt

# 将file_ID添加到表达量矩阵中:
echo miRNA ${file_ID[@]}|sed 's/ /\t/g'|awk '{if(NR==FNR)print;if(NR>FNR)print}' -  ../miRNA_exp_matrix.txt >../miRNA_exp_matrix_tmp.txt
cp ../miRNA_exp_matrix_tmp.txt ../miRNA_exp_matrix.txt
#删除临时文件:
rm ../miRNA_exp_matrix_tmp.txt

# 将file_ID添加到表达量矩阵中也可以使用以下代码:
aaa=`echo miRNA ${file_ID[@]}|sed 's/ /\t/g' `
sed -i "1i $aaa" ../miRNA_exp_matrix.txt

这个脚本运算速度很快,2s左右.多样本基因表达谱整合也是如此,只需下载所有的单个表达谱文件后替换manifest文件直接运行上面脚本即可.

更多原创精彩内容敬请关注生信杂谈：

#本月回顾#基因组分析方法教程汇总
TCGA数据分析: TCGA基因/miRNA表达谱及临床数据下载TCGA基因/miRNA表达谱数据整合TCGA基因...
#TCGA系列#TCGA基因/miRNA表达谱数据整合(二)
上期(#TCGA系列#TCGA基因/miRNA表达谱数据整合)使用shell 对多样本表达谱文件整合,实现方式是...
#TCGA系列#TCGA基因/miRNA表达谱数据整合
上期(#TCGA系列#TCGA基因/miRNA表达谱及临床数据下载)介绍了使用TCGA 的API下载肿瘤表达谱及...
#TCGA系列#TCGA基因/miRNA表达谱及临床数据下载
这段时间在分析TCGA(Cancer Genome Atlas,癌症和肿瘤基因图谱)的数据,官网提供的下载途径极不...
R语言可视化学习笔记之基因组数据可视化
本文主要利用ggpubr包来探索基因组数据,主要是可视化TCGA基因组数据的基因表达谱。 TCGA是一个包含大量癌...
GEPIA:TCGA和GTEx表达谱数据分析平台
欢迎关注”生信修炼手册”! GEPIA整合了来自TCGA和GTEx项目中的基因表达谱数据，提供了多种数据分析和可视...
零代码合并TCGA表达谱数据
前面给大家介绍了☞如何使用R代码来合并TCGA数据库下载得到的RNAseq和miRNA seq的表达谱数据☜[ht...
TCGA的ID转换可以一步到位了
0.背景知识 TCGA或TCGA+GTEx的表达矩阵，行名都是ensamble id，因为TCGA数据的参考基因组...
用MCP法计算TCGA样本中的免疫浸润
下载TCGA FPKM数据下载TCGA临床数据 XENA官网下载整合好的数据整理表达矩阵提取mRNA和gen...
TCGA数据库的利用（三）—做差异分析的三种方法！
今天更新TCGA数据库的利用系列第三篇文章，在对TCGA数据进行挖掘时，通常会筛选出来一些表达量显著异常的基因，作...

#TCGA系列#TCGA基因/miRNA表达谱数据整合

我们上次已经下载了373个cases的425个表达谱文件,每个样本(case)的表达谱文件格式如下.

其他所有样本的格式与上图相同.每列依次是miRNA名称,原始reads数目,归一化reads数RPM,最后一列cross-mapped miRNA.

我们的目的是将425个表达谱文件合并成一个表达谱矩阵,并且以file_ID为列名,如结果是类似下面的:

shell脚本如下:

这个脚本运算速度很快,2s左右.多样本基因表达谱整合也是如此,只需下载所有的单个表达谱文件后替换manifest文件直接运行上面脚本即可.

相关文章

#本月回顾#基因组分析方法教程汇总

#TCGA系列#TCGA基因/miRNA表达谱数据整合(二)

#TCGA系列#TCGA基因/miRNA表达谱数据整合

#TCGA系列#TCGA基因/miRNA表达谱及临床数据下载

R语言可视化学习笔记之基因组数据可视化

GEPIA:TCGA和GTEx表达谱数据分析平台

零代码合并TCGA表达谱数据

TCGA的ID转换可以一步到位了

用MCP法计算TCGA样本中的免疫浸润

TCGA数据库的利用（三）—做差异分析的三种方法！

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

生物信息学习

生物信息笔记

生物信息

生物信息杂谈

生物信息学与算法

生物信息学

TCGA

TCGA数据挖掘