3大数据库超2万RNA-seq数据重新统一处理

3大数据库超2万RNA-seq数据重新统一处理

作者: 因地制宜的生信达人 | 来源:发表于2019-04-02 09:18 被阅读222次

3大数据库超2万RNA-seq数据重新统一处理
一文解决RNA测序资料的差异分析（limma,deseq,edg
mysql数据库基础
SCENIC是干啥的？
ImmuneCellAI数据库
印象笔记更名后，可避免数据库重新下载
HISAT2,StringTie，Ballgown处理转录组数据
yum 报错 error 0113
Python数据库操作
iOS超全开源框架、项目和学习资料汇总（4）数据库、缓存处理、图

3大数据库超2万RNA-seq数据重新统一处理

各种大型计划产出的RNA-seq数据资源已经非常丰富了，但是大家都想把多个数据库联合起来分析，就不得不面对批次效应这个问题，所以UCSC团队就使用统一的流程把这些数据重新处理了，在亚马逊云上，一个样本花费1.3美元。

发表在：Nature Biotechnology publication: https://doi.org/10.1038/nbt.3772

3大数据库是：

The Cancer Genome Atlas (TCGA)
Genotype-Tissue Expression (GTEx)
Therapeutically Applicable Research To Generate Effective Treatments (TARGET)

而且还提供网页工具供查询使用：

Differential gene and isoform expression of FOXM1 transcription factor in TCGA vs. GTEx

使用的数据处理流程

如下图： CutAdapt was used for adapter trimming, STAR was used for alignment, and RSEM and Kallisto were used as quantifiers.

img

流程介绍

如果你对RNA-seq数据处理流程有意外，直接去看我长达74个小时全套生物信息学入门视频：生信技能树视频课程学习路径，这么好的视频还免费！

参考基因组选择

STAR, RSEM, and Kallisto indexes were all built with the same reference genome. HG38 (no alt analysis) with overlapping genes from the PAR locus removed (chrY:10,000-2,781,479 and chrY:56,887,902-57,217,415).
- ftp://ftp.ncbi.nlm.nih.gov/genomes/archive/old_genbank/Eukaryotes/vertebrates_mammals/Homo_sapiens/GRCh38/seqs_for_alignment_pipelines

注释文件的选择

RSEM: Gencode V23 comprehensive annotation (CHR)
- http://www.gencodegenes.org/releases/23.html first row
Kallisto: Gencode V23 comprehensive annotation (ALL)
- http://www.gencodegenes.org/releases/23.html second row

软件参数的选择

STAR
- sudo docker run -v $(pwd):/data quay.io/ucsc_cgl/star --runThreadN 32 --runMode genomeGenerate --genomeDir /data/genomeDir --genomeFastaFiles hg38.fa --sjdbGTFfile gencode.v23.annotation.gtf
Kallisto
- sudo docker run -v $(pwd):/data quay.io/ucsc_cgl/kallisto index -i hg38.gencodeV23.transcripts.idx transcriptome_hg38_gencodev23.fasta
- Kallisto index that was used during the recompute is available here.
RSEM
- sudo docker run -v $(pwd):/data --entrypoint=rsem-prepare-reference jvivian/rsem -p 4 --gtf gencode.v23.annotation.gtf hg38.fa hg38

可以看到，上面的3大要素，就是我五年前在生信菜鸟团博客写教程的基本规律。

Raw data

Nature Publication Supplementary Note 7 – Data Availability

Submitter sample ID to Xena sample ID mapping

TCGA mapping

GTEx mapping

TARGET mapping

最后公布的可供下载的数据集

GTEX (11 datasets)
TARGET Pan-Cancer (PANCAN) (12 datasets)
TCGA and TARGET Pan-Cancer (PANCAN) (4 datasets)
TCGA Pan-Cancer (PANCAN) (10 datasets)
TCGA TARGET GTEx (13 datasets)

其中TCGA TARGET GTEx 3大数据库) (共有 13 datasets)

cohort: TCGA TARGET GTEx

表达矩阵样本量很可观

RSEM expected_count

(n=19,109)

UCSC Toil RNAseq Recompute
RSEM expected_count (DESeq2 standardized)

(n=19,039)

UCSC Toil RNAseq Recompute

RSEM expected_count output normalized using DESeq2
RSEM fpkm

(n=19,131)

UCSC Toil RNAseq Recompute

RSEM norm_count

(n=19,120)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx gene expression by UCSC TOIL RNA-seq recompute
RSEM tpm

(n=19,131)

UCSC Toil RNAseq Recompute

phenotype

TCGA GTEX main categories

(n=17,221)

UCSC Toil RNAseq Recompute

TCGA survival data

(n=10,496)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEX selected phenotypes

(n=19,131)

UCSC Toil RNAseq Recompute

somatic mutation (SNP and INDEL)

TCGA somatic mutations (Pan-cancer Atlas MC3 public version)

(n=8,463)

UCSC Toil RNAseq Recompute

transcript expression RNAseq

RSEM expected_count

(n=19,109)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx transcript expression by RSEM using UCSC TOIL RNA-seq recompute
RSEM fpkm

(n=19,129)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx transcript expression by RSEM using UCSC TOIL RNA-seq recompute
RSEM isoform percentage

(n=19,131)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx transcript expression by RSEM using UCSC TOIL RNA-seq recompute
RSEM tpm

(n=19,131)

UCSC Toil RNAseq Recompute

TCGA TARGET GTEx transcript expression by RSEM using UCSC TOIL RNA-seq recompute

相关文章

3大数据库超2万RNA-seq数据重新统一处理
3大数据库超2万RNA-seq数据重新统一处理各种大型计划产出的RNA-seq数据资源已经非常丰富了，但是大家都...
一文解决RNA测序资料的差异分析（limma,deseq,edg
本文目标：（1）使用edger包做TCGA数据库RNA-seq数据差异分析（2）使用deseq包做TCGA数据库R...
mysql数据库基础
mysql数据库基础数据库基础数据库简介数据集合长期存储有组织的共享的统一管理的特点数据共享数据独立性统一...
SCENIC是干啥的？
SCENIC是干啥的？【输入】motif数据库、单细胞RNA-seq数据【输出】regulons、每个细胞的r...
ImmuneCellAI数据库
ImmuneCellAI数据库 --RNA-Seq或者芯片数据估计免疫细胞浸润丰度的工具--网址（http://b...
印象笔记更名后，可避免数据库重新下载
通过下面处理方式，可以避免重新下载数据库。第一步：找到印象笔记数据库的位置 1.0 工具 → 选项 2.0选项 ...
HISAT2,StringTie，Ballgown处理转录组数据
HISAT2,StringTie，Ballgown处理转录组数据思路如下：数据质控将RNA-seq的测序rea...
yum 报错 error 0113
rpm数据库损坏（重新构建rpm数据库）解决：
Python数据库操作
Python DB API Python 访问数据库的统一接口程序数据库连接对象 - connection 数据...
iOS超全开源框架、项目和学习资料汇总（4）数据库、缓存处理、图
iOS超全开源框架、项目和学习资料汇总（4）数据库、缓存处理、图像浏览、摄像照相视频音频篇 iOS超全开源框架、项...

网友评论

本文标题：3大数据库超2万RNA-seq数据重新统一处理

本文链接：https://www.haomeiwen.com/subject/wkqwbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

生物信息学

热点阅读

生物信息学

scRNA-seq

RNA-seq

my RNA-seq

关于我们|服务条款|联系我们|3大数据库超2万RNA-seq数据重新统一处理|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！