CCLE数据提取

作者: Juan_NF | 来源:发表于2019-05-30 11:07 被阅读46次

从CCLE中提取出目的细胞系的数据

了解RNA
https://www.britannica.com/science/RNA

较为熟悉的RNA分类为mRNA（信使RNA）、tRNA(转运RNA)和rRNA（核糖体RNA）；RNA主要参与生化反应，也在细胞中发挥复杂的调控作用；

mRNA由DNA转录而来，携带着翻译成蛋白质所需的编码信息；rRNA与蛋白质结合形成核糖体，转移至细胞质作为翻译的主要调控原件;tRNA携带氨基酸至核糖体，参与蛋白质合成；

此外，RNA也被分为编码RNA和非编码RNA。非编码RNA主要包括housekeeping ncRNAs (tRNA 、rRNA) 以及regulatory ncRNAs（可根据大小进一步划分为lncRNA和sncRNA）.Small ncRNAs 又分为micro RNA (miRNA), small nucleolar RNA (snoRNA), small nuclear RNA (snRNA), small-interfering RNA (siRNA), 和 PIWI-interacting RNA (piRNA).

miRNA大约22个核苷酸，大多真核细胞中发挥基因调控作用，通过与目标mRNA结合抑制基因的表达；很多miRNA在肿瘤中发挥重要作用，通过调控目标基因的表达，导致肿瘤的产生和疾病进展。

piRNAs大约26-31个核苷酸，大多与转座子互补，通过调节转座子的转座来调控生殖细胞中基因的翻译。

circRNA区别于其他类型的RNA，5'和3'末端结合在一起，形成环。由蛋白编码的基因产生，可通过竞争性结合miRNA发挥调控作用。

下载gtf文件通过ENS对应RNA的功能

zcat Homo_sapiens.GRCh38.96.gtf.gz|cut -f 9|sed -E 's/gene_version \".*gene_source \"\w+\";//g'|sed -E 's/; transcript.*//g'|sort|uniq >>GRCh38_ens.txt

CCLE https://portals.broadinstitute.org/ccle
下载CCLE数据库Data下的细胞系名称注释
RNA-seq数据在CCLE数据库中有多种数据格式，这里选的是counts数据
可以简单看下数据的格式
因为我的电脑服役时间比较长，所以我是从linux里提取的矩阵；

zcat CCLE_RNAseq_genes_rpkm_20180929.gct.gz |sed -n '3p' > cell_line.txt
awk '{for(i=1;i<=NF;i++){a[FNR,i]=$i}}END{for(i=1;i<=NF;i++){for(j=1;j<=FNR;j++){printf a[j,i]" "}print ""}}' cell_line.txt  > tcell_line.txt
#####这里是把细胞系的名称转置成列，这样方便获取列号进行提取，有点儿笨，但先这样吧
cat > num.sh
cat $1|while read line
do
  cat tcell_line.txt|grep -n ${line} >>$1_num.txt
done
#####此处有教训，scc.txt是在window里从excel筛选出来粘贴得到的，然后传到服务器，这里的格式不是unix格式，在grep过程中一直没有结果，在notepad++转成unix格式后，再传到服务器，运行脚本，才有结果；
######从excel中筛选的细胞系名称，最好加上Description，这样可以从矩阵中将基因名一起提取出来；
######$1这里是指我在windows里根据文章描述筛选出来的细胞系的txt；这里是要把对应的列取出来，之后方便用cut函数将对应的细胞系的表达情况的列取出来
cat > target.sh
cat $1|while read line
do
echo $line > line.txt
num=`cut -d ':' -f 1 line.txt`
col=`zcat CCLE_RNAseq_genes_counts_20180929.gct.gz|cut -f ${num} -`
echo $col > line1.txt
paste line1.txt  >>$1_target.txt
done
#####这里是要根据上一步的列号，进行cut操作，echo之后，就是行的模式，可以重定向

网友评论

本文标题：CCLE数据提取

本文链接：https://www.haomeiwen.com/subject/khngiqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

CCLE数据提取

下载gtf文件通过ENS对应RNA的功能

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

TCGA数据分析

生信点点滴滴