CCLE数据提取

作者: Juan_NF | 来源:发表于2019-05-30 11:07 被阅读46次

    从CCLE中提取出目的细胞系的数据

    较为熟悉的RNA分类为mRNA(信使RNA)、tRNA(转运RNA)和rRNA(核糖体RNA);RNA主要参与生化反应,也在细胞中发挥复杂的调控作用;

    1. mRNA由DNA转录而来,携带着翻译成蛋白质所需的编码信息;rRNA与蛋白质结合形成核糖体,转移至细胞质作为翻译的主要调控原件;tRNA携带氨基酸至核糖体,参与蛋白质合成;
    2. 此外,RNA也被分为编码RNA和非编码RNA。非编码RNA主要包括housekeeping ncRNAs (tRNA 、rRNA) 以及regulatory ncRNAs(可根据大小进一步划分为lncRNA和sncRNA).Small ncRNAs 又分为micro RNA (miRNA), small nucleolar RNA (snoRNA), small nuclear RNA (snRNA), small-interfering RNA (siRNA), 和 PIWI-interacting RNA (piRNA).
    3. miRNA大约22个核苷酸,大多真核细胞中发挥基因调控作用,通过与目标mRNA结合抑制基因的表达;很多miRNA在肿瘤中发挥重要作用,通过调控目标基因的表达,导致肿瘤的产生和疾病进展。
    4. piRNAs大约26-31个核苷酸,大多与转座子互补,通过调节转座子的转座来调控生殖细胞中基因的翻译。
    5. circRNA区别于其他类型的RNA,5'和3'末端结合在一起,形成环。由蛋白编码的基因产生,可通过竞争性结合miRNA发挥调控作用。
    下载gtf文件通过ENS对应RNA的功能
    zcat Homo_sapiens.GRCh38.96.gtf.gz|cut -f 9|sed -E 's/gene_version \".*gene_source \"\w+\";//g'|sed -E 's/; transcript.*//g'|sort|uniq >>GRCh38_ens.txt
    
    • CCLE https://portals.broadinstitute.org/ccle

    • 下载CCLE数据库Data下的细胞系名称注释


    • RNA-seq数据在CCLE数据库中有多种数据格式,这里选的是counts数据


    • 可以简单看下数据的格式


    • 因为我的电脑服役时间比较长,所以我是从linux里提取的矩阵;

    zcat CCLE_RNAseq_genes_rpkm_20180929.gct.gz |sed -n '3p' > cell_line.txt
    awk '{for(i=1;i<=NF;i++){a[FNR,i]=$i}}END{for(i=1;i<=NF;i++){for(j=1;j<=FNR;j++){printf a[j,i]" "}print ""}}' cell_line.txt  > tcell_line.txt
    #####这里是把细胞系的名称转置成列,这样方便获取列号进行提取,有点儿笨,但先这样吧
    cat > num.sh
    cat $1|while read line
    do
      cat tcell_line.txt|grep -n ${line} >>$1_num.txt
    done
    #####此处有教训,scc.txt是在window里从excel筛选出来粘贴得到的,然后传到服务器,这里的格式不是unix格式,在grep过程中一直没有结果,在notepad++转成unix格式后,再传到服务器,运行脚本,才有结果;
    ######从excel中筛选的细胞系名称,最好加上Description,这样可以从矩阵中将基因名一起提取出来;
    ######$1这里是指我在windows里根据文章描述筛选出来的细胞系的txt;这里是要把对应的列取出来,之后方便用cut函数将对应的细胞系的表达情况的列取出来
    cat > target.sh
    cat $1|while read line
    do
    echo $line > line.txt
    num=`cut -d ':' -f 1 line.txt`
    col=`zcat CCLE_RNAseq_genes_counts_20180929.gct.gz|cut -f ${num} -`
    echo $col > line1.txt
    paste line1.txt  >>$1_target.txt
    done
    #####这里是要根据上一步的列号,进行cut操作,echo之后,就是行的模式,可以重定向
    

    相关文章

      网友评论

        本文标题:CCLE数据提取

        本文链接:https://www.haomeiwen.com/subject/khngiqtx.html