从CCLE中提取出目的细胞系的数据
较为熟悉的RNA分类为mRNA(信使RNA)、tRNA(转运RNA)和rRNA(核糖体RNA);RNA主要参与生化反应,也在细胞中发挥复杂的调控作用;
- mRNA由DNA转录而来,携带着翻译成蛋白质所需的编码信息;rRNA与蛋白质结合形成核糖体,转移至细胞质作为翻译的主要调控原件;tRNA携带氨基酸至核糖体,参与蛋白质合成;
- 此外,RNA也被分为编码RNA和非编码RNA。非编码RNA主要包括housekeeping ncRNAs (tRNA 、rRNA) 以及regulatory ncRNAs(可根据大小进一步划分为lncRNA和sncRNA).Small ncRNAs 又分为micro RNA (miRNA), small nucleolar RNA (snoRNA), small nuclear RNA (snRNA), small-interfering RNA (siRNA), 和 PIWI-interacting RNA (piRNA).
- miRNA大约22个核苷酸,大多真核细胞中发挥基因调控作用,通过与目标mRNA结合抑制基因的表达;很多miRNA在肿瘤中发挥重要作用,通过调控目标基因的表达,导致肿瘤的产生和疾病进展。
- piRNAs大约26-31个核苷酸,大多与转座子互补,通过调节转座子的转座来调控生殖细胞中基因的翻译。
- circRNA区别于其他类型的RNA,5'和3'末端结合在一起,形成环。由蛋白编码的基因产生,可通过竞争性结合miRNA发挥调控作用。
下载gtf文件通过ENS对应RNA的功能
zcat Homo_sapiens.GRCh38.96.gtf.gz|cut -f 9|sed -E 's/gene_version \".*gene_source \"\w+\";//g'|sed -E 's/; transcript.*//g'|sort|uniq >>GRCh38_ens.txt
-
下载CCLE数据库Data下的细胞系名称注释
-
RNA-seq数据在CCLE数据库中有多种数据格式,这里选的是counts数据
-
可以简单看下数据的格式
-
因为我的电脑服役时间比较长,所以我是从linux里提取的矩阵;
zcat CCLE_RNAseq_genes_rpkm_20180929.gct.gz |sed -n '3p' > cell_line.txt
awk '{for(i=1;i<=NF;i++){a[FNR,i]=$i}}END{for(i=1;i<=NF;i++){for(j=1;j<=FNR;j++){printf a[j,i]" "}print ""}}' cell_line.txt > tcell_line.txt
#####这里是把细胞系的名称转置成列,这样方便获取列号进行提取,有点儿笨,但先这样吧
cat > num.sh
cat $1|while read line
do
cat tcell_line.txt|grep -n ${line} >>$1_num.txt
done
#####此处有教训,scc.txt是在window里从excel筛选出来粘贴得到的,然后传到服务器,这里的格式不是unix格式,在grep过程中一直没有结果,在notepad++转成unix格式后,再传到服务器,运行脚本,才有结果;
######从excel中筛选的细胞系名称,最好加上Description,这样可以从矩阵中将基因名一起提取出来;
######$1这里是指我在windows里根据文章描述筛选出来的细胞系的txt;这里是要把对应的列取出来,之后方便用cut函数将对应的细胞系的表达情况的列取出来
cat > target.sh
cat $1|while read line
do
echo $line > line.txt
num=`cut -d ':' -f 1 line.txt`
col=`zcat CCLE_RNAseq_genes_counts_20180929.gct.gz|cut -f ${num} -`
echo $col > line1.txt
paste line1.txt >>$1_target.txt
done
#####这里是要根据上一步的列号,进行cut操作,echo之后,就是行的模式,可以重定向
网友评论