11.安装 samtools软件
$ conda install samtools
12.打开后缀为BAM的文件,找到产生该文件的命令。
$ find *.bam
$ samtools view SRR1039510.sort.bam|less -S
$ whereis samtools
samtools: /trainee2/hz10/miniconda2/envs/rna2/bin/samtools /trainee2/hz10/miniconda2/envs/rna2/bin/samtools.pl
13. 根据上面的命令,找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。
$ less -SN hg38.fa |grep ">"|cut -d"_" -f 1|sort -u|wc
2 2 5
14. 上面的后缀为BAM 的文件的第二列,只有0和16 两个数字,用 cut/sort/uniq等命令统计它们的个数
$ samtools view tmp.sorted.bam|less -S|cut -f 2 |sort -u |wc
15. 重新打开rmDuplicate/samtools/paired文件夹下面的后缀为BAM的文件,再次查看第二列,并且统计。
$ cd ~/task/rmDuplicate/samtools/paired/
$ samtools view tmp.sorted.bam|less -S|cut -f 2 |sort -u |wc
10 10 37
16. 下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解压,查看里面的文件夹结构, 这个文件有2.3M,注意留心下载时间及下载速度。
$ wget http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
$ unzip sickle-results.zip
$ tree sickle-results
17. 解压 sickle-results/single_tmp_fastqc.zip文件,并且进入解压后的文件夹,找到fastqc_data.txt 文件,并且搜索该文本文件以 >>开头的有多少行?
$ unzip single_tmp_fastqc.zip
$ cd single_tmp_fastqc
$ less -S fastqc_data.txt|grep ">>"|wc
24 62 518
18. 下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID,然后找到它们在hg38.tss 文件的哪一行
$ wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss
$ less -S hg38.tss|grep -n NR_027676
12731:NR_027676 chr17 43123323 43127323 1
19. 解析hg38.tss 文件,统计每条染色体的基因个数。
$ less -S hg38.tss|cut -f 2|cut -d"_" -f 1|sort|uniq -c
20. 解析hg38.tss 文件,统计NM和NR开头的数量,了解NM和NR开头的含义。
$ less -S hg38.tss|grep NR|wc
15954 79770 608368
$ less -S hg38.tss|grep NM|wc
51064 255320 2016820
时隔一个月终于写完作业啦
下一步是跑完搜集到的4个rna-seq
网友评论