第一步:https://www.jianshu.com/p/e0bfa7b75ccb
Q: 进行去接头及质控之后,接下来把reads mapping回基因组,这里我用的是Bowtie2,为什么选择用bowtie2?
bowtie出现的早,对于测序长度在50bp以下的序列效果不错,而bowtie2主要针对的是长度在50bp以上的测序的,我的测序是PE150,所以我选择用bowtie2分析数据
代码:
bowtie2 -q --phred33 --very-sensitive --score-min L,0,-0.4 -x /Database/Homo_sapiens.GRCh38.dna.toplevel
-1 /asnas/sunyl_group/liull/seq_data/annuo-191126/aly-CTCF/cutadp/CTCF_1.trim.fq
-2 /asnas/sunyl_group/liull/seq_data/annuo-191126/aly-CTCF/cutadp/CTCF_2.trim.fq
-S ./CTCF2.sam
samtools view -q 10 -h ./CTCF2.sam > ./CTCF2_q10.bam
这两步:
1 bowtie2是为了mapping到基因组上,我选择的是hg38,然后输出sam
2 第二就是选择mapping质量高的, 并且把sam转成bam
接下来:
samtools sort -n -o Dam_nq10.bam Dam_q10.bam
我按照名字进行筛选,我们可以直观的看到reads信息,我们就可以根据排序后的bam文件去看pair-end reads的情况,并且,我们对这个bam进行统计。
(我老师说,这一步没啥作用,因为本身bowtie2输出的时候,就已经是根据name输出的。我保险点,还是写了,因为接下来需要用到一对reads进行分析)
PS:
此外,可以利用管道符传参,可以节省内存!!
看一下mapping的效率:
mapping效率
mapping完了之后,可以reads的GATC位点了!!
网友评论