美文网首页RNA-seq
day12 bowtie2学习

day12 bowtie2学习

作者: meraner | 来源:发表于2022-05-21 09:35 被阅读0次

一、bowtie2的基本概念

1. 比对

全局比对 End to end,也叫双端比对。把read作为一个整体,不可分割断裂。


image.png

局部比对local alignment example,把reference作为整体,read可以分割。


image.png
bowtie2默认全局比对,也称作 "untrimmed " or "unclopped" alignment 。就是认为read是完整的,看看能对上哪些reference。

2. 比对计分

规则还没搞懂。慢慢琢磨。。。。

3.参考索引还可以自己建立

索引可以直接从官网下载(昨天学习到了),也可以自己构建
bowtie2-build <fasta文件> <要生成的索引文件前缀名>
类似下面的代码,但是这个过程大约要1-4小时,很耽误时间,一定要后台运行——服务器上要通过脚本提交。

ref=~/refdata-gex-GRCh38-2020-A/fasta/genome.fa
bowtie-build $ref hg38

生成的6个后缀为.bt2 的文件和fa文件在同一个目录下。
也可以指定保存目录~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/

ref=~/refdata-gex-GRCh38-2020-A/fasta/genome.fa
bowtie-build $ref  ~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38

二、运行比对程序

1.双端测序

bowtie2 <-x 索引的位置和名称前缀> <-1 fq格式的测序结果文件1> <-2 fq格式的测序结果文件2> <-S 输出的sam文件>
-x 基因组索引文件前缀,不写路径表示当前路径下
-S 是输出sam文件的路径
-1和-2分别为双端测序的两个fq文件。-1(文件名通常包含_1)
-2(文件名通常包括_2)
比如:

index=~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38
bowtie2 -x $index -1 ~/data/example_1.fq -2 ~/data/example_2.fq -S ~/data/result.sam

就会得到sam文件了。

2.单端测序single end

bowtie2 -x ~/software/bowtie2/bowtie2-2.2.3/bowtie2_index/hg38 -U ~/data/example.fq -S ~/data/result.sam
-U为单端测序read文件

三、结果解读

1. 比对后结果显示:最后一行是比对率

image.png
image.png

双端结果里面分割线分成三部分。
part1:总共有多少对reads参加比对;合理比对aligned concordantly 的情况。合理比对意思是两端都比对上了,且合理。
如上图有650对reads没有合理比对上,其余的比对上1次或多次。
part2:650对中,有34对reads双端比对上了,但是不合理,可能是两条reads之间距离过大,或者两条reads居然在同一条链上。(合理的情况应该是两个reads在不同链上,且能距离很近。
part3:这些都是没有双端比对成功的。616对,就是1232条,这些里面有606条,

2. SAM (The Sequence Alignment / Map format)格式文件的解读

SAM是短序列比对默认的标准格式,是以TAB为分割符的文本格式。BAM就是SAM的二进制文件,具有更小的存储空间,并且许多下游分析工具使用的是BAM格式。

SAM文件
头部区:以’@'开始,体现了比对的一些总体信息。比如比对的SAM格式版本,比对的参考序列,比对使用的软件等。

主体区:比对结果,每一个比对结果是一行,有11个主列和一个可选列。
第一列:QNAME,比对的序列名称,就是fq文件中的read ID,是一条测序read的名称。
第二列:FLAG,比对上的情况
第三列:染色体名称
第四列:POS,比对上的最左面的定位
第五列:MAPQ,比对的质量值。越高说明比对的越唯一,最高60
第六列:CIGAR Extended CIGAR string,M表示匹配、I表示插入、D表示删除、N表示内含子和D类似、S表示替换、H表示剪切。87M表示87个碱基在比对时完全匹配。
第七列:MRNM,这条reads第二次比对的位置,是比对上的参考序列名 。=表示参考序列与reads一模一样,*表示没有完全一模一样的参考序列。
第八列:MPOS,与该reads对应的mate pair reads的比对位置(即mate),若无mate,则为0。
第九列:ISIZE 插入片段长度 例如:200。如果R1端的read和R2端的read能够mapping到同一条Reference序列上(即第三列RNAME相同),则该列的值表示第8列减去第4列加上第6列的值,
第十列:SEQ,和参考序列在同一个链上比对的序列,即read的序列。
第十一列:比对序列的质量(ASCII-33=Phred base quality)reads碱基质量值 例如:-8CCCGFCCCF7@E-

四、BAM文件

1. SAM 文件转为 BAM 文件

得到的sam文件可以用semtools专程bam文件。
samtools sort example.sam>example.bam

2. 通过管道命令直接链接samtools

bowtie2 -x genome_index -1 input_1.fq -2 input_2.fq | samtools view -bS | samtools sort > output.bam
这条命令把bowtie2 生成的sam文件通过管道|传递到samtools,将sam转换为bam文件,省去中间sam文件的空间占用

相关文章

网友评论

    本文标题:day12 bowtie2学习

    本文链接:https://www.haomeiwen.com/subject/mxxtprtx.html