美文网首页基因组学
新冠病毒数据分析(8):你也可以拼一条病毒基因组

新冠病毒数据分析(8):你也可以拼一条病毒基因组

作者: 基因学苑 | 来源:发表于2020-04-23 20:03 被阅读0次

    前面我们介绍过,病毒的基因组虽然很小,但确是最难拼接的,这看起来似乎不合逻辑,按理说只有几十K应该很容易拼接才是,但如果你真正尝试去拼接就知道了。因为病毒基因组突变率高,并且测序覆盖度高,一般都1000X以上,在加上测序错误,这几个原因综合起来,就让两个片段连接出现太多可能性,导致无法连接,也就连接不起来了。举个简单的例子,我不怕妖魔鬼怪,但是却被一直小小的蚊子搞得一夜难眠。

    病毒基因组拼接方法

    由于不能直接使用原始测序数据进行拼接,目前病毒基因组主要采用基于参考序列指导(reference guide)的方法,所谓生成一致性序列(consuses)的方法。首先将测序数据与最近源的参考序列进行比对,得到每个位点的覆盖情况,然后利用软件,挑选每个位点最佳的碱基。比如参考序列为A,比对到这个位点上有1000个碱基,其中900个为T,100个为A,那么我们就选择T作为待拼接基因组的碱基类型。最终我们会得到一条与参考基因组长度一致,只是部分位点有所差异的基因组,来作为最终得到的病毒基因组序列。例如下图中,参考序列的基因组为GTCTG,一致性序列的结果为GACTC。

    这种生成一致性序列的方法最开始是用于变异检测分析中的方法,后来用于病毒基因组拼接。这种方法显然有很大的问题。这种方法有个前提,就是参考序列一定要非常近源,比如参考序列是29903个碱基,新测序的样品是否有可能是30000个碱基呢,但是利用这种方法得到的基因组序列必然还是29903个碱基,剩下的97个碱基信息就没有了。所以你看到目前拼接出来的基因组都是29903,虽然后面通过碱基Polish可以插入或者删除部分序列,但整体长度变化不大。如果第一个参考序列拼接质量有问题,后面基于这个参考序列得到的新数据,都存在问题。

    但是,但是,因为目前只能使用这种方法,没有更好的方法,只能这样。

    你也可以拼接基因组

    案例流程:本案例使用的流程来自于Erin Young/Kelly Oakeson基于illumina测序的Artic Network工作流程

    案例地址

    https://github.com/CDCgov/SARS-CoV-2_Sequencing/tree/master/protocols/BFX-UT_ARTIC_Illumina

    安装软件

    condainstall -c bioconda entrez-direct sra-tools bwa samtools ivar quast

    1、创建工作目录

    mkdir ncov

    cdncov

    2、下载数据

    #非常关心美国情况,这里下载一个美国的测序数据efetch -db=nuccore -format=fasta -id=MN908947.3>MN908947.3.fa

    prefetch SRR11247077 -O ./

    fasterq-dumpSRR11247077.sra

    3、bwa比对

    bwaindexMN908947.3.fa

    bwa mem -t12MN908947.3.fa SRR11247077.sra.fastq  | samtools sort |samtools view -F4-o usa.sorted.bam

    4、切除引物

    #下载引物列表

    wgethttps://raw.githubusercontent.com/artic-network/artic-ncov2019/master/primer_schemes/nCoV-2019/V1/nCoV-2019.bed

    #转换适合ivar格式文件

    perl -ne'my@x=split m/\t/; print join("\t",@x[0..3], 60,$x[3]=~m/LEFT/?"+":"-"),"\n";'nCoV-2019.bed >ARTIC-V1.bed

    ivar trim -i usa.sorted.bam -b ARTIC-V1.bed -p usa.primertrim

    samtools sort usa.primertrim.bam -o usa.primertrim.sorted.bam

    5、生成一致性序列

    samtoolsmpileup -A -d6000000-B -Q0--reference  MN908947.3.fa usa.primertrim.sorted.bam | ivar consensus -p usasus -n N

    6、quast评估

    #需要下载MN908947.3的基因列表文件gff3格式

    quast.pyusa.consensus.fa-rMN908947.3.fa--featuresMN908947.3.gff3--ref-bamusa.sorted.bam--output-dirquast

    7、计算覆盖深度

    samtoolsbedcovnCoV-2019.bed.txtusa.sorted.bam

    相关文章

      网友评论

        本文标题:新冠病毒数据分析(8):你也可以拼一条病毒基因组

        本文链接:https://www.haomeiwen.com/subject/qdrzihtx.html