新冠病毒数据分析（8）：你也可以拼一条病毒基因组

作者: 基因学苑 | 来源:发表于2020-04-23 20:03 被阅读0次

新冠病毒数据分析（8）：你也可以拼一条病毒基因组
病毒给人类的警示
新冠病毒在个体内变异及个体间传播演化最新研究进展
新型冠状病毒突变？人类真的要完了吗？
新冠病毒数据分析（6）：下载新冠病毒原始测序数据
滚蛋吧！病毒君！一个秭归茶农写给新冠病毒肺炎的一封公开信
如何用艾灸应对儿童新冠病毒感染
新冠病毒与古印度佛教毒瘤
戴口罩的重要性
德尔塔病毒

前面我们介绍过，病毒的基因组虽然很小，但确是最难拼接的，这看起来似乎不合逻辑，按理说只有几十K应该很容易拼接才是，但如果你真正尝试去拼接就知道了。因为病毒基因组突变率高，并且测序覆盖度高，一般都1000X以上，在加上测序错误，这几个原因综合起来，就让两个片段连接出现太多可能性，导致无法连接，也就连接不起来了。举个简单的例子，我不怕妖魔鬼怪，但是却被一直小小的蚊子搞得一夜难眠。

病毒基因组拼接方法

由于不能直接使用原始测序数据进行拼接，目前病毒基因组主要采用基于参考序列指导（reference guide）的方法，所谓生成一致性序列（consuses）的方法。首先将测序数据与最近源的参考序列进行比对，得到每个位点的覆盖情况，然后利用软件，挑选每个位点最佳的碱基。比如参考序列为A，比对到这个位点上有1000个碱基，其中900个为T，100个为A，那么我们就选择T作为待拼接基因组的碱基类型。最终我们会得到一条与参考基因组长度一致，只是部分位点有所差异的基因组，来作为最终得到的病毒基因组序列。例如下图中，参考序列的基因组为GTCTG，一致性序列的结果为GACTC。

这种生成一致性序列的方法最开始是用于变异检测分析中的方法，后来用于病毒基因组拼接。这种方法显然有很大的问题。这种方法有个前提，就是参考序列一定要非常近源，比如参考序列是29903个碱基，新测序的样品是否有可能是30000个碱基呢，但是利用这种方法得到的基因组序列必然还是29903个碱基，剩下的97个碱基信息就没有了。所以你看到目前拼接出来的基因组都是29903，虽然后面通过碱基Polish可以插入或者删除部分序列，但整体长度变化不大。如果第一个参考序列拼接质量有问题，后面基于这个参考序列得到的新数据，都存在问题。

但是，但是，因为目前只能使用这种方法，没有更好的方法，只能这样。

你也可以拼接基因组

案例流程：本案例使用的流程来自于Erin Young/Kelly Oakeson基于illumina测序的Artic Network工作流程

案例地址

https://github.com/CDCgov/SARS-CoV-2_Sequencing/tree/master/protocols/BFX-UT_ARTIC_Illumina

安装软件

condainstall -c bioconda entrez-direct sra-tools bwa samtools ivar quast

1、创建工作目录

mkdir ncov

cdncov

2、下载数据

#非常关心美国情况，这里下载一个美国的测序数据efetch -db=nuccore -format=fasta -id=MN908947.3>MN908947.3.fa

prefetch SRR11247077 -O ./

fasterq-dumpSRR11247077.sra

3、bwa比对

bwaindexMN908947.3.fa

bwa mem -t12MN908947.3.fa SRR11247077.sra.fastq | samtools sort |samtools view -F4-o usa.sorted.bam

4、切除引物

#下载引物列表

wgethttps://raw.githubusercontent.com/artic-network/artic-ncov2019/master/primer_schemes/nCoV-2019/V1/nCoV-2019.bed

#转换适合ivar格式文件

perl -ne'my@x=split m/\t/; print join("\t",@x[0..3], 60,$x[3]=~m/LEFT/?"+":"-"),"\n";'nCoV-2019.bed >ARTIC-V1.bed

ivar trim -i usa.sorted.bam -b ARTIC-V1.bed -p usa.primertrim

samtools sort usa.primertrim.bam -o usa.primertrim.sorted.bam

5、生成一致性序列

samtoolsmpileup -A -d6000000-B -Q0--reference MN908947.3.fa usa.primertrim.sorted.bam | ivar consensus -p usasus -n N

6、quast评估

#需要下载MN908947.3的基因列表文件gff3格式

quast.pyusa.consensus.fa-rMN908947.3.fa--featuresMN908947.3.gff3--ref-bamusa.sorted.bam--output-dirquast

7、计算覆盖深度

samtoolsbedcovnCoV-2019.bed.txtusa.sorted.bam

网友评论

基因组学

本文标题：新冠病毒数据分析（8）：你也可以拼一条病毒基因组

本文链接：https://www.haomeiwen.com/subject/qdrzihtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

新冠病毒数据分析（8）：你也可以拼一条病毒基因组

相关文章