美文网首页
学习如何分析病毒Learn to analyze data fr

学习如何分析病毒Learn to analyze data fr

作者: Soliva | 来源:发表于2020-03-19 09:09 被阅读0次

简介

在这个疫情时间,我们来学习如何用生物信息学方法检测病毒,根据系统发育,将该病毒识别为严重急性呼吸系统综合症冠状病毒SARS-CoV的同源,covid-19基因组由大约30k个核苷酸长的单个正链RNA组成。 总体基因组组织与其他冠状病毒相似。 基因组编码所有beta冠状病毒通用的开放阅读框(ORF),包括编码许多酶蛋白,棘突表面糖蛋白(S),小包膜蛋白(E),基质蛋白(M)和核衣壳蛋白(N)以及几种非结构蛋白

获取数据和软件

安装软件,要求python环境3.5以上

linux install datamash parallel
conda update -y blast=2.9.0
conda install -y cd-hit
pip install pyyaml
pip install --upgrade BiostarHandbook
conda install -c bioconda emboss
conda install -c bioconda taxonkit samtools

数据下载

# Obtain the file.
wget -nc http://data.biostarhandbook.com/books/corona/data/corona-virus-project.tar.gz
链接:https://pan.baidu.com/s/1jfW-_QXaVShAwi0bzgz_tA  密码:cdm0

# Unpack the data.
tar zxvf corona-virus-project.tar.gz

然后运行handbook的sh脚本

# Get the recipe.
curl -O http://data.biostarhandbook.com/books/corona/code/nCov-getdata.sh

# Run the recipe.
bash nCov-getdata.sh

数据命名

在我们的研究中,我们发现我们经常偶然使用不正确的数据。为了使我们的意图更具可读性,我们将使用以下命名约定:

nCov- 将参考新的冠状病毒的数据,也称为SARS-Cov22019-nCov
SARS- 指定病毒的数据SARS-Cov
batSARS- 指示在蝙蝠身上观察到的病毒数据。SARS-like
在 shell 中设置以下变量(如果需要,复制粘贴):

nCov=refs/NC_045512.fa
SARS=refs/KT444582.fa
batSARS=refs/MG772933.fa

对序列进行聚类

cd-hit -i refs/nCov-genomes.fa -o out
cat out.clstr | grep at | awk ' { print $5 } ' | tr -d '%' | datamash min 1 max 1 median 1

结果最小、最大和中位数的相似性为:

99.11   99.99   99.97

nCov所有基因组的中位数相似性为99.97。

由于基因组长约30000,99.97%的特性会导致不同的碱基。一半的测序病毒基因组的突变将少于突变。30000 * 0.0003 = 99
这里所看到的高基因组相似性表明,一代又一代,所有病毒都可以追溯到短时期内的同一源。

相关文章

网友评论

      本文标题:学习如何分析病毒Learn to analyze data fr

      本文链接:https://www.haomeiwen.com/subject/lmngehtx.html