美文网首页
学习如何分析病毒Learn to analyze data fr

学习如何分析病毒Learn to analyze data fr

作者: Soliva | 来源:发表于2020-03-19 09:09 被阅读0次

    简介

    在这个疫情时间,我们来学习如何用生物信息学方法检测病毒,根据系统发育,将该病毒识别为严重急性呼吸系统综合症冠状病毒SARS-CoV的同源,covid-19基因组由大约30k个核苷酸长的单个正链RNA组成。 总体基因组组织与其他冠状病毒相似。 基因组编码所有beta冠状病毒通用的开放阅读框(ORF),包括编码许多酶蛋白,棘突表面糖蛋白(S),小包膜蛋白(E),基质蛋白(M)和核衣壳蛋白(N)以及几种非结构蛋白

    获取数据和软件

    安装软件,要求python环境3.5以上

    linux install datamash parallel
    conda update -y blast=2.9.0
    conda install -y cd-hit
    pip install pyyaml
    pip install --upgrade BiostarHandbook
    conda install -c bioconda emboss
    conda install -c bioconda taxonkit samtools
    
    

    数据下载

    # Obtain the file.
    wget -nc http://data.biostarhandbook.com/books/corona/data/corona-virus-project.tar.gz
    链接:https://pan.baidu.com/s/1jfW-_QXaVShAwi0bzgz_tA  密码:cdm0
    
    # Unpack the data.
    tar zxvf corona-virus-project.tar.gz
    

    然后运行handbook的sh脚本

    # Get the recipe.
    curl -O http://data.biostarhandbook.com/books/corona/code/nCov-getdata.sh
    
    # Run the recipe.
    bash nCov-getdata.sh
    

    数据命名

    在我们的研究中,我们发现我们经常偶然使用不正确的数据。为了使我们的意图更具可读性,我们将使用以下命名约定:

    nCov- 将参考新的冠状病毒的数据,也称为SARS-Cov22019-nCov
    SARS- 指定病毒的数据SARS-Cov
    batSARS- 指示在蝙蝠身上观察到的病毒数据。SARS-like
    在 shell 中设置以下变量(如果需要,复制粘贴):

    nCov=refs/NC_045512.fa
    SARS=refs/KT444582.fa
    batSARS=refs/MG772933.fa
    

    对序列进行聚类

    cd-hit -i refs/nCov-genomes.fa -o out
    
    cat out.clstr | grep at | awk ' { print $5 } ' | tr -d '%' | datamash min 1 max 1 median 1
    

    结果最小、最大和中位数的相似性为:

    99.11   99.99   99.97
    

    nCov所有基因组的中位数相似性为99.97。

    由于基因组长约30000,99.97%的特性会导致不同的碱基。一半的测序病毒基因组的突变将少于突变。30000 * 0.0003 = 99
    这里所看到的高基因组相似性表明,一代又一代,所有病毒都可以追溯到短时期内的同一源。

    相关文章

      网友评论

          本文标题:学习如何分析病毒Learn to analyze data fr

          本文链接:https://www.haomeiwen.com/subject/lmngehtx.html