美文网首页宏基因组
如何获知基因序列属于哪个物种?是属于什么病原--Kraken2与

如何获知基因序列属于哪个物种?是属于什么病原--Kraken2与

作者: Ai基因测序 | 来源:发表于2024-07-04 10:00 被阅读0次

如何获知基因序列属于哪个物种,这个很简单,难的是如何去将这个世界上所有已知的生物分类,以及去构建生物数据库。当数据库构建好之后我们去比对就好了。

先来谈一谈物种分类

分类阶元(taxonomic category)是生物分类学确定共性范围的等级

  • 界(Kingdom):生物分类的最高级别,如动物界(Animalia)、植物界(Plantae)、真菌界(Fungi)等。

  • 门(Phylum):在界之下的分类,如脊索动物门(Chordata)、节肢动物门(Arthropoda)等。

  • 纲(Class):门之下的分类,如哺乳纲(Mammalia)、鸟纲(Aves)等。

  • 目(Order):纲之下的分类,如灵长目(Primates)、猫科(Felidae)等。

  • 科(Family):目之下的分类,如犬科(Canidae)、熊科(Ursidae)等。

  • 属(Genus):科之下的分类,如人属(Homo)、狼属(Canis)等。

  • 种(Species):属之下的分类,是生物分类的基本单位,如智人(Homo sapiens)、灰狼(Canis lupus)等。

  • 亚种(Subspecies):种之下的分类,表示同一物种内的不同地理种群或形态,具有一定程度的遗传差异。

    我们以鼠伤寒沙门菌为例,来看一下他的生物学分类:

    鼠伤寒沙门菌(Salmonella Typhimurium)是一种属于沙门氏菌属(Salmonella)的细菌,它是一种常见的非伤寒性沙门菌,能够引起人类和动物的胃肠炎

    界(Kingdom):细菌界(Bacteria)

    门(Phylum):变形菌门(Proteobacteria)

    纲(Class):γ-变形菌纲(Gammaproteobacteria)

    目(Order):肠杆菌目(Enterobacteriales)

    科(Family):肠杆菌科(Enterobacteriaceae)

    属(Genus):沙门氏菌属(Salmonella)

    种(Species):S. enterica

    着重看一下沙门菌的种

  • 沙门氏菌属(Salmonella)是一类重要的肠道致病菌,其中包含两个已被明确识别的物种:Salmonella enterica 和 Salmonella bongori。

        Salmonella enterica【肠沙门氏菌】:这是沙门氏菌属中研究得较为深入的一个物种,它进一步被分为六个亚种,包括:这些亚种中,S. enterica subsp. enterica 是最常见的,也是引起人类疾病的最主要类型。它们能够感染包括人类在内的多种温血动物,并引起一系列疾病,包括胃肠炎、伤寒等。

    1. enterica(肠沙门菌)

    2. salamae(沙门菌亚种沙马亚种)

    3. arizonae(亚利桑那沙门菌)

    4. diarizonae(第二个亚利桑那沙门菌)

    5. houtenae(霍特纳沙门菌)

    6. indica(印度沙门菌)

    Salmonella bongori【本哥里沙门氏菌】S. bongori 研究较少,它主要与冷血动物有关,但也能在温血动物中引起感染。S. bongori 通常不被认为是人类病原体,但在某些情况下也可以感染人类。S. bongori 被认为在进化上与S. enterica 分支较早,并且拥有不同的基因特征和毒力因子。

                                                      结论

    鼠伤寒沙门菌(Salmonella Typhimurium)是 Salmonella enterica 物种下的一个血清型,而不是单独的物种

    Kraken 2与Bracken

    Kraken 2是用于宏基因组学测序读段的分类分配的快速且存储高效的工具。bracken是一个相关的工具,另外估计物种或属的相对丰度。

    生物数据库

    数据库链接如下:https://benlangmead.github.io/aws-indexes/k2

    也要根据实际需求去选择数据库的年限,假设我们还没有发现新冠病毒,比如你做新冠病毒的宏基因组测序,如果2019年末,还没有发现新冠病毒,这时候你就要选择2019年前的数据库

    当然我们也可以构建自己的数据库。NCBI上也有自己的数据库,当我们blast比对的时候,就是将序列比对到数据库里。kraken底层就是blast

    Kraken2与Bracken

    当我们在网页上搜索kraken 时出现一个海洋怪兽和一个虚拟货币,说明kraken这个名字还是蛮popular的

    Kraken 和 Bracken 是两个常用于宏基因组学分析的生物信息学工具,它们通常一起使用以提供物种注释和丰度估计。

    Kraken

    Kraken 是一种用于快速和准确分类宏基因组序列的系统。它通过使用k-mer(k-mer是一种短的DNA序列)来识别序列数据中的物种来源。Kraken的主要特点包括:

  • 快速性:Kraken 设计用于快速处理大规模的序列数据。

  • 准确性:通过使用k-mer索引和最小化技术,Kraken 能够以高精度识别序列。

  • 灵活性:Kraken 可以处理不同类型的序列数据,包括短读序列和长读序列。

  • 用户友好:Kraken 提供了简单的命令行界面,易于使用和集成到工作流程中。

  • Kraken2 是 Kraken 的后续版本,它引入了新的特性和技术改进,例如使用minimizers来提高分类的准确性和速度。

    Bracken

    Bracken 是一种统计方法,用于从宏基因组数据中计算物种的丰度。它结合了Kraken的物种注释结果,并应用贝叶斯统计来估计每个物种的相对丰度。Bracken的主要特点包括:

  • 准确性:Bracken 提供了高度准确的丰度估计。

  • 整合性:Bracken 可以整合Kraken的分类结果来提供丰度信息。

  • 统计方法:使用贝叶斯统计方法来估计物种的丰度,这允许对不确定性进行建模。

  • 联合使用 Kraken 和 Bracken

    通常,研究人员会首先使用 Kraken 对宏基因组序列进行分类,然后使用 Bracken 来估计每个物种的丰度。这种组合提供了一种强大的方法来分析环境样本中的微生物组成。

  • Kraken 分类:首先,使用 Kraken 对宏基因组序列数据进行物种注释。

  • Bracken 丰度估计:然后,使用 Bracken 根据 Kraken 的输出来估计每个物种的丰度

  • 生物数据库的安装以及软件使用

  • 下载 Kraken2 数据库:

  • 可以直接从 Kraken 官网下载索引好的数据库。例如,MiniKraken2 数据库包含了细菌、古菌和病毒的数据库 20:

    wget ftp://ftp.ccb.jhu.edu/pub/data/kraken2_dbs/old/minikraken2_v1_8GB_201904.tgztar zxvf minikraken2_v1_8GB_201904.tgz

  • 下载 NCBI taxonomy:

    这里要说明一下,这是一个物种分类ID文件,给每一个物种的分类分配有ID

    使用 Kraken2 自带的脚本下载 NCBI taxonomy 信息:

    kraken2-build --download-taxonomy --db /path/to/your/database

    使用 Kraken2 进行序列分类:

  • 使用以下命令对序列进行分类 20:

    kraken2 --db ~/dbminikraken2_v1_8GB --threads 56 --report ./TEST.report --output ./TEST.output --paired SP3S1_R1.fa SP3S1_R2.fa

  • 使用 Bracken 估计物种丰度(如果使用 Bracken):

  • 使用以下命令进行丰度估计 20:

    bracken -d ~/dbminikraken2_v1_8GB -i ./out/TEST.report -o ./out/TEST.S.bracken -w TEST.S.bracken.report -r 150 -l S

  • 结果分析:

  • 分析由 Kraken2 和 Bracken 生成的报告文件,以获得物种组成和丰度信息

    麻烦大家点赞关注!!

  • 您的关注是我不断前进的动力!!!

    相关文章

    网友评论

      本文标题:如何获知基因序列属于哪个物种?是属于什么病原--Kraken2与

      本文链接:https://www.haomeiwen.com/subject/emmicjtx.html