如何获知基因序列属于哪个物种,这个很简单,难的是如何去将这个世界上所有已知的生物分类,以及去构建生物数据库。当数据库构建好之后我们去比对就好了。
先来谈一谈物种分类
分类阶元(taxonomic category)是生物分类学确定共性范围的等级
界(Kingdom):生物分类的最高级别,如动物界(Animalia)、植物界(Plantae)、真菌界(Fungi)等。
门(Phylum):在界之下的分类,如脊索动物门(Chordata)、节肢动物门(Arthropoda)等。
纲(Class):门之下的分类,如哺乳纲(Mammalia)、鸟纲(Aves)等。
目(Order):纲之下的分类,如灵长目(Primates)、猫科(Felidae)等。
科(Family):目之下的分类,如犬科(Canidae)、熊科(Ursidae)等。
属(Genus):科之下的分类,如人属(Homo)、狼属(Canis)等。
种(Species):属之下的分类,是生物分类的基本单位,如智人(Homo sapiens)、灰狼(Canis lupus)等。
亚种(Subspecies):种之下的分类,表示同一物种内的不同地理种群或形态,具有一定程度的遗传差异。
我们以鼠伤寒沙门菌为例,来看一下他的生物学分类:
鼠伤寒沙门菌(Salmonella Typhimurium)是一种属于沙门氏菌属(Salmonella)的细菌,它是一种常见的非伤寒性沙门菌,能够引起人类和动物的胃肠炎
界(Kingdom):细菌界(Bacteria)
门(Phylum):变形菌门(Proteobacteria)
纲(Class):γ-变形菌纲(Gammaproteobacteria)
目(Order):肠杆菌目(Enterobacteriales)
科(Family):肠杆菌科(Enterobacteriaceae)
属(Genus):沙门氏菌属(Salmonella)
种(Species):S. enterica
着重看一下沙门菌的种
沙门氏菌属(Salmonella)是一类重要的肠道致病菌,其中包含两个已被明确识别的物种:Salmonella enterica 和 Salmonella bongori。
Salmonella enterica【肠沙门氏菌】:这是沙门氏菌属中研究得较为深入的一个物种,它进一步被分为六个亚种,包括:这些亚种中,S. enterica subsp. enterica 是最常见的,也是引起人类疾病的最主要类型。它们能够感染包括人类在内的多种温血动物,并引起一系列疾病,包括胃肠炎、伤寒等。
-
enterica(肠沙门菌)
-
salamae(沙门菌亚种沙马亚种)
-
arizonae(亚利桑那沙门菌)
-
diarizonae(第二个亚利桑那沙门菌)
-
houtenae(霍特纳沙门菌)
-
indica(印度沙门菌)
Salmonella bongori【本哥里沙门氏菌】S. bongori 研究较少,它主要与冷血动物有关,但也能在温血动物中引起感染。S. bongori 通常不被认为是人类病原体,但在某些情况下也可以感染人类。S. bongori 被认为在进化上与S. enterica 分支较早,并且拥有不同的基因特征和毒力因子。
结论
鼠伤寒沙门菌(Salmonella Typhimurium)是 Salmonella enterica 物种下的一个血清型,而不是单独的物种
Kraken 2与Bracken
Kraken 2是用于宏基因组学测序读段的分类分配的快速且存储高效的工具。bracken是一个相关的工具,另外估计物种或属的相对丰度。
生物数据库
数据库链接如下:https://benlangmead.github.io/aws-indexes/k2
也要根据实际需求去选择数据库的年限,假设我们还没有发现新冠病毒,比如你做新冠病毒的宏基因组测序,如果2019年末,还没有发现新冠病毒,这时候你就要选择2019年前的数据库
当然我们也可以构建自己的数据库。NCBI上也有自己的数据库,当我们blast比对的时候,就是将序列比对到数据库里。kraken底层就是blast
Kraken2与Bracken
当我们在网页上搜索kraken 时出现一个海洋怪兽和一个虚拟货币,说明kraken这个名字还是蛮popular的
Kraken 和 Bracken 是两个常用于宏基因组学分析的生物信息学工具,它们通常一起使用以提供物种注释和丰度估计。
Kraken
Kraken 是一种用于快速和准确分类宏基因组序列的系统。它通过使用k-mer(k-mer是一种短的DNA序列)来识别序列数据中的物种来源。Kraken的主要特点包括:
快速性:Kraken 设计用于快速处理大规模的序列数据。
准确性:通过使用k-mer索引和最小化技术,Kraken 能够以高精度识别序列。
灵活性:Kraken 可以处理不同类型的序列数据,包括短读序列和长读序列。
用户友好:Kraken 提供了简单的命令行界面,易于使用和集成到工作流程中。
Kraken2 是 Kraken 的后续版本,它引入了新的特性和技术改进,例如使用minimizers来提高分类的准确性和速度。
Bracken
Bracken 是一种统计方法,用于从宏基因组数据中计算物种的丰度。它结合了Kraken的物种注释结果,并应用贝叶斯统计来估计每个物种的相对丰度。Bracken的主要特点包括:
准确性:Bracken 提供了高度准确的丰度估计。
整合性:Bracken 可以整合Kraken的分类结果来提供丰度信息。
统计方法:使用贝叶斯统计方法来估计物种的丰度,这允许对不确定性进行建模。
联合使用 Kraken 和 Bracken
通常,研究人员会首先使用 Kraken 对宏基因组序列进行分类,然后使用 Bracken 来估计每个物种的丰度。这种组合提供了一种强大的方法来分析环境样本中的微生物组成。
Kraken 分类:首先,使用 Kraken 对宏基因组序列数据进行物种注释。
Bracken 丰度估计:然后,使用 Bracken 根据 Kraken 的输出来估计每个物种的丰度
生物数据库的安装以及软件使用
下载 Kraken2 数据库:
可以直接从 Kraken 官网下载索引好的数据库。例如,MiniKraken2 数据库包含了细菌、古菌和病毒的数据库 20:
wget ftp://ftp.ccb.jhu.edu/pub/data/kraken2_dbs/old/minikraken2_v1_8GB_201904.tgztar zxvf minikraken2_v1_8GB_201904.tgz
下载 NCBI taxonomy:
这里要说明一下,这是一个物种分类ID文件,给每一个物种的分类分配有ID
使用 Kraken2 自带的脚本下载 NCBI taxonomy 信息:
kraken2-build --download-taxonomy --db /path/to/your/database
使用 Kraken2 进行序列分类:
使用以下命令对序列进行分类 20:
kraken2 --db ~/dbminikraken2_v1_8GB --threads 56 --report ./TEST.report --output ./TEST.output --paired SP3S1_R1.fa SP3S1_R2.fa
使用 Bracken 估计物种丰度(如果使用 Bracken):
使用以下命令进行丰度估计 20:
bracken -d ~/dbminikraken2_v1_8GB -i ./out/TEST.report -o ./out/TEST.S.bracken -w TEST.S.bracken.report -r 150 -l S
结果分析:
分析由 Kraken2 和 Bracken 生成的报告文件,以获得物种组成和丰度信息
麻烦大家点赞关注!!
您的关注是我不断前进的动力!!!
网友评论