美文网首页
Greengenes2 2022.10

Greengenes2 2022.10

作者: zd200572 | 来源:发表于2023-03-09 22:07 被阅读0次

没错,你没看错,十年后最经典的16S数据库--Greengenes数据库更新了,提供了Qiime2兼容插件,分析流程,还将继续更新,用起来呀!虽然还没发表,只是上传在了预印本服务器,相信肯定会发Nature啦!
先来欣赏上NCS级别的酷图,是不是感觉帅呆了!



宏基因组学和16S rRNA基因扩增子(16S)研究广泛用于微生物组研究,但使用不同方法的研究人员通常发现他们的结果难以调和。方法之间缺乏标准化限制了微生物组对可重复生物标志物发现的效用。一个关键问题是全基因组资源和rRNA资源依赖于不同的分类和系统发育。Greengenes2在属水平(Pearson r=0.85)和物种水平上提供了良好的一致性(Pearson r=0.65)。

从头开始重新设计,以全基因组为后盾,重点是协调16S rRNA和shotgun宏基因组数据集。我们称新数据库为Greengenes2,因为设计发生了重大变化。然而,像最初的Greengenes一样,它依赖于从头的系统发育,并表达了源自系统发育的分类学。

适用于短读长宏基因组学和16S rRNA测序研究。它允许直接整合16S rRNA和shotgun宏基因组数据集。此外,保留了GTDB的分类管理,包括其多系标签。而且,对于专注于16S rRNA基因V4区域的研究,分类可以直接从系统发育中获得,而无需使用朴素贝叶斯,这似乎比朴素贝叶斯产生更高的分辨率结果。

如何使用Greengenes2?

使用Greengenes2的最简单方法是通过q2-greengenes2.该插件提供了将数据与资源进行比较的操作。比较数据的方式取决于您拥有的数据类型。我们将在下面介绍几个不同的场景,并提供交互的具体示例。

在我们继续之前,让我们安装 Greengenes2 插件!

$ pip install q2-greengenes2

...下次运行“qiime”命令时,它将需要重新缓存其环境,这将需要几秒钟的时间。

如果您有 V4 数据

Greengenes2包含超过20,000,000个16S rRNA V4扩增子测序片段,这些片段来自Qiita中令人眼花缭乱的公共和私人微生物组样本。
我们要下载的文件的名称是“2022.10.taxonomy.asv.nwk.qza”,这意味着它是“分类”数据,特征 ID 表示为实际扩增子序列变体;“NWK”表示它是一个内部的NewickFormat,这是一种表示树结构的方式。此外,我们将使用编码扩增子序列变体的分类法变体作为 ASV 本身(而不是 MD5 哈希)。我们使用“asv”表示的原因是,默认情况下,redbiom 将扩增子序列变体输出为序列本身。

如果我的 ASV 经过哈希处理怎么办?简单!只需使用“2022.10.taxonomy.md5.nwk.qza”工件,您就可以开始了。

注意:filter-features命令现在需要大约8-10GB 的内存。虽然从概念上讲,只是简单地采用一组特征的交集,但数据集本身非常大 - 这是我们未来正在考虑优化的东西。

$ wget http://ftp.microbio.me/greengenes_release/2022.10/2022.10.taxonomy.asv.nwk.qza
$ qiime greengenes2 filter-features \
>     --i-feature-table icu.biom.qza \
>     --i-reference 2022.10.taxonomy.asv.nwk.qza \
>     --o-filtered-feature-table icu_gg2.biom.qza
Saved FeatureTable[Frequency] to: icu_gg2.biom.qza

现在我们已经过滤了我们的表格,我们可以收集所代表的扩增子序列变体的分类信息。

注意:就像filter-features一样,此命令现在将需要大约 8-10GB 的内存。

$ qiime greengenes2 taxonomy-from-table \
>     --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \
>     --i-table icu_gg2.biom.qza \
>     --o-classification icu_gg2.taxonomy.qza
Saved FeatureData[Taxonomy] to: icu_gg2.taxonomy.qza

就这样,您使用Greengenes2对序列数据进行了分类!

如果您有非 V4 数据

一些用户可能具有全长16S rRNA序列,或者其他长片段,这些片段可能无法在我们已经放置的片段集中表示。对于这些情况,我们建议使用non-v4-16sq2-vsearch将针对Greengenes2 16S中的全长序列执行闭合参考OTU选取

$ biom table-ids \
>     -i icu.biom \
>     --observations | \
>         awk '{ print ">" $1 "\n" $1 }' > icu.fna
$ qiime tools import \
>     --input-path icu.fna \
>     --output-path icu.fna.qza \
>     --type FeatureData[Sequence]
Imported icu.fna as DNASequencesDirectoryFormat to icu.fna.qza

一个缺失的部分是我们需要下载骨架16S rRNA序列。骨架代表了Greengenes16中所有独特的全长2S rRNA序列:FeatureTable[Frequency]icu.biom.qzaFeatureData[Sequence]
$ wget http://ftp.microbio.me/greengenes_release/2022.10/2022.10.backbone.full-length.fna.qza
可以指定在此操作中使用多个线程,以使其运行得更快:

$ qiime greengenes2 non-v4-16s \
>    --i-table icu.biom.qza \
>    --i-sequences icu.fna.qza \
>    --i-backbone 2022.10.backbone.full-length.fna.qza \
>    --o-mapped-table icu.gg2.biom.qza \
>    --o-representatives icu.gg2.fna.qza
Saved FeatureTable[Frequency] to: icu.gg2.biom.qza
Saved FeatureData[Sequence] to: icu.gg2.fna.qza

现在我们已经将数据映射到Greengenes2,让我们对序列的分类进行分类!您可能会注意到,此命令与我们对 V4 数据使用的命令相同,但缺少一些(略微)不同的输入文件名:

$ qiime greengenes2 taxonomy-from-table \
>     --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \
>     --i-table icu.gg2.biom.qza \
>     --o-classification icu.gg2.taxonomy.qza
Saved FeatureData[Taxonomy] to: icu.gg2.taxonomy.qza

如果您有宏基因组数据

建议使用 Woltka 处理您的简短读取后,您可以使用FeatureTable[Frequency]filter-features .然后可以使用q2-greengenes2操作生成qza。

$ qiime greengenes2 filter-features \
>     --i-feature-table woltka.example.biom.qza \
>     --i-reference 2022.10.taxonomy.asv.nwk.qza \
>     --o-filtered-feature-table woltka_gg2.example.biom.qza
Saved FeatureTable[Frequency] to: woltka_gg2.example.biom.qza
$ qiime greengenes2 taxonomy-from-table \
>     --i-reference-taxonomy 2022.10.taxon
>     --i-reference-taxonomy 2022.10.taxonomy.asv.nwk.qza \
>     --i-table woltka_gg2.example.biom.qza \
>     --o-classification woltka_gg2.example.taxonomy.qza
Saved FeatureData[Taxonomy] to: woltka_gg2.example.taxonomy.qza

相关文章

  • 2022.10总结

    健康 身体向好的发现发展 每天都锻炼,偶尔休息。 学习 学习了传习录 生活 一如既往的平淡

  • 2022.10.

    临近期中考试,学校附近的打印业务又火爆了。每天上学放学的点,小小的店面里都被挤得水泄不通。所有家长的目的只有一个,...

  • 2022.10-11

    小叔子打来电话,说弟媳的母亲于昨天晚上去世了。 弟媳的娘家和我的婆家是一个村的。她母亲和我婆婆还沾点亲搭点故。 当...

  • 留住岁月:2022.10

    10月1日:兰州晴,空气良。居家防疫第六天。岁月如歌,江山如画。繁华似锦,普天同庆。盛世中华,国泰民安,举杯...

  • 自由写作(2022.10)

    昨天大学同学群里面有人谈佛学,人生哲学,我没吭声。其实是一个同学在学什么佛学,每天在群里转发一些他们学习到的心灵鸡...

  • 2022.10 月记

    9 月才说工作回到正轨,10 月又出了意外,这个被老板看好的项目也因为一些特殊原因所以没法继续下去,项目被暂停,大...

  • 【1000个幸福的瞬间】561—570╱1000

    561. 2022.10.6 562. 2022.10.7 563. 2022.10.8 564. 2022.10...

  • 11点前睡

    陈苏银#2022.10月03日#日精进#day755/1000) 困了,睡了,晚安

  • 我们说——2022.10月

    曾看见过这样一本书《小孩子都是哲学家》,虽然还没有认真仔细地阅读过该书的内容,但就书名而言,个人是深以为然的。 我...

  • 你为什么还没睡?

    陈苏银#2022.10月21日#日精进#day773/1000) 早睡是早起的根本。

网友评论

      本文标题:Greengenes2 2022.10

      本文链接:https://www.haomeiwen.com/subject/aclzldtx.html