年初的时候,看到各种盘点蜂拥而至,小编一时心血来潮想写一个关于生信的盘点,左思右想,对于各种高大上的题目都没有把握,于是干脆来一个“争议事件盘点”吧。既然是争议事件,写起来当然比较自由。而由于一直难(太)以(过)抽(懒)身(惰),拖至现在。
这里小编选取了五个算得上是略知一二的争议话题,它们包括程序的bug,观点的交锋,以及方法上的争论,有的时间跨度也很大。我们希望借此呈现科学研究在争论中前行的过程,至于孰是孰非则交由时间吧。
1. 肠道菌群及牛磺酸与自闭症有关?
去年5月,来自加州理工学院的Mazmanian实验室在Cell杂志上刊文,通过组学和行为学实验,表示肠道菌群与自闭症(autism)有关。
多废话一下背景,自闭症的研究是一个很严肃的话题。98年,来自英国的研究人员在顶级学术杂志《柳叶刀》刊文声称接种疫苗与自闭症之间存在关联,一度导致不少人据此拒绝接受或让子女接受疫苗。后来许多报道表明该文有诸多谬误之处。该文最终于10年被杂志撤回:it has become clear that several elements of the 1998 paper by Wakefield et al are incorrect contrary to the findings of an earlier investigation。有此前车之鉴,学术界对同自闭症相关的研究更加审慎。
在这样的大背景下,Cell上这篇文章关于肠道菌群会导致自闭症的研究结果,也自然难逃挑剔的批评者们的质疑,这一点从Pubpeer上的热烈讨论就可见一斑【2】。小编将这些观点总结起来,并结合自己的看法为大家归纳如下,大致有以下几点。
1. 样本量太少
2. 统计检验显著性存疑
3. 文章并非新鲜事物(质疑新颖性)
4. 小鼠的行为能否代表人类自闭症谱系行为?
5. 该实验室此前多次出现过有争议的文章
比如来自澳大利亚的科学记者Jon Brock:
再比如亚利桑那大学副教授Baltrus:
作者接下来还更进一步,检测了导致他们认为的出现自闭症的小鼠的肠道菌群的代谢产物,研究其是否导致行为上的表型。作者们探究的两种物质是牛磺酸(Taurine)与5-氨基缬草酸(5-aminovaleric acid)。然而,化学家Derek Lowe指出,作者们向小鼠提供的牛磺酸远超肠道中可以产生的含量The amounts of these compounds being given are *far* over any reasonable production from gut microbes【2】,且质疑牛磺酸作为所谓GABA’s agonist(γ氨基丁酸促效剂)作用太弱太间接。总之,如果这篇Cell所述为真,那么好比香烟盒上的“吸烟有害健康”的警示标语一样,恐怕以后在买红牛的时候,会看到下面这样的包装吧:
2. 进化树的模型选择并非必要?
进化树构建在许多生物学研究中都有重要的地位。传统认为,严格意义上讲,建树前需要对alignment选择合适的核酸或者氨基酸的替代模型,因错误的替代模型可导致错误的进化树。然而,去年二月,来自以色列特拉维夫大学的Itay Mayrose和Tal Pupko联合团队以在Nature子刊Nature Communications刊文,声称模型选择也许并非必需【4】。当然,该文有几个限制:
1. 针对核酸序列
2. 不改变树的拓扑结构,但对枝长影响尚不明朗
3. 限于单基因建树,不适用于多基因联合比对的phylogenomic tree
去年五月,该话题又有了新的进展,关于序列类别的限制(即前面提到的限制1)被来自美国罗文大学(Rowan University)的分子进化学家Stephanie Spielman打破:她于biorxiv上post文【5】,表示自己对以氨基酸建树的情况做了研究,得到了和特拉维夫大学研究团队相类似的结论(该文截止小编发稿时已正式见刊)。
这两项研究立即引发热议,一部分学者表示支持,另外一部分未发声的想必也是心中暗爽,因为如此一来会省去很多时间。
然而,这一挑战传统的观点显然并不被所有人买账。来自英国牛津布鲁克斯大学( Oxford Brookes University)的Michael Gerth在自己的个人网站上发博文指出特拉维夫大学团队的文章存在问题【6】,主要是以下三点:
之后,Gerth在推特上表示以自己的这篇博文为基础,整理成一篇手稿投到Nature Communications杂志以做争论。不幸的是,本文最终被拒稿。作者现将其放在bioRxiv上【7】。孰是孰非,也许有待进一步探讨吧。
注:小编早前曾与特拉维夫大学文章的作者的讨论中获悉他们的动机在于按照“定式”进行模型选择发现得到的最适模型大多都是某(几)个特定组合,于是想到对该问题开展系统研究。日前,其实验室刚刚开发出一款基于机器学习的进化树模型选择工具,并声称优于同类软件,感兴趣的读者不妨一试【8】。
3. 基因编辑婴儿事件中的“基因大反转”
18年11月底掀起的基因编辑婴儿事件在一片国际各界的谴责和争议声中渐渐走出了人们的视野。然而,去年的6月3日,来自加州大学伯克利分校的Wei与Rasmus Nielsen在著名学术期刊Nature Medicine上发文,再次将贺建奎等人推向风口浪尖。作者表示,通过对UK Biobank的数据进行群体遗传学分析,发现贺建奎等人所编辑的“CCR5-∆32纯合体的全因死亡率增加21%”【9】。换言之,如该结论成立,贺建奎对于CCR5-∆32的编辑操作,不论能否防止艾滋病,都将导致被编辑者有更高的过早死亡风险。由于本文看上去意义重大,来自麻省大学医学院的Jeremy Luban还在Nature Medicine专门以“The hidden cost of genetic resistance to HIV-1”为题撰写评论文章。
文章发表后不足半个月,来自英国布里斯托大学的博后Sean Harrison通过一连串或者说一系列推文表示,Nielson等人的文章有问题!Harrison认为,由于原作者们忽略了在UK biobank中rs62625034数据集的更高的缺失数据这一特点,从而可能对人群中纯合CCR5的频率有所低估,直接导致Nielson原文的结论不成立,换言之,CCR5-∆32纯合体的全因死亡率无显著上升。
有趣的是,Harrison还表示,他不准备将这些结果在任何杂志上正式发表,但自己所做的分析结果都在网上可以找到,供大家参考和随便选用,颇有“事了佛身去,深藏功与名”的风采。
去年9月28日,原作者Nielsen等人在bioRxiv上刊投放了预印本文章,承认原始的文章出现问题。接下来的几天,来自美国的两个实验室,David Reich和Mark J Daly,分别在biorxiv上刊文【10,11】,,号称找到Wei和Nielsen的计算错误。10月8号,原文正式撤稿。原作者在撤稿声明中写到,“Further analyses confirmed that the central finding of the study – that homozygous CCR5-∆32 mutation is associated with increased mortality in the UK Biobank – is a result of this technical artifact.”。
小编通过谷歌学术检索,发现不到半年时间内,竟然有6篇文章通过学术期刊文章或预印本形式对Wei & Nielsen 2019的文章方法上提出不同见解,不知其中有多少是受到了Harrison的启发呢?
注:小编读到的第一个报道此事件的中文文章是(已被撤稿 | 大反转:那篇说贺建奎敲除的CCR5基因会导致死亡率增加的论文,文章已经被撤回),推荐给想了解更多细节的朋友。最后想说一下,Sean Harrison对于原作者们关于文章数据的反馈表示尊重和感激,认为他们是十分有礼貌而且在一直帮助Harrison的分析。想必正是在大家的共同努力、特别是原作者的配合之下,CCR5的这一事件才在如此短的时间内有了比较清晰的结果。
4. 比对错误导致对流感病毒多样性的错误估计?
流感是长期困扰人类的一种流行性疾病,其快速变异的能力常常让人疲于应对,对流感病毒在人群中的变异的知识显得很重要。2016年,来自香港大学(Benjamin Cowling)和纽约大学(Elodie Ghedin)的研究人员在Nature Genetics上发表文章,指他们通过对84位香港地区H1N1型患者的流感病毒基因组测序发现流感病毒基因组在患者内存在很高的多样性【12】。
这一观点在去年二月遭到了Katherine Xue和Jesse Bloom的反驳,两位来自华盛顿大学(西雅图)(University of Washington, Seattle)的学者以correspondance的形式在同一杂志刊文,声称纽约大学团队的结果因为技术错误导致的【13】。Xue提出质疑的初始理由很简单,因为纽约大学团队的结果和此前很多实验相去甚远,这些研究都支持流感病毒的低遗传多样性。最极端的,18年来自密歇根大学(University of Michigan)的团队发现个体间传播的流感病毒基因组可能只有1-2——而这一数字,在港大团队的计算中高达200-250。
Xue怀疑该结果是港大团队在数据处理上的操作失误所致。如Xue所述,接下来她仔细地检查了并分析了港大团队的原始数据,然后终于找到了一个可能的解释(注意是“可能”):在港大团队的原始数据里,感染同一病人的病毒基因组双末端测序中,同一对读段居然被分开到不同的病人样本中:read pairs from this study are often split between different biological samples, thus indicating that some reads are incorrectly assigned.
作者举了一个例子,@SOLEXA4_0078:1:1101:10000:101622#ATCACG/1 是来自侵染737-V1(0)的流感病毒的一个读短(R1),而其配对读短@SOLEXA4_0078:1:1101:10000:101622#ATCACG/2却在侵染被标记为741-V1(0)的病人的流感病毒基因组里找到。作者对所有样本进行了分析,发现这样的例子多不胜数(下图)!可想而知,按此分析,很可能出现个体内的高病毒基因组多样性的结果,因为其中很多是感染其他病人的。
接下来,Xue干脆舍弃她认为有问题的pairing信息,只选取read 1进行了重新分析,并声称病毒的基因组多样性比港大团队报道的低出许多,反而与其他研究的结果更为接近。换言之,只有当一对读段都考虑在内的时候,才能得出“高基因组多阳性”的结论。值得注意的是,按照Xue所言,港大团队并未提供完整的代码,所以他们进行的也只是一个合理的推测,但该推测强烈暗示港大团队的结论源自疑似错误处理的读短配对!
去年八月份,港大团队对Xue和Bloom的说辞做出了回应,他们承认在数据处理中存在technical limitations,且其原文中估计的genome diversity确实有所偏高,但与此同时也坚称自己文章中还是有很多值得借鉴的地方。详情请阅读【14】。
5. BLAST的-max_target_num参数存在严重误导
关于blast的-max_target_num参数的误导问题,我们此前在推送中也报道了【15】,这里一笔带过:BLAST的该参数返回的并非E值最低的前n个hit。此后,来自BLAST开发团队的成员在Bioinformatics杂志上做出了回应【16】。
文中指出,该问题的出现确实与程序的一个bug脱离不了干系,但也同算法有关,并就这一问题在新版的BLAST documentation(https://go.usa.gov/xPVqM)中进行了阐释。最后,开发团队对向他们提出质疑的原文作者表示感谢,并欢迎所有用户对BLAST提出宝贵建议。
注:关于时间:本文最早于18年年底在Bioinformatics杂志上在线刊登,但19年正式收录。
引文
1. Sharon, Gil, et al. "Human gut microbiota from autism spectrum disorder promote behavioral symptoms in mice." Cell 177.6 (2019): 1600-1618.
2. https://pubpeer.com/publications/B521D325772244D8F656F1ED193ACA
3. Lowe, D, Autism Mouse Models for the Microbiome? (2019)
4. Abadi, S., Azouri, D., Pupko, T. et al. Model selection may not be a mandatory step for phylogeny reconstruction. Nat Commun 10, 934 (2019).
5. Model fit does not predict accuracy in single-gene protein phylogenetics. Stephanie J. Spielman. bioRxiv 698860 doi: https://doi.org/10.1101/698860
6. Why we should not abandon model selection in phylogeny reconstruction. (2019) https://www.michaelgerth.net/news--blog/why-we-should-not-abandon-model-selection-in-phylogeny-reconstruction
7. Neglecting model selection alters phylogenetic inferenceMichael GerthbioRxiv 849018; doi: https://doi.org/10.1101/849018
8. ModelTeller: model selection for optimal phylogenetic reconstruction using machine learning. Shiran Abadi, Oren Avram, Saharon Rosset, Tal Pupko, Itay Mayrose. bioRxiv 2020.01.09.899906; doi: https://doi.org/10.1101/2020.01.09.899906
9. Wei, X., Nielsen, R. CCR5-∆32 is deleterious in the homozygous state in humans. Nat Med 25, 909–910 (2019). https://doi.org/10.1038/s41591-019-0459-6
10. No statistical evidence for an effect of CCR5-∆32 on lifespan in the UK Biobank cohortRobert Maier, Ali Akbari, Xinzhu Wei, Nick Patterson, Rasmus Nielsen, David ReichbioRxiv 787986; doi: https://doi.org/10.1101/787986
11. Technical artifact drives apparent deviation from Hardy-Weinberg equilibrium at CCR5-∆32 and other variants in gnomADKonrad J. Karczewski, Laura D. Gauthier, Mark J. DalybioRxiv 784157; doi: https://doi.org/10.1101/784157
12. Poon, L., Song, T., Rosenfeld, R. et al. Quantifying influenza virus diversity and transmission in humans. Nat Genet 48, 195–200 (2016).
13. Xue, K.S., Bloom, J.D. Reconciling disparate estimates of viral genetic diversity during human influenza infections. Nat Genet 51, 1298–1301 (2019).
14. Poon, L.L.M., Song, T., Wentworth, D.E. et al. Reply to ‘Reconciling disparate estimates of viral genetic diversity during human influenza infections’. Nat Genet 51, 1301–1303 (2019).
15. montreal. BLAST的-max_target_seqs参数存在严重误导 生信人(2019)
16. Thomas L Madden, Ben Busby, Jian Ye, Reply to the paper: Misunderstood parameters of NCBI BLAST impacts the correctness of bioinformatics workflows, Bioinformatics, Volume 35, Issue 15, 1 August 2019, Pages 2699–2700, https://doi.org/10.1093/bioinformatics/bty1026
作者原创,原载于生信人公众号
网友评论