我说话比较直白,不是为了找毛病,而是从里面学到些东西,但是这文章比较委婉,很多意思可能我理解不正确。如果有批评的味道,那一定是错觉,批评别人对我自己没任何好处,更何况一个院士的水平,人家有些话只是不明说而已,所以这些疑问,都是自问,自答。
我看的这个版本出自澎湃网,虽然引用的应该源自科学网,但是科学网并不好找这篇文章。
题目用的是一种白话比喻的方式,有时候这很形象,有时候细究起来也难以理解其明确涵义。这首先涉及到文章的受众是谁。我感觉受众应该是AI研究行业人员。如果是这样,直接使用术语、行话、意义明确的词语即可。如果不是,那给别人看也没用,因为从事AI演技的大学、研究所、公司的部分研究人员都可以算是业内专业人员。而把持着资源分配的主要也是这些单位和人员,在这里面院士处于最顶层。什么是顶天呢?最基础的理论和算法是吗?有极大应用价值的成果算吗?什么是落地呢?这个应该比较好理解,就是可以实际应用。所以,是不是顶天和落地完全是两回事,有些既能顶天,又能落地;有些都不能,有些二者占据其一。
第一段,作者认可AlphaFold2的成果。我在想,这个成果应该算是顶天,还是落地。如果意义重大,那算是顶天,又能实用,那算算是落地;如果有意义,但不实用,那也就没意义,即不顶天也不落地。所以,我把作者顶天立地的涵义选择为,既能顶天又能落地。说直白点就是有重大意义,并且能实际应用。
第二段。“我们的研究以技术驱动、论文导向为主”;缺少“目标导向和问题导向”。我理解意思应该是说,我们做的研究都是在现有技术基础上琢磨能做点什么,或者琢磨怎么做能发论文。而我们缺少的是琢磨怎么解决问题,或者先树立一个目标,然后围绕目标进行研究。
这句话比较好理解,说的也很明确,但是我能明确理解的也就只有论文那句。什么是技术驱动?是不是我先看看有什么技术,自己会什么技术,然后想想拿着这个技术我能再做点什么?如果是这样,其实可能出现不同的结果,有的人会完全在既有技术框架内发展,有的可能会以此为基础,逐渐突破,更新甚至是发展出新技术。问题的本质是,新技术是完全新来的,还是再现有技术基础上发展来的。就我的经验,很难有完全新来的技术,大部分是要在现有技术基础上发展得到更新更先进的技术。那问题就不是纠结我们是从新来还是找个基础来,而是重新来怎么来?在现有基础上怎么来发展更新、更先进的技术?HOW?
什么是目标导向?是不是我要先树立一个目标?但问题是要怎么树立目标?树立一个什么样的目标?长期,短期?太长期,空洞;太短期,没难度,没重大意义。我的意思是说,不是不能树立这个目标,而是树立目标本身就是个难点。目标树立的好,那真得可能成功了一半。所以问题还是HOW?
什么是问题导向?找到一个问题?怎么找到这样的问题?这样的问题有什么标准?问题应该有多大?所以到这里,还是需要直到怎么做。
综上,原则我们都认可,但是要具体做事,应该怎么做,我们缺乏这个。
如果举个例子,比如就以传统的蛋白结构技术,Cryogenic-EM 为例。它是技术驱动?问题驱动?目标驱动?论文驱动?技术不是凭空来的,有基础,电子显微镜,高能电子探测器。用这些结合起来,如果我能造出更好的探测器吗,能提高电子显微镜分表率吗?这个技术驱动的思路可以说的通。但是冷冻的想法可不可从技术驱动来,好像也可以,但是要基础些,热力学物理好像可以说的通。那如果换做是问题驱动呢?我要一个更好的蛋白质结构成像工具,然后有N种,我考虑到电子显微镜,然后试试可不可行。走到最后,落入了技术驱动。如果是目标驱动呢?我的目标是解蛋白结构,要真么解,看看问题在哪?落入了问题驱动。
这样看来,目标驱动,问题驱动,技术驱动他们不是对立的关系,是有层次的。大体来说,应该先有个目标,不管名不明确,然后为了实现目标发现很多问题,为了解决问题,考虑了很多技术路线,可行性,选自己觉得有潜力的突破试试。所以,看起来好像不是驱动的问题,而是怎么做,要找到科学做法的问题。这是我的理解。
如果考虑AI解蛋白结构这个例子。技术驱动的可能是这样,我学习了机器学习,然后我去看看有什么用,我发现可以做图片分类,NLP,自动驾驶,等等。很多很多应用,我觉得好像无处不可,我根据自己以前的关注、或者兴趣、专业,我想试试接蛋白结构行不行。技术驱动是可以走到这一步的。 如果是以目标和问题驱动的,显然能树立这个目标和提出问题的应该是搞结构生物学的专业人员。比较一下:技术驱动的可能来在行业外,属于拿着锤子找钉子,可能会更早应用技术,但是对行业专业知识不精通,可能导致进行不下去,半途夭折,决心也没那么大。目标和问题驱动的,精通本行业专业,但是对还没相关的新技术敏感度要低一些,具体到执行层面,应该落后于技术驱动的那一批。所以,最好是二者结合,能力互补。这并不是绝对的,不是说所有专业人士都对新技术敏感度低,行业中总有些人在不断试探寻找新技术新突破,他们的敏感度非常高,但属于少数群体。
第三段,对重大科学问题的眼光不够敏锐,目标两级分化,要么意义不大,要么意义太大,几十年没进展。这就有意思了,至少我觉得作者的意思是说选则项目要既有意义,又实际可行。这挺难的,这不仅是掌握火候和分寸的问题,而是有些事情不做根本就不可能知道这些答案。所以,有些东西看起来完全没用,那就不做了吗?有些看起来艰难,谁知道意外有了进展,有些看起来很容易,谁知道就是死活搞不出来。这样的例子历史上都有,难以把握。这个问题很重要,但是难,还要集中经历做事,可能弄个专门的组织,就专门研究这个会比较好。不是说所有的科学家都眼光不好,肯定有厉害的,但不是所有的科学家都看得准,看不准不代表他科研能力就不性,所以可以给他参考意见,不浪费人才和时间。
第四段,人工智能实验室,顶不了天又落不了地的困境。意思难道是既没有顶级的科研成果,又没有实际的应用产品?可能一个原因是人工智能的模型和研究应用方向太多了,一个实验室,大一些又能有多少人,分布在众多的方向上就会分散力量。要集中力量,就要选定方向,在看清未来的情况下就是一种赌博,对实验室和个人来说都是。而且,只能赌。赌错了怎么办?经费和个人发展要怎么保障和重新开始。这也许是个制度创新的问题。
第五段,距离AlphaGo。不过从实际意义上来考虑,AlphoGo最大的意义就是它启发促进了机器学习技术的发展。其本身有多大用这个意义没有前面的大。又回到科研目标驱动的问题上来,好像目标什么驱动不重要,重要是有人真的有兴趣并投入。毕竟,这世界这么多人口,既有意义又实用且能受到重视的事肯定比较少,就像时间退回到20年前,人工智能和量子计算也没受到今天这般的重视。换个角度看,这种选题方式可能导致大家集中在某些方向上,或者在某些方向上一直被动跟随,反而那些跟着兴趣走的会开拓新方向,新领域。科研突破是不是有天赋和运气的成分在?如果认可此点,那就不能把人全部管死,必须得流出一定得灵活性,让某些人自由得跟着兴趣走,这些人就是优化算法中得随机成分,有时候是跳出局部最优,寻找全局最优得关键因素。我觉得现实世界是存在这种不确定性和随机性的,我们不会什么都看清楚,也必须用不确定的随机的法子应对。
第六段讲到AlphaFold的预测能力高。我不知道当且这些完全跑在已知结构域的成果,到了未知结构域是不是表现一样,只能说还待未来验证。当下机器学习存在的一个问题是,就算下一万个都预测差不离,但是第一万另一个的预测结果也可能完全是错的。不要低估自然的丰富多样性。还有一个关注度的问题,我感觉每天都在受相关信息轰炸,现在我都只想看标题了。普通民众不关注,正常。我觉得要想让更多民众关注,就要提高教育水平,至少也得到本科,所以我强烈建议普及大学本科教育。都上本科了谁来当工人?我觉得这完全不是问题。一个是以后都智能化,自动化,还需要那么多做简单重复操作的工人吗?即便做工人,掌握更多知识技术也能做更杰出的工人。即便都上本科,也有人会愿意跟机器和生产打交道,就像有人愿意勾心斗角,有人喜欢简单生活一样,关键是待遇。如果说,都挣那么多钱,那谁来当穷人?这就不对了,没人愿意当穷人,也没人天然就应该是穷人,而且这与我们的公开目标相悖。
第七段,讲施一公的认可。被行业内知名专家学者认可,说明人工智能解(预测)蛋白结构搞得不错。但事实是真不错,还是会遇到更大的挫折,我们要保留一点,继续看。我对专家学者的态度就是,尊重,不盲从。这也是国民教育的成果,感谢国家。既然能在这个领域取得很好成绩,在其它更多领域能不能?应该也可以,但是遇到挫折也正常,毕竟这是人工智能时代的开端。意思是,机会还很多。
第八段,已知氨基酸排序的蛋白1.8亿,其中知道结构的不到0.1%,意思是超过1.8亿中的超过千分之99还不明确结构。大工程啊,大机会,我好像看到很多钱。看来用人工智能搞蛋白结构的早就想清楚了,抢钱啊!对有些人来说,可能一个结构不是多少钱,就是命,能救命的。
第九段,已经预测98.5%的蛋白结构,到年底达到1.3亿个。不过这数字,是不是我搞错了,算了,就把责任推给体育老师吧。总之能预测,但是对不对,不知道,这个问题留在这里,以后可能有个产业,大规模做蛋白结构验证。还有就是 AlphaFold 2 开源代码和数据级。这是这一波人工智能跟其它学科完全不同的一点,从最早的时候,就社区化,论文,代码,数据开放度比其它传统学科高的多。它代表了一种思潮和趋势,过去那一套封闭,少数精英的玩法越来越不受科研人员、科技爱好者的欢迎。这对中国有什么影响吗?我梦能是适应这个玩法吗?这可能会关系到未来我们在科技上能否保持领先(我知道现在还不完全领先)。还有啥好说的,去下来研究研究。
第十段。蛋白结构的重要性,人工智能对生命科学的发展,癌症,病毒,抗生素,药物,蛋白酶发展的促进作用。其实,人的大脑,神经,智能也是生物学的一部分。现在的问题是,就算我们对大脑的生物结构有所了解,也还是不能理解我们的智能、思考能力、情绪、记忆的原理,人工智能的发展有利于促进我们对这些的理解。这些重不重要?不言而喻。所以,有人幻想的更远,如果人的大脑被解析透彻,又有人工智能技术,那将一个人的脑中所有的一切转移到人工智能系统上会怎么样?这个人是死了,还是活着?或者,一个高度发达的人工智能,他是不是人,应不应该享有人的权力和义务?什么是人?这种研究会逐渐试探伦理的边缘和底线,所以伦理的重要性凸显,以后会不会像国外一样,配置一大堆伦理学家?可能有些想转行的人可以考虑。
第十一段。AlphaFold之前,中科院计算所也有出色成果。但是其它都没说。开源?不知道,不能乱说,要去查证后方知。不过,有一点可以肯定的是,影响力没人家大。这也是个要解决的问题。
第十二段。具体到了一些技术细节,注意力机制。算法效率,一个GPU,10分钟。机器学习的现有模型太多了,新模型还层出不穷。这是一个问题,怎么看待、比较、应用这些模型?它们本质上有什么异同?怎么设计更好的算法?模型和算法本身值得研究。除此之外就是硬件了。这里说的不清楚,意义不大,GPU型号太多了,价格算力差异巨大,我们应该可以查到用的何种型号,先假设用的就是最好的吧(回头去扒论文,没先扒论文是我的错,以后不能这么干)。算力、能耗和相关的成本也是一个问题。一个方向是开发更高效,节省算力和成本的算法。另外一个方向是获取更高效、节能的计算能力。前者二值化网络是一种启发,有时候我们不需要算的那么精确,甚至可以主动提供模糊度。后者则是有量子计算的,还有搞集成光学计算芯片的,看过一点资料,研究单位国外的,研究者华人,留学生。呵呵,起码先把人种论否定掉。
第十三段。承上启下。
第十四段。给出一些信息。2017年,新一代人工智能发展规划。新一代人工智能重大科技项目,数据智能,跨媒体感知,群体感知,类脑智能,量子智能计算等。让人眼花缭乱,要是自己做点东西,还是写写代码,搞几块GPU,或者用用云计算就够了,扒扒GITHUB,看看论文啥的实在。不过,说来也值得思考,arXiv和github落后也就算了,paper with code也落后了, 这是技术落后吗?我觉得这明显是思想落后。当然,有些单位的类脑研究招聘职位我么看过,要求熟悉什么框架,而那些都是欧美类脑计划的成果,我觉得还是想走捷径,不要结果类似大型工程软件。
第十五,十六段。近三年,人工智能成果,大量论文,专利,应用,独角兽企业。但是是技术驱动,论文导向的,目标和问题导向比较少。那么什么样的成果会比较好呢?答案是类似 AlphaFold 的。院士看问题的角度和深度可能会与我们普通人不同,虽然已经有了大量应用,但是在专业人士看来还不够。并且其比较推崇Alpha Fold,后面还有在集成电路方面应用的举例。这也说明,专业化的行业应用方面还有机会,起码目前的不令专业人士满意。但是需要记住的专业方向水也深,要想做先试水吧。好比医疗行业,以前很多煤老板,开发商和家电商都曾想入场玩玩,结果是最后能站住脚的聊聊无几,这是个大坑,行外的人拿着大把的钱,觉得自己应该能行,行内的人热烈鼓掌欢迎,欢迎跳坑里来,最好人出局,钱留下。回到正题,按照上面的标准,哪些方向的研究和应用是值得我们去做的?院士给出的标准可行吗?
第十七段,十八段。DeepMInd10年前就关注蛋白质折叠,当时正确率不到40%,我们却没有关注这么重要的项目。这是作者的质问,工作为什么没做好。人都有疏忽的时候,大组织也是如此。那我们小爱好者怎么解决这个问题呢?我的i想法是我们不围绕着指挥棒转,指挥棒力明确提到的都是热点,大公司,大学,研究所集中关注的点,我们没戏。我们可以关注与指挥棒有关联但不直接列出的,或者直接关注国际科技热点,但是国内又没跟上的,或者按照自己兴趣来。到这里想到,现在不提倡学英语了,我觉得要自己抓第一手资料,外语还是要学。社会的潮流有时候会让人琢磨不透,我都不知道该说啥,在我看来,我学会的技能就是自己的能力,我学会的外语就是自己的而语言,就是一种技能而已。
第十九段。除了蛋白结构,作者还认可人工智能集成电路设计。看来作者关注的是对社会又重大意义的产业,这符合其身份和责任。所以,到这里我可以考虑差异化了。这些大的项目都不应该成为我们爱好者、小创业者的关注点。我还是想想应用在网页设计,音乐,文字上吧。不过编程应该介于二者之间,不小,但是也没上升到那样的高度。
第二十到二十六段。怎么看待人工智能?作者认为,人工智能,不是人的智能,二者完全不同,应该独立的看,不要总与人的行为绑定,像人一样没意义,人工智能不能被理解。这一段我们必须辩证的看,有积极创造性的一面是,我们搞人工智能,不必受人的限制,只要智能能工作,能满足需求,像不像人没关系。这就像,机器人不用像人一样,人长两只手,机器人就不能长六只手吗。打破类似人的陈旧观念的束缚,这就是最积极的部分。但是类人不是没有意义,一方面我们也要搞清楚自己的脑子怎么回事,另一方面机器学习与人类学习相比也有其自身的缺陷,搞明白人也能做更好的人工智能。这事有意义,有重要意义,需要有人做,认真做。至于什么人工智能的定义,图灵测试,模仿人还是取代人,这对我来说都是虚无空洞的概念。
第二十七~二十九段。显性知识和隐性知识的提法比较有启发性。不过话说回来,不去研究所有的知识都是隐性的,把隐性知识转化为显性知识,物理化学哪个不知深究本质,如果只是停留在表面现象,我们能有现在的科技吗?只求实用,不究其原因,不关心原理,中国古代人就是这么干的。人工智能的很多原理现在不清楚,不代表搞清楚没意义,不代表就不应该去搞清楚,不代表搞清楚就没用。我反对这个,尤其反对,真心反对,坚决反对。这种态度不利已科技发展,有害科技发展。功利化的问题不是在于它功利,而是因为它目光短浅,因为长远的功利有没有,在哪人是看不清楚的,所以最好不要完全导向短期的功利化。
第三十段。隐性知识,一种新的科研范式。我觉得,要是历史上哪些物理学家不思考,不建立各种理论模型,要是哪些化学家只描述反应现象,不思考本质,那这种范式早就存在,现在的很多知识都是隐性知识。现在不理解黑盒子,不代表一直都不要去弄清楚它怎么工作,这种态度不是什么新的范式,自己抱着这种想法没关系,但是这样要求别人或者科研团队,不好,不好,不好。我们的终极目的,是完全搞懂智能的秘密,并应用智能。短期目的,研究智能的秘密,并应用。没有研究的过程,难道坐等结果自己跳出来?
第三十一段。现在流行多个人合作科研和论文,多个第一作者。提示就是,现在不是一个人单打独斗搞科研的时代了,要真正的组织化,专业化,形式上的不行。
第三十二段。一个技术原理,蛋白结构的形成原因和预测原理。能量最小化,如果不是最小化,只是一种平衡可不可以?如果只是某个势垒的最小值行不行?这个我不是专业的,思考一下。不过,物理的习惯是,要先讲清楚条件。
第三十三段。人工智能的本质,不仅是数学的,还有物理的。这个观点很有意思,很新颖。我以前认为本质是数学的,没想过物理。我看世界的本质是物理的,但没想过人工智能跟物理的联系。主要原因还是,物理的本质还是要要用数学的模型刻画。不管怎样,这个提法值得思考。如果人工智能背后有物理原理,那人的智能的物理原理是什么?二者有什么异同?显然,生物的生理、物理不在这个研讨范围。不过,算法只是工作的流程和方法,不是其数学本质。数学本质是什么 ,有重大意义,待查。
第三十四段。数据密集型科学发现-科研第五范式。我的观念比较陈旧,在我看来,数据密集就是统计,做的就是表象,不是本质。这一点上我的观念更新速度可能落后了。
第三十五段。涉及到人工智能的预测和组合生成行为,超出人类的常规经验。这里面一定有些新东西,但是还没体系化的研究。好比是我们过去都认为几何体都是点线面体生成的,但是现在出现了点线面体都会作为基本单位出现来组成从没见过的几何体,观念都被颠覆了。对生物学来说,就是可以实用基因序列设计全新的生物、细菌或病毒。对生物的设计还没出现,但是病毒的设计和激活早就实现了。所以,人部分掌握了上帝的权柄,涉及伦理,这种看法七八年前就有人探讨。不过,生物学可能要开新科目了。设计生物学?
第三十六段。说实话,我读的不顺利,作者的思维太跳脱了。我也想说工程技术本身不只是工具,但是后面又一点理解不同。工程技术本身,就有科研的价值,就是对科学技术的深度理解和集成应用。这就是我们现在面对的问题,我们好像有了个很好用的工具,但是我们却不知道它的原理,它为什么有效?所以对它本身的研究也很重要。这种研究可能不是突然塌方式的,而是日积月累拼图式的,最后逐渐揭露智能的本质。
最后一段。重复强调,科研要下功夫,要有重要成果。我们不必迷信科学家,尤其是在科研可以依靠自己的脑袋+计算机程序+数据时。
只是个人理解,学点东西。感觉还没理解透彻,再去想想。
网友评论