吴军从腾讯回到Google时,他的上级领导希望他解决一些和机制智能有关的根本性问题,前提是这些问题解决之后,微软要花五年的时间才能追赶上。
基于Google的数据优势,后来,吴军提出了这样的一个解决方法:
第一步,根据网页确定,哪些用户再Google问过的复杂问题可以回答,哪些回答不了。根据他们的研究发现,大约70%~80%的问题,在Google第一页搜索结果中都有答案。来看一下这样的一个例子:在Google、必应或百度中问一个为什么的问题,比如“天为什么会下雨”、“风为什么有方向”,然后打开上述搜索引擎中给出的前10条搜索对应的网页,通常都能找到想要的答案。但是,如果只看到这些搜索引擎的摘要,指头20%~30%的问题的答案正好在摘要中。这实际上反应了当时计算机与人在理解问题和回答问题上的差异。如果把目标设定在只回答那些网页中存在答案的问题,其实就具备了大数据的完备性。
第二步,就是把问题和网页中的每一句话一一匹配,挑出那些可能时答案的片段,怎么挑呢?这得依靠机器学习了。
第三步,就是利用自然语言处理技术,把答案的片段合称为一个完整的段落。
最后,经过其团队两年的努力,按照大数据处理的思路,使得计算机能够回答30%的复杂问题,包括“天为什么会下雨”、“风为什么有方向”之类的问题。将机器生成的答案和人回答的答案拿给人=测评人评估师,对于大部分问题,测评人无法判断机器和人给的答案,哪个更准确、更好。
网友评论