——读AI and the Everything in the Whole Wide World Benchmark有感
起
随着计算能力的不断提升,大规模计算成为了可能,从大数据学习开始,到大规模深度学习都受益于摩尔定律下的计算机硬件发展。
在纯学术问题中,通过对某些实际问题的抽象,Benchmark作为评估多个不同方案之间的差异,起到了极大的作用。极大地提高了不同地区不同人们之间的解决类似问题的热情,并降低了成本,提升了效率。
承
由于Benchmark的优势,以及部分相关研究人员有意或无意的扩大化。科普文章大面积出现了对当前AI效果不切实际的幻想。在这个时间段,各个领域的学术大佬亲自下场,参与进来,导致形成了一个奇怪的现象:
学术圈声称自己做出了很大的科技突破;
科技公司声称自己做出了巨大的突破;
普通群众感觉好像科技影响了我们的方方面面。
转
春江水暖鸭先知,不止从什么时候开始,学术大佬开始回归学术。经济下行导致需要交付答卷的时候了。潮水退出,就看到了那些裸泳的人。
合
方法是有适用场景的,说不清楚边界,和声称自己没有边界的,都是耍流氓。(可以想想日心说)
最后,Benchmark并没有错,但是无脑扩充适用场景,那就不太合适。引用文中的话就是:
General benchmarks also get mentioned in marketing copy for commercial machine learning products, with performance on the benchmark presented as evidence of real-world technical achievement. This context is when the significance of benchmarks is most severely distorted, when performance on benchmarks is not just the tool for algorithmic selection, but actually presented as some reliable marker of expected model achievement in deployment
网友评论