我们知道,能够在业内叱咤风云的AI都曾“身经百战”,即经历过无数次的训练与试错。这就需要海量数据做依托,对于那些数据量匮乏的领域,就衍生出了数据增强技术。即,根据一个原始数据,稍作改动,变成一个对于AI来说的全新的数据。
既然数据拥有这种“自我繁殖”的能力,那是不是说数据匮乏不会再成为阻碍AI发展的绊脚石?比如,小语种的翻译,冷门动植物的识别,都可以通过对原始数据的变动而实现数据海量化,那么业内巨头们就再也不能垄断数据。
如果数据增强技术有如此之强的能力,这项技术至少应该像BERT一样在学术界和产业界引起极高的关注,并且迅速形成产业链。
可实际上今天我们仍然能看到大量AI企业为如何获取数据而忧虑。
为什么数据增强技术没能彻底解决他们的问题呢?这背后其实是一个成本问题。
数据增强技术从来都不是免费利用的,很多时候AI技术接口本身就需要按调用次数收费,还有计算成本以及时间成本。
比如文本数据经常利用的机器翻译来说,百度、搜狗、有道等等提供的机器翻译服务对于普通用户来说虽然是免费的,但是超过了一定流量值之后也要进行收费。数据增强技术显然属于收费范畴之中。而应用于图片数据增强的谷歌AutoAugment,更是一种十分昂贵的算法。应用时要对15000个模型进行收敛,这对算力的消耗是巨大的。
我们设想一下,如果数据增强的收费成本超过了人工去拍照收集,企业自然会去选择更划算的方法。实际上大多数时候企业既不能覆盖人工获取数据的成本,也不能覆盖数据增强技术应用的成本。这就是为什么,有了数据增强技术,AI的发展依然会由于数据不足而受限。
网友评论