有一个非常形象的比喻——数据是21世纪的石油。
然而,大多数原始数据其实更像原油,并不能直接拿来就用。特别是在如火如荼的AI领域,更需要先进行数据标注,将原始数据变成算法可用数据。如果数据是原油,那么数据标注就是把原油提炼为成品油的过程。
数据标注得越精准、对算法模型训练的效果就越好。大部分算法在拥有足够多普通标注数据的情况下,能够将准确率提升到 95%,但从 95% 再提升到 99% 甚至 99.9% ,就需要大量高质量的标注数据。可以说,高质量的数据是制约模型和算法突破瓶颈的关键指标。
事实上,正是由于数据标注的重要性,在AI产业的上游已经形成了一条数据标注产业链。京东金融也在去年8月推出了专注于人工智能数据标注的科技平台——京东众智。
京东众智数据标注平台京东金融之所以上马京东众智项目,是因为随着公司AI研发的加速推进,急剧增长的数据需求在市场上得不到有效满足。
京东众智负责人回忆说:“随着业务量的增大,我们在AI开发中需要的数据标注量越来越大。我们找过很多数据标注公司,但是合作效果都不理想。这些问题严重拖累了很多项目的开发进度。痛定思痛,我们决定开发自己的数据标注平台,立项的时间是去年5月,我们只用了三个月时间,就在去年8月上线了京东众智平台。”
京东众智开发团队总结了各类数据标注平台的优点,并针对效率、质量、数据安全等痛点,对症下药——
- 人员专业度: 通过科学的培训机制和激励机制,建立起一套从标注专员到标注专家,再到高级专家和讲师的完整人才体系。
2)场景丰富度:开发了覆盖无人驾驶、智能服务机器人、医疗影像辅助诊断等八大业务场景的一系列专业工具和丰富模板。
3)审核机制: 与业内常见的抽检和一重审核不同,京东众智设置了双重审核机制,针对一些复杂度高的标注任务,甚至会进行第三重审核,以确保最终标注质量。
京东众智数据标注平台 京东众智数据标注平台传统的数据标注行业更像一个劳动密集型产业,主要是靠人工方式对文本、图片、语音、视频等数据进行标注。
京东金融推出Pre-AI快速落地方案,将人工标注和智能标注同步进行——第一步由人工进行少量标注,生成标注样本。第二步对样本进行建模训练,然后用训练出来的模型进行数据预标注,由人工判断标注是否准确,并反馈结果用于优化算法,直到机器标注的准确率达到99%时,人工完全撤出。
Pre-AI方案明显提高了数据标注平台效率,用一个星期的时间,就能完成传统模式下一个月的标注任务。
京东众智数据标注平台 京东众智数据标注平台对于很多企事业单位来说,在将数据标注外包时,都会担心数据安全问题,尤其是对于政府部门、银行等金融机构来说,数据安全问题至关重要。
为了确保涉密数据、核心数据的安全,京东金融开发了数据与流程分离的DCS架构。合作企业只要部署一套“众智星”系统,就可以通过调用接口的方式链接到京东众智平台,从而确保数据在不外流的情况下,使用京东众智现有的工具模板、人员体系、流程体系。
京东众智数据标注平台京东众智上线一年来,一位来自银行的客户表示:“过去,我们做一条身份证地址标注,成本是2毛到6毛钱,在京东众智平台上只需要5分钱,而且标注周期缩短为原先的四分之一,质量也明显提高。”喜悦之情溢于言表。
总结京东众智一年来取得的成绩,京东众智负责人表示:“我们在做京东众智时,选择了一条与业内流行的轻模式截然相反的重模式,别人不提供预打标、人员培训、标注工具、审核机制,我们都提供。第一年,我们的重点是做好产品、技术和人才体系;未来我们的重点是打造合作生态。希望在不久的将来,国内大部分的AI公司都可以用我们平台上标注的高质量数据,训练出更优质的模型和算法。”
网友评论