数据标注工作简介

作者: 赵峰Zaphyr | 来源:发表于2018-11-06 09:08 被阅读0次

工作流程拆解

一、数据标注

1、三个角色

1）标注员：标注员负责标记数据

2）审核员：审核员负责审核被标记数据的质量

3）管理员：管理人员、发放任务、统计工资

2、数据标记流程

1）任务分配：假设标注员每次标记的数据为一次任务，则每次任务可由管理员分批发放记录，也可将整个流程做成“抢单式”的，由后台直接分发。

2）标记程序设计：需要考虑到如何提升效率，比如快捷键的设置、边标记及边存等等功能都有利于提高标记效率。

3）进度跟踪：程序对标注员、审核员的工作分别进行跟踪，可利用“规定截止日期”的方式淘汰怠惰的人。

4）质量跟踪：通过计算标注人员的标注正确率和被审核通过率，对人员标注质量进行跟踪，可利用“末位淘汰”制提高标注人员质量。

二、模型训练

这部分基本交由算法同事跟进，但产品可依据需求，向算法同事提出需要注意的方面

eg背景：一个识别车辆的产品对大众车某系列的识别效果非常不理想，经过跟踪发现，是因为该车系和另外一个品牌的车型十分相似。那么，为了达到某个目标（比如，将精确率提高5%），可以采用的方式包括：

1）补充数据：针对大众车系的数据做补充。值得注意的是，不仅是补充正例（“XXX”应该被识别为该大众车系），还可以提供负例（“XXX”不应该被识别为该大众车系），这样可以提高差异度的识别。

2）优化数据：修改大批以往的错误标注。

产品将具体的需求给到算法工程师，能避免无目的性、无针对性、无紧急程度的工作

三、模型测试

测试同事（一般来说算法同事也会直接负责模型测试）将未被训练过的数据在新的模型下做测试。

如果没有后台设计，测试结果只能由人工抽样计算，抽样计算繁琐且效率较低。因此可以考虑由后台计算。

一般来说模型测试至少需要关注两个指标：

1）精确率：识别为正确的样本数/识别出来的样本数

2）召回率：识别为正确的样本数/所有样本中正确的数

注意：

模型的效果，需要在这两个指标之间达到一个平衡

测试同事需要关注特定领域内每个类别的指标，比如针对识别人脸的表情，里面有喜怒哀乐等分类，每一个分类对应的指标都是不一样的

测试同事需要将测试的结果完善地反馈给算法同事，算法同事才能找准模型效果欠缺的原因。

同时，测试同事将本次模型的指标结果反馈给产品，由产品评估是否满足上线需求。

四、产品评估

“评估模型是否满足上线需求”是产品必须关注的，一旦上线会影响到客户的使用感。

因此，在模型上线之前，产品需反复验证模型效果。为了用数据对比本模型和上一个模型的优劣，需要每次都记录好指标数据。

假设本次模型主要是为了优化领域内其中一类的指标，在关注目的的同时，产品还需同时注意检测其他类别的效果，以免漏洞产生。

补充

产品经理的工作，不止是产品评估——除了流程控制，质量评估，还有针对分类问题，由产品经理制定边界，这是非常重要的，直接影响模型是否满足市场需求。

产品制定分类规则：例如，目的是希望模型能够识别红色，那产品需要详细描述“红色”包含的颜色，暗红色算红色吗？紫红色算红色吗？紫红色算是红色还是紫色？这些非常细节的规则都需要产品设定。

如果分类细，那么针对某一类的数据就会少。如果分类大，那么一些有歧义的数据就会被放进该分类，也会影响模型效果。

分类问题和策略问题道理是一样的，都需要产品对需求了解得非常深刻。

参考资料：《AI产品经理需要了解的数据标注工作入门》

网友评论

本文标题：数据标注工作简介

本文链接：https://www.haomeiwen.com/subject/ejsyxqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！