数据标注

作者: YIPXC | 来源:发表于2018-11-13 08:45 被阅读0次

    背景

    • 机器学习的学习方式包括:监督学习、无监督学习

    • 数据分为两种类型:被标注or未被标注

    • 其中监督学习需要经过标注的数据作为先验经验,即算法同事使用被标注的数据去训练模型

    • 跟成熟的传统互联网领域不同,目前是AI早期阶段,在某些角度上,数据的重要性甚至超过了技术架构/算法,或常规的产品体验

    流程

    • 数据标注

    ○ 明确标注任务的目的,根据任务目的设立标签类别和维度

    ○ 标签设计原则:独立性、全面性

    ○ 标签颗粒度:颗粒度↑,独立性↓,全面性↑;颗粒度↓,独立性↑,全面性↓

    • 模型训练

    由算法同事跟进,但产品可依据需求,向算法同事提出需要注意的方面,避免无目的性、无针对性、无紧急程度的工作

    • 模型测试

    由测试同事/算法同事将未被训练过的数据在新的模型下做测试。

    测试同事需要将测试的结果完善地反馈给算法同事,算法同事才能找准模型效果欠缺的原因。同时,测试同事将本次模型的指标结果反馈给产品,由产品评估是否满足上线需求。

    一般来说模型测试至少需要关注两个指标:

    1.精确率:识别为正确的样本数/识别出来的样本数

    2.召回率:识别为正确的样本数/所有样本中正确的数

    • 产品评估

    在模型上线之前,产品需反复验证模型效果

    相关文章

      网友评论

        本文标题:数据标注

        本文链接:https://www.haomeiwen.com/subject/eoqkfqtx.html