概要:
人工智能算法的成长需要不同种类数据进行喂养,本文将为AI数据领域的从业者介绍倍赛BasicFinder SaaS数据标注工具可加工数据类型的分类指南,以供读者了解各种数据的标记效果。
快判标注类型
快判标注需要标注人员对数据的图像或者文本数据的内容进行选择性判断。一般情况可供选择的标签数量比较有限(2~5个)。主要是辅助算法对指定目标范围进行区分判断。快判类别的标注场景主要有两种:“图像快判”(图1)和“文本快判”(图2)。
图1:图片快判 图2:文本快判图片标注类型
图片数据标注主要是对数据的主体进行轮廓界定,区域和位置的确定等。由于图片数据内容比较丰富,所以需要多种标记方式对数据进行处理加工,如2D框标注、3D框标注、线标注、关键点标注、语义分割和图像转录等。
2D框
2D框标注使用矩形框工具将图像中指定主体的所在区域用框体进行圈定,以确定主体大致轮廓、所在区域和位置。(图3)
图3:车体2D框3D框
3D框标注相比于2D框标注包含了主体所占立体空间的数据。3D框的绘制需要标记人员进行准确判断和预估主体所占空间。(图4)
图4:车体3D框线标注
线标注经常应用在自动驾驶领域对车道线的标注。用线条勾勒出不同区域的边界。(图5)
图5:线标注关键点标注
关键点标注主要是对图像数据的几何中心、内容中心或者指定点进行定位。(图6)
图6:关键点标注语义分割
语义分割和2D框标注相比,能够更清晰地界定主体边界和范围,数据信息含量更多,应用于模型也更加准确。(图7)
图7:语义分割标注图片转录
图片转录顾名思义,将图片中的核心内容转化成文本数据,以便模型可以更有效地识别图像数据中的信息。(图8)
图8:图片转录文本标注类型
文本标注是对文本内容根据算法需求进行特殊处理的数据加工方法。常见的文本标注包含:指代消歧、实体标注、转写翻译、词性标注、问答回复、关系抽取、拼写纠错、文本摘要、分词标注等。
指代消歧
指将一段文本中包含的代词或者名词与其指代内容相同的部分连接起来。有时部分代词或名词被省略,但仍需进行标记。(图9)
图9:指代消歧实体标注
将文本中的实体与指定的标签进行关联。(图10)
图10:实体标注转写翻译
将文本从一种语言转换翻译为另一种语言或是文本的简繁体转换。(图11)
图11:转写翻译词性标注
词性标注任务是将给定句子中的每个单词从给定标签组中赋予一个词性标签。(图12)
图12:词性标注问答回复
标注任务比较简单就是对原始文本提出的问题作出相应回答。(图13)
图13:问答回复关系抽取
给定两个实体,识别它们的关系并对关系进行分类。(图14)
图14:关系抽取拼写纠错
更改文本字段中的错别字以及错误词语。(图15)
图15:拼写纠错文本摘要
将长文本内容进行准确地概述。(图16)
图16:文本摘要分词标注
将文本字段的词组、独立字以及标点符号进行划分。(图17)
17:分词标注音频标注类型
标注任务是将音频中的自然语言转录成文本数据,同时可能会涉及到男女声辨别、情绪辨识和方言辨识等。(图18)
图18:音频标注视频标注类型
由于视频是连续的图像组成,所以视频标注与图像数据标注相似。(图19)
图19:视频标注3D点云标注类型
3D点云数据比图像数据拥有更多信息,可能包括强度信息、三维信息、方向信息、速度信息甚至颜色信息。3D点云标注主要分为两种:框体标注(图20)和语义分割(图21)。
图20:3D点云框体标注 图21:3D点云语义分割标注
网友评论