1、定下初版的行业包分类1234label的标注文档,并抽取1000条数据安排标注与标注相关答疑
2、采用1000条数据按照8:2比例分训练集与测试集并预打标,预打标结果与标注一致率为85%
3、挑出20+比较难标注,推理性较强的句子与并共同讨论确定结果
4、四分类模型在新的1000条数据中的准确率为46.5%
5、以讨论结果更新标注文档,准备明天结合新的标注文档与预打标的结果再次修改结果,得到黄金验证集。
目前来看想要通过分类模型端到端分类出该问题属于通用包、行业包、商品包、其他的难度比较大,可能需要其他的一些先验知识(行业包和商品包难以区分),比如行业属性知识加入到分类模型的先验知识。
网友评论