本周工作:
1、对问题进行分桶,从行业包与通用包二分类,到行业包、通用包、商品包、其他四分类进行演进与调整。
2、抽取问题进行标注,并根据标注结果与标注过程中发现的问题汇总了行业表通用包标注规范,并协调运营标注完成高质量的1000条数据,抽取出额外的2000条数据按照最新的标注规范进行标注,作为黄金测试集。
3、以1000条数据为标的不断的吸取相似的数据扩充数据集,训练模型,并准备在新的2000条数据上验证效果。
4、目前采用1000条有偏数据作为测试集的PRF值如下:
precision recall f1-score support
1 0.78 0.81 0.79 181
2 0.75 0.63 0.68 302
3 0.67 0.78 0.72 206
4 0.76 0.78 0.77 311
accuracy 0.74 1000
macro avg 0.74 0.75 0.74 1000
weighted avg 0.74 0.74 0.74 1000
[[146 10 6 19]
[ 17 190 54 41]
[ 3 27 161 15]
[ 21 27 19 244]]
下周计划:
1、完成行业包商品包通用包其他四分类模型,调优到基本可用。
2、协助商品级问答在线与离线的推进与相关工作。
3、智能客服3.0相关其他工作。
网友评论