垃圾分类
随着应用系统采集数据的广度和深度,互联网的垃圾数据也被抓取进来,从而影响用户体验;
垃圾类别
出租:
#重庆*租房*[超话]#南岸区茶园地铁金隅时代之星B座*单间**配套**公寓**出租*
招聘:
点开查看5/24招聘*信息*,大小厂都有,小厂更自由,工资也不低:诚
征婚:
我正在陌陌看中南*相亲**交友*的直播:520来脱单一言不合看直播
训练数据
V1
利用专家知识,配置特征词过滤候选文本特征集;以 出租类别 的关键词为例:
公寓|楼房|商铺|宅基地|房子|房屋|居室|LOFT|次卧|主卧|诚心|诚意|安心|放心|诚租|好房|跳水价|住宅|别墅|房东|二手房|一手房|现房|毛坯房|住房|厂房|套房|洋房|房源|写字楼|门面|租房|直租|中介费|个人|单间|价格|居住|小区|业主|信息|配套|户型|毛坯|户型|看房|层高|房东|私产|精装|平装|旺铺|租房|平方
随后便以匹配关键词过滤候选文档
V2
业务系统使用使用elastic search进行存储,所以天然支持相关度排序(BM25);所以还是参照上述特征词,在ES中检索,按照相关度排序,便可以收获较高的训练预料集
模型选取
V1(2018) - TextCNN
2018年初,使用TextCNN训练多分类(使用V1版本的训练数据集),便匆匆上线; 然而接下来的便是存在较大概率数据的误判,已经影响到客户的正常使用;
V2(2019) - FastText
伴随着客户的抱怨声,分类器优化已经迫在眉睫,进而使用V2版本的训练数据集,以 FastText(w2v + svm)作为baseline; acc达到 0.97
总结
训练数据的质量决定了你的模型的高度,而模型方法只是在逼近这个高度。以上细有省略处,还请见谅,只是借此阐述数据质量的重要性
网友评论