美文网首页
垃圾分类-论训练数据的重要性

垃圾分类-论训练数据的重要性

作者: A_You | 来源:发表于2019-05-23 22:14 被阅读0次

    垃圾分类

    随着应用系统采集数据的广度和深度,互联网的垃圾数据也被抓取进来,从而影响用户体验;

    垃圾类别

    出租:
    #重庆*租房*[超话]#南岸区茶园地铁金隅时代之星B座*单间**配套**公寓**出租*
    招聘:
    点开查看5/24招聘*信息*,大小厂都有,小厂更自由,工资也不低:诚
    征婚:
    我正在陌陌看中南*相亲**交友*的直播:520来脱单一言不合看直播

    训练数据

    V1

    利用专家知识,配置特征词过滤候选文本特征集;以 出租类别 的关键词为例:
    公寓|楼房|商铺|宅基地|房子|房屋|居室|LOFT|次卧|主卧|诚心|诚意|安心|放心|诚租|好房|跳水价|住宅|别墅|房东|二手房|一手房|现房|毛坯房|住房|厂房|套房|洋房|房源|写字楼|门面|租房|直租|中介费|个人|单间|价格|居住|小区|业主|信息|配套|户型|毛坯|户型|看房|层高|房东|私产|精装|平装|旺铺|租房|平方
    随后便以匹配关键词过滤候选文档

    V2

    业务系统使用使用elastic search进行存储,所以天然支持相关度排序(BM25);所以还是参照上述特征词,在ES中检索,按照相关度排序,便可以收获较高的训练预料集

    模型选取

    V1(2018) - TextCNN

    2018年初,使用TextCNN训练多分类(使用V1版本的训练数据集),便匆匆上线; 然而接下来的便是存在较大概率数据的误判,已经影响到客户的正常使用;

    V2(2019) - FastText

    伴随着客户的抱怨声,分类器优化已经迫在眉睫,进而使用V2版本的训练数据集,以 FastText(w2v + svm)作为baseline; acc达到 0.97

    总结

    训练数据的质量决定了你的模型的高度,而模型方法只是在逼近这个高度。以上细有省略处,还请见谅,只是借此阐述数据质量的重要性

    相关文章

      网友评论

          本文标题:垃圾分类-论训练数据的重要性

          本文链接:https://www.haomeiwen.com/subject/ltjizqtx.html