美文网首页
短文本分类在商品分类下的应用

短文本分类在商品分类下的应用

作者: panjinya | 来源:发表于2019-12-19 14:51 被阅读0次

    最近发现从电商网站获取到的商品,有一些是没有分类信息的
    想到用商品标题文本解析,用文本分类的方法来初步实现未分类商品的二次分类

    先熟悉一下文本分类的一些最基础算法
    参考文本分类的14种算法总结,看完这个文章就能有个大致了解。他给出的数据集是西班牙语/法语?还是啥语言的分类,label只有两个。
    另外一篇文章讲解的细一些14种分类算法进行文本分类实战,是中文文本分类

    =======我是分割线,这些都是渣渣========

    step1.我这边先把商品库的商品标题和分类信息拿出来,一部分作为训练集,一部分作为验证集。很快就发现我这分类太多,准确率是0。吐血整理扩大数据集。。。。。
    step2.减少分类到10个,(先做这么粗糙),训练集9000条左右,修改了stoplist,准确率最高到0.58
    step3.保持10个分类,扩大数据集到12万条,保持stoplist不变,准确率浮动很大,不同算法60%~100%不等
    step4.语料增加到40万条,分类扩到40个,暴力分割前面部分为训练集,后面部分为验证集。主要用MultinomialNB(因为很快而且准确率可以)训练,准确率到87%,GaussianNB准确率为99.9%,多分类前馈神经网络准确率92.9%
    step5.修改训练集和验证集的9:1抽样分割方式,MultinomialNB准确率为45.6%,但这种分割数据集的方式更为合理可信
    step6.加入jieba分词,MultinomialNB准确率为95.6%
    step7.改为67个分类,训练效果不忍直视。。。扩充数据集到1500万条,MultinomialNB准确率勉强到95.6%
    step8.分类数目不变,修改短文本的内容,增加一些商品属性之类的信息,数据集400万条,MultinomialNB准确率99.5%,训练速度和准确率都不错了
    step9.考虑词向量的应用,word2vector,似乎训练时间更长,而且准确率更低了,😓。。。。。不知道是否词向量更适用于神经网络的数据集处理,还是参数问题,还是怎样?

    在电商场景下进行商品分类的应用:
    由于电商平台的商品类目非常多,所以对于未分类商品,应先分类到大类(一级分类),再在特定的某个一级分类下细化到具体的子类

    相关文章

      网友评论

          本文标题:短文本分类在商品分类下的应用

          本文链接:https://www.haomeiwen.com/subject/wrbmnctx.html