美文网首页
图书分类项目问题

图书分类项目问题

作者: 御风_曜 | 来源:发表于2020-11-12 15:00 被阅读0次

    在执行分类时,jupyter一直在运行着根据分词生成语料矩阵,然后两三个小时京东服务器就访问不了,显式‘504’错误。一个月前我运行同样代码并没有出现这个情况。

    于是我用top查看服务器状态,发现


    image.png

    5分钟的系统负载将近4了,CPU是4核,Python进程CPU是400%!为什么呢?难道没有用GPU?

    image.png

    GPU上没有进程!

    后来又好了,只不过大部分词都OOV

    image.png

    min_count=1, 词汇量30630
    min_count=2, 24408

    用了5000个图书测试:
    min_count=1 word set size: 52480 wv size: 33692

    看了下停用词表中有英文字母、大部分是汉语词,这些一定要停用吗?感觉会对分类有用的啊,先去掉停用词试试

    5000行文本,不去掉停用词
    min_count=1 word set size: 53750 wv size: 35032
    停用词也没有阻碍太多WV生成!

    min_count=0 word set size: 53750 wv size: 35032

    max_vocab_size=50000改成100000,就基本一致了!

    全量数据:
    word set size: 254067 wv size: 92926

    相关文章

      网友评论

          本文标题:图书分类项目问题

          本文链接:https://www.haomeiwen.com/subject/svadbktx.html