在执行分类时,jupyter一直在运行着根据分词生成语料矩阵,然后两三个小时京东服务器就访问不了,显式‘504’错误。一个月前我运行同样代码并没有出现这个情况。
于是我用top查看服务器状态,发现
image.png
5分钟的系统负载将近4了,CPU是4核,Python进程CPU是400%!为什么呢?难道没有用GPU?
image.pngGPU上没有进程!
后来又好了,只不过大部分词都OOV
image.pngmin_count=1, 词汇量30630
min_count=2, 24408
用了5000个图书测试:
min_count=1 word set size: 52480 wv size: 33692
看了下停用词表中有英文字母、大部分是汉语词,这些一定要停用吗?感觉会对分类有用的啊,先去掉停用词试试
5000行文本,不去掉停用词
min_count=1 word set size: 53750 wv size: 35032
停用词也没有阻碍太多WV生成!
min_count=0 word set size: 53750 wv size: 35032
max_vocab_size=50000改成100000,就基本一致了!
全量数据:
word set size: 254067 wv size: 92926
网友评论