美文网首页
图书分类项目问题

图书分类项目问题

作者: 御风_曜 | 来源:发表于2020-11-12 15:00 被阅读0次

在执行分类时,jupyter一直在运行着根据分词生成语料矩阵,然后两三个小时京东服务器就访问不了,显式‘504’错误。一个月前我运行同样代码并没有出现这个情况。

于是我用top查看服务器状态,发现


image.png

5分钟的系统负载将近4了,CPU是4核,Python进程CPU是400%!为什么呢?难道没有用GPU?

image.png

GPU上没有进程!

后来又好了,只不过大部分词都OOV

image.png

min_count=1, 词汇量30630
min_count=2, 24408

用了5000个图书测试:
min_count=1 word set size: 52480 wv size: 33692

看了下停用词表中有英文字母、大部分是汉语词,这些一定要停用吗?感觉会对分类有用的啊,先去掉停用词试试

5000行文本,不去掉停用词
min_count=1 word set size: 53750 wv size: 35032
停用词也没有阻碍太多WV生成!

min_count=0 word set size: 53750 wv size: 35032

max_vocab_size=50000改成100000,就基本一致了!

全量数据:
word set size: 254067 wv size: 92926

相关文章

  • 图书分类项目问题

    在执行分类时,jupyter一直在运行着根据分词生成语料矩阵,然后两三个小时京东服务器就访问不了,显式‘504’错...

  • 图书的分类

  • Scrapy爬取豆瓣图书数据并写入MySQL

    项目地址 BookSpider 介绍 本篇涉及的内容主要是获取分类下的所有图书数据,并写入MySQL 准备 Pyt...

  • 机器学习笔记(2)-预测信用卡欺诈

    一、项目简介 Credit Card Fraud Detection是一个典型的分类问题,欺诈分类的比例比较小,直...

  • 一对多关系

    需求:查询某种图书分类下面的所有图书。查询某种电脑分类下面的所有电脑。查询某种手机分类下面的所有手机。查询某种服装...

  • 《图书分类》课后反思

    这是一节非正式集体活动,主要解决图书的分类和记录问题,为条形统计活动做铺垫。 “分类”认知环节:通过谈话了解孩子分...

  • iOS 检查category分类重复方法名

    在项目中有时会遇到自己写的分类和其他分类方法命名一样,导致自己分类的方法不执行问题,所以写了一个类检查项目中有无c...

  • 补20170824 D4分类法- 分与合的魔力!

    分类法的魔力 一提及分类法,我第一个想到的是图书馆对图书的类目分类,大学更有专门的图书管理专业,中学时代的我顿时对...

  • 项目分类

    付费资讯 垂直社交 OA 小程序 手机开发

  • 杜威十进制图书分类法

    杜威十进图书分类法,是由美国图书馆专家麦尔威·杜威发明的,对世界图书馆分类学有相当大的影响,并被许多图书馆采用。在...

网友评论

      本文标题:图书分类项目问题

      本文链接:https://www.haomeiwen.com/subject/svadbktx.html