使用腾讯开源词向量Tencent_AILab_ChineseEm

作者: 你说你要一场 | 来源:发表于2019-07-05 18:16 被阅读0次

使用腾讯开源词向量Tencent_AILab_ChineseEm
利用gensim使用腾讯开源的预训练好的词向量
自然语言处理——使用词向量（腾讯词向量）
使用的词向量
gensim 词向量工具
词向量-简介
tensorflow
fasttext文本分类
通俗理解潜在语义分析LSA
使用gensim训练词向量

>>> from gensim.models.keyedvectors import KeyedVectors
>>> file='Tencent_AILab_ChineseEmbedding.txt'
>>> wv_from_text = KeyedVectors.load_word2vec_format(file, binary=False)

该文件需要8-11G内存，我的内存只有16G 本身还占用了几G，而且Tencent_AILab_ChineseEmbedding.txt文件大小是16个G。
最后的解决方法是把交换区增加20G
增加步骤如下：
1.查看内存：free -m , -m是显示单位为MB，-g单位GB
2.创建一个文件：touch /root/swapfile
3.使用dd命令，来创建大小为2G的文件swapfile:
dd if=/dev/zero of=/root/swapfile bs=1M count=20480 //命令执行完需要等待一段时间
if表示input_file输入文件
of表示output_file输出文件
bs表示block_size块大小
count表示计数。
这里，我采用了数据块大小为1M，数据块数目为20480，这样分配的空间就是20G大小。
格式化交换文件：mkswap /root/swapfile

启用交换文件：swapon /root/swapfile

开机自动加载虚拟内存，在/etc/fstab文件中加入如下命令：
/root/swapfile swap swap defaults 0 0

重启后生效reboot

如果要删除交换分区和交换文件，逆着上面的顺序操作:

先删除/etc/fstab文件中添加的交换文件行
停用交换文件swapoff /root/swapfile

删除交换文件rm -fr /root/swapfile

参考自：https://www.jianshu.com/p/fae46241ba0c