美文网首页人工智能
中文NLP笔记:5. 文本数据如何转换成计算机能够计算的数据

中文NLP笔记:5. 文本数据如何转换成计算机能够计算的数据

作者: 不会停的蜗牛 | 来源:发表于2019-01-31 23:55 被阅读360次

文本数据如何转换成计算机能够计算的数据

中文NLP笔记:5. 文本数据如何转换成计算机能够计算的数据

1. 词袋模型(Bag of Words Model)

  把文本(段落或者文档)看作无序的集合,忽略语法和单词的顺序,计算每个单词出现的次数

  实战步骤:

  例如有三句话语料

    ["机器学习带动人工智能飞速的发展。",

              "深度学习带动人工智能飞速的发展。",

              "机器学习和深度学习带动人工智能飞速的发展。"

              ]

  1.引入 jieba 分词器、语料和停用词集合

  2.对语料进行分词操作,用到 lcut() 方法:

  3.去掉停用词和标点符号

  4.把所有的分词放到一个袋子(List)里面,取并集,去重,得到特征词结果

    ['飞速', '的', '深度', '人工智能', '发展', '和', '机器', '学习', '带动']

  5.最后得到三句话的词袋向量

    [[1, 1, 0, 1, 1, 0, 1, 1, 1], [1, 1, 1, 1, 1, 0, 0, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1]]


2. 词向量 (Word Embedding)

  One-Hot Encoder

  向量的长度为整个语料库的大小,每个单词的向量在它自己对应位置上的数值为1,其他位置上为0

  这样的词向量看不出词语之间可能存在的关联关系

  形成的矩阵过于稀疏,会造成维度灾难。

  Word2Vec

  是 Google 团队2013年推出的,被广泛应用在自然语言处理任务中

  主要包含两种模型:Skip-Gram 和 CBOW

  可以将 One-Hot Encoder 转化为低维稠密向量

  相似单词之间的距离比较近


学习资料:

《中文自然语言处理入门实战》

相关文章

  • 中文NLP笔记:5. 文本数据如何转换成计算机能够计算的数据

    文本数据如何转换成计算机能够计算的数据 1. 词袋模型(Bag of Words Model) 把文本(段落或者...

  • tfidf

    NLP的应用范围:情感分析,文本相似度计算,文本分类。 问题的关键在于,如何把文本表示成计算机能懂的数据形式? 1...

  • NLP中数据增强的综述大全

    与计算机视觉中使用图像进行数据增强不同,NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作,如将图像旋转...

  • 06 特征抽取

    1数据的特征抽取 数据的特征抽取:将文本等数据进行特征值化(转换成计算机可以理解的数字类型) DictVector...

  • 2. 文本向量化

    在scikit-learn中,对文本数据进行特征提取,其实就是将文本数据转换为计算机能够处理的数字形式。Sciki...

  • 文本如何在计算机中表示

    计算机擅长处理数据,但是我们日常生活中使用的文字应该如何表示成计算机可以看懂的文字呢?对此,自然语言处理(NLP)...

  • 数据存储

    数据类型 计算机工业用术语“多媒体”来定义数字,文本,图像,音频和视频的信息。 计算机内部的数据 所有计算机外部的...

  • 2 编码和数据类型

    1.编码(密码本) 计算机中所有数据的本质上都是以0和1的组合来存储。 在计算机中会将中文内存转换成0100111...

  • 软件简单流程

    提交文件转换成文本数据就地检查数据转换提交库库内检查提交后台电缆计算数据输出

  • 词向量到word2vec与相关应用

    文本是更高层的,是人有智慧以后定义的一些tokens或者是一些符号去组合成的数据,所以必须转换成计算机能够识别出来...

网友评论

    本文标题:中文NLP笔记:5. 文本数据如何转换成计算机能够计算的数据

    本文链接:https://www.haomeiwen.com/subject/vjkrsqtx.html