美文网首页文本分析
用Py做文本分析1:文本分析概述

用Py做文本分析1:文本分析概述

作者: 凡有言说 | 来源:发表于2020-02-03 20:15 被阅读0次

数据的范围远远不止数字,文本、图像、声音等都是数据。然而非数字类数据难以利用起来,但其本身包含着丰富的信息。难处理的原因在于很难做量化,即纳入数学分析框架难度大。

文本挖掘即想办法对文本数据加以利用。从大量文本数据中抽取隐含的,未知的,可能有用的信息被称为自然语言处理(NLP)。其可以被分为三个模块:

  1. 语料获取
  • 网络爬虫
  • 文本文件读入
  • 图片OCR识别
    ...
  1. 语料数据化
  • 分词
  • 信息处理
  • 文档-词条矩阵
  • 相关字典编制
  • 信息转换
    ...
  1. 语料挖掘
  • 词云
  • 关键词提取
  • 自动摘要
  • 文档聚类
  • 情感分析
  • 文章推荐
    ...

文本信息的层次:

  • 词条是否在文本中出现(基于词袋模型)
  • 词条间的内在联系(各种字典)
  • 词条的顺序(N-gram模型)
  • 语法信息(待探索区域)

传统的思路是基于字典,但存在结果主观,依赖于编制者经验等不足。现代的思路是基于统计模型,通过特征提取对语料进行各种可能的重编码和组合,尽肯能的将信息量化,然后使用模型对潜在信息进行提取建模。

在进行原始语料量化时要尽可能的保留有效信息。具体地,在分词时要将原始文本拆分为有分析意义的最小信息单位。注意去除停用词,即剔除无意义的词,减少无效信息。如去除空白、标点符号等。其他的如词根识别、同义词/近义词识别,术语识别等。

参考资料:
Python数据分析--玩转文本挖掘

相关文章

网友评论

    本文标题:用Py做文本分析1:文本分析概述

    本文链接:https://www.haomeiwen.com/subject/eschthtx.html