数据的范围远远不止数字,文本、图像、声音等都是数据。然而非数字类数据难以利用起来,但其本身包含着丰富的信息。难处理的原因在于很难做量化,即纳入数学分析框架难度大。
文本挖掘即想办法对文本数据加以利用。从大量文本数据中抽取隐含的,未知的,可能有用的信息被称为自然语言处理(NLP)。其可以被分为三个模块:
- 语料获取
- 网络爬虫
- 文本文件读入
- 图片OCR识别
...
- 语料数据化
- 分词
- 信息处理
- 文档-词条矩阵
- 相关字典编制
- 信息转换
...
- 语料挖掘
- 词云
- 关键词提取
- 自动摘要
- 文档聚类
- 情感分析
- 文章推荐
...
文本信息的层次:
- 词条是否在文本中出现(基于词袋模型)
- 词条间的内在联系(各种字典)
- 词条的顺序(N-gram模型)
- 语法信息(待探索区域)
传统的思路是基于字典,但存在结果主观,依赖于编制者经验等不足。现代的思路是基于统计模型,通过特征提取对语料进行各种可能的重编码和组合,尽肯能的将信息量化,然后使用模型对潜在信息进行提取建模。
在进行原始语料量化时要尽可能的保留有效信息。具体地,在分词时要将原始文本拆分为有分析意义的最小信息单位。注意去除停用词,即剔除无意义的词,减少无效信息。如去除空白、标点符号等。其他的如词根识别、同义词/近义词识别,术语识别等。
参考资料:
Python数据分析--玩转文本挖掘
网友评论