用Py做文本分析1：文本分析概述

作者: 凡有言说 | 来源:发表于2020-02-03 20:15 被阅读0次

数据的范围远远不止数字，文本、图像、声音等都是数据。然而非数字类数据难以利用起来，但其本身包含着丰富的信息。难处理的原因在于很难做量化，即纳入数学分析框架难度大。

文本挖掘即想办法对文本数据加以利用。从大量文本数据中抽取隐含的，未知的，可能有用的信息被称为自然语言处理（NLP）。其可以被分为三个模块：

文本信息的层次：

传统的思路是基于字典，但存在结果主观，依赖于编制者经验等不足。现代的思路是基于统计模型，通过特征提取对语料进行各种可能的重编码和组合，尽肯能的将信息量化，然后使用模型对潜在信息进行提取建模。

在进行原始语料量化时要尽可能的保留有效信息。具体地，在分词时要将原始文本拆分为有分析意义的最小信息单位。注意去除停用词，即剔除无意义的词，减少无效信息。如去除空白、标点符号等。其他的如词根识别、同义词/近义词识别，术语识别等。

网友评论

本文标题：用Py做文本分析1：文本分析概述

本文链接：https://www.haomeiwen.com/subject/eschthtx.html

用Py做文本分析1：文本分析概述