流程
根据研究,得出文本挖掘一般流程包括文本数据采集、文本数据预处理、文本数据分析和文本数据可视化这四个步骤。
(1)文本数据采集
作为文本挖掘过程的第一步,文本数据采集过程为:首先确定数据的来源,然后利用网络爬虫技术进行数据获取,最终将获取到的待处理文本数据存储至数据库,等待下一步处理。
(2)文本数据预处理
由于爬取到的评论数据充斥着许多无意义信息,因此在进入分析环节前,需要对评论内容进行预处理,包含文本清洗、中文分词、去停用词等,为下一步分析数据做好充分的准备。
(3)文本数据分析
主要包括文本特征表示和提取、文本分类、文本聚类分析、文本结构分析、关联性分析等等。
(4)文本数据可视化
这一步需要把挖掘到的有用信息变成易于大众理解的视觉信息,借助图形、表格等方式进行呈现。若直接将文本挖掘的数据结果呈现在用户眼前,用户很难理解这些晦涩的数据信息。而运用可视化技术将数据转换成通俗易懂的图表,就能轻松解决这样的困扰。
网友评论