文本分析的意义
在我们日常的系统中,拥有的数据80%是非结构化的数据,而其中,大部分是文本的形式。非结构化的文本数据,包括电子邮件、博客、微博、客户反馈、医疗记录、合同文本等,而这些文本里隐藏着潜在的价值。只有通过适当的的分析方法,才能从中提取这些有价值的信息。
文本分析(Text Analytics)也称为文本挖掘(Text Mining),指的是从文本里分析提取出高质量信息的过程。
文本分析主要任务包括
- 文本索引与检索(Indexing and Search);
- 文本分类(Text Classification);
- 文本聚类(Text Clustering);
- 文档摘要(Document Summarization);
- 主题抽取(Topic Theme Extraction);
- 命名实体识别、概念抽取、关系建模(Named Entity Recognition, Concept Extraction, Relation Modeling);
- 情感分析(Sentiment Analysis);
使用到的技术与方法包括:
- 语言学(Linguistics);
- 统计学(Statistics);
- 数据挖掘和机器学习(Data Mining & Machine Learning);
- 自然语言处理(Natural Language Processing, NLP);
- 信息检索(Infornation Reatrieval);
文本分析的主要步骤
文本分析了解更多知识: 学习《文本分析》之分词、词性标注及语法树
网友评论