1 项目介绍
1.1 项目背景
文本情感分析又称意见挖掘, 是对包含用户观点、 喜好、 情感等主观性文本进行挖掘、 分析及判别它是一个多学科交叉的研究领域, 涉及概率论、数据统计分析、计算机语言学、自然语言处理、机器学习、信息检索、本体学(Ontology) 等多个学科及其相关技术 。
鉴于其在用户意见挖掘、 垃圾邮件过滤及舆情分析等 多个领域具有重要的应用价值, 文本情感分析正受到国内外众多研究机构和学者的重视。
情感分析可归纳为情感信息抽取、 情感信息分类及情感信息的检索与归纳三项层层递进的研究任务 。本文研究的重点是情感信息分类, 旨在将文本情感分为褒义、 贬义两类或者更细致的情感类别。
按照分析文本的粒度不同, 情感信息分类可分为词语级 、短语级 、句子级 、篇章级 等几个研究层次。
目前, 情感分类大致涌现出两种研究思路:基于情感知识和基于特征。前者主要是基于已有的情感词典或情感知识库 对文本中带有情感或极性的词( 或词语单元) 进行加权求和, 而后者主要是对文本提取具有类别表征意义的 特征, 再基于这些特征使用机器学习算法进行分类。
1.2 项目目标
使用机器学习 和 情感词典 这两种方法 分别对中文新闻类文本进行情感极性分析
输入一段新闻文本能够得到文本的情感极性
1.3 目标人群
需要对已有中文文本数据进行情感分析的企业及用户
APP中需要集成中文文本情感分析功能的开发人员
从事中文文本情感分析与挖掘的研究人员
参考文档和完整的文档和源码下载地址:
网友评论