昨天那篇论文稍微翻看了一下,基本上没有做其他深入理论上的研究,就是个系统实现。技术基本上都是基于WordNet和Lydia,有空可以深入了解一下这两个分析系统。
这个星期翻看了三四篇论文,至少在情感分析和自然语言处理这方面有了一个疏浅的了解吧。
情感分析里现在面临重要的问题是维度、强度和对象问题。
维度问题就是说,现在的情感分析引擎大多数还停留在简单的正面/中性/负面的线性一维分析上。而我们知道,情感一般是复杂的,因此更为准确的方法应当是多维度的。
强度问题更好理解了,当然已经有些算法开始着手解决这个问题了,但是问题解决的程度还有待于讨论。就是说,即使是在一个维度上,感情也不是个非黑即白的过程。从自然意义上它是连续过程,当然我们为了能使计算机方便计算,它肯定是个离散化数据,但问题是离散化数据的精度要到多少才算靠谱?用什么样的方法才能把多维度和多强度的情感分析准确量化,数据源/数据库(语料库)又应该从哪获得,又应该怎么处理?
接着是对象问题,我们不能简单地认为出现在一个语句里的内容就是它的情感表述对象,为了获得更准确的数据,我们甚至要进行语法分析来得出相应情感是针对哪个实体,或者某个实体的哪一部分。另一层面,引擎分析的内容对象也是个要解决的问题,在推特/微博中一般内容较短,我们很容易就能提取中心思想;但是在博客/新闻当中,它的主题思想可能是个变化的过程,如何提取和总结这个主题是也是另一个问题。
当然上述的过程大多都要结合一定的概率性算法,最常见的就是以条件概率为基础的贝叶斯模型,这个模型在社会学/心理学/语言学里比比皆是;马尔科夫模型也基本上是类似的概念,即下一步的概率取决于当前步的结果,成立在以下条件下:
P(Xn+1=x∣X0,X1,X2,…,Xn)=P(Xn+1=x∣Xn)
一定要找个时间把随机过程方面的知识深入学习一下。
That's all for today. See you tomorrow.
Kevin Ham@Wuhu
Department of Internet Engineering, Anhui Normal University, Wuhu, China
3.9.2015
网友评论