论坛解答贴的识别
第一遍阅读
1.1 论文类型
这是一篇纯技术类的文章,面向的任务十分具体。
1.2 论文领域
这是一篇关于论坛中解答贴识别的论文,通俗一点来说就是我们在很多问答网站会见到这么一种情况:一个问题被提出,题主会对问题进行描述;然后有人会回答,回答的东西呢有的是答案,有的则是乱七八糟的东西,比如说闲聊啊,吐槽啊,请求再解释一下问题啊都有可能。这是一个超级具体的论文,因此能够完全对的上这篇文章研究领域的论文其实并不多。在这里论文重点提到了几个之前的研究成果,并且指出之前绝大部分都是监督式的研究。
之前的研究追溯到了最早的一篇论文是采用了三类基本的特征进行学习,包括:和问题的相近程度;和其他回答的相近程度;回答问题的人的资质。这三个特征泛化能力都不强,换个领域可能又需要重新提取其他的文本特征。在此基础上,人们又开始探究文本本身的特征,即这个回答长得像不像是个答案呢?等等一系列的特征。
领域背景 领域背景1.3 假设正确性讨论
这篇论文的基本假设是认为是不是答案和回答的位置以及和原问题的相关程度有关。在该论文中,将这个假设解释为problem post
中出现的词和answer post
中出现的单词,是存在一个共现概率的。还对于任何不懂是不是?其实说到底,这篇论文的本质是把假设简化成了:对于每一个problem- answer
对,如果
answer
是solution
那么这个answer
中的每一个单词都是有可能从两个来源产生的 ,即根据问题生成(translatioin model)的以及根据答案的传统写法(solution language model)生成的。如果这个answer
不是一个solution
那么,这个answer
中的每一个单词也是有可能从两个来源产生 ,即根据问题生成的非答案,以及根据非答案的传统写法生成。我们只需要计算出整个序列在这两种情况下分别的概率(序列概率其实就只是概率的简单相乘),就可以进行比较,选择合适的标签作为预测结果。
1.4 主要贡献
无监督的学习;用上了correlation
的概念。
第二遍阅读
来啦来啦,看模型啦。这个论文呢其实用的是传统的无监督学习的基本思路,引入了隐变量,成功的应用了EM算法作为训练方案。具体的过程用个简单的图来描述一下吧
算法过程算法过程一目了然,我就不多说了。值得一提的是,在这里的初始化并不是我们想象的那样直接随机初始化,而是根据回答的位置对随机初始化的概率进行了调整。越靠前的回答越倾向于标注为答案。这是符合实际的规律的。之所以这样做,是为了能够更快以及更好的收敛。
第三遍阅读
3.1 数据准备
用的是苹果论坛的数据,爬了总共140k的threads,人工标注了其中300个作为测试集合。并且做了些简单的统计和预处理(stemming)
3.2 评价标准
F1得分
3.3 Baseline
监督式和非监督式的两种。
3.4 实验结果
competitive with supervised Method
总结和收获
1.学到了一点超级有价值的东西:我们如果想要进行非监督式的学习,就需要采用一些在监督式学习中已经证明比较有价值的特征进行训练。