文章题目:众包质量控制算法及评价框架研究
作者:唐思
论文类型:浙江大学硕士学位论文
专业:计算机应用技术
所在学院:计算机科学与技术学院
文章主要内容
1、针对平台的工作者们可能缺乏必要的专业知识、存在偏见或者被恶意因素所驱使而造成低质量甚至完全错误的众包结果这一现象,本文提出一种两阶段基于工作者过滤和期望最大化的质量控制算法。
2、由于现今的研究缺乏统一的评价标准和评价指标,本文提出了众包质量控制算法的通用评价框架,并提出了任务分配、恶意工作者比例、答案位置分布等多种评价因素。
3、在该评价框架下实现了基于工作者过滤和期望最大化的质量控制算法以及几种现有的对比算法,并通过大规模模拟和在线实验,验证了本文提出的算法的有效性和鲁棒性,同时还通过对比实验指出了其他算法存在的问题。
学习点
此次主要学习该论文的实验设计和实验结果分析部分。
实验设计
算法和评价系统的实现是在Java环境下运行的,开发环境的操作系统为Windows 8,64位。主要使用的软件工具有:Eclipse, Tomcat, Mysql。开发的硬件环境,CPU为Intel Core i3双核3.1 QGhz,内存为4GB DDR3。运行和比较算法效果的实验环境为具有4个Intel E7420 2.13 Ghz,16核,64GB内存的Debian服务器上。
![](https://img.haomeiwen.com/i5801134/80519707eb78df3b.png)
实验中所用的数据集均来自于维基百科和IMDB的数据,并经过人工核实后用于生成题目。实际发布在AMT平台上的题目如下图所示。
![](https://img.haomeiwen.com/i5801134/47b838995f46fcf7.png)
实验结果分析
随机选取了多次不同任务的在线实验的数据,并对其中的应答时间进行了统计分析。
![](https://img.haomeiwen.com/i5801134/89bd996a20a3edaf.png)
![](https://img.haomeiwen.com/i5801134/a17f02d7bb5d589c.png)
由该表数据,我们可以得到结论,Filter和ExpFilter两种算法都改进了传统EM算法,同时其效果在大部分情况下都超过了传统的EM算法。除此之外,存在隐式反馈的Filter算法的确要ExpFilter算法效果要好,这证明了隐式反馈对于工作者过滤确实是有效可行的。
下图展示了在模拟实验的双标签任务中,几乎所有算法的效果都随着冗余工作者数目的增多而变好。
![](https://img.haomeiwen.com/i5801134/f4b6ec0a8a029fd1.png)
如下图所示,我们可以发现随着冗余的增多,算法对于工作者的估计越来越准确,这使得聚合答案的准确率逐渐升高。
![](https://img.haomeiwen.com/i5801134/cf54cdc9a08fdaac.png)
综上所述,我们可以得到结论,冗余答案越多,算法对于用户质量估计以及聚合答案的估计越准确。
我们还发现,在线实验中,当我们增加冗余工作者数目时(例如在下图中从7增加到9),算法的准确率并不一定提升。这是因为真实数据中用户质量是变化的,因此更多的冗余答案不一定保证更高的准确率。
![](https://img.haomeiwen.com/i5801134/67d0634c52d78e77.png)
总体来说,恶意用户率较高,几乎所有算法准确率都受到了影响。其中ELICE和多数表决算法下降的比其他算法要快,而我们提出的Filter受到影响较小,CDAS和EM算法其次。如下图所示。
![](https://img.haomeiwen.com/i5801134/0efdd1de6bc45cb2.png)
总结
主要学习本文的实验设计部分,包括数据集的采集、题目的设计、任务的分配以及实验结果的分析,为自己设计实验方案提供一些参考。
网友评论