2015_ICSE_The Impact of Mislabel

作者: zouxiaoyu | 来源:发表于2015-07-16 11:07 被阅读0次

2015_ICSE_The Impact of Mislabel
A plane taking off from lax,
按IF或JIF检索PubMed文献
parents impact
Make an impact
Exert ……impact on……
记单词
六级～
Academic Writing Lesson2
冲击 impact 长生草景天科多肉植物

私以为，这篇文章写得很好，包括很美观直观的图片，细节的描述以及各种为了完成试验使用的各种高大上的R语言的各种包，让我觉得很有吸引力。这里的吸引力，体现在，让我知道了R中很多现成的包可以用来做模型的建立，数据的分析等，比如boot，bigrf，scottKnott等等。估计漂亮的图形也是用R给画出来的。让我觉得有必要再去深入点学习R本身。

好了，言归正传，这篇文章探究的是issue report本身mislabel的情况。像做defecty prediction model，其performance会受到2方面的bias影响，一方面是issue reporter与source code file的link missing，另一方面是issue report本身可能并不是defect，它可能是feature request或者其他种类等。对于后者，前人研究，觉得issue report本身是random mislabeled，而本文作者，通过对已有知道哪些issue report是mislabel的数据集进行特征的抽取，建立了mislabeled issue report的prediction model，发现，其实它并不是random-exist的。这个就算是新发现了。

随后，作者通过实验验证mislabeled issue report对defect prediction model的performance的影响，发现其对precision影响不大，会影响到recall，如果将数据clean后，recall会更高些。

另外，作者还对是否使用clean数据进行实验，对model的influential factors进行了分析，发现top 1的factor基本是noisy robust的，rank 2 or 3的基本没有太大的说服力，影响会比较大，不是太能将其作为参考。

本文用到了JIRA来link issue report和source code file，好像这个工具很多人用啊。为了研究更有说服力，作者将missing rate太低的project给过滤掉了，然后又得挑知道哪些issue report是mislabelled的数据集，所以最后选择Jackrabbit和Lucene。

感觉本文有很多可以借鉴学习的地方。

PS:作者在做model的时候，分别只用了9个和10个metrics，私以为，尤其是对mislabeled issue report的prediction的时候，是不是将issue report本身的一些特征放进去会比较好些，文章中好像对issue本身，用到的就是comment的数目以及其reporter先前报告report的mislabelling比例。

that's all, thank you!

zou

2015-07-16