美文网首页
统计相关小tip

统计相关小tip

作者: zouxiaoyu | 来源:发表于2015-10-10 16:57 被阅读0次

    第一次看到对nominal, ordinal, interval 和ratio types解释的这么简单清楚的介绍:

    https://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/

    2017-02-06

    1)Exploring the Impact of Inter-smell Relations on

    Software Maintainability: An Empirical Study (ICSE 2013):

    PCA 主成分分析用在一篇论文里来分析collocated code smell

    2)Analyzing the Impact of Antipatterns on Change-Proneness Using Fine-GrainedCliff's delta effect size (WCRE 2012)用来验证一个分布比另一个分布值要大或者小(R中的orddom包),配合wilcoxon test验证2个分部差异显著,便能很好的支持自己的观点。

    Source Code Changes

    前提是:这2个都具体原理是啥。

    http://www.cnblogs.com/lafengdatascientist/p/5554167.html

    感觉这个好像特别适合实验。。

    Fisher-score,可以用在监督方法中评估单个feature的discriminative effect。

    poisson distribution可以来对一堆数据进行异常点的检测,可以自动推测出一个阈值(在某个条件下)

    Cohen's kappa,可以评估你的预测结果,与别人真实打分结果的inter-aggrement的程度。这个在评估工具,涉及到与人为评分比较时比较有用。https://en.wikipedia.org/wiki/Cohen%27s_kappa

    观察2 groups的数据是否存在difference。可以使用mann-whiteney test(wilcoxon test)(这个一般用p-value值表示差异显著),然后辅助Cliffs delta effect size(表示差异有多大)。 

    研究2组相关性的一般用spearman相关系数啥的。

    要做多元素对目标元素的影响,一般用回归模型的,当目标元素是bool类型时,一般用逻辑回归。

    1。直方图的分类数一般来说大致等于样本容量的平方根比较合适

    2。简单随机抽样一般抽的数目少于总体数目的5%时,才能保证样本中个体的独立性。

    3。p-value的值在统计过程中应用了中心极限定理,所以为了使得这个方法有效,样本容量

    必须足够大,通常应大于或等于30。有时假设检验对小样本也是有效的。

    4。当总体标准差不知,但样本标准差知,且样本容量足够大,则假设检验的p-value则用正太

    分布的z-分值来计算即z检验。当样本容量比较小,则用t统计量来检验即t检验。但无论样本容量大小,

    只要总体标准差是已知的,均适合用z检验来检验原假设算出相应的p-value。

    这里有一个前提,就是你认为的变量服从或者近似服从正太分布。

    5。不要求样本来自正太分布的假设检验叫任意分布假设检验,也叫非参数检验。

    6. Testing the differences between the activities of future

    committers and the activities of developers

    We conducted a Wilcoxon signed-rank test. A nonparametric

    tests which does not assume a normal distribution

    as is the case in our data set.

    相关文章

      网友评论

          本文标题:统计相关小tip

          本文链接:https://www.haomeiwen.com/subject/jhnncttx.html