1. 背景简介
随着网络技术的发展,社会调查方式不再局限于纸笔书面调查,由于时间和金钱成本低,通过网络调查平台发布问卷收集数据的方式逐渐兴起。然而,由于网络访问能力的差异性可能会导致样本取样偏差,因而,不少大型调查项目依然采用纸笔调查。此外,不少实践研究似乎也反映出,对比纸笔调查而言,网络调查方式下,被调查者更可能不认真作答,从而影响调查数据的质量,这也成为了限制网络调查发展的重要原因之一。
不过,随着技术的不断发展,网络调查的优点在逐渐地凸显。一方面,访问网络能力差异性在不断减小。另一方面, 就问卷调查的数据质量问题而言,基本上可以从以下几方面来进行控制:(1)问卷开发阶段(包括但不限于问卷内容和问卷呈现等);(2)问卷发布阶段(包括但不限于抽样方式、发布问卷方式、邀请设计、再次提醒和激励手段等);(3)问卷完成阶段(包括不限于被调查者卷入度、被调查者的作答模式、参与调查的动机、参与调查的环境等);(4)问卷回收阶段(包括但不限于工具的可靠性、数据的安全性等)。在这些阶段中,网络调查较为突出的优势在于,在问卷完成阶段中,被调查者的作答态度导致的数据质量问题可以通过收集被调查者的作答过程数据(paradata),例如,作答时间、快速作答情况、IP地址、浏览器信息等,进行相应的控制和评估,而这正是纸笔调查难以实现的地方。
因此,充分利用作答过程数据,并结合被调查者的作答模式来进行作答质量评估,有利于提高调查进度和数据使用效率。
综上,尝试利用作答过程数据及作答模式相关指标来预测网络调查作答质量情况,即建立质量评估模型,从而为发放红包方式提供相应的指标参考。
2. 模型建立思路
利用已有的网络调查数据,将作答过程及作答模式的相关指标作为预测变量,人工清洗的作答质量为结果变量,建立回归模型。
其中,网络调查数据基本信息如下:
- 收集时间:2018-6-19至2018-10-23;
- 样本量:N = 25885;
- 变量情况:390个变量;
- 问卷情况:共7页;
3. 模型使用变量
使用的预测变量及结果变量如下,其中,预测变量的作答模式中的数值指的是问卷中所有样本均需要作答的单选题的数值,多选题、填空题不在其中。
(1)预测变量
包括作答模式、作答过程、作答时间、重复性四个方面。
① 作答模式
包括单选题中的数值是否相同、相同数值的最大长度、数值的标准差、拐点数、作答模式指标5类:
1)数值是否相同:【算出】I.每一页单选题的数值是否都相同;II.所有单选题的数值是否相同;III. 数值都相同的页数。
2)相同数值的最大长度:即最多有多少个数值是相同的。【算出】I. 每一页相同数值的最大长度及该长度占该页题目数的比例;II. 最大长度的最大值及比例最大值。
3)数值的标准差:【算出】I.每页单选题的标准差;II.标准差的均值。
4)相对拐点数:即连续三个值中,中间值大于或小于其他俩值,即记为1个拐点,用拐点数与中位数差值的绝对值表示相对拐点数。【算出】I.所有页面的相对拐点数的均值;II.所有题目的相对拐点数。
5)作答模式指标:参见(Leiner, 2019),该指标对作答模式(直线、对角或折线)较为敏感,值越小,表明规律性作答的可能性越高。
计算过程:
计算指标.png
其中,ri指的是某道题的答案数值,k指的是题目数量。ri''表示的是(ri-ri-1)-(ri-1-ri-2).
计算指标2.png举例:如上图所示,共10道题:
答案1(直线模式):5 4 1 1 1 1 1 1 1 1
——作答模式指标=|[(1-4)-(4-5)]+[(1-1)-(1-4)]+……+[(1-1)-(1-1)]|/(10-2)=1/8
答案2(折线模式):5 4 3 2 1 2 3 4 5 5
——作答模式指标=|[(3-4)-(4-5)]+[(2-3)-(3-4)]+……+[(5-5)-(5-4)]|/(10-2)=1/8
答案3(一般作答):1 5 1 1 2 3 3 2 1 2
——作答模式指标=|[(1-5)-(5-1)]+[(1-1)-(1-5)]+……+[(2-1)-(1-2)]|/(10-2)=4/8
答案4(一般作答):1 2 2 1 3 3 2 3 1 4
——作答模式指标=|[(2-2)-(2-1)]+[(1-2)-(2-2)]+……+[(4-1)-(1-3)]|/(10-2)=3/8
答案5(变异性很大):3 1 4 3 4 2 5 1 3 3
——作答模式指标=|[(4-1)-(1-3)]+[(3-4)-(4-1)]+……+[(3-3)-(3-1)]|/(10-2)=2/8
答案6(变异性很大):5 2 4 1 4 2 5 4 5 2
——作答模式指标=|[(4-2)-(2-5)]+[(1-4)-(4-2)]+……+[(2-5)-(5-4)]|/(10-2)=0/8
【算出】I.每页作答模式指标及所有页该指标均值;II.所有单选题的作答模式指标。
② 作答过程
【系统自带】快速点击次数(ShortTimeClickCount),即用户快速作答提醒的次数。
③ 作答时间
包括作答时间、相对作答时间、作答时间异常值3类:
1)作答时间:【算出】结束时间和开始时间的差值。
2)相对作答时间:参见(Leiner, 2019),【算出】用作答时间除以作答时间中位数,得到相对作答时间;
3)作答时间异常:根据四分位距(iqr),过高=q3+1.5iqr;过低=q1-1.5iqr;【算出】I.作答时间是否过高;II.作答时间是否过低。
④ 重复性
【算出】IP地址是否重复。
(2)结果变量
包括填空题乱答、根据线性回归学生化残差( Studentized (jackknifed) residuals)识别出的异常值两方面,二分变量,1-质量好(n = 25732),0-质量不好(n = 153)
1)填空题乱答:对填空题的答案中,如“别管那么多”、"你猜"、"这么多表格谁有心情认真填完"、"这个问卷bug太多了,很无语,老太婆的裹脚布一样"等明显不认真甚至带有情绪化的答案标记为质量不好的数据。
2)数值型填空题答案离谱:例如,兄弟姐妹总和大于100,不及格科目数量大于100的标记为质量不好的数据。
3)线性回归学生化残差:计算回归模型(均已反向并计算均值),得到该回归模型的学生化残差,由于样本量较大,因此,将残差超过4倍标准差的标记为质量不好的数据。
PS:同时也得到了该回归模型的杠杆值和Cook's D值,这俩值均没有异常,故不以此来标记数据质量。
PPS:其他数值型填空题,由于填写时已经限制了相应的填答逻辑或者题目设置的确实不好填答,故不以此来标记数据质量。
4. 方法及结果
(1)方法
二元Logistics回归;通过逐步回归的方法建立回归模型。
(2)结果
① 回归结果
回归结果.png-
模型评价:
①. 模型拟合优度检验:χ2(25853) = 25920.98,p = 0.3781;
原则:χ2值越小,P越大,模型拟合效果越好②. AIC = 1704.54,BIC = 1745.344
原则:越小越好③. ROC曲线下面积 = 0.7924
原则:比0.5越大越好④. Nagelkerke R2 = 0.099(预测力)
原则:越大越好
总的来说,预测力低,主要是变量多,样本量大,还有其他可解释的预测变量。
PS:通过随机抽样进行逐步回归,ShortTimeClickCount这变量的预测能力比较稳定。
- 结果显示,4个预测变量能显著地预测数据质量情况:
①所有页面相对拐点数的均值:所有页面相对拐点数均值每增加一个单位,数据质量好比质量不好的概率低越17%,也就是,拐点数越多或者越少,数据质量更可能不好。
②所有页面中相同数值最长长度占比的最大值:在所有页面中,相同数值作答数量占所在页面题目的比例的最大值越大,也就是,连续选择相同数值答案比例每增加一个单位,数据质量好比数据质量不好的概率低约67%,即作答相同数字比例越高,数据质量更可能不好。
③相对作答时间:相对所有作答者作答时间的中位数而言,作答时间每增加一个单位,数据质量好比数据质量不好的概率高约0.89倍,即作答时间越长,相对而言,数据质量更可能好;
④快速点击次数:被提醒作答速度过快的次数每增加一个单位,数据质量好比质量不好的概率低约3%,即作答速度过快提示次数越多,数据质量更可能不好。
②模型方程
模型.png得数取对数之后,可以得到该数据质量好是质量不好的概率多少倍。
③应用
根据上述结果值,设置红包等级,例如,[0-0.5]微型红包;[0.5-1]小型红包;[1-2]中等红包;[2-4]大红包;[4以上]超大红包。
5. 一些其他想法
网络调查作答质量反馈:
对于网络调查的数据质量问题,研究者还是挺不放心的。
从科研服务的角度来说,如果调查系统反馈的数据能够在一定程度上帮助研究者识别质量不好的数据或者仅仅起到提示作用,也能在一定程度上减轻研究者的心理和研究负担。例如,
- 对作答时间情况进行标记提醒,如标记整体时间奇异值(过长或过短)作为参考;
- 对IP相同(或学号)进行标记提醒;
- 提供数据质量概率指标进行参考;
- 其他清洗数据的参考提示,如所有页面中相同数值最长长度。
参考文献
Leiner, Dominik J. (2019). Too Fast, too Straight, too Weird: Non-Reactive Indicators for Meaningless Data in Internet Surveys. Survey Research Methods, 13(3). doi: 10.18148/srm/2018.v13i3.7403.
网友评论