因为不懂如何提数据需求和数据分析,小白入门,先做个记录。。。
今天拿到一份数据,在提数据需求有一点没有考虑到,题目的版本号问题。我是这样写的:导出题库中题目的的作答数据。题型为一级题型:判断、填空、归类、排序、解决问题、计算、连线、选择、选择填空,不包含口算填空和口算选择。时间窗口:20170904-20180904. 文件格式:题型、题目ID、作答次数。需要再加上一条:题目版本号需要合并为一个,题目作答次数跟随版本号一起合并。
1.抽查部分数据:
a.拿到一份数据,首先抽取部分数据,最好是小的分层抽样,取验证小部分的数据是否与实际相符。例如,这是我拿到的是题目作答次数的数据,我先做了排序,看高频次、低频次的题目大致的分布。
b.抽查数据还有一点好处,小样能看出某些问题:
作答次数的少的题目验证了下:
1)有一部分是属于没有勾选主知识点和主考,推不出去;
2)还有符合主知识点(Q_10200911994039),但是仍没有推出,我们要思考问题出在哪里?
3)作答次数少还与题目录入时间有关,所以要排除录入时间的问题
4)发现一个问题:有的版本号有数据,有的没有版本号没有数据,这是什么问题?
没有完成的第一篇,开头丧。。。
网友评论