本文是继上一篇《如何应对数据荒(1)》的第二个案例分析,
案例二
《Datamining: Seasonal and temperature fluctuations inthyroid-stimulating hormone》
摘要
研究目的:探索季节和气温对TSH的影响
数据源:2013.9.1-2016.8.31期间,医院LIS系统上339,985例患者的部分检验信息和同期中国气象局公布的每日气温,数据变量如下:
图片研究结果:
TSH中位值的季节性变化
SH检测值与气温的相关性
|
图片|
|
每个月TSH的中位数波动,以及同期的每个月温度的平均值的波动
|
统计学解读
该文章的所使用的数据维度非常有限(日期、检测结果、气温),所使用的统计学方法也非常简单(K-S检验,ANOVA,Pearson相关性分析),但是作者非常聪明地对数据进行了切割,其将日期先分组(3个整年阶段,其实是一个因素分不同阶段看,可视化上显得数据维度更丰富),再把时间切割成日、月、季节,再把所有切割维度下TSH的中位值计算并可视化,以成文。为了增强文章的说服力,作者将数据标准化进行了自验证以提高研究结果的可靠性。
数据处理的流程图如下:
图片模式拓展
当数据维度较低时,对原有数据进行切割是丰富数据统计内容,增加文章说服性的一种常用方法,也是应对‘数据荒’和数据过度丰富时的常见方法。
参考文献
Danchen Wanga, Xinqi Chenga,Songlin Yua,et.al. Data mining: Seasonal and temperature fluctuations in thyroid-stimulating hormone. Clinical Biochemistry 60 2018,59-63
网友评论