在进行大数据分析中,时间序列始终是无法绕过的概念。
我最开始接触是的指标这个概念,后来发现所有指标都保存在时间序列数据库中,我还纳闷,为什么不用一般的数据库呢?不过我看大家都没问,估计大家都已经有了共识,我也不敢问。
后来发现,在做类似与时间相关的曲线图的时候,时间序列数据库是主力数据源,我想这可能就是采用它的原因之一。
随着数据的逐年增加,用户提出一个新的需求,就是可以将以秒级采集的数据,聚合到分钟级,甚至是小时级,因为算法对于秒价的数据做计算太慢了,并且存在过度拟合的风险。从这个需求我也理解到了,数据嗯不同颗粒度是有不同的价值的,不是越低越好。
不过聚合的事情做的不是很顺利,除了技术本身的复杂性和数据量太大导致的性能问题外,整个需求没有处于闭环,也就是产生的时间序列始终无法有效检测。数据用户往往是在数据产生后很久,用算法计算后失败,然后对时间序列提出异议,或者产生的数据并无反馈,就导致了这个重要的工作没有起到它的作用。
时间序列数据对趋势预测算法的重要性,目前看怎么说都不为过。
网友评论