离线数据开发
一、同一计算平台
实时技术
离线:在今天(T)处理N天前(T-N,N>=1的数据),时间粒度为天。
准实时:在当前小时(H)处理N小时前(H-N,N>0,如0.5小时、1小时等的数据),延迟时间粒度为小时。
实时:在当前时刻处理当前的数据,延迟时间粒度为秒。
简单来说,流式数据处理技术是指业务系统每产生一条数据,就会立刻被采集并及时发送到流式任务中心进行处理,不需要定时调度任务来处理数据。
流式数据处理一般具有以下特征:
1.时效性高
2.常驻任务
区别于离线任务的周期调度,流式任务属于常驻进程任务,一旦启动后就会一直运行,直到人为终止,因此计算成本会相对比较高。这一特点也预示着流式任务的数据源是无界的,而离线任务的数据源是有界的。这也是实时处理和离线处理最主要的差别,这个特性会导致实时任务在数据处理上有一定的局限性。
3.性能要求高
4.应用局限性
实时数据处理不能替代离线处理,除了计算成本较大这个因素外,对于业务逻辑复杂的场景(比如双流关联或者需要数据回滚的情况),其局限性导致支持不足。另外,由于数据源是流式的,在数据具有上下文关系的情况下,数据到达时间的不确定性导致实时处理跟离线处理得出来得的结果会有一定的差异。
网友评论