美文网首页
冷数据、温数据、热数据,数据也有温度?

冷数据、温数据、热数据,数据也有温度?

作者: 企通查 | 来源:发表于2020-09-01 14:28 被阅读0次

    随着信息技术的逐渐发展,数据出现指数型的增长。我们知道数据的种类很多,分类方式也有很多种,有以用户对象来分类的,如政务数据、行业数据、个人数据;有以数据存储形式分类的,如先前推文介绍过的结构化数据、半结构化数据和非结构化数据。还有一种分类方法,则是将数据分为冷数据、温数据和热数据,难道数据还有温度?

    数据为什么要区分“冷”和“热”?

    根据数据被访问使用的频次,数据可以被分为热数据、温数据和冷数据。显然数据肯定是没有温度的,那么为什么会有“冷”、“热”的说法呢?

    热数据

    热数据是需要被计算节点频繁访问的在线类数据,比如可以是半年以内的数据,用户经常会查询它们,适合放在数据库中存储,比如MySql、MongoDB和HBase。

    温数据

    温数据是非即时的状态和行为数据,也可以简单理解为把热数据和冷数据混在一起就成了温数据。如果整体数据量不大,也可以不区分温数据和热数据。

    冷数据

    冷数据是指离线类不经常访问的数据,用于灾难恢复的备份或者因为要遵守法律规定必须保留一段时间,比如企业备份数据、业务与操作日志数据、话单与统计数据。通常会存储在性能较低、价格较便宜的文件系统里,适用于离线分析,比如机器学习中的模型训练或者大数据分析。

    图:冷数据和热数据的区别,来源于微博@联想企业级服务

    总结一下,热数据就是访问量多的数据,而冷空气则基本没有什么存在感和访问量。比如在订单管理中,热数据就是指3个月以内的订单数据,查询时效性较高,温数据则是3-12个月前的订单数据,查询概率不高,而冷数据就是指1年前的订单数据,只会有偶尔的查询需求,其他时间几乎不会被用到。

    其实区分冷热数据的根本目的,在于能节省数据存储成本和提升在线数据查询性能,即控制成本

    为什么这么说?因为通常情况下,为了支持热数据的操作特性,需要有较好的硬件配置,比如高性能CPU、大内存、SSD硬盘等等。随着时间的推移,系统里会积累越来越多的历史数据,如果依然采用高配置机器来存放这些使用频率非常低的数据,势必会带来非常高的成本。当然,如果数据量很小或者不计成本,那完全不需要考虑冷热区分,采用一个单体系统就可以应对所有事情了。

    数据如何冷热分离?

    相信看到这里,大家对冷数据、温数据和热数据的概念已经很清晰了,那么有人可能会好奇,对于不同“温度”的数据,平时是如何存储的呢?

    数据量的爆炸式增长以及数据类型的日益细化,让数据分级和冷热数据分治成为降低单位容量数据成本、提升数据存储效率和密度的有效方式。在企业的数据中心中,只有约20%的数据是被经常访问的,IOPS(磁盘性能指标)要求100K 级别,剩余的则访问频率急剧下降,在10k 甚至以下。既然需求不同,就能够将不同类型的数据存储在不同的介质上,以最大化运用存储的效率。

    图:数据中心冷热数据通常占比,来源于网络

    由于冷数据和热数据的访问频次不同,就导致了在数据库搭建的各自不同:热数据因为访问频次需求大,效率要求高,所以就近计算和部署;冷数据访问频次低,效率要求慢,可以做集中化部署,而基于大规模存储池里,可以对数据进行压缩、去重等降低成本的方法。

    总结成一句话就是:热数据就近计算,冷数据集中存储

    从存储形式来说,一般情况冷数据存储在磁带、光盘,目前发展比较好的是蓝光光盘。热数据一般存放在SSD中,存取速度快,而温数据可以存放在7200转的硬盘。

    目前比较常见的冷热分离方案是将冷热数据分离到两套不同的系统,这两套系统拥有不同的存储特性、访问方式等,从而在保证热数据访问性能的同时,将冷数据的成本降低下来。

    相比单体系统而言,将冷热数据分离到两个系统中,必然会带来整体的复杂性,需要在性能、成本、复杂度等因素之间做的一个权衡。实践中,通常需要结合具体的业务,考虑下面几件事:

    冷热数据系统的选型

    确定冷热数据分割线

    如何进行数据的迁移

    如何应对跨系统的查询

    在系统选型上,对于热数据系统,需要重点考虑读写的性能问题,诸如MySQL、Elasticsearch等会成为首选;而对于冷数据系统,则需要重点关注低成本存储问题,通常会选择存储在HDFS或云对象存储中,再选择一个相应的查询系统。

    数据作为企业的核心资产之一虽然已受到广泛的认可和重视,但是分析技术的落后尚不具备充分提取冷数据价值的能力,因此很多公司对利用率高的热数据重视而忽视冷数据,这也符合常规企业成本的考量。

    随着数据分析和数据挖掘技术的进步,历史数据的可用价值将得到显著的提升,这样冷数据的存储需求会迎来快速增长。随着技术发展,应该会有越来越多的系统走向冷热分离系统,从而简化整体的复杂性,在业务层表现为统一的访问方式。

    奥德塔动态大数据资源中心基于互联网+大数据+人工智能技术构建,通过分布式数据采集集群、数据特征提取、机器学习和深度学习算法模型、NLP文本分析等技术实现了数据的实时更新、高度关联、动态下载、主动推送,为企业采购风控、销售客户评估、Al精准获客、精准招商、投融资、高校科研机构、政府事业单位提供了全方位的数据支持和数据应用解决方案;基于数据资源中心和分析专家团队为客户提供了行业产业分析报告、发展趋势报告和相关指数报告等专业咨询服务支持。

    关注公众号“企通查”,对话框回复关键词“社群”即可获得企通查资源分享群进群方式,群内每天免费分享一篇优质行业报告,欢迎入群!

    相关文章

      网友评论

          本文标题:冷数据、温数据、热数据,数据也有温度?

          本文链接:https://www.haomeiwen.com/subject/ckdvsktx.html