最近在学习大数据,想着学习之余记录一些东西,与君共勉!
大数据(Big Data)定义:一种规模大到在获取,存储,管理,分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模,快速的数据流转,多样的数据类型和价值密度低四大特征。
从上面定义来看,大数据就是很大很大的数据集合,大到什么程度呢?举个例子,一般一个汉字是占用2-4个字节不等(主要看编码方式,是utf-8还是gbk等等),计算机最小单位是bit,而字节单位是byte,1byte =8bit 。也就是说一个汉字最多占用的是 4*8 =32bit 也就是 个bit ,或者说4Byte 。那么我们再来看看普通人的电脑容量是多大,正常容量是500G,其实说的是500*1000*1000*1000=500,000,000,000Byte(字节)465G 。为什么会这样呢?这是因为硬盘厂商的进位制采用的是1000进位,而操作系统的进位制采用的是1024进制。500,000,000,000 /1024 /1024 /1024 465
1465GByte 到底约等于多少个汉字呢?我们可以算一下,一个汉字最多4Byte,那么465GB ,1GB = 1024MB=1024*1024KB=1014*1024*1024B =1073741824 B,那么共可以写,(465/4)*1073741824 = 124822487040 个汉字,也就是1200亿个汉字。那么这算大数据吗?不算,实话说这个数据量远远达不到大数据标准。大数据一般都是TB级别的,1TB=1024GB 。由此可见,大数据到底有多大,更何况,TB也只是大数据最低的计算单位而已,在此之上还有PB、EB、ZB、YB 每个都是1024 倍。
有没有觉得1024这个数字很神奇?其实这个数字是有意义的,因为计算机识别的是二进制,而1024 其实就是 。是二进制的整数,现在每年10月24号也被命名为程序员节哦!
大数据就是海量的数据集合(单不对数据进行处理分析,他仅仅只能称为大的数据,而非大数据),大数据是:
1、有海量的数据
2、有对海量数据进行挖掘的需求
3、有对海量数据进行挖掘的软件工具(hadoop、spark、storm、flink、tez、impala......)
具体的大数据软件工具,等下一篇幅记录,这边讲讲大数据有什么用处。1、电商推荐系统:基于海量的浏览行为、购物行为数据,进行大量的算法模型的运算,得出各类推荐结论,以供电商网站页面来为用户进行商品推荐。 像淘宝,天猫,京东等等都是基于大数据的推荐,比如你买了鞋子,他就会给你推荐同款,或者给你推荐袜子等等。2、精准广告推送系统:基于海量的互联网用户的各类数据,统计分析,进行用户画像(得到用户的各种属性标签),然后可以为广告主进行有针对性的精准的广告投放。比如张三最近在学习大数据,且在系统上浏览了大数据相关书籍,这个系统就记录了部分的浏览信息,然后分析出部分需要学习大数据,然后相关大数据的广告就全推送给部分了,而 李四最近怀孕了,需要买婴儿相关物品信息,她就在淘宝上搜索婴儿用品,然后淘宝就会记录李四怀孕了,给她推荐好多奶粉啊,尿布啊之类的广告,这就叫精准广告推送!假如没有大数据,这个奶粉广告推送给张三,是不是很搞笑? 这两个例子只是大数据的一般应用,大数据无处不在,你可以想象有了大数据,抓个小偷是不是很容易?只要处理各个路口小区的监控,是不是很快就能破案?(事实上已经有类似系统存在了),还有好多好多应用场景,就不一一列举,大家可以发挥想象!
今天的笔记就到这儿!
网友评论