分析技术
数据处理:自然语言处理技术
统计和分析:关联规则分析、分类、聚类
模型预测:预测模型、机器学习、建模仿真
大数据技术
数据采集:ETl工具
数据存取:关系数据;NoSQl; SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现;支计算;关系图等
存储
结构化数据
海量的数据查询、统计、更新等操作效率低
非结构化数据
图片、视频、Word、Pdf、PPT等文件存储
不利于检索、查询和存储
半结构化数据
转换为结构化存储
按照非结构化存储
存储问题解决方案
在CAP理论指导下数据库技术适当“退化”
NoSQL技术:HDFS、HBASE、OceanBase、MongoDB等
计算
因结构变化为导致计算模式变更
需求模式变化带来的计算碰到瓶颈
解决方案
Hadoop(MapReduce技术)
流计算(Twitter的Storm和Yahoo!的S4)
数据来源
互联网企业:SNS、微博、视频网站、电子商务网站
物联网、移动设备、终端中的商品、个人位置、传感器采集的数据
联通、移动、电信等通信和互联网运营商
天文望远镜拍摄的图像、视频数据、气象学里面卫星云图数据等
对大数据感兴趣的朋友可以加入到我们的程序员OfHomeQQ群:610535338 群里有都是从事或者在学习大数据的朋友,在此我也邀请你进群一起学习,群内没有广告,也是禁止打广告的,大家也可以关注一下我的微信公共号“程序员OfHome”下方扫扫可关注。
网友评论