1、与数据挖掘的区别
有幸在本科做毕业设计的时候,选择数据挖掘这个课题,但是采用的粗糙集的方法。以至于对于近几年火起来的大数据,一直有个问题困扰着我,大数据分析和数据挖掘究竟有什么不同。偶然的资料查找,看到了《大数据系统和分析技术综述》一文,坐着最《大数据时代》一书做了深刻的分析,总结的三句话让我恍然大悟:
大数据时代处理数据理念的三大转变:
(1)要全体不要抽样
(2)要效率不要绝对精确
(3)要相关不要因果
2、大数据的处理形式
(1)对静态数据的批量处理:适用于先存储后计算,实时性要求不高,同时数据的准确性和全面性更为重要的场景。
(2)流式数据处理系统:在大数据背景下,流式数据处理源于服务器日志的实时采集。
流式数据是一个无穷的数据序列,数据流中的数据格式可以是结构化的、半结构化的甚至是无结构化的,数据流中往往含有错误元素、垃圾信息等,因此流式数据的处理系统要有很好的容错性与异构数据分析能力,能够完成数据的动态清洗、格式处理等。
典型应用场景:数据采集应用、金融银行业的应用
(3)交互式数据处理系统:目标是将PB级数据的处理时间缩短到秒级。
交互式数据处理灵活、直观、便于控制。存储在系统中的数据文件能够被及时处理修改,同时处理结果可以立刻被使用。
典型应用场景:信息处理系统、互联网领域。采用NoSQL类型的数据库系统来处理交互式的数据,
(4)图数据处理系统:图数据主要包括图中的节点以及连接节点的边。
3、大数据处理系统的发展趋势
(1)数据处理引擎专用化
(2)数据处理平台多样化
(3)数据计算实时化
网友评论