美文网首页
大数据分析与高速数据分析- 陈世敏

大数据分析与高速数据分析- 陈世敏

作者: 少游羁旅 | 来源:发表于2016-11-24 12:07 被阅读0次

    一、大数据背景与趋势

    1.计算机体系结构与硬件系统巨大发展

    a.CPU.内存.GPU.硬盘

    2.数据管理系统发展

    a.关系型数据库

    三大数据库:

    ORACLE.MS-SQLserver.IBM-DB2

    B.早期 针对事务处理系统(transaction processing )大量并发需求,少量读写操作

    90s Data Warehouse :数据仓库 读取大量数据分析操作

    2000年代 多种发展:数据流处理,GIS,多媒体数据库,Web后端

    2010年代 大数据

    3.大数据的概念与挑战

    1.大数据分析重要性

    EMC Digital Universe with R&A by IDC 2014

    2013:每个人产生的数据量4.4ZB/person (1ZB=10^21字节 )数据的利用率2%

    2020:每个人产生数据量:60~70ZB/person 。数据利用率20%

    大数据分析已经引起了广泛关注。

    2.大数据概念:

    1.数据量巨大Volume;

    数据种类繁多Variety;

    数据产生速度,更新速度快Velocity。

    2.与传统关系型数据库对比:传统先设计系统后采集数据;大数据先有数据,然后需要分析。

    处理需求更加丰富;数据密度降维

    3.大数据与云计算:云计算提供平台

    4.大数据处理平台:关系型;云平台;云平台+SQL;No-SQL:

    图数据处理:Google Pregel,Apache Giraph,Graphlab,Neo4j;

    5.研究生春季课程:大数据分析与大规模数据分析

    二、高速数据更新

    1.不同类型系统的Velocity

    Velocity是事务处理系统、数据流系统的主要设计目标;

    数据分析

                        数据分析

    新数据—》存储数据



    数据仓库

    数据更新方式:夜间离线更新;需要在线更新。

    目标:支持在线更新的同时保持好的读性能。

    传统数据更新操作问题:数据分析是顺序读取,数据更新是随机读写。

    TPC www.tpc.org 测试

    Our approach:使用SSD缓存在线更新。

    SSD在线更新

    日志记录分析及重要性

    从各种硬件设备软件系统收集日志记录。

    用于支持安全管理,故障排查,用户行为分析等重要应用。

    目标:存储处理大量日志数据:存储10PB;提高日志获取能力:1.2GB/s(100TB/day)

    基于时间窗口的连接操作:找匹配

    挑战:日志获取是分布的,希望同一段时间的日志记录在同一个机器节点上。

    解决方案 核心环节

    增量更新

    数据的新鲜性

    增量计算:数据量增大-》计算量增大

    Mapreduce编程模型

    Mapreduce/Hadoop 模型

    Mapreduce Word Count举例

    MapReduce增量计算:粗粒度、细粒度

    小结

    相关文章

      网友评论

          本文标题:大数据分析与高速数据分析- 陈世敏

          本文链接:https://www.haomeiwen.com/subject/jnybpttx.html