1-1
课程导学100%课程的方向、学习的方法
1-2 ***学前必读***(助你平稳踩坑,畅学无忧,课程学习与解决问题指南)100%注册慕课网的GitHub:
sunnycat
1-3 课程目录100%什么是大数据,带来的变革,现存的模式,技术概念,带来的挑战,典型应用(可以通过不同的维度看典型应用)
1-4 从一个案例说起100%大数据和推荐系统。根据大数据汇总得到的信息推荐产品
1-5 什么是大数据以及大数据的4V特征100%数据量:多样性及复杂性:数据类型的多样性,处理的数据类型分为:结构化、非结构化。基于高度分析的新价值:价值密度的高低与数据总量成反比,如何通过强大的算法更加快速的完成数据价值的提炼需要通过大数据来做。Eg:根据历史数据做准确的预言速度:处理速度快,实时性高。Mapreduce离线批处理,延时性高。随业务发展,实时性高需求高。
1-6 大数据带来的技术变革100%技术的驱动:数据量大
1、存储:文件存储 ==> 分布式存储
2、计算:单机==> 分布式计算()
3、网络:万兆(集群的)
4、DB:RDBMS(MySQL)==> NoSQL(HBase/Redis....)
商业的驱动:
商业驱动的前提下,用大数据结合公司业务创造公司的价值。电商、互联网发展快速,从大量数据分析出企业从中获取到价值。
1-7 大数据现存的模式100%1、有数据,没有大数据的思维。没有利用好.2、没有大数据,有大数据的思维。Eg:IT服务咨询3、有数据,有大数据思维。Eg:谷歌,阿里
1-8 大数据的技术概念100%初始需求:把货物搬到对岸。当数据量小时小船即可解决。当数据量大时,通过升级硬件方式(CPU
Memory Disk),容易到极限。解决方法:提出大数据概念1、分布式并行计算/处理:容纳多艘小船并行的河流2、船的选择:存储的介质
廉价:
中高价值:
3、运输过程拆开
货物搬到船上: 数据采集 数据存储
处理:小于多少的石头扔了 精细化的筛选
*数据采集:Flume Sqoop
*数据存储:Hadoop
*数据处理、分析、挖掘:Hadoop、Spark、Flink....
可视化:并不完全属于大数据,大数据重点是前面三个
1-9 大数据带来的挑战100%1、对现有数据库管理技术的挑战
2、经典的数据库技术并没有考虑到数据的多类别(多样性及复杂性)
3、实时性技术带来的挑战(时效性 )
4、网络架构、数据中心、运维的挑战
5、数据隐私
6、数据源的多样性
应该朝着这个方向努力,视野、境界、发展会有很大的提升
1-10 如何对大数据进行存储和分析100%系统瓶颈:
1、存储容量
2、读写速度
3、计算效率
Google大数据技术-奠定了基础,只是提供论文,没有开放原代码
1、mapreduce:分布式计算的框架,一个作业可以拆开放到不同的机器运行。
2、bigTable:大数据存储的一种手段,及快速的查询
3、GFS:分布式存储系统,提供高可靠的存储
1-11 大数据典型应用100%数据加工难度由易到难:
COUNT/SUM/AVG
GROUP BY/JOIN
窗口分析函数
异常/欺诈检测
人工智能
应用的角度,由上到下反映时效性:
报表
用户细分
指标监控:监控现在的状态
指标预警:事情发生前做预警
网友评论