大数据作为当下互联网领域的热门技术,不管是在就业还是创业过程中拥有大数据技术就拥有了一定的选择权。既然大数据技术这么重要,我们应该如何来学习呢。大数据基础学习应该从哪个方向开始呢?下面随着科多大数据老师一起来看看吧。
Hadoop:大数据系统
HDFS:分布式文件系统
MapReduce:分布式计算框架
YARN:资源管理框架
HBase:分布式列存储数据库
Hive:数据仓库Mahout:数据分析与挖掘
第二章.大数据关键技术
2.1大数据采集与预处理技术
Flume
Scribe
Kafka
Time
Tunnel
Chukwa
2.2大数据存储与管理技术
1.分布式文件系统
Lustre
GFS
PVFS
HDFS
2.分布式关系型数据库
Greenplum
Oracle
Exadata
3.分布式非关系型数据库
Hbase
2.3大数据存储与管理技术
2.3.1传统数据分析与挖掘方法传统数据分析与挖掘方法主要是针对结构化数据和事务处理的关系型数据库为主,根据不同应用的需求在此基础上构建数据仓库,并选择相关数据进行分析,常用的分析和挖掘方法有数据挖掘、机器学习、统计分析等。
下面对适合大数据技术的传统数据分析与挖掘方法举例分析
1.分类分析
逻辑回归
贝叶斯
支持向量机
感知器
神经网络
随机森林
有限玻耳兹曼机
2.聚类分析
K均值
期望最大化聚类
均值漂移聚类
层次聚类
谱聚类
3.关联规则
Apriori算法
FP-Tree算法
4.回归分析
局部加权线性回归主
成分回归分析法
2.3.2大数据分析与挖掘方法
布隆过滤器哈希算法 字典树 深度学习
2.3.3大数据分析与挖掘框架
1.批处理
可用于分布排序、web访问日志分析,反向索引构建、文档聚类、机器学习、基于统计的机器翻译等对实时性要求不高的大规模数据处理工作。如社交网络的分析,在FaceBook上以人为核心的社交网络中所产生的大量的文本、图片、音视频等多类型的海量数据进行批处理分析。批处理分析框架最具有代表性的就是MapReduce编程模型
2.流式数据分析
目前,流式数据分析框架主要应用于数据采集、搜索殷勤、广告精准推荐、商业智能、金融领域的风险管理、社交网络、智能交通等方面。在数据采集方面,获取海量的实时数据,及时地挖掘出有价值的信息在搜索引擎方面,对引擎使用者的查询偏好、浏览记录、地理位置等综合信息进行分析,从而决定在搜索页面中要插入什么广告,在哪些位置插入这些广告才能得到最佳效果在金融领域,通过流式数据分析框架可以对日常运营过程中产生的大量具有时效性的结构化、半结构化和非结构化数据进行流式分析,发现隐藏在其中的内在特征,可以帮助金融银行进行信用卡诈骗检测Twitter的Storm,Cloudera的Flume,LinkedIn的Kafka 3.交互式数据分析
主要应用于人机交互并实时反馈结果的应用场景Spark是一种基于内存计算的、可扩展的开源集群计算系统,具有MapReduce的优点
4.图数据分析图
能够很好的表示实体之间的关系在互联网络,Facebook利用图数据分析框架建立了大量的在线社会网络关系在交通领域,通过图数据分析框架可在动态网络交通中查找最短路径Pregel是谷歌提出的基于BSP模型的分布式图计算框架,主要用于BFS(图遍历)、最短路径(SSSP)、PageRank计算等
第三章.基于Hadoop的大数据生态系统
1.Hadoop
Common是Hadoop体系最底层的一个模块,为Hadoop各子项目提供开发所需的API
2.HDFS,提供了一个大规模数据存储管理的基础
3.MapReduce是一种计算模型,用于进行大数据量的计算
4.YARN:资源管理框架,他可以对集群中的各类资源进行抽下能,并按照一定的策略将资源分配给应用程序或服务
5.Hbase:分布式数据存储系统,对大规模数据的随机、实时读写访问
6.Hive:数据仓库工具,可以将结构化数据文件映射为一张数据库表,通过类SQL语句快速实现简单MapReduce统计
以上就是大数据基础学习的知识点了,有没有帮助到你呢。大数据技术赶快学起来哦。更多的大数据知识可以找科多大数据老师为你解答。
网友评论