大数据分析:基于python务实的方法 Big Data Ana

作者: python测试开发 | 来源:发表于2019-02-12 10:05 被阅读51次
    图片.png

    下载:https://itbooks.pipipan.com/fs/18113597-335817064

    我们生活在所谓的“第四次工业革命”的曙光中,“第四次工业革命”的出现标志着“网络物理系统”的出现,其中软件通过网络与物理系统无缝连接,如传感器,智能手机,车辆,电网或建筑物,创造物联网(IoT)的新世界。数据和信息是这个新时代的燃料,强大的分析算法可以燃烧这种燃料,从而产生预期的决策,为我们所有人创造一个更智能,更高效的世界。这个新的技术领域被定义为大数据分析工业和学术界正在认识到这是一种可以产生重大新财富和机会的竞争技术。大数据被定义为数据集的集合,其数量,体积,速度或种类如此之大,以至于难以使用传统数据库和数据处理工具来存储,管理,处理和分析数据。大数据分析涉及大规模数据的收集,存储,处理和分析。例如,Gartner和e-Skills的行业调查预测,仅在数据科学和分析领域受过培训的工程师和科学家将有超过200万个职位空缺,并且该领域的就业市场正在增长同比增长率为150%。我们已经编写了这本教科书,作为我们不断扩展的“实践方法”(TM)系列的一部分,以满足高校和大数据服务提供商的需求,他们可能有兴趣提供更广泛的视角。新兴领域将伴随他们的客户和开发人员培训计划。典型的读者应该在大学阶段使用传统的高级语言完成一些编程课程,并且是科学,技术,工程或数学(STEM)之一的高级或初级研究生。领域。本书的随附网站包含对教学和学习的额外支持。

    本书分为三个主要部分,共十二章。第一部分介绍了大数据,大数据应用以及大数据分析模式和架构。提出了一种新颖的数据分析应用系统设计方法,并通过开源大数据框架实现了该方法的实现。该方法将大数据分析应用程序描述为所提出的Alpha,Beta,Gamma和Delta模型的实现,其中包括用于从各种来源收集和摄取数据到大数据分析基础架构,分布式文件系统和非关系(NoSQL)的工具和框架。用于数据存储的数据库,以及用于批处理和实时分析的处理框架。这种新方法构成了本书的教学基础。第二部分向读者介绍了大数据分析的各种工具和框架,以及这些框架的体系结构和编程方面,以及Python中的示例。我们描述了Publish-Subscribe消息框架(Kafka和Kinesis),Source-Sink连接器(Flume),数据库连接器(Sqoop),消息队列(RabbitMQ,ZeroMQ,RestMQ,Amazon SQS)以及自定义REST,WebSocket和基于MQTT的连接器。读者将介绍数据存储,批处理和实时分析,以及交互式查询框架,包括HDFS,Hadoop,MapReduce,YARN,Pig,Oozie,Spark,Solr,HBase,Storm,Spark Streaming,Spark SQL,Hive,Amazon Redshift和谷歌BigQuery。还描述了服务数据库(MySQL,Amazon DynamoDB,Cassandra,MongoDB)和Django Python Web框架。第三部分向读者介绍了各种机器学习算法,其中包括使用Spark MLlib和H2O框架的示例,以及使用Lightning,Pygal和Seaborn等框架的可视化。

    参考资料

    相关文章

      网友评论

        本文标题:大数据分析:基于python务实的方法 Big Data Ana

        本文链接:https://www.haomeiwen.com/subject/szsheqtx.html