你必须要了解的九个大数据技术

作者: 金光闪闪耶 | 来源:发表于2018-12-15 11:53 被阅读2次

Hadoop是大数据领域最流行的技术,但也并不是唯一。还有很多其他技术可用于解决大数据问题。除了Apache Hadoop外,另外9个大数据技术也是必须要了解的。

1.Apache Flink

是一个高效、分布式、基于Java实现的通用大数据分析引擎,它具有分布式MapReduce一类平台的高效性、灵活性和扩展性以及并行数据库查询优化方案,它支持批量和基于流的数据分析,且提供了基于Java和Scala的API。

2.Apache Samza

在这里我还是要推荐下我自己建的大数据学习交流koukou裙: 9+57205+962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

是一个开源、分布式的流处理框架,它使用开源分布式消息处理系统Apache Kafka来实现消息服务,并使用资源管理器Apache Hadoop Yarn实现容错处理、处理器隔离、安全性和资源管理。

该技术由LinkedIn开发,最初目的是为了解决Apache Kafka在扩展能力方面存在的问题,包含诸如Simple API、Managed state、Fault Tolerant、Durable messaging、Scalable、Extensible,以及Processor Isolation等功能。

3.Cloud Dataflow

Dataflow是一种原生的Google Cloud数据处理服务,是一种构建、管理和优化复杂数据流水线的方法,用于构建移动应用,调试、追踪和监控产品级云应用。它采用了Google内部的技术Flume和MillWhell,其中Flume用于数据的高效并行化处理,而MillWhell则用于互联网级别的带有很好容错机制的流处理。

该技术提供了简单的编程模型,可用于批处理和流式数据的处理任务。该技术提供的数据流管理服务可控制数据处理作业的执行,数据处理作业可使用Data Flow SDK(Apache Beam)创建。

4.StreamSets

StreamSets是一种专门针对传输中数据进行过优化的数据处理平台,提供了可视化数据流创建模型,通过开源的方式发行。该技术可部署在内部环境或云中,提供了丰富的监视和管理界面。

数据收集器可使用数据管线实时地流式传输并处理数据,管线描述了数据从源头到最终目标的流动方式,可包含来源、目标,以及处理程序。数据收集器的生命周期可通过管理控制台进行控制。

5.TensorFlow

是继DistBelief之后的第二代机器学习系统。TensorFlow源自Google旗下的Google Brain项目,主要目标在于为Google全公司的不同产品和服务应用各种类型的神经网络机器学习能力。

支持分布式计算的TensorFlow能够使用户在自己的机器学习基础结构中训练分布式模型。该系统以高性能的gRPC数据库为支撑,与最近发布的Google云机器学习系统互补,使用户能够利用Google云平台,对TensorFlow模型进行训练并提供服务。

这是一种开源软件库,可使用数据流图谱(data flow graph)进行数值运算,这种技术已被包括DeepDream、RankBrain、Smart Replyused在内的各种Google项目所使用

6.Druid

Druid是一个用于大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析,诞生于2011年,包含诸如驱动交互式数据应用程序,多租户:大量并发用户,扩展能力:每天上万亿事件,次秒级查询,实时分析等功能。Druid还包含一些特殊的重要功能,例如低延迟数据摄入、快速聚合、任意切割能力、高可用性、近似计算与精确计算等。

7.Apache NiFi

Apache NiFi是一套强大可靠的数据处理和分发系统,可用于对数据的流转和转换创建有向图。借助该系统可以用图形界面创建、监视、控制数据流,有丰富的配置选项可供使用,可在运行时修改数据流,动态创建数据分区。此外还可以对数据在整个系统内的流动进行数据起源跟踪。通过开发自定义组件,还可轻松对其进行扩展。

8.LinkedIn WhereHows

WhereHows提供带元数据搜索的企业编录(Enterprise catalog),可以让您了解数据存储在哪里,是如何保存到那里的。该工具可提供协作、数据血统分析等功能,并可连接至多种数据源和提取、加载和转换(ETL)工具。

在这里我还是要推荐下我自己建的大数据学习交流kou裙: 957+205+962, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

该工具为数据发现提供了Web界面,支持API的后端服务器负责控制元数据的爬网(Crawling)以及与其他系统的集成。

9.Microsoft Cognitive Services

该技术源自Project Oxford和Bing,提供了22种认知计算API,主要分类包括:视觉、语音、语言、知识,以及搜索。该技术已集成于Cortana Intelligence Suite。

这是一种开源技术,提供了22种不同的认知计算REST API,并为开发者提供了适用于Windows、IOS、Android以及Python的SDK。想要了解更多的关于大数

相关文章

  • 你必须要了解的九个大数据技术

    Hadoop是大数据领域最流行的技术,但也并不是唯一。还有很多其他技术可用于解决大数据问题。除了Apache Ha...

  • 零基础大数据学习路线

    1.了解大数据理论 要学习大数据你至少应该知道什么是大数据,大数据一般运用在什么领域。对大数据有一个大概的了解,你...

  • 大数据学习开发?

    1.了解大数据理论 要学习大数据你至少应该知道什么是大数据,大数据一般运用在什么领域。对大数据有一个大概的了解,你...

  • 大数据入门系列

    没有基础想学大数据难吗? 大数据入门学习,你要掌握这些技能 大数据领域三个大的技术方向 自学大数据从哪入手 大数据...

  • 初学者怎么正确的学习web前端

    知己知彼才能百战不胜,首先你学一个技术,必须对这个技术的整体行业有所了解。要搞清楚目前Java应该学习什么内容,这...

  • 初学者怎么正确的学习Java

    知己知彼才能百战不胜,首先你学一个技术,必须对这个技术的整体行业有所了解。要搞清楚目前Java应该学习什么内容,这...

  • 初学者怎么学习java?

    回答一下初学者怎么正确的学习Java:知己知彼才能百战不胜,首先你学一个技术,必须对这个技术的整体行业有所了解。要...

  • 记录五 认识算法

    我们为什么要学习算法? 正所谓:数据结构 + 算法 = 程序 。当我们了解了数据结构时,就必须要了解一下算法。因为...

  • 了解JS中的WeakMaps

    WeakMap绝对是JavaScript中被低估的数据结构之一。但是,要完全了解它们,您必须了解它们的同级物-Ma...

  • 零基础带你快速入门web前端开发!

    首先无论你要学习任何技能,必须有一个清晰的版图,什么是清晰的版图呢?首先了解你学的技术将来要从事什么工作,这个工作...

网友评论

    本文标题:你必须要了解的九个大数据技术

    本文链接:https://www.haomeiwen.com/subject/xozohqtx.html