数据系统大多数来自Apache,趁着比较清闲的时候整理了一份。
详细资料:https://pan.baidu.com/s/1qESrUMuz84qA5jb1UNUuoA
url | 描述 | 名称 | 说明+应用 |
---|---|---|---|
http://apex.apache.org/ | Enterprise-grade unified stream and batch processing engine | Apex | 一个Hadoop YARN本地平台,它统一了流和批处理 |
http://avro.apache.org/ | A Serialization System | Avro | 一个数据序列化系统 |
http://bahir.apache.org/ | Extensions to distributed analytic platforms such as Apache Spark | Bahir | 为多个分布式分析平台提供扩展,通过多种流式连接器和SQL数据源扩展其范围。目前,Bahir为Apache Spark和Apache Flink提供扩展。 |
http://bigtop.apache.org/ | Apache Hadoop ecosystem integration and distribution project | Bigtop | Bigtop打包Hadoop RPM和DEB,以便您可以管理和维护您的Hadoop集群。Bigtop提供了一个集成的烟雾测试框架,以及一套超过50个测试文件。Bigtop提供了用于从零部署Hadoop的流浪食谱,原始图像和(正在进行中)docker食谱。 |
http://carbondata.apache.org/ | indexed columnar data format for fast analytics on big data platform | Carbondata | Apache CarbonData是一种索引列数据格式,用于大数据平台上的快速分析,例如Apache Hadoop,Apache Spark等。 |
http://cassandra.apache.org/ | Highly scalable second-generation distributed database | Cassandra | 一套开源分布式数据库管理系统,由Facebook开发,用于储存特别大的数据。 |
http://datafu.apache.org/ | well-tested libraries that help developers solve common data problems in Hadoop and similar distributed systems | DataFu | 一个用于处理Hadoop中的大规模数据的库集合。该项目的灵感来源于需要稳定,经过充分测试的数据挖掘和统计数据库。 |
http://drill.apache.org/ | Schema-free SQL Query Engine for Apache Hadoop, NoSQL and Cloud Storage | Drill | 用于Hadoop,NoSQL和云存储的无模式SQL查询引擎 |
http://eagle.apache.org/ | open source analytics solution for identifying security and performance issues instantly on big data platforms | Eagle | 开源分析解决方案,用于在大数据平台即时识别安全性和性能问题,例如Apache Hadoop,Apache Spark等。它分析数据活动,纱线应用程序,jmx指标和守护进程日志等提供最先进的警报引擎,以识别安全漏洞,性能问题和显示见解。 |
http://falcon.apache.org/ | Data management and processing platform. | Falcon | 在Hadoop环境中建立各种数据和处理元素之间的关系 |
http://flink.apache.org/ | platform for scalable batch and stream data processing | Flink | 一款面向分布式,高性能,始终可用且准确的数据流应用程序的开源流处理框架。 |
http://giraph.apache.org/ | Iterative graph processing system built for high scalability | Giraph | 一个为高可扩展性而构建的迭代图处理系统。例如,Facebook目前使用它来分析由用户及其连接形成的社交图。 |
http://hadoop.apache.org/ | Distributed computing platform | Hadoop | 是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于在应用层检测和处理故障,从而在一组计算机之上提供高可用性服务,每个计算机都可能出现故障。 |
http://hama.apache.org/ | a Bulk Synchronous Parallel computing framework on top of Apache Hadoop | Hama | 一个大数据分析框架,它使用批量同步并行(BSP)计算模型,该模型于2012年成立为Apache软件基金会的顶级项目 |
http://hbase.apache.org/ | Apache Hadoop Database | HBase | HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 |
http://helix.apache.org/ | A cluster management framework for partitioned and replicated distributed resources | Helix | Apache Helix是一种通用的集群管理框架,用于自动管理节点集群上托管的分区,复制和分布式资源。面对节点故障和恢复,集群扩展和重新配置,Helix可自动重新分配资源。 |
http://hive.apache.org/ | Data warehouse infrastructure using the Apache Hadoop Database | Hive | 数据仓库软件有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据上。 |
http://impala.apache.org/ | a high-performance distributed SQL engine | Impala | 提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。 |
http://kafka.apache.org/ | Distributed publish-subscribe messaging system | Kafka | 一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 |
http://knox.apache.org/ | Simplify and normalize the deployment and implementation of secure Hadoop clusters | Knox | 用于Apache Hadoop生态系统的REST API和应用程序网关 |
http://kudu.apache.org/ | A distributed columnar storage engine built for the Apache Hadoop ecosystem | Kudu | 开源Apache Hadoop生态系统的新成员,完成Hadoop的存储层,以实现 对快速数据的快速分析 |
http://lens.apache.org/ | Unified analytics platform | Lens | 提供统一分析界面。Lens旨在通过跨多个分层数据存储提供单一数据视图和分析查询的最佳执行环境,从而削减Data Analytics孤岛。它将Hadoop与传统数据仓库无缝集成,看起来像一个。 |
http://madlib.apache.org/ | Scalable, Big Data, SQL-driven machine learning framework for Data Scientists | MADlib | 一个可扩展的数据库内分析的开源库。它为结构化和非结构化数据提供了数据并行实现的数学,统计和机器学习方法。 |
http://mahout.apache.org/ | Scalable machine learning library | Mahout | 用于创建可扩展的高性能机器学习应用程序 |
http://oozie.apache.org/ | A workflow scheduler system to manage Apache Hadoop jobs. | Oozie | 管理Apache Hadoop作业的工作流调度程序系统 |
http://pig.apache.org/ | Platform for analyzing large data sets | Pig | 一个分析大数据集的平台,其中包含用于表达数据分析程序的高级语言,以及用于评估这些程序的基础结构。Pig程序的显着特点是它们的结构适合大量的并行处理,从而使它们能够处理非常大的数据集。 |
http://predictionio.apache.org/ | a machine learning server built on top of state-of-the-art open source stack, that enables developers to manage and deploy production-ready predictive services for various kinds of machine learning tasks | Predictionio | 一款开源的机器学习服务器,基于最先进的开源堆栈,面向开发人员和数据科学家,为任何机器学习任务创建预测引擎 |
http://ranger.apache.org/ | framework to enable, monitor and manage comprehensive data security across the Hadoop platform. | Ranger | 一个框架,可在整个Hadoop平台上启用,监控和管理全面的数据安全性。 |
http://samza.apache.org/ | distributed stream processing framework | Samza | 一个分布式流处理框架。它使用Apache Kafka进行消息传递,Apache Hadoop YARN提供容错,处理器隔离,安全性和资源管理。 |
http://storm.apache.org/ | Distributed, real-time computation system | Storm | 一款免费且开源的分布式实时计算系统。Storm可以轻松地可靠地处理无限数据流,从而实时处理Hadoop进行批处理的操作。 |
http://systemml.apache.org/ | A machine learning platform optimal for big data | SystemML | 为使用大数据的机器学习提供了最佳的工作场所。它可以在Apache Spark上运行,它可以逐行自动扩展数据,确定代码是否应该在驱动程序或Apache Spark集群上运行。 |
http://tajo.apache.org/ | Big data warehouse system on Apache Hadoop | Tajo | 是Apache Hadoop的强大的大数据关系和分布式数据仓库系统。Tajo设计用于存储在HDFS(Hadoop分布式文件系统)和其他数据源上的大数据集上的低延迟和可伸缩即席查询,联机聚合和ETL(提取 - 转换 - 加载过程)。通过支持SQL标准并利用先进的数据库技术,Tajo允许通过各种查询评估策略和优化机会直接控制分布式执行和数据流。 |
http://tinkerpop.apache.org/ | A graph computing framework for both graph databases (OLTP) and graph analytic systems (OLAP) | TinkerPop | 图形数据库(OLTP)和图形分析系统(OLAP)的图形计算框架。 |
http://trafodion.apache.org/ | webscale SQL-on-Hadoop solution enabling transactional or operational workloads. | Trafodion | 事务SQL-on-Hadoop数据库 |
网友评论