美文网首页
大数据书单

大数据书单

作者: 开水的杯子 | 来源:发表于2017-02-19 04:32 被阅读55次

这个月我主要想回答这么几个问题:如果要建立一个技术栈来做大数据的处理和分析,市场上都有哪些开源产品可用?大概都需要一些什么样的组件?这些产品的理论依据和实现方法是什么?各有什么样的利弊?这是我给自己找的书单,不一定全,不过在补充中。

参考书单:

HDFS

The Hadoop Distributed Filesystem (2010): acm原文, pdf, 笔记

评论:还行,不推荐看(推荐看简介)。HDFS的概述现在已经很普遍了,个人觉得原论文并没有比大多数博客和简介更多的内容。主要应该理解Name Node, Data Node, Rebalancing,和备份的概念应该差不多了。个人觉得具体去装一个HDFS的系统自己拿来玩一玩会更有用。市场上纯粹的裸hdfs/hadoop已经没有了吧,现在基本都是什么YARN+Spark外加一堆别的数据整理和分析的工具,所以HDFS本身,出了理解基本概念之外应该不需要研究太多的理论。

HDFS Architecture pdf

Analysis of HDFS Under HBase: A Facebook Messages Case Study pdf

YARN

YARN: yet another resource negotiator (2013) pdf, acm, 笔记

评论:这篇文章还挺有用的,推荐看。

Phoenix

没啥论文可看……有doc……

Elasticsearch

Elasticsearch: the Definitive Guide source 笔记

Paxos

Client response
Proposer
Acceptor
Learner (executes request, sends response to client)

Zookeeper

The life and times of a zookeeper Abstract, Paper

Terminology

ZAB: High-performance broadcast for primary-backup systems pdf

Cassandra

Cassandra: a decentralized structured storage system (2010) acm

TAO

TAO: how facebook serves the social graph (2012) acm, pdf

Spark

Apache Spark @Scale

ELK

ELK

相关文章

网友评论

      本文标题:大数据书单

      本文链接:https://www.haomeiwen.com/subject/mngdwttx.html