美文网首页
大数据书单

大数据书单

作者: 开水的杯子 | 来源:发表于2017-02-19 04:32 被阅读55次

    这个月我主要想回答这么几个问题:如果要建立一个技术栈来做大数据的处理和分析,市场上都有哪些开源产品可用?大概都需要一些什么样的组件?这些产品的理论依据和实现方法是什么?各有什么样的利弊?这是我给自己找的书单,不一定全,不过在补充中。

    参考书单:

    HDFS

    The Hadoop Distributed Filesystem (2010): acm原文, pdf, 笔记

    评论:还行,不推荐看(推荐看简介)。HDFS的概述现在已经很普遍了,个人觉得原论文并没有比大多数博客和简介更多的内容。主要应该理解Name Node, Data Node, Rebalancing,和备份的概念应该差不多了。个人觉得具体去装一个HDFS的系统自己拿来玩一玩会更有用。市场上纯粹的裸hdfs/hadoop已经没有了吧,现在基本都是什么YARN+Spark外加一堆别的数据整理和分析的工具,所以HDFS本身,出了理解基本概念之外应该不需要研究太多的理论。

    HDFS Architecture pdf

    Analysis of HDFS Under HBase: A Facebook Messages Case Study pdf

    YARN

    YARN: yet another resource negotiator (2013) pdf, acm, 笔记

    评论:这篇文章还挺有用的,推荐看。

    Phoenix

    没啥论文可看……有doc……

    Elasticsearch

    Elasticsearch: the Definitive Guide source 笔记

    Paxos

    Client response
    Proposer
    Acceptor
    Learner (executes request, sends response to client)

    Zookeeper

    The life and times of a zookeeper Abstract, Paper

    Terminology

    ZAB: High-performance broadcast for primary-backup systems pdf

    Cassandra

    Cassandra: a decentralized structured storage system (2010) acm

    TAO

    TAO: how facebook serves the social graph (2012) acm, pdf

    Spark

    Apache Spark @Scale

    ELK

    ELK

    相关文章

      网友评论

          本文标题:大数据书单

          本文链接:https://www.haomeiwen.com/subject/mngdwttx.html