本年度第 22/100篇。
我其实对大数据完全不熟,但也硬着头皮看了这本书:
此书主要讲了流式系统和传统表系统的区别,从理论上论证了流式系统是表系统的超集。同时又讲了可以用流式系统来完全取代批处理系统,这样lambda架构也不需要了。但此书作者假设你是一个大数据领域的从业者,所以前面几章我完全不是很懂,后面又谈到了如何设计流式系统的SQL语言,我没用过大数据所以也是看的一知半解。
但至少这本书想讲的意思我差不多了解了,每章最后的summary是很不错的东西,作者对于stream和table的定义和思考也是标新立异,很有趣。全书有点啰嗦,但不失为一本讲理论的奇书。
我原来看过lambda架构,就是下面这本书,本来以为lambda架构是一个很好的架构,谁知道上面这本书认为完全不需要lambda架构,一个好的流式系统可以取代一切。
接下来这本,这本更是神作中的神作:
这本综述了各种数据库系统的区别,非常详尽的阐述了各种不同的数据库系统的设计原理,非常多的实现细节,相关技术方案讨论,可谓包罗万象,我为作者的学识的渊博所深深的折服。最厉害最精彩的应该是对distributed的各种transaction和各种锁的实现的讨论和对比,以及对于CAP的正确的诠释。绝对是一部大部头,强烈推荐英文原版,有时间可能需要二刷三刷不然内容实在太多,我现在已经看了以后全忘记了。。。
最后,还有一本讲log系统的设计的,可能和kafka有直接的关系,只有短短60页,我刚下载好还没看:
网友评论