本站内容,主要分为以下几个模块:
经过这几年的积累,本站有几个阅读量较高的系列,分别如下:
一、数据仓库实践
数据仓库实践是2017年初至年中写的系列,其中大部分的内容是居士为了满足工作需要在周末学习后的笔记。
文章首发于简书,收到了很多朋友的反馈,因此再17年底的时候统一重新整理,加入了更多的个人理解后汇集于此。
本系列主要内容如下:
二、大数据算法
大数据算法是2017年中下旬整理学习的一些算法内容,主要包括Bitmap、Bloom filter、Roaring Bitmap,这些算法广泛地用于 Hadoop、Spark、Druid、ES 等大数据平台的实现中。
这些底层的算法或者数据结构对日常的工作其实并无太大帮助,但是当你需要对 Sql 调优、对集群深入理解的时候,他们就显得异常重要。
本系列主要内容如下:
- 闲谈大数据和算法
- BitMap 的基本原理和实现
- Bloom Filter 的数学背景
- Counting Bloom Filter 的原理和实现
- 不深入而浅出 Roaring Bitmaps 的基本原理
- 更多内容请参考:数据算法
三、你了解你的数据吗
在数据从业者的职业生涯中,不应只有编程、算法和系统,还应有一套数据相关的方法论,这套方法论会来解决某一领域的问题,即使你们的系统从Hadoop换到了Spark,数据模型从基本的策略匹配换到了深度学习,这些方法论也依旧会伴你整个职业生涯。
本系列名为《你了解你的数据吗》,是希望能够总结出一套和数据打交道的方法论,从数据研发、数据仓库、数据分析、数据挖掘、数据产品、数据可视化等各个方面来了解你的数据。
本系列主要内容如下:
- 你了解你的数据吗(开篇):总览
- 你了解你的数据吗(练气篇):数据接入和常见的坑
- 你了解你的数据吗(筑基篇):核心维度分布和数据口径
- 你了解你的数据吗(结丹篇):数据质量监控
- 你了解你的数据吗(元婴篇):血缘分析
- 更多内容请参考:你了解你的数据吗
四、程序员该如何管理后宫
这是一个设计模式系列,写于2016年底。写这个系列的主要原因是之前的博客内容都过于分散,大部分都是在写安装笔记和错误解决,这种博客不能达到自我总结和反思的效果,因此在2016年底的时候,笔者开始尝试用自己的语言来描述自己所掌握的知识点,此系列为博客生涯的一个最主要的转折点。
本系列主要内容如下:
- 程序员该如何管理后宫:朕只爱一个皇后!(单例模式)
- 程序员该如何管理后宫:怎样哄女孩儿(策略模式)
- 程序员该如何管理后宫:皇上选妃(代理模式)
- 程序员该如何管理后宫:皇后造小人(工厂模式)
- 程序员该如何管理后宫:和女生沟通的艺术(装饰模式)
- 更多内容请参考:程序员该如何管理后宫
五、Impala 实践
Impala实践系列记录了笔者在2016年初使用Impala的方方面面,有运维、有调优、有各种采坑和填坑,这部分内容最早发表于CSDN专栏,总计15篇,由于迁移成本,就没搬到个人博客中,现仍在CSDN中。
本系列主要内容如下:
- Impala实践之一:基本原理
- Impala实践之三:详解invalidate metadata
- Impala实践之五:一次系统任务堵塞记录 + 思考
- Impala实践之十二:impala压缩方式测试
- Impala实践之十四:一次Impala节点故障记录(不能启动)
- 更多内容请参考:Impala 实践
六、其它
上面只列了几个系列,还有更多的系列欢迎大家点进来看,这里有不再做过多的介绍了:
网友评论