Spark + Hbase 百亿级流量实时分析统计之日志存储

作者: 大猪大猪 | 来源:发表于2019-03-23 01:33 被阅读3次

Spark + Hbase 百亿级流量实时分析统计之日志存储
Spark + Hbase 百亿级流量实时分析统计之经典指标
Spark + Hbase 百亿级流量实时分析统计之数据结构
Spark + Hbase 百亿级流量实时分析统计之小巧高性
aws 日志收集分析测试
Spark-Streaming: 分析tomcat的日志
统计手机用户流量日志
Spark Streaming 实时统计商户当日累计PV流量
Spark 2.x项目实战视频教程（实时统计、离线分析和实时ET
06. MapReduce实战(二)-手机流量日志分析

背景

接着上篇文章百亿级流量实时分析统计 - 数据结构设计我们已经设计好了日志的结构，接下来我们就准备要开始撸代码了，我最喜欢这部分的环节了，可是一个上来连就撸代码的程序肯定不是好程序员，要不先设计设计流程图？那来吧！！！

Spark + Hbase 百亿级流量实时分析统计之日志存储实现与设计

流程图

佩琪你能不能画好看一点

设计一

用户发起文章操作，发起请求日志
日志将由SLB服务器进行负载到日志打点服务器。
NSA将作为日志收集中心进行存储，也可以使用rsync把节点上的日志同步到日志中心。
作为核心的ETL程序，将要对日志中心上所有节点的数据进行抽取转换加载。
上图中出现的Hbase比较好理解，但是为什么要出现Mysql？因为我们要更细粒度地控制日志的写入时间点，主要用来记录日志时间的offset，后续会有详细的介绍。

设计二

用户发起文章操作，发起请求日志
日志将由SLB服务器进行负载到日志打点服务器。
Filebeat 收集节点日志到Kafka，主要是用来日志削峰使用。
或者：使用nginx直接将日志写入kafka,因为nginx也是生产级别的。
ETL 将消费Kafka 数据并写到Hbase。
与设计一相同

日志中心

日志中心的存储会是下面这样

├── log
│   ├── 2019-03-21
│   │   ├── 111.12.32.11
│   │   │   ├── 10_01.log
│   │   │   └── 10_02.log
│   │   ├── 222.22.123.123
│   │   │   ├── 0_01.log
│   │   │   ├── 0_02.log
│   │   │   └── 0_03.log
│   │   └── 33.44.55.11
│   ├── 2019-03-22
│   └── 2019-03-23

每分钟每节点会生成一个文件。
一天一个文件夹。
这样子的设计可以方便查错。

日志内容如下

{"time":1553269361115,"data":{"type": "read","aid":"10000","uid":"4229d691b07b13341da53f17ab9f2416","tid": "49f68a5c8493ec2c0bf489821c21fc3b","ip": "22.22.22.22"}}
{"time":1553269371115,"data":{"type": "comment","content":"666,支持一下","aid":"10000","uid":"4229d691b07b13341da53f17ab9f2416","tid": "49f68a5c8493ec2c0bf489821c21fc3b","ip": "22.22.22.22"}}

敲定方案

选择设计一
因为我们就看上了第5点,在线上业务稳定了一年的使用情况来看，这种方案是可行的。

在下篇文章中，我们将真实开始撸我们的黄金代码了，所有程序将使用scala进行实现，你想问我什么吗？四个字：

Spark + Hbase 百亿级流量实时分析统计

[ 百亿级流量实时分析统计 - 数据结构设计 ] 上篇文章 下篇文章 [编写当中...]

Spark + Hbase 百亿级流量实时分析统计之日志存储
背景接着上篇文章百亿级流量实时分析统计 - 数据结构设计我们已经设计好了日志的结构，接下来我们就准备要开始撸...
Spark + Hbase 百亿级流量实时分析统计之经典指标
作为一个百亿级的流量实时分析统计系统怎么能没有PV/UV这两经典的超级玛丽亚指标呢，话说五百年前它俩可以鼻祖，咳咳...
Spark + Hbase 百亿级流量实时分析统计之数据结构
背景靠文章生存的大厂们简书/小红书/CSDN(PS:好吧你们仨记得给我广告费)，对优秀的文章进行大数据分析的工作...
Spark + Hbase 百亿级流量实时分析统计之小巧高性
在上一篇文章大猪已经介绍了日志存储设计方案，我们数据已经落地到数据中心上了，那接下来如何ETL呢？毕竟可是生...
aws 日志收集分析测试
将日志收集到aws的S3存储，通过aws ES实时分析日志、Spark离线日志分析，支持无线扩容。一、日志收集 ...
Spark-Streaming: 分析tomcat的日志
Spark-Streaming: 分析tomcat的日志要求统计TOP 100的 IP 通过spark stre...
统计手机用户流量日志
统计手机用户流量日志需求分析需要统计手机用户流量日志，日志内容实例：要把同一个用户的上行流量、下行流量进行累加...
Spark Streaming 实时统计商户当日累计PV流量
一、问题对实时流量日志过滤筛选商户流量，对每个商户的流量进行累计，统计商户实时累计流量。当时间超过24时时，重...
Spark 2.x项目实战视频教程（实时统计、离线分析和实时ET
Spark 2.x项目实战视频教程（实时统计、离线分析和实时ETL）课程学习地址：http://www.xuet...
06. MapReduce实战(二)-手机流量日志分析
MapReduce实战(二)-手机流量日志分析一、需求分析 1). 日志内容access.log 2). 统计要...

Spark + Hbase 百亿级流量实时分析统计之日志存储

背景

流程图

设计一

设计二

日志中心

敲定方案

相关文章

Spark + Hbase 百亿级流量实时分析统计之日志存储

Spark + Hbase 百亿级流量实时分析统计之经典指标

Spark + Hbase 百亿级流量实时分析统计之数据结构

Spark + Hbase 百亿级流量实时分析统计之小巧高性

aws 日志收集分析测试

Spark-Streaming: 分析tomcat的日志

统计手机用户流量日志

Spark Streaming 实时统计商户当日累计PV流量

Spark 2.x项目实战视频教程（实时统计、离线分析和实时ET

06. MapReduce实战(二)-手机流量日志分析

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

大数据分析

程序员

大数据亿级流量分析

Spark 实战

HDP - 大数据

Hbase 实战

大数据，机器学习，人工智能

玩转大数据

Spark + Hbase 百亿级流量实时分析统计 之 日志存储

背景

流程图

设计一

设计二

日志中心

敲定方案

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Spark + Hbase 百亿级流量实时分析统计之日志存储