2021-02-17 假期最后一天的思考

作者: 胖子钓鱼 | 来源:发表于2021-02-17 13:24 被阅读0次

2021-02-17 假期最后一天的思考
假期的最后一天
2021-02-17 计划没有变化快
《巴芒演义》-价值投资的溯源与真相
假期的最后一天
假期的最后一天
假期的最后一天
假期的最后一天
假期的最后一天
假期的最后一天

假期永远的不足，一转眼春节假期的最后一天了。这个假期叫Holiday，千万别跟Vacation弄混了，Holiday来源于圣经，本身Holy也是神圣的意思，而且据圣经记载，上帝前六日造世间万物，第七天休息。对于国人来讲这么神圣的一天就应该叫Holiday。感觉假期里也没干什么正经事，倒是花了点时间研究了一下MC20，MC=Maserati Corse，玛莎拉蒂的赛车制造部门，这意大利人造车，做服装，玩时尚，东方人很难比的上。因为这些事DNA里面的东西。这家伙一身的高科技，几千小时的风动和CFD测试（CFD是个参数用来预测涡凹风险来运转每个打开角度和工作条件）2.9秒破百，整个就是一个贴地飞行。而且不在使用法拉利的发动机，直接改用F1的平民版....

MC20

迫不及待打开招商银行网银（话说这个月活过亿，装机过亿的App真的好用），然后迅速坐回到电脑前，写点明天要干的事情，并告诉自己避免贪嗔痴（这都是修行之大忌，贪念需要用不净观对应对；一念嗔心起，百万障门开，用好自己的慈悲观；痴念，要用因果观。）做好当下的工作，让自己充满价值感。
2021年很重要的一项工作就是公司的资产信息化，为啥不说数字化，害怕跟区块链和数字货币搭上关系。公司的资产非常多，其中最具价值的一部分就是客户信息。分析客户的留存数据，就是以新客获取，老客转化为目的，顺带看看自己的公司那里没做好，用的是销售漏斗还是销售有漏洞。大多数公司跟客户的触达方式，无非就是主动和被动。所谓的主动就是通过各种营销工具（小程序，微信，App，公众号等），所谓被动，应管理要求而由销售人员进行的CRM数据录入，当然做风控，贷后呀，客服呀里面都会有触点数据。假设，我们的系统结构如下：

数据流向
因为基本上用的都是以InnoDB为存储引擎的Mysql，而且都是Row Based BinLog作为业务系统的事务型数据库，所以我们也选用了Canal，来完成数据的同步。还是简单提一句，关于这个阿里开源的项目，的确很方便，网上这张图解释了所有关于Canal。

Canal的样子

但是canal的数据同步不是全量的，而是增量。是基于binary log增量订阅和消费，以前用过都是当作数据库镜像或备份来用，而且恢复起来很方便。为啥是个增量同步，看看Canal的Event Parser就知道。

EventParser
本身Canal的内部结构如下图：

Canal结构
我们的老朋友ZK依然出现在各种场景中，Zk在这里就是做了HA，另外保证了Canal Client的节点有序性，同时通过Watcher的机制减少对主库的Dump的访问次数。
然后就是配置Kafka与Canal的链接。

canal.serverMode=kafka
canal.mq.servers = 192.168.1.105:9092
canal.instance.master.address=192.168.1.105:3306

然后自己实现一下你的Producer，Consumer。当然，你可以选择使用Flume这种代理的形式，或者使用Spark Streaming直接写代码，也是可以的，网上太多例子了。当然，在这个过程中，要仔细分析业务场景，比如说，CRM里面的数据，需要做相应的清洗，因为没有人会愿意把数据填写非常仔细，会有很多录入型的错误（“张先生，李小姐，高女士”，这还不说，电话都是“138000000”，录了意义也不大，但是由于流量池的销售线索属于销售自己，如果销售线索本身属于公司，还是可以进行要求的），CRM里面属于线索型数据，用来做营销指引或获客后的快速响应反馈效果还是不错的。业务系统中的数据，一般就是订单的数据，这是RFM的好原料；当然，在做用户信息化的过程，一定是梳理公司销售线，运营线，技术线的过程。需要SOP支撑，需要奖惩机制，需要SLA定义，需要后续强有力的客服服务体系。不论什么行业，都能找到高ARPU值的用户（是每用户平均收入 - Average Revenue Per User；ARPU注重的是一个时间段内运营商从每个用户所得到的利润）。风控系统的数据一般作为营销补充以及我们风控模型完善的内容。最后就是从Hive中拿到我们想要的数据，你必须做好你的指标体系中的数据定义，meta data， Principle Data，otherwise you will be lost very soon.

Hive

Hive这个Hadoop生态的老家伙，好用的不得了。屏蔽了繁琐的HDFS操作，Map-Reduce任务，给我们提供了非常优雅的API。这API简单到所有用Java 的都会：

val con: Connection = DriverManager.getConnection("jdbc:hive2://192.168.1.102/mytest")
val stmt: Statement = con.createStatement()
val res: ResultSet = stmt.executeQuery("show tables")
    while (res.next()) {
      println(res.getString(1))
    }

你还以用Spark的方式去操作Hive，也非常简单：

import java.io.File

import org.apache.spark.sql.{Row, SaveMode, SparkSession}

case class Record(key: Int, value: String)

val spark = SparkSession
  .builder()
  .appName("Spark Hive Example")
  .config("spark.sql.warehouse.dir", new File("spark-warehouse").getAbsolutePath)
  .enableHiveSupport()
  .getOrCreate()

import spark.implicits._
import spark.sql

// You can just do anything as you did in RDBMS
sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive")
sql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv.txt' INTO TABLE src")

// Queries are expressed in HiveQL
sql("SELECT * FROM src").show()

Hive的工作原理：

Hive工作原理

其实，所有的分布式数据库的工作原理也都差不多，等有空好好总结一下Hive， TiDB， ClickHouse。一定记住，不要让Hive充当另一个Mysql，不是说Mysql里面表结构是什么样，Hive里就要什么样。充分利用好Hive 里的数据模型：DB、Table，External Table，Partition，Bucket。由于本身Hive更倾向于数据仓库，找准自己公司对用户信息的要求，用户信息化一定帮你做好分层和用户的分类，如前文讲到的。积累半年，一定会有所不同。我们程序员也许做不到左老板说的难而正确的事儿，但做好该干的事情还是很有必要的。新的一年，对自己要有个交代。