公司业务的发展报表中心使用MySQL已经远远满足不了要求,所以准备使用Kylin,同时我们风控这边的事后风控也需要搞起来,所以接下来开始接触大数据,首先要踩的第一个坑是数据的导入。
-
数据存在HBase中,然后Hive on HBase,Kylin的数据源是Hive,风控也可以这样使用Hive进行数据离线分析,但是Hive on HBase的效率远比不上Hive on HDFS,所以这个不再考虑。
-
Hive on HDFS,这样的话数据导入貌似没有问题,但是对于支付状态的回调需要更新,Hive虽然现在支持update但是效率特慢,而且因为业务的原因只能一条一条的更新,我当时测试1.2亿条数据更新一条3分钟,如果有上万条数据需要更新那不是奔溃了,所以这个不是很好的解决办法,接下来经过考虑数据不再更新而是重复存,到时候基于Hive的表见view,在建view的时候根据update时间处理掉重复的数据,这下这个问题就解决了,但是MySQL的数据如何到Hive中呢,sqoop呗,但是数据中心居然计划不要从库,好吧,这个主库顶的住吗?还好准备上存库,到时候sqoop存库到Hive搞定数据源问题。
网友评论