美文网首页
Kylin数据源问题

Kylin数据源问题

作者: 忘净空 | 来源:发表于2017-05-25 23:24 被阅读427次

公司业务的发展报表中心使用MySQL已经远远满足不了要求,所以准备使用Kylin,同时我们风控这边的事后风控也需要搞起来,所以接下来开始接触大数据,首先要踩的第一个坑是数据的导入。

  1. 数据存在HBase中,然后Hive on HBase,Kylin的数据源是Hive,风控也可以这样使用Hive进行数据离线分析,但是Hive on HBase的效率远比不上Hive on HDFS,所以这个不再考虑。

  2. Hive on HDFS,这样的话数据导入貌似没有问题,但是对于支付状态的回调需要更新,Hive虽然现在支持update但是效率特慢,而且因为业务的原因只能一条一条的更新,我当时测试1.2亿条数据更新一条3分钟,如果有上万条数据需要更新那不是奔溃了,所以这个不是很好的解决办法,接下来经过考虑数据不再更新而是重复存,到时候基于Hive的表见view,在建view的时候根据update时间处理掉重复的数据,这下这个问题就解决了,但是MySQL的数据如何到Hive中呢,sqoop呗,但是数据中心居然计划不要从库,好吧,这个主库顶的住吗?还好准备上存库,到时候sqoop存库到Hive搞定数据源问题。

Hive数据去重
Kylin使用视图构建

相关文章

  • Kylin数据源问题

    公司业务的发展报表中心使用MySQL已经远远满足不了要求,所以准备使用Kylin,同时我们风控这边的事后风控也需要...

  • kylin hbase迁移

    一、背景 现kylin作为数据源提供报表支撑的场景持续增多,经常出现查询慢的问题,为提高hbase支撑的稳定性,同...

  • kylin架构

    首先来看离线构建部分。从图中可以看出,左侧为数据源,目前Kylin默认的数据源是Apache Hive,保存着待分...

  • 扩展Apache Kylin流数据源以对接阿里云LogHub的实

    前言 Apache Kylin 从1.6开始支持流式数据作为数据源,可以直接消费 Apache Kafka 的数据...

  • Apache Kylin流式构建

    前提条件 1、Kylin将Kafka抽象成一个等同于Hive的数据源,也就是说Kylin是作为消费者从Kafka拉...

  • 麒麟安装UnixBench遇到问题

    安装UnixBench时出现如下权限问题: kylin@kylin-FT2004:~/testtool/unixb...

  • SpringBoot整合druid多数据源监控

    1. maven引入配置 2. 配置数据源,SpringBoot 的配置文件 这里使用的是MySql+kylin两...

  • Kylin Stop Start

    $KYLIN_HOME/bin/kylin.sh stop$KYLIN_HOME/bin/kylin.sh start

  • Kylin开启Kerberos安全认证

    Kylin开启Kerberos安全认证,由于Kylin是依赖Hbase启动的,Kylin启动脚本kylin.sh中...

  • Apache Kylin二次开发

    由于工作需要,对kylin进行二次扩展,使其能支持使用Oracle作为数据源进行数据立方的构建 二次开发主要分为两...

网友评论

      本文标题:Kylin数据源问题

      本文链接:https://www.haomeiwen.com/subject/hyqtfxtx.html