美文网首页@IT·大数据帘西大数据
大数据实战之App管理平台日志分析(二)

大数据实战之App管理平台日志分析(二)

作者: 小小毛同学 | 来源:发表于2019-05-25 13:24 被阅读6次

原文链接使用的是客户端收集的日志直接输出到flume中,在flume收集完后,保存到hdfs中。其中有定义flume的自定义拦截器。

上面是把数据从客户端收集到了大数据平台的服务器中。

下面就是数据的处理部分。

需要建立hive的数据仓库。

方法一:

在收集的数据是json格式的话,如果直接使用hive的插入就需要有hive支持json的数据格式。

1.说明

      因为使用json格式存放数据,需要第三方serde库。

      下载json-serde-1.3.8-jar-with-dependencies.jar

  2.复制以上的jar包hive的lib下,分发

  3.配置hive-site.xml文件,添加jar包的声明,永久注册。

      [hive-site.xml]

        <property>

            <name>hive.aux.jars.path</name>

            <value>file:///soft/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar</value>

        </property>

方法二:

自己写代码进行数据的处理。

直接使用阿里的json处理工具,把数据处理成最后的格式。

这里面可以进行对脏数据的清洗,或是灰色数据的补齐等等操作。

在使用代码处理完之后,可以直接放到hdfs中,然后再使用hive的插入语句插入到hive中。

或是直接把数据放到hive的表下面的数据目录的地址下,不过这个需要提前建表等操作才可以。

原文链接:http://www.aboutyun.com/forum.php?mod=viewthread&tid=27036

相关文章

网友评论

    本文标题:大数据实战之App管理平台日志分析(二)

    本文链接:https://www.haomeiwen.com/subject/ogywzqtx.html