原文链接使用的是客户端收集的日志直接输出到flume中,在flume收集完后,保存到hdfs中。其中有定义flume的自定义拦截器。
上面是把数据从客户端收集到了大数据平台的服务器中。
下面就是数据的处理部分。
需要建立hive的数据仓库。
方法一:
在收集的数据是json格式的话,如果直接使用hive的插入就需要有hive支持json的数据格式。
1.说明
因为使用json格式存放数据,需要第三方serde库。
下载json-serde-1.3.8-jar-with-dependencies.jar
2.复制以上的jar包hive的lib下,分发
3.配置hive-site.xml文件,添加jar包的声明,永久注册。
[hive-site.xml]
<property>
<name>hive.aux.jars.path</name>
<value>file:///soft/hive/lib/json-serde-1.3.8-jar-with-dependencies.jar</value>
</property>
方法二:
自己写代码进行数据的处理。
直接使用阿里的json处理工具,把数据处理成最后的格式。
这里面可以进行对脏数据的清洗,或是灰色数据的补齐等等操作。
在使用代码处理完之后,可以直接放到hdfs中,然后再使用hive的插入语句插入到hive中。
或是直接把数据放到hive的表下面的数据目录的地址下,不过这个需要提前建表等操作才可以。
原文链接:http://www.aboutyun.com/forum.php?mod=viewthread&tid=27036
网友评论