美文网首页
使用Hive分析nginx日志 --正则表达式

使用Hive分析nginx日志 --正则表达式

作者: 在路上很久了 | 来源:发表于2017-12-14 10:17 被阅读0次

1、环境:

Hadoop-2.7.3 + apache-hive-2.1.0-bin

2、使用Hive分析nginx日志,网站的访问日志部分内容为:

cat /home/hadoop/hivetestdata/nginx.txt

192.168.1.128 - - [09/Jan/2015:12:38:08 +0800] "GET /avatar/helloworld.png HTTP/1.1" 200 1521 "http://write.blog.linuxidc.net/postlist" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36"

183.60.212.153 - - [19/Feb/2015:10:23:29 +0800] "GET /o2o/media.html?menu=3 HTTP/1.1" 200 16691 "-" "Mozilla/5.0 (compatible; baiduuSpider; +http://www.baiduu.com/search/spider.html)"

这条日志里面有九列,每列之间是用空格分割的,

每列的含义分别是客户端访问IP、用户标识、用户、访问时间、请求页面、请求状态、返回文件的大小、跳转来源、浏览器UA。

我们使用Hive中的正则表达式匹配这九列:

([^ ]*) ([^ ]*) ([^ ]*) (.∗) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")

于此同时我们可以在Hive中指定解析文件的序列化和反序列化解析器(SerDe),并且在Hive中内置了一个org.apache.hadoop.hive.serde2.RegexSerDe正则解析器,我们可以直接使用它。

3、建表语句

CREATE TABLE logs

(

host STRING,

identity STRING,

username STRING,

time STRING,

request STRING,

status STRING,

size STRING,

referer STRING,

agent STRING

)

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'

WITH SERDEPROPERTIES (

"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (\\[.*\\]) (\".*?\") (-|[0-9]*) (-|[0-9]*) (\".*?\") (\".*?\")",

"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"

)

STORED AS TEXTFILE;

4、加载数据:

load data local inpath '/home/hadoop/hivetestdata/nginx.txt' into table logs;

查询每小时的访问量超过100的IP地址:

select substring(time, 2, 14) datetime ,host, count(*) as count

from logs

group by substring(time, 2, 14), host

having count > 100

sort by datetime, count;

Hive编程指南 PDF 中文高清版  http://www.linuxidc.com/Linux/2015-01/111837.htm

基于Hadoop集群的Hive安装 http://www.linuxidc.com/Linux/2013-07/87952.htm

Hive内表和外表的区别 http://www.linuxidc.com/Linux/2013-07/87313.htm

Hadoop + Hive + Map +reduce 集群安装部署 http://www.linuxidc.com/Linux/2013-07/86959.htm

Hive本地独立模式安装 http://www.linuxidc.com/Linux/2013-06/86104.htm

Hive学习之WordCount单词统计 http://www.linuxidc.com/Linux/2013-04/82874.htm

Hive运行架构及配置部署 http://www.linuxidc.com/Linux/2014-08/105508.htm

Hive 的详细介绍:请点这里

Hive 的下载地址:请点这里

本篇文章来源于 Linux公社网站(www.linuxidc.com)  原文链接:http://www.linuxidc.com/Linux/2015-06/118603.htm

相关文章

  • 使用Hive分析nginx日志 --正则表达式

    1、环境: Hadoop-2.7.3 + apache-hive-2.1.0-bin 2、使用Hive分析ngin...

  • Nginx日志Hive分析

    1.业务场景 最新有一个新需求,需要对Nginx的log日志进行分析,日志每天以打包压缩上传HDFS上,采用...

  • 使用hive进行日志分析

    任务 将一批登陆日志导入到hive中,然后通过hive计算如下数据,并将计算结果存入mongoDB。1、每小时的登...

  • Hive基础知识-2

    Hive使用场景: 离线数据 处理大数据 延迟高 数据的离线处理;比如:日志分析,海量结构化数据离线分析… Hiv...

  • 11.nginx正则表达式

    nginx正则表达式 nginx可以安装 pcretest模块进行校验 正则表达式在使用前 正则表达式加 ~符号 ...

  • nginx笔记

    出现错误分析步骤 查看日志 nginx命令 热加载nginx nginx -s reload 关闭nginx服务 ...

  • Hive介绍与核心知识点

    Hive Hive简介 Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基...

  • Nginx中文日志十六进制编码问题

    问题描述 Nginx访问日志在处理中文时,默认使用16进制编码处理。使我们对访问日志进行分析处理时,带来很大不便。...

  • 91104-nginx failed(13:Permission

    问题背景 nginx 配置好以后 发现请求不能转发 问题分析 查看Nginx 日志,Linux 日志默认路径 ht...

  • 5.Nginx日志(error_log、access_log、l

    Nginx日志类型 nginx的日志有两种,error_log是错误日志,access_log是使用日志 1.er...

网友评论

      本文标题:使用Hive分析nginx日志 --正则表达式

      本文链接:https://www.haomeiwen.com/subject/bjvhwxtx.html