本节我们将通过一个例子向大家演示如何运用 Pandas 来进行 Apache 访问日志分析。本节内容其实也是原作者对 Pandas 库的一次尝试,对于网站访问日志的分析,如果大家有更好的思路,可以在数析学院进行讨论,也欢迎在 github 上联系 原作者 koldunovn 进行更直接的交流。
载入并解析数据
在解析网站日志时需要用到 apachelog 模块 ,因此我们首先需要了解一下 Apache 配置中的日志相关格式,本节并不打算在这方面详细展开,如果你对此感兴趣的话,可以详细查阅一下 官方提供的格式描述。在此,我们对 Apache 配置格式进行一个简单的说明,其中的所有元素可以被归纳为下述语句:

其中,各个符号组合具体含义如下:


设置格式:

创建解析器:

示例字符串:


看来我们的解析器工作正常,那么接下来就让我们载入更多的真实数据吧。
未完待续:课程内容较多,请复制链接通过电脑学习,获得最佳学习效果。 http://datacademy.io/lesson/104

网友评论