本节我们将通过一个例子向大家演示如何运用 Pandas 来进行 Apache 访问日志分析。本节内容其实也是原作者对 Pandas 库的一次尝试,对于网站访问日志的分析,如果大家有更好的思路,可以在数析学院进行讨论,也欢迎在 github 上联系 原作者 koldunovn 进行更直接的交流。
载入并解析数据
在解析网站日志时需要用到 apachelog 模块 ,因此我们首先需要了解一下 Apache 配置中的日志相关格式,本节并不打算在这方面详细展开,如果你对此感兴趣的话,可以详细查阅一下 官方提供的格式描述。在此,我们对 Apache 配置格式进行一个简单的说明,其中的所有元素可以被归纳为下述语句:
![](https://img.haomeiwen.com/i1818544/852556ea777be71a.png)
其中,各个符号组合具体含义如下:
![](https://img.haomeiwen.com/i1818544/b03f74ef632e0d33.png)
![](https://img.haomeiwen.com/i1818544/2a13c87908df1561.png)
设置格式:
![](https://img.haomeiwen.com/i1818544/6e3b4d4d56d25f80.png)
创建解析器:
![](https://img.haomeiwen.com/i1818544/e1e2cc22102e4542.png)
示例字符串:
![](https://img.haomeiwen.com/i1818544/f492ac4eb823abd5.png)
![](https://img.haomeiwen.com/i1818544/4c6d4858972998d6.png)
看来我们的解析器工作正常,那么接下来就让我们载入更多的真实数据吧。
未完待续:课程内容较多,请复制链接通过电脑学习,获得最佳学习效果。 http://datacademy.io/lesson/104
![](https://img.haomeiwen.com/i1818544/694e173860bb77f1.png)
网友评论