美文网首页
1.1.2 (完)案例2 通过日志分析诊断网站流量涨跌

1.1.2 (完)案例2 通过日志分析诊断网站流量涨跌

作者: 小刚谈外贸 | 来源:发表于2018-08-12 21:34 被阅读22次

            作为一个谷歌SEO的从业者,相信你应该经常碰到网站无故的流量下跌或者上涨。是不是每次都在猜测说:可能是谷歌算法更新了。我可以确定的说,大部分人都在用着同样“猜测”的说法,而没有科学的证据。

          为什么会这样?因为接触了很多seo从业者,最多的讨论都是基于原创和伪原创,内链和外链,很少能听到他们讨论日志分析。对的,你没有听错,通过对网站日志的分析可以科学地找到网站流量上涨或者下跌的真实原因。

         我们先来了解下网站日志的概念及作用。

    理解概念:网站日志

            什么是网站日志?

           网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件,确切的讲,应该是服务器日志。网站日志最大的意义是记录网站运营中比如空间的运营情况,被访问请求的记录。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。

    作用:

            通过网站日志可以清楚的得知访客和服务端等应用是否正常运行,或者存在哪些缺陷,失效组件等信息。

            对于专业从事搜索引擎优化工作者而言,网站日志可以记录各搜索引擎蜘蛛机器人爬行网站的详细情况,例如:哪个IP的谷歌蜘蛛机器人在哪天访问了网站多少次,访问了哪些页面,以及访问页面时返回的HTTP状态码。

    应用案例:

           了解完网站日志后,如果你是一个seo从业者,我相信你已经大概理解到了为什么对网站日志的分析可以诊断网站了?没错,对网站日志的分析,最重要的作用就是可以了解到搜索引擎爬虫如何在我们网站上抓取我们的页面及抓取我们网站页面的状况。

            回到2012年3月,当时运营了一个真人发商城,程序用的magento搭建,环境用的是在linux下的nginx环境。一个月后,出了第一个订单,到了第三个月的时候,ip已经稳定到了300-400,一个月有10多个订单,当然客单价在200美金左右。这也挺好的,感觉也没有努力的样子,ip就这么快来了。只是操作的seo,其他途径没有做任何的投入。

            这样的日子从5月份持续到10月份,突然有一天,流量暴跌到了几十个ip。我想这时你的想法肯定也是“算法更新,被谷歌降权了!”我第一反应也是一样的,直接就去扒拉经常关注的几个英文seo网站。好像还没有更新出来,只能等吧。但是,静下心来想,在这段时间内,网站内部都是原创内容,外部就是发一些外链而已,没有用作弊的方法,这个是为何呢?还是认真的去找找原因吧!

    网站从3月份到12月份的流量走势图

             上图是我们网站的流量情况,蓝色的是PV,绿色的是IP,黄色的是独立访客UV。

            从网站流量情况我们可以看到,在2012年9月27日,流量开始出现下幅度下跌,2012年10月11出现直线下跌。因此,当这个问题出现以后,我们截取了2012年8月到2012年11月的日志进行对比分析,又进行了科学的分析判断。下边是对网站流量下跌如何进行原因诊断的过程思路:

            刚才你也了解了日志分析的作用,对网站出现ip的下跌,会从几个方面入手寻找:

    1、是否被挂马;

    2、服务器是否出现问题(可以从网页的返回代码502等5开头的代码)

    3、搜索引擎爬虫抓取是否异常

    4、是否算法更新引起的

    5、是否是谷歌的误惩罚引起的

            下边对以上各个问题是如何进行分析判断:

             1、是否被挂马:此问题不需要通过日志分析来判断,如果挂马,谷歌很快会给你发一封网站中毒的邮件,让你去解决。(前提是你需要给网站注册谷歌站长工具)

             问题2和问题3需要通过日志分析(以下的一些日志,个别部分不是来自原来的网站,此处只是简单分析思路及方法)来进行判断。

            进行日志分析的步骤:第一步,下载相应网站的服务器日志;第二步、利用专门的日志分析工具进行分析;第三、把分析整理的数据通过excel模板进行汇总并可视化展现。

          下图是我从linux服务器下载下来的网站日志,通过NotePad++打开的样子:

    日志源数据 日志导入excel中的显示

         通过上边的日志我们可以看到有数据的列表的解释:

          我们从左向右看日志的列:

           第1列是ip地址,这些ip代表了用户访问的地址及搜索引擎爬虫的抓取服务器(即所谓的爬虫);

           第2列是访问时间:就是这些用户或者搜索引擎抓取访问网页的时间;

            第3列是数据的传递方式及协议标准;

            第4列是访问网页的返回代码;

            第5列是此网页被打开下载的字节数;

            第6列是用户访问的网页地址;

            第7列是用户访问的类型,包含了浏览器类型,服务器操作系统版本等信息;

      认识完下载的日志,我们来进行日志的拆分:

           我们重新回到我们的问题2(服务器是否出现问题(可以从网页的返回代码502等5开头的代码))和问题3(搜索引擎爬虫抓取是否异常)可以明白,我们需要对搜索引擎爬虫进行分析。再来看看日志内容:

    日志源文件

            我们可以看到上边画红圈的googlebot就是搜索引擎抓取的情况,我们要研究谷歌搜索引擎爬虫,故需要把带有googlebot的日志分割出来,如下就是分割后的结果:

    包含googlebot的日志源文件

           我们把谷歌搜索引擎爬虫的日志文件分割出来后,通过日志分析工具进行处理。我们要得到2个结果:

            a、我们要得到搜索引擎爬虫在抓取我们网页时候的返回码情况(通过返回码可以判断服务器是否有问题);

             b、我们要得到搜索引擎爬虫在我们网站上的抓取情况;

          我们通过对分割的日志进行excle的处理,得到网页返回代码汇总报表:

    google抓取网页错误代码汇总

         从上表,我们发现网页返回代码为502的情况不存在,通过这个情况,我们就能够排除是否服务器有问题(这个分析可以对问题2进行回答)。

         我们从搜索引擎爬虫抓取量,抓取时间,重复抓取等等维度得出如下抓取情况汇总报表:

    google爬虫每日抓取量 爬虫平均抓取时间情况 google爬虫重复抓取情况 google爬虫抓取网页概况

          首先我们要明白一个公式:搜索引擎爬虫每天也是只有24小时,但是在你网站上的停留时间就是抓取时间;

                      爬虫平均停留时间=爬虫抓取量/爬虫抓取时间

          我们可以通过以上对爬虫抓取量,爬虫抓取时间等因素进行综合分析可以分析到搜索引擎爬虫是否在我们网页的抓取上出现了大的异常状况(这个分析可以对问题3进行回答)。

    2、对于问题4:是否是因为算法更新引起的。这个时候,我们才需要拿出近期更新的算法进行比对。

          网站流量是2012年9月27日开始出现的大跌,我们就要找到27日前后的谷歌算法更新事件:

    2012年9月27日的EMD算法更新

    下边是我对算法在博客上的记载的解释:

    2012年EMD算法解释

             这时候问题,已经确定是算法引起的了,因为我们发现我们的域名里有精准关键词,刚好就是这个算法要打击的事情。

             对于第5个问题,如果说以上都没有出问题,可能就是谷歌抽风了,误杀了,你主动去google反馈,一般是会很快恢复网站的权重的,具体不在这里阐述。

    对于此次分析总结:

             1、网页没有挂马;

             2、服务器没有异常;

             3、爬虫抓取也没有太大的异常;

             最终结果:由于2012年9月27日谷歌EMD算法更新所致;

         读完整个案例,你是不是感觉到,对网站做诊断还是有科学的方法的!

    相关文章

      网友评论

          本文标题:1.1.2 (完)案例2 通过日志分析诊断网站流量涨跌

          本文链接:https://www.haomeiwen.com/subject/edumeftx.html