美文网首页
搜索引擎蜘蛛爬行记录器开发php版本

搜索引擎蜘蛛爬行记录器开发php版本

作者: jevian | 来源:发表于2017-07-17 00:46 被阅读0次

对于一个seor,时时刻刻了解自己的网站被蜘蛛抓取的情况是一件非常重要的事情,通过后台行为过滤器,可以时时刻刻了解到自己的网站被搜索引擎蜘蛛(下面全部简称蜘蛛)访问的情况。然后再根据不同的情况调整seo优化方向。

首先,如果要写一个蜘蛛爬行记录器,需要了解什么是userAgent。

userAgent属性是一个只读的字符串,声明了浏览器用于 HTTP 请求的用户代理头的值。通常可以通过这个字符串得到访问当前地址的浏览器是什么类型的。

其中js获取userAgent的方法是navigator.userAgent,而php获取userAgent的方法是$_SERVER['HTTP_USER_AGENT'],

由于js是在浏览器端执行的脚本,php是在服务器端执行的脚本,而这些数据是要放进数据库的。所以,直接在php中运行即可。

二话不说,分享下我写的这部分代码:

function SpiderLog() {

$isspider = false;

$bots = array (

'Googlebot' => '谷歌搜索',

'Baiduspider' => '百度搜索',

'360Spider' => '360搜索',

'HaoSouSpider' => '360搜索',

'Sogou web spider' => '搜狗搜索',

'Sogou inst spider' => '搜狗搜索',

'Sogou spider2' => '搜狗搜索',

'Sogou blog' => '搜狗搜索',

'Sogou News Spider' => '搜狗搜索',

'Sogou Orion spider' => '搜狗搜索',

'Sosospider' => '搜搜搜索'

);

$useragent = $_SERVER['HTTP_USER_AGENT'];

foreach($bots as $k => $v) {

if(stristr($useragent, $k) != null) {

$sql = "INSERT INTO `spiderlog` (`name`, `target`, `time`)

VALUE ('".$v."',

'".$_SERVER["REQUEST_URI"]."',

'".date("Y-m-d H-i-s")."')";

$db -> query($sql);

$isspider = true;

break;

}

}

return $isspider;

}

其中$bots这个数组中是百度,360,搜狗,谷歌四大搜索引擎的ua值,做if判断时不考虑大小写,所有使用的是stristr这个函数。

将这个函数放在网站执行的主干路上即可做到统计效果。

文章来源:http://www.worldflying.cn/article-id-44.html

相关文章

  • 搜索引擎蜘蛛爬行记录器开发php版本

    对于一个seor,时时刻刻了解自己的网站被蜘蛛抓取的情况是一件非常重要的事情,通过后台行为过滤器,可以时时刻刻了解...

  • SEO优化

    SEO优化 禁止蜘蛛爬行和传递权重,为了减少垃圾链接对搜索引擎的影响 rel="nofollow"

  • 判断是否是搜索引擎蜘蛛跳转

    1、JS判断搜索引擎来路跳转代码: 二、PHP判断搜索引擎来路跳转代码: 备注: 1、有些蜘蛛名称可能已经更改,请...

  • SEO怎么优化?

    搜索引擎优化实际上就是“蜘蛛”在互联网中不断爬行,利用抓取网页放入索引库中通过搜索引擎用来分析用户的搜索意图...

  • 简谈网站布局

    网站布局就相当于蜘蛛爬行的网,搜索引擎进行一步的抓取和创新。如果不去维持这段网,便无法在进行爬行,只能选择被淘汰。...

  • SEO实战密码解读二

    搜索引擎与目录的区别 搜索引擎是由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框输...

  • PHP模拟百度蜘蛛,伪造IP爬行网站,附源代码

    PHP模拟百度蜘蛛,伪造IP爬行网站,附源代码 代码转自https://www.52bz.la/4067.html

  • 分析百度蜘蛛工作原理,有效提高网站收录的思维

    如何提高网站收录?首先要熟悉Spider的脾气,搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机...

  • 蜘蛛池的原理是什么?如何搭建蜘蛛池?

    搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也叫爬虫。搜索引擎命令它到互联网上浏览网页,从而得到互联网的大部分数据...

  • Robots协议的书写

    robots.txt是一个纯文本文件,是搜索引擎蜘蛛爬行网站的时候要访问的第一个文件,当蜘蛛访问一个站点时,它会首...

网友评论

      本文标题:搜索引擎蜘蛛爬行记录器开发php版本

      本文链接:https://www.haomeiwen.com/subject/qeaxkxtx.html