美文网首页
robots文件分析

robots文件分析

作者: 爱FT的芋头 | 来源:发表于2017-05-03 21:35 被阅读0次

    一、对淘宝的具体robots文件分析

    User-agent:  Baiduspider        以下五条都是针对百度搜索引擎来说

    Allow:  /article                            允许爬取article的整个目录,即淘宝中的文章例如淘宝头条和一些攻                                                        略等

    Allow:  /oshtml                           允许爬取oshtml的整个目录,也是位于网站地图下的全球购,爱逛街                                                       等列表页面

    Allow:  /wenzhang                     允许爬取wenzhang的整个目录,内容可能与article类似

    Disallow:  /product/                   不允许爬取product的整个目录,即淘宝的商品等。

    Disallow:  /                                  以上没有提及的其他目录都是不允许爬取的

    User-Agent:  Googlebot             以下八条都是针对谷歌搜索引擎来说

    Allow:  /article                            同百度

    Allow:  /oshtml                            同百度

    Allow:  /product                          同百度

    Allow:  /spu                                允许爬取spu的整个目录,SPU是商品信息聚合的最小单位,是一组可                                                    复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。                                                      通俗点讲,属性值、特性相同的商品就可以称为一个SPU。 这个目录                                                      下可能存放的是一些商品等

    Allow:  /dianpu                          允许爬取dianpu的整个目录,即淘宝的店铺、商家等信息的目录

    Allow:  /wenzhang                     同百度

    Allow:  /oversea                        允许爬取oversea的整个目录,即一些针对海外用户的一些部分

    Disallow:  /                                 以上没有提及的其他目录都是不允许爬取的

    User-agent:  Bingbot                以下八条都是针对必应搜索引擎来说(与完全谷歌相同,就不单独拿                                                       出来分析了)

    Allow:  /article

    Allow:  /oshtml

    Allow:  /product

    Allow:  /spu

    Allow:  /dianpu

    Allow:  /wenzhang

    Allow:  /oversea

    Disallow:  /

    User-Agent:  360Spider            以下4条都是针对360搜索引擎来说

    Allow:  /article                              同百度

    Allow:  /oshtml                             同百度 

    Allow:  /wenzhang                       同百度

    Disallow:  /                                   同百度

    User-Agent:  Yisouspider        以下4条都是针对易搜搜索引擎来说

    Allow:  /article

    Allow:  /oshtml

    Allow:  /wenzhang

    Disallow:  /

    User-Agent:  Sogouspider      以下5条都是针对搜狗搜索引擎来说

    Allow:  /article

    Allow:  /oshtml

    Allow:  /product

    Allow:  /wenzhang

    Disallow:  /

    User-Agent:  Yahoo!  Slurp      以下6条都是针对雅虎搜索引擎来说

    Allow:  /product

    Allow:  /spu

    Allow:  /dianpu

    Allow:  /wenzhang

    Allow:  /oversea

    Disallow:  /

    User-Agent:  *

    Disallow:  /    其他没有提到的搜索引擎都是禁止爬取的

    二、robots内部含义的分析

    对国外的搜索引擎开放的可以爬取的目录都比国内的要多,可能因为要开发国外市场,但是可能考虑到搜索引擎的流量情况,对谷歌、必应开放爬取的目录要不雅虎高。

    相关文章

      网友评论

          本文标题:robots文件分析

          本文链接:https://www.haomeiwen.com/subject/knultxtx.html