美文网首页
爬虫笔记(6)实战

爬虫笔记(6)实战

作者: 无事扯淡 | 来源:发表于2017-02-18 01:14 被阅读0次

    网站分析

    今天的目标是www.dy2018.com

    电影天堂

    可以直接从首页进行爬,实际上点击导航条中的“动作片”,可以进入一个栏目分类列表中:

    Paste_Image.png

    打开F12,可以看到这些栏目地址形式是"/0/","/1/"..."/20/"。那么是不是可以直接从这些栏目爬到所有电影呢?有必要先试试。

    测试访问

    >>> import requests
    >>> from bs4 import BeautifulSoup
    >>> url = 'http://www.dy2018.com'
    >>> url = 'http://www.dy2018.com/0/'
    >>> response = requests.get(url)
    >>> response.text
    '\n<html>\n<head>\n
    <meta http-equiv=\'Content-Type\' content=\'text/html; charset=utf-8\' />\n</head>\n<body>\n<script language=\'javascript\'>
    window.location="/0/?_"   +   "_wangan"   +   "=30dd"   +   "be26"  +   "42e5e6de"+"c1bb" +   
    "936d5"   +"3"+  "8" +   "8"   + "4d512"   +"14831919" +   "58_" +   "23"+ "1596";</script>\n</body>\n</html>'
    >>> 
    

    发现什么问题了?显然这个网站是有反爬策略的。仔细看script中的代码,window.location是什么意思呢?

    window.location="/0/?__wangan=30ddbe2642e5e6dec1bb936d53884d5121483191958_231596";
    

    相关文章

      网友评论

          本文标题:爬虫笔记(6)实战

          本文链接:https://www.haomeiwen.com/subject/iedbvttx.html