美文网首页Python 运维我的Python自学之路
自己在爬取网页时常遇到的一些错误

自己在爬取网页时常遇到的一些错误

作者: SaveTheWorld | 来源:发表于2017-03-02 11:32 被阅读0次

    1.urllib2.HTTPError: HTTP Error 403:Forbidden

    需要在爬取时伪装浏览器头

    headers= {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

    加上这段后执行程序,又报了第二个错误。

    2.must be string or buffer, not dict

    查了资料,缺少参数rq_body

    先定义rq_body = ''

    html = urllib2.Request('http://blog.csdn.net/xingjiarong',rq_body,headers)

    再次执行,成功。

    相关文章

      网友评论

        本文标题:自己在爬取网页时常遇到的一些错误

        本文链接:https://www.haomeiwen.com/subject/yuphgttx.html