美文网首页
python 六节课 爬虫 1-3

python 六节课 爬虫 1-3

作者: 任我笑笑 | 来源:发表于2018-04-22 17:56 被阅读0次

    url

    https://www.bilibili.com/video/av19689660/?p=1

    课程

    第一节课 ,简介 ,基本多余
    第二节课 ,前半 多余 ,后半 ,开始 讲requests 模块,进入正式代码部分

    正确的步骤

    • 安装anaconda- python环境
    • 安装 pycharm- ide工具

    requests 模块

    response的方法

    • response.text
      • 该方式往往会出现乱码,出现乱码要制定编码格式 response.encoding='utf-8'
    • response.content.decode()
      • 把相应的二进制字节流转化为str类型

    发送post请求

    不加header的情况下,下面的代码足矣,但是因为没有header容易被服务器判断为爬虫而不响应。

    image.png

    header的东西,可以用chrome来查看


    image.png

    普通情况下只加user-agent就可以

    使用超时参数

    • requests.get(url,headers=headers,timeout=3) # 3秒内响应,否则报错

    retrying模块 需要安装

    使用装饰器,出错情况下运行3次


    image.png

    cookie

    • 先用chrome登录,然后找到相应url,以及对应的cookie,复制到代码中 header


      image.png
    • 或者显示的声明 cookie
    image.png
    • 利用session
    image.png image.png

    如何找到正确的form提交url

    观察chrome的network的时候
    为了防止页面跳转而导致各种请求信息消失,
    可以勾选 preserve log

    1. 在html的form代码中找提交的action的url

    相关文章

      网友评论

          本文标题:python 六节课 爬虫 1-3

          本文链接:https://www.haomeiwen.com/subject/ssdclftx.html