美文网首页
python 爬虫 思维

python 爬虫 思维

作者: 任我笑笑 | 来源:发表于2018-05-04 20:38 被阅读0次

    url

    https://www.bilibili.com/video/av12721444
    这视频老师还真是有当网红老师的潜质

    重在讲思路

    先查看源代码中是否还有需要的信息,如果没有
    利用chrome来对js加载的url进行跟踪,分析


    image.png

    120分钟之后都是多余。。。。

    反爬

    1. 最基本的做法就是添加user-agent
      用的还是python2的urllib2


      image.png
    2. 对多线程的爬虫,可以为每个线程配置自己的user-agent,可以搜“user-agent 大全”
      (当然,以前觉得还是找代理服务器伪装下ip比较好)

    headers()是自定义的随机取一个user-agent出来


    image.png

    拿到json进行处理

    执行之后取出要用的json 因为是gbk的,所以要decode('gbk').encode('utf-8')

    把json转成dict
    from json import loads
    loads(xxxx)

    image.png image.png

    分析url,拼接url

    image.png

    相关文章

      网友评论

          本文标题:python 爬虫 思维

          本文链接:https://www.haomeiwen.com/subject/xjadrftx.html