url
https://www.bilibili.com/video/av12721444
这视频老师还真是有当网红老师的潜质
重在讲思路
先查看源代码中是否还有需要的信息,如果没有
利用chrome来对js加载的url进行跟踪,分析
![](https://img.haomeiwen.com/i3864174/9b2869819d2b78d5.png)
120分钟之后都是多余。。。。
反爬
-
最基本的做法就是添加user-agent
用的还是python2的urllib2
image.png
-
对多线程的爬虫,可以为每个线程配置自己的user-agent,可以搜“user-agent 大全”
(当然,以前觉得还是找代理服务器伪装下ip比较好)
headers()是自定义的随机取一个user-agent出来
![](https://img.haomeiwen.com/i3864174/2c22042af18b576d.png)
拿到json进行处理
执行之后取出要用的json 因为是gbk的,所以要decode('gbk').encode('utf-8')
把json转成dict
from json import loads
loads(xxxx)
![](https://img.haomeiwen.com/i3864174/f11abb9d415d1507.png)
![](https://img.haomeiwen.com/i3864174/9c00ddcb99680ecc.png)
分析url,拼接url
![](https://img.haomeiwen.com/i3864174/83cfe8a29270b2a7.png)
网友评论