" S情产业是人类科技发展进步的源泉。"这句话说得一点都没错啊!
下班没事做,在百度云乱翻东西,发现个不得了的好东西~
当然在学习Python的道路上肯定会困难,没有好的学习资料,怎么去学习呢? 学习Python中有不明白推荐加入交流群号:984137898 群里有志同道合的小伙伴,互帮互助, 群里有不错的视频学习教程和PDF!
看起来是个好东西,可是我居然都不知道......
当时我就请教了一波度娘
ennnnnnnnnn....忘记是啥了,但并不影响咱们今天的话题。。
查了下是wordpress4.8.2的,看来撸它是不存在了。。
[图片上传失败...(image-f67ae2-1556952682539)]
[图片上传失败...(image-7e3bfa-1556952682539)]
是可以写个爬虫把所有的都爬下来的,说干就干,go go go
sitemap.py
运行后得到这个页面所有链接,保存在当前目录下的1.txt里面。
拿到链接后再分析其中的一个链接
由于链接是个按钮标签,所以可以用soup这么写
获取button
获取完成后得把里面百度云链接处理,我们选择正则。
[图片上传失败...(image-49428b-1556952682539)]
然后是对备注和链接密码进行处理
密码:
[图片上传失败...(image-6f284-1556952682539)]
备注:
主体:
最后加sleep的是因为- -在抓取这网站的时候被跑死过3次。。。
代码:
pa.py
1.txt必须跟这个文件在同一目录下
网友评论