" S情产业是人类科技发展进步的源泉。"这句话说得一点都没错啊!
下班没事做,在百度云乱翻东西,发现个不得了的好东西~
看起来是个好东西,可是我居然都不知道......
当时我就请教了一波度娘
ennnnnnnnnn....忘记是啥了,但并不影响咱们今天的话题。。
查了下是wordpress4.8.2的,看来撸它是不存在了。。
是可以写个爬虫把所有的都爬下来的,说干就干,go go go
sitemap.py
运行后得到这个页面所有链接,保存在当前目录下的1.txt里面。
拿到链接后再分析其中的一个链接
由于链接是个按钮标签,所以可以用soup这么写
获取button
获取完成后得把里面百度云链接处理,我们选择正则。
然后是对备注和链接密码进行处理
密码:
备注:
主体:
最后加sleep的是因为- -在抓取这网站的时候被跑死过3次。。。
代码:
pa.py
1.txt必须跟这个文件在同一目录下
如果您在学习编程的过程中遇到难题,可以关注微信公众号【筑梦编程】,大家一起交流解决!小编也会每天定时更新既有趣又有用的编程知识!
网友评论