美文网首页Python3自学 爬虫实战
python爬取LOL官网英雄详情

python爬取LOL官网英雄详情

作者: 杰伊_约翰 | 来源:发表于2019-08-20 18:48 被阅读0次

lol,,,,,,,,
这个不错,,,,,,
首先拿到url地址,

https://lol.qq.com/data/info-defail.shtml?id=51

想都不要想是一个动态加载的页面,那么就找json吧!
这里就只跟大家说说爬取这个动态页面的大概思路,具体的代码就不提供了!
浏览器页面内右键点击检查(这里以谷歌浏览器为例)
果然找到了,名字起的好像还挺有规律,,,


Cutter_2019-08-20 06_29_16.439.png

名字为51.js的那个接口就是我们要找的数据,可以看到右侧已经显示了英雄的名称。

你也可以把拿到的数据先复制到json在线解析里面格式化一下,看看数据的结构


image.png

刚刚说到的它内部那个接口名字很有规律,这就方便了我们操作

https://game.gtimg.cn/images/lol/act/img/js/hero/14.js

这是其中一个json数据的地址,可以看到14这个数字,没错,你只需要去for循环拼接url就可以啦,剩下的就是正则匹配你想要的字段了,整一个流程的话相对比较简单。

总结:
动态页面的话,有经验的人都会去找json数据——js动态加载,不过有一些动态页面会把js动态加载的json数据放在当前页面的html文件里,而你需要获取到页面源码后再用正则去匹配你要的json数据,拿到数据后匹配字段,遇到一些图片地址或其他地址不完整的话用json方法拼接,某些可以直接用“+”拼接。

反正你就想嘛,一个网页它肯定得展示数据吧!那你就肯定能爬得到,不可能把数据全都隐藏起来不上传到服务器。做过后端开发的都知道,前端的代码你是不是都得上传到服务器,不然你展示啥啊!

相关文章

网友评论

    本文标题:python爬取LOL官网英雄详情

    本文链接:https://www.haomeiwen.com/subject/tyhmsctx.html