lol,,,,,,,,
这个不错,,,,,,
首先拿到url地址,
想都不要想是一个动态加载的页面,那么就找json吧!
这里就只跟大家说说爬取这个动态页面的大概思路,具体的代码就不提供了!
浏览器页面内右键点击检查(这里以谷歌浏览器为例)
果然找到了,名字起的好像还挺有规律,,,

名字为51.js的那个接口就是我们要找的数据,可以看到右侧已经显示了英雄的名称。
你也可以把拿到的数据先复制到json在线解析里面格式化一下,看看数据的结构

刚刚说到的它内部那个接口名字很有规律,这就方便了我们操作
这是其中一个json数据的地址,可以看到14这个数字,没错,你只需要去for循环拼接url就可以啦,剩下的就是正则匹配你想要的字段了,整一个流程的话相对比较简单。
总结:
动态页面的话,有经验的人都会去找json数据——js动态加载,不过有一些动态页面会把js动态加载的json数据放在当前页面的html文件里,而你需要获取到页面源码后再用正则去匹配你要的json数据,拿到数据后匹配字段,遇到一些图片地址或其他地址不完整的话用json方法拼接,某些可以直接用“+”拼接。
反正你就想嘛,一个网页它肯定得展示数据吧!那你就肯定能爬得到,不可能把数据全都隐藏起来不上传到服务器。做过后端开发的都知道,前端的代码你是不是都得上传到服务器,不然你展示啥啊!
网友评论