美文网首页Python数据采集与爬虫python爬虫程序员
Python爬虫系列(四)(简单)Dota排行榜爬取,并存入Ex

Python爬虫系列(四)(简单)Dota排行榜爬取,并存入Ex

作者: 致Great | 来源:发表于2017-04-23 20:31 被阅读371次

在编写Python程序的时候,有很多库供我们选择,如urllib、requests,BeautifulSoup,lxml,正则表达式等等,使得我们在获取网页源代码或者选择元素的时候很方便,但是库多了,自己纠结症也犯了。。。额。自己今天爬的是对战平台的DOTA排行榜(ps:我在简书看到的一个评论,关于这个网站的,索性自己爬下了-_-),巩固下知识吧。

排行榜

1、分析网站

打开开发者工具,我们观察到排行榜的数据并没有在doc里

doc文档

在Javascript里我么可以看到下面代码:

ajax的post方法异步请求数据

在 XHR一栏里,我们找到所请求的数据

json存储的数据

请求字段为:

post请求字段

2、伪装浏览器,并将json数据存入excel里面

获取玩家信息 将数据保存到excel中

3、结果展示

保存的数据

4、总结

在掌握一些基本的爬虫知识之后,自己想做一些爬虫进阶的实战项目,比如使用一些框架(scrapy、pyspider等)、还有使用代理池等等。还有很多知识要学习自己加油吧。

相关文章

网友评论

  • 54d7ffabb63a:不错不错 简单易懂 不像某些大牛说好的新手教程 整大堆的看不懂的东西
    致Great:@石洋洋 共同加油
    54d7ffabb63a:@致Great 持续关注 get了几个新技能 途中遇到了个小坑 就是装了pandas 还有个模块没装上 所以一直报错 仔细看了下 把差的模块补上 完美
    致Great:@石洋洋 :blush::blush:

本文标题:Python爬虫系列(四)(简单)Dota排行榜爬取,并存入Ex

本文链接:https://www.haomeiwen.com/subject/tvsyzttx.html