Python爬虫的那些事

作者: 杰伊_约翰 | 来源:发表于2019-08-26 16:44 被阅读2次

在写了一个月的爬虫后发现遗漏了一个问题,我只对某个网站进行爬取却没有对数据的分析和统计,
更直观的说就是一些简单的可视化界面;比如条形统计图和词云等。

再回过头来,前两天心血来朝就试着爬取了一下某东和某宝;这两个电商网站说起来还真是别有用心,某一个技术反爬点上都搞得我头皮发麻,但不经历风雨又怎能见到彩虹呢!

最终功夫不负有心人,列表和详情页的数据都取到了,这里就不上代码了,因为这些东西稍微用点心还是挺简单的,就看你有没有那个魄力了!

这一个月来爬过大大小小的网站。它们往往把动态加载的数据放在一个或多个接口内,当我们去根据对应的url去请求拿到json数据,再进行正则匹配就可以啦!当然也有把json数据放在页面源码的script标签内的js代码中,还是一样用正则把json数据匹配到,拿到自己 想要的字段和内容。

不过难得一见,LOL的官网下面所有英雄的数据竟然非常有规律的放在对应的接口里,这就很舒服了,而且请求完拿到的json数据也没有混肴,直接就可以正则匹配。英雄的所有装备只对应了一个接口,所以拿到那一个地址就可以获取到所有的装备和描述。

在爬取某东的时候,发现某些是静态页面,但是在拿到页面源码后慌了,人家把页面所有的文字都进行了16进制编码,结果拿到的全是中文乱码;在百度上搜了半天后终于解决了乱码问题,大家可以点击https://blog.csdn.net/u010924297/article/details/80353440此网址前往查看,有根据不同的问题有对应的处理方式。

相关文章

网友评论

    本文标题:Python爬虫的那些事

    本文链接:https://www.haomeiwen.com/subject/nkrdectx.html