Python爬虫的那些事

作者: 杰伊_约翰 | 来源:发表于2019-08-26 16:44 被阅读2次

Python爬虫的那些事
3分钟带你了解世界第一语言Python 入门上手也这么简单！
爬虫入门基础
资料
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例
Python网络爬虫（一）- 入门基础
Python网络爬虫（四）- XPath
Python网络爬虫（三）- 爬虫进阶

在写了一个月的爬虫后发现遗漏了一个问题，我只对某个网站进行爬取却没有对数据的分析和统计，
更直观的说就是一些简单的可视化界面；比如条形统计图和词云等。

再回过头来，前两天心血来朝就试着爬取了一下某东和某宝；这两个电商网站说起来还真是别有用心，某一个技术反爬点上都搞得我头皮发麻，但不经历风雨又怎能见到彩虹呢！

最终功夫不负有心人，列表和详情页的数据都取到了，这里就不上代码了，因为这些东西稍微用点心还是挺简单的，就看你有没有那个魄力了！

这一个月来爬过大大小小的网站。它们往往把动态加载的数据放在一个或多个接口内，当我们去根据对应的url去请求拿到json数据，再进行正则匹配就可以啦！当然也有把json数据放在页面源码的script标签内的js代码中，还是一样用正则把json数据匹配到，拿到自己想要的字段和内容。

不过难得一见，LOL的官网下面所有英雄的数据竟然非常有规律的放在对应的接口里，这就很舒服了，而且请求完拿到的json数据也没有混肴，直接就可以正则匹配。英雄的所有装备只对应了一个接口，所以拿到那一个地址就可以获取到所有的装备和描述。

在爬取某东的时候，发现某些是静态页面，但是在拿到页面源码后慌了，人家把页面所有的文字都进行了16进制编码，结果拿到的全是中文乱码；在百度上搜了半天后终于解决了乱码问题，大家可以点击https://blog.csdn.net/u010924297/article/details/80353440此网址前往查看，有根据不同的问题有对应的处理方式。