首先打开猫眼电影官网,进入>榜单>TOP100榜。分析页面url可知当前页面通过在url中添加参数offset进行分页显示。榜单显示共10页,offset in range(0,100,10)。
![](https://img.haomeiwen.com/i15139732/424a25ac18b60392.png)
右键检查网页,分析网页代码可以知道
![](https://img.haomeiwen.com/i15139732/1eebe0e3a1ab639f.png)
点开其中一个<dd>...</dd>标签,继续分析,可以看出来,我们需要爬去的信息皆可以在网页源代码中提取出。
![](https://img.haomeiwen.com/i15139732/be5a18018018fd41.png)
引入requests,将单页的HTML下载下来,代码如下:
![](https://img.haomeiwen.com/i15139732/52e6a07a6a00d1f4.png)
分析下载后的源代码,找到我们需要的信息
![](https://img.haomeiwen.com/i15139732/1193803ad22ab400.png)
引入re,利用正则表达式将数据提取出来,代码如下:
![](https://img.haomeiwen.com/i15139732/09af2d1d36d81b58.png)
观察打印出的信息,可以看出来数据基本正确,但是部分数据需要做相应处理。比如主演这一块儿value值我们希望只留下演员名字即可,上映时间则只需留下准确时间。
![](https://img.haomeiwen.com/i15139732/5d8c59ac8447f225.png)
改善后的代码及结果如下:
![](https://img.haomeiwen.com/i15139732/b5dc7961d7d00c5a.png)
![](https://img.haomeiwen.com/i15139732/23a587c8484752ff.png)
将爬去的数据存入txt文件或者csv文件中,代码及结果如下:
![](https://img.haomeiwen.com/i15139732/10fda20f0dd2c053.png)
![](https://img.haomeiwen.com/i15139732/8a75a4ec76359998.png)
以上是爬去单页的十条数据,如果需要爬去所有数据只需要依次改变offset参数的值即可,代码如下:
![](https://img.haomeiwen.com/i15139732/a890577c1f0595c4.png)
查看结果:
![](https://img.haomeiwen.com/i15139732/d183e3a0e2ed47bc.png)
![](https://img.haomeiwen.com/i15139732/b9632da1301eb062.png)
由上面结果可以看出来,上映时间这一块儿格式不是唯一的。
然后利用pyecharts进行简单的数据可视化处理,代码如下:
![](https://img.haomeiwen.com/i15139732/82bc2aeff7e3bff1.png)
![](https://img.haomeiwen.com/i15139732/f50029c28abb2fed.png)
结果如下
![](https://img.haomeiwen.com/i15139732/ce28ddb6dae1627b.png)
由此可见国产电影进步空间仍然很大啊!!!
网友评论