美文网首页
requests+正则表达式爬取猫眼电影top100

requests+正则表达式爬取猫眼电影top100

作者: 次世代数据技术 | 来源:发表于2018-11-30 00:56 被阅读0次

    首先打开猫眼电影官网,进入>榜单>TOP100榜。分析页面url可知当前页面通过在url中添加参数offset进行分页显示。榜单显示共10页,offset in range(0,100,10)。

url分析

右键检查网页,分析网页代码可以知道

分析网页代码1

点开其中一个<dd>...</dd>标签,继续分析,可以看出来,我们需要爬去的信息皆可以在网页源代码中提取出。

分析网页代码2

    引入requests,将单页的HTML下载下来,代码如下:

获取网页源代码

分析下载后的源代码,找到我们需要的信息

网页分析

引入re,利用正则表达式将数据提取出来,代码如下:

获取数据

    观察打印出的信息,可以看出来数据基本正确,但是部分数据需要做相应处理。比如主演这一块儿value值我们希望只留下演员名字即可,上映时间则只需留下准确时间。

分析数据

改善后的代码及结果如下:

优化后的代码 结果显示

将爬去的数据存入txt文件或者csv文件中,代码及结果如下:

数据存储 结果展示

以上是爬去单页的十条数据,如果需要爬去所有数据只需要依次改变offset参数的值即可,代码如下:

查看结果:

csv展示 txt展示

由上面结果可以看出来,上映时间这一块儿格式不是唯一的。

然后利用pyecharts进行简单的数据可视化处理,代码如下:

代码1 代码2

结果如下

猫眼电影TOP100情况分析

由此可见国产电影进步空间仍然很大啊!!!

相关文章

网友评论

      本文标题:requests+正则表达式爬取猫眼电影top100

      本文链接:https://www.haomeiwen.com/subject/dddqcqtx.html