requests+正则表达式爬取猫眼电影top100

requests+正则表达式爬取猫眼电影top100

作者: 次世代数据技术 | 来源:发表于2018-11-30 00:56 被阅读0次

抓取猫眼TOP100电影信息
Python学习第四天
python爬取猫眼电影top100榜单
Python爬虫-猫眼电影排行
Python爬虫猫眼电影TOP100
Python爬虫
爬取猫眼电影评分等信息
爬虫学习(一)：利用requests爬取猫眼电影top100
Requests+正则表达式爬取猫眼电影
1.requests+正则表达式爬取猫眼电影排行

首先打开猫眼电影官网，进入>榜单>TOP100榜。分析页面url可知当前页面通过在url中添加参数offset进行分页显示。榜单显示共10页，offset in range(0,100,10)。

url分析

右键检查网页，分析网页代码可以知道

分析网页代码1

点开其中一个<dd>...</dd>标签，继续分析，可以看出来，我们需要爬去的信息皆可以在网页源代码中提取出。

分析网页代码2

引入requests，将单页的HTML下载下来,代码如下：

获取网页源代码

分析下载后的源代码，找到我们需要的信息

网页分析

引入re，利用正则表达式将数据提取出来，代码如下：

获取数据

观察打印出的信息，可以看出来数据基本正确，但是部分数据需要做相应处理。比如主演这一块儿value值我们希望只留下演员名字即可，上映时间则只需留下准确时间。

分析数据

改善后的代码及结果如下：

优化后的代码

结果显示

将爬去的数据存入txt文件或者csv文件中，代码及结果如下：

数据存储

结果展示

以上是爬去单页的十条数据，如果需要爬去所有数据只需要依次改变offset参数的值即可，代码如下：

查看结果：

csv展示

txt展示

由上面结果可以看出来，上映时间这一块儿格式不是唯一的。

然后利用pyecharts进行简单的数据可视化处理，代码如下：

代码1

代码2

结果如下

猫眼电影TOP100情况分析

由此可见国产电影进步空间仍然很大啊！！！

相关文章

抓取猫眼TOP100电影信息
本文介绍利用Requests库、multiprocessing库和正则表达式爬取猫眼电影TOP100电影的相关信息...
Python学习第四天
爬取豆瓣top250电影输出结果：爬取猫眼top100 输出结果：
python爬取猫眼电影top100榜单
项目目标：使用 requests 库和正则表达式爬取猫眼电影 Top100 榜单，并保存为文件目标站点分析电影...
Python爬虫-猫眼电影排行
爬虫的目标爬取猫眼电影TOP100的电影名称，时间，评分，图片等信息猫眼TOP100网站:http://maoy...
Python爬虫猫眼电影TOP100
爬虫练习, 使用几种不同的方式爬取猫眼电影TOP100 猫眼电影TOP100的页面结构比较简单, 电影的信息都存储...
Python爬虫
Request+正则表达式爬取猫眼电影数据 1、确定目标爬取内容为：猫眼电影榜单数据。猫眼电影https://m...
爬取猫眼电影评分等信息
使用正则表达式爬取猫眼电影top100的评分等信息正则匹配可以用进程池来加快加载速度
爬虫学习(一)：利用requests爬取猫眼电影top100
爬取猫眼电影Top100 最近学习爬虫环境 Python3.6 requests re 目标网站猫眼电影top...
Requests+正则表达式爬取猫眼电影
猫眼电影-Top100榜参考资料 requests,正则表达式抓取猫眼电影TOP100
1.requests+正则表达式爬取猫眼电影排行
requests+正则表达式爬取猫眼电影排行具体用法说明详见代码注释：运行代码结果会在当前文件所在目录生成一个r...

网友评论

本文标题：requests+正则表达式爬取猫眼电影top100

本文链接：https://www.haomeiwen.com/subject/dddqcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|requests+正则表达式爬取猫眼电影top100|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！