用python采集猫眼电影排行榜信息

用python采集猫眼电影排行榜信息

作者: 书生婉悠 | 来源:发表于2018-02-10 22:02 被阅读197次

用python采集猫眼电影排行榜信息
免费爬虫工具：后羿采集器如何采集猫眼电影榜单信息数据
「python」爬取猫眼 TOP100 电影并以 excel 格
2018-03-06
哔哩哔哩日排行榜数据分析
图解面试题：如何找到喜欢的电影？
50行Python爬取猫眼电影TOP100榜单信息
小爬虫之爬取豆瓣电影排行榜
爬虫学习(一)：利用requests爬取猫眼电影top100
用Python爬取猫眼电影排行榜TOP100

随着大数据和人工智能多次被大佬提及之后，并且被定义为未来的大趋势后，天然适合于大数据和人工智能的编程语言python也异常火热，市面上出现了不少的高价格、大规模的python培训机构和python教程。

作为python的年轻用户，其实不是很建议非编程科班花太多时间研究python，作为一门语言，掌握并且运用需要系统的知识，需要大量的时间和实操场景的；为了让没有经验但是对python好奇的朋友理解python，那我就以一个例子具体来介绍python的在采集数据中的具体运用。

如下图，我们需要采集先后排名、电影名称、主演、上映时间、评分5个信息，而且这些排名是分布在1-10页之间，每页总共10条信息，这就需要做翻页处理。

爬虫采集的基本步骤是通过发送requests请求，获得返回网页信息，再从获得的返回信息，提取出需要的信息，最后呢，对信息保持处理。下面就以采集猫眼电影前100榜单排名信息为例。

一、通过requests发送请求信息：

如下图所示，导入requests库，定义一个链接函数，在函数里面发送采集请求，再获得需要的采集信息，为了保证采集的顺利，这里还对返回的状态码做了判断；

最终得到的返回信息如下图：

二、抽取需要的信息：

通过上面发现，我们获得的夹杂这代码的信息，因此是需要对目标信息做抽取处理。这里我们用的是正则表达式来对内容做处理。

仔细观察不难发现，每条信息的HTML内容都是一样的，所以我只需要对其中一条信息做抽取，之后用循环完成100条信息的抽取，具体如下：

1、正则表达式内容如下，红框内容就是我们需要的信息

2、通过定义函数抽取需要的信息：下图就是定义一个参数为HTML的函数，在函数里面通过正则表达式获得目标信息，并且把这些信息整理成一个固定的容器。

得到如下效果：这些信息并不是按照需要的效果组合起来，并且还有一些不必要的分行字符，这些效果还是需要重新整理。

因此需要，这里通过for循环逐次把同组信息整理在一起，并且通过strip()方法去掉换行字符，得到：

三、将采集得到的信息保持在文档中

把上述信息整理完毕后，就需要将这些信息存储在文档中，这里就存储在电脑上并且格式为text文档。这里需要注意的是，要对编码做修改，以防出现乱码的情况，具体信息：

以上采集的只是一个页面，但是这里有10页信息需要采集，因此需要对url路径做设置，当在采集时自动翻页

全文代码：

相关文章

用python采集猫眼电影排行榜信息
随着大数据和人工智能多次被大佬提及之后，并且被定义为未来的大趋势后，天然适合于大数据和人工智能的编程语言pytho...
免费爬虫工具：后羿采集器如何采集猫眼电影榜单信息数据
本文主要介绍如何使用后羿采集器的智能模式，免费采集猫眼电影TOP100榜的电影信息。采集工具简介：后羿采集器是...
「python」爬取猫眼 TOP100 电影并以 excel 格
爬取目标本文将提取猫眼电影 TOP100 排行榜的电影名称、时间、评分、图片等信息，URL 为http://ma...
2018-03-06
python3爬取猫眼top100电影信息 import requests from requests.excep...
哔哩哔哩日排行榜数据分析
一：数据来源数据集为2019年九月至今的哔哩哔哩日视频排行榜数据信息，通过Python爬虫采集，具体采集过程见...
图解面试题：如何找到喜欢的电影？
【题目】某电影平台（类似豆瓣、猫眼电影）用3个表来记录电影信息。“电影表”中是电影编号、电影名称、电影描述信息。...
50行Python爬取猫眼电影TOP100榜单信息
今天，手把手教你入门 Python 爬虫，爬取猫眼电影 TOP100 榜信息。对于 Python 初学者来说，爬...
小爬虫之爬取豆瓣电影排行榜
1.技术路线 python 3.6.0 scrapy 1.4.0 2.任务爬取豆瓣电影排行榜电影相关信息 2.1...
爬虫学习(一)：利用requests爬取猫眼电影top100
爬取猫眼电影Top100 最近学习爬虫环境 Python3.6 requests re 目标网站猫眼电影top...
用Python爬取猫眼电影排行榜TOP100
参考资料《Python3网络爬虫开发实践》，作者崔庆才这篇博客参考了崔庆才的《Python3网络爬虫开发实践》有...

网友评论

5ee22df73859:有源码提供的路径吗？

本文标题：用python采集猫眼电影排行榜信息

本文链接：https://www.haomeiwen.com/subject/lbmhtftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

数据采集数据分析

首页投稿（暂停使用，暂停投稿）

热点阅读

数据采集数据分析

首页投稿（暂停使用，暂停投稿）

程序员

关于我们|服务条款|联系我们|用python采集猫眼电影排行榜信息|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！