Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题

作者: DC学院 | 来源:发表于2017-12-15 10:13 被阅读384次

Python爬取电影信息并保存至Excel
Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题
Python学习
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python学习
python使用requests+re爬取豆瓣电影top250简
scrapy爬取豆瓣热门电影信息
50行Python爬取猫眼电影TOP100榜单信息
python爬虫爬取豆瓣电影
爬取豆瓣电影top250提取电影分类进行数据分析

比如我们今天的案例，豆瓣电影分类页面。根本没有什么翻页，需要点击“加载更多”新的电影信息，前面的黑科技瞬间被秒……

又比如知乎关注的人列表页面：

我复制了其中两个人昵称的 xpath：

//*[@id="Popover-35130-11238-toggle"]/a
//*[@id="Popover-35130-42416-toggle"]/a

竟然需要 ID 这种恶心的东西，规律失效。

我们以豆瓣励志分类下的电影为例，链接在这里：
https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E5%8A%B1%E5%BF%97

上面的标记应该是“分类”，而不是“排行榜”，更正一下。

首先要告诉你的是，这种动态加载的页面，一般数据会在Network的 JS或者 XHR 类目里。

我们打开开发者工具，看这一页的 XHR里没有任何文件，然后点击加载更多按钮，看它给我们返回什么信息。

咦？返回了一个新的文件，出于好奇，我们有必要看看究竟

右键点击 >> Open in new tab

有的网站返回的 JS、XHR 信息比较多，需要你去尝试和筛选。

这个 json 页面看起来就很亲切了，包含电影名称、导演、评分、演员、链接等数据。最关键的是，我仔细看了一遍页面后发现，这一页的电影信息，正好是新加载出来的所有电影的信息。

你的网页看 json 很乱？不要着急，那是你的chrome没有安装jsonview这个插件。证号为你准备好了，子按下方的云盘下载、安装就好：

链接:http://pan.baidu.com/s/1nvefj0t 密码:13pm

好了，又加载了两次，不出意料地又加载出了两页 XHR 信息，于是，满怀期待地分别打开它们。新加载的两个页面，和网页显示的电影信息完全相同。

我们再来看看 XHR 加载的这几个页面的 url：

#第二页
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=20

#第三页
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=40

#第四页
https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=60

比较后就可以轻松发现，这些页面的 url 是有规律的：只有最后 start= 后面的数字在变化，而且是以20为步长递增的，20正好对应每次加载出来的电影数量。

于是我们可以轻松地写出页面循环来爬取：

for a in range(3):    
  url='https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}'.format(a*20)

  # 用 a*20 表示每个页面按 20 的步长递增，只示例3个页面，你可以按需求增加。

按照前面的套路写出代码，并得到结果：

import requests
import json
import time

for a in range(3):
    url_visit = 'https://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start={}'.format(a*20)
    file = requests.get(url_visit).json()   #这里跟之前的不一样，因为返回的是 json 文件
    time.sleep(2)

    for i in range(20):
        dict=file['data'][i]   #取出字典中 'data' 下第 [i] 部电影的信息
        urlname=dict['url']
        title=dict['title']
        rate=dict['rate']
        cast=dict['casts']
    
        print('{}  {}  {}  {}\n'.format(title,rate,'  '.join(cast),urlname))

爬取的数据如下：

解释一下代码中的一些细节：

file = requests.get(url).json()

之前我们用的 .text 是需要网页返回文本的信息,而这里返回的是 json文件所以用 .json()

dict=file['data'][i] 
urlname=dict['url']

取出字典中的值，需要在方括号中指明值对应的键

'   '.join(cast)

因为有多名演员，这里用了 join() 函数，在字符串中间加入空格分隔。

当然，你也可以把爬下来的信息存到本地：

对电影评分进行排序，不久得到了所有的高分电影吗？

白白~

网友评论

浙sky:看完了7篇，希望出更多的版本~
昭明_d916:请问左边的结构试图怎么调出来呀？
昭明_d916:视图~
雷荣斌:我爬取导影时，出现[]，该怎么去除呢？
我用[0].strip，报错，不行。
DC学院:先只在后面加[0]，不用strip试试，strip是处理空白符号的。
X了个code:写的很好谢谢分享
远在远方的风yzyfdf:一口气看完写的很清楚

本文标题：Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题

本文链接：https://www.haomeiwen.com/subject/uzjrwxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题

相关文章

Python爬取电影信息并保存至Excel