Python爬虫日记一：爬取豆瓣电影中速度与激情8演员图片

作者: 梅花鹿数据 | 来源:发表于2017-04-27 16:34 被阅读682次

Python爬虫日记一：爬取豆瓣电影中《战狼2》演员图片
Python爬虫日记一：爬取豆瓣电影中速度与激情8演员图片
Python学习
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python学习
Python学习
Python·爬取当当网图书信息
使用爬虫爬取豆瓣电影影评数据Python版
python爬取豆瓣演员图片
nodeJS做一个简单的爬虫

一、前言

这是我第一次写文章，作为一个非计算机，编程类专业的大二学生，我希望能够给像我这样的入门的朋友一些帮助，也同时激励自己努力写代码。好了废话不多说，今天我做的爬虫是豆瓣的一个电影——速度与激情8的全部影人页面，贴出网址：速度与激情8 全部影人。
目标：爬取速度与激情8中全部影人的图片并且用图中人物的名字给图片文件命名，最后保存在电脑中。

豆瓣1.png

二、运行环境

系统版本
Windows10 64位
Python版本
Python3.6 我用的是Anaconda集成版本
IDE
PyCharm 学生可以通过edu邮箱免费使用，不是学生的朋友可以试试社区版，不明白怎么安装的可以留言或者私信我。

三、分析

爬虫的三个要点：请求，解析，存储
请求可以使用urllib Requests ，其中urllib是自带的， Requests是第三方库，功能更强大，本次使用的是urllib。
解析我用的有正则表达式，xpath，本次使用的是正则表达式，主要是想自己用正则来练练只看正则的说明不能理解其中的奥秘ヾ(o◕∀◕)ﾉヾ，必须多试试。
储存常用的有保存到内存，数据库，硬盘中，本次是保存到电脑硬盘中

四、实战

首先导入我们需要的模块
import urllib.request import os import re
urllib.request是用来请求的，os是操作文件目录常用的模块，re是python中正则表达式的模块，
url = 'https://movie.douban.com/subject/26260853/celebrities' r = urllib.request.urlopen(url) html = r.read().decode('utf-8')
第一行很明显是本次爬虫的网页， r = urllib.request.urlopen(url)用来打开网页， r.read()是读取网页内容，decode('utf-8')是用utf-8编码对字符串str进行解码，以获取unicode。

之后我们来获取一下图片的地址，用Chrome浏览器打开速度与激情8的全部影人页面，按下F12，分析一下，可知每个人的照片地址都是img1或者3.doubanio.com/img/celebrity/medium/几个数字.jpg

Paste_Image.png
我们使用正则表达式来匹配一下这些图片地址，1或者3部分用\d匹配，末尾数字部分用.*来匹配即可。
result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg',html)
现在图片地址也有了，还需要把这些人物的名字给爬下来,之后才能配对文件，再次分析一下刚才的网址。看到这些人物的名字都是以title=开头，我们就用它来正则匹配一下，来获取全部的人物名字，放进一个列表中。

Paste_Image.png

result2 = re.findall(r'(?<=title=").\S+', html) result2.pop() result3 = sorted(set(result2), key=result2.index) result3.pop(-3)

第一行代码中re.findall(r'(?<=title=").\S+', html)用来匹配截图中title="后面的名字
第二行代码中pop()是去除最后一个元素，因为前面匹配后的列表中有一个非人物名字的元素所以我们就需要把它去掉
第三行代码中sorted(set(result2), key=result2.index)有两个功能，一个是使用set()集合函数来去除列表中重复元素，另一个是sorted(）函数是给列表排序用的，key=result2.index的意思是以result2原来的索引顺序来给新的列表排序，因为每张图片很名字是对应的，如果单单使用set()，虽然重复的去除了但是顺序也变了，所以我们需要利用sort()结合key=result2.index来排序才行。
result3.pop(-3)意思是删除result3中倒数第三个元素，因为克里斯·摩根这个没照片所以我就把他删了。

之后我们来给本地创建一个文件夹用来保存图片，这里就用到了os模块
if not os.path.exists('douban'): os.makedirs('douban')

之后需要的是下载这些人物图片，利用之前爬取的人物名字给对应图片命名并保存。
i = 0 for link in result: filename = 'douban\' + str(result3[i])+ '.jpg' i += 1 with open(filename, 'w') as file: urllib.request.urlretrieve(link, filename)

完整代码贴出来，需要的同学可以试试。
import urllib.request import os import re url = 'https://movie.douban.com/subject/26260853/celebrities' r = urllib.request.urlopen(url) html = r.read().decode('utf-8') result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg', html) result2 = re.findall(r'(?<=title=").\S+', html) result2.pop() result3 = sorted(set(result2), key=result2.index) result3.pop(-3) if not os.path.exists('douban'): os.makedirs('douban') i = 0 for link in result: filename = 'douban\\' + str(result3[i]) + '.jpg' i += 1 with open(filename, 'w') as file: urllib.request.urlretrieve(link, filename)

五、总结

最后效果，图片都下载在我刚才指定的文件夹中了。

Paste_Image.png

第一次写文章，对很多东西不是很熟悉，如果有任何问题，请多多指教。

Python爬虫日记一：爬取豆瓣电影中《战狼2》演员图片
一、前言参考了作者布咯咯_rieuse的《爬取豆瓣电影中速度与激情8演员图片》一文，原文地址：爬取豆瓣电影中...
Python爬虫日记一：爬取豆瓣电影中速度与激情8演员图片
一、前言这是我第一次写文章，作为一个非计算机，编程类专业的大二学生，我希望能够给像我这样的入门的朋友一些帮助，也...
Python学习
python爬虫(五) python爬虫爬取豆瓣电影Top250数据利用python爬取豆瓣电影TOP250页面...
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存
Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存目的采用python爬虫爬取豆瓣电影Top25...
Python学习
python爬虫(四) python爬虫爬取豆瓣电影数据今天我们爬取一下豆瓣电影TOP250页面电影的数据，依然...
Python学习
python爬虫(六) python爬取图片素材通过爬虫爬取图片的地址以及电影的名称，然后将图片素材命名为电影名...
Python·爬取当当网图书信息
爬虫实践爬取当当网图书信息爬取豆瓣即将上映电影爬虫 1)爬取常用的数据结构模型 2)图片爬取 3）批量命名图片
使用爬虫爬取豆瓣电影影评数据Python版
在使用爬虫爬取豆瓣电影影评数据Java版一文中已详细讲解了爬虫的实现细节，本篇仅为展示Python版本爬虫实现...
python爬取豆瓣演员图片
本文为使用python3通过豆瓣演员id下载演员图片 1. 该类为读取Excel表格数据备注：该脚本实现了通过...
nodeJS做一个简单的爬虫
nodeJS（准确的说是express+request+cheerio）做一个简单的爬虫，爬取豆瓣电影的电影图片，...

网友评论

meetliuxin:哇只会写点简单的正则，能不能解释下那个匹配名字的正则
fa4715aece23:抄写完之后报错，好像是result2.pop 没用元素
麦口胡:页面链接result的数量和取title的演员名称得result3数量，需要之前匹配好，否则在循环存的时候提示：IndexError: list index out of range。

可以考虑在li匹配整个正则表达式
麦口胡:@布咯咯_rieuse
梅花鹿数据: @麦口胡当时第一次写很多可能用的不是最简单的方式，慢慢学的多了用的方法也就多了。
麦口胡:filename = 'douban\' + str(result3[i]) + '.jpg' 会提示”SyntaxError: EOL while scanning string literal“
改成
filename = "douban\\" + str(result3[i]) + '.jpg' OK
麦口胡:或者改成 filename =os.path.join('douban',result3[i]+'.jpg') 也OK

Python爬虫日记一：爬取豆瓣电影中速度与激情8演员图片

一、前言

二、运行环境

三、分析

四、实战

五、总结

相关文章

Python爬虫日记一：爬取豆瓣电影中《战狼2》演员图片

Python爬虫日记一：爬取豆瓣电影中速度与激情8演员图片

Python学习

Python爬虫-豆瓣电影Top250-各项信息爬取及xls保存

Python学习

Python学习

Python·爬取当当网图书信息

使用爬虫爬取豆瓣电影影评数据Python版

python爬取豆瓣演员图片

nodeJS做一个简单的爬虫

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python爬虫

Python

爬虫专题

Python语言与信息数据获取和机器学习

大数据爬虫Python AI Sql

Python3自学爬虫实战