美文网首页Python爬虫Python爬虫专题
Python爬虫日记一:爬取豆瓣电影中速度与激情8演员图片

Python爬虫日记一:爬取豆瓣电影中速度与激情8演员图片

作者: 梅花鹿数据rieuse | 来源:发表于2017-04-27 16:34 被阅读682次

    一、前言

    这是我第一次写文章,作为一个非计算机,编程类专业的大二学生,我希望能够给像我这样的入门的朋友一些帮助,也同时激励自己努力写代码。好了废话不多说,今天我做的爬虫是豆瓣的一个电影——速度与激情8的全部影人页面,贴出网址:速度与激情8 全部影人
    目标:爬取速度与激情8中全部影人的图片并且用图中人物的名字给图片文件命名,最后保存在电脑中。

    豆瓣1.png

    二、运行环境

    • 系统版本
      Windows10 64位
    • Python版本
      Python3.6 我用的是Anaconda集成版本
    • IDE
      PyCharm 学生可以通过edu邮箱免费使用,不是学生的朋友可以试试社区版,不明白怎么安装的可以留言或者 私信我。

    三、分析

    爬虫的三个要点:请求,解析,存储
    请求可以使用urllib Requests ,其中urllib是自带的, Requests是第三方库,功能更强大,本次使用的是urllib。
    解析我用的有正则表达式,xpath,本次使用的是正则表达式,主要是想自己用正则来练练 只看正则的说明不能理解其中的奥秘ヾ(o◕∀◕)ノヾ,必须多试试。
    储存常用的有保存到内存,数据库,硬盘中,本次是保存到电脑硬盘中

    四、实战

    首先导入我们需要的模块
    import urllib.request import os import re
    urllib.request是用来请求的,os是操作文件目录常用的模块,re是python中正则表达式的模块,
    url = 'https://movie.douban.com/subject/26260853/celebrities' r = urllib.request.urlopen(url) html = r.read().decode('utf-8')
    第一行很明显是本次爬虫的网页, r = urllib.request.urlopen(url)用来打开网页, r.read()是读取网页内容,decode('utf-8')是用utf-8编码对字符串str进行解码,以获取unicode。

    之后我们来获取一下图片的地址,用Chrome浏览器打开速度与激情8的全部影人页面,按下F12,分析一下,可知每个人的照片地址都是img1或者3.doubanio.com/img/celebrity/medium/几个数字.jpg

    Paste_Image.png
    我们使用正则表达式来匹配一下这些图片地址,1或者3部分用\d匹配,末尾数字部分用.*来匹配即可。
    result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg',html)
    现在图片地址也有了,还需要把这些人物的名字给爬下来,之后才能配对文件,再次分析一下刚才的网址。看到这些人物的名字都是以title=开头,我们就用它来正则匹配一下,来获取全部的人物名字,放进一个列表中。
    Paste_Image.png
    result2 = re.findall(r'(?<=title=").\S+', html) result2.pop() result3 = sorted(set(result2), key=result2.index) result3.pop(-3)
    第一行代码中re.findall(r'(?<=title=").\S+', html)用来匹配截图中title="后面的名字
    第二行代码中pop()是去除最后一个元素,因为前面匹配后的列表中有一个非人物名字的元素所以我们就需要把它去掉
    第三行代码中sorted(set(result2), key=result2.index)有两个功能,一个是使用set()集合函数来去除列表中重复元素,另一个是sorted()函数是给列表排序用的,key=result2.index的意思是以result2原来的索引顺序来给新的列表排序,因为每张图片很名字是对应的,如果单单使用set(),虽然重复的去除了但是顺序也变了,所以我们需要利用sort()结合key=result2.index来排序才行。
    result3.pop(-3)意思是删除result3中倒数第三个元素,因为克里斯·摩根这个没照片所以我就把他删了。

    之后我们来给本地创建一个文件夹用来保存图片,这里就用到了os模块
    if not os.path.exists('douban'): os.makedirs('douban')

    之后需要的是下载这些人物图片,利用之前爬取的人物名字给对应图片命名并保存。
    i = 0 for link in result: filename = 'douban\' + str(result3[i])+ '.jpg' i += 1 with open(filename, 'w') as file: urllib.request.urlretrieve(link, filename)

    完整代码贴出来,需要的同学可以试试。
    import urllib.request import os import re url = 'https://movie.douban.com/subject/26260853/celebrities' r = urllib.request.urlopen(url) html = r.read().decode('utf-8') result = re.findall(r'https://img\d.doubanio.com/img/celebrity/medium/.*.jpg', html) result2 = re.findall(r'(?<=title=").\S+', html) result2.pop() result3 = sorted(set(result2), key=result2.index) result3.pop(-3) if not os.path.exists('douban'): os.makedirs('douban') i = 0 for link in result: filename = 'douban\\' + str(result3[i]) + '.jpg' i += 1 with open(filename, 'w') as file: urllib.request.urlretrieve(link, filename)

    五、总结

    最后效果,图片都下载在我刚才指定的文件夹中了。


    Paste_Image.png

    第一次写文章,对很多东西不是很熟悉,如果有任何问题,请多多指教。

    相关文章

      网友评论

      • meetliuxin:哇 只会写点简单的正则,能不能解释下那个匹配名字的正则
      • fa4715aece23:抄写完之后报错,好像是result2.pop 没用元素
      • 麦口胡:页面链接result的数量 和 取title的演员名称得result3数量,需要之前匹配好,否则在循环存的时候提示:IndexError: list index out of range。

        可以考虑在li匹配整个正则表达式
        麦口胡:@布咯咯_rieuse :+1:
        梅花鹿数据rieuse: @麦口胡 当时第一次写很多可能用的不是最简单的方式,慢慢学的多了用的方法也就多了。
      • 麦口胡:filename = 'douban\' + str(result3[i]) + '.jpg' 会提示”SyntaxError: EOL while scanning string literal“
        改成
        filename = "douban\\" + str(result3[i]) + '.jpg' OK
        麦口胡:或者改成 filename =os.path.join('douban',result3[i]+'.jpg') 也OK

      本文标题:Python爬虫日记一:爬取豆瓣电影中速度与激情8演员图片

      本文链接:https://www.haomeiwen.com/subject/tkagzttx.html