美文网首页
爬虫实战1.3.6 页面解析-抓取猫眼电影排行(BS解析)

爬虫实战1.3.6 页面解析-抓取猫眼电影排行(BS解析)

作者: 罗汉堂主 | 来源:发表于2020-03-11 20:30 被阅读0次

    上篇我们通过一个例子介绍了一下Xpath的用法和爬虫的基本思路,这一篇我们还是承接上篇,主要介绍正则、Beautiful Soup的简单实用

    1.正则表达式

    首先我们来看一下正则表达式的解析方式,前面的请求什么的就不多说了,按照上篇的思路,从上往下提取,首先提取排名、电影名称、电影图片,直接上代码:

            # 排名
            movie_index_list = re.findall('<dd>.*?board-index.*?>(.*?)</i>', req_result, re.S)
            print(movie_index_list)
    
            # 电影名称
            movie_name_list = re.findall('<a.*?title="(.*?)".*?image-link.*?>', req_result, re.S)
            print(movie_name_list)
    
            # 电影图片
            movie_picture_list = re.findall('<a.*?image-link.*?data-src="(.*?)".*?', req_result, re.S)
            print(movie_picture_list)
    

    看下结果:

    ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
    ['霸王别姬', '霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单']
    ['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']
    

    下面就是电影主演,上映时间,评分,最后的评分需要做个简单的处理,上代码:

            # 电影主演
            movie_star_list = re.findall(r'<p.*?star">(.*?)</p>', req_result, re.S)
            movie_star_list = [movie_star.strip() for movie_star in movie_star_list]
            print(movie_star_list)
    
            # 上映时间
            show_time_list = re.findall(r'<p.*?releasetime">(.*?)</p>', req_result, re.S)
            print(show_time_list)
    
            # 电影评分
            movie_grade_list = re.findall(r'<p.*?integer">(.*?)</i><i.*?fraction">(.*?)</i></p>', req_result, re.S)
            movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list]
            print(movie_grade_list)
    

    看下结果:

    ['主演:张国荣,张丰毅,巩俐', '主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演:周星驰,巩俐,郑佩佩', '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演:连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演:寺田农,鹫尾真知子,龟山助清']
    ['上映时间:1993-07-26', '上映时间:1994-09-10(加拿大)', '上映时间:1953-09-02(美国)', '上映时间:1994-09-14(法国)', '上映时间:1998-04-03', '上映时间:1993-07-01(中国香港)', '上映时间:1939-12-15(美国)', '上映时间:1940-05-17(美国)', '上映时间:1993-12-15(美国)', '上映时间:1992-05-01']
    ['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']
    

    下面看一下整个处理过程:

        def regular_parse(self, req_result):
            """
            正则表达式解析
            :param req_result:
            :return:
            """
            movie_info_list = []
            # 排名
            movie_index_list = re.findall(r'<dd>.*?board-index.*?>(.*?)</i>', req_result, re.S)
            print(movie_index_list)
    
            # 电影名称
            movie_name_list = re.findall(r'<a.*?title="(.*?)".*?image-link.*?>', req_result, re.S)
            print(movie_name_list)
    
            # 电影图片
            movie_picture_list = re.findall(r'<a.*?image-link.*?data-src="(.*?)".*?', req_result, re.S)
            print(movie_picture_list)
    
            # 电影主演
            movie_star_list = re.findall(r'<p.*?star">(.*?)</p>', req_result, re.S)
            movie_star_list = [movie_star.strip() for movie_star in movie_star_list]
            print(movie_star_list)
    
            # 上映时间
            show_time_list = re.findall(r'<p.*?releasetime">(.*?)</p>', req_result, re.S)
            print(show_time_list)
    
            # 电影评分
            movie_grade_list = re.findall(r'<p.*?integer">(.*?)</i><i.*?fraction">(.*?)</i></p>', req_result, re.S)
            movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list]
            print(movie_grade_list)
            for i in range(len(movie_index_list)):
                movie_info_dict = dict()
                movie_info_dict['movie_index'] = movie_index_list[i]
                movie_info_dict['movie_name'] = movie_name_list[i]
                movie_info_dict['movie_picture'] = movie_picture_list[i]
                movie_info_dict['movie_star'] = movie_star_list[i]
                movie_info_dict['show_time'] = show_time_list[i]
                movie_info_dict['movie_grade'] = movie_grade_list[i]
                movie_info_list.append(movie_info_dict)
            return movie_info_list
    

    这是第一页的处理,剩余的跟上篇文章相同,就不再重复了。

    2.Beautiful Soup

    接下来看一下Beautiful Soup的解析方式,之前的文章中说了bs是依赖于解析器的,在这里我们还是使用lxml解析器来做
    在这之前我们先装好bs

    pip install bs4
    

    同样的,还是先取排名、电影名、电影图片:

            soup = BeautifulSoup(req_result, 'lxml')
            # 排名
            movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
            print(movie_index_list)
    
            # 电影名称
            movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
            print(movie_name_list)
    
            # 电影图片
            movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
            print(movie_picture_list)
    
            # 电影主演
            movie_star_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="star")]
            print(movie_star_list)
    

    看下结果:

    ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
    ['霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单', '天空之城']
    ['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']
    

    获取主演、上映时间、评分:

            # 电影主演
            movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
            print(movie_star_list)
    
            # 上映时间
            show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
            print(show_time_list)
    
            # 电影评分
            movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
            movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
            movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]
    

    看下结果:

    ['主演:张国荣,张丰毅,巩俐', '主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演:周星驰,巩俐,郑佩佩', '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演:连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演:寺田农,鹫尾真知子,龟山助清']
    ['上映时间:1993-07-26', '上映时间:1994-09-10(加拿大)', '上映时间:1953-09-02(美国)', '上映时间:1994-09-14(法国)', '上映时间:1998-04-03', '上映时间:1993-07-01(中国香港)', '上映时间:1939-12-15(美国)', '上映时间:1940-05-17(美国)', '上映时间:1993-12-15(美国)', '上映时间:1992-05-01']
    ['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']
    

    完整方法如下:

        def bs_parse(self, req_result):
            """
            Beautiful Soup解析
            :param req_result:
            :return:
            """
            movie_info_list = []
            soup = BeautifulSoup(req_result, 'lxml')
            # 排名
            movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
            print(movie_index_list)
    
            # 电影名称
            movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
            print(movie_name_list)
    
            # 电影图片
            movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
            print(movie_picture_list)
    
            # 电影主演
            movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
            print(movie_star_list)
    
            # 上映时间
            show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
            print(show_time_list)
    
            # 电影评分
            movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
            movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
            movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]
            print(movie_grade_list)
            for i in range(len(movie_index_list)):
                movie_info_dict = dict()
                movie_info_dict['movie_index'] = movie_index_list[i]
                movie_info_dict['movie_name'] = movie_name_list[i]
                movie_info_dict['movie_picture'] = movie_picture_list[i]
                movie_info_dict['movie_star'] = movie_star_list[i]
                movie_info_dict['show_time'] = show_time_list[i]
                movie_info_dict['movie_grade'] = movie_grade_list[i]
                movie_info_list.append(movie_info_dict)
            return movie_info_list
    

    1.结语

    这篇主要以一个实例介绍了正则跟bs在采集中的解析方法,主要是一些比较简单的应用,在一些其他的比较复杂的页面中,根据自己的理解,感觉还是Xpath使用起来比较方便,比较清晰。

    相关文章

      网友评论

          本文标题:爬虫实战1.3.6 页面解析-抓取猫眼电影排行(BS解析)

          本文链接:https://www.haomeiwen.com/subject/uukmnctx.html