上篇我们通过一个例子介绍了一下Xpath的用法和爬虫的基本思路,这一篇我们还是承接上篇,主要介绍正则、Beautiful Soup的简单实用
1.正则表达式
首先我们来看一下正则表达式的解析方式,前面的请求什么的就不多说了,按照上篇的思路,从上往下提取,首先提取排名、电影名称、电影图片,直接上代码:
# 排名
movie_index_list = re.findall('<dd>.*?board-index.*?>(.*?)</i>', req_result, re.S)
print(movie_index_list)
# 电影名称
movie_name_list = re.findall('<a.*?title="(.*?)".*?image-link.*?>', req_result, re.S)
print(movie_name_list)
# 电影图片
movie_picture_list = re.findall('<a.*?image-link.*?data-src="(.*?)".*?', req_result, re.S)
print(movie_picture_list)
看下结果:
['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
['霸王别姬', '霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单']
['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']
下面就是电影主演,上映时间,评分,最后的评分需要做个简单的处理,上代码:
# 电影主演
movie_star_list = re.findall(r'<p.*?star">(.*?)</p>', req_result, re.S)
movie_star_list = [movie_star.strip() for movie_star in movie_star_list]
print(movie_star_list)
# 上映时间
show_time_list = re.findall(r'<p.*?releasetime">(.*?)</p>', req_result, re.S)
print(show_time_list)
# 电影评分
movie_grade_list = re.findall(r'<p.*?integer">(.*?)</i><i.*?fraction">(.*?)</i></p>', req_result, re.S)
movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list]
print(movie_grade_list)
看下结果:
['主演:张国荣,张丰毅,巩俐', '主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演:周星驰,巩俐,郑佩佩', '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演:连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演:寺田农,鹫尾真知子,龟山助清']
['上映时间:1993-07-26', '上映时间:1994-09-10(加拿大)', '上映时间:1953-09-02(美国)', '上映时间:1994-09-14(法国)', '上映时间:1998-04-03', '上映时间:1993-07-01(中国香港)', '上映时间:1939-12-15(美国)', '上映时间:1940-05-17(美国)', '上映时间:1993-12-15(美国)', '上映时间:1992-05-01']
['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']
下面看一下整个处理过程:
def regular_parse(self, req_result):
"""
正则表达式解析
:param req_result:
:return:
"""
movie_info_list = []
# 排名
movie_index_list = re.findall(r'<dd>.*?board-index.*?>(.*?)</i>', req_result, re.S)
print(movie_index_list)
# 电影名称
movie_name_list = re.findall(r'<a.*?title="(.*?)".*?image-link.*?>', req_result, re.S)
print(movie_name_list)
# 电影图片
movie_picture_list = re.findall(r'<a.*?image-link.*?data-src="(.*?)".*?', req_result, re.S)
print(movie_picture_list)
# 电影主演
movie_star_list = re.findall(r'<p.*?star">(.*?)</p>', req_result, re.S)
movie_star_list = [movie_star.strip() for movie_star in movie_star_list]
print(movie_star_list)
# 上映时间
show_time_list = re.findall(r'<p.*?releasetime">(.*?)</p>', req_result, re.S)
print(show_time_list)
# 电影评分
movie_grade_list = re.findall(r'<p.*?integer">(.*?)</i><i.*?fraction">(.*?)</i></p>', req_result, re.S)
movie_grade_list = [movie_grade[0] + movie_grade[1] for movie_grade in movie_grade_list]
print(movie_grade_list)
for i in range(len(movie_index_list)):
movie_info_dict = dict()
movie_info_dict['movie_index'] = movie_index_list[i]
movie_info_dict['movie_name'] = movie_name_list[i]
movie_info_dict['movie_picture'] = movie_picture_list[i]
movie_info_dict['movie_star'] = movie_star_list[i]
movie_info_dict['show_time'] = show_time_list[i]
movie_info_dict['movie_grade'] = movie_grade_list[i]
movie_info_list.append(movie_info_dict)
return movie_info_list
这是第一页的处理,剩余的跟上篇文章相同,就不再重复了。
2.Beautiful Soup
接下来看一下Beautiful Soup的解析方式,之前的文章中说了bs是依赖于解析器的,在这里我们还是使用lxml解析器来做
在这之前我们先装好bs
pip install bs4
同样的,还是先取排名、电影名、电影图片:
soup = BeautifulSoup(req_result, 'lxml')
# 排名
movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
print(movie_index_list)
# 电影名称
movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
print(movie_name_list)
# 电影图片
movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
print(movie_picture_list)
# 电影主演
movie_star_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="star")]
print(movie_star_list)
看下结果:
['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
['霸王别姬', '肖申克的救赎', '罗马假日', '这个杀手不太冷', '泰坦尼克号', '唐伯虎点秋香', '乱世佳人', '魂断蓝桥', '辛德勒的名单', '天空之城']
['https://p0.meituan.net/movie/ce4da3e03e655b5b88ed31b5cd7896cf62472.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/283292171619cdfd5b240c8fd093f1eb255670.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/289f98ceaa8a0ae737d3dc01cd05ab052213631.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/6bea9af4524dfbd0b668eaa7e187c3df767253.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/b607fba7513e7f15eab170aac1e1400d878112.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/da64660f82b98cdc1b8a3804e69609e041108.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/223c3e186db3ab4ea3bb14508c709400427933.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/58782fa5439c25d764713f711ebecd1e201941.jpg@160w_220h_1e_1c', 'https://p0.meituan.net/movie/b0d986a8bf89278afbb19f6abaef70f31206570.jpg@160w_220h_1e_1c', 'https://p1.meituan.net/movie/ba1ed511668402605ed369350ab779d6319397.jpg@160w_220h_1e_1c']
获取主演、上映时间、评分:
# 电影主演
movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
print(movie_star_list)
# 上映时间
show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
print(show_time_list)
# 电影评分
movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]
看下结果:
['主演:张国荣,张丰毅,巩俐', '主演:蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿', '主演:格利高里·派克,奥黛丽·赫本,埃迪·艾伯特', '主演:让·雷诺,加里·奥德曼,娜塔莉·波特曼', '主演:莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩', '主演:周星驰,巩俐,郑佩佩', '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', '主演:费雯·丽,罗伯特·泰勒,露塞尔·沃特森', '主演:连姆·尼森,拉尔夫·费因斯,本·金斯利', '主演:寺田农,鹫尾真知子,龟山助清']
['上映时间:1993-07-26', '上映时间:1994-09-10(加拿大)', '上映时间:1953-09-02(美国)', '上映时间:1994-09-14(法国)', '上映时间:1998-04-03', '上映时间:1993-07-01(中国香港)', '上映时间:1939-12-15(美国)', '上映时间:1940-05-17(美国)', '上映时间:1993-12-15(美国)', '上映时间:1992-05-01']
['9.5', '9.5', '9.1', '9.5', '9.5', '9.1', '9.1', '9.2', '9.2', '9.0']
完整方法如下:
def bs_parse(self, req_result):
"""
Beautiful Soup解析
:param req_result:
:return:
"""
movie_info_list = []
soup = BeautifulSoup(req_result, 'lxml')
# 排名
movie_index_list = [movie_index.string for movie_index in soup.findAll(class_=re.compile("board-index"))]
print(movie_index_list)
# 电影名称
movie_name_list = [movie_name.attrs['title'] for movie_name in soup.findAll(class_="image-link")]
print(movie_name_list)
# 电影图片
movie_picture_list = [movie_picture.attrs['data-src'] for movie_picture in soup.findAll(class_="board-img")]
print(movie_picture_list)
# 电影主演
movie_star_list = [movie_star.string.strip() for movie_star in soup.findAll(class_="star")]
print(movie_star_list)
# 上映时间
show_time_list = [show_time.string for show_time in soup.findAll(class_="releasetime")]
print(show_time_list)
# 电影评分
movie_integer_list = [movie_grade.string for movie_grade in soup.findAll(class_="integer")]
movie_fraction_list = [movie_grade.string for movie_grade in soup.findAll(class_="fraction")]
movie_grade_list = [movie_integer_list[i] + movie_fraction_list[i] for i in range(len(movie_integer_list))]
print(movie_grade_list)
for i in range(len(movie_index_list)):
movie_info_dict = dict()
movie_info_dict['movie_index'] = movie_index_list[i]
movie_info_dict['movie_name'] = movie_name_list[i]
movie_info_dict['movie_picture'] = movie_picture_list[i]
movie_info_dict['movie_star'] = movie_star_list[i]
movie_info_dict['show_time'] = show_time_list[i]
movie_info_dict['movie_grade'] = movie_grade_list[i]
movie_info_list.append(movie_info_dict)
return movie_info_list
1.结语
这篇主要以一个实例介绍了正则跟bs在采集中的解析方法,主要是一些比较简单的应用,在一些其他的比较复杂的页面中,根据自己的理解,感觉还是Xpath使用起来比较方便,比较清晰。
网友评论