通过编写一个简单的爬虫程序,进一步熟悉 lxml 解析库的使用。使用 lxml 库抓取猫眼电影 Top100 榜:
下面直接上代码:
import requests
from lxml import etree
import random
class MaoyanSpider(object):
def __init__(self):
self.url='https://maoyan.com/board/4?offset=50'
self.headers={'User-Agent': 'Mozilla/4.0'}
def save_html(self):
html=requests.get(url=self.url,headers=self.headers).text
#jiexi
parse_html=etree.HTML(html)
# 基准 xpath 表达式,匹配10个<dd>节点对象
dd_list=parse_html.xpath('//dl[@class="board-wrapper"]/dd') #列表放10个dd
print(dd_list)
# .// 表示dd节点的所有子节点后代节点
# 构建item空字典将提取的数据放入其中
item={}
for dd in dd_list:
# 处理字典数据,注意xpath表达式匹配结果是一个列表,因此需要索引[0]提取数据
item['name']=dd.xpath('.//p[@class="name"]/a/text()')[0].strip()
item['star']=dd.xpath('.//p[@class="star"]/text()')[0].strip()
item['time']=dd.xpath('.//p[@class="releasetime"]/text()')[0].strip()
#输出数据
print(item)
def run(self):
self.save_html()
if __name__ == '__main__':
spider=MaoyanSpider()
spider.run()
执行结果如下:
[<Element dd at 0x1fe94967980>, <Element dd at 0x1feffa14dc0>, <Element dd at 0x1feffb5e800>, <Element dd at 0x1fefffdc140>, <Element dd at 0x1fe94969a80>, <Element dd at 0x1fe949cec00>, <Element dd at 0x1fe949ceb40>, <Element dd at 0x1fe949cef40>, <Element dd at 0x1fe949cee40>, <Element dd at 0x1fe949cef80>]
{'name': '海边的曼彻斯特', 'star': '主演:卡西·阿弗莱克,卢卡斯·赫奇斯,米歇尔·威廉姆斯', 'time': '上映时间:2017-08-25'}
{'name': '布达佩斯大饭店', 'star': '主演:拉尔夫·费因斯,托尼·雷沃罗利,西尔莎·罗南', 'time': '上映时间:2014-02-06(德国)'}
{'name': '阿凡达', 'star': '主演:萨姆·沃辛顿,佐伊·索尔达娜,米歇尔·罗德里格兹', 'time': '上映时间:2010-01-04'}
{'name': '美国往事', 'star': '主演:罗伯特·德尼罗,詹姆斯·伍兹,伊丽莎白·麦戈文', 'time': '上映时间:2015-04-23'}
{'name': '复仇者联盟4:终局之战', 'star': '主演:小罗伯特·唐尼,克里斯·埃文斯,马克·鲁法洛', 'time': '上映时间:2019-04-24'}
{'name': '搏击俱乐部', 'star': '主演:爱德华·哈里森·诺顿,布拉德·皮特,海伦娜·伯翰·卡特', 'time': '上映时间:1999-09-10(意大利)'}
{'name': '美丽心灵', 'star': '主演:罗素·克劳,詹妮弗·康纳利,艾德·哈里斯', 'time': '上映时间:2001-12-13(美国)'}
{'name': '消失的爱人', 'star': '主演:本·阿弗莱克,裴淳华,尼尔·帕特里克·哈里斯', 'time': '上映时间:2014-09-26(美国)'}
{'name': '乱世佳人', 'star': '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', 'time': '上映时间:1939-12-15(美国)'}
{'name': '窃听风暴', 'star': '主演:乌尔里希·穆埃,塞巴斯蒂安·科赫,马蒂娜·格德克', 'time': '上映时间:2006-03-23(德国)'}
________________END______________
网友评论