美文网首页日更成长营自学编程Pythongo_kegg
自学Python爬虫:Python lxml解析库实战

自学Python爬虫:Python lxml解析库实战

作者: 小强聊成长 | 来源:发表于2023-03-04 12:33 被阅读0次

    通过编写一个简单的爬虫程序,进一步熟悉 lxml 解析库的使用。使用 lxml 库抓取猫眼电影 Top100 榜:
    下面直接上代码:

    import requests
    from lxml import etree
    import random
    class MaoyanSpider(object):
        def __init__(self):
            self.url='https://maoyan.com/board/4?offset=50'
            self.headers={'User-Agent': 'Mozilla/4.0'}
        def save_html(self):
            html=requests.get(url=self.url,headers=self.headers).text
            #jiexi
            parse_html=etree.HTML(html)
            # 基准 xpath 表达式,匹配10个<dd>节点对象
            dd_list=parse_html.xpath('//dl[@class="board-wrapper"]/dd') #列表放10个dd
            print(dd_list)
            # .// 表示dd节点的所有子节点后代节点
            # 构建item空字典将提取的数据放入其中
            item={}
            for dd in dd_list:
                # 处理字典数据,注意xpath表达式匹配结果是一个列表,因此需要索引[0]提取数据
                item['name']=dd.xpath('.//p[@class="name"]/a/text()')[0].strip()
                item['star']=dd.xpath('.//p[@class="star"]/text()')[0].strip()
                item['time']=dd.xpath('.//p[@class="releasetime"]/text()')[0].strip()
                #输出数据
                print(item)
        def run(self):
            self.save_html()
    if __name__ == '__main__':
        spider=MaoyanSpider()
        spider.run()
    
    

    执行结果如下:
    [<Element dd at 0x1fe94967980>, <Element dd at 0x1feffa14dc0>, <Element dd at 0x1feffb5e800>, <Element dd at 0x1fefffdc140>, <Element dd at 0x1fe94969a80>, <Element dd at 0x1fe949cec00>, <Element dd at 0x1fe949ceb40>, <Element dd at 0x1fe949cef40>, <Element dd at 0x1fe949cee40>, <Element dd at 0x1fe949cef80>]
    {'name': '海边的曼彻斯特', 'star': '主演:卡西·阿弗莱克,卢卡斯·赫奇斯,米歇尔·威廉姆斯', 'time': '上映时间:2017-08-25'}
    {'name': '布达佩斯大饭店', 'star': '主演:拉尔夫·费因斯,托尼·雷沃罗利,西尔莎·罗南', 'time': '上映时间:2014-02-06(德国)'}
    {'name': '阿凡达', 'star': '主演:萨姆·沃辛顿,佐伊·索尔达娜,米歇尔·罗德里格兹', 'time': '上映时间:2010-01-04'}
    {'name': '美国往事', 'star': '主演:罗伯特·德尼罗,詹姆斯·伍兹,伊丽莎白·麦戈文', 'time': '上映时间:2015-04-23'}
    {'name': '复仇者联盟4:终局之战', 'star': '主演:小罗伯特·唐尼,克里斯·埃文斯,马克·鲁法洛', 'time': '上映时间:2019-04-24'}
    {'name': '搏击俱乐部', 'star': '主演:爱德华·哈里森·诺顿,布拉德·皮特,海伦娜·伯翰·卡特', 'time': '上映时间:1999-09-10(意大利)'}
    {'name': '美丽心灵', 'star': '主演:罗素·克劳,詹妮弗·康纳利,艾德·哈里斯', 'time': '上映时间:2001-12-13(美国)'}
    {'name': '消失的爱人', 'star': '主演:本·阿弗莱克,裴淳华,尼尔·帕特里克·哈里斯', 'time': '上映时间:2014-09-26(美国)'}
    {'name': '乱世佳人', 'star': '主演:费雯·丽,克拉克·盖博,奥利维娅·德哈维兰', 'time': '上映时间:1939-12-15(美国)'}
    {'name': '窃听风暴', 'star': '主演:乌尔里希·穆埃,塞巴斯蒂安·科赫,马蒂娜·格德克', 'time': '上映时间:2006-03-23(德国)'}

    ________________END______________

    相关文章

      网友评论

        本文标题:自学Python爬虫:Python lxml解析库实战

        本文链接:https://www.haomeiwen.com/subject/twyzcdtx.html