美文网首页
Python实战课程1.3:爬取“猫途鹰”网页信息

Python实战课程1.3:爬取“猫途鹰”网页信息

作者: 魏魏魏_1500 | 来源:发表于2017-03-12 00:07 被阅读0次

    (一)爬取一页信息

    【1】任务一:将“猫途鹰”的信息爬下来。[此处,我选取 图片、标题、标签、价钱 作为爬取对象]爬取网页:http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html

    图1 图2

    重点难点:1.只获取图片为单张的信息,如图2,“城市游览(182)”该信息不获取。

    2.图片的CSS Select为“lazyload_1601710424_3”,即照片不在打开网页时立即加载,而是利用JavaScript延迟加载。此时如何获取照片信息。

    【2】结果展示

    【3】我的代码


    11.图片的抓取.....

    images = soup.select('img[width="160"]')  #抓取的图片地址相同

    images = soup.find_all("img","photo_image") #能抓取到图片地址,但不是想要的图片。

    相关文章

      网友评论

          本文标题:Python实战课程1.3:爬取“猫途鹰”网页信息

          本文链接:https://www.haomeiwen.com/subject/hwozgttx.html