Python学习笔记(16) 采集指定网页区域内的图片

作者: 2890bd62c72a | 来源:发表于2019-08-24 19:15 被阅读3次

    本文讲解如何便捷的把网页上某块区域的图片或者视频都抓取下来,保存在本地。我们以图片抓取为例,来讲解操作过程。视频抓取的操作是一样的。

    第一步,下载安装爬虫软件

    第二步,运行爬虫浏览器

    第三步,把待采集网页的链接输入到浏览器的输入框,回车。把网页加载出来,点击网址输入栏右侧的定义规则按钮,进入定义规则模式。

    屏幕显示分成上下部分,上面是网页浏览窗口,下面是网页对应的DOM节点窗口。还有一个浮动的工作台。

    如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验!自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

    在工作台上给规则命名,如图所示。规则名要查重,不要和别人的规则重名。然后点击工作台上的创建规则,开始做规则,首先新建一个整理箱,整理箱的名字可以随便起。但是最好有意义。本例中规则名是:图片采集教程。整理箱的名字是卫衣图片。

    网页上的价格,商品名称等等都可以抓取,可以看采集网页数据这篇文章。本文只讲怎样抓取区域内的图片。

    1. 内容映射

    下图是在京东搜索“卫衣男”后,得到的一个列表页,我们要抓整个列表区域内所有的图片。在这个区域内任意点击一个图或者文字,会对应到下面的一个DOM节点,沿着这个DOM节点往上找,直至整个卫衣列表区域变黄,然后右击当前DOM节点,新建一个抓取内容,比如“图片”。“图片”显示在工作台上。在工作台上选中“图片”,点击高级设置,选中网页片段,下载图片。

    2. 保存规则。点击存规则按钮

    3. 爬数据,点击爬数据按钮

    4. 查看图片,一般在计算机本地的DataScraperWorks目录下的PageImgDir目录。

    注意,要爬一块区域的所有图片,一般需要滚屏,要在打数机把滚屏打开。

    相关文章

      网友评论

        本文标题:Python学习笔记(16) 采集指定网页区域内的图片

        本文链接:https://www.haomeiwen.com/subject/apjrjctx.html