Python学习笔记(12) 采集网页html源码

作者: 2890bd62c72a | 来源:发表于2019-08-17 15:29 被阅读2次

    一、操作步骤

    对于学习网页设计的人来说,有时候遇到了自己很喜欢的网页,却得不到它的html代码,或者得到的代码不完整。下面用网易新闻采集作为案例,教大家采集html源码,具体操作步骤如下:

    二、案例规则+操作步骤

    如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验!自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

    第一步:打开网页

    1.1,打开网络爬虫,输入想要采集的样本网址并ENTER,加载出网页后再点击“定义规则”;

    1.2,在工作台中输入主题名,并点击“查重”看主题名是否被占用。

    第二步:标注信息

    2.1,双击要抓取的目标信息,输入整理箱名和标签名,并勾上关键内容。

    2.2,双击字段名,给抓取内容设置高级选项,勾选“高级设置”,选择“网页片段”,保存。

    第三步:存规则,抓数据

    3.1,规则测试成功后,点击“存规则”;

    3.2,点击“爬数据”,弹出DS打数机,开始抓数据。

    Tips:想要网页的整个html源码,可以直接对html节点做映射,然后高级设置里选择网页片段,最后保存规则。操作如下图:

    相关文章

      网友评论

        本文标题:Python学习笔记(12) 采集网页html源码

        本文链接:https://www.haomeiwen.com/subject/nddrjctx.html