Python学习笔记(1)网络爬虫的核心名词

作者: 2890bd62c72a | 来源:发表于2019-08-13 21:20 被阅读6次

    络爬虫的操作方法很直观,想要什么,就把他们标记出来,网络爬虫就会自动把他们存下来。标记过程很自由,不讲究顺序。

    一、直观标注

    在网页上,看到想采集的内容,点击两次,就弹出一个标签,给标签起个名字。把所有要采集的内容逐个这样标注。不分先后顺序。

    二、整理箱

    采集到的内容要存到一个表格里面,这个表格就叫整理箱,表示:“把网页上的内容整理好,存在一个箱子中”。这个整理箱显示在右边的一个浮动工作台上。

    三、映射

    “映射”这个词经常出现,表示:“把网页上的内容与整理箱中的标签建立联系”。标注过程就是建立映射关系,有了这个关系,网络爬虫就知道从哪里采集数据并存储到哪里。

    如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验!自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

    相关文章

      网友评论

        本文标题:Python学习笔记(1)网络爬虫的核心名词

        本文链接:https://www.haomeiwen.com/subject/vpihjctx.html