美文网首页我爱编程
初识网络爬虫

初识网络爬虫

作者: python_菜鸟 | 来源:发表于2018-06-20 22:08 被阅读0次

网络爬虫

        网络爬虫是指在互联网上自动爬取网站内容信息的程序,也称作网络蜘蛛或网络机器人。

爬虫基本流程

一个网络爬虫程序的基本执行流程可以总结为一下循环:

基础流程图

1.下载页面

        一个网页的内容本质上就是一个HTML文本,爬取一个网页内容之前首先要根据网页的URL下载网页。

2.提取页面的数据

        当一个网页(HTML)下载完成后,对页面中的内容进行分析,并提取出我们感兴趣的数据,提取到的数据可以以多种形式保存起来,比如将数据以某种格式(CSV,JSON)写入文件中,后者存储到数据库(MySQL,MongoDB)中。

3.提取页面中链接

        我们获取的数据不仅仅在一个页面上,而分布在多个页面上,页面之间是相互联系的,一个页面中包含多分页面的链接,提取完当前页面数据后,我们还要提取某些链接对链接的页面再进行爬取。

        设计爬虫程序时,还要考虑防止重复爬取相同页面(URL去重)、网页搜索策略(深度优先或者广度优先等)、爬虫访问边界限定等一系列问题。

相关文章

  • 初识网络爬虫

    网络爬虫 网络爬虫是指在互联网上自动爬取网站内容信息的程序,也称作网络蜘蛛或网络机器人。 爬虫基本流程 一个网络爬...

  • 网络爬虫初识

    爬虫就是从网页中爬取数据的,这些数据可以是网页代码、图片、视频、音频等等,只要是浏览器网页中可以呈现的,都可以通过...

  • 【爬虫教程】吐血整理,最详细的爬虫入门教程~

    初识爬虫 学习爬虫之前,我们首先得了解什么是爬虫。来自于百度百科的解释: 网络爬虫(又称为网页蜘蛛,网络机器人,在...

  • 初识爬虫(1)

    初识爬虫 学习爬虫之前,我们首先得了解什么是爬虫。来自于百度百科的解释: 网络爬虫(又称为网页蜘蛛,网络机器人,在...

  • 网络爬虫入门(一)之初识爬虫

    一、什么是爬虫,爬虫能做什么 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫...

  • 网络爬虫初识以及工

    网络爬虫是什么? 简单来说,网络爬虫就是自动从互联网中定向或不定向地采集信息的一种程序。 网络爬虫的类型有:通用网...

  • 【python】爬虫基础:爬虫用途、爬虫基本原理以及HTTP 基

    初识爬虫 【? 简介】:网络爬虫,是一种按照一定的规则,自动地抓取万维网信息(数据)的程序或者脚本。 --...

  • 1-基本概念

    简介 为什么选择Python做爬虫 需要技能 爬虫与反爬虫 网络爬虫类型 通用网络爬虫 聚焦网络爬虫 增量式网络爬...

  • 2018-01-11 Python网络爬虫与信息提取 网络爬虫

    1、网络爬虫 1.1 网络爬虫的尺寸网络爬虫的尺寸 1.2 网络爬虫的“骚扰”网络爬虫速度快(但是服务器是按照人数...

  • [Python网络爬虫]第1章 网络爬虫入门

    要点 介绍网络爬虫的基础部分学习网络爬虫的原因网络爬虫带来的价值网络爬虫是否合法网络爬虫的基本议题和框架 1.1 ...

网友评论

    本文标题:初识网络爬虫

    本文链接:https://www.haomeiwen.com/subject/twnxyftx.html