美文网首页
(一)关于爬虫的初步了解(爬虫三步骤)

(一)关于爬虫的初步了解(爬虫三步骤)

作者: 向左向右向前看_4565 | 来源:发表于2018-12-05 23:47 被阅读0次

        网页可分为三大部分——HTML(网页源代码)、CSS(样式)和JavaScript(交互、动画效果)。


        爬虫就是获取网页并提取和保存信息的自动化程序,主要可分为以下三个步骤:

        (1)获取网页源代码(向网站服务器发送一个请求,返回的响应体便是网页源代码)。用来请求源代码可使用的库:urllib、requests等;

        (2)提取信息(分析网页源代码,提取信息)。用来提取信息的方式有:正则表达式、BeautifulSoup等;

        (3)保存数据。用来保存数据的库有MySQL、MongoDB等。


Attention,Please!

        JavaScript渲染界面:现在网页越来越多采用Ajax、前端模块化工具来构建,整个网页可能都是由JavaScript渲染出来的,也就是说原始的HTML代码就是一个空壳;

        在网页查看页面源代码时,Elements选项卡中的源代码可能经过JavaScript操作而与原始请求不同,需要从Network选项卡部分查看原始请求得到的源码。

相关文章

网友评论

      本文标题:(一)关于爬虫的初步了解(爬虫三步骤)

      本文链接:https://www.haomeiwen.com/subject/mmmgcqtx.html