（一）关于爬虫的初步了解（爬虫三步骤）

作者: 向左向右向前看_4565 | 来源:发表于2018-12-05 23:47 被阅读0次

网页可分为三大部分——HTML（网页源代码）、CSS（样式）和JavaScript（交互、动画效果）。

爬虫就是获取网页并提取和保存信息的自动化程序，主要可分为以下三个步骤：

（1）获取网页源代码（向网站服务器发送一个请求，返回的响应体便是网页源代码）。用来请求源代码可使用的库：urllib、requests等；

（2）提取信息（分析网页源代码，提取信息）。用来提取信息的方式有：正则表达式、BeautifulSoup等；

（3）保存数据。用来保存数据的库有MySQL、MongoDB等。

Attention，Please！

JavaScript渲染界面：现在网页越来越多采用Ajax、前端模块化工具来构建，整个网页可能都是由JavaScript渲染出来的，也就是说原始的HTML代码就是一个空壳；

在网页查看页面源代码时，Elements选项卡中的源代码可能经过JavaScript操作而与原始请求不同，需要从Network选项卡部分查看原始请求得到的源码。

网友评论

本文标题：（一）关于爬虫的初步了解（爬虫三步骤）

本文链接：https://www.haomeiwen.com/subject/mmmgcqtx.html

（一）关于爬虫的初步了解（爬虫三步骤）