美文网首页
(一)、爬虫基本原理

(一)、爬虫基本原理

作者: 机器视觉CV_有三言选 | 来源:发表于2018-08-01 22:31 被阅读0次

    1.什么是爬虫

    请求网站并提取数据的自动化程序

    2.爬虫的基本流程

    3.Resquest & Response

    3.1Request

    3.1.1GET请求

    get请求中,提交的信息包含在网址中,无请求体

    3.1.2POST请求

    以表单的形式提交信息,相关信息不会在网址中体现出来,有请求体(form data)

    3.2Response

    4.能抓取什么样的数据

    5.解析方式

    5.1直接处理:简单处理一下格式等

    5.2Json解析:解析Ajax的请求

    。。。

    6.抓取的数据和浏览器(审查元素)显示的不同?

    网页经过了JavaScript渲染

    7.如何解决JS渲染的问题

    7.1分析Ajax请求:返回的是Json格式

    7.2selenium/WebDriver:模拟浏览器(自动化测试)

    。。。

    8如何保存数据

    8.1文本

    8.2关系型数据库:有固定的格式

    8.3非关系型数据库:无固定的格式

    相关文章

      网友评论

          本文标题:(一)、爬虫基本原理

          本文链接:https://www.haomeiwen.com/subject/zwfdvftx.html