美文网首页
L7:爬虫基本原理讲解

L7:爬虫基本原理讲解

作者: 水果皮儿 | 来源:发表于2018-11-26 11:12 被阅读0次

什么是爬虫

请求网站 并 提取数据 的 自动化程序

爬虫的基本流程

  1. 发起请求(Request)
  2. 响应(Response)
  3. 解析
  4. 保存数据

Request

  1. 请求方式:get、post
  2. 请求url
  3. 请求头
  4. 请求题(post用)

Response

  1. 响应状态
  2. 响应头
  3. 响应体

解析方式

  1. 直接解析
  2. Json解析
  3. 正则
  4. BeautifulSoup、PyQuery、Xpath等

爬虫可以抓什么数据

  1. 网页文本
  2. 图片
  3. 视频
  4. 其它

Js渲染问题

  1. 分析Ajax请求
  2. Selenuim/WebDriver
  3. Splash
  4. PyV8、Ghost.py

保存数据

  1. 文本
  2. 关系型数据库
  3. 非关系型数据库
  4. 二进制文件

相关文章

网友评论

      本文标题:L7:爬虫基本原理讲解

      本文链接:https://www.haomeiwen.com/subject/jagvqqtx.html