一、爬虫
若互联网是一张大的蜘蛛网,数据就存放在蜘蛛网的各个节点,那么爬虫就是一只小蜘蛛,
沿着网络(蜘蛛网)抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序。
二、爬虫的基本流程
获取网络数据的方式有两种:
浏览器提交请求(你在浏览器输入框输入数据然后查找的过程)--->下载网页代码--->解析成页面
模拟浏览器发送请求(获取网页代码)->提取对我们有用的数据->存放在数据库或者文件中
爬虫要做的就是第二种方式
1、发起请求
利用http库向目标网站发起请求,就是发送一个Request请求,Request模块包含:请求头、请求体等 ,有不能执行JS 和CSS 代码等缺点。小编推荐一个学python的学习裙,【六九九+七四九+八五二】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!
2、获取响应内容
当服务器正常响应,就会得到一个Response(返回),Response包括:html,图片,json,视频等
3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库pyquery,Beautifulsoup等
解析json数据:json模块
解析二进制数据:用wb的方式写入文件
4、保存数据
数据库(MySQL,Redis,Mongdb)
文件
import re
import urllib
import urllib.request
from collections import deque
三、http协议 请求与响应
Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)
四、 request
1、请求方式:
常见的请求方式:GET / POST
网页的加载过程:
3、请求头
一般做爬虫都会加请求头
请求头需要注意的参数:
4、请求体
五、 响应Response
1、响应状态码
2、respone header
响应头需要注意的参数:
3、preview就是网页源代码
六、总结
Python爬虫流程:
爬取--->解析--->存储
那么怎样的案例最好证明是否入门呢?请看下面示例!小编推荐一个学python的学习裙,【六九九+七四九+八五二】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有开发工具,很多干货和技术资料分享!
这个Python爬虫案例非常简单,也非常有证明力,你没学肯定看不懂,然而你只不过是个偶尔看了两个教程,那么你也未必看得懂。
网友评论