爬虫的概念

作者: darren573 | 来源:发表于2019-04-08 14:14 被阅读0次

爬虫是模拟浏览器发送请求，获取响应

爬虫的流程

url--->发送请求，获取响应--->提取数据---》保存数据
发送请求，获取响应--->提取url

import json
t = json.loads("
{
"a":"b"
"c"："d"
}
")

爬虫的分类

通用爬虫：通常指搜索引擎的爬虫抓取网页-->数据存储-->预处理-->提供检索服务，网站排名
聚焦爬虫：针对特定网站的爬虫 url list (提取url)<==>响应内容-->提取数据-->入库

爬虫的定义

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端发送网络请求，接收请求响应，一种按照一定规则，自动的抓取互联网信息的程序。
只要是浏览器能做的事情，原则上，爬虫都能做。

页面上的数据在哪里

当前url地址对应的响应中
其他url地址对应的响应中
- 比如ajax请求中
js生成的
- 部分数据在响应中
- 全部通过js生成

浏览器渲染出来的页面和爬虫请求的页面并不一样

浏览器渲染的界面包括js执行之后的内容
爬虫只爬取当前url不会执行js

cookie和session的区别

cookie数据存放在客户的浏览器上，session数据放在服务器上
cookie不是很安全别人可以分析存放在本地的cookie并进行cookie欺骗
session会在一定时间内保存在服务器上。当访问量增多会比较占用服务器性能
单个cookie保存的数据不能超过4k，很多浏览器都限制一个站点最多保存20个 cookies

带上cookie和session的好处：

能够请求到登录之后的页面

带上cookie和session的弊端：

一套cookie和session往往和一个用户对应，请求太多，速度太快，容易被服务器识别为爬虫
不需要cookie时尽量不去使用cookie

携带cookie进行请求

携带一堆cookie进行请求，把cookie组成一个cookie池

使用requests提供的session类请求登录之后的网站的思路

实例化session
先使用session发送请求，登录对应的网站，把cookie保存在session中
再使用session请求登陆之后才能访问的网站，session能够自动的携带登录成功时保存在其中得到cookie，进行请求

不发送post请求，使用cookie获取登陆后的页面

cookie过期时间很长的网站
在cookie过期之前能够拿到所有数据，比较麻烦
配合其它程序一起使用，其它程序专门获取cookie，当前程序专门请求页面

cookies = "anonymid=ju2av7yn-tj0r69; depovince=HEN; _r01_=1; JSESSIONID=abc9RRe7SPemr5NWMlNNw; ick_login=88d0d7f4-5931-4d4d-9016-d5e0d6832b43; ick=7d1717f9-3582-4e70-8bed-fb08d2324226; wp=1; __utma=151146938.1507190917.1554362728.1554362728.1554362728.1; __utmc=151146938; __utmz=151146938.1554362728.1.1.utmcsr=renren.com|utmccn=(referral)|utmcmd=referral|utmcct=/SysHome.do; __utmt=1; __utmb=151146938.4.10.1554362728; jebecookies=dc0dddf5-3283-40d2-b664-ec9c3793cbca|||||; _de=B11F3A2DE590F822085556B50229AEB1; p=7e517bf054769ca03115dcd7ccdfa41a8; first_login_flag=1; ln_uact=13938386255; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; t=16ff33a1a5a7c1bac2f4c6754fb67ad38; societyguester=16ff33a1a5a7c1bac2f4c6754fb67ad38; id=473434718; xnsid=18c19be0; ver=7.0; loginfrom=null; jebe_key=6398ad07-4403-4ad1-a07c-691b0c18802f%7C9346b2c79ab2747ee8946889d9693ed5%7C1554362820548%7C1%7C1554362823025; wp_fold=0"
cookies = {i.split("=")[0]: i.split("=")[1] for i in cookies.split(":")}

字典推导式

获取登录页面的三种方式

实例化session，使用session发送post请求，再使用它获取登陆后的界面
headers中添加cookie键，值为cookie字符串
在请求方法中添加cookies参数，接收字典形式的cookie，键为cookie的name，值是cookie的value对应的值

requests中解决编码的方法

response.content.decode()
response.content.decode("gbk")
response.text

查看当前网页编码格式

response.encoding

设置当前返回网页的编码格式

response.encoding("utf-8")

网友评论

本文标题：爬虫的概念

本文链接：https://www.haomeiwen.com/subject/rwwwbqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

爬虫的概念

爬虫的流程

爬虫的分类

爬虫的定义

页面上的数据在哪里

浏览器渲染出来的页面和爬虫请求的页面并不一样

cookie和session的区别

带上cookie和session的好处：

带上cookie和session的弊端：

携带cookie进行请求

使用requests提供的session类请求登录之后的网站的思路

不发送post请求，使用cookie获取登陆后的页面

获取登录页面的三种方式

requests中解决编码的方法

查看当前网页编码格式

设置当前返回网页的编码格式

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

爬虫的概念

爬虫的流程

爬虫的分类

爬虫的定义

页面上的数据在哪里

浏览器渲染出来的页面和爬虫请求的页面并不一样

cookie和session的区别

带上cookie和session的好处：

带上cookie和session的弊端：

携带cookie进行请求

使用requests提供的session类请求登录之后的网站的思路

不发送post请求 ，使用cookie获取登陆后的页面

获取登录页面的三种方式

requests中解决编码的方法

查看当前网页编码格式

设置当前返回网页的编码格式

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

不发送post请求，使用cookie获取登陆后的页面