美文网首页
2021-11-4 爬虫基本原理

2021-11-4 爬虫基本原理

作者: 阿丧小威 | 来源:发表于2021-11-04 22:38 被阅读0次

    1. 爬虫是什么

    爬虫

    什么是上网?爬虫要做的是什么?

    我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。
    只不过,用户获取网络数据的方式是:
    浏览器提交请求->下载网页代码->解析/渲染成页面。
    而爬虫程序要做的就是:
    模拟浏览器发送请求(requests,selenium)->下载网页代码->只提取有用的数据(bs4,xpath,re)->存放于数据库或文件中(文件,excel,mysql,redis,mongodb)
    两者的区别在于:
    我们的爬虫程序只提取网页代码中对我们有用的数据。

    总结

    爬虫的比喻:
    如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据。
    爬虫的定义:
    向网站发起请求,获取资源后分析并提取有用数据的程序 。
    爬虫的价值:
    互联网中最有价值的便是数据,比如天猫商城的商品信息,贝壳网的租房信息,雪球网的证券投资信息等等,这些数据都代表了各个行业的真金白银,可以说,谁掌握了行业内的第一手数据,谁就成了整个行业的主宰,如果把整个互联网的数据比喻为一座宝藏,那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏,掌握了爬虫技能,你就成了所有互联网信息公司幕后的老板,换言之,它们都在免费为你提供有价值的数据。

    2. 爬虫的基本流程

    爬虫基本流程

    1、发起请求
    使用http库向目标站点发起请求,即发送一个Request
    Request包含:请求头(难)、请求体(难)、请求方法
    2、获取响应内容
    如果服务器能正常响应,则会得到一个Response
    Response包含:html格式(bs4,xpath),json格式,xml格式,图片,视频,加密的未知格式(需要解密)等
    3、解析内容
    解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等
    解析json数据:json模块
    解析二进制数据:以b的方式写入文件
    4、保存数据
    数据库(MongoDB(json格式数据))
    文件

    3. 请求与响应

    请求与响应

    Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)
    Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)
    浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。

    4. Request

    1、请求方式:

    常用的请求方式:GET,POST
    其他请求方式:HEAD,PUT,DELETE,OPTHONS

    ps:用浏览器演示get与post的区别,(用登录演示post)

    post与get请求最终都会拼接成这种形式:k1=xxx&k2=yyy&k3=zzz
    post请求的参数放在请求体内:
    可用浏览器查看,存放于form data内
    get请求的参数直接放在url后

    2、请求url

    url全称统一资源定位符,如一个网页文档,一张图片
    一个视频等都可以用url唯一来确定
    url编码
    https://www.baidu.com/s?wd=图片
    图片会被编码

    网页的加载过程是:
    加载一个网页,通常都是先加载document文档,
    在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求

    3、请求头

    User-agent:请求头中如果没有user-agent客户端配置,
    服务端可能将你当做一个非法用户
    host
    cookies:cookie用来保存登录信息
    一般做爬虫都会加上请求头
    ps:
    1、登录窗口,文件上传等,信息都会被附加到请求体内
    2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post

    5. Response

    1、响应状态

    200:代表成功
    301:代表跳转
    404:文件不存在
    403:权限
    502:服务器错误

    2、Respone header

    set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来

    3、preview就是网页源代码

    最主要的部分,包含了请求资源的内容
    如网页html,图片
    二进制数据等

    6. 总结

    1、总结爬虫流程:

    爬取--->解析--->存储

    2、爬虫所需工具:

    请求库:requests,selenium
    解析库:正则,beautifulsoup,pyquery
    存储库:文件,MySQL,Mongodb,Redis

    3、爬虫常用框架:

    scrapy

    相关文章

      网友评论

          本文标题:2021-11-4 爬虫基本原理

          本文链接:https://www.haomeiwen.com/subject/opnmaltx.html