美文网首页
111.爬虫入门----第一课

111.爬虫入门----第一课

作者: 羽天驿 | 来源:发表于2020-02-10 22:23 被阅读0次
    1.HHTP与HTTPS的区别:
    
    最主要区别的是:https是一个网络安全的协议
    
    http是不安全的协议
    
    https的默认的端口是443,http的默认的端口的80.
    
    https是建立在安全的套结层的基础上的ssl的基础上,所以是可靠的。
    
    安装https需要证书,分为公钥和私钥。
    
    申请证书需要到专门的机构才能下发,你可以到阿里云去购买。1年大概2000以上,每天都要给钱。
    
    

    2.系统的性能的排查
    网络速度是否正常
    ping一下
    检查下路由的路径
    网络的资源的加载的速度,js,css,视频,声音等.
    普通单个的页面的打开需要在2秒之类
    首页需要控制在一秒左右。
    服务器和服务器之间的通信的速度。
    数据库是否有瓶颈
    
    
    
    3.在哪里看
    network--DOC--点击网址
    
    
    4.put和post方法的区别
    post是新镇的操作
    put是修改的操作
    同样的表单信息这两种提交方式哪一个会有变化?
    post的操作是会有的变化的。
    
    
    5.请求头
    header--模拟人的操作
    Cache-Control: no-cache ---取出的数据不会是缓存中的。
    
    User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36
    (用的是什么浏览器和操作的系统)
    
    
    6.mpb是什么?
    进公司给你配置mbp,苹果笔记本电脑
    拿到公司配的苹果电脑后,不要装成windows.那么会鄙视的。
    
    
    7.Accept-Language: zh-CN,zh;q=0.9,en;q=0.8
    表示处理的优先级
    
    
    8.为什么会有cookie,cookie和session有什么区别?
    http本身是没有状态的,用cookie可以在不同的请求之间交换一个状态,比如说用户的id信息,达到识别用户的目的,cookie里面不要放太多的信息。
    cookie是保存到客服端的,session是保存在服务器的,比如说Django项目里面的mysql数据库里有一个django_session表,这个表里面有一个session_id字段和value字段。这个session_id的值是同时保存在客户端cookie里面。然后每次的请求的时候,通过发送这个session-id倒服务端,服务端通过查找对应session_id的value找到session里面具体存放的东西。
    
    9.你们的web的服务器对500的错误是如何处理的?
    500错误是内部的服务器的错误,我们一般会做一个统一的错误的捕获,和处理的中间的键,然后我门显示给用户的是系统繁忙请稍后再试,千万不能再django的配置里面的debug=true.
    
    
    10.响应体中response中
    
    
    11.爬虫的代理
    本机的IP被屏蔽后就要使用代理
    xicidaili.com
    付费代理IP才能使用,免费的一般是不能使用的。
    
    12.urllib库
    robots.txt中写了一些规则---
    里面写了你可以爬的东西
    但是我们爬的时候是不会看的。
    用的比较少
    python内置的库,但是不是很好用。
    
    
    13.普通爬虫的开发的步骤:
    分为:获取网页,分析网页,存储数据自动化4个步骤。
    你用哪个包获取的网页:requests获取的网页
    requests.get()返回一个响应的对象。
    requests.content返回的是什么?
    返回的是二进制的字节流---转换成字符串需要
    response.content.decode("utf-8")
    
    14.解析网页三中方法:
    re,xpath,css
    
    

    相关文章

      网友评论

          本文标题:111.爬虫入门----第一课

          本文链接:https://www.haomeiwen.com/subject/jlnzxhtx.html