美文网首页
111.爬虫入门----第一课

111.爬虫入门----第一课

作者: 羽天驿 | 来源:发表于2020-02-10 22:23 被阅读0次
1.HHTP与HTTPS的区别:

最主要区别的是:https是一个网络安全的协议

http是不安全的协议

https的默认的端口是443,http的默认的端口的80.

https是建立在安全的套结层的基础上的ssl的基础上,所以是可靠的。

安装https需要证书,分为公钥和私钥。

申请证书需要到专门的机构才能下发,你可以到阿里云去购买。1年大概2000以上,每天都要给钱。


2.系统的性能的排查
网络速度是否正常
ping一下
检查下路由的路径
网络的资源的加载的速度,js,css,视频,声音等.
普通单个的页面的打开需要在2秒之类
首页需要控制在一秒左右。
服务器和服务器之间的通信的速度。
数据库是否有瓶颈


3.在哪里看
network--DOC--点击网址

4.put和post方法的区别
post是新镇的操作
put是修改的操作
同样的表单信息这两种提交方式哪一个会有变化?
post的操作是会有的变化的。

5.请求头
header--模拟人的操作
Cache-Control: no-cache ---取出的数据不会是缓存中的。

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36
(用的是什么浏览器和操作的系统)

6.mpb是什么?
进公司给你配置mbp,苹果笔记本电脑
拿到公司配的苹果电脑后,不要装成windows.那么会鄙视的。

7.Accept-Language: zh-CN,zh;q=0.9,en;q=0.8
表示处理的优先级

8.为什么会有cookie,cookie和session有什么区别?
http本身是没有状态的,用cookie可以在不同的请求之间交换一个状态,比如说用户的id信息,达到识别用户的目的,cookie里面不要放太多的信息。
cookie是保存到客服端的,session是保存在服务器的,比如说Django项目里面的mysql数据库里有一个django_session表,这个表里面有一个session_id字段和value字段。这个session_id的值是同时保存在客户端cookie里面。然后每次的请求的时候,通过发送这个session-id倒服务端,服务端通过查找对应session_id的value找到session里面具体存放的东西。
9.你们的web的服务器对500的错误是如何处理的?
500错误是内部的服务器的错误,我们一般会做一个统一的错误的捕获,和处理的中间的键,然后我门显示给用户的是系统繁忙请稍后再试,千万不能再django的配置里面的debug=true.

10.响应体中response中

11.爬虫的代理
本机的IP被屏蔽后就要使用代理
xicidaili.com
付费代理IP才能使用,免费的一般是不能使用的。
12.urllib库
robots.txt中写了一些规则---
里面写了你可以爬的东西
但是我们爬的时候是不会看的。
用的比较少
python内置的库,但是不是很好用。

13.普通爬虫的开发的步骤:
分为:获取网页,分析网页,存储数据自动化4个步骤。
你用哪个包获取的网页:requests获取的网页
requests.get()返回一个响应的对象。
requests.content返回的是什么?
返回的是二进制的字节流---转换成字符串需要
response.content.decode("utf-8")
14.解析网页三中方法:
re,xpath,css

相关文章

网友评论

      本文标题:111.爬虫入门----第一课

      本文链接:https://www.haomeiwen.com/subject/jlnzxhtx.html