111.爬虫入门----第一课

作者: 羽天驿 | 来源:发表于2020-02-10 22:23 被阅读0次

111.爬虫入门----第一课
互联网金融爬虫怎么写－第四课雪球网股票爬虫（单页面多数据）
3分钟带你了解世界第一语言Python 入门上手也这么简单！
爬虫入门系列（六）：正则表达式完全指南（下）
互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门）
Python爬虫入门
Python爬虫总结和资源
Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序
Python网络爬虫（七）- 深度爬虫CrawlSpider
Python网络爬虫（二）- urllib爬虫案例

1.HHTP与HTTPS的区别：

最主要区别的是：https是一个网络安全的协议

http是不安全的协议

https的默认的端口是443，http的默认的端口的80.

https是建立在安全的套结层的基础上的ssl的基础上，所以是可靠的。

安装https需要证书，分为公钥和私钥。

申请证书需要到专门的机构才能下发，你可以到阿里云去购买。1年大概2000以上，每天都要给钱。

2.系统的性能的排查
网络速度是否正常
ping一下
检查下路由的路径
网络的资源的加载的速度，js,css,视频，声音等.
普通单个的页面的打开需要在2秒之类
首页需要控制在一秒左右。
服务器和服务器之间的通信的速度。
数据库是否有瓶颈

3.在哪里看
network--DOC--点击网址

4.put和post方法的区别
post是新镇的操作
put是修改的操作
同样的表单信息这两种提交方式哪一个会有变化？
post的操作是会有的变化的。

5.请求头
header--模拟人的操作
Cache-Control: no-cache ---取出的数据不会是缓存中的。

User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36
（用的是什么浏览器和操作的系统）

6.mpb是什么？
进公司给你配置mbp，苹果笔记本电脑
拿到公司配的苹果电脑后，不要装成windows.那么会鄙视的。

7.Accept-Language: zh-CN,zh;q=0.9,en;q=0.8
表示处理的优先级

8.为什么会有cookie,cookie和session有什么区别？
http本身是没有状态的，用cookie可以在不同的请求之间交换一个状态，比如说用户的id信息，达到识别用户的目的，cookie里面不要放太多的信息。
cookie是保存到客服端的，session是保存在服务器的，比如说Django项目里面的mysql数据库里有一个django_session表，这个表里面有一个session_id字段和value字段。这个session_id的值是同时保存在客户端cookie里面。然后每次的请求的时候，通过发送这个session-id倒服务端，服务端通过查找对应session_id的value找到session里面具体存放的东西。

9.你们的web的服务器对500的错误是如何处理的？
500错误是内部的服务器的错误，我们一般会做一个统一的错误的捕获，和处理的中间的键，然后我门显示给用户的是系统繁忙请稍后再试，千万不能再django的配置里面的debug=true.

10.响应体中response中

11.爬虫的代理
本机的IP被屏蔽后就要使用代理
xicidaili.com
付费代理IP才能使用，免费的一般是不能使用的。

12.urllib库
robots.txt中写了一些规则---
里面写了你可以爬的东西
但是我们爬的时候是不会看的。
用的比较少
python内置的库，但是不是很好用。

13.普通爬虫的开发的步骤：
分为：获取网页，分析网页，存储数据自动化4个步骤。
你用哪个包获取的网页：requests获取的网页
requests.get()返回一个响应的对象。
requests.content返回的是什么？
返回的是二进制的字节流---转换成字符串需要
response.content.decode("utf-8")

14.解析网页三中方法：
re,xpath,css

网友评论

本文标题：111.爬虫入门----第一课

本文链接：https://www.haomeiwen.com/subject/jlnzxhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

111.爬虫入门----第一课

相关文章

111.爬虫入门----第一课

互联网金融爬虫怎么写－第四课雪球网股票爬虫（单页面多数据）

3分钟带你了解世界第一语言Python 入门上手也这么简单！

爬虫入门系列（六）：正则表达式完全指南（下）

互联网金融爬虫怎么写－第二课雪球网股票爬虫（正则表达式入门）

Python爬虫入门

Python爬虫总结和资源

Python网络爬虫（八） - 利用有道词典实现一个简单翻译程序

Python网络爬虫（七）- 深度爬虫CrawlSpider

Python网络爬虫（二）- urllib爬虫案例

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读