python爬虫突破封锁的基本操作

作者: 9ba4bd5525b9 | 来源:发表于2019-07-24 15:36 被阅读0次

python爬虫突破封锁的基本操作
Python爬虫-PySpider基本操作
干货 | Python爬虫学习路线，小白都能学会！
python学习笔记（二）——requests模块
pip install beautifusoup4安装失败的解决
爬虫的基本操作
Python爬虫入门，5分钟了解思路，这是我见过最简单的基础教学
python3爬虫--入门篇0--导读
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫王者荣耀高清皮肤大图背景故事通用爬虫

相关概念

　　request概念：是从客户端向服务器发出请求，包括用户提交的信息及客户端的一些信息。客户端可通过HTML表单或在网页地址后面提供参数的方法提交数据。让后通过request对象的相关方法来获取这些数据。request的各种方法主要用来处理客户端浏览器提交的请求中的各项参数和选项。而python爬虫中的request其实就是通过python向服务器发出request请求，得到其返回的信息。

post 和 get数据传输：

　　　　常见的http请求方法有get、post、put、delete等

　　　　get是比较简单的http请求，直接会将发送给web服务器的数据放在请求地址后面，即在请求地址后面使用 ?key1=value&key2=value2形式传递数据，只适合数据量少，且没有安全性要求的请求。

　　　　post是将需要发送给web服务器的数据经过编码放到请求体中，可以传递大量数据，并且有一定的安全性，常用于表单提交

构造合理的HTTP请求

　　　　有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，需要设置一些Headers Http的请求头的信息。

　　　HTTP请求头是在每次向网络服务器发送请求时，传递的一组属性和配置信息。HTTP定义了十几种古怪的请求头类型，不过大多数的不常用。只有下面的七个字段被大多数浏览器用来初始化所有网络请求