一、recode
1.正则表达式
匹配字符:\w, \s, \d,(\b, ^, $, \B), \W, \S, \D, [], [^]
控制次数:*, +, ?, {}, *?, +?, ??,{N,}?, {M,N}?, {,N}?(非贪婪匹配:尽可能少的匹配可以匹配到的)
分之:|
分组:()
a.分组:将括号内的内容分组
b.捕获:值获取括号内的内容
c.重复(\数字):重复几次括号内的第几个内容
正则符号的转义:想要让有特殊功能的符号表示它本身,就可以通过\去转义,除了\和-,其他的符号放在[]都表示符号本身。
2.re模块
compile --> 将正则表达式转换成对象(转换用的少)
a.匹配相关的:
match,fullmatch --> 返回值是匹配对象
span()
start():返回匹配的结果在字符串中的开始位置的下标。加参数就取第参数个匹配字符在字符串中的位置。
end():取匹配结果在字符串中出现的最后一个位置+1(下标)。
group()-->(如果有分组,就可以在里面传参数,传的参数可以是0-分组数,参数传几就获取第几个分组匹配的值)
string
b.查找:
search(正则表达式,字符串) --> 返回值是匹配对象/None
去字符串中查找满足正则表达式的子串,如果有只由第一个满足条件的字符串的匹配对象。
findall --> 获取所有满足正则条件的子串,返回一个元素是字符串的列表。如果正则中有分组,只取分组中的内容。
finditer --> 获取所有满足正则条件的子串,返回一个迭代器,迭代器中的内容是匹配对象。
c.切割
split --> 按满足正则条件的字符串的子串对字符串进行切割。
d.替换
sub(正则表达式,替换值,被替换的字符串)
二、计算机数据通信过程
1.OSI参考模型
应用层:所有能产生网络流量的程序
表示层:数据传输前的压缩、加密、确定编码方式等操作。
会话层:查看木马(只要需要网络请求,就必定会产生会话)
传输层:可靠传输、不可靠传输、流量控制
网络层:负责选择最佳路径、会话IP地址
数据链路层:帧的开始和结尾、透明传输、差错检验
物理层:接口标准、电器标准
2.HTTP/HTTPs(网络请求)在应用层
TCP(可靠传输)、UDP(不可靠传输)在传输层
3.传输层两个协议
TCP协议(传输控制协议)
1.需要传输的文件分段传输
2.建立会话
3.可靠传输
4.流量控制
UDP协议(用户数据报协议)
1.一个数据包就能完成数据通信
2.不需要建立会话
3.不可靠传输
4.不需要流量控制
三、socket服务器
socket又叫套接字,实现网络通信的两端就是套接字。分为服务器对应的套接字和客户端对应的套接字。
python通过提供socket标准库来支持scoket编程。
scoket编程就是用程序实现服务器和客户端
服务器对应的套接字对象:
socket(family, type)
family:设置ip类型 AF_INET(ipv4) -- 默认值 AF_INET6(ipv6)
type:设置传输类型 SCOK_STREAM(TCP可靠传输) -- 默认值 SCOK_DGRAM(UDP不可靠传输)
例:写一个服务器
1.创建服务器对应的套接字
2.绑定ip和端口
3.请求监听
4.让服务器一直处于启动状态
5.接受客户端的请求
import socket
===写一个服务器====
1.创建服务器对应的套接字对象
"""
socket(family, type)
family:设置ip类型 AF_INET(ipv4) -- 默认值 AF_INET6(ipv6)
type:设置传输类型 SCOK_STREAM(TCP可靠传输) -- 默认值 SCOK_DGRAM(UDP不可靠传输)
"""
server= socket.socket() #创建一个基于ipv4的可靠传输的服务器套接字
2.绑定ip和端口
"""
bind((ip, 端口))
ip:服务器的地址
端口:不同的端口用来区分电脑上不同服务。取值范围065535,注意01024属于著名端口(用来绑定特殊服务端口,不要随意)
"""
server.bind(('10.7.156.60', 8080))
3.监听请求
"""
lisen(个数) --> 需要通过数字设置服务器一次能处理的最大请求个数
"""
server.listen(512) #根据情况考虑设置个数
print('开始监听')
4.让服务一直处于启动状态
while True:
#5.接受客户端的请求
"""
执行到accept(),程序会停下来(线程会堵),直到有客户端在请求这个服务器的时候才会往下执行。返回会话和客户端的地址
"""
coversation, addr = server.accept()
print(addr)
四、URL和HTTP
URL:统一资源定位符
通过1个URL可以找到互联网上唯一的一个资源
URL就是资源的地址、位置,互联网上的每个资源都有一个唯一的URL
URL的基本格式:协议://主机地址/路径
协议: 不同的协议,代表着不同的资源查找方式、资源传输方式
主机地址:存放资源的主机(服务器)的IP地址(域名)
路径:资源在主机(服务器)内的相对路径(具体位置)
URL中常见的协议
HTTP:超文本传输协议,访问的是远程的网络资源,格式是http://。是网络开发中最常用的协议
file:访问的是本地计算机的资源,格式是file://(不用加主机地址)
mailto:访问的是电子邮件地址,格式是mailto:
FTP:访问的是共享主机的文件资源,格式是ftp://
HTTP协议的作用
规定客户端跟服务器之间的数据传输格式,让客户端和服务器能有效地进行数据沟通。
HTTP协议的特点
1.简单快速
协议简单,服务器的程序规模小,通信速度快
2.灵活
允许传输各种各样的数据
3.使用非持续连接
客户端给服务器发送请求后,服务器对客户端的请求做出响应后,马上断开连接,节省时间。
HTTP的基本通信过程
一个完整的http通信可以分为两大步骤:
1.请求:客户端向服务器索要数据。
请求头:包含了对客户端的环境描述、客户端请求信息等
GET /minion.png HTTP/1.1 // 包含了请求方法、请求资源路径、HTTP协议版本
Host: 120.25.226.186:32812 // 客户端想访问的服务器主机地址
User-Agent: Mozilla/5.0 // 客户端的类型,客户端的软件环境
Accept: text/html, / // 客户端所能接收的数据类型
Accept-Language: zh-cn // 客户端的语言环境
Accept-Encoding: gzip // 客户端支持的数据压缩格式
请求体:客户端发给服务器的具体数据,比如文件数据(POST请求才会有)。
2.响应:服务器返回客户端相应的数据。
响应头:包含了对服务器的描述、对返回数据的描述。
HTTP/1.1 200 OK // 包含了HTTP协议版本、状态码、状态英文名称
Server: Apache-Coyote/1.1 // 服务器的类型
Content-Type: image/jpeg // 返回数据的类型
Content-Length: 56811 // 返回数据的长度
Date: Mon, 23 Jun 2014 12:54:52 GMT // 响应的时间
响应体:服务器返回给客户端的具体数据,比如文件数据。
常见的状态码
200:OK:请求成功
400:Bad Request:客户端请求的语法错误,服务器无法解析
404:Not Found:服务器无法根据客户端的请求找到资源
500:Internal Server Error:服务器内部错误,无法完成请求
HTTP请求的方法
GET:查、POST:改
GET:
在请求URL后面以?的形式跟上发给服务器的参数,多个参数之间用&隔开,比如
http:// www. test. com/login ? username=123&pwd=234&type=JSON
由于浏览器和服务器对URL长度有限制,因此在URL后面附带的参数是有限制的,通常不能超过1KB
POST:
发给服务器的参数全部放在请求体中
理论上,POST传递的数据量没有限制(具体还得看服务器的处理能力)
选择GET和POST的建议:
如果要传递大量数据,比如文件上传,只能用POST请求
GET的安全性比POST要差些,如果包含机密\敏感信息,建议用POST
如果仅仅是索取数据(数据查询),建议使用GET
如果是增加、修改、删除数据,建议使用POST
五、request请求
python没有一个标准库来支持网络请求,但是目前有一个第三方库,支持http请求。
1.获取响应头:
response.headers
2.拿二进制形式的响应体
data_bytes = response.content
3.拿字符串形式的响应体
data_text = response.text
4.拿json格式对应的python数据
data_json = response.json()
5.下载网络图片
response = requests.get('图片地址')
content = response.content
with open('存放图片的本地地址', 'wb') as f:
f.write(content)
例:
import requests
"""
requests.get(url,params) --> 返回服务器的相应(包含响应头和响应体)
url --> 请求地址
params --> 客户端给服务器发送的数据(字典){参数名:值}
"""
url= 'https://www.apiopen.top/satinApi?type=1&page=1' #参数用问号拼接到一起
response = requests.get(url)
1.获取响应头
print(response.headers)
2.拿二进制形式的响应体
data_bytes = response.content
print(data_bytes)
3.拿字符串形式的响应体
data_text = response.text
print(data_text)
4.拿json格式对应的python数据
data_json = response.json()
print(data_json, data_json['code'])
通过get请求网址
response = requests.get('http://wimg.spriteapp.cn/profile/large/2018/02/24/5a90448611639_mini.jpg')
content = response.content
with open('./files/new.jpg', 'wb') as f:
f.write(content)
网友评论