timg.jpg
一.用用架构
互联网的飞速发展是商业经济推动的。目前几乎所有的商业应用都是基于互联网的,它们一般采用c/s架构,b/s架构或者m/s架构。
c/s 即 client server 客户端 服务端
b/s 即 browser server 浏览器 服务端
m/s 即 moblie server 移动端 服务端
二.认识socket
什么是socket
Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求,使主机间或者一台计算机上的进程间可以通讯。
Python 中,我们用 socket()函数来创建套接字,语法格式如下:
socket.socket([family[, type[, proto]]])
参数 |
描述 |
family |
套接字家族可以使AF_UNIX或者AF_INET |
type |
套接字类型可以根据是面向连接的还是非连接分为SOCK_STREAM或SOCK_DGRAM |
protocol |
一般不填默认为0 . |
Socket 的部分内置函数
函数 |
描述 |
s.bind() |
绑定地址(host,port)到套接字, 在AF_INET下,以元组 (host,port)的形式表示地址。 |
s.listen() |
开始TCP监听。backlog指定在拒绝连接之前,操作系统可以挂起的最大连接数量。该值至少为1,大部分应用程序设为5就可以了。 |
s.accept() |
被动接受TCP客户端连接,(阻塞式)等待连接的到来 |
客户端套接字
函数 |
描述 |
s.connect() |
主动初始化TCP服务器连接,。一般address的格式为元组 (hostname,port),如果连接出错,返回socket.error错误。 |
s.recv() |
接收TCP数据,数据以字符串形式返回,bufsize指定要接收的最大数据量。flag提供有关消息的其他信息,通常可以忽略。 |
s.send() |
发送TCP数据,将string中的数据发送到连接的套接字。返回值是要发送的字节数量,该数量可能小于string的字节大小。 |
s.close() |
关闭套接字 |
三.socket下载图片小案例(忘仙大佬作品)
import re
import socket
# 首页的url
url = 'http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E5%8A%A8%E6%BC%AB'
base_path = '/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E5%8A%A8%E6%BC%AB'
base_host = 'image.baidu.com'
def read_content(client):
# 循环读取响应内容
res = b''
data = client.recv(1024)
while data:
res += data
data = client.recv(1024)
return res
def set_socket(path,host,url):
'''
根据参数的域名和路径 创建套接字 发送报文
:param path:
:param host:
:param url:
:return:
'''
client = socket.socket()
client.connect((host, 80))
# 构造报文
request = 'GET {} HTTP/1.0\r\nHost: {}\r\nReferer: {}\r\n\r\n'.format(path, host,url)
client.send(request.encode())
return client
client = set_socket(base_path,base_host,url)
# 读取响应
res = read_content(client)
# 通过正则表达式 匹配所有图片的url
image_urls = re.findall(r'"thumbURL":"(.*?)"',res.decode(),re.S)
for image_url in image_urls[:-3]:
host = image_url.split('//')[-1].split('.com')[0]
path = image_url.split('//')[-1].split('.com')[-1]
image_client = set_socket(path,host+'.com',url)
# 循环读取响应内容
res = read_content(image_client)
#通过正则匹配响应头信息后面的数据
image_content = re.findall(b'\r\n\r\n(.*)',res,re.S)[0]
image_file_name = path.split('/')[-1]
with open(image_file_name,'wb') as f:
f.write(image_content)
网友评论