初识爬虫

作者: 违心唯心 | 来源:发表于2019-10-13 00:35 被阅读0次

网络爬虫1-python学习32
python-爬虫
初识爬虫
初识爬虫
初识爬虫
爬虫练习-boss直聘数据相关岗位分析（一）
【爬虫系列】- 初识爬虫
【爬虫教程】吐血整理，最详细的爬虫入门教程~
初识爬虫（1）
【Python爬虫】初识爬虫（1）

timg.jpg

一.用用架构

互联网的飞速发展是商业经济推动的。目前几乎所有的商业应用都是基于互联网的，它们一般采用c/s架构，b/s架构或者m/s架构。

`c/s 即 client server 客户端服务端`

`b/s 即 browser server 浏览器服务端`

`m/s 即 moblie server 移动端服务端`

二.认识socket

什么是socket

Socket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求，使主机间或者一台计算机上的进程间可以通讯。

Python 中，我们用 socket（）函数来创建套接字，语法格式如下：

socket.socket([family[, type[, proto]]])

参数	描述
family	套接字家族可以使AF_UNIX或者AF_INET
type	套接字类型可以根据是面向连接的还是非连接分为SOCK_STREAM或SOCK_DGRAM
protocol	一般不填默认为`0`.

Socket 的部分内置函数

函数	描述
s.bind()	绑定地址（host,port）到套接字，在AF_INET下,以`元组`（host,port）的形式表示地址。
s.listen()	开始TCP监听。backlog指定在拒绝连接之前，操作系统可以挂起的最大连接数量。该值至少为1，大部分应用程序设为5就可以了。
s.accept()	被动接受TCP客户端连接,(阻塞式)等待连接的到来

`客户端套接字`

函数	描述
s.connect()	主动初始化TCP服务器连接，。一般address的格式为`元组`（hostname,port），如果连接出错，返回socket.error错误。
s.recv()	接收TCP数据，数据以字符串形式返回，bufsize指定要接收的最大数据量。flag提供有关消息的其他信息，通常可以忽略。
s.send()	发送TCP数据，将string中的数据发送到连接的套接字。返回值是要发送的字节数量，该数量可能小于string的字节大小。
s.close()	关闭套接字

三.socket下载图片小案例(忘仙大佬作品)

import re
import socket

# 首页的url
url = 'http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E5%8A%A8%E6%BC%AB'
base_path = '/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E5%8A%A8%E6%BC%AB'
base_host = 'image.baidu.com'

def read_content(client):
    # 循环读取响应内容
    res = b''
    data = client.recv(1024)
    while data:
        res += data
        data = client.recv(1024)
    return res

def set_socket(path,host,url):
    '''
    根据参数的域名和路径 创建套接字 发送报文
    :param path:
    :param host:
    :param url:
    :return:
    '''
    client = socket.socket()
    client.connect((host, 80))
    # 构造报文
    request = 'GET {} HTTP/1.0\r\nHost: {}\r\nReferer: {}\r\n\r\n'.format(path, host,url)
    client.send(request.encode())
    return client


client = set_socket(base_path,base_host,url)
# 读取响应
res = read_content(client)
# 通过正则表达式 匹配所有图片的url
image_urls = re.findall(r'"thumbURL":"(.*?)"',res.decode(),re.S)


for image_url in image_urls[:-3]:
    host = image_url.split('//')[-1].split('.com')[0]
    path = image_url.split('//')[-1].split('.com')[-1]

    image_client = set_socket(path,host+'.com',url)
    # 循环读取响应内容
    res = read_content(image_client)

    #通过正则匹配响应头信息后面的数据
    image_content = re.findall(b'\r\n\r\n(.*)',res,re.S)[0]

    image_file_name = path.split('/')[-1]

    with open(image_file_name,'wb') as f:
        f.write(image_content)

网友评论

本文标题：初识爬虫

本文链接：https://www.haomeiwen.com/subject/gaxhmctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

初识爬虫

一.用用架构

互联网的飞速发展是商业经济推动的。目前几乎所有的商业应用都是基于互联网的，它们一般采用c/s架构，b/s架构或者m/s架构。

`c/s 即 client server 客户端服务端`

`b/s 即 browser server 浏览器服务端`

`m/s 即 moblie server 移动端服务端`

二.认识socket

什么是socket

Socket 的部分内置函数

`客户端套接字`

三.socket下载图片小案例(忘仙大佬作品)

相关文章

网络爬虫1-python学习32

python-爬虫

初识爬虫

初识爬虫

初识爬虫

爬虫练习-boss直聘数据相关岗位分析（一）

【爬虫系列】- 初识爬虫

【爬虫教程】吐血整理，最详细的爬虫入门教程~

初识爬虫（1）

【Python爬虫】初识爬虫（1）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

初识爬虫

一.用用架构

互联网的飞速发展是商业经济推动的。目前几乎所有的商业应用都是基于互联网的，它们一般采用c/s架构，b/s架构或者m/s架构。

c/s 即 client server 客户端 服务端

b/s 即 browser server 浏览器 服务端

m/s 即 moblie server 移动端 服务端

二.认识socket

什么是socket

Socket 的部分内置函数

客户端套接字

三.socket下载图片小案例(忘仙大佬作品)

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

`c/s 即 client server 客户端服务端`

`b/s 即 browser server 浏览器服务端`

`m/s 即 moblie server 移动端服务端`

`客户端套接字`