Python爬虫cookies

作者: 鹊南飞_ | 来源:发表于2020-09-10 10:47 被阅读0次

利用selenium cookies实现淘宝免密登录
Python爬虫cookies
python爬虫8：cookies
Scrapy基础——Cookies和Session
Python爬虫 | cookies的使用
Python操作cookie之cookielib模块
爬虫实战1.2.4 爬虫基础-会话和Cookies
Python 爬虫：Cookies 的连续获取
博客园自动发帖--图像处理极验验证码
博客园自动发帖，python图像处理极验验证码！

1. 发送请求添加自定义的cookie信息

方法一使用add_dict_to_cookiejar函数添加cookies
方法二使用RequestsCookieJar对象，然后使用update函数更新cookies
方法一不能同时设置path，domain等参数。方法二可以同时设置
使用request.session发送请求

百度cooikes如下

百度cookies

核心代码

方法一

import requests

# 使用requests.session返回保持会话的对象
s = requests.session()
# cookie字典
cookie_dict = {
    "cookie_name_1": "cookie_value_1",
    "cookie_name_2": "cookie_value_2", 
    "cookie_name_3": "cookie_value_3"
}
# 使用add_dict_to_cookiejar
requests.utils.add_dict_to_cookiejar(s.cookies, cookie_dict)

方法二

import requests
from requests.cookies import RequestsCookieJar

# 使用requests.session返回保持会话的对象
s = requests.session()
# 使用对象方式设置, 使用RequestsCookieJar
c = RequestsCookieJar()
# 设置cookies
c.set('cookie_name_1', 'cookie_value_1', path='/', domain='.xxx.com')
c.set('cookie_name'_2, 'cookie_value_2', path='/', domain='.xxx.com')
s.cookies.update(c)

完整代码

方法一

import requests

# cookie字典
cookie_dict = {"uid": "1", "exp": "2", "server_time": "3"}
# 使用requests.session返回保持会话的对象
s = requests.session()
# 使用add_dict_to_cookiejar
requests.utils.add_dict_to_cookiejar(s.cookies, cookie_dict)
print(s.cookies.get_dict())
# {'exp': '2', 'server_time': '3', 'uid': '1'}

# get请求
url = "http://www.xxx.com"
s.get(url=url)

# post请求
# url = "https://www.xxx.com"
# data = {'pageIndex': 0, 'pageSize': 8}
# s.post(url=url, data=data, verify=False)

方法二

import requests
from requests.cookies import RequestsCookieJar

# 使用requests.session返回保持会话的对象
s = requests.session()
# 使用对象方式设置, 使用RequestsCookieJar
c = RequestsCookieJar()
# 设置cookies
# c.set('cookie_name', 'cookie_value')
# c.set('cookie_name', 'cookie_value', path='/', domain='.xxx.com')
c.set('exp', '2')
c.set('server_time', '3')
c.set('uid', '1')
# 使用update函数
s.cookies.update(c)
print(s.cookies.get_dict())
# {'exp': '2', 'server_time': '3', 'uid': '1'}

# get请求
url = "http://www.xxx.com"
s.get(url=url)

# post请求
# url = "https://www.xxx.com"
# data = {'pageIndex': 0, 'pageSize': 8}
# s.post(url=url, data=data, verify=False)

2. 获取响应信息中的cookie信息

使用request.cookies获取RequestCookieJar对象
使用dict_from_cookiejar转换为字典

import requests

# get请求
url = "http://www.baidu.com"
response = requests.get(url=url)

cookies_jar = response.cookies
print(cookies_jar)
# <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

cookies_dict = requests.utils.dict_from_cookiejar(cookies_jar)
print(cookies_dict)
# {'BDORZ': '27315'}