网络爬虫（1）：python3使用Cookie-解决每天理财网站

作者: 果果酱ya | 来源:发表于2017-12-20 16:47 被阅读537次

网络爬虫（1）：python3使用Cookie-解决每天理财网站
5.3黑客成长日记——爬虫篇(1)
你对python爬虫略知一二？来看这篇文章我让你快速入门！
基础篇-爬虫基本原理
Python-Http请求
Robots协议
崔庆才Python 3开发网络爬虫，教程+书籍
爬虫实战1.3.2 页面解析之Xpath
电子书单列表
Python3 网络爬虫与开发实战

前言：

最近菠萝妹的理财的小姐妹团里面理财话题好火呀，针对一个理财app，每天都靠小姐妹自觉在群里喊签到来获取签到赠送的积分。如果一天没有坚持，后续的当日积分就只有1分，连续每天签到的话就会有8分，而这个积分可以累积账号等级升级，账号级别高的可以减少服务费。因为自己比较懒，看消息有时候不及时，恰好在学Python，就尝试写了个签到的脚本。

分析：

首先签到需要登录才可以实现。

我们理财产品的URL: https://sso.my089.com/sso/login

由于我们模拟的是用户名登录，光从UI界面上我们可以看到，有用户名，密码，记住30分钟的按钮, 登录按钮。

站点登录模块

按F12可以看到，其实还有些隐藏的参数，比如 encryption

登录页面F12

思考1：

Q1:我们要模拟登录操作，首先要看这个post操作带了哪些参数传递给服务器?
A1:我们打开抓包工具 Fiddler，然后打开chrome，打开上面的URL。输入用户名和密码，点击登录按钮。
这个时候我们可以看到Fiddler里面抓到了很多的记录。
Q2: 但表示我们都需要模拟吗？
A2: 显然不是，我们应该都知道，先找登录提交参数的地方。
可以通过URL 这一览，看到有个/sso/login 的HTTPS协议的post请求，点开，看右边的sheet。
request URL:/sso/login
HTTP/1.1
POST
...
这些信息是我们编程的时候都需要用到的。

Fiddler抓包页面

client

cookie

登录form

从上面的表单我们还可以看到，password 这个value是空的，但encryption 这个是经过MD5加密的，我们自己的密码传入这个加密的字符串.

码代码

用的python版本是Python3.5
创建了一个signin.py的文件
导入头文件：

  from urllib import request
  from urllib import error
  from urllib import parse

登录：

if __name__ =='__main__':
# 登录
login_url='https://sso.my089.com/sso/login'
# User-Agent 信息
user_agent=r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'
# Headers信息
head={'User-Agnet': user_agent, 'Connection': 'keep-alive'}
# 登录form的信息
Login_Data={}
Login_Data['username']='xxxxxxx'
Login_Data['phone']=''
Login_Data['encryption']='xxxxxxxxxxxxxx' #密码，MD5加密后的密码,用抓包工具查看，或者通过MD5在线加密工具把明文密码加密
Login_Data['password']=''
Login_Data['session_kept']='30'
Login_Data['loginCategory']='0'
Login_Data['back_url']='http%253A%252F%252Fbbs.my089.com%252F'
Login_Data['app_key']='xxxxxxxxx' #不同的用户不一样key
Login_Data['ltcc']='xxxxxxxxx' #不同的用户不一样

这块代码就是我们上面Fiddler 里面抓到的信息，有登录的请求，有user-Agent，有header信息，有登录的form

思考2：

Q1:为啥要加heard信息?
A1:因为我们是模拟浏览器，进行登录
Q2:但为啥登录还是不能成功呢？
A2: 我们还需要加Cookie

我们创建一个带Cookie的opener,在我们访问登录的url的时候，会将登录后的cookie保存到本地，然后我们就可以利用这个cookie来访问。

我们新手宝宝先官网查下cookie怎么使用

官方网址

官网

上面挑选一个查看具体的代码示例，看看怎么使用：

示例代码

我们可以看到需要自己创建一个opener. 在http包中，提供了cookiejar。

接下来就是依葫芦画瓢，我们把先导入

    from http import cookiejar

然后把cookie保存到一个变量里面：

 #声明一个CookieJar对象实例来保存cookie
cookie=cookiejar.CookieJar()
# 利用urllib.request库的HTTPCookieProcessor对象来创建cookie处理器，也就CookieHandler
handler=request.HTTPCookieProcessor(cookie)
# 通过CookieHandler创建oepener
opener = request.build_opener(handler)

接下来就是把登录这个请求post出去
python的代码里很简洁。

  # 创建 登录的 request对象
  request_login =request.Request(url=login_url,data=loginpostdata,headers=head)
  ...
  response_login =opener.open(request_login)
  ...

同理，我们要实现签到功能。
我们通过Fiddler 工具看到签到也就是一样的一个post请求。比登录更简单。省略不写了。

调试

这里提下，怎么验证自己的post是正确的呢，我们加点调试代码，看返回的情况：

  try:
      response_login =opener.open(request_login)
     response_sign=opener.open(request_sign)
      print(response_login.read().decode('utf-8'))
      print(response_sign.read().decode('utf-8'))
except error.URLError as e:
      if hasattr(e,'code'):
         print('HTTPError:%d' % e.code)
    elif hasattr(e,'reason'):
        print('URLError:%d' % e.reason)

调试情况：

调试代码

到这里代码部分就全部完成啦～后面，可以做成个定时任务，定时调度。

题外话：过程中遇到Fidder 工具抓https 请求都是Tunnel to......443
解决方法：

tools->https

actions->reset All Cerfificates

后面发现，更好的方案是使用requests。
下面用requests写个登录模块:

 Login_Data = requests.post('https://sso.my089.com/sso/login', params={
    'username': 'xxxxxx',
    'phone': '',
    'encryption': 'xxxxxxxxxxxx',
    'password': '',
    'session_kept': '30',
    'loginCategory': '0',
    'back_url': 'http%253A%252F%252Fbbs.my089.com%252F',
    'app_key': 'xxxxxxxxxxxx',
    'ltcc': 'xxxxxxxxxxxx'})

Login_Data.encoding='utf-8'