美文网首页接口测试人生苦短,我学Python
网络爬虫(1):python3使用Cookie-解决每天理财网站

网络爬虫(1):python3使用Cookie-解决每天理财网站

作者: 果果酱ya | 来源:发表于2017-12-20 16:47 被阅读537次

    前言:

    最近菠萝妹的理财的小姐妹团里面理财话题好火呀,针对一个理财app,每天都靠小姐妹自觉在群里喊签到来获取签到赠送的积分。如果一天没有坚持,后续的当日积分就只有1分,连续每天签到的话就会有8分,而这个积分可以累积账号等级升级,账号级别高的可以减少服务费。因为自己比较懒,看消息有时候不及时,恰好在学Python,就尝试写了个签到的脚本。

    分析:

    首先签到需要登录才可以实现。

    我们理财产品的URL: https://sso.my089.com/sso/login

    由于我们模拟的是用户名登录,光从UI界面上我们可以看到,有用户名,密码,记住30分钟的按钮, 登录按钮。


    站点登录模块

    按F12可以看到,其实还有些隐藏的参数,比如 encryption


    登录页面F12

    思考1:

    1. Q1:我们要模拟登录操作,首先要看这个post操作带了哪些参数传递给服务器?
      A1:我们打开抓包工具 Fiddler,然后打开chrome,打开上面的URL。输入用户名和密码,点击登录按钮。
      这个时候我们可以看到Fiddler里面抓到了很多的记录。
    2. Q2: 但表示我们都需要模拟吗?
      A2: 显然不是,我们应该都知道,先找登录提交参数的地方。
      可以通过URL 这一览,看到有个/sso/login 的HTTPS协议的post请求,点开,看右边的sheet。
      request URL:/sso/login
      HTTP/1.1
      POST
      ...
      这些信息是我们编程的时候都需要用到的。
    Fiddler抓包页面 client cookie 登录form

    从上面的表单我们还可以看到,password 这个value是空的,但encryption 这个是经过MD5加密的,我们自己的密码传入这个加密的字符串.

    码代码

    用的python版本是Python3.5
    创建了一个signin.py的文件
    导入头文件:

      from urllib import request
      from urllib import error
      from urllib import parse
    

    登录:

    if __name__ =='__main__':
    # 登录
    login_url='https://sso.my089.com/sso/login'
    # User-Agent 信息
    user_agent=r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36'
    # Headers信息
    head={'User-Agnet': user_agent, 'Connection': 'keep-alive'}
    # 登录form的信息
    Login_Data={}
    Login_Data['username']='xxxxxxx'
    Login_Data['phone']=''
    Login_Data['encryption']='xxxxxxxxxxxxxx' #密码,MD5加密后的密码,用抓包工具查看,或者通过MD5在线加密工具把明文密码加密
    Login_Data['password']=''
    Login_Data['session_kept']='30'
    Login_Data['loginCategory']='0'
    Login_Data['back_url']='http%253A%252F%252Fbbs.my089.com%252F'
    Login_Data['app_key']='xxxxxxxxx' #不同的用户不一样key
    Login_Data['ltcc']='xxxxxxxxx' #不同的用户不一样
    

    这块代码就是我们上面Fiddler 里面抓到的信息, 有登录的请求,有user-Agent, 有header信息,有登录的form

    思考2:

    1. Q1:为啥要加heard信息?
      A1:因为我们是模拟浏览器,进行登录

    2. Q2:但为啥登录还是不能成功呢?
      A2: 我们还需要加Cookie

    我们创建一个带Cookie的opener,在我们访问登录的url的时候,会将登录后的cookie保存到本地,然后我们就可以利用这个cookie来访问。

    我们新手宝宝先官网查下cookie怎么使用

    官方网址

    官网

    上面挑选一个查看具体的代码示例,看看怎么使用:


    示例代码

    我们可以看到需要自己创建一个opener. 在http包中,提供了cookiejar。

    接下来就是依葫芦画瓢,我们把先导入

        from http import cookiejar
    

    然后把cookie保存到一个变量里面:

     #声明一个CookieJar对象实例来保存cookie
    cookie=cookiejar.CookieJar()
    # 利用urllib.request库的HTTPCookieProcessor对象来创建cookie处理器,也就CookieHandler
    handler=request.HTTPCookieProcessor(cookie)
    # 通过CookieHandler创建oepener
    opener = request.build_opener(handler)
    

    接下来就是把登录这个请求post出去
    python的代码里很简洁 。

      # 创建 登录的 request对象
      request_login =request.Request(url=login_url,data=loginpostdata,headers=head)
      ...
      response_login =opener.open(request_login)
      ...
    

    同理,我们要实现签到功能。
    我们通过Fiddler 工具看到签到也就是一样的一个post请求。比登录更简单。省略不写了。

    调试

    这里提下,怎么验证自己的post是正确的呢,我们加点调试代码,看返回的情况:

      try:
          response_login =opener.open(request_login)
         response_sign=opener.open(request_sign)
          print(response_login.read().decode('utf-8'))
          print(response_sign.read().decode('utf-8'))
    except error.URLError as e:
          if hasattr(e,'code'):
             print('HTTPError:%d' % e.code)
        elif hasattr(e,'reason'):
            print('URLError:%d' % e.reason)
    

    调试情况:


    调试代码

    到这里代码部分就全部完成啦~后面,可以做成个定时任务,定时调度。

    题外话:过程中遇到Fidder 工具抓https 请求都是Tunnel to......443
    解决方法:


    tools->https actions->reset All Cerfificates

    后面发现,更好的方案是使用requests。
    下面用requests写个登录模块:

     Login_Data = requests.post('https://sso.my089.com/sso/login', params={
        'username': 'xxxxxx',
        'phone': '',
        'encryption': 'xxxxxxxxxxxx',
        'password': '',
        'session_kept': '30',
        'loginCategory': '0',
        'back_url': 'http%253A%252F%252Fbbs.my089.com%252F',
        'app_key': 'xxxxxxxxxxxx',
        'ltcc': 'xxxxxxxxxxxx'})
    
    Login_Data.encoding='utf-8'

    相关文章

      网友评论

      本文标题:网络爬虫(1):python3使用Cookie-解决每天理财网站

      本文链接:https://www.haomeiwen.com/subject/akvgwxtx.html