美文网首页
中南财大的校园卡消费数据爬虫

中南财大的校园卡消费数据爬虫

作者: 不定期抽疯 | 来源:发表于2018-06-23 09:49 被阅读0次

    如果想统计下自己、专业或者班级的同学的校园卡消费数据,校园卡一卡通网站同样也提供了相应的方法,可以写一篇关于自己或者一群人的消费分析情况,这对财大人来讲难度不大。

    此文的爬取方法在中南财大的校园一卡通头像获取之后

    登录之后选择校园卡服务里的流水查询。


    流水查询界面.png

    点了导出2018-06的流水以后,显示


    下载请求.png

    仔细观察可以发现存在2018-06的时间,但如果直接用之前的数据请求的话结果会失败,原因是cookie相对之前变化了


    原cookie.png
    因此需要找到使原先的cookie变化的链接,获取新的cookie,然后再行提交即可。

    登录

    #coding=utf-8
    import requests
    import re
    import json
    import os
    import xlrd
    import time
    
    r=requests.Session()
    url=r'http://ecard.zuel.edu.cn/Login.aspx'
    headers = { 
            "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
            "Referer":"http://ecard.zuel.edu.cn/Login.aspx",
            "Origin":"http://ecard.zuel.edu.cn",
            "Host":"ecard.zuel.edu.cn",
                    }
    
    def zhengze(patt,htm):
                hh=re.compile(patt)
                ll=re.findall(hh,htm)
                return ll
    
    html=r.get(url,headers=headers)
    first_con=html.content.decode('utf-8')
    pattern=r'id="__VIEWSTATE" value="(.+?)"'
    code=zhengze(pattern,first_con)[0]
    data={
            '__VIEWSTATE':code,
            'loginType':'sno',
            'loginId':id,
            'loginPwd':pwd
            }
    sec_con=r.post(url,headers=headers,data=data)
    

    之后获取POST中所需提交的accquary码

    获取新的cookie,经过观察可以发现新cookie是在这条链接里产生的,但之后的sk又是什么鬼,对着之前的请求可以在原cookie中找到。


    image.png

    现在可以整理下思路就是

    1. 获取post所需的accquary值

    2. 提取原cookie中的sk,生成新的链接

    3. 得到新的cookie

    4. post提交并下载数据


    下面提供代码:

    获取accquary值

    #get sno
    sno_url=r'http://ecard.zuel.edu.cn/Account/Operator.ashx?cmd=getaccbysno'
    row_sno=r.post(sno_url,headers=headers).content.decode('utf-8')
    r_sno=json.loads(row_sno)
    sno=r_sno[0]['ACCOUNT']
    

    获取原cookie中的sk

    new_cookie=sec_con.cookies
    for each in new_cookie:
                row_sk=each.value
    pat_sk='sk=(.+?)&ident'
    sk=zhengze(pat_sk,row_sk)[0]
    

    获取新的链接后,生成新cookie

    cook_url=r'http://10.175.195.21/acchistrjn.action?sk='+sk
    cook=r.get(cook_url,headers=headers)
    

    获取xls文件

    date_list=['2017-12','2018-01','2018-02']
    for date in date_list:
                rp_url=r'http://10.175.195.21/gettrjndataList.action'
                rp_d={
                        'page':'1',
                        'rp':'10',
                        'sortname':'jndatetime',
                        'sortorder':'desc',
                        'query':'',
                        'qtype':'',
                        'accquary':sno,
                        'trjnquary':date
                        }
                row_rp=r.post(rp_url,headers=headers,data=rp_d).content.decode('utf-8')
                rp=zhengze(r'"total":(\d+?),',row_rp)[0]
    
                ex_url=r'http://10.175.195.21/exportThetrjn.action?isall=all&accquary='+sno+'&trjnquary='+date+'&rp='+rp+'&page=1'
                excel_con=r.get(ex_url,headers=headers).content
                #print (excel_con)
                open(date+'.xls', 'wb').write(excel_con)
    

    最后

    由于下载下来的文件是分开的

    image.png
    因此,需要整合的一起的话,可以参考合并Excel表.

    相关文章

      网友评论

          本文标题:中南财大的校园卡消费数据爬虫

          本文链接:https://www.haomeiwen.com/subject/irglyftx.html