一
如果想统计下自己、专业或者班级的同学的校园卡消费数据,校园卡一卡通网站同样也提供了相应的方法,可以写一篇关于自己或者一群人的消费分析情况,这对财大人来讲难度不大。
此文的爬取方法在中南财大的校园一卡通头像获取之后
登录之后选择校园卡服务里的流水查询。
流水查询界面.png
点了导出2018-06的流水以后,显示
下载请求.png
仔细观察可以发现存在2018-06的时间,但如果直接用之前的数据请求的话结果会失败,原因是cookie相对之前变化了
原cookie.png
因此需要找到使原先的cookie变化的链接,获取新的cookie,然后再行提交即可。
登录
#coding=utf-8
import requests
import re
import json
import os
import xlrd
import time
r=requests.Session()
url=r'http://ecard.zuel.edu.cn/Login.aspx'
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.90 Safari/537.36",
"Referer":"http://ecard.zuel.edu.cn/Login.aspx",
"Origin":"http://ecard.zuel.edu.cn",
"Host":"ecard.zuel.edu.cn",
}
def zhengze(patt,htm):
hh=re.compile(patt)
ll=re.findall(hh,htm)
return ll
html=r.get(url,headers=headers)
first_con=html.content.decode('utf-8')
pattern=r'id="__VIEWSTATE" value="(.+?)"'
code=zhengze(pattern,first_con)[0]
data={
'__VIEWSTATE':code,
'loginType':'sno',
'loginId':id,
'loginPwd':pwd
}
sec_con=r.post(url,headers=headers,data=data)
之后获取POST中所需提交的accquary码
获取新的cookie,经过观察可以发现新cookie是在这条链接里产生的,但之后的sk又是什么鬼,对着之前的请求可以在原cookie中找到。
image.png
现在可以整理下思路就是
1. 获取post所需的accquary值
2. 提取原cookie中的sk,生成新的链接
3. 得到新的cookie
4. post提交并下载数据
下面提供代码:
获取accquary值
#get sno
sno_url=r'http://ecard.zuel.edu.cn/Account/Operator.ashx?cmd=getaccbysno'
row_sno=r.post(sno_url,headers=headers).content.decode('utf-8')
r_sno=json.loads(row_sno)
sno=r_sno[0]['ACCOUNT']
获取原cookie中的sk
new_cookie=sec_con.cookies
for each in new_cookie:
row_sk=each.value
pat_sk='sk=(.+?)&ident'
sk=zhengze(pat_sk,row_sk)[0]
获取新的链接后,生成新cookie
cook_url=r'http://10.175.195.21/acchistrjn.action?sk='+sk
cook=r.get(cook_url,headers=headers)
获取xls文件
date_list=['2017-12','2018-01','2018-02']
for date in date_list:
rp_url=r'http://10.175.195.21/gettrjndataList.action'
rp_d={
'page':'1',
'rp':'10',
'sortname':'jndatetime',
'sortorder':'desc',
'query':'',
'qtype':'',
'accquary':sno,
'trjnquary':date
}
row_rp=r.post(rp_url,headers=headers,data=rp_d).content.decode('utf-8')
rp=zhengze(r'"total":(\d+?),',row_rp)[0]
ex_url=r'http://10.175.195.21/exportThetrjn.action?isall=all&accquary='+sno+'&trjnquary='+date+'&rp='+rp+'&page=1'
excel_con=r.get(ex_url,headers=headers).content
#print (excel_con)
open(date+'.xls', 'wb').write(excel_con)
最后
由于下载下来的文件是分开的
因此,需要整合的一起的话,可以参考合并Excel表.
网友评论