美文网首页我爱编程
你真知道自己加了多少班吗?来来来,用Python分析一下考勤数据

你真知道自己加了多少班吗?来来来,用Python分析一下考勤数据

作者: sheenaghWS | 来源:发表于2018-06-20 00:24 被阅读50次

    前段时间给同事做Python爬虫技术分享,为了分享的效果以及听众的兴趣,写了一个爬取考勤数据的小爬虫。内容比较简单,以下做一个梳理:

    一、问题分析

    先梳理下查询考勤的流程:

    1. 登录公司内网的系统
    2. 切换到考勤查询页面
    3. 根据年份、月份查询对于的考勤数据即可

    分析以上流程,主要解决两个核心问题即可:a. 账号登录 b. 找到考勤数据查询的接口

    二、解决登录问题

    公司的考勤数据、人力系统、会议室等都在同一个系统里面,由于之前已经用Selenium写过抢会议室的脚本,所以登录、验证码等问题算是已经解决了。
    但是多想一步,要是每次爬个考勤、调试都要祭出Selenium也有点麻烦的,所以...能不能再优化下呢?
    ...
    当然是有的!

    既然可以用Selenium登录,就能得到登录后的cookie。理论上说,只要在cookie的过期时间内都是可以实现免登录的。😄
    所以需要实现的工作是:
    1、用Selenium模拟登录,登录成功后将cookie保存到本地;
    2、抛弃Selenium,用Requests库,带上前面的cookie访问网站即可。然后就能随心所欲爬取数据了。

    说干就干,以下是获取登录状态cookie的实现代码:

    import time, os, json, requests,sqlite3
    from selenium import webdriver
    from time import sleep
    from lib.mtHelper import MtHelper #自己封装的关于验证码识别、登录等函数
    from requests.cookies import RequestsCookieJar
    
    #用selenium登录系统,保存cookie到本地json文件。
    def login_savecookie(user, password):
        driver = webdriver.Chrome()
        driver.maximize_window()
        driver.implicitly_wait(5)
        mtHelper = MtHelper(driver)
        driver.get('http://****.com')
        mtHelper.login_auoto(user, password, 15)#之前封装过的登录函数,最多尝试15次验证码识别
        sleep(1)
        dict_cookie = driver.get_cookies()#登录成功后获取当前的cookie
        json_cookie = json.dumps(dict_cookie)
        with open(path + "\cookies.json", "w+") as f:
            f.write(json_cookie)
        driver.quit()
    
    #读取本地json文件获取cookie,用于requests
    def parse_cookie():
        jar = RequestsCookieJar()
        with open(path + "\cookies.json", "r") as f:
            json_cookies = json.load(f)
        for cookie in json_cookies:
            jar.set(cookie['name'], cookie['value'])
        return jar
    

    所以从理论上说,在cookie过期时间以内,只用执行一次Selenium登录操作即可。之后的操作直接读取本地的cookie数据,携带它进行request请求即可。这样能大大减少调试、运行的成本。

    三、考勤数据查询接口

    按照以往的经验,凡是先按F12,观察一下请求的内容再说。
    先进入考勤查询系统,调出控制台后,用鼠标点击了一下2018年3月,立马能看到以下请求(没有截图,就手敲了一遍,实际数据做过隐私处理):

    #post请求地址:
    http://****/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=2018-3&EMPLID=111111
    #参数:
    MONTHCD:2018-3
    EMPLID:111111
    
    
    #返回值(截取部分),Json格式:
    "{"code":"success","list_data":
    [{"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"19:29:31","ATT_DATE":"2018-03-01","ATT_BGN_TIME":"08:58:40","EMPLID":"111111","DAY_OFWEEK":"星期四","ATT_RESULT":"无异常"},
    {"ATT_RESULT_COMMENT":"无请休假","ATT_END_TIME":"18:57:48","ATT_DATE":"2018-03-02","ATT_BGN_TIME":"09:07:43","EMPLID":"111111","DAY_OFWEEK":"星期五","ATT_RESULT":"无异常"}]}"
    

    根据以上内容不难推测,要想获取考勤数据,只需找到该post请求的参数规律即可。至于返回值,明显是按照工作日排序的,只需解析该Json即可得到想要的数据。

    请求参数分析:
    MONTHCD不用说,肯定是指查询考勤的年月份;至于EMPLID,虽然不知道具体是什么,但该变量名明显是类似员工工号的东西,应该是唯一的。再多尝试了几次,果不其然,它是不变的。
    搞定!!!

    动手来实现它吧:

    #获取某月的考勤数据
    #month为需要获取的月份,employeeID为员工工号,jar为cookie数据。也就是上例中从json文件中获取的cookie信息
    def request_and_get_json(month = "2018-3", employeeID = "111111", jar = None):
        url = "http://***/EMPLOYEE/EMPL/s/WEBLIB_GP_PAY.ISCRIPT2.FieldFormula.IScript_getPayAbsenceList?MONTHCD=%s&EMPLID=%s" % (month, employeeID)
        print u"正在获取%s的数据!"%month
        response = requests.get(url, cookies = jar)
        text = response.text
        js = json.dumps(text,encoding='utf-8',ensure_ascii=False)
        js = json.loads(js)
        return js
    

    三、数据存储

    前面已经找到查询接口的规律了,所以用个循环遍历就能获取任意时间段的考勤数据了。但是仅停留于此是不够的,接下来要考虑下数据存储,只有存储为合理的数据结构后才方便后面的数据分析。

    数据存储的方式很多,比如针对少量数据可以存为本地Json、txt、Excel等文件,数据量大也可以考虑数据库。
    此处的考勤数据不多,不到1000条。为了便于数据的筛选,以及减少环境搭建成本,采用sqlite3存储。
    先使用pip install sqlite3命令安装sqlite3库,接下来就是实现:

    #保存数据到数据库
    #sql格式:"insert into info(date, week, emplid, beginTime, endTime, comment, result) values ('%s', '%s', '%s', '%s', '%s', '%s', '%s')" % (date, week, emplid, beginTime, endTime, comment, result)
    def save_to_db(sql):
        conn = sqlite3.connect(path + '\db\clockData.db')
        cursor = conn.cursor()
        cursor.execute('CREATE TABLE IF NOT EXISTS info (date text(20) primary key, week text(20), emplid text(20), beginTime text(20), endTime text(20), comment text(20), result text(20))')
        cursor.execute(sql)
        cursor.close()
        conn.commit()
        conn.close()
    

    至此,将以上部分串联起来,就能爬取考勤数据了!
    下面就看看爬取的成果:


    爬取下来的考勤数据

    四、数据分析

    当然,数据分析这个范畴实在是太大了,在此只做个简单的数据统计(常用的sql查询命令),用于娱乐😜,顺便模仿一波网易云的情怀文案:


    考勤数据分析

    不说了,我要找老板加薪去!😭😭😭

    相关文章

      网友评论

        本文标题:你真知道自己加了多少班吗?来来来,用Python分析一下考勤数据

        本文链接:https://www.haomeiwen.com/subject/smxzeftx.html