Python爬虫分分获取URP教务系统学籍信息!

作者: Python学习 | 来源:发表于2018-02-28 13:51 被阅读86次

本文旨在提醒同学们及时修改密码,增强保护个人隐私的意识,因此代码中一些关键数据以及校名等信息不会公开!复制粘贴文章中的代码不会爬到任何东西。只是作为学习 Python 爬虫的一点总结而已!

作者所在学校的教务系统安全防范措施可谓非常不严密,学生登录甚至不需要图形验证码。每年学生入学之后,学校下发的账号,初始密码不是无规律的,而是和账号完全一致!如果学生不及时修改密码,那么其他人可以轻松登录他的账号。登录后可以看到学生的学籍信息,包括高考报名时照片,家长联系方式等,联系地址甚至详细到几单元几楼几号门, 个人信息泄露情况非常严重!

结果

先说结果。经过两天连写带调试,终于完成了对全校本科生 17400 多个在网账号的测试,其中有 12600 多个账号使用的还是初始密码。此处隐去校名,统计结果如下:

介于初衷,只爬了 10 个账号的信息,以示严重性!

过程

本人之前做过近 2 年的 Java 相关开发,对 HTTP 协议中常用的知识了解一些,再加上 Python 出了名的简洁易用,因此入门还是比较轻松的。去年有一段时间研究过一阵子 Python,使用的是 Scrapy 框架,所以这一次我也首先想到了 Scrapy。

Scrapy 这种框架适用的情形是:已经获取了需要爬取的页面的一系列 URL ,或者 URL 是成一定规律变化的,不需要登录或者登录一次拿到 Cookie 就可以拿着这个 Cookie 一直用了。但是教务系统完全相反,它需要每次都进行登录,也许 Scrapy 有办法,但也不会太简单,索性自己写。小编推荐一个学Python的学习裙【五八八,零九零,九四二】,无论你是大牛还是小白,是想转行还是想入行都可以来了解一起进步一起学习!裙内有很多干货和技术分享

这套教务系统虽然安全性不怎么样,但也已是一套成熟的产品了,功能和稳定性上还是很不错的。

首先使用 Firefox 浏览器的开发者工具查看 HTTP 通信的一些信息:

登录表单通过 POST 请求进行提交,参数是账号和密码,发送的也是明文

服务器返回的响应中 Set-Cookie 就相当于给用户下发的令牌,用户下一次请求的时候带上这块令牌,服务器就能认出来这个用户是否刚登录过。这个令牌是有时间限制的,每次请求都会刷新一次时间,如果两次请求之间间隔时间超过设定值,那么服务器就不认识用户了,这次会话就结束了,需要重新登录。

刚开始使用的是 requests ,用 for 循环实现,由于 requests 是同步的,所以效率很低,还会经常卡死。后来改成了协程,用的 gevent + urllib3,效率提升了上百倍。解析 HTML 用的 lxml 的 etree,图片的保存用 PIL 的 Image。

先引入依赖

创建 HTTP 连接池

请求头的一些固定信息可以预先设定好,伪装浏览器

登录并验证是否是初始密码

至此已经获取了所有初始密码未修改的账号了,下面研究一下,要爬取的学籍信息页的规律

一系列的信息都包裹在

之间,对应的 xpath 表达式即为

//td[starts-with(@width,"275")]/text()

基于之前对账号的测试,爬取学籍信息

至此,已经实现了所有信息的获取以及照片的保存。

没改密码的同学们应该看到了,获取个人信息其实很简单,关键在于增强自己保护个人信息的意识

相关文章

网友评论

    本文标题:Python爬虫分分获取URP教务系统学籍信息!

    本文链接:https://www.haomeiwen.com/subject/lribxftx.html