美文网首页
用Python查询成绩|(二)模拟登录教务网并获取成绩

用Python查询成绩|(二)模拟登录教务网并获取成绩

作者: weizujie | 来源:发表于2019-07-11 16:13 被阅读0次

    前言

    av8d大家好鸽了几个月的我又回来了!

    在上一篇用Python查询成绩|(一)网络爬虫基础知识中我大概的讲了一下网络爬虫的基础知识,这一篇就有干货了啊,直接开始模拟登录教务网。

    本篇内容

    • 1, 用 Python 模拟登录教务网
    • 2, 获取成绩

    以下代码均可以在我的 Github 上找到:

    https://github.com/DuChuan19/NkemisScoreSpider

    免责声明:本文仅供学习交流,如出现任何法律问题本人概不负责!

    用 Python 模拟登录教务网

    整体思路

    1,向登录界面发送登录请求,POST 一系列参数,包括账号、密码等,获得响应,提取一些关键参数

    2,得到参数重新发送登录请求,POST 参数之后即可登录

    第一次向登录界面发送请求

    第一次向登陆页面发送请求,是为了看看需要 POST 哪些参数,光提交账号密码是肯定不行的。

    1.png

    这里可以看除了账号密码还有另外的四个参数,分别是__VIEWSTATE__VIEWSTATEGENERATORImageButton1.xImageButton1.y,前两个经过分析可以在登录页面找到

    2.png

    我们可以通过 requests 的 get 方法得到

    后面两个应该是登录按钮的位置

    3.png

    然后可以通过以下代码来得到需要的参数,账号密码可以手动输入

    def post_data(self):
        """
            获取用户登录时需要提交的数据
            :return: data
            """
        try:
            html = requests.get(self.SYSTEMLOGIN_URL, headers=self.random_header())
            bsObj = BeautifulSoup(html.text, 'lxml')
            __VIEWSTATE = bsObj.find('input').attrs['value']
            __VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
            data = {
                "__VIEWSTATE": __VIEWSTATE,
                "__EVENTVALIDATION": __VIEWSTATEGENERATOR,
                "txtUserID": self.textUserID,
                "txtPasswd": self.textPasswd,
                "ImageButton1.x": 1,
                "ImageButton1.y": 1
            }
            return data
    

    第二次向登录界面发送请求

    这次请求需要包含以上获得的参数,不然没法得到正确的响应

    直接来看代码:

    session = requests.session()
    session.post(self.SYSTEMLOGIN_URL, data=self.post_data())
    

    关于 session 的详细说明以及用法,可以访问官方文档进行查看

    这里我大概的说一下

    requests 库的 session 对象能够帮我们跨请求保持某些参数,也会在同一个 session 实例发出的所有请求之间保持cookies

    所以我们发送了带有登录参数的数据,如果参数正确,就能登录成功了

    4.png

    获取成绩

    成功登录教务网之后,接下来便是获取成绩了

    我们需要获取的数据只有两个,课程标题以及对应的总评成绩

    这里有两种方法,一种是通过正则表达式来获取,另一种是用 pandas 库

    用正则表达式来获取成绩

    5.png

    可以看到,课程名称和总评成绩都包含在 tr 标签下

    为了方便看,我把课程名称和总评成绩分开写

    # 课程标题
    title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
    title_items = re.findall(title_pattern, res.text)
    
    # 每科对应总成绩
    score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
    score_items = re.findall(score_pattern, res.text)
    

    下面是登录和获取成绩的完整代码:

    def get_score(self):
            """
            登录教务网并且获取课程标题以及对应的成绩
            :return:
            """
        # Login
        session = requests.session()
        session.post(self.SYSTEMLOGIN_URL, data=self.post_data())
    
        # Get score
        res = session.get(url=self.SCOREQUERY_URL)
    
        # 课程标题
        title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
        title_items = re.findall(title_pattern, res.text)
    
        # 每科对应总成绩
        score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
        score_items = re.findall(score_pattern, res.text)
    
        # 将数据保存为字典格式
        for title, score in zip(title_items, score_items):
            self.ITEMS.append({
                'title': title.replace('\r', '').replace('\t', '').replace('\n', ''),
                'score': score.replace('</td>', '')
            })
    

    我们将获取到的数据保存为字典格式,以便后面入库

    运行一下,成功得到了课程名称和总评成绩(学渣一枚,成绩太差了,见笑)

    6.png

    下面是完整代码:

    # -*-coding:utf8-*-
    import re
    import random
    import pandas
    import pymysql
    import requests
    from bs4 import BeautifulSoup
    
    
    class Nkemis_helper(object):
    
        def __init__(self, textUserID, textPasswd):
            """
            Nkemis Helper
            :param textUserID: 学号
            :param textPasswd: 密码
            """
    
            self.textUserID = textUserID
            self.textPasswd = textPasswd
            self.SYSTEMLOGIN_URL = 'http://222.30.63.15/NKEMIS/SystemLogin.aspx'
            self.SCOREQUERY_URL = "http://222.30.63.15/nkemis/Student/ScoreQuery.aspx"
    
            self.ITEMS = []  # 存放课程标题以及对应的成绩
    
        def random_header(self):
            """
            随机选取一个 User-Agent
            :return: random header
            """
            USERAGENT_LIST = [
                "Mozilla/5.0(Macintosh;IntelMacOSX10.6;rv:2.0.1)Gecko/20100101Firefox/4.0.1",
                "Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1)",
                "Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11",
                "Mozilla/5.0(Macintosh;IntelMacOSX10_7_0)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.56Safari/535.11",
                "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1)",
                "Mozilla/4.0(compatible;MSIE7.0;WindowsNT5.1;Trident/4.0;SE2.XMetaSr1.0;SE2.XMetaSr1.0;.NETCLR2.0.50727;SE2.XMetaSr1.0)",
            ]
            return {"User-Agent": random.choice(USERAGENT_LIST)}
    
        def post_data(self):
            """
            获取用户登录时需要提交的数据
            :return:
            """
    
            try:
                html = requests.get(self.SYSTEMLOGIN_URL, headers=self.random_header())
                bsObj = BeautifulSoup(html.text, 'lxml')
                __VIEWSTATE = bsObj.find('input').attrs['value']
                __VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
                data = {
                    "__VIEWSTATE": __VIEWSTATE,
                    "__EVENTVALIDATION": __VIEWSTATEGENERATOR,
                    "txtUserID": self.textUserID,
                    "txtPasswd": self.textPasswd,
                    "ImageButton1.x": 1,
                    "ImageButton1.y": 1
                }
                return data
            except:
                print('网络未连接, 请查看网络')
    
        def get_score(self):
            """
            登录教务网并且获取课程标题以及对应的成绩
            :return:
            """
    
            # Login
            session = requests.session()
            session.post(self.SYSTEMLOGIN_URL, data=self.post_data())
    
            # Get score
            res = session.get(url=self.SCOREQUERY_URL)
    
            # 课程标题
            title_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>(.*?)</a>', re.S)
            title_items = re.findall(title_pattern, res.text)
    
            # 每科对应总成绩
            score_pattern = re.compile('<tr align="center">.*?<td align="left">.*?<a.*?>.*?</a>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>.*?<td>(.*?)<td>',re.S)
            score_items = re.findall(score_pattern, res.text)
    
            # 将数据保存为字典格式
            for title, score in zip(title_items, score_items):
                self.ITEMS.append({
                    'title': title.replace('\r', '').replace('\t', '').replace('\n', ''),
                    'score': score.replace('</td>', '')
                })
            print(self.ITEMS)
    
        def save_to_mysql(self):
            # connect mysql
            db = pymysql.connect("localhost", "root", "toor", "db_nkemis")
            cursor = db.cursor()
    
            # 以学号作为表名创建表
            try:
                CREATE_TABLE_SQL = "CREATE TABLE student_%s (title varchar(255), score varchar(255))" % self.textUserID
                cursor.execute(CREATE_TABLE_SQL)
                db.commit()
            except:
                db.rollback()
    
            # 将学生成绩存进数据库
            for item in self.ITEMS:
                INSERT_SQL = "INSERT INTO student_%s (title, score) VALUES ('%s', '%s')" % (self.textUserID, item['title'], item['score'])
                cursor.execute(INSERT_SQL)
                db.commit()
    
            db.close()
    
    
    if __name__ == '__main__':
        textUserID = input("学号: ")
        textPasswd = input("密码: ")
    
        helper = Nkemis_helper(textUserID, textPasswd)
        helper.get_score()
        helper.save_to_mysql()
    

    爬取数据下来之后入库:

    7.jpg

    用 pandas 来获取成绩

    7.png

    我们可以看到,无论是课程名称还是成绩,都是包含在一个 table 里,用 pandas 就可以很方便快速的提取这个 table

    8.png

    下面是完整代码:

    # -*-coding:utf8-*-
    import re
    import random
    import pandas
    import pymysql
    import requests
    from bs4 import BeautifulSoup
    
    
    html = requests.get('http://222.30.63.15/NKEMIS/SystemLogin.aspx')
    bsObj = BeautifulSoup(html.text, 'lxml')
    __VIEWSTATE = bsObj.find('input').attrs['value']
    __VIEWSTATEGENERATOR = bsObj.find('input', id='__VIEWSTATEGENERATOR').attrs['value']
    data = {
        "__VIEWSTATE": __VIEWSTATE,
        "__EVENTVALIDATION": __VIEWSTATEGENERATOR,
        "txtUserID": 学号,
        "txtPasswd": 密码,
        "ImageButton1.x": 1,
        "ImageButton1.y": 1
    }
    
    session = requests.session()
    session.post('http://222.30.63.15/NKEMIS/SystemLogin.aspx', data=data)
    res = session.get(url='http://222.30.63.15/nkemis/Student/ScoreQuery.aspx')
    bsObj = BeautifulSoup(res.text, 'lxml')
    dfs = pandas.read_html(bsObj.select_one('table.dgrdglobal').prettify())
    df = pandas.DataFrame(dfs[0]).drop([1,2,3,4,7,9,8,12], axis=1)
    

    总结

    这人太懒了,没有写总结。

    偷偷BB一句,这个爬虫拿去参加了计算机系的多媒体大赛,混到了个奖状 :)

    (叉会儿腰)

    相关文章

      网友评论

          本文标题:用Python查询成绩|(二)模拟登录教务网并获取成绩

          本文链接:https://www.haomeiwen.com/subject/agydkctx.html