美文网首页编程it互联网@IT·互联网IT 森林
python selenium模块实现自动选课

python selenium模块实现自动选课

作者: Rabin_xie | 来源:发表于2016-09-17 23:31 被阅读2090次

事情缘由还得从那天下午的课说起。当时大家都在认真听课。突然,旁边一哥们说他抢到了“高级数理逻辑”了,what???“高级数理逻辑”?就是那门课水易过的神课?可是明明选课系统刚开始1分钟不到就没了呀。于是,就问了他是怎么搞到的。他说是运行了几行JavaScript脚本,自动刷课的。我恍然大悟,原来你们都是这么选课的啊!于是就考虑要不自己也搞个脚本?事不宜迟,课后就开搞!

具体怎么操作呢?我最开始的想法是调出Chrome控制台,写好JavaScript代码,然后准备循环刷新运行。但老是报错“no such element”,以前没怎么用过JavaScript,以为跳转到不同的页面之后,原页面上的代码就不能用了,所以会出现找不到元素的错误。现在回过头来看,原来是由于该元素在另外一个frame中里面,必须先移动到另外一个frame,才能找到对应的元素,所以才会报这个错。有时间搞个JS版的脚本。

不管怎么样,直接在控制台执行JavaScript的想法在当时看来是不行了。这时我想到了假期实习时曾用python selenium库试着爬取微博用户的头像,这个库能实现摸拟浏览器运行,不需要分析各种表单提交参数,就能读到动态网页的所有信息,实在是爬动态网页的首选,缺点是速度比较慢。后来,因为新浪PC站的反爬虫相对严格,最终还是用了requests库加上cookie参数爬微博移动站。如果要爬取社交网站的数据的话,其对应的静态的移动站是比较靠谱的选择。

最终决定选择用python,结合selenium库实现自动选课。
正式进入今天的主题。

环境配置

  1. 安装python3,再安装selenium库,直接pip install selenium就行。
  2. 下载chromedriver驱动,也可以选择没有界面的phantomJS浏览器,为了方便调试,也不追求速度,我选择了有界面的chrome浏览器。
  3. 引入Chrome浏览器
    chromedriver = "E:\LabProjects\crwalChinaZ\chromedriver"
    os.environ['webdriver.chrome.driver'] = chromedriver
    driver = webdriver.Chrome(chromedriver)

用上面这种方式启动Chrome不用设置环境变量,只需要给出chromedriver的本地文件路径即可。然后程序就会打开不带任何配置的纯净的chrome浏览器(可以给webdriver.Chrome()函数传入配置参数,比如插件,这样浏览器就会带上相应的插件)。
执行 driver.get('http://yjxt.bupt.edu.cn/') 打开选课网站,此时运行效果如下

登录界面

填充表单

现在已经成功打开了教务处的网站,下一步输入账户密码,实现登录。

首先定位账户密码表单的位置,传入自己的账号和密码。driver.get(url)用于打开一个网页,但由于现在的大多数的Web应用程序使用Ajax技术,当一个页面被加载到浏览器时,该页面内的元素可以在不同的时间点被加载。而driver.get(url)并不保证web页面所有元素加载完成后再返回。对于这样的情况,官网给的建议是显式或隐式地等待一段时间。用driver.implicitly_wait(seconds)实现隐式等待,WebDriverWait()(下面会提到)实现隐式等待。根据函数单词意思,“隐式等待”很容易理解,就相当于sleep一段时间,那显式等待WebDriverWait()怎么理解呢?我们先看该函数的一个使用示例:

try:
    CourseManagement = WebDriverWait(driver, 20).until(
        EC.presence_of_element_located((By.ID, 'menu')))
except Exception as e:
    print(e)

以上代码表示最多等待浏览器20秒,或直到ID为“menu”的节点出现为止,如果元素出现,则将这个节点赋给了CourseManagement,如果超时了则报错。结合函数的字面意思也很好理解。具体各个参数的意义详见selenium中文文档

待页面元素都加载完成后,需在网页的源码中找到账户密码表单元素的位置。注意,必须通过“更多工具-》开发者平台”或直接“右键-》检查”,而不能通过“右键-》查看网页源代码”来获得查看页面的源代码,这两者的内容是不同的,前者包含了静态和动态加载的源码,后者只有静态的源码,没有我们所需要的表单元素。

selenium提供了很多定位元素的方法,常用的有find_element_by_idfind_element_by_namefind_element_by_xpath。官网提供了更多定位元素的方法,详见selenium中文文档。如何确定元素的xpath路径,一直是件让人头疼的事。有个小技巧很有用,在开发者平台上找到要找的页面元素,然后“右键-》copy-》copy xpath”,这样该元素的xpath路劲就复制到粘贴板上了,直接粘贴即可,非常好用!找到表单的代码如下:

driver.implicitly_wait(3)
# driver.maximize_window()
account = driver.find_element_by_id("username")
passwd = driver.find_element_by_id('password')

确定表单之后,需要填充表单,这里使用send_keys方法,分别传入你的账户和密码填充表单。

account.send_keys(config.account)
passwd.send_keys(config.password)

提交表单

表单填好后,当然是提交表单。在selenium中有几种方法能提交表单。

  1. 在页面中观察对应的提交按钮,找到这个元素,然后执行该元素的click()方法,实现表单提交。在这个页面中,“提交”按钮当然是“立即登录”按钮了,找到这个元素再执行click()方法即可。这种方法虽然通用,但必须找到登录元素所在的位置,比较麻烦;
  2. 直接执行account.submit()方法,也能提交表单。当调用元素的submit()方法时,selenium会寻找离该元素最近的可提交的元素,具体是有type="submit"属性的元素,并提交。这里离account最近的满足该条件的元素当然就是“立即登录”按钮啊,所以也能达到提交表单的效果。当然,按照这个原理,也可以通过密码框元素的submit()方法即passwd.submit()实现同样的效果,非常方便,推荐使用这种方法;
  3. 最后一种方法是模拟键盘的操作。很多网站登录页面的实现逻辑都是账户和密码填好后,直接按回车就可以提交表单,实现登录。selenium提供了模拟键盘的方法,如elem.send_keys(Keys.RETURN),这相当于“点击”了回车键,实现同样的效果。

综合来说,个人觉得第二种方法更加直观好用,第三种模拟键盘的方法需要考虑网站的键位顺序,可能会出现一些问题。所以直接执行account.submit(),进入选课系统,现在页面如下:

![选课系统界面1]
](http:https://img.haomeiwen.com/i3029393/2a0d92550e561530.JPG?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

选课系统界面2

进入选课页面

现已成功登录系统,按照选课流程,需要先点击左下角“课务管理”,然后再点击“课务管理”下面的“课程网上选课管理”,此时右边弹出的界面即为选课页面。所以,现阶段的任务是找到“课务管理”和“课程网上选课管理”两个元素,分别执行click事件,进入选课界面。

首先找到“课程管理”位置,执行click事件

CourseManagement = driver.find_element_by_xpath('//div[@id="menu"]/div[2]')
CourseManagement.click()

可运行时却提示“no such element”错,这令人很郁闷,代码中明明有menu这个id的,为什么会报错呢?这个问题纠结了好久,selenium文档上也没有这个问题,最后费了好大的力气,终于在stackoverflow上找到了答案。有的页面由几个frame组成,如果要访问的元素不在当前的frame中,那么必须先切换到该元素所在的frame,才能进一步选定元素。那frame又是什么呢?我查了下,找到了下面这段简要描述:

框架是网页中常用的技术,可以让多个URL的内容显示在一个页面中。常用标签FRAMESET,FRAME实现。FRAMESET是用以划分框窗,每一框窗由一个FRAME标记所标示,FRAME必须在FRAMESET范围中使用。iframe在frame的基础上提供了更多好用的特性。

仔细一看,左边导航栏果然在一个在一个id为MenuFrame的iframe中,而刚才相当于在默认的frame中,当然找不到这个元素,所以现在的任务是转到相应的frame,再执行操作。【4.jpg】

页面源代码

了解原因后,查了文档,发现switch_to_frame()可以转到指定的frame,代码段如下:

frame = driver.find_element_by_id("MenuFrame")
driver.switch_to_frame(frame)

进入正确的frame之后,下面的代码就能正确执行了

CourseManagement = driver.find_element_by_xpath('//div[@id="menu"]/div[2]')
CourseManagement.click()

下一步是点击“课程网上选课管理”。于是,按上面的套路,我写了类似的代码

driver.find_element_by_id('tree1_2_a').click()

代码执行后,点击事件能触发,但是右边弹出的页面却并不是预想的选课页面。仔细一看,原来是错误地“点击”了“学期课表信息查询”按钮,导致右边界面不对。再次确认元素的id没问题后,接着又执行了几次,每次结果都不太一样,有时候“点击”上面的按钮,有的时候“点击”下面的按钮。程序员的都知道,这种不按套路跑的程序是最让人头疼的,代码明明是对的,但为什么每次结果都不一样呢?难道还是代码的问题?代码肯定没错,应该是环境的问题......

ActionChains类

这一通无意义的想法下来,我还是乖乖谷歌吧。用中文搜了好久也找不到对应的问题,最后还是用了英文关键字才找到了问题的所在。这种问题主要是由于模拟浏览器的指针定位错误引起的,就相当于鼠标的坐标计算错了,所以导致点击了错误的位置。有人提出了可以用ActionChains类来实现点击事件,以下是ActionChains实现示例:

menu = driver.find_element_by_css_selector(".nav")
hidden_submenu = driver.find_element_by_css_selector(".nav #submenu1")
ActionChains(driver).move_to_element(menu).click(hidden_submenu).perform()

最后一行是一个动作链的实现,首先移动到menu元素,然后点击hidden_submenu元素,最后的perform()表示立即执行该动作链。ActionChains实现机制类似于真实的鼠标操作,容易理解。但代码改用ActionChains实现鼠标点击事件后,错误仍然存在,真是让人奇怪,难不成确实是环境的问题?看来还得找另外的方法。

嵌入JavaScript代码

stackoverflow上有人提到,selenium有直接执行JavaScript代码的接口。selenium本身就是一个JS模拟器,用原生的JavaScript实现点击事件肯定没问题。貌似有点道理,先试一试再说。于是我嵌入了一行简单的JavaScript代码

driver.execute_script('document.getElementById("tree1_2_a").click()')

再次运行,bug解决!

一路随着bug狂奔之后,最终的选课界面终于出现了,下一步就是就是找到要选的课的位置,循环判断能否选课,再传递click事件,完成选课!

返回默认frame

然而,还是太年轻,高兴得太早了。接着,先找到课的位置,再执行简单的点击事件(PS. 下面的xpath路劲是直接在控制台复制的,方法见上,简单快速!)

driver.find_element_by_xpath('//*[@id="contentParent_dgData"]/tbody/tr[44]/td[8]')

但是又提示“no such element”错误。又是这个错误!仔细一想,难道选课页面在另外一个frame里?仔细一看,还真是。所以必须先转到选课页面所在的frame,然后才能进行操作。于是又有了下面代码

Courseframe = driver.find_element_by_id("PageFrame")
driver.switch_to_frame(Courseframe)

又是“no such element”错误!为什么呢?原来两个frame间的关系是平行的,在其中一个frame是看不到另一个frame的元素的,必须先进入主frame,即相当于这两个frame的父frame,然后才能进入另外一个frame。查看官方文档后,发现switch_to_default_content()函数能切换到默认的frame。执行这个函数后,上面的代码就能正确地执行了。

到此,下面的逻辑就很简单了。先循环判断要选的课是否处于可选状态,可以的话直接执行click事件。
由于网站的frame用得比较多,需要特别注意frame间的转换。

多说一句

最近阿里月饼事件闹得沸沸扬扬,我也不是受这件事的启发才写脚本的,纯粹是感兴趣。
任务自动化本来就是程序员的一大乐趣,无关价值观。

附. 完整代码:

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains
import os
import io
import sys
import config
import time

# 将wanted_course_num改为想选的课的顺序
# 有效沟通技巧是0,宽带通信网是1,以此类推
wanted_course_num = 42
wanted_course_string = '//*[@id="contentParent_dgData_hykFull_'
wanted_course = wanted_course_string + str(wanted_course_num) + '"]'
wanted_course2 = 'contentParent_dgData_hykSelkc_' + str(wanted_course_num)
print(wanted_course)
# 下载chromedriver,我这里是放在了
# E:\LabProjects\crwalChinaZ\chromedriver
# 更改为你放置的位置
chromedriver = "E:\LabProjects\crwalChinaZ\chromedriver"
os.environ['webdriver.chrome.driver'] = chromedriver
driver = webdriver.Chrome(chromedriver)
# driver = webdriver.PhantomJS()
driver.get('http://yjxt.bupt.edu.cn/')
driver.implicitly_wait(3)
# driver.maximize_window()
account = driver.find_element_by_id("username")
passwd = driver.find_element_by_id('password')
account.send_keys(config.account)
passwd.send_keys(config.password)
account.submit()
# try:
#     CourseManagement = WebDriverWait(driver, 20).until(
#         EC.presence_of_element_located((By.ID, 'menu')))
# except Exception as e:
#     print(e)
driver.implicitly_wait(10)
while 1:
    frame = driver.find_element_by_id("MenuFrame")
    driver.switch_to_frame(frame)
    CourseManagement = driver.find_element_by_xpath('//div[@id="menu"]/div[2]')
    CourseManagement.click()
    driver.execute_script('document.getElementById("tree1_2_a").click()')
    # driver.find_element_by_id('tree1_2_a').click()
    driver.implicitly_wait(5)
    driver.switch_to_default_content()
    Courseframe = driver.find_element_by_id("PageFrame")
    driver.switch_to_frame(Courseframe)


    logic_button = driver.find_element_by_xpath(wanted_course).text
    if u'班级已全选满' in logic_button:
        print('wait 10 seconds!') 
    else:
        # button = driver.find_element_by_xpath('//*[@id="contentParent_dgData"]/tbody/tr[44]/td[8]')
        # button.click()
        string = 'document.getElementById("{}").click()'.format(wanted_course2)
        # print(string)
        # driver.execute_script('document.getElementById(%s).click()' %(wanted_course2))
        driver.execute_script(string)
        driver.implicitly_wait(2)
        driver.switch_to_default_content()
        driver.switch_to_frame(driver.find_element_by_xpath("//iframe[@name='selClass']"))
        driver.execute_script('document.getElementById("contentParent_dgData_ImageButton1_0").click()')
        break;
    driver.switch_to_default_content()
    # driver.refresh()
    time.sleep(10)

相关文章

网友评论

  • justZero:不知道你们怎么样,我们学校的选课系统每次选课都会炸,进不去才是问题的关键(≖_≖ )
  • 49c226c49465:这个是必须要装Chrome才可以运行代码么?chromedriver是相当于一个内建浏览器?
    Rabin_xie:@OnlySaturday 本机需要要装chrome,chromedriver是Google开发的一个驱动,是selenium调用chrome的接口,不是浏览器。
  • 喵小爱QAQ:最近简单看了py本来想试试不过系统已关闭lol
    改天请教一下微博抓取?
    Rabin_xie: @喵小爱QAQ 可以啊,汤兄
  • 38ca446b7642:给校友一个赞
  • 38ca446b7642:活抓北邮geek一人。北邮选课系统关键是刷不出来
    Rabin_xie:@脆皮麻辣酱香猪肘 对啊,这脚本在刷别人的退课比较靠谱...

本文标题:python selenium模块实现自动选课

本文链接:https://www.haomeiwen.com/subject/xjivettx.html