使用Scrapy自动预约51Talk外教老师

作者: 碟枫 | 来源:发表于2017-05-16 13:42 被阅读240次

使用Scrapy自动预约51Talk外教老师
退课换积分，购物遭欺骗
儿子在51talk学英语网课小结
学英语
（国内20年最新机构排名变化）最好的十个网课平台
爬虫实战（二）之 CrawlSpider 爬取新闻网
wetalk的初体验
51talk英语怎样？快来看看多方面测评吧
我的商务英语课体验
学校教育危在旦夕？

Spider

简述

以前购买了51Talk的课程，上了一段时间没有再上了，现在课程剩两个月了，还有150节课，为了能够不浪费，自己只能含泪每天上两节课来弥补以前懒惰造成的后果，结果发现课程太难约了，尤其是好的老师还有指定的时间的课程，自己想找收藏1000+以上的老师，还要一页一页的翻，可是结果也只能是事倍功半，1000+的老师太难找了，并且我自己的预约时间更是没有课，太惨了，最近刚学了Python，想着能不能通过爬虫来预约课程，于是就有了这个脚本51TalkBookLesson来预约收藏1000+老师的课。

功能

只预约菲律宾老师的课，不会预约到欧美外教4次次卡的课

自动预约指定时间，指定收藏数的老师的课
当所有的课程预约完成后，程序就会自动退出

Scrapy

为什么使用Scrapy

Scrapy中的CrawlSpider能够通过Rule规则提取对应的链接并进跟进请求，非常的方便，不需要我们自己一步一步的去请求每一个URL，这非常适合51Talk中老师比较多，页面比较多的情况。

51Talk

def get_request_url(self):
    urls = []
    for lesson in self.need_book_lessons:
        for i in range(1,self.allowed_page + 1):
            url = u'http://www.51talk.com/reserve/index?type=ph&Date={0}&selectTime={1}&course=fiveone&pageID={2}&useSearch=y'.format(lesson.split('_')[0],lesson.split('_')[1],i)
            print url
            # yield url
            urls.append(url)
    return urls

2、老师的信息课程列表的详情

 rules = (
        Rule(LinkExtractor(allow=('http://www.51talk.com/teacher/info/t\d{7,10}')),process_request='request_teacher',callback='parse_teacher_lesson',follow=False,),
    )

follow=False是因为，老师详情页面会有一些推荐老师，这些老师可能是欧美外教，是需要使用4次次卡的，我们禁止跟进这些意外情况。

推荐老师
3、预约课程

r = session.post("http://www.51talk.com/reserve/doReserve", data=payload)

这些请求我们都需要添加Cookie,请求1是需要放在start_urls里面的，请求2的链接是通过Rule规则提取出来的，预约课程请求我则使用python的requests模块，之所以不使用scrapy的FormRequest，是因为FormRequest会被放在已经添加在Scrapy队列里的页面spider请求后面，当前面这些Spider请求完成之后，才能执行我们的预约课程，可是到那时候课程估计已经都没有了，我们需要的是当找到课程之后能够马上请求

Cookie的获取

1、在根目录下创建一个名字为cookie的文件
2、我们需要先登录51Talk网站，在开发模式下的控制台输入 document.cookie按回车，将cookie输出并粘贴到cookie文件，不需要双引号

Python中reques模块中的请求，Cookie的格式是字符串类型的，可以直接使用，而scrapy.http中的Request的Cookie格式是字典格式的，那么我们就需要将cookie文件中字符串类型cookie转换成字典，下面是转换方法：

 def get_cookies(self,cookie):
        cookie_list = cookie.split(';')
        cookie_dic = {}
        for cookie_key_value in cookie_list:
            a_cookie = cookie_key_value.split('=')
            cookie_dic[a_cookie[0]] = a_cookie[1]
        return cookie_dic

Cookie的添加

搜索菲律宾老师的链接是需要放在start_urls中的，所以这些请求是start_requests(self):方法来生成请求的，那么就需要通过重写该方法并为该请求加上Cookie

 def start_requests(self):
        cookie_text = self.get_cookies(self.cookie)
        # urls = self.get_request_url();
        for url in self.get_request_url():
            yield Request(url,cookies=cookie_text)

老师的信息课程列表的详情的链接是Rule规则提取的，那就需要在Rule中的process_request参数中的方法来进行处理，我写的Rule中的process_request的值是request_teacher,那就需要定义这样的一个方法来处理Cookie：

 def request_teacher(self, request):
        cookie_text = self.get_cookies(self.cookie)
        tagged = request.replace(cookies=cookie_text)
        return tagged

预约课程的链接是需要进post的请求的，我们使用下面的方法：

session = requests.session()
session.headers.update({"Cookie": self.cookie})
r = session.post("http://www.51talk.com/reserve/doReserve", data=payload)

使用

配置

1、如果你想预约1000+收藏的老师课，以及指定时间段的课，这些都可以设置，在TeacherSpider.py文件配置你需要的设置和预约的课程，具体配置如下:

allowed_page = 10   #允许每个上课时间所爬取得最大页数
min_faver_count = 1000 #外教老师最少的收藏数
need_book_lessons = ['20170524_44','20170524_45']

你可以修改以上参数来预约相应的的老师及课程，其中need_book_lessons中的参数20170524_44代表2017年5月24日的21:30的课程，_前面的代表日期，后面的代表第几节课，时间从6点开始，数字从13开始，每半个小时数字加1，6:30则为14，7：00为15，依次类推，将你需要预约课程的时间添加到need_book_lessons中

2、当cookie和指定时间段课程都已经配置好时我们就可以来进行爬虫的执行了，在终端中cd到工程根目录，然后执行scrapy crawl TeacherSpider -a cookie=cookie就可以可以愉快地约课了。

提示

如果你在一个指定的日期取消了20次课程，就再也取消不了，找客服也没用，请看这里。
其实51Talk真正的好老师有时候根本就没有一个课可以约，如果你真想约那就自己找到老师的QQ号（找不到可以问客服要的哟），联系老师本人约课。

网友评论

本文标题：使用Scrapy自动预约51Talk外教老师

本文链接：https://www.haomeiwen.com/subject/qrdlxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

使用Scrapy自动预约51Talk外教老师

简述

功能

Scrapy

为什么使用Scrapy

登录

都有什么请求

Cookie的获取

Cookie的添加

使用

配置

提示

相关文章

使用Scrapy自动预约51Talk外教老师

退课换积分，购物遭欺骗

儿子在51talk学英语网课小结

学英语

（国内20年最新机构排名变化）最好的十个网课平台

爬虫实战（二）之 CrawlSpider 爬取新闻网

wetalk的初体验

51talk英语怎样？快来看看多方面测评吧

我的商务英语课体验

学校教育危在旦夕？

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读