美文网首页Python
Python爬虫:统计扇贝单词书

Python爬虫:统计扇贝单词书

作者: 洋阳酱 | 来源:发表于2019-05-24 18:36 被阅读181次

    写在前面的话

    之前给大家写过一个非常基础的Python教程
    Python爬虫详细教程:统计扇贝网站打卡数据

    这个爬虫教程稍微升级了一点点:

    • re.findall精确匹配和跨行匹配
    • 实现最傻瓜的翻页方式(高级的我还不会)
    • 构建了简单的函数

    如果你还没有装Python的话,你可以点击这里第一章 程序的运行

    代码运行图

    先上代码运行图

    这是运行结果,Excel的格式没改(我技术还不行)

    整体思路

    1、爬虫网址:扇贝网单词书
    https://www.shanbay.com/wordbook/202/

    注意看,https://www.shanbay.com/wordbook/这部分都是一样的,关键就是202这个数字不一样,每一个单词书,有自己的数字

    一本单词书,有很多个Unit

    2、通过该网址,爬虫得到每一个Unit的网址:
    https://www.shanbay.com/wordlist/202/16306/

    注意看,https://www.shanbay.com/wordlist/这部分都是一样的,202代表单词书,16306代表Unit

    所以首先,爬虫,把我们要找的单词书的所有Unit的网址读出来

    3、翻页

    每一个Unit,有好几页的单词,所以我们需要翻页

    我们在网页源代码看到,它首先计算,一页20个单词,158个单词要放几页

    然后就在网址后面加?page=,如果是第一页,就是?page=1,第二页就是?page=2,以此类推

    https://www.shanbay.com/wordlist/202/16306/?page=1

    所以,这个由单词书202,Unit16306,页数Page=1组成的网址,才是我们最后要爬取的网页

    4、爬虫部分不再赘述,可参考上一篇,依旧是读取数据,存到Excel

    5、唯一需要注意的是,我们用到了Excel功能,需要我们安装Excel的相关库

    打开命令提示符:附件命令提示符

    输入

    pip install xlwt
    

    装好之后,你再次输入这行代码,应该显示如下

    稍微进阶一下

    正则化re.findall

    上一次已经讲到用re.findall可以找到我们想要的关键词,今天补充2个知识点

    1、()的神奇用法

    不加()的时候,字符串就是从<strong>匹配到<strong>

    find_word = re.findall("<strong>[a-z,A-Z]*?</strong>",web_word) 
    

    加上(),字符串只匹配<strong><strong>中间的内容

    find_word = re.findall("<strong>[a-z,A-Z]*?</strong>",web_word) 
    

    2、多行匹配

    我们在网站中发现,我们要匹配的内容,从<td class="span10"</td>不在同一行。用默认的方式匹配,会匹配失败

    这时候,我们在re.findall最后加上re.S

    find_meaning = re.findall("<td class=\"span10\"> (.*?)</td>",web_word,re.S) 
    

    这样得到的信息,就是完整的

    完整代码

    # -*- coding: utf-8 -*-
    """
    Created on Fri May 24 2019
    
    @author: YangYang
    """
    
    '''
    web_shanbay:扇贝网址
    web_number:单词书编号
    web_wordbook:单词书网址
    web_wordlist:单词书——Unit网址
    web_wordpage:单词书——Unit——分页网址
    
    web_wordbook_data:单词书网页数据
    web_wordlist_data:Unit网页数据
    web_wordpage_data:Unit分页网页数据
    
    wordlist_name:Unit名称
    wordlist_id:Unit编号
    
    '''
    
    from urllib.request import urlopen
    import re
    import xlwt
    import math
    
    
    # 获取单词书网页数据
    def FindWordbookData(web_number):    
        web_shanbay = "https://www.shanbay.com/wordbook/"
        web_wordbook = web_shanbay + str(web_number) + "/"
        web_wordbook = urlopen(web_wordbook)
        web_wordbook_data = web_wordbook.read().decode()
        return web_wordbook_data
    
    # 定位该单词书所有的Unit和对应网址
    def FindWebWordlist(web_number,web_wordbook_data): 
        find_address = "<a href=\"/wordlist/" + str(web_number) + ".*?</a>"
        find_wordlist = re.findall(find_address,web_wordbook_data) 
        # 获取Unit和网址
        wordlist_id = []
        wordlist_name = []
        web_wordlist = []
        for wordlist in find_wordlist:
            ID = wordlist.split('/')[3]
            name = wordlist.split('>')[1]
            name = name[:-3]
            wordlist_name.append(name)
            wordlist_id.append(ID)
            web_wordlist.append("https://www.shanbay.com/wordlist/" + str(web_number) + "/" + str(ID) + "/")
        return web_wordlist
    
    # 获取网页取读数据
    def ReadWebData(web):    
        web_read = urlopen(web)
        web_read = web_read.read().decode()
        return web_read
    
    # 获取页数
    def CalPage(web_data):
        wordlist_num_vocab = re.findall("var pages = Math.ceil(.*?)/",web_data)
        wordlist_num_vocab = str(wordlist_num_vocab[0])[1:]
        var_pages = math.ceil(float(wordlist_num_vocab)/20)
        return var_pages
    
    # 获取标题
    def FindTitle(web_data):
        web_title = re.findall("<title>单词书: (.*?) </title>",web_data)
        return web_title
    
    
    a = '''
    部分单词书编号:
    TOEFL核心词汇21天突破:202
    扇贝托业词汇精选:91918
    扇贝循环单词书·六级(乱序):197656
    高中标准词汇表:16
    人教版小学一年级上:204316
    '''
    print(a)
    web_number = input("请输入单词书编号:")
    #web_number = 202 #这里需要根据你想爬取的单词书,需要改
    web_wordbook_data = FindWordbookData(web_number)    
    web_wordlist = FindWebWordlist(web_number,web_wordbook_data)
    print('\n')
    print("正在取读数据,请等待……")
    
    # 定义保存Excel的位置
    workbook = xlwt.Workbook()  #定义workbook    
    
    
    for wordlist in web_wordlist:    
        web_wordlist_data = ReadWebData(wordlist)
        
        # 打开Excel,保存Sheet和表头
        title = re.findall("<title>词串:  (.*?) </title>",web_wordlist_data)
        sheet = workbook.add_sheet(str(title[0]))  #添加sheet  
        head = ['单词', '解释']    #表头
        for h in range(len(head)):
           sheet.write(0, h, head[h])    #把表头写到Excel里面去
        m = 1 #定义Excel的行数    
        
        # 获取Unit的页码和相应内容
        var_pages = CalPage(web_wordlist_data)
        for i in range(1,var_pages+1):
            web_wordpage = str(wordlist) + "?page=" + str(i)    
            web_wordpage_data = ReadWebData(web_wordpage)
        
            # 开始获取单词和解释
            find_word = re.findall("<strong>([a-z,A-Z]*?)</strong>",web_wordpage_data) 
            find_meaning = re.findall("<td class=\"span10\">(.*?)</td>",web_wordpage_data,re.S) 
            find_result = zip(find_word,find_meaning) 
            for word,meaning in find_result:            
                sheet.write(m, 0, word)
                sheet.write(m, 1, meaning)
                m += 1            
    
    SaveAddress = FindTitle(web_wordbook_data)
    SaveAddress = str(SaveAddress[0]) + ".xls"
    workbook.save(SaveAddress)
    print('\n') 
    print('写入excel成功')
    print("文件位置:和你的代码在一个文件夹下面")
    print('\n') 
    input("取读完毕,点击回车退出") 
    

    最后

    1、如果这本单词书是你自己收藏的,扇贝已经下架了,那需要你先账号密码登入,再来爬取你自己收藏的单词书
    Python爬虫:账号密码登入扇贝
    2、爬取的时候,你需要注意,代码默认,是把每一课的名称作为sheet。遇到下面这种情况,代码会报错

    名称重复
    这时候,你可以把sheet命名那一行的代码修改一下,直接把1,2,3,4作为sheet。或者你干脆把所有的单词都放在一个sheet下面。
    修改代码

    3、Excel文档和你的代码会在一个目录下面,你也可以自己改路径

    4、Excel比较丑,麻烦大家自己手动调一调(因为我还不会写代码改格式)

    有任何问题,欢迎大家给我留言~
    这是小白给小白的教程~

    相关文章

      网友评论

        本文标题:Python爬虫:统计扇贝单词书

        本文链接:https://www.haomeiwen.com/subject/iuunzqtx.html