美文网首页
如何提取高考完型填空高频词汇

如何提取高考完型填空高频词汇

作者: Josephx | 来源:发表于2020-01-07 15:09 被阅读0次

    1. 手机软件拍照搜集所有完型填空文章,放入组卷中心

    1578378828382.png

    2. 复制网页源码到sublime

    按F12找到源码位置,右键复制outerHTML

    1578378934621.png

    复制到sublime

    1578379175050.png

    3. 确认正则表达式提取选项内单词

    观察源码,每个ABCD选项后都有换行符

    1578379617444.png

    故正则为

    A.([\s\S]+?)B.([\s\S]+?)C.([\s\S]+?)D.([\s\S]+?)\n
    

    4. 利用代码提取所有单词,另存为xlsx

    读取源文件到str

    正则表示取出ABCD后面的单词

    数据清洗: 替换掉&nbsp等杂质

    数据装入list,转为Series,计算频率

    import re
    import pandas as pd
    import numpy
    '''
    复制源码提取选项并统计频率,D选项后面是换行符
    '''
    # 读取text文本文件
    f = open("/Users/josephxie/Desktop/完型填空.html","r")   #设置文件对象
    str = f.read()     #将txt文件的所有内容读入到字符串str中
    f.close()   #将文件关闭
    pattern = re.compile(r'<[\s\S]+?>')
    str = re.sub(pattern, '', str)
    
    str = str.replace('&nbsp;',' ')
    str = str.replace('\n      ','')
    pattern = re.compile(r'<td width=[\s\S]+?>')
    str = re.sub(pattern, '', str)
    list = []
    reg = r'A.([\s\S]+?)B.([\s\S]+?)C.([\s\S]+?)D.([\s\S]+?)\n'
    words = re.findall(reg, str)
    for i in words:
        for j in i:
            list.append(j.lstrip())
    # print(list)
    data = pd.Series(list)  # 计算频率,统计出现次数
    data = data.value_counts()
    data.to_excel('/Users/josephxie/Desktop/text.xlsx')
    

    共有1013个结果

    正则匹配

    5. 观察结果,部分数据出现问题

    发现部分选项没有匹配到,将错误数据手动复制到新sublime中重新提取

    1. 有部分正文内容有a.
    2. 有部分选项后面没有换行符
    1578380304026.png image-20200107203908720

    观察后正则变为

    A.([\s\S]+?)B.([\s\S]+?)C.([\s\S]+?)D.([\s\S]+?) 
    

    重新提取

    '''
    手动从结果中提取失败的选项,D选项后面是空格
    '''
    f2 = open("/Users/josephxie/Desktop/Html2","r")   #设置文件对象
    str2 = f2.read()     #将txt文件的所有内容读入到字符串str中
    f2.close()   #将文件关闭
    list2 = []
    reg = r'A.([\s\S]+?)B.([\s\S]+?)C.([\s\S]+?)D.([\s\S]+?) '
    words2 = re.findall(reg, str2)
    for i in words2:
        for j in i:
            list2.append(j.lstrip())
    data2 = pd.Series(list2)
    data2 = data2.value_counts()
    data2.to_excel('/Users/josephxie/Desktop/text2.xlsx')
    print(data2)
    

    共有227个结果

    第二次提取结果

    6. 将俩次结果合并

    '''
    合并俩次结果dataframe
    '''
    df1 = pd.read_excel('/Users/josephxie/Desktop/text.xlsx', names = ['单词', '频率']) 
    df2 = pd.read_excel('/Users/josephxie/Desktop/text2.xlsx', names = ['单词', '频率'])
    df3 = df1.append(df2)
    df4 = df3.groupby(by=('单词')).sum()
    df4.sort_values('频率', ascending = False).to_excel('/Users/josephxie/Desktop/result.xlsx')
    df4
    

    7. 在excel中用字母排序,手动将类似单词合并

    没有想到合适的代码,只能手动修改

    先对A列排序再手动合并相同词根的单词

    合并同词根单词

    8. 把结果放入word,排版打印

    1578380562131.png

    相关文章

      网友评论

          本文标题:如何提取高考完型填空高频词汇

          本文链接:https://www.haomeiwen.com/subject/tavractx.html