美文网首页python入门基础学习程序员
Python分析36套四级真题获取词频最高5000个词汇,还怕四

Python分析36套四级真题获取词频最高5000个词汇,还怕四

作者: 编程新视野 | 来源:发表于2019-01-14 13:47 被阅读11次

    前言

    从历年四级英语真题中获取词频最高的 5000 个词汇 ,并进行翻译 !综合用到了爬虫 、数据分析等知识 ,亲爱的读者们还担心四级不能过么?

    本人对于Python学习创建了一个小小的学习圈子,为各位提供了一个平台,大家一起来讨论学习Python。欢迎各位到来Python学习群:943752371一起讨论视频分享学习。Python是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长,掌握Python核心技术,才是掌握真正的价值所在。

    基本开发环境

    版本:Python3

    系统:Windows

    相关模块:csv、peewee、Counter等

    程序介绍

    自动批量收集文件中的英语单词 txt (utf-8)

    统计排序保存到本地数据库 voca.db

    翻译英文得到中文解释

    数据库文件提取得到csv表格

    主要目的

    成为考试必备词库

    希望大家都能轻松过四级

    工作流程

    配置查询文档

    自动分析数据保存至voca.db数据库文件

    自动打开数据库调用api翻译单词并保存到数据库里

    将数据库文件转换成csv表格文件

    具体实现

    数据 (docx 复杂的文档结构不好用,可以在word里面以txt方式保存)

    读入文件拿到所有单词

    剔除 常用单词(is am are do……)

    计数

    数据库初始化 peewee模块

    加入单词到数据库

    翻译

    提取所有单词到csv

    完整代码可以加Python学习群:960410445

    翻译过程

    出现次数最多的简单词

    出现次数较少,值得一背的词

    上述完整代码和获取到的统计结果(5000个高频词),完整代码可以加Python学习群:943752371群自行领取

    相关文章

      网友评论

        本文标题:Python分析36套四级真题获取词频最高5000个词汇,还怕四

        本文链接:https://www.haomeiwen.com/subject/gsiddqtx.html