Python3.5+PyQt5词频统计(一)

作者: Pantheon | 来源:发表于2016-10-11 15:39 被阅读291次

    一、需求分析


    统计给定英文文档中单词出现的频率,要求速度快、准确率高,有良好的交互界面,初期实现简单的分词、统计功能,不考虑词形变换等复杂情况,中期要实现相对简单的词形还原任务,后期实现复杂的词形变换还原(需要较强的自然语言处理能力,暂不考虑)

    二、环境搭建


    | 所需环境 | 推荐工具 |
    | ------------- |:-------------:| -----:|
    |Python编程工具|PyCharm 2016.2|
    |Python版本|Python 3.5|
    |PyQt版本|PyQt5 |
    |界面设计| QtDesigner|
    |打包程序| pyinstaller|

    • 1、官网下载安装Python3.5
    • 2、官网下载安装PyCharm
    • 3、可以在PyCharm打开setting>Project Interpreter>点击加号搜索PyQt5直接安装,其他安装方式请自行搜索
    • 4、下载Qt5.7安装,自带QtDesigner和QtCreator
      注意事项
      网上搜索许多PyQt教程,他们的PyQt5中一般自带QtDesigner程序,不知道为什么我的没有,所以只好下载完整的Qt5.7安装包
    • 5、PyInstaller支持Python3,cx_Freeze暂不支持

    三、测试案例


    使用1M、20M、100M的txt文档,1M、100M的doc文档,50M的docx文档,一个小型的数字文档测试对数字分词的准确率

    第一次次测试文档 第二次测试文档

    相关文章

      网友评论

      本文标题:Python3.5+PyQt5词频统计(一)

      本文链接:https://www.haomeiwen.com/subject/cgfbyttx.html