美文网首页大数据 爬虫Python AI Sql
简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字

简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字

作者: 919b0c54458f | 来源:发表于2018-07-13 20:05 被阅读1次

找出中文错别字

1.5 代码获取

你可以通过下面命令将代码下载到实验楼环境中,作为参照对比进行学习。

$ wget http://labfile.oss.aliyuncs.com/courses/828/Document.tar

可以预想到,假设我们的语料库长度为 n ,我们可以以 O(1) 的时间复杂度来完成增添条目和查找条目的工作(因为我们给每个单词都设定了ID,所以可以直接访问前后关系对应的内存块),但是这个矩阵会占据 O(n*n)的空间,而且这是一个稀疏矩阵,很多的空间被浪费了。

三、开发准备

打开Xfce终端,进入 Code 目录,创建 ChineseSpellingCheck 文件夹, 将其作为课程的工作目录。

本次实验建议在 virtualenv 环境下进行。

关于 virtualenv,请看 virtualenv 介绍

首先安装 virtualenv

私信小编007即可获取数十套PDF哦!

五、实验步骤

5.1 实现前后关系字典

创建文件夹 Code

在 Code 文件夹中创建文件 CountOfNumbers.py

我们先导入我们这次实验需要的包

word[0].encode("UTF-8") 的作用是检测英文的出现,如果一个中文字符如果没有通过 "UTF-8" 编码,也会被isalpha() 函数认为是一个英文字符。

我们继续我们的 CountOfNumbers.py 的编写

由于这个系统服务的对象是实验楼未来的文档,所以最佳的语料库就是实验楼现有的众多文档。在上一节中我们已经学习了怎么样创建并保存我们的 前后关系 字典。由于实验楼内部的文档不方便公开,我们没有直接提供语料库,而是提供了最终生成的字典。

之前也讨论了,再大的语料库,都不可能覆盖所有中文单词搭配。所以我们需要搜索引擎的场外助攻。

首先请下载我们的数据

查看网站的源码,我们发现有关 创建文档 的标题都用 标签标示了出来。

如果一个搭配不常出现。

搜索引擎会自动询问 是否只需要 --- 的结果

或者搜索引擎的标题中很少有该中文单词搭配的高亮结果。

我们还需要一个函数来判断这个搭配是否常用。这个函数相对来说比较简单,如果我们的单词单配在搜索引擎中出现次数超过3次,那么我们就认为它是一个常见的搭配。

获得我们的数据,并对测试文件进行分词。把没有在前后关系文档中出现的搭配放到 SuspiciousList 当中去。( suspicious adj.有嫌疑的)

获得了 SuspiciousList 之后,我们可以通过搜索引擎的判断来获得最终的错误单词列表 WrongWordList

5.4 把错误的单词在HTML文件中高亮

我们在找出错误的单词之后,肯定想看一看单词在原文中的位置方便修改。实验楼所有的文档都是 .md 的 MarkDown 格式书写的,没有办法直接高亮。但是我们可以吧 MarkDown 解析成 HTML 然后在网页上对错误的单词进行高亮操作。

怎么样,是不是很难?

进群:125240963   即可获取数十套PDF哦!

相关文章

  • 简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字

    找出中文错别字 1.5 代码获取 你可以通过下面命令将代码下载到实验楼环境中,作为参照对比进行学习。 $ wget...

  • 忠于内心

    有错别字

  • 写文档写邮件老出现错别字怎么办?

    写文案,写邮件,写文档,老出现错别字,一直被批评怎么办? 如花推荐一款免费的错别字检测工具:写作猫。 工作时打开网...

  • 语句都不通顺,拉低了文章的可信度

    语句都不通顺,拉低了文章的可信度 我们看文章,是经常看到有错别字的。有人说,就连教科书都有错别字。不知道有没有,我...

  • 关于和错别字十分较真这件事

    感觉我好像天生对错别字超级敏感 不管我是不是一次性看好几行字我都能揪出来错别字 然后自己再对这个有错别字的文章或者...

  • 农贸市场卖菜了

    前天早上发现《享受孤独》的更文有错别字,就改动了一下。后来消息提醒说《享受孤独》被锁文了。我回忆了一下没有敏感词语...

  • 错别字

    无论我多么仔细,多么小心,但发出去后还是发现有错别字。 码字最好不要有错别字,否则让读者看上去不太喜欢,特别对于有...

  • 真的不想再苛求完美了

    之前更文时,可能一二百字或者三四百字,总是仔细检查是否有错别字,是否语句通顺。 总觉得有错别字不太好,怕会让读的人...

  • 工作年终总结

    昨天写了工作的年终总结ppt,提交了以后,晚上全体被@,有错别字语句不通顺,写得不用心,然后要求重新修改,再次提交...

  • 新生@心笙

    答应自己写一篇没有错别字的文章。 为证!

网友评论

    本文标题:简历有错别字被拒绝聘用?文档被领导说?Python实现永无错别字

    本文链接:https://www.haomeiwen.com/subject/tuvspftx.html