一、智能化中文文本校对技术简介
随着计算机在新闻及图书出版业领域的广泛应用,各种电子出版物如雨后春笋班不断涌现,尤其是随着互联网技术的发展,网络电子杂志、商务网页、社交网络平台更是多如牛毛。而不管是出版社的报纸或是图书,还是互联网上的各种电子信息,一般都是通过键盘录入、OCR识别或语音识别等方式进入计算机的。这些录入方式在目前的技术水平下都不能保证所输入的信息准确无误。文本校对已经成为报刊、书籍出版前的审核把关的重要环节,它直接影响着出版物的质量。随着近年来出版行业业务量和电子化的飞速发展,校对环节的工作量大大增加,使得传统人工校对方法越来越成为印刷出版自动化的瓶颈,解决录入信息的准确性问题已经成为耽误之急。
因此使用计算机来代替人进行文本校对工作意义重大,计算机校对比人工校对具有明显的优点,主要体现在以下几个方面:
(1)计算机校对的速度快、效率高、不疲劳。校对工作本身是一种比较机械的工作,校对人员长时间地面对密密麻麻的汉字、字母、标点符号和各种算式,眼晴和精神都十分疲劳,往往在精神上产生一种烦情绪,注意力的广度和稳定性均直线下降,如果没有良好的敬业精神,甚至就会匆匆地测览而过,差错也就不知不觉地隐伏下来,给图书的编校质量造成影响。计算机校对则不存在疲劳和烦躁的问题,且它的速度和效率更是人工校对所望尘莫及的。
(2)计算机不存在工作态度、心理情緒等问题,人工校对因不同人员的工作环境、工资待遇等的不同而会影响校对人员的工作态度或心理情绪,造成对文本校对质量的影响,而这种由于工作态度或心理情绪问题,在计算机上是不存在的。
(3)计算机校对软件里的词库和专业术语词库容量非常之大,非一般的人工校对员的知识面所能比,且校对不同专业的书稿时,可挂接不同的专业术语词库,因此,对中文字、词、语法错误,不符合汉语语法和语义的词搭配错误、领导人人名和职务搭配错误、科学计量单位使用不规范、成对标点的错误使用、某些数字错误、不符合所挂专业词库的术语及英文单词拼写错误等均可迅速查出并标红。另外,对那些人工校对容易忽略的错误,如“冲刺”和“冲刺“(误),“竟争”和意争”(误),“震撼”和“震憾 (误),“气概”和“气慨(误),“治理”和“冶理”(误),“已经”和“己经”(误)等 等,电脑均能快速、准确地查找出来。
智能化中文文本校对校对系统的组成:
智能化中文文本校对系统主要包括知识获取模块、预处理与分词模块、自动查错模块和自动纠错模块四个主要模块,同时还包括预处理知识库、查错知识库、纠错知识库等知识库系统。各个模块之间的关系如图1所示:
模块关系图(1)知识获取模块:从大规模语料库(包括生语料和熟语料)中获取语言统计知识,用以建立文本自动查和自动纠错的语言模型与算法。知识库由两部分构成:查错知识库和纠错知识库,查错知识库主要用于文本查错模型与算法,包括从生语料中获取的字频向量表、二元、三元字字同现率表,从分词和标注后语料中获得的词频向量表、词二元同现表、词性二元和词性三元同现表、二元义类大类和义类中类同现表、同时还包括句法知识库和政治性规则库。错知识库主要用于对标红的错误给出错建议,包括易混淆词典、相似码字词词典、字驱动双向词典、英文单词骨架键词典以及似然匹配规则。进行纠错建议排序时,还要用到查错知识库中的字词接续(由同现数据得到) 和词性接统计知识。
这部分是独立于系统之外单独用来从语料中获取统计知识的,与其他三部分在程序上没有紧密的连接。
(2)预处理与分词模块:预处理和分词模块主要是对校对的文本进行分词,目前我们的系统能够识别纯文本格式(DXT)和富文本格式(RF),对于其他格式的文本文件,如Word、PDF、WPS和华光格式,需要进行格式转换,去掉控制符,生成纯文本的格式。分词是大多数自燃语言处理系统的基础,本系统也不例外,我们实现了最大配的分词模块,该模块同时具有人名、地名的识别功能,由于使用插件式结构,本系统完全可用于分词模型与算法的试验,也可以将现有的效果较好的分词程序方便地接入我们的系统,用于查模型和纠错模型。
(3)自动查错模块:该模块主要实现了各种查错模型与算法,该模块的主要功能是进行中文文本错误的侦测查错,具体来说包括中文文本的字词级、句法级、语义级和政治性错误的侦测,对于字词级错误,我们主要在中文文本中的“非多字词错误”与“真多字词错误”的分类思想的基上,采用规则与统计相结合的方法进行错误侦测;对于句法级错误,在句法规则和语法词典的基础上,采用语法词典与统计相合的方法进行错误侦测;对于语义级错误,在义元理论的基上,采用语义搭配知识库与证据理论相结合的方法进行错误侦测;对于政治性错误,在政治规则库的基础上,采用知识推理的方法进行错误侦测。该部分的输出是対错误字串进行了标记的文本,其结果由标红子过程标示后显示在屏幕上 。
(4)自动纠错模块:本模块主要实现了纠错建议的生成算法与排序算法,本项目的纠错建议生成算法是基于错误成因的。对于排音类错误,在特定大小的滑动窗口内,采用双向拼音匹配的方法进行错误的定位和纠错建议生成;对于五笔类错误,在特定的似然匹配规则的基础上,采用相似码计算的方法解决错误的定位和纠错建议生成问题。对于纠错建议排序,本项目构建了基于语义并置理论和上下文语境提出纠错建议的排序模型,通过融合上下文信息、大规模语料库和编码信息进行各个纠错建议化先权值确定,当优先权值确定之后,使用快速分类或冒泡法的排序算法对纠错建议进行排序。
二、智能化立体仓库技术简介
智能化立体仓库历经立体仓库、自动化立体仓库两个发展阶段演变而来的,其发展历程如下图所示:
发展历程智能化立体仓库系统集计算机信息管理、计算机控制技术与机械工程于一体,用于解决物流领域仓储利用低、占用土地多、物流效率低的问题。在机械零部件制造、医药、烟草、快消品、电子商务等领域具有广阔的应用前景。本项目通过校企合作,在相关科研项目的支持下,针对智能化立体仓库系统中WMS、WCS以及物流设备中的关键技术问题开展了长期深入的研究。
通过不断的深入研究,我们确定了智能化立体仓库软件部分的三层架构,如下图所示:
ERP系统WMS管理系统是仓库自动化管理系统的核心,它包括仓库信息管理,库存管理,出入库管理及报表等一系列管理功能,WMS管理系统功能模块结构如下图所示:
国药一致WMS系统调度系统负责堆垛机、输送机、叉车等各种硬件设备的调度指令的下发,调度系统结构图如下:
设备调度系统
网友评论