引
在当前飞速发展的创新步伐中,科技正在一步步地解决人类面临的种种难题。例如我们经常讨论的人工智能,得益于越来越成熟化的AI技术,人们的生活已经得到了极大的改善,像图像识别、人脸识别、声纹识别、医疗影像等,为人类生活带来的改变已肉眼可见。同时,还有一部分AI技术,例如文本信息提取、语言情感分析、更智能的通话机器人等NLP技术,这些技术在近几年同样取得了显著的进步,并无疑将在不久之内为我们的生活再一次带来巨变。
探究咨询类企业
相比于10年前,人们只能通过计算机完成一些统计数据、存储数据等简易的操作。而如今在智能化的时代下,计算机作为一个被人类频繁使用的工具,甚至还能实现一些具有创造性、思维能力、主观判断的操作。
事实上,计算机的智能化必须依赖大量的历史数据,这些数据除了有如字母、日期、电话号码、邮政编码等结构化数据之外,通常还有文本文件、图片、音频、视频、信息等一些非结构化数据形式。庆幸的是,在数字化时代下这些数据仍在不断地增长、丰富、产生价值,从而也让计算机的智能化成为了可能。唯一的问题是,当计算机无法有效地理解、读取某些数据——例如“文章”、“旋律”时,我们再想从中挖掘含有宝贵价值的信息就会遇到巨大的困难。
以当下大量的文本文件为例,如合同、简历、调查问卷、协议书、授权书等,这些文件往往和所有企业的商业利益直接相关,但由于文本文件种类多且内容样式复杂,以往在缺少有效的技术手段情况下,企业在分析处理上就会特别消耗时间与人力,效率十分低下。而最直接的一类受害企业便是纯粹基于数据与经验提供高价值商业服务的各类咨询公司。不论是管理咨询公司还是细分至品牌咨询公司、人力资源咨询公司等,其在对大量数据的应用和处理上都有着极高的要求,且往往形式各异。
像调研问卷,它以一种主观意见收集的形式,有效地反映出组织者所想了解问题的关键点。尤其在做开放性问题时,可以自己组织语言自由的回答问题或提建议。而对于这些开放性问题,当文本审阅人在做内容审阅时,少量的文本我们可以人力阅读精准的筛选,但对于大量、多篇幅的意见反馈该如何快速又精准的获取信息呢?
简历作为次于身份证的第二重要信息,是每个人在公司招聘前都需要准备的。公司不仅通过阅读简历信息筛选人才还是要对人才进行第二次面试。简历浏览看起来并不需要很长时间,如果有大量的简历又如何将它们之间对比择优呢?纯粹依赖人力去阅览每一份简历,不管对于何种企业,都将消耗大量的人力和时间。
合同是人与人、公司与公司之间进行交易时一个重要的凭证。对于大量不同类型的合同文件如何能快速按日期查找到想要的文件或按公司名字查找想要的文件,难道真的要手动的翻阅一个一个找吗?
对于上述存在的问题,小数量的文件可以通过人力审阅,但对于成千上万份大量的文本文件光靠人力审阅不仅不能快速获取问卷调查中的信息,反而还会拖延工作进度、消耗人力及时间。所以如何解决这个问题是现在咨询类公司面临的一个较大的困扰。
非结构化数据及自然语言处理
如上文所述,让我们先回顾一下结构化数据和非结构化数据之间的区别。以调研问卷为例,调研问卷通常以选择题和开放式问题。选择题以字母的形式呈现,而这些字母是计算机能直接读懂的数据,不仅是字母还有数字。这种形式规整、逻辑清晰、能直接以表格形式来进行存储和分析的数据就称为结构化数据。
反之就很好理解非构化数据,那些“非数字非字母”的数据,像我们即将要研究的开放式调研问题,它们都是是以文本文字、图片、视频等难以直接利用计算机进行理解、处理的数据。这种非结构化数据相比于结构化数据,呈现的形式多种多样,这样复杂的形式计算机也就需要花很复杂的过程分析这些数据。
但科技的发展就像一场永无尽头的追逐赛,追逐着那句”没有最好,只有更好“,而人工智能的发展就正好印证了这句话。
自然语言处理作为文本分析的一项特有技术为了我们的智能化生活做出了巨大贡献,像我们现在常见的智能搜索引擎、自动回答、语音识别、文字识别、机器翻译、文本分析等等。
我们的日常工作中有80%的信息来源于语言,而文本作为人类知识最大的存储源,在通过自然语言处理对文本内容的理解下,能让生硬的文本内容富有情绪、情感。然而自然语言处理作为机器与人之间的一个重要的纽带,在识别人类情感中扮演者不可或缺的角色。
文本分析的应用
目前主流的自然语言处理技术基本都包含如下数个分析算法,分别为:情绪解析、观点提取、关键词分析、文本聚类、词法分析、句法分析、相似度分析、知识图谱、错字/流利程度分析。基于这九种算法,无论是长文本还是短文本,都可以从不同角度对文本多维度的分析。
我们来简单看看自然语言处理算法的功能,如语忆特有十二种细节情绪解析:根据Plutchik情感轮理论体系,可从中文文本中识别出最多达12种不同的细节情绪(喜爱、乐观、惊讶、焦虑、厌恶等等),帮助理解作者情感表达。观点提取:对每句话的核心思想进行提炼、整理,高度精炼概括每段话所想表达的观点。词法分析:逐个解读文本内容中的字词,将内容字词拆分成有语法含义的序列。基于字词间的关系分析,引擎可以展示出每个字词的词性。句法分析:通过对文本内容中词的词性分析,按中文句法结构关系(如主谓、动宾、定中、并列等结构关系)将这些词分层次展现出来。
又是如何将这些功能融入到现实的文档中?我们以邮件整理为例,邮件作为我们生活中收发邮件的一个必不可少的工具。时间久了邮箱中就会积累大量未读邮件,或许仅有那么少数文件才是重要的文件。故现在很多邮箱供应商都会基于自然语言处理技术提供智能的邮件分类服务,首先我们可以通过文本聚类对邮件标题进行简单分类,其次对于分好类的邮件再进行观点提取,这样不仅能快速获取文件中的有效信息,还能避免阅读到垃圾邮件。
当我们已经完成文章撰写、陈述演讲稿或商业报告后,我们可以通过词法分析对每句话中的词语做词性归纳,这样我们就可以快速看出这句话的逻辑结构是否通顺。而句法分析,可以检查出每句话中词与词之间达主谓宾逻辑表达是否完整。
而对于协议、授权书、合同、报告等不同形式的文件,利用机器学习技术及自然语言技术,系统通过观点提取将繁复的内容最优化,以简易阅读的形式呈现。可再利用错字、流利程度分析二次对文件进行错别字筛选以避免在签署后带来不必要的纠纷。
像人力咨询类企业,当面对大量的难以靠人力阅读的调研问卷时。计算机通过自动获取原始数据,理解文件内容并识别关键信息,利用关键词分析技术对员工意见做标签分类。在关键词分析的基础上,用观点提取能将多段的观点整理归纳,这样文本审阅人在审阅时可以针对标签了解到员工在哪些方面有意见或建议。
调研问卷实例分析
接下来我们以一份基于语忆自然语言处理技术,某咨询公司对汽车企业的公司员工关于福利问题的开放式调研问卷做详细的分析。
调研问卷是人力资源企业帮助公司了解员工福利、员工满意度、员工培训方面最有效的一个解决方案。调研问卷能反映出员工对哪些方面支持哪些方面有意见。
首先,语忆通过观点提取与文本分类对每条开放回答打上核心标签,最终将两万多条数据内容归纳为15个标签类,然后我们对这15个标签类中情绪极值最高的“培训与发展”和情绪极值最低的“工作与条件”对比分析。
上图为15个标签类的平均情绪极值。情绪极值分析是对文本内容整体分析得出的正负面情感特性,以50分为界,分值越高表示情感状态越积极,反之消极。从15个标签类我们可以看出员工们对“培训与发展”的情绪状态最积极,我们可以猜想,员工们希望企业多开设培训课程这样有助于帮助他们提高自身的能力。另一方面,由于一些企业设施条件未达到员工的满意度或一些福利待遇和环境的未改善导致在工作条件这一项情绪最低。
接下来我们根据情绪极值最高的“培训与发展”和最低的“工作条件”这两个标签,再做进一步的关键词分析,看看在这两个标签下的二级标签关键词都有哪些。
通过关键词分析引擎,自动检索全文,智能识别出不同的词汇、短语,并按照其不同的出现频次进行提取。首先我们将“培训与发展”中的所有内容筛选出来,再根据“培训与发展”下的每一条观点进行关键词分析,分析出每条内容的核心关键词。最后将这些核心关键词整理归纳排序。因为“培训与发展”的情绪极值最高,所以以降序的形式排列。
在“培训与发展”中员工们对培养、技术、机会、晋升最为关注。可以看出,员工身为企业的一员希望在未来的发展中能得到更好的发展,也反映出企业管理者对培训方面的考虑还有所欠缺,员工希望管理者能在这方面更加关注。
这里和上面 “培训与发展”筛选的方法一样。将“工作与条件”中的所有内容筛选出来,根据“工作与条件”下的每一条观点进行关键词分析,分析出每条内容的核心关键词。因为我们要知道是哪些因素使得“工作与条件”的情绪极值最低,所以以升序的形式对这些核心关键词整理归纳排序。
在 “工作与条件”中,领导、补贴、员工、办公室使员工最不满。我们觉得有这样几个原因,由于多数员工在培训方面提意,可以看出领导在这方面不重视,身为管理者并没有在遇到问题时做出有效地解决承诺。关于办公室可以想到,汽车企业需要大量的人力,企业员工数量的增多导致工作环境的问题或办公室里的基础设施不完善,从而引起了员工的不满。
接下来我们就针对“培训与发展”和“工作条件”中二级标签下的前四项标签,返回到已经归纳好的观点中看看是不是有出现分析的原因。
从上图“培训与发展”中能看出员工们希望得到更多技术方面的培养,并且在已有的基础上有更好的发展机会和晋升机会。也能感觉到员工们对于这份工作的积极态度以及对知识的求知欲和个人提高自我价值的渴望。
从办公室、员工、补贴这三点来看,由于企业员工数量多,导致办公室空间座位不够,办公空间小人多导致空间空气不通畅。虽然有通勤车,但由于企业地理位置的偏远部分员工坐不到通勤车或通勤车时间与员工上下班的时间不匹配。之所以员工们要补贴也是有原因的。从“工作与条件”这张图能看出企业管理者对员工的关怀较少,很多时候即便是做出了解决方案但最后也并没能对这些问题有效的实施。
从上述的分析,通过自然语言处理技术,能对大量文本数据进行多维度的分析,核心观点的归纳能很好的反映员工对各个方面的满意程度、需求和建议。不仅能准确找到问题的关键点还在整个分析流程中节约大量的时间和人力消耗。
不仅限于情绪解析、观点提取、关键词分析。还可对文本做错字、流利程度分析,利用语言模型,判断一句话的“真实程度”,即是否接近于真人说话的方式,同时也可删选出错词别词。像在分析合同、授权书、协议等一些重要的交易类文件,这样可以有效的避免在签约前和签约后因为别字所产生不必要的纠纷。
知识图谱构建通过信息抽取、知识融合、知识加工等方法为企业搭建结构化语义知识库,以符号形式描述物理世界中的概念及其相互关系,实体之间通过关系相互联结,构成网状的知识结构。以图形方式向用户反馈结构化的知识,用户不必浏览大量网页,就可以准确定位和深度获取知识。
总结
在这个被数字化逐渐吞没的时代下,人工智能技术的发展成果在当下我们肉眼可见,智能化产品的丰富性也使我们的生活质量不断提高。无论是有大量难处理文本文件的咨询类企业,还是有大量待处理文本文件的其他领域企业。伴随着自然语言处理技术的不断精进和革新,高效、智能、精准的内容理解及自动化分析将不再遥远。
—— 专注于大数据与人工智能http://yuyidata.com
网友评论