美文网首页
ACL2020论文分享:基于上下文的弱监督文本分类

ACL2020论文分享:基于上下文的弱监督文本分类

作者: 烛之文 | 来源:发表于2020-08-16 11:32 被阅读0次

    1 前言

    今天分享一篇关于文本分类的paper,论文来自2020ACL会议,其主要思想是:基于上下文的弱监督方法进行文本分类。论文标题为:Contextualized Weak Supervision for Text Classification,论文下载链接论文也开源了代码。今天分享的这篇paper在内容上,与我之前分享的一篇2019ACL的paper——无监督文本分类(Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings)对比,有些类似之处:两篇都用使用先构建初始label种子词库,然后扩充类别词库的进行迭代分类的思路,不同的是在扩充词库与识别文本上。本文解决的问题在扩充类别词库中,有很多词是有很多词义的,不能笼统的单一表示,会影响文档的分类。为解决这个问题,作者提出基于上下文来解决一词多义的问题。下面详细介绍本篇论文。

    2 Model

    模型整体结构

    上图为论文中文本分类的整体思路,可分为四个步骤,最后两个步骤是一个迭代过程。step1就是利用专家知识形成一个种子词库。

    其实论文的核心在于“上下文-Contextualization”,这里涉及两个方面:上下文的词和上下文的文档。词的上下文其实就是一词多义的意思。因为相同的词,若有不同的意思,则表现在它的上下文上,如“window”,“apple”等。接下来详细说下如何生成上下文的词和上下文的文档,对应model的step2。

    2.1 Document Contextualization——step2

    (1)上下文表示(Contextualized Representation)
    给定一个词w,统计它在文档语料库中出现n次,对应表示为w_1,...w_n。使用BERT预训练模型获取每个w_i上下文表征向量b_{w_i}。基于这样的假设:对于w_iw_j,如果二者词义相同,则它的上下文则类似,表现为cosine(b_{w_i},b_{w_j})值很高。有了这些信息,接着作者要计算词w到底有几层含义,这里采用kmeans聚类的方法,对w所有的上下文向量进行聚类,看能聚成几类。

    词的上下文聚类示意图
    论文对此进行了可视化说明:展示了词"window","penalty"上下文词向量聚类效果,这里 K的选择

    公式表达的意思是,K类的所有中心c_i之间的cosine值都要满足<t阈值,取满足条件最大的K。阈值t由下面两个公式计算而来:



    意思是计算每个种子词 词的上下文表示

    2.2 Text Classifier——step3

    在step2形成了上下文的种子词库和文档后,在step3进行文本分类。
    (1) 生成伪标签(Pseudo-Label)
    有了类别词库,就可以为文本打上伪标签,方法是:文本若某类别词库中种子词tf值之和最高,那文本就属于该label。
    (2)文本分类方法
    对文本打标签后,就可以利用这些文本训练一个分类器,训练方法作者选用的是Hierarchical Attention Networks (HAN)。

    文本分类模型

    2.3 词库的扩充与迭代——step4

    完成前三步骤,相当分类任务流程跑完。但是通过前几步形成的词库,还会存在两个问题:一是种子词库太少,需要扩充;二是种子词库中有些词属于那些label可能有歧义,需要消歧,主要是第一个问题。
    具体方法就是作者为词定义了一个归属类别的排序系数,按照这个系数进行扩充,公式如下:

    词的类别归属系数


    公式中包含三个子指标, dateset

    论文主要在两个数据集进行验证测试,显示在对齐其他无监督的方法,论文的模型取得最好的效果;对比有监督方法,在NYT数据集上差距不大,在Newsgroup上差距还是挺大的。

    4 结论

    我个人觉得倒不是作者的整体解决方案——弱监督的文本分类新颖,而是在词的上下文化是值得去借鉴和探索的,因为这个点可以影响很多任务。另外再想:作者这一套无监督的方法,迭代下来,计算量很大,也会消耗一些人力,感觉还不如去标一些文本,然后在标注的文本的上去弱监督,是不是效果会更好些。也可能是由于工业上更依赖词库的缘故吧。

    相关文章

      网友评论

          本文标题:ACL2020论文分享:基于上下文的弱监督文本分类

          本文链接:https://www.haomeiwen.com/subject/mwftjktx.html