美文网首页
论文阅读_ICD编码_MSATT-KG

论文阅读_ICD编码_MSATT-KG

作者: xieyan0811 | 来源:发表于2022-07-08 15:08 被阅读0次

    介绍

    英文题目:EHR Coding with Multi-scale Feature Attention and Structured Knowledge Graph Propagation
    中文题目:基于多尺度特征关注和结构化知识图传播的EHR编码
    论文地址:https://sci-hubtw.hkvisa.net/10.1145/3357384.3357897
    领域:自然语言处理,生物医疗,ICD编码
    发表时间:2019
    作者:Xiancheng Xie等,复旦大学
    出处:ACM CIKM
    被引量:25
    阅读时间:2022.06.16

    读后感

    很好地结合了现有的资源和方法:利用编码的内在关系,结合了注意力机制,知识图谱密连接网络等方法。

    泛读

    • 针对问题:ICD自动编码
    • 核心方法:
      • 通过对每个词上下文邻居的n-gram,选择多尺度特征
      • 利用ICD标签的语义:编码越相近,含义越相近,利用图卷积网络捕捉ICD编码的层次关系和语义
      • 基于ICD标签的注意力;结合多尺度特征,用注意力选择信息量最大的n-gram特征
    • 理解程度:
      • 一个半小时精读,又花了约两小时整理成文。

    方法

    概览

    论文将问题定义为多标签分类问题。方法由三部分组成:

    • 提取多尺度特征 (图上)
    • 两层注意力机制更好地计算输入文本的表征(图中)
    • 用知识图谱迭代计算ICD表征(图下)


      image.png

    符号定义

    其它符号:m表示医生输入串的长度,n表示ICD编码描述文本的长度,d表示维度。

    嵌入层

    用X表示词嵌入,利用word2vec的连续词袋(CBOW)对训练集中的所有文本进行预训练,词嵌入大小为100,窗口为5,5次迭代。

    密连接卷积层

    CNN由K个卷积块通过密连接堆叠而成,用Xk表示第k个卷积块的输出,Xk计算方法如下:

    其中中括号表示串联,Xk由前k-1层输出串联(图中红线)后,与参数W通过函数F计算出Xk,W是卷积核。为了保持字符串的长度一致,使用zero-padding填充。由于使用了卷积,Xk可被视为n-gram特征,通过卷积逐层抽象;再用concat将各层抽象连接起来,生成了多尺度特征。

    注意力层

    多尺度特征注意力

    如图-3所示,对于每个位置i,注意力机制根据其k个层的特征(k个尺度/k-gram)计算权重分布。步骤包括聚合和筛选。
    聚合:用s作为xi在第k层的表示,它聚合了各个维度:

    然后,计算注意力权重,用于选择携带信息最多的尺度:

    函数F是一个多层感知机,上式计算了每一层(1~k)的权重。
    再用各种权重给各层的输出加权:

    最终通过串联,产生了所有位置加权后的Xscale:

    它将被传入下一个attention层。

    ICD标签注意力

    在文本分类任务中,一般使用平均池化或最大池化处理各维度。针对多标签任务,不同ICD编码可能关注不同局部文本,因此,使用基于ICD标签的注意力来选择最相关的短语。对于每个标签,使用了线性池化:

    不同的标签记作 l,vl是标签的向量表示,这里的注意力a用于计算基于标签的输入文本的向量表示:

    知识图迭代

    加入知识图是为了引入ICD编码之间的层级关系和相关性。如果只使用ICD编码,对于每种编码都需要一些实例参与训练,论文使用了ICD编码ID对应的描述文本,句中各词记作{w1,w2,...wn}。

    标签向量v的计算方法如下:

    先计算标签描述文本中的每个位置 i,结合其自身self,其父类p和子类c,在上一次迭代时的表示,分别加权计算当前的表示,F为激活函数。各个节点的初值是通过训练数据训练出来的自然语言模型得到的。

    输出层

    输出层结合了X和V,利用sigmod计算出对应各个ICD编码的概率。

    计算出的 Pl 是概率值,常见的方法是使用阈值 0.5 来判别类别标签的是与否。而训练集中的每个类别,负例明显多于正例,使其结果偏向负例。为了优化阈值,使用了回归方法:

    使用该方法后,阈值也是拟合出来的。其中g为最大池化,用于生成文本的全局表征,W是回归参数。

    最终的损失函数结合了(8)和(9)的误差:

    其中λ是权重,用于调整二者的比例。

    相关文章

      网友评论

          本文标题:论文阅读_ICD编码_MSATT-KG

          本文链接:https://www.haomeiwen.com/subject/japhbrtx.html