美文网首页
论文阅读_ICD编码_TLSTM

论文阅读_ICD编码_TLSTM

作者: xieyan0811 | 来源:发表于2022-07-08 15:08 被阅读0次

介绍

英文题目:A Neural Architecture for Automated ICD Coding
中文题目:ICD自动编码的神经体系结构
论文地址:http://www.cs.cmu.edu/~epxing/papers/2018/Xie_etal_acl18.pdf
领域:自然语言处理,生物医疗
发表时间:2018
作者:Pengtao Xie等,卡内基梅隆大学,北京大学
出处:ACL 2018
被引量:55
阅读时间:2022.06.18

读后感

论文主要挖掘了ICD编码之间的层级和相关性,同时还考虑到人工描述和ICD标准文本不同的语言风格,一对多的情况下,多个对应项的重要性排序,以及编码的协同和互斥

泛读

  • 针对问题:ICD自动编码
  • 核心方法:
    • 使用树和序列LSTM计算基于语义的ICD编码表示
    • 使用对抗学习协调人工输入和ICD描述的语言风格
    • 利用等张约束做重要性排序
    • 利用注意力机制实现一对多、多对一映射
  • 泛读后理解程度:
    • 一个半小时精读,两个小时整理。

方法

概览

图-1左上描述的是人工书写的诊断信息,右上是ICD编码树,蓝色方块是处理流程,下方的ICD编码是模型输出。

树序列的 LSTM 编码

ICD编码模型希望在捕捉语义的同时也捕捉到编码的层次关系。

每个 ICD 编码对应一小段描述文字,使用普通SLSTM(序列LSTM)对每一条ICD项编码,使用TLSTM(树LSTM)构建整体的编码树(code tree),以捕捉ICD编码的层次关系,每个树节点的输入向量是SLSTM产生的向量表示。

序列LSTM

序列LSTM就是最普通的LSTM,包含输入门i,输出门o,遗忘门f,和记忆单元c:

树序列LSTM

这里使用了双向树TLSTM,输入是ICD编码的层级关系和通过SLSTM提取的各节点的表示。具体包含自下而上和从上而下两部分,对树中各节点产生了对应的两个h表示。

自下而上时,编码C,有M个子编码,它的遗忘层计算了其m个子节点:

其中s是用SLSTM输出的各个节点的表示,h和c由其子节点的隐藏层和记忆单元组合得到。W,U,b是模型参数。叶节点无子节点,因此它只考虑s。

从上而下时,对于非根节点,计算方法如下:

其中带(p)上标的是父节点。由于根节点没有父节点,其h(p)就使用从上而上时计算出来的表示,它捕捉了其下所有子节点的语义信息,通过自上而下的计算,又迭代计入了其下的子节点。

最后,串联自上而下和自下而上的h作为节点的表示:h=[h↑; h↓],从而获取了结构关系。

对于人工输入的诊断描述,也使用SLSTM编码。参数权重与计算ICD编码时SLSTM的参数权重绑定在一起。

注意力匹配

使用h代表人工描述的表示,u代表ICD代码的表示,M是某患者的描述个数,N表示ICD编码总量。当一个描述实例对应多个ICD编码时,K代表对应的ICD代码个数。各编码的重要程度不同,可以认为其余M-K个编码的重要程度为0。使用注意力机制计算重要性得分(u和h越相近,注意力权重越大):

然后,进一步对注意力值做归一化,计算出该输入对应编码n的表示:

而后串联hn和un,并将其代入线性分类器,用于预测命中该编码的概率:
p_n=sigmoid(w_n^\intercal[\hat h_n;u_n]+b_n)
其损失函数计算如下:

其中CE是交叉熵,Θ表示所有可调参数,L是实例条数,N是ICD编码总数,c是实际是否命中该ICD编码,命中为1,否则为0。

针对写作风格的对抗学习

利用对抗学习来调和人工描述(DD)和ICD规范文本(CD)间的风格差异。对抗网络由两部分组成,一部分是判别网络,将嵌入向量作为输入,目标是区分DD和CD。另一部分编码网络(共享SLSTM),通过对DD和CD的编码器训练,尽量使判别器无法区分二者。这样调整后的编码器,就能更好地匹配CD与DD。

损失函数如下:

其中y是标签,tr是文本描述,f函数是SLSTM模型,Ws是SLSTM模型参数,g是判别网络,Wd是判别模型参数。

等渗约束

使用上面提到的预测概率来表示ICD编码的重要性,因此,通过优化损失函数,加入对p的约束。可实现对ICD编码的排序。

其中λ是权衡参数。

相关文章

网友评论

      本文标题:论文阅读_ICD编码_TLSTM

      本文链接:https://www.haomeiwen.com/subject/niphbrtx.html