Alfarghaly O, Khaled R, Elkorany A, et al. Automated radiology report generation using conditioned transformers[J]. Informatics in Medicine Unlocked, 2021, 24: 100557.
论文导读
和On the Automatic Generation of Medical Imaging Reports一样,本文先进行multi-label分类,分出tags,再用tags生成semantic features,并且与visual feature结合,完成报告生成任务。不同之处有,之前使用的是CNN-RNN结构,现在用了Transformer。本文提出的模型叫CDGPT(Conditioned distil generative pre-trained transformers 2)。主要工作有:
- fine-tune预训练模型Chexnet,生成tags
- 从预训练个tags mebedding中得到带权重的semantic features
- 结合预训练的GPT2,生成报告。
- 除了指标的计算,最后找了专业的医生来评估报告的好坏,定性分析。
模型简介
CDGPT2- visual model:作为encoder,提取visual feature,并对tags分类。
- semantic features' generation:计算带权重的semantic features
- decoder:visual and semantic features作为预训练模型的输入,生成报告。
Visual features
使用Chexnet提取特征,并分类:Densenet212,再ChestX-ray14数据集上预训练。预训练模型在这里。
Multi-label task使用BCELoss:
其中的N代表batch,T代表是tags的数量,损失函数的选择和我想得一样。
Semantic features
语义特征用了一个在MEDLINE/PubMed上面预训练的word2vec embeddings,如果一个tag包含了多个词,则把他们做平均。visual model在做分类任务的时候,输出了一个105维度的向量,代表了每一个tag的置信度分数。而tags embedding是一个105 x 400的矩阵,把tag的分数和embedding相乘,得到了带权重的semantic features。这一部分,由于weighted的原因,虽然一个样本里面并没有带这个tag,但还是会带有这个tag的信息。
Decider
distilGPT2作为预训练模型,在PenWebTestCorpus上训练,最后输出有50257维度,保持输出维度不变,可以生成所有的医学术语。
Conditioning details
Decoder部分对self-attention的改动,由于加入了visual and semantic feature,再加上token embedding,就一共有三个输入了。对比基础的self-attention,新加入了U,H权重矩阵,分别对应于visual和semantic feature的keys和values的权重矩阵:
Conditioning Self Attention
网友评论