Python菜鸟教程 :https://www.runoob.com/python/python-lists.html
Pandas库中文教程:https://www.pypandas.cn/docs/whatsnew/
读论文
-
CrossWeigh: Training Named Entity Tagger from Imperfect Annotations
这篇文章叫做从不完全正确地标注中训练命名实体的标签
主要贡献在于:
1.手工纠正测试集中的错误,以形成一个更干净的测试集
2.提出一个新的框架Crossweigh处理训练集中的标注错误
框架的整个流程如下:
可以看到模型主要分为两个部分:
1.错误识别:通过交叉检查过程识别训练数据集中可能的标签错误
2.权重重置:降低含有错误标注的句子的权重
-
Improved Differentiable Architecture Search for
Language Modeling and Named Entity Recognition
-
Cloze-driven Pretraining of Self-attention Networks
这篇文章叫做基于Self-attention网络的完型驱动预训练
如上图所示:它的主要架构是双塔模型
它的核心是通过一个句子中的其他所有的token去预测中心词的token embedding,它的每一个block里面有两个子层,分别是:1.Multi-head self-attention 2.FFN (前馈神经网络)
之后是将前向输出与后向输出连接起来的过程,这一层同样是用self-attention,不同之处在于禁用masking
对于应用在NER上时,作者仅仅只是在双塔模型的输出上fine-tune就得到了很高的F1值,fine-tune与ELMo不同之处在于:1.只用了一层BiLSTM 2.在嵌入层和BiLSTM层之间加了一个线性投影
网友评论