社交信息的缺点:固有的噪声信息;不当的语法结构;拼写不连续以及大量的缩写词
字词序列、语法信息和地名词典信息中学习到更高阶的特征。
选择与任务最相关的特征,本文主要是指字、词、词典三个方面。
1、《Raw-to-End Name Entity Recognition in Social Media》2017年发表
数据集:TNT(4290条)、BTC(6261条)
数据集特点:一条推文中,一个字符对应一个label,空格也算一个字符
["Raptors set to face 'probably' one of NBA's best",
['B-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]
TNT、BTC
2、《Named Entity Recognition for Social Media Texts with Semantic Augmentation》2020年发表于EMNLP
数据集:WNUT16(W16)、WNUT17(W17)、WB(微博)
W16 and W17 are English datasets constructed from Twitter
数据集特点:一个token对应一个label。
W16数据集中10个类别
3、总结
两篇文章所提到的推文数据集都是没有倾向性的,随机在推特中爬取。
网友评论