美文网首页
NER----有关推文的数据集

NER----有关推文的数据集

作者: 陶_306c | 来源:发表于2021-04-19 14:59 被阅读0次

社交信息的缺点:固有的噪声信息;不当的语法结构;拼写不连续以及大量的缩写词
字词序列、语法信息和地名词典信息中学习到更高阶的特征。
选择与任务最相关的特征,本文主要是指字、词、词典三个方面。

1、《Raw-to-End Name Entity Recognition in Social Media》2017年发表

数据集:TNT(4290条)、BTC(6261条)
数据集特点:一条推文中,一个字符对应一个label,空格也算一个字符

["Raptors set to face 'probably' one of NBA's best",
 ['B-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]
TNT、BTC

2、《Named Entity Recognition for Social Media Texts with Semantic Augmentation》2020年发表于EMNLP

数据集:WNUT16(W16)、WNUT17(W17)、WB(微博)
W16 and W17 are English datasets constructed from Twitter
数据集特点:一个token对应一个label。


W16数据集中10个类别

3、总结

两篇文章所提到的推文数据集都是没有倾向性的,随机在推特中爬取。

相关文章

网友评论

      本文标题:NER----有关推文的数据集

      本文链接:https://www.haomeiwen.com/subject/gejjlltx.html