NER----有关推文的数据集

作者: 陶_306c | 来源:发表于2021-04-19 14:59 被阅读0次

NER----有关推文的数据集
单细胞基因集打分实操之irGSEA
R语言ggplot2画图展示多变量两两之间相关系数
ggplot2经典可视化案例(6)之图像高级操作
笔记：文本分类的模型对比（词嵌入、CNN、RNN）
python抓取瀑布流网站的图片
机器学习数据集之波士顿房价
运营的数据思维
清洗与分析数据Dog_rates
LSI 和 LDA 提取川普推特主题

社交信息的缺点：固有的噪声信息；不当的语法结构；拼写不连续以及大量的缩写词
字词序列、语法信息和地名词典信息中学习到更高阶的特征。
选择与任务最相关的特征，本文主要是指字、词、词典三个方面。

1、《Raw-to-End Name Entity Recognition in Social Media》2017年发表

数据集：TNT（4290条）、BTC（6261条）
数据集特点：一条推文中,一个字符对应一个label，空格也算一个字符

["Raptors set to face 'probably' one of NBA's best",
 ['B-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'O', 'O']]