location inference using Microblog Messages
概要
这是发表在2012年www国际万维网会议上的一篇paper,是比较老的与地址推断相关的paper。没有采用现今流行的深度学习和机器学习方法。是早期对于文本的位置信息进行推断的相关论文。
方法
论文使用的方法主要是两种,依靠正则的方法对文本中的位置信息进行匹配,通过与twitter信息发生时间的热点地区进行关联以及采用使用关键字分解得到的概率函数进行累加,通过加权求和得到的概率给出位置的判断,最后给出对文本推断得到的实体,采用了两种方法一个是对所有用户进行训练另一个是对每个用户进行单独训练,采取的评价函数是真实地点与预测地点的距离。比较的基线方法是shying文本发布时间的一个时间段内的信息发布最多的地区作为预测结果,同时这里还使用了ner命名实体识别作为对比。
实验结果
结果显示对每个用户进行单独的训练结果比一次性对所有用户进行训练的效果要更好,在失误距离小于10千米的范畴内一次性对所有用户进行训练的准确率大概是对所有用户进行训练的两倍。同时实验还表明在位置的识别上使用正则化方法进行匹配的效果要好于使用命名实体识别,原因是命名实体识别方法对于有些地址并不能够保证识别得到,而基于规则的方法反而在这种问题上能获得比命名实体识别更好的效果。
结论
对于使用用户推特消息进行文本的地址推断方面,结合正则化方法匹配对每个用户进行单独的训练能够获得最好的训练效果以及召回率。
网友评论