记录一次没有解决方案的问题
最近接到一个任务,需要将两个有关系的数据进行关联,而我的任务就是找到这两个数据之间的关系。这两个数据都是文本数据,其中一个是不具有任何语义信息url,一个是用于给url做label的标注词。
数据介绍
1、用户的访问记录,用户对每个url或者使用了某个接口的次数
2、用户本身对应拥有的label标记
任务目的
计算url或者接口和label的对应关系,url和label的关系是不平衡的。
方法
我在最开始的时候本想借助聚类的方式进行数据的标签标注(软聚类)
,但是发现这种方式也只能将url分为两类,实际上我需要的是将url分成多种类别。
1. 先将url进行清洗,转换,表示
url本身是非常混乱的,虽然已经被清洗过一次,过滤掉了很多的静态的页面信息,但是依然有很多的杂乱无用的数据在里面需要清洗,然后将用户的访问记录反过来用户表示url,使用次数填充每一个值,类似于词频表示方式。
2、计算
这一步已经困扰我很久,暂时没有一个较好的解决方案
我再google了一段时间后发现有水论文的文章较多,或者是效果极差,F1值仅仅为15%不到,做法可分为以下几种
- 使用多重聚类的方式,对数据进行多次不同的聚类,但是根据作者的实验效果,并不是特别理想
- 完全忽悠的方式,通过对数据的多次实体提取,将实体关键字和标签进行相似度计算。这种式是对应文本处理的
还有一些其他的方式还没有看完,待后续看完补充。
- 完全忽悠的方式,通过对数据的多次实体提取,将实体关键字和标签进行相似度计算。这种式是对应文本处理的
目前情况
目前我的做法还是通过统计学的方式对用户进行分类,在对url进行统计分析。
网友评论