美文网首页
无监督多标签问题

无监督多标签问题

作者: FireJohnny | 来源:发表于2020-06-09 11:46 被阅读0次

记录一次没有解决方案的问题

最近接到一个任务,需要将两个有关系的数据进行关联,而我的任务就是找到这两个数据之间的关系。这两个数据都是文本数据,其中一个是不具有任何语义信息url,一个是用于给url做label的标注词。

数据介绍

 1、用户的访问记录,用户对每个url或者使用了某个接口的次数
 2、用户本身对应拥有的label标记

任务目的

计算url或者接口和label的对应关系,url和label的关系是不平衡的。

方法

我在最开始的时候本想借助聚类的方式进行数据的标签标注(软聚类),但是发现这种方式也只能将url分为两类,实际上我需要的是将url分成多种类别。

1. 先将url进行清洗,转换,表示

url本身是非常混乱的,虽然已经被清洗过一次,过滤掉了很多的静态的页面信息,但是依然有很多的杂乱无用的数据在里面需要清洗,然后将用户的访问记录反过来用户表示url,使用次数填充每一个值,类似于词频表示方式。

2、计算

这一步已经困扰我很久,暂时没有一个较好的解决方案
我再google了一段时间后发现有水论文的文章较多,或者是效果极差,F1值仅仅为15%不到,做法可分为以下几种

    1. 使用多重聚类的方式,对数据进行多次不同的聚类,但是根据作者的实验效果,并不是特别理想
    1. 完全忽悠的方式,通过对数据的多次实体提取,将实体关键字和标签进行相似度计算。这种式是对应文本处理的
      还有一些其他的方式还没有看完,待后续看完补充。

目前情况

目前我的做法还是通过统计学的方式对用户进行分类,在对url进行统计分析。

相关文章

  • 无监督多标签问题

    记录一次没有解决方案的问题 最近接到一个任务,需要将两个有关系的数据进行关联,而我的任务就是找到这两个数据之间的关...

  • 机器学习算法之聚类(Clustering)

    1.无监督学习:简介 聚类算法:第一个无监督学习算法(无标签的数据) 什么是无监督学习呢?对比:监督学习问题指的是...

  • 聚类(Clustering)

    1.无监督学习:简介 聚类算法:第一个无监督学习算法(无标签的数据) 什么是无监督学习呢?对比:监督学习问题指的是...

  • 回归算法

    2017-10-24 有监督问题和无监督问题 利用有无标签区分 1 回归问题: 预测一个值:回归问题 2 分类问题...

  • 吴恩达机器学习(七)

    第一百零八课:无监督学习 聚类算法:第一个无监督学习算法(无标签的数据)什么是无监督学习呢?对比:监督学习问题指的...

  • 《神经网络与机器学习》笔记(七)

    第九章 无监督学习 典型的无监督学习问题可以分为以下几类: 无监督特征学习是从无标签的训练数据中挖掘有效的特征或表...

  • Supervised vs. UnSupervised Lear

    监督学习和无监督学习的区别 从定义上来讲,有标签的学习叫做监督学习,无标签的学习叫做无监督学习。但今天在看关于视频...

  • Introduction of Machine Learning

    解释 监督学习:有标签数据 半监督学习:部分有标签 非监督学习:无标签 迁移学习:用非相关数据(含标签)来优化目标...

  • 吴恩达机器学习-Chapter 14 无监督学习

    目的:无监督学习 聚类算法 1. Lesson 108 无监督学习     1. 目的:介绍无监督学习,无标签...

  • Daily Routine

    一、机器学习分类 1. 有数据有标签的监督学习 2. 有数据无标签非监督学习 3. 少量数据有标签大量数据无标签的...

网友评论

      本文标题:无监督多标签问题

      本文链接:https://www.haomeiwen.com/subject/cvobzhtx.html