论文学习：Label Partitioning For Subl

作者: python小白22 | 来源:发表于2020-07-24 17:14 被阅读0次

论文学习：Label Partitioning For Subl
论文阅读：Streaming Graph Partitionin
日志解析IPLoM算法
类别隔离记忆结构（LIM）用于长尾视觉识别
[论文]Label-Noise Robust Generativ
奇异值分解——学习笔记
【论文笔记】融合标签向量到BERT：对文本分类进行改进
Sublime中code优雅粘贴到word中
Sublime 配置
让sublime text3 添加中文输入

论文《Label Partitioning For Sublinear Ranking》是由Jason Weston等人在2013年发表在第三十届国际机器学习大会上。

1.简介

现实中许多任务需要对巨大的目标量进行打分并且排序。例如在推荐系统里，响应一个用户的请求时，可能需要对数百万个视频打分并排序，然后把前k个视频呈现给用户。针对这类问题已经提出了许多强大的算法，通常这些方法是通过依次对每个标签评分并排序。由于独立地给标签评分，这些方法中的许多方法在标签数量上都是线性的，所以当标签的数量达到数百万或更多时，这些算法不能够满足实时性。
本文提出一种基于标签分割的算法，只需要套在原有算法的外层，就可以实现亚线性排序；目的是使这些方法可用于带有大量标签的实际问题。不是提出了替代的算法，而是提出了“包装器”方法，该方法是使这些方法易于处理，同时保持甚至在某些情况下甚至提高准确性的算法。（该方法缩短了测试时间，而不是训练时间，并且由于包装方法实际上训练起来并不快。）

2.算法

假设我们有一个数据集， $(x_i,y_i ) ,i=1,...,m$ ，其中 $x_i$ 是输入(也称作样本，example)， $D$ 是所有标签的集合， $y_i$ 是 $D$ 的子集。我们的目标是给定一个新样本 $x^*$ 的情况下，对 $D$ 中所有标签排序，并将前 k 个最相关的标签呈现给用户。举个例子，在视频推荐系统里， $x_i$ 是某个状态（搜索历史，观看历史，地理位置 )下的用户，D是整个视频库， $y_i$ 是和用户最相关的视频集合，假设 $|y_i|$ 表示 $y_i$ 中视频的数量。假设在响应用户 $x^*$ 的请求时，我们需要给用户呈现 k=10 个视频，假设和用户最相关的视频集为 $y^*$ ，如果 $k<=|y^*|$ ，那我们希望这 k 个视频都属于 $y^*$ ，如果 $k>|y^*|$ ，我们希望 $y^*$ 中所有视频都在这k个视频里。
假设传统的方法有一个打分函数 $f(x,y)$ ，可以对一个样本标签对进行打分，这里的y是指单个标签。每次有用户请求时，都需要对视频库中的每个视频打分，如果视频库是百万量级甚至以上，显然耗时太多，不能满足实时性。因此，本文提出了一种标签分割的算法，包含两个部分：
（1）输入分割：给定一个输入样本，将其映射成一个key，这里表示为