TL;DR

本文提出了一种新的学习范式：label distribution learning, LDL，用来学习各个label描述一个实例的度。single-label 和 multi-label learning可以看做LDL的一种特例，区别于学习一个或多个label，LDL学习一种label的分布，这种分布表示每个label描述实例时的相对重要性。

Dataset/Algorithm/Model/Experiment Detail

Introduction

目前已有的学习范式主要有两种：

（1）每个实例有一个label，称为Single-label learning（SLL）;
（2）每个实例有多个label，称为Multi-label learning（MLL）

以上这两种范式都旨在回答“which label can describe the instance?”的问题，但是都不能回答“how much does each label describe the instance?”的问题。那么LDL就可以解决以上问题。

对于一个样本 x ,称 dyx 为label y 描述该样本的度，且满足以下条件：

image

那么，一个样本所有可能的label对应的 dyx 可以构成类似于概率分布的形式，被称为label distribution。那么，学习由label distribution描述的实例的过程被称为label distribution learning, LDL。

LDL和其他学习范例的比较如下图：

image.png

可以看出LDL中，样本由一个label distribution标识，衡量模型性能的方法是比较模型预测的分布与实际分布间的距离或相似性。

实际上，SLL和MLL可以转换为LDL，只需要将他们的标签修改一下即可。

image.png

Formulation of LDL

image.png 假设需要学习的参数模型表示为

image

， θ 是模型参数，那么在给定训练集 S 下，LDL的目标是对于输入 xi ，找到 θ 使得模型给出的分布和实际的分布 Di 相似。

如果使用KL散度度量两个分布的相似性，那么最优的模型参数 θ 公式如下：

image.png

对于SLL，将其label distribution带入，则得到下式，实际就是最大似然估计：

image

对于MLL，将其label distribution带入，则得到：

image

LDL algorithm

作者给出了LDL 算法设计的三种策略：（1）problem transformation；（2）Algorithm Adaptation；（3）Specialized Algorithms。

problem transformation：就是将LDL问题转换为已有的学习问题。比如，可以将LDL转换为SLL问题，方法是：将每个样本转换为 c 个带权重的single-label样本，权重为对应的 dyx 。然后根据样本权重进行采样，得到 n∗c 个single-label样本，然后使用SLL的方法即可。
Algorithm Adaptation：扩展已有的方法用来解决LDL问题。例如，k-近邻算法，我们可以将一个待测试样本的k个近邻对应的label distribution做平均，作为其预测的分布。
Specialized Algorithms：根据LDL问题的特点，直接设计对应算法。作者介绍了两种算法，一种是使用Improved Iterative Scaling (IIS)策略的方法，被称为SA-IIS；另一种方法是对SA-IIS在优化方法上的改进，使用BFGS优化方法，被称为SA-BFGS。

SA-IIS方法将待学习的参数模型假设为最大熵模型：