理论

FM(Factorization Machine)是由Steffen Rendle在2010年提出,解决了稀疏数据场景下的特征组合问题,在广告,推荐领域被广泛使用.

动机

在高度稀疏的数据场景下如推荐系统,计算广告,传统的线性模型LR,不能很好的学习对应的权重.传统的线性模型,每个特征都是独立的,如果需要考虑特征与特征之间的交互作用,可能需要人工对特征进行交叉组合;非线性SVM可以使用核函数对特征进行映射,但是高维稀疏数据的情况下,不能很好地学习.

高维稀疏数据通常的处理方法是对类别特征进行onehot处理.高维稀疏数据表示一个样本中,非零数很少,绝大部分都是0.如果使用传统的线性模型,特征交互的权重之间是相互独立的,如果说对应的特征交互没有出现相应的样本,就会导致对应权重为0,由于样本的稀疏性,导致了交叉权重有绝大部分均为0.

为什么

那么,FM是如何解决这个问题的?

FM算法模型

模型函数

特征交叉,这里考虑2阶交叉(2-way).对应模型函数为:

image.png

其中,w0是全局偏置(如lr模型中b),w是输入特征的参数,<vi,vj>是输入特征i,j的交叉参数,vi,vj是k维向量.

这个函数的前两项就是传统的线性模型,后面一个是交叉特征,这是FM区别于线性模型的地方.

为什么特征交叉对应参数不是直接学习wij,而是通过<vi,vj>来表示?

因为在稀疏条件下,这样的表示方法打破了特征的独立性,能够更好地挖掘特征之间的相关性.由于数据的稀疏性,如果直接学习xi,xj的交叉特征对应的wij,可能由于xi,xj均为0,导致wij不能被学习.各个wij可以形成一个权重矩阵W,从矩阵分解角度来看,任意正定矩阵W可以分解为VVT.我们通过对V的学习,来近似估计W.同时由于打破了特征独立性,wij表示为<vi,vj>,实际我们通过学习vi,vj,然后再表示wij,意思说wij的vi不仅仅和vj有关,也和其他xk有关,所有和xi发生交互的特征样本均可以用来学习vi.举例来说wij,wik两个权重公用一个隐向量vi.