近些年来,特征工程在深度学习中的重要性似乎有一定程度的下降。
主要是在CV领域为主的发展,深度学习已经基本取代传统的图像特征工程手段。
究其原因,主要是DNN对低秩(局部低秩)(1)连续值表征的对象本身有着非常好的学习能力。关于低秩的问题,低秩瓶颈里有对其更深入的一些讨论。
而在工业界一些其他常见的领域,用户行为的预测(CTR预估,用户时长预估等),仍然需要一定的特征工程。
如:
1、构造(变换)特征:做某些维度的用户x内容(商品,广告)的交叉特征,能为模型提供较强的记忆能力,而直接输入这些特征,模型要通过隐含层学习到其频次与强度并不是很高的信号也较为困难。
2、设计更多特征:需要用户,以及内容更多维度的描述。如建立实时反馈ctr词典。用户画像,用户query挖掘等。
(1)秩:矩阵中不相关的列的个数。视觉与内容较为一致的图片,一般都拥有较低的秩,如果图片秩较高,一般是有很大噪点。图像往往是由一些相似的纹理,局部色块构成。所以即使整体的秩不低,这些局部相似性也构成了局部的低秩。
网友评论