这是2015年的文章,发在 IEEE INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING
1. Abstract
在分析多模数据的增长的兴趣下使得张量分解以及张量分类在机器学习中很重要。CNNs的分类器处理的是输入向量。多模的数据被展开成一个高维向量会损失信息,从而影响分类表现。并且需要很多参数。
这篇文章联合张量分解和CNNs的分类器为多模特征提取和分类提出了 tensor classification networs (TCN)。
多模信息能够被保留。
实验表明能够用少的参数得到不错的结果。
2. Introduction
Multichannel speech dereverberation based on convolutive nonnegative tensor factorization for ASR applications:提出了卷积非负张量因子分解(NTF)来增强多通道回响语音以实现鲁棒的语音识别
张量分析和神经网络被结合去增强模型对不同应用的容量。
Factored 3-way restricted Boltzmann machines for modeling natural images:提出了一种分解式三向受限Botlzmann机(RBM),以允许RBM的隐藏单元控制可见单元之间的局部相关性,其中权重被参数化为张量。
The deep tensor neural network with applications to large vocabulary speech recognition:通过级联双投影(DP)构造深张量NN层和张量层,将信息自动分解为DP层中的两个非线性子空间,然后与张量层连接。
deep stacking network 延续了上面的双投影的想法。
缺点:在输入到分类器的时候都需要把张量展开成向量,破坏了领域信息。
文章提出了 TCN,能够用张量来表示输入数据和特征,并且能够直接用张量的形式直接通过 softmax 层得到不同的标签。
并且基于交叉熵函数给出了张量误差回传算法来训练TCN。
3. Tensor Classification Network
图1展示了一模,二模,三模TCNs。
图1CNN分类器和TCN的区别在于处理高维数据的方式。前者是把多模数据展开成向量数据,后者能够保留多模结构,并且提取特征。
3.1 Tensor Feedforward Computation
每一个TCN包含两个前向计算。
3.1.1 Tensor transformation layer
第一层,通过用三个分解矩阵,,把输出张量变为。
公式1 公式2能够从获得一个更紧凑的核张量。
3.1.2 Nonlinear activation layer
第二层,把核张量输入到非线性激活函数,得到。
公式3其中,代表非线性激活函数。
除此之外,TCN的最后一次是softmax(为了是得分类输出)
softmax函数为:
公式4 公式5
其中,,是层的输出,
3.2 Tensor Error Backpropagation
为了计算模型参数,使用最小化负对数似然函数或者交叉熵函数:
其中,是第个输入张量的目标向量。
3.2.1 Softmax layer
在 softmax 层(),计算一个输出神经元的局部梯度:
3.2.2 Nonlinear activation layer
公式123.2.3 Tensor transformation layer
公式13参考资料:Tensor Classification Networks
网友评论