cnn映射如下:
y=f(ai, ...),
ai1=f1(bj..), ai2=f2(bk,..); 其中bj..与bk..的补集不为空。
bj1=f3(cm..),...一直这样下去。
这个结构的网络函数有2个特征:
1,邻域变量强相关
2,权重复制
以上两点就是cnn的适用范围。理解如下:
1的理解,b1, b2若强相关,则其互信息较大,在推测y时,有信息冗余,我们构造一个a1=f1(b1,b2),不同样本{y,b1,b2}上来后,我们发现只要a1不变,则y的分布P(y|a1)就不变,对应的b1,b2却是可变的,f1映射就去除了b1b2的冗余,精简为a1了。
2的理解,时间空间样本具有平移不变性:给定一张图片样本,对其平移旋转缩放后生成的新样本,仍然是合法的真实样本。这一属性,使得我们可以把f1的权值复制给f2,...
以上是直观理解。
cnn的基本假设是邻域强相关,基本思路是强相关的先合并。但在nlp中,句内有很多的长程关联,cnn不适合句内使用
网友评论