美文网首页
关于overfitting

关于overfitting

作者: zizon | 来源:发表于2017-10-18 00:28 被阅读0次

    中午翻到篇论文,讲模拟人脑神经网络结构的.
    其中有个地方提到了一个delay的概念.
    大意就是神经网络力有个比较重要的特性就是信号传达的延时.

    一个马上的联想就是artificial neural network/ANN.

    把某一个粒度的神经网络信号传播延迟考虑一个time frame/tick之类的东西.
    那么每一个信号的释放和响应就存在一个t的延时.
    对应于ANN就是一个activation delay了几个cycle/batch之后再参与进来.

    类比LSTM的话就是类似于
    c_t = \sum_i f_i(c_{t-1}*W_i)的形式.

    但是拆开来动态一点想的话.
    在每一个cycle其实就是一个确定的graph的dataflow的东西.

    而不过把不同delay按照某种基本cycle单元分组的话.
    也就是做类似周期频率的等价意义的话.
    最终的实际dataflow就可以考虑为各种周期的graph形态的dataflow composite而成的.

    类似于傅立叶变换.

    反过来说,每一个简单的dataflow就代表了某种类似feature或者说决策的东西.

    于是把ANN的结构考虑为一组并列的decision tree的形态的话.
    每一个cell其实还是类似于某种策略选择.
    只不过具体意义是相对隐式的.

    那么,如果把已知的一些可解释的描述变量放到一个傅立叶变换里,拟合出对应的参数的话呢?

    一种结果可能就是跟样本的多样性有关.

    因为毕竟拟合代表是某个集合的summary特征.
    除非说涵盖了多数情况,不然overfitting是难免的.

    于是一个问题就是表达式的外延性或者说类似out of vocabulary/generalization的问题如何定义呢?

    generative adversarial的考虑是negative sampling.
    直觉上这是类似于bounding/constrain的做法.

    即是定义出一个类似函数边界的东西.

    某种意义上来说可以理解为是一种定向的prune.

    underfitting的问题可以从拟合的准确度来比较直观地看到.

    overfitting本质上来说是过多地capture了training set的一些细微的差异.

    考虑实际上是存在一个确定的多项表达式描述预期函数的.
    对于一个ture negative的input来说,实际上对于这个具体的表达式而言应该是被接受的.
    而拟合函数给予拒绝的话说明从表达构成来说,比真实预期函数多了一些不必要的余项.

    形式上来说,regularization/bias是有可能去掉这些项目的.
    当并不确切.

    因为理论上上说,这个效用只在于不同的拟合之间可以作为一个参考.
    在一个拟合内,其实是可以理解为多input的一定程度的transform而已.
    实际还是存在某种deterministic的.

    如果是一个符合某种分布的区间值呢?
    也就是bias是一个每次regression的时候是概率性的有一定范围bound的值呢?

    因为服从一个既定概率分布,所以期望应该还是确定的.
    对于单个update的收敛性的性质应该不会有什么影响.

    对于整体呢?

    如果真实的表达式是

    G=\sum_i g_i(x)
    的话
    拟合为
    F = G+Bias
    ->
    G = F - Bias
    ->
    G = \sum_i f_i(x) - p_i*bias

    从形式上来说,跟不用概率分布是一样的.

    所以这也不能用来衡量是否过度表达.

    实际上,把negative sampling换个思路理解的话,其实是某种副作用在减少overfiting.
    因为包含的bounding约束,可能一定程度上会使得出来的余项相对较小.

    如果不能减小的话,说明negative sample里也能capture到这些余项所代表的特征.
    因为形式上是
    maximize(positive) + minimize(negetive)
    ->
    w*x_n + b_n + n_p
    ->
    reminder = b_n + n_p

    reminder不减小的话,就因为这b_n和n_p都有贡献.

    相关文章

      网友评论

          本文标题:关于overfitting

          本文链接:https://www.haomeiwen.com/subject/bmnjuxtx.html