大家都会神经网络,但是有多少人会计算参数量呢,不知道参数量怎么知道计算量呢。
这个系列我将分算法来说一下参数怎么算,顺便提示一下某些算法的含义。
1.LSTM
长短时记忆网络,就是关键的三个门,加一个状态,一个输出。
参数来了:
input_dim = 时间步长 = 句子单词个数
hidden_dim = 输出长度 = 传递状态长度
embedding_size = 单词emmding输出长度 = 输入x维度
参数数量是什么,就是W和b的总数量,我们来看LSTM构成,输入门要计算两个东西一个是输入概率i,一个是临时的传递状态c,遗忘门要计算一个遗忘概率f,输出门要算一个输出概率o,如果你仔细想,他们的结构都是一样的,所以参数计算实际就是一个公式乘以4。
接下来考虑矩阵相乘以及输入输出维度,
其实计算公式可以理解为:4×(hidden_dim × (embedding_size+hidden_dim)+hidden_dim)
网友评论