最近写语音识别的时候用到了CTC对齐,但是对其参数不太了解,因此写一个笔记。
ctc_batch_cost(y_true, y_pred, input_length, label_length)
- y_true:形如(samples,max_string_length)的张量,包含标签的真值
- y_pred:形如(samples,time_steps,num_categories)的张量,包含预测值或输出的softmax值
- input_length:形如(samples,1)的张量,包含y_pred中每个batch的序列长
- label_length:形如(samples,1)的张量,包含y_true中每个batch的序列长
就以现 在写的ASR系统为例:
1.模型的输入为input_data,维度为(1600(帧数),特征维度,1)
input_data经过了Activition层之后会得到预测值y_pred,这个是CTC中的第二个参数。
2.labels为输入的参数,维度为(64, 1)
64的意思是,每条语音中的字数最多为64。这个是第一个参数
3.input_length为输入中y_pred中未进行补零操作的长度,也就是input_data未补零的长度除以MaxPooling缩放的倍数。
4.label_length为标签未补零的个数。
待更新...
网友评论