一种pytorch端到端中文语音识别项目思路-基于deepspe

作者: 牛奶大泡芙 | 来源:发表于2020-08-21 14:16 被阅读0次

一种pytorch端到端中文语音识别项目思路-基于deepspe
一种pytorch端到端中文语音识别项目思路-基于deepspe
一种pytorch端到端中文语音识别项目思路-基于deepspe
端到端语音识别步骤
论文解读|An End-to-End Trainable Neu
云从科技端到端语音识别词错率低至3.4%，双论文技术精解
Pytorch实现端到端的车牌识别
利用弱监督数据改进端到端的语音到文本转换
HTML5实现网页端语音输入语义理解（speex压缩）
基于华为云ModelArts的水表读数识别开发实践【华为云至简致

语音识别.jpg
上一篇说到了第四点，接下来继续分析整个模型中数据格式的变化。
上次说到了每一条短音频的数据被提取到特征之后，变成一个item返回给dataset的getitem函数，从而构成了一个迭代器，在训练的过程中依次输出给model，但是问题是之前说过model获取数据的形式是按批次的（batch_size个为一组），那么这个工作是在哪里做的呢？
然后就介绍一下采样器（Sampler），同样的Sampler也是一个迭代器，例如在一个dataset中一共有n个batch，每个batch有batch_size个item，那么Sampler做的事情就是如何选出这个n-batch的数据，并且batch_size内如何排列的。同为迭代器的形式，为后面生成可遍历数据集提供了方便，Sampler类实现的大致结构如下：

from torch.utils.data import Sampler
class SomeSampler(Sampler):
        def __init__(self, dataset, batch_size, start_index):
                self.list = [ids[i:i+batch_size] for i in range(0, len(dataset), batch_size)]
        def __len__(self):
                return len(self.list)- self.start_index
        def set_epoch(self, epoch):
                self.epoch = epoch
        def __iter__(self):
                g = torch.Generator().manual_seed(self.epoch)
                indices = (torch.randperm(len(self.list)-self.start_index, generator=g))
                                .add(self.start_index)
                                .tolist()
                for x in indices:
                        batch_ids = self.list[x]
                        np.random.shuffle(batch_ids)
                        yield batch_ids

可以看出，iter函数返回的每一个batch的item的序号都是打乱的，在前期我们手机大量数据的时候可能会有相似的或者相同数据源的在清单文件的相邻位置，如果按照录入的顺序进行训练，一个batch之中的数据可能非常相似，就会对魔性的训练造成影响。
得到了Sampler和Dataset就可以得到真正在for循环中输入给model的数据了，关系如下：

train_loader = SomeDataLoader(dataset=train_dataset,batch_sampler=train_sampler)

一开始我们说过，数据才是我们真正关注的，此时的数据虽然在数量上、批次（batch）上符合我们的要求，但是本项目中输入模型的数据增加了音频特征的label的shapes，而且原始音频数据特征的第二维度长度各不相同，统一shape才能输入到模型中（以batch为单位），这些就依靠dataLoader的collate_fn参数来实现，他本身的定义是如何取样本，
官网的定义是这样的

collate_fn (callable, optional) – merges a list of samples to form a mini-batch of Tensor(s). Used when using batched loading from a map-style dataset.

但是本项目中就在这个函数中对数据做了一次整理。dataLoader的函数参数是这样的：

class torch.utils.data.DataLoader(
    dataset,
    batch_size=1,
    shuffle=False,
    sampler=None,
    batch_sampler=None,
    num_workers=0,
    collate_fn=<function default_collate>,
    pin_memory=False,
    drop_last=False,
    timeout=0,
    worker_init_fn=None)

本项目中collate_fn的具体逻辑是：

def _collate_fn(batch):
    def func(p):
        return p[0].size(1)

    batch = sorted(batch, key=lambda sample: sample[0].size(1), reverse=True)
    longest_sample = max(batch, key=func)[0]
    freq_size = longest_sample.size(0)
    minibatch_size = len(batch)
    max_seqlength = longest_sample.size(1)
    inputs = torch.zeros(minibatch_size, 1, freq_size, max_seqlength)
    input_percentages = torch.FloatTensor(minibatch_size)
    target_sizes = torch.IntTensor(minibatch_size)
    targets = []
    for x in range(minibatch_size):
        sample = batch[x]
        tensor = sample[0]
        target = sample[1]
        seq_length = tensor.size(1)
        inputs[x][0].narrow(1, 0, seq_length).copy_(tensor)
        input_percentages[x] = seq_length / float(max_seqlength)
        target_sizes[x] = len(target)
        targets.extend(target)
    targets = torch.IntTensor(targets)
    return inputs, targets, input_percentages, target_sizes

return的这四个变量根据后面训练或者预测的需求去确定就可以。
看一下具体的逻辑吧，主要还是关于数据处理。输入参数batch中包含两个数据，（spect, transcribe），就是音频特征数据和语音内容。batch按照音频特征数据二维度的长度进行的升序排列然后取得了长度最大的item（longest_sample），一个batch的长度（minibatch_size），新建空的矩阵，形状就是（minibatchsize, 1, freq_size, max_seq_length），也就是我们之前说过的（16, 1, 161, xx）了，这里的161表征一种频率特性，把batch的内容处理之后放入这个新的四维矩阵，把tensor放到形状设定好的zeros矩阵inputs中就可以达到补齐的效果了。
所以这个时候的数据变化是

dataLoader----(16, 1, 161, 1000)

5、模型中的数据处理
上面4介绍的数据就是真正输入模型的数据了，数据首先经过卷积层，这一层的参数成了hard code，代码如下

 self.conv = MaskConv(nn.Sequential(
            nn.Conv2d(1, 32, kernel_size=(41, 11), stride=(2, 2), padding=(20, 5)),
            nn.BatchNorm2d(32),
            nn.Hardtanh(0, 20, inplace=True),
            nn.Conv2d(32, 32, kernel_size=(21, 11), stride=(2, 1), padding=(10, 5)),
            nn.BatchNorm2d(32),
            nn.Hardtanh(0, 20, inplace=True)
        ))

模型的卷积核设置的确实比较大，这会让模型的参数增加，一般的卷积核可以是(3, 3) (5, 5)的，考虑到数据模型的原始数据shape比较大，所以这里做这个处理也就不奇怪了，根据官网给的计算公式（如下）

conv2d.png

可以计算出得到的数据形状

Conv2D----(16, 32, 41, 500)

接下来的循环卷积层我们选择lstm性能相对较好，可以做上下文的关联，设置双向的卷积层就可以让上下文相互感知了，这里默认按照这种情况分析。在设计网络模型的时候涉及到模型之间的数据shape转换，因为不同的网络层都有自己的对数据格式的要求，比如官网中lstm对数据格式的要求是

 (seq_len, batch, input_size)

那么在输入之前要进行的两步操作就不难理解了

sizes = x.size()
x = x.view(sizes[0], sizes[1] * sizes[2], sizes[3])  # Collapse feature dimension
x = x.transpose(1, 2).transpose(0, 1).contiguous()  # TxNxH

先观察一下lstm的参数

input_size=input_size, hidden_size=hidden_size,
                            bidirectional=bidirectional, bias=True

输出数据的形状受到hidden_size的影响，所以想用lstm形成循环的多层就要保证输入和输出的shape一致，这里先用一个lstm把输出转成hidden_size的形状，然后把这些数据循环输入。对于双向的设置输出形状是(seq_len, batch, num_directions * hidden_size)，所以用一个相加的操作把他搞定

x = x.view(x.size(0), x.size(1), 2, -1).sum(2).view(x.size(0), x.size(1), -1)

LSTM----(500, 16, 1024)

这时再transpose一下让batch_size恢复原位

transpose----(16, 500, 1024)

经过上面的过程接下来就是线性层了，实际上整个模型还是相当于一个大型的分类器，如果具有上下文关联的能力就更强了

Linear----(16, 500, 8000)

在训练的过程中不会增加softmax层，可以理解为这个softmax后面也会作为模型预测的一部发挥他的作用
softmax不会改变数据的形状，原样输出，但是8000维数据会被处理成概率的形式，并且相加之和为1，公式如下

softmax.png

模型这部分的数据分析就说的差不多了，后面继续补充关于预测过程的内容吧❥(^_-)

一种pytorch端到端中文语音识别项目思路-基于deepspe
小编这一段时间研究端到端的实现中文语音的识别，项目主体代码使用了的方案，不同的是这个模型主要为英文设计，在中文识...
一种pytorch端到端中文语音识别项目思路-基于deepspe
这里是第二部分了，上次说到是参数配置3、推理参数推理参数这里才真正涉及到语言模型和解码器，在模型的训练过程中实际上...
一种pytorch端到端中文语音识别项目思路-基于deepspe
上一篇说到了第四点，接下来继续分析整个模型中数据格式的变化。上次说到了每一条短音频的数据被提取到特征之后，变成一...
端到端语音识别步骤
speechbrain在LibriSpeech的recipe 1、提取语音信号。 2、对每个batch的语音数据复...
论文解读|An End-to-End Trainable Neu
一种为基于图像的序列识别设计的可端到端训练神经网络及其对场景文本识别的应用作者： Baoguang Shi, X...
云从科技端到端语音识别词错率低至3.4%，双论文技术精解
概要端到端的语音模型越来越多的引起学术界及工业界的关注，日前，云从科技在端到端的语音识别（ASR）领域上再获突破...
Pytorch实现端到端的车牌识别
最近大作业做一个车牌识别的项目，于是去github上找了一篇中科大的论文。源码地址：https://github....
利用弱监督数据改进端到端的语音到文本转换
摘要与自动语音识别（ASR）和文本机器翻译（MT）模型的级联相比，端到端语音翻译（ST）模型具有许多潜在的优...
HTML5实现网页端语音输入语义理解（speex压缩）
基于javascript用olamisdk实现web端语音识别语义理解（speex压缩）转载请注明原文地址：ht...
基于华为云ModelArts的水表读数识别开发实践【华为云至简致
【摘要】这是水表读数识别项目，实现了如何端到端完成水表读数识别项目。涉及领域包括图像分类、语义分割、OCR文本检...