美文网首页无戒学堂:365天极限挑战日更营
面经 | 语音识别第二次技术面试——百融云创

面经 | 语音识别第二次技术面试——百融云创

作者: 水土七口刀 | 来源:发表于2020-03-13 22:27 被阅读0次

疫情带来的结果就是不论第几次都是电话面,这次面试感觉到了一定的技术难度,因为自己水平一般,所以其实很多问题可能回答的不是特别好,不过面试官最后也没说什么,不知道没有通过面试会告知还是怎么滴啊,到现在我还不知道结果怎么样,经验啊,面试经验很重要,可以实习一定要多找找实习通过实习面试和实习经历为毕业找工作铺好路,感觉没有实习太吃亏了。

侵删

先简单罗列一下通用问题:

1.简单介绍项目

2.语音数据规模

3.是否了解开源数据集 .

4.对NLP有了解吗

5.毕业时间

下面是专业性的一些问题:

1.语音数据增强办法有哪些?

我只回答了语速扰动、增加噪音两个方面。

2.语音特征提取的过程(语谱图)?

加窗分帧、快速傅里叶变换、取对数(对这一步理解还有待深入)。

3.卷积核为什么是单数?

这个问题我绝对是看到过得啊,当时没想起来说好像是方便计算。经过查找资料,两个方面一方面是便于same的padding,另一方面单数卷积核滑动锚点刚好在中心。

4.kaldi nnet123区别?

type     author     CPU/GPU                 feature

nnet1     Karel     GPU单卡训练             使用pre-training,使用early stopping

nnet2     Dan         支持多CPU多线程     使用固定epoch个数,最后几个epoch参数平均

nnet3     Dan         是nnet2的扩展支持更多的网络类型(比如CNN/RNN/LSTM)

5.CNN softmax如何送入ctc?

二维矩阵,两个维度,一个维度是序列长度,另一个维度是建模单元(比如音素、字)个数;另外还需要输入:输入序列长度、标签序列长度、以及标签序列;最后使用keras的tensorflow后端CTC函数进行计算。

6.你使用的是tensorflow动态还是静态图?

说真的,我不懂,但是一般用的应该是静态图。 静态图是指在图构建完成后,在模型运行时无法进行修改,节省时间和硬件。 动态图和静态图对应,在模型运行过程中可以对图进行修改,方便调试

tensorflow1仅支持静态图,tensorflow2才开始支持动态图,pytorch是动态图。

7.tensorflow实现线性回归的运行过程。

其实这个问题是为了让我清楚动态静态图的,先建立模型然后训练。(具体待补充)

8.beam search 和贪婪解码区别。

这个我知道,贪婪解码是beam search的极端情况。

9.kaldi解码wfst。

常用hclg,分为h、c、l、g四个部分,其它待补充。

这是前几天的面试,现在整理了出来,还有很多需要补充和完善的地方。一次次的面试渐渐发现一般的学校和社会脱轨程度还是比较高的,所以对于工科的学生建议考研选择学校一定要慎重,当然对于主要靠自己这句话我不反驳,但是环境很重要,更好的环境会有更好的自己,也会更轻松。

相关文章

网友评论

    本文标题:面经 | 语音识别第二次技术面试——百融云创

    本文链接:https://www.haomeiwen.com/subject/mpifrhtx.html