面经 | 语音识别第二次技术面试——百融云创

作者: 水土七口刀 | 来源:发表于2020-03-13 22:27 被阅读0次

面经 | 语音识别第二次技术面试——百融云创
免费公开课 | 云从的语音识别技术是怎样打破世界纪录的？
智能语音客服服务助手
百度语音识别使用说明
科研管理工作小结。
语音化实践
智能语音识别系统应用及研发方向
2.97%！云从科技刷新语音识别世界纪录
985毕业硕士二面龙图游戏直接被拒，面试题曝光网友直呼：这不比阿
TransWAI：高效实现语音转文字，减少视频翻译周期

疫情带来的结果就是不论第几次都是电话面，这次面试感觉到了一定的技术难度，因为自己水平一般，所以其实很多问题可能回答的不是特别好，不过面试官最后也没说什么，不知道没有通过面试会告知还是怎么滴啊，到现在我还不知道结果怎么样，经验啊，面试经验很重要，可以实习一定要多找找实习通过实习面试和实习经历为毕业找工作铺好路，感觉没有实习太吃亏了。

侵删

先简单罗列一下通用问题：

1.简单介绍项目

2.语音数据规模

3.是否了解开源数据集 .

4.对NLP有了解吗

5.毕业时间

下面是专业性的一些问题：

1.语音数据增强办法有哪些？

我只回答了语速扰动、增加噪音两个方面。

2.语音特征提取的过程（语谱图）？

加窗分帧、快速傅里叶变换、取对数（对这一步理解还有待深入）。

3.卷积核为什么是单数？

这个问题我绝对是看到过得啊，当时没想起来说好像是方便计算。经过查找资料，两个方面一方面是便于same的padding，另一方面单数卷积核滑动锚点刚好在中心。

4.kaldi nnet123区别?

type author CPU/GPU feature

nnet1 Karel GPU单卡训练使用pre-training，使用early stopping

nnet2 Dan 支持多CPU多线程使用固定epoch个数，最后几个epoch参数平均

nnet3 Dan 是nnet2的扩展支持更多的网络类型（比如CNN/RNN/LSTM）

5.CNN softmax如何送入ctc?

二维矩阵，两个维度，一个维度是序列长度，另一个维度是建模单元（比如音素、字）个数；另外还需要输入：输入序列长度、标签序列长度、以及标签序列；最后使用keras的tensorflow后端CTC函数进行计算。

6.你使用的是tensorflow动态还是静态图？

说真的，我不懂，但是一般用的应该是静态图。静态图是指在图构建完成后，在模型运行时无法进行修改，节省时间和硬件。动态图和静态图对应，在模型运行过程中可以对图进行修改，方便调试。

tensorflow1仅支持静态图，tensorflow2才开始支持动态图，pytorch是动态图。