匆匆读完第三章《The text-to-speech Problem》,下面是基本内容笔记。
语音与写作
- 语音和写作这二者都是一种可以解码语言消息的信号
- 他们主要的区别是写作主要被用来记录消息,它比语音更贴近消息本身。
- 大多数的写作是被用来默读,如果它被大声读出来,可能会带来困难。
- 不是所有的写作用来解码语言信息,他也可以解码其他符号系统,比如数学符号。
大声朗读
-
很大程度来说,大声将文字内容朗读出来,就是一个这样的过程:即先将书面信号解码为抽象的消息,然后再重新编码为语音信号。
-
在很多情况下,韵律信息是不需要的。但是其他更复杂的方法中,生成韵律信息将使得消息的解码更为准确。
-
在普通形式的框架之下,我们的TTS系统有两个基本模块:
- 文本分析:一个从文本信息找到信息的解码过程。
- 语音合成:一个从信息创造信号的编码过程。
Text-to-Speech 的关键挑战
-
任何一个TTS系统都需要面对如下四个挑战:
- 文本的符号分类。
- 自然语言文本的解码
- 生成自然地,听起来像人类的语音。
- 生成易于理解的语音。
-
还有目前,以及将来将会出现的两大挑战:
- 生成情感的增强的韵律。
- 将听者的处境和需求考虑在内的说话方式。
网友评论