人类语言处理
人类语言很复杂
- 包括文字和语音
- 56%的语言没有文字
- 1s就有16k个样本点,每个点有256个可能的取值
-
语音和文字很复杂
课程内容
这里的model就是deep network。
硬train一发
硬train一发之后,focus近3年的进展。
课程内容简介
语音辨识系统(automatic speech recognition, ASR)
data:image/s3,"s3://crabby-images/8aa79/8aa7991866302f41613950be98efef369b925bd9" alt=""
语音中的seq2seq和别的领域中不同。
语音合成(text-to-speech synthesis)
依然存在问题:在真实应用中,会出现问题。(在给单独的词时,google 小姐的破音)
语音分离(speech separation)
鸡尾酒会效应(cocktail party effect)
直接硬train一发就可以获不错的效果。
可以用来做变音器(voice conversion),例如柯南。
data:image/s3,"s3://crabby-images/7141e/7141ed195291c63b2deb945137fe54b1a21aa3c8" alt=""
Input audio, ouput class
- speaker recognition
-
keyword spotting(e.g., wake up words)
两类问题
文字生成 (Text generation )
BERT
data:image/s3,"s3://crabby-images/68c42/68c424d00fc83755ee961989a82ff2daef7d6cde" alt=""
模型越来越大了。
data:image/s3,"s3://crabby-images/1dbab/1dbabc710165aa7f6098229b6b8a8c463c2f31b6" alt=""
输入输出同时是文字
data:image/s3,"s3://crabby-images/33134/33134fd815c4df6e1f993e275fabe9be82070f07" alt=""
data:image/s3,"s3://crabby-images/1952e/1952e3eb50e97a22a8df1644968f4d28ce24925f" alt=""
这部分内容,课程主要讲QA系统。
其他学习内容
-
Meta learning
学习如何去学习。
-
机器学习知识
image.png
-
adversarial attack
image.png
-
explainable AI
image.png
网友评论