人脑的信息处理系统是多源的,人的眼睛接受图像信息,耳朵接受语音信息。图像信息进一步分为静态和动态图像信息,其中文字是图像的一种。语义三角的信息结构可以说明这一点。
本文标题:多模态视频理解
本文链接:https://www.haomeiwen.com/subject/gjwmrctx.html
网友评论