美文网首页
人工智能下的多感观应用

人工智能下的多感观应用

作者: 晓在IT | 来源:发表于2021-07-21 23:44 被阅读0次

    人对AI机器的渴望,就是希望机器具有听说读写的能力,而这些能力在也内,又被成为”多模态“。

    一、模态的概念

    所谓“模态modality”,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。

    假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。

    二、为什么要有多模态

    相比于只侧重单一模态的技术(比如图像识别、动作检测、机器翻译等),多模态技术一定距离真正的机器智能更近一些,因为机器智能的终极目的是模拟人的智能,而人之本身对于这个世界的认识一定是视听说的结合,这就对应着多模态技术的融合。

    三、主要的AI感知模态

    运用到物联网设备当中,今天主要的AI感知模态有三种:

    1. 语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;
    2. 机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;
    3. 传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。

    把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。

    四、多模态下的数据使用

    多模态人工智能还存在不少技术难点:

    第一是数据模态多种多样,包括2D图像、3D模型、结构化信息、文本、声音及更多无法量化的数据;


    image.png

    第二是多模态数据的不对应,如从图像到文字,从文字到图像,都是“一对多”的过程,会有多种的描述和呈现;


    image.png
    第三是多模态数据的融合,一个软件或算法的进步较为容易,但多个算法叠加在一起,难度将几何级上升,如“告诉机器人拿桌子左边的瓶子”,会经过语言模型、三维建模、自动寻路、图像分析等步骤;
    image.png

    相关文章

      网友评论

          本文标题:人工智能下的多感观应用

          本文链接:https://www.haomeiwen.com/subject/rvnsmltx.html