科普|智能座舱是如何实现可见即可说的？

作者: 蚍蜉一生 | 来源:发表于2024-05-13 20:21 被阅读0次

2019汽车智能座舱产业发展研究报告
随笔0418/速记——Multimodal Few-Shot L
～鼎然～答疑众弟子2017.11.11
AI智能驾驶芯片的那些事儿（上）
智能汽车系列-数字座舱
人工智能技术如何让智能家居变得更聪明？
浏览器端机器学习—brain.js
宝马集团“未来城市智能出行”概念亮相2017亚洲消费电子展
校本研究视角下，切片诊断实践流程与步骤
首搭最新一代人机交互系统iDrive 7.0

可见即可说也叫语音触摸屏，是指在汽车车机/pad/手机等具备智能屏的设备上，通过语音来操控当前页面元素，比如你打开了QQ音乐，首页有一个我的收藏的按钮，你说查看收藏，就等于点击了这个按钮；目前市面上大部分新能源汽车都具有此功能，比如小米、问界、蔚来、小鹏、理想、极越等等。
可见即可说简言之就是：把用户语音转换为控件点击、滑动等事件，具体流程如下：

可见即可说流程
一般来说，可见即可说不是单个App的能力，而是系统全局能力，所以从用户所说到用户意图，信息流转在独立的语音进程中，最后执行点击才进入三方App-QQ音乐进程中，抓手能够将意图跨进程传递给具体的控件或者方法。目前市面上有各种供应商提供的语音语义识别方案，一般使用就是简单的API调用，这里不再详细展开；所以可见即可说另一个关键问题就是如何获取当前页面抓手集合，常见的方案有三种：

三方应用客户端运行时注册；
在语音进程通过无障碍、OCR、图片识别等手段自动注册。
语音模块云端手动配置；

一、三方应用注册

    三方应用注册是指QQ音乐、爱奇艺视频等三方App在每个页面进入前台的时候，通过跨进程通信方式把当前页面所有元素的名称+对应方法名（也叫抓手）添加到语音进程的一个集合中，这个集合叫“当前页面元素抓手集”。
    当通过语义识别得到用户意图后，比如是：点击控件“我的收藏”，接下来就从页面元素名称列表中寻找是否有"我的收藏"或者同意词，如果匹配到了，就得到了"我的收藏"这个key绑定的方法（比如是onClickFavorite），接下来跨进程调用这个方法就OK了。
    三方应用注册具备较好的精确性和稳定性，但是这种方法需要语音和应用密切配合，应用中侵入了很多的语音注册和控制回调的代码。

二、自动注册

一种自动注册流程

无障碍服务是Android和IOS等系统提供的一种系统服务，当一个进程启动无障碍服务后，它就能一直监听前台页面元素变化，并能够获取所有元素节点信息（文本、描述）和索引；在通过用户意图匹配到特定节点后，能够根据这个节点的索引发起对该节点代表的页面元素的点击、滑动等操作，在Android中关键代码如下：

/**
 * MyAccessibilityService类扩展自AccessibilityService，用于提供无障碍服务。
 * 这个类监听系统中发生的可访问性事件，并可以根据事件类型执行相应的自定义操作。
 */
public class MyAccessibilityService extends AccessibilityService {

    private static final String TAG = "MyAccessibilityService";
    private final Map<String, AccessibilityNodeInfo> mAccessibilityNodes = new HashMap<>();

    /**
     * 获取访问性节点信息的映射表。
     *
     * 该方法不接受任何参数。
     *
     * @return 返回一个包含访问性节点信息的映射表，其中键为节点的唯一标识，值为对应的AccessibilityNodeInfo对象。
     */
    public Map<String, AccessibilityNodeInfo> getAccessibilityNodesMap() {
        return mAccessibilityNodes;
    }

    /**
     * 当访问性事件发生时的回调方法。此方法会在窗口状态改变或窗口内容改变时被调用。
     * 主要用于遍历当前活动窗口的根节点，以执行特定的操作或获取特定的信息。
     *
     * @param event 代表发生的访问性事件的 AccessibilityEvent 对象。
     */
    @Override
    public void onAccessibilityEvent(AccessibilityEvent event) {
        // 检查事件类型是否为窗口状态改变或窗口内容改变
        if (event.getEventType() == AccessibilityEvent.TYPE_WINDOW_STATE_CHANGED ||
                event.getEventType() == AccessibilityEvent.TYPE_WINDOW_CONTENT_CHANGED) {
            // 获取当前活动窗口的根节点
            AccessibilityNodeInfo rootNode = getRootInActiveWindow();
            // 根节点非空时，遍历根节点
            if (rootNode != null) {
                traverseNode(rootNode);
            }
        }
    }


    @Override
    public void onInterrupt() {
        // Handle interruption of the accessibility service
    }

    /**
     * 遍历并记录AccessibilityNodeInfo树中的每个节点。
     * 该函数递归地访问给定节点的所有子节点，并将每个节点的文本或内容描述以及对应的节点对象存储在一个全局映射中。
     *
     * @param node 要遍历的 AccessibilityNodeInfo 对象。如果为 null，则不执行任何操作。
     */
    private void traverseNode(AccessibilityNodeInfo node) {
        if (node == null) {
            return;   // 如果节点为null，则直接返回，不进行任何操作
        }
        

        // 获取当前节点的文本或内容描述，并存储该节点
        CharSequence contentDescription = node.getContentDescription();
        CharSequence text = node.getText();
        // 使用文本或内容描述作为键，将节点存储在 mAccessibilityNodes 映射中
        String key = text != null ? text.toString() : contentDescription.toString();
        mAccessibilityNodes.put(key, node);

        // 日志记录当前节点的内容描述和文本
        Log.d(TAG, "Node Content Description: " + contentDescription + ", Text: " + text);

        // 递归地访问当前节点的每个子节点
        for (int i = 0; i < node.getChildCount(); i++) {
            traverseNode(node.getChild(i));
        }
    }

    /**
     * 对给定的无障碍节点信息执行点击操作。
     * @param node 无障碍节点信息对象，代表要执行点击操作的UI元素。
     */
    public void performClick(AccessibilityNodeInfo node){
        // 执行节点的点击动作
        node.performAction(AccessibilityNodeInfo.ACTION_CLICK);
    }


}

    但在实际开发中使用无障碍服务来获取元素节点信息时会遇到两种无法处理的情况：
    1. 控件无描述无标题，但是控件内的图像中有文本表明这个控件的作用；
    2. 控件无描述无标题，但是可以根据控件的图像知道这个控件的意义，比如搜索图标.
对于情况1，我们可以使用OCR来获取控件中文本，OCR（Optical Character Recognition，光学字符识别）是一种技术，用于识别和提取图像中的文本信息；对于情况2 ，我们可以使用图像识别方法给出代表控件图像意义的文本。
    小结：自动注册原理和实现过程比较复杂，但可以实现三方应用跟语音完全解耦，三方App中也不用包含语音代码。

三、云端手工配置

云端手工配置是指当前页面的抓手集合是从云端下发的，语音开发同学需要收集每个页面的抓手集合，并提前将它配置到云端；在三方App运行时候，可以通过跨进程、无障碍等方式获取当前页面唯一标记id，然后语音进程根据此id去云端配置平台获取对应的抓手集合，具体实现略。
云端手工配置具备较好的精确性和一定的灵活性，并一定程度解耦了三方App和语音客户端；但是云端配置下发过程中依赖网络，在网络较差情况下会影响体验，另外云端配置是语音云端耦合三方App业务，跟三方应用客户端运行时注册一样，都是适合比较封闭的语音生态。

总结与思考

不管是哪种获取元素抓手的方式都是有优势和劣势，在实际中场景中，我们可以根据具体情况，组合搭配使用，以达到更优的可见即可说效果。
目前语言大模型得到了前所未有的发展，在实现可见即可说时候，可以引入TA来提升整体的兼容性和准确度，比如在抓手匹配中，引入AI语言大模型进行匹配，就能使得用户只要说类似得意思就能匹配成功，大大增加了这个可见即可说的泛化水平（对同一个意思不同说法都兼容，所以具备更加广泛的适用性）。您还想到有什么是可以改进，可以在评论区交流下。

2019汽车智能座舱产业发展研究报告
报告介绍本篇报告对智能座舱产业做出全面梳理，介绍智能座舱概念定义、发展历程和宏观环境；将产业链拆分成基础设施、底...
随笔0418/速记——Multimodal Few-Shot L
多模态交互 —— 无论是机器人还是智能汽车的智能座舱（概念），都涉及此项技术。而这篇文章[https://pro...
～鼎然～答疑众弟子2017.11.11
弟子问:师父，啥是能所？～鼎然～:分别即是。若无分别，不可说能也不可说所。即无分别，如何生能？如何生所。是故，但...
AI智能驾驶芯片的那些事儿（上）
随着智能电动车的普及，现在越来越多的人开始关注智能驾驶领域，不管是辅助驾驶还是智能座舱领域，AI芯片，雷达，传感器...
智能汽车系列-数字座舱
智能汽车有三大发展方向：数字座舱，车联网和无人驾驶，这三个领域正随着各项技术的发展相互融合、相互渗透、互为补充。下...
人工智能技术如何让智能家居变得更聪明？
智能家居是能能够实现完全的智能化，不仅需要硬件的支撑，还需要软件的支撑，也就是如何让硬件拥有思维，实现智能化。智能...
浏览器端机器学习—brain.js
近两年机器学习火的一塌糊涂，智能两个字随处可见。今天分享的内容是我们如何在浏览器端实现机器学习，通过机器学习增强用...
宝马集团“未来城市智能出行”概念亮相2017亚洲消费电子展
●BMW以“自动化”、“互联化”、“电动化”、“服务化”诠释未来城市智能出行愿景 ●BMW i未来概念座舱中国首发...
校本研究视角下，切片诊断实践流程与步骤
切片，即分解，即聚焦，是如何实现有效教学的导入：如何改变？掌握探究原理！导入的基本功能：激趣吸引，引入新知 ...
首搭最新一代人机交互系统iDrive 7.0
随着全新BMW X5首次搭载智能互联驾驶座舱（BMW Live Cockpit）一个能“开口说话”、和你互动...