“小沃”为客户开发项目中经常遇到开发后的平台软件系统产品实际运营中效果不是太好,“小沃”也是一个刨根问底的工作狂,所以收集了对应各行业的市场调研报告进行分析,一方面可以精准的了解客户开发需求;另一方便也是能为客户提供相关建议,避免不必要的投资。所以萌生了每天为大家分享各行业市场调研报告的想法,希望能给大家带来方便。
今天“小沃”就跟各位朋友分享下"2018年AI人工智能"!
记不住的可以收藏或者拉倒页尾有下载原版文件方式哦!(此文只截取原文中部分数据,如需要原文件,请按文章尾部进行操作)
麻烦大家多多关注帮忙转发,谢谢大家支持!
一、AI移动智能终端的产品与生态战略
近年来人工智能技术在算法、芯片、应用等领域得到了快速的发展。然而,当 前AI还主要体现在手机的音频、视频等基 本能力应用上,AI强大的处理能力和自主 学习能力还都没有完全的展现,移动智能终端的AI化还需要依托整个产品生态的发 展与完善。为此,芯片企业、终端企业凭 借自身优势,积极开展AI生态的拓展与探索。如硬件厂商侧重优化底层软件的执行效率,提供给开发者更加高效、更为便捷的开发工具,软件开发者则侧重于新算法的研究、大数据的训练和训练神经网络的部署。
二、AI移动智能终端的关键功能领域
人工智能相关技术在语音识别,语义理解,图像处理,图像超分辨率等方面已有诸多典型应用,相关算法也较为成熟。同时,在行为预测,用户感知方面也在积极探索。
1.1 音频领域
在几十年的历程中,有很多优秀公司 对语音和语言领域进行了不懈的探索, 20世纪依托机器学习领域深度学习的研究,以及大数据预测的积累,语音识别技 术得到突飞猛进的发展。直到2016年微软 才达到了接近人类的语音识别水平,误差 率为5.9%,这是值得纪念的历史性突破。
2.1.1 语音识别
语音识别,即将语音信号中的内容信 息进行提取,并转化成对应文字的的过程。 该技术广泛的适用于工业、、家电、、通信、 汽车电子、医疗、消费电子等等各个领域。 长短期记忆网络(LSTTMM)),这种基于时间 的递归神经网络在在语音识别上取得了很大 的成功。根据具体对所提取内容文字信息 的呈现形式,以及应用形式,可以分为如 下两个子领域:语音转写和关键词检测。
2.1.1.1 语转写
语音转写系统 , 又 称为听写机 STT(Speech-TToo-Texxt)系统。其功能是将语音 内容尽可能准确地转化为相应的文字,根据其 技术特点,也常常被称为大词汇量连续语音识 别( Laarrge VVooccaabullary Continuous Speech RRecoogniittioon,LLVCSR)系统。与简单的孤立 词识别系统不同的是,在识别时除了要用到声 学层的的信息,还需要使用语言层(语法)信息来补充单纯声学识别的不足以提升识别正确率和识别效率。下图给出了目前最为主流的大词 汇量连续语音识别系统的框图。
语音转写系统框图
整个系统由四部分组成:知识库模块 存储了识别过程中用到的字典(字词与发 音之间的对应关系)、声学模型(发音与 语音信号之间的对应关系)和语言模型(字词之间的搭配关系);预处理模块将 输入的语音进行自动切分,滤除其中的噪 声、音乐、彩铃等,将有效的语音数据提 取特征,供后续模块使用;解码器模块完 成语音识别,将特征序列转换为文字;后 处理模块则是将解码器生成的识别结果的 内部表示转换为便于阅读和进一步处理的 形式。
通常,用于描述语音转写的技术指标 有:
1)WER, 表示语音转文字的词错误率,包括插入错误、删除错误和替代错三类,一般应用于英语等;
2)CER, 表示语音转文字 的的字错 率,包括插入错误、删除错误和和替代错 三类,一般应用于汉语等;
3)SER, 表示 语音转文字 的整 句 误率,整句有一 个字 或或者 词错误就算 误;
4)RTF,语音转文字的实时速度。 显然 ,WEER,CCER,SER越小越好;RTF越低越好。
2.1.1.2 关键词检测
关键词检测,也称关键词检索。既利用 通过语音识别的相关技术来确定待检语音中是否出现了指定的感兴趣的词汇。根据具体应用需求,一般可以有在线/离线,固定词表/可变词表等多种应用形式。最常用的方式是在语音识别的多候选输出上做关键词检测。采用多候选结果的原因是,最优选结果中往往有比较高的的错误率,而多候候选结果中 则包含了大量正确的补充信息。研究表明, 基于语音识别结果的多候选结结果进行关键词 检测对提高检索统查全率的提高是十分有 效和必要的。基于语音识别多候选词图的关键词检测系统框图如下所示:
2.1.1.3 领域分类
领域分类,是根据用户说的话判断这 句话属于哪个对话领域的方法。通常,领 域分类是语义理解的第一步模块。
领域分类具有传统分类问题的一系列 衡量指标:
1)ACC: 领域分类的整句分类的准确率,句子领域划分错误则算错。
2)Precision:领域分类的精确率, 即预测出正确类别的比例。
3)Recall: 领域分类的召回率,即人工标注的领域被预测出来的比例。
4)F-score: precision和recall的 调 和平均值,因为precision 和recall 是相 互制约的指标。
对话领域可以包括导航、音乐、 订票、影视、天气、提醒、知识问答、闲聊 等等。而在复杂人机交互过程中,,一句话 往往可能对应多个不同的领域,于是领域分类不仅局限于单标签分类类。
2.1.1.4 意图检测
意图检测,,是根据用户说的话预测这 句话有没有包括某一个意图的方法。意图 检测通常可以包括查询地点、查询路况、 搜索歌曲、、查询机票、预订机票、查询天气、设置提醒、取消提醒等等。有时候在一句话中还会包含多个意图,所以意图检测是 一个多标签的任务。
意图检测的衡量指标可分为:
1)ACC, 整句话意图检测的 准确率 , 即一句话预测出来的意图和标注完全一致的比例。
2)Precision,意图检测的的精确率,即 预测出正确意图的比例。
3)Recaalll, 意图检测的召回率,即人工标注的的意图被检测出来的比例。
4) F--score, prreecision和 recall的 调 和 平平 均值,因为precision 和recall 是相互 制约的指标。
2..1.1.5 语义槽填充
语义槽填充,是根据用户说的话预测出 这句话里包含哪些语义槽 -值对( slot-value pair)的过程。语义槽是对话领域内 的一些受关注实体概念(也可以叫属性,比 如到达机场、导航目的地、歌曲名称、歌手 姓名、城市名、时间日期),值就是这些实 体概念或者属性对应的值(可以是字符串、 数字等类型)。通常一句话会包含多个语义 槽-值对。
2 11..2 语语义识别
语义识别,也称语义理解。即通过自然 语言处理的相关技术,从用户说的话(自然文本,或者语音识别后的转写文本)中挖掘 出结构化的信息,为后端基于语义的推理决 策等功能模块进行服务。语义理解一般被分 为 三 个 任 务 : 领 域 分 类 ( Domain Classification) 、 意 图 检 测 ( IntentDetection)、语义槽填充(Slot Filling)。 其中一般的语义理解流程是一个用户句子进来,先进行领域分类,确定对话领域后,再进行领域内的意图检测和语义槽值填充。
2.1.3 语音合成
语音合成,又称文语转换技术,也即 生成自然语音的过程,能将任意输入信息 实时转化为标准流畅的语音。根据输入内 容的不同通常分为如下三个子领域:文本 语音合成、声音转换、歌曲合成。文本语 音合成在商业上已经得到广泛的应用,声 音转换和歌曲合成还未大量应用到商业场 景中。
2.1.3.1 文本语音合成
文 本 语 音 合 成 (Text-to-speech, TTS)的功能是将自然语言的文本转化为 某特定人的自然音频。出于对机器运算能 力的不同需求,商用的文本合成系统通常分为基于文法分析和频谱预测的统计参数 语 音 合 成 ( Statistical Param ee t ee r Speech Synthesis, SPSS)和直接通过文本序列预测音频信号的 端到端 语音合成(End-to-end speech ssyynntthheesiss))。
整个系统主要分为三块,文法分析将自然文本分析成各种文本特征,例如分词、词 性等。文本特征通过声学模型预测音频对应 的频谱特征。预测出的频谱特征再通过不同 的声码器进行信号生成得到最终 的的 自然语音。
用于描述文本语音合成 的的 技术指 标标 为 MOS表示大量人类对合成 音频的 主观评价 (打1到5分)的平均值,越大越好。主观评 价一般分为以下几类:
相似度:表示合成音频和原始说话人是否相似。
自然度:表示合成音频发音是否自然。 表现力:表示合成音频是否有足够的情感、表现力。
2.1.3.2 声音转换
声音转换 (Voice Conversion)的功能是将原始说话人的自然音频,在发音内容不 变的情况下转变成目标说话人的音色。通常根据获取数据的难度分为并行语料声音转换 和非并行语料声音转换。目前这两种方案在 转换过程中使用相同的转换手段,但不同方 案有各自的模型搭建过程。目前并行语料声 音转换的效果略好于非并行语料声音转换。
2.1.3.3歌曲合成
歌曲合成(Song synthesis)和文本语音 合成(Text-to-speech)功能类似,需要给 出乐谱和歌词来生成乐曲和清唱,并混合成歌曲。
声音转换系统主要分为两块:通过乐谱和文本,预测清唱的声学频谱。以及通过乐谱生成乐曲。预测清唱声学频谱的过程和文本语音合成非常相似,仅仅在预测过程中加入了乐谱信息。
2.1.4 语音唤醒
语音唤醒(Voice Wake-up)是指响应 指定语音指令,唤醒智能终端,如Siri的 " Hey Siri", Bixby的 " Hi Bixby"。 设备在深度休眠时仍以极低功耗的工作, 以便智能终端可以响应用户的指令,这是 智能助手作为全时待机的必备功能。
2.1.5 声纹识别
说 话 人 识 别 ( S p e a k e rRecognition),又称声纹识别或语者识 别,是通过分析说话人的语音信息来确定 说话人身份的技术。作为生物信息识别的 重要组成部分,说话人识别技术正在得到 越来越广泛的使用。
2.1.6 富信息检测与识别
音频信号包括了人类的语音信号和非 人类音频信号,语音信号携带了丰富的信息在内,如内容信息,说话人信息(包括身份,性别,年龄,情绪等等),语种信息等等。
2.1.6.1 情感识别
基于语音信号的情感识别旨在通过语音信号判断出说话人的情感状态,如生气、高兴、沮丧等等。
2.1.6.2 语种识别
语种识别(Language Recognition)与 说话人识别任务非常类似,所用技术、评价指标也比较类似。语种识别研究一般指的是语种辨认,即一对多问题。语种识别旨在根据语音信号判断出说话人所说语言种类,在多语言语音处理系统中应用比较广泛。
2.1.6.3 声学场景检测
声学场景检测、或称音频场景检测 ( Audio Scene Detection)目 的 是 通 过采集到的音频信号判断出环境动态、发 生事件等等。这项技术主要应用于机器的 环境声音感知和基于语义的多媒体信息检 索。
根据任务目标不同,声学场景检测可 以 划 分 为 音 频 场 景 分 类 ( Acoustic Scene Classification)与声学事件检测( Sound Event Detection)两 类 。 前 者是判断一段音频发生时的场景;后者是 判断一段音频中发生了哪些声学事件,并 给出这些声学事件在音频中的起止时间。
2.2 图像和视频领域
随着ImageNet挑战赛的兴起,在短 短7年中优胜者的识别率从71.8%提升到 97.3%,超越了人类,并证明了庞大的数 据可以带来更好的决策。同时,卷积神经 网络的深度使用也引爆了整个人工智能行 业,在图像和视频这个计算复杂度极高的 领域,人工智能取得了极好的成绩,在从 简单的应用场景,如人脸识别、物体检 测、智能安防,到极端复杂场景,如机器 人领域等前沿领域获得极大的关注。同 样,在智能终端领域,图像和视频也成为AI赋能的重要领域。
2.2.1 文字识别
文字识别是指对画面中的文字进行检测 并提取文本信息的一种技术。使用场景不局 限于识别笔记、名片、纸质档案,还包括单 据、标志牌、品牌Logo,并返回结构 化化 的 结果。
文字识别可应用于许多领域,如阅读、 翻译、文献资料的检索等。其中最为典型的 移动智能终端应用是拍照翻译。
2.3整机性能管理
在整机管理性能方面,AI功能主要体现在能耗和优化系统管理方面。包括基于用户行为的智能决策来优化能耗管理,基于时间来决定是否关闭或者冻结进程,同时在适合的时机重新恢复系统到正常工作状态。
三、AI移动智能终端测评体系
从整体上看,目前仍为人工智能终端发展的初期阶段,新硬件、新算法、新场景和新架构仍层出不穷。在产业迈向成熟的阶段,客观公正的测评体系将为技术,市场,生态的规范 性发展提供重要保障,减少产业的试错成本。
3.1基于测试数据的性能评测
目前来看,不少移动端的AI场景要求 更快的响应速度,或者脱离网络环境的 AI计算能力,这是目前基于云或服务端的AI计算所不能解决的问题。
3.2 基于场景的典型评测
AI移动智能终端的最终目的是为用户提供有用的服务。相比于服务本身,如何 让人舒适的体验到手机的服务才是解决AI发展的痛点。体验无处不在,场景如影 随形。能够谙熟客户服务场景且在此基础 上给客户带来更好的体验的企业,才能做 好服务。因此,基于使用场景的使用是AI评测的重要方面。
3.3 系统级芯片(SoC)典型评测
SoC 性能的测量非常复杂,因为特定功能具有不同的一连串事件,包含会影 响性能的特定要求。比如图像识别性能取 决于相机感光元件、图像采集、内部数据 传输,以及最后的类神经网络运算速度。 相似地,语音识别取决于音频传感器、编 码速度、语音特征侦测和类神经网络运算 速度。神经处理单元经过特别优化,可以 对张量进行数学运算(n维数组值),可以 通过测量每个组件或组件群组的"每时间单 位 的 操 作 " (Operations perSecond),对硬件的性能进行基准测试和 度量比较。
评测是基于应用场景的,固定场景内 容测试设备完成效率即为硬件评测的标准化。国内知名硬件检测软件鲁大师推出的 安卓跑分软件,其中AI评测是 基于目前 AI概念在移动设备上的照片、人像识别技 术等视觉理念而设计的第一 代 移 动SSOOC AI性能评测benchmark。AI评采 用了 三种神经网络模型进行测速,这三种神经 网络模型都是属于图像识别类型的训练网 络,VGGNNet、RReessNet、Inception业内 公开的神经网络模型。同样这些模型经过 几代发展,有了不同的版本与层级。卷积 神经网络模型的深度越多,训练的速度就会越慢,反馈在硬件上的运算速度会有较大 的差别。为了适应层次不齐的硬件,我们选 择 了 VGG16、 ResNet 34、 Inception V3三种成熟的模型。这三种神经网络的作用,简单来说就是判别AI在识别图像中的能 力。
3.4 AI 领域基准测试
设计合理的基准测试软件提供准确、 一致、相关且公正的标准化测试集。基准 测试开发应视为一项合作任务。在快速发 展的技术领域中,具备广泛的咨询输入和 开放公正的基准测试开发程序至关重要。 在产品设计和开发过程中进行设计良好的 基准测试,这对业界、产品和消费者体验 均有好处。
1)计算机视觉基准测试
适用于安卓的 PCMark 是UL美国公 司所开发的一项针对安卓智能手机和平板 电脑的基准测试应用程式,包括计算机视 觉基准测试,会通过一组三项测试测量装 置的图像识别性能。
a) TensorFlow 测试
b) ZXiing 测试
c) Tesseract 测试
2)语音识别基准测试
为了开发全新标 准UL拟议针对 语音 识别性能和 准确度 开发 全新基 准测试。 UL提出测试 两种 情境 的语 音识别基准测 试:分别是长语音识别和短语音识别
四、AI移动智能终端存在问题和挑战
AI移动智能终端的快速成长给用户带来全新体验的同时,也产生了一定的问题。一方 面,人工智能技术给移动终端带来了新的安全问题;另一方面,多数终端厂商都有自己的AI平台,没有统一接口,导致大流量应用开发者无法开发出完美适配每个机型的AI功功能,从而限制了AI产业的发展。同时,AI手机的发展仍停留在功能层面,而概念层面的发展则需要整个产业的配合与消费者的认可。只有AI概念的实现与普及才会真正触发用户换机的动力与技术的革新,再现往昔功能机向智能机的跨越式发展。本节将从以上几个方方面做具具体阐述述。
4.1 安全领域带来全新挑战
随着终端计算能力的提升、数据爆发式增长、机器学习算法不断进步, AI移动智能终端作为可以代替人类执行部分任务的助手,已经渗入到了我们生活的方方面面。随着AI移动智能终端和人类日常生活的高度融合,人工 智能 技术给移动智能终端带来了新的 安全问 题。当前,AI移动智能终端面 对的安全挑战主要面来自三个方面 , 一 是 传统 的安全挑战,如硬件安全 、 操作 系统安 全、网络安全、 应用 安全 等等 ;二 是AI自身层面的 安全 挑战 ,如AI模型窃取、机 器学习对抗性攻 击等等 ;此外,由于人工 智能的实现依 赖于 海量的训练数据,因 此用 户面 临着前所未有的隐私泄露风险。
4.1.1 传统安全风险在AI移动智能终端上将进一步放大
AI移动智能终端同样面临硬件安全、 操作系统安全、网络安全和应用安全等传 统安全风险。
4.1.2 场景安全盲点在AI移动智能终端上将进一步融合
对于人工智能在移动智能终端上应用,目前行业主要关注算法功能实现、前 景展望等方面,缺乏整体的安全考虑,造 成人工智能的安全盲点。人工智能应用面 临来自多个方面的威胁,包括人工智能框 架中的软件实现漏洞、对抗机器学习的恶 意样本生成、训练数据的污染等。人工智 能的算法可能被攻击,数据库可能被篡 改,网络联系可能被操纵。当数据库或算 法被攻击时,算法的训练和更新就会偏离 预计的轨道,形成恶性算法,导致人工智 能所驱动的识别系统出现混乱,形成漏判 或者误判,甚至导致系统崩溃或被劫持, 并可以使智能设备变成僵尸攻击工具。
AI技术适用于多种业务场景,包括搜索算法、语音和图像识别等方面,攻击者 可从业务安全漏洞出发,攻击AI移动智能 终端。攻击者可通过构造恶意的样本,使 得人工智能系统在分类识别图片或语音等 的过程中触发相应的安全漏洞,改变算法 正常执行的控制流或数据流,使得人工智 能系统输出攻击者指定的结果。攻击思路 基本分为两种,一种是基于数据流篡改的 任意写内存漏洞,直接修改AI系统中的一 些关键数据(如标签、索引等), 使AI系统 输出错误的结果;另一种是通过常规的控 制流劫持(如堆溢出、栈溢出等漏洞)进行 对抗攻击,由于控制流劫持漏洞可以通过 漏洞实现任意代码的执行,可以控制AI系 统输出攻击者预期的结果。如大多数的AI移动智能终端具备语音交互功能,攻击 者可以通过伪造控制指令音频、或或将攻击指令通过噪声等方式隐藏、甚至制造超声 波等方式,对终端发送包括网购、拨打电 话、查看文档在内的恶意指令,成用户 财产损失、隐私泄露。随着AI其他业务的 普遍应用,如图像识别,情感交互等,类 似的攻击方式将为继续挑战着AI移动智能 终端的安全。
4.1.3 隐私数据安全在AI移动智能终端上将进一步凸显
人工智能算法的准确率高度依赖于海量用户 数据的训练分析,尤其需要获取大量用户个 人信息,以便提供个性化、定制化服务,这 些都加大了用户个人信息泄露的风险。人工智能时代,数据的收集、传输等各个环节都面临着新的风险。在数据收集阶段,大规模 的机器自动化地收集 着 成千 上万 的用户数 据,涉及个人姓名、性别、电话号码、电子 邮箱、地理位置、家庭住址在内的方面 的数据,这些数据海量收收集形成对用户的全 名追踪。AI移动智能终端对于收集和处理个人数据的巨大需求,使得未经授权使用个人 隐私和数据的风险大大增加。不同系统和算 法需要共享和利用海量用户数据,考虑到成本问题,这对获取用户同意的方式、用户个人数据流转方式都提出了巨大的挑战。数据 传输阶段,有些AI移动智能终端未采用安全传输方案, 如HTTPS/TLS, 存在敏感数据明文传输的问题;或AI移动智能终端实现的 安全传输方案本身存在缺陷,易被黑客利用 进行攻击,非法获取数据;再者,现有安全 传输方案所采用的加密算法,未来也面临着 被量子计算机破解的威胁,难以保障用户数 据在传输过程中的安全性。
4.2 AI生态布局仍需深入
4.2.1 端侧和云端功能需深度融合
AI工作的负载对于端侧设备性能要求较高,具有密集计算,模型复杂,并发性高等特点。目前厂商的解决方案都是特别 针对AI所需运算方面的能力做出优化。
因此,应着重探索端侧和云侧能力的 深度融合。一方面,芯片性能的的不断提升必将促进AI功能的深化,使得更多的的AAI场 景和计算在端侧落地成 为为 可可 能能 。 另一 方 面,随着5G的逐 步 成熟 , 超 低时 延 的 网 络使得云服务的计算结果传回端侧的用户 体验得到显著提升。未来,应充分发挥终 端侧和云侧的AI能力,为开发者提供优良 的平台环境。
4.2.2 基础和共性能力需统一开放
虽然人工智能的应用生态目前正在快速 发展,然而在安卓领域,开发者们仍无法逃 避碎片化的问题。由于各家厂商的开放能力 各不一致,因此开发者们在安卓终端上开发 一款AI应用有两种选择。
第一种选择,为了实现跨厂商跨平台的 分发,将应用的AI核心算法的实现放在软件 层面实现。这种选择会导致厂商为AI构建的 底层能力浪费,加大CPU运行的负载,造成 资源浪费。第二种选择,对应每家厂商的硬 件平台和接口能力定制开发AI功能,充分利 用 厂 商 底 层 硬 件和系统级API功能。这种选择会造造成开发者无法专注于应用核心功能的 开发,忙于各厂商硬件能力的适配,提高开发成本。
上述两种选择,对于AI生态下的安卓应 用生态都较为不利,造成一定程度的开发成 本和周期的增加。因此,未来,应注重厂商 间协同,将基础和共性的系统级能力统一开 放,最大化降低开发者的开发成本。
4.2.3 市场和用户认知需不断培育
不难看出,目前AI手机市场的竞争进入 高压态势,厂商使出浑身解数,依托自己"黑科技"施展AI功能,例如AI拍摄,AI美 颜,AI语音,AI相册等等。"更懂你","更温暖","更智慧"等等一系列AI手机概念映入消费者眼帘。但是,这这种AI功能的 使用体验与消费者者以往的的""科幻级"期望相 差甚远,同时在多种AI概念的的轰炸下,造成 消费者的认知混乱,进而引发一定的抵触和 怀疑 。 不 可否认,人 工 智 能作为下一风 口,他与手机的完美结合,将真正打破行业 的的创新瓶颈,未来改变人们的生活。但是就 目前来看,AI手机的能力仍未得到充分发挥,未来还有无限的成长空间,这个过程需要整个移动互联网产业各方的配合与消费者认知的改变来加快AI移动通信终端的演进,挖掘衍生的业务价值。相信在不久的将来, 我们将见证AI移动智能终端时代的到来。
今天的“2018年AI人工智能行业系列报告(三)”分享就到这里,恭喜你利用碎片时间完成行业知识的学习;
待续。。。。。。
想要下载“2018年AI人工智能行业系列报告(三)”原档的朋友请抓紧时间,该分享于3月24日过期;
小沃告诉你获取方式:
①微信搜索并关注沃邦尼官方微信公众号“Wobony沃邦尼”
②点击下方输入框
③输入“沃邦尼人工智能3”并发送
即刻享原始文档,小沃将和各行业的朋友一起成长;
来源:网络
图片:网络
网友评论