人工智能被喊了几年了,这几天接触一下,用门外汉角度学习分析一下,不讲历史,不说理论,不说遥不可及,都是思考和困惑。多多指正。不是科班出生,专业词汇可能不准,从“产品经理”学习角度梳理体系。
先来张图,下面慢慢解释。
搜了半天资讯,不是人工智能历史就是新闻通告吹牛,收获不大。想用一种大多数it人能理解的模型思考,得到上图。没有扩展到应用领域,聚焦核心逻辑。
一、能框住现有智能应用的思考模型
很多人最直接的接触人工智能大都是从好莱坞科幻大片,如《黑客帝国》《终结者》《月球》...这些大片中都有一个机器人主角,有感情戏码,有背叛戏,有人性戏.... ...,好,就从机器人为例开说。
前提:冯·诺依曼理论体系下,机器必备输入数据和程序的输入设备、输出处理结果的输出设备。数据以结构化存储。我理解的人工智能必须在冯·诺依曼理论体系下。
1、输入输出角度
机器人拯救人类,基本条件是机器人可以与人交流。那么机器人可以接受哪种格式的指令呢,输出呢? 人类删除输出什么?接受什么呢? 最直接,输入输出!
人类可用的交互表达方式有哪些?手势动作、声音、指纹、眼神等等,再高级点输入法、乔老爷子流行的手指滑动等等。
机器可用的交互表达方式有哪些?结构化数据。任何传感器,不管形式如何都会转化为二进制结构化数据。
结构化数据与非结构化数据大家度娘理解。对于机器来说,亲近结构化数据。对于人来说,更亲近部分非结构化数据。人类无论是有计算机之前还是之后,都喜欢产生非机构化数据。而且更希望探寻非结构化数据中蕴含的价值。 近年非机构化数据的存储和查询发展都不错,人类是懒惰的和不自信的,从数据中获得价值,连决策也想让机器代替。所谓人工智能已各种方式出现了。
回归上图,输入端Context/Environment 和 输出端Context/Environment 之间的转化或匹配,我理解为整个人工智能的核心流程。如号称用人工智能筛选的“今日头条”,一端为各种用户画像,一端为定制的咨询。又如这几天武汉火车站智能检票系统。输入端为车票、证件、人脸,另外一端为人脸与证件是否匹配。
为什么我这里标示端Context/Environment(上下文环境),各种端有不同通用语言,不同“法制”界限。假如:我在百度输入框输入”找小姐“,输出端肯定不会正常输出,因为这类环境中是被禁止的。而如果我是公安局民警,在某个公安系统中输入“小姐”,能否得出一些有价值信息呢。再如:阿西莫夫的《我,机器人》中提出的“机器人三定律”等。机器人之间表达情感的独特方式等。这里我暂没有能力精力展开,只是感觉研究好这块,会发散得到人工智能很多应用场景。
2、匹配和转化
人工智能应用可以简单的理解为N个端指令的转化、匹配组合而成。如:我对着手机某应用说,“我饿了,想吃火锅”。那么首先:把语音转化为文字。第二步把文字通过自然语言理解(NLU)转化为”语法模型“,例如:{
"action": "search",
"category": "火锅店",
"city": "北京",
"domain": "restaurant",
"xy": "114.22,39.11"
},最后应用处理后,可能直接打开某个搜索列表给用户选,或者一段语音播放给用户,让用户继续。... ... 这里面牵扯到 转化和匹配。
以上这个案例是所有手机厂商想做的事情,也在尝试。
又如:汽车驾驶时,在高速上加速超车是什么样感受。
传统驾驶: 驾驶员想要加速,我通过”物理操作“踩油门。
无人驾驶:能根据道路车辆情况,自动调节车速。在行车之前,车主预设时速,在预设时速范围内,无人驾驶车会根据路况自动加减速。
总结这两个例子,同样加速这个事情。 输入端是不一样的,一个是人脑,而无人驾驶呢?是传感器反馈的数据,再经过加工处理,自动产生决策。大家想想传感器接受的是些什么数据呢? 红外、车距、道路限速、气候... ...,这些信息如何转化为结构化信息呢。
这个例子可能有些超前,现在所谓互联网汽车都有智能导航系统,开车过程中输入法困难,现在都支持语音输入。语音为非结构化数据,计算机怎么能明白呢,其中就用到ASR语音到文字转换技术。
3、准确率
我觉得这是所有人工智能应用商业化过程必须解决的问题,可能有些场景不需要那么精确,或者有证据,后面能处理。比如:武汉火车站自动检票系统,以我了解人脸识别和证件照比对肯定有误差的,由于发型、证件照年龄等误差率还会不少,但是这个场景下,系统误差率容忍度肯定放宽不少。从场景上,至少给拍照了,出事也好查到证据。
苹果的siri,支持语音拨号,但是大部分人拨号后,都要看一眼联系人对不对。还有阿里支付炒出的虹膜、刷脸、声纹刷密码,都牵扯到准确率。
国内人工智能厂商,科大讯飞有类似语音转成文字的产品。我试用了下,标点符号,分段,多音字等比较多的问题,还需要人工校对。我觉得应该成为准智能,包括很多智能产品由于准确率上不去,只能成为准智能。或者是原来交互模式上的一个补充,比如声音控制电视遥控器,原来按键物理按钮还在。
4、智能交互核心逻辑
按照输入输出模型,每个小细节都可以转化为这五个步骤,图中标示1,2,3,4,5
a、状态感知(传感器):信息输入。各类传感器、信息采集设备作为人类交互补充。
b、实时分析:针对输入信息分析过程。场景越细,知识领域越小,越准确。比如:我打开百度语音输入,说颐和园,分析结果可能是颐和园的百科;我在百度地图,分析结果可能是地理位置;我在八国联军博物馆少儿机器人说颐和园,可能他输出那段历史。
我有个观点:人工智能由于技术原因,可能会更加强调细分市场。
c、自我决策:现在几乎看到的智能应用,设备也好,都需要人工确认的过程。 就现在技术来看,纯粹的人工智能只可能在极其明确的实验场景下,才能自我决策。比如:阿尔法狗。
或者人们可以接受损失场景或者实验n遍。 比如:股票的量化投资,基金的智能FOF组合,基金的定投。我不是相信这个智能技术,而是相信它的决策比我更好。
有些人也有言论,说不会思考,不会自我决策,不会自我学习的不算真正的智能。从人的本性上来看,对决策带来的快感或痴迷不可能替代。
d、精确执行
到了这个流程完全是结构化流程了,没有太多说的。执行好坏是应用提供的服务来解决。
e、自我学习
在冯·诺依曼理论下,所有的决策只能在数据分析的基础上展开。自我学习也可认为数据收集的过程。
从另外一个角度,百度在这方面确实有领先的资本。百度搜索框这个入口,为百度提供了多少“需求”啊。现在哪个应用能收集到用户的一手数据,从人工智能方向来说,那发言权是大大的。比如:如果没录入3万多幅专业棋手对局的棋谱,一些列的专业的处理,阿尔法狗怎么可能下棋呢。 苹果如果没发布siri玩具让大家把玩,哪里收集如果多的需求数据呢。(ps,siri也是MVP产品的最佳实践呀)
5、支撑环境
a、大数据支撑
人工智能必须有数据作为支撑,无容置疑。所有分析、决策也是在大数据基础上。单独搞算法的科研机构或者院校,我认为不掌握数据,终究搞不过百度、阿里、腾讯、京东、美团... ..互联网大佬的。某些应用国外企业也分不了多少蛋糕
b、算法支持
单纯的算法没什么价值,基于大数据分析类才可能发挥更巨大的价值。(ps好几家互联网大佬一直在找机器学习人才)
二、较成熟的”算法“案例
参照输入输出模型整理。
1、ASR:语音转换为文字。 例如:新的交互入口,特殊人群场景下交互方式。如残疾人士,快速记录,如呼叫中心案例收集数据
2、NLU:自然语言理解,文字转化为”结构化模型“。 搜索引擎,手机siri等,语音转化为特定的应用。nlu是nlp子集,可算人工智能最大瓶颈。
3、TTS:文字转化为语音。特殊输出场景,导航。盲人作为接收端等。
4、OCR:图片转化为文字。身份证,名片,图书。
5、HWR:手写识别。 特定人群、场景,特殊交互模式。
6、AFR:人脸识别。 安全警用,出入境,刷脸支付等等。
7、VPR:声纹识别。密码相关
8、FPR:指纹识别。 密码相关
9、MT:机器翻译。 语言翻译。
相关类似可以参照阿里云提供的很多服务,也有很多api接口提供。
全文完!
下篇预告(关于人工智能应用的分类、案例、厂商)
网友评论