AI? IA? 不,是AIA!

作者: 坂本龙一 | 来源:发表于2017-12-16 20:57 被阅读26次

    From Distill 《Using Artificial Intelligence to Augment Human Intelligence》

    读什么样的文章感觉最棒?

    我会回答,大部分内容没超出我理解范围,同时又能从熟悉的内容得出让人深思,又出乎意料的想法。比如之前Andrej Karpathy的《软件2.0》那篇文章。感觉有点像是推理小说吧。

    这篇文章也是如此,想提出一个新的领域。原文很长,其实主要观点就一个,AI技术可以用来生成包含各种认知原型的界面,这种界面可以帮组人们更高效的思考

    时代造电脑

    不同时代对电脑的用途有不同的看法,而不同看法也反过来促使人们改变使用电脑的方式,开发出满足自己需求的电脑。

    比如说早期,大家只把计算机当做是计算工具,之后才提出计算机能够用来增强人类智能。这样的思想影响了一代人,比如乔帮主,反过来影响了现在的计算系统还有很多其他领域。

    过去,AI总会和IA抢资源,但最近的一些诸如生成模型方面的研究显示,完全可以利用AI来发展IA,所以提出一个新的领域,AIA (Artificial Intelligence Augment)

    凡事都要从举栗子开始

    最初展示的是字体的例子,如下图。左边是各种字体,中间是一个界面,有三个条,分别调节粗细、斜度、还有宽窄。

    自己试着调节一下之后,会得到这样的效果。

    BOLD
    ITALIC
    CONDENSED

    其实看到这,可能会想变粗细的工具不早就有了吗,这有什么稀奇。

    当然这里之所以比较特别是因为,这个界面的底层,并不是普通设计出来的算法而是用了一些特殊技巧的神经网络,而且和一般调节属性不同的是,这里的调节属性是连续的,而不是离散的,比如只有小中大三个选项。

    还有很重要的一点是,在实际中,设计师设计加粗等变化时,并不是想当然的把线加粗就好了。这里面还涉及到很多小的设计技巧,才能够保证可读性。如下图所示,想当然的加粗法和真正加粗方法的对比。

    而底层的神经网络神奇地把这种小技巧也都学会了。

    这里用到的技术很大程度与隐空间这个概念有关。

    穿梭于隐空间之间

    什么是隐空间 (Latent Space)

    我们直接接触到的数据,一般处理起来都会比较困难,而且会有很多冗余,比如说MNIST的图片,每张图片有256个像素,但仅仅表示10个数字。

    这时候可以把这个显的图片,投影到一个隐空间中去,可能只需要更少的数据来表示,比如说20个数据点。有时也希望把在实际表示大大不同的数据投影到隐空间之后,使得相似概念的物体互相比较接近。

    比如下图,如果比较像素的话,两个椅子还有两个桌子会有很大不同,但是投影到隐空间之后它们互相就会靠得比较近了。其实可以说人脑中就有一个隐空间。

    同理,对于字体问题来说,如果我们把普通字体和粗字体投影到隐空间后,那么普通字体就会和普通字体在一块,而粗字体则在另一个块。

    因为每个数据在隐空间中是一个点,这时比较有趣的问题是,如何把非粗体的点变成粗体的点。如果学过线性代数的话,那么就会知道,从一个点到另一个点只需要加一个向量

    也就是说在隐空间中,可以用非粗体点,加上一个粗体向量,然后就可以得到粗体点。一个很简单的加法问题。

    反过来说,如果有大量的非粗体和粗体数据,首先分别将它们投影到隐空间,之后对每一部分求平均得到一个平均点坐标,然后用粗体点坐标减非粗体点坐标,就可以得到所谓的粗体向量了。

    之后对任何字体进行加粗,只需要加上粗体向量就可以了。而要加多少,则可以自己调节,比如说一半,把粗体向量乘上0.5加上去就可以了。上一节中可以调节的界面,也是基于这个原理,不过是在调节粗体向量、斜体向量、宽窄向量前的系数。

    上面提到的三个向量,可以叫做属性向量,可以利用它们来赋予属性

    在隐空间中加上属性向量之后,只需要从隐空间还原回去就好了。而一般我们都会搭建上面这样的结构,来编码进隐空间,以及解码还原成现实数据。

    更多的应用

    基于同样的原理,也可以发掘出其他一些属性向量,比如说笑容向量。

    句子长度向量。

    甚至延迟荧光衰减率(delayed fluorescence decay rate).

    也可以自己开脑洞,比如说,找来大量高质量美颜前和美颜后的照片,投影到隐空间,之后就能够得到美颜向量。之后如果要给自己P图的话就可以直接做出一个进度条,调节自己的美颜值,而不用像现在很多软件,调节各种肤色,眼睛大小...

    继续开脑洞,还能弄出透视摄像头,这个就自己想吧。

    除了上面这个利用隐空间的属性向量来制作属性条,还可以通过隐空间的一些操作来辅助设计还有画图。

    可以利用简单的绘画来暗示想要的属性,比如说颜色,鞋跟,款式... 之后界面就会自动在隐空间中,找到满足这些属性约束条件的点,然后还原回来,得到想要设计的鞋款了。这样子的话,即使并不是设计方面的专家,也能根据自己的感觉设计出来鞋款。

    当然从图片也可以看出,上面这些应用目前其实还是很粗糙,还有很多需要完善的地方。而且为了说明本文的主要idea,这部分并不是很重要。

    思想认知原型(primitive)

    前面提到的字体设计小技巧,比如说Geogia这类的字体加粗时,保持细边不变,而粗边加粗。这些设计的技巧可以说就是一个个的认知原型。

    更复杂点的认知原型,比如说数学里的符号,物理里的费曼图表示,还有毕加索风格。这些都是某领域顶尖大师,将自己的思想表示出来,提出的思想原型。每一个这样的思想原型的产生,都是人类文明的一次跃进,后人还能够利用这些原型加速文明的发展

    语言学家沃尔夫说过:“人的语言决定了人的思维能力。”

    我更愿意把这里面说的语言,看做是认知原型。这句话什么意思呢,一定的认知原型决定着某种知识的发展速度。

    比如说,牛顿和莱布尼茨同时发明微积分,但是为什么之后英国这方面发展更快,而德国迟迟不前,很大程度上和牛顿用的表示系统有关。

    会不会阻碍创新

    因为认知原型界面都是人类已发明出的原型,之后如果习惯于直接拿来就用,大家也就不愿去思考新的原型,这样会不会阻碍人类的创新呢。

    这里要提一下创新的两种方式。

    第一种创新,是通过把之前的各种思想原型进行重组的创新。比如说字体设计师,很多工作就是对现有的很多最佳设计技巧进行适当重组。主要涉及到很多创造性的选择,来达到预期目标,并没有发展关键的基础原理。

    第二种创新,则是一般想的根本性的创新,发展新原理,提出新思想原型

    所以可想而知,使用上述说的认知原型界面,不光不会阻碍第一种创新,反而会加速它的发展。

    那有没有办法利用这样的AIA技术来影响第二种创新呢,就目前来说已经有些潜在的方法表明是可能的。

    因为隐空间是广阔的,除了通过训练已有的数据获得已有的原型。我们也可以故意地制造一些错误,来探索隐空间,从而得到之前从未存在过,新的原型。

    比如说艺术家 Mario KlingemannMike Tyka 就在用生成对抗性网络(GAN)来创造有意思的艺术作品。他们故意使用了有缺陷的GAN,从而获得从新的从没见过的处理。

    良性循环

    最后,作者呼吁我们应该重视AIA界面设计,因为最深刻的界面设计意味着人类认知基本原型的组合。

    有了这些认知原型界面的帮组,人们就可以把这些认知原型内化,从而拥有更加强大的思考方式。之后还可以反过来利用强大的思维方式来帮助开发更好的AI系统。

    我的看法

    然而我的看法是,虽然这里说是人工智能增强(AIA)。但实际上主要提及的是,如何使用AI技术来建立一个更加广泛意义上的人机交互界面,而这个界面是由所谓的认知原形(Cognitive Primitives)组成。

    我认为IA应该是一个更广泛的话题,智能增强也应当包括人机之间的合作,而不仅仅是生成更高层抽象概念的用户界面

    比如说,如果律师利用一个AI系统来帮助自己工作,它并不一定要取代律师的工作,而是可以来请求它们来帮忙查找文献,进行繁琐的资料搜寻工作,也应当算是IA。就像如今的搜索引擎,无疑使得我们可以把大量知识直接存储在网上就好了。

    相关文章

      网友评论

        本文标题:AI? IA? 不,是AIA!

        本文链接:https://www.haomeiwen.com/subject/bxjewxtx.html