美文网首页
任更03:机器如何理解语言

任更03:机器如何理解语言

作者: Wi先森 | 来源:发表于2018-02-12 23:33 被阅读18次
    图片由美美哒队友 CY糖果 制作

    推荐机器理解语言课程,链接点这里

    中文,人类最后的壁垒

    前不久刚刚出了个新闻说,微软和阿里的人工智能已经在某个知名的问答比赛上打败了所有的人类对手。可以说,这个事件象征着机器在理解英文这个事情上已经可以做得比人类更优秀。

    英文做到了,那中文呢?中文也可以用同样的方法让机器学会吗?答案是不可以。中文跟英文在语言本身的构造上有着本质的差异,目前流行的技术暂时还没能很好地理解中文。

    为什么呢?你想想看,英文这一类语言的特点是通过编码来表示语义的,26个字母通过不同的排列组合来表达不同的意思。但中文可不是这样的,每一个中文的单字都可以有它自己本身的含义。从中文被创造的过程来看,每一个汉字其实都是一张图。

    那为什么现在的机器还不能很好地理解中文呢?很可能是因为现在我们在用自然语言处理过程更适合用于英文等编码式的语言,那就要看一下现在的技术是怎么样做的了。

    传统的“语义分析”

    程序员最早尝试让机器理解文字是这么做的:

    首先,要建立一个语料库,里面有着各种各样的词语和词语所附带的属性,属性一般是词性再上去一大堆的树状标签。比如说苹果是名词,名词下可能是水果,也可以是品牌。这样做下来整个语料库是极其庞大和复杂的,因此很可能在之前还要划定某个领域,金融、社交、新闻等等。

    有了语料库之后,第二步就是匹配,让输入进来的文字跟语料库进行一一对比,对比成功后就会产生一个分词后的结果。例如:苹果| 是 | 一家 | 伟大的
    | 公司。

    第三步是句法分析,找到一个句子中最重要的部分。通常能够表示关系的词语是句子的中心,而动词又是通常用来表达关系的,所以就让机器先把动词找出来。用上面的例子来演示:

    x 是 x
    苹果 是 公司
    一家伟大的公司

    这样,机器就把苹果跟公司的关系记住了,而公司的属性中还带了个伟大的标签,这个伟大在语料库中标签是褒义词,那机器就可以判断这是一句赞扬的话。

    这样机械式的语义分析过程维护起来是很困难的,原因有:

    1. 语料库的更新涉及巨大工作量
    2. 词语的标签需进行人工维护
    3. 无法区分近义词之间的细微差别

    自然语言处理

    为了节省成本,神经网络的理念开始被用于语义分析,让机器自己去学习字,词,句之间的相关性。

    比如说苹果这个词跟公司一起出现的频次越多,则苹果跟公司的相关度就越高。(这里省略了大量关于神经网络的知识,后面再写一篇专门的文章)

    自然语言处理让机器从本来的“匹配+记住”,变成了“匹配+计算”,然后再通过计算的结果来生成其它想要的结果。

    举个例子,我把一大堆歌词丢给机器,机器会做单字读取,把字与字之间的关系找到。训练后的算法可以在获取一个简单词之后,输出它认为相关度高的其它字。只要在输出时加入一个概率的范围值,让算法按一个随机的概率来输出一句话。那就可以实现让机器自动写歌词这样的事情了。

    让机器用读图的方法来“学”中文

    现在来回想一下,我们自己在看中文的时候,实际上是怎么样看的呢?我们会先分词,再做语法分析,然后才能理解一段话的意思吗?显然不是这样子的,甚至我们连分词都不用。

    而且,大脑本来有自动补全的功能,即便一段话里缺少了很多词语,仍然不会影响阅读。

    那如何能让机器更好地理解中文呢,这正在我在学习和研究的。


    春节快要到了,有点担心自己的输出系统会受到影响,之后的内容应当结合每天的输入来进行。

    任更三天,感觉工作状态渐渐回归,做事情变得利落了,也更有动力去攻克遗留下来的难关。本着提供价值的原则,春节后,任更就不会再对外发布而是单发在我自己的网站上。

    写作不为影响力,也不为打卡,而是为了建立起自己的输出系统。

    今天就写到这吧~预祝春节快乐!

    相关文章

      网友评论

          本文标题:任更03:机器如何理解语言

          本文链接:https://www.haomeiwen.com/subject/wrqdtftx.html