漫谈AI

作者: 元康直人 | 来源:发表于2024-03-22 00:22 被阅读0次

漫谈AI|从alphaGO到alphaFold
漫谈培训简史（完结篇）
架构文章
可能吧 1/6
漫谈 Clustering
Spark整合Ray思路漫谈
愿人人都有美好的未来
Flink
漫谈人生（岩竹呓语·九五）
漫谈Deep Compression(一)简介与背景

前几年互联网大数据盛行，很多人跟风都去学了计算机。然后突然发现IT行业内卷严重，然后现在又开始流行AI，很多人问我：AI是个什么东西？AI和大数据有什么关系？那我今天就花点时间来介绍这个。

AI顾名思义就是 artificial intelligence，中文意思就是人工智能，港台地区也会翻译成人工智慧。其实人工智能的诞生是依托大数据和数学的。早在2015年，百度大脑的吴恩达（后来辞职回斯坦福了）提出了“deep learning”的概念，他把当时机器学习中神经网络的算法模拟人类大脑思考问题的方式，希望通过这个算法教会计算机像人一样的思考，然后2年后，反向传播的模式通过使用求导中的链式法则被解决。“deep learning”的实现变得可行。于是数学家和计算机专家们决定把deep learning 搬上舞台。但是 DeepLearning 这个名字不太吸引人。于是数学家们决定改成人工智能——意思就是让计算机像人一样思考问题。

现今的人工智能分三个方向：图像，声音，文字。我会一一详述他们的每个方向的发展以及成就：

首先是声音模拟：现在的人工智能可以做到将任何一个人的声音语料去模拟视频中的台词，以达到配音的目的。比如你说：我是中国人！，我把这句话录下来了，我就能用这句话去给视频中别的角色配音。那你肯定会问了，那如果那么厉害了，配音演员是不是都下岗了？这个就关系到声音领域一个无法解决的问题，就是模拟说话者的情感。这一点目前无法做到，如果随着技术的发展，有一天能模拟情感了，那配音行业消失也是有可能的。不过现在的声音模拟技术，已经可以在某一类视频中得到应用了，就是鬼畜视频——因为鬼畜视频不需要太过精准的把握情感，观众也就图个乐呵。

其次是图像识别——这个领域的应用就很多了：

1.名画修复：以前经常听到文物字画修复者根据作者平生的绘画风格，然后把他的一些缺损的画自动补齐——这个现在计算机也能做到：首先把这个作者的其他的绘画作为训练样本，然后训练模型之后来复刻这个缺损的画。

2.超分辨率：十年前，香港一些大学的教授就开始使用机器学习的算法，来优化一些低分辨率的视频了，我的导师当时就在做类似的研究了（他外面还有一个公司，做类似的产品卖给安防公司用）。当然现在这些技术就更纯熟了，使用深度学习算法，可以直接将低分辨率的图像还原成高清。——这个对于一些预算不高的安防公司不得不说是福音，他们再也不需要追求高清分辨率的摄像头了，只要买个一般的摄像头，用的时候计算一下就行了。

3.自动驾驶，你可能会问，自动驾驶跟图像识别有啥关系，但实际上关系很大。自动驾驶汽车会在车上面的各个方向安装摄像头，然后拍下周围的街景，交给计算机进行识别，从而指挥车辆进行加速或者规避，完全不需要车主自己控制——在深度学习出来之前，早先的识别经常闹笑话：比如你给一条狗穿人的衣服，计算机会把它当成人。但是随着数据的量级的提升，以及深度学习的应用。这种笑话不复存在了。

4.人脸识别——早期的人脸识别训练需要一个月之久，容错率太低，这个导致一个人在体型变化之后，计算机会认不出你，而现在这一个缺点已经不复存在了。现在所有的公安的，酒店的人脸识别基本上都被商汤科技垄断了。现在人脸识别训练的时间已经大大缩短，而且就算你一一段时间胖了十斤肉，计算机依然能认出你。

当然还有一些其他的奇奇怪怪的应用方向——比如监控车主的眼球转动，来提醒车主不要开小差。监控学生的上课的坐姿，同样判断他们是不是开小差。还有一些体育方面的应用：比如让计算机代替裁判判罚等。还有一些比较成熟的方向也用到了图像识别：比如手写识别。

然后说说 NLP, NLP目前有比较重要的几个应用方向：机器翻译，文本摘要，智能问答，文本分类。

1.机器翻译——我说的机器翻译可不是谷歌或者百度的那种弱智翻译：比如one times sexual 懂的都懂。我说的机器翻译是根据某个领域的生态圈，比如电商，移动互联网，智能制造，社交媒体。根据特定领域下的一些样本语料，进行训练得出精准的翻译结果（通常这种训练是需要大的GPU，其实深度学习的训练，一般都需要GPU）。这个翻译结果通常是可以直接拿来用的，或者给外国人一看就能懂。

2.文本摘要——让计算机读一篇文章，摘出其中的关键词，然后连词成句：这个技术叫做主题模型。早期的文本摘要需要在获得关键词之后，自行脑补，连词成句。现在的算法可以做到让计算机自动生产摘要，不需要你自己想。自动生成古诗词就是文本摘要的一个应用。

3.文本分类，这个应用方向比较普遍——这个方向的出现其实是因为要弥补早期使用机器学习的方式做分类效果不够好的缺点。文本分类的一些主要方向比如情感极性分析，作文病句分析，结合一些其他特定场景，只要带有标签的数据，都可以用文本分类。

4.智能问答——早先的智能问答其实更像搜索引擎，比如你搜什么，出来什么或者一些衍生的内容。现在的搜索引擎还能回答问题。这些方式都是因为图理论的应用的兴起(就是之前说的基础数学中的图论）,诞生了知识图谱，然后用这个技术去做了相关的应用。现在市面上很火的聊天机器人，其实就是智能问答。

最后说下我自己的行业经历：我接触 NLP时间较晚，最早接触 NLP的时候，大部分时间都是算词频，情感分析，最多来个主题模型——这个是NLP中最初级的手段，只有应用于某个领域，才能真正发挥作用。现在虽然在公司做NLP项目，但是都是研究阶段。好处就是不需要有太多产出，因为老板其实没啥要求；坏处就是自己的成就感，归属感不足。

那有人要问，从事人工智能行业，需要一些什么技能——我觉得掌握一个主流的人工智能软件：python，java，c++等；然后就是数学能力——不是解数学题的能力，是对于算法的理解以及想象能力。那怎样提升数学的想象能力，我有以下几点建议：

1. 多推公式，少背诵

2. 多用数形结合。

3. 细节不要太在意，除非你需要写论文论证某个事情，不然不要在意细节。