第一章 机器学习革命
1.1 何为算法
所有算法,无论多复杂,都能分解为这三种逻辑运算:且,或,非。
一种算法不仅是简单的一套指令,这些指令必须精确且不能模糊,这样计算机才能够执行。例如,食谱并不算一种算法,因为食谱没有明确给出做事的顺序,或者具体每一步是怎样的。一勺白糖到底是几克?每个尝试新食谱的人都知道,跟着食谱做,可能会做出很美味的食物,也可能会做得一塌糊涂。相比之下,算法总能得出同样的结果。即便食谱明确指出需要半盎司白糖,计算机也不知道如何执行,因为计算机不知道什么是白糖、什么是盎司。如果我们想对厨用机器人编程,让它来做蛋糕,我们要通过视频教它如何辨认白糖、如何拿起勺子等(我们现在仍在努力)。计算机必须知道如何执行算法,直到打开及关闭指定的晶体管。因此,食谱离算法还很远。
算法分为思想和实现,菜谱应该是思想层面,但实现细节可能不足,所以个人认为菜谱是算法的思想部分。
你没法真正了解某样东西,直到你能用一种算法来将其表达出来
理查德·费曼曾说,“如果我无法创造某样东西,那么也就无法理解它
机器学习和普通算法的差异:
每个算法都会有输入和输出:数据输入计算机,算法会利用数据完成接下来的事,然后结果就出来了。
机器学习则颠倒了这个顺序:输入数据和想要的结果,输出的则是算法,即把数据转换成结果的算法。学习算法能够制作其他算法。
==> 可以把机器学习当作逆运算,正如开平方是平方的逆运算、整合是分化的逆运算。
1.2 什么是机器学习
机器学习有许多不同的形式,也会涉及许多不同的名字:模式识别、统计建模、数据挖掘、知识发现、预测分析、数据科学、适应系统、自组织系统等。这些概念供不同群体使用,拥有不同的联系。
人工智能的目标是教会计算机完成现在人类做得更好的事,而机器学习可以说就是其中最重要的事:没有学习,计算机就永远无法跟上人类的步伐;有了学习,一切都与时俱进。
计算机科学通常需要的是准确思维,但机器学习需要的是统计思维。**
==> 个人认为:由于个体化的因素过大,变量难以获得,导致可预测性较差;而在大样本下,将大量的差异忽略掉,减少数据方差,通过抽取某一类型的行为的模式,从而使行为有更高的可预测性。
工业革命使手工业自动化,信息革命解放了脑力劳动,而机器学习则使自动化本身自动化
1.3 机器学习对商业的作用
商业的困境:
在互联网出现之前,交易的主要障碍就是实地交易。你只能从当地的书店购买书籍,而当地书店的书架空间又有限。但当你可以随时把所有书下载到电子阅读器时,问题就变成了可供选择的书太多。你怎么浏览书店里上百万不同名字的书?同样的问题也出现在其他信息产品当中
信息时代的定义问题,而机器学习就是问题解决方案的主要部分。
学习算法就是“媒人”:它们让生产商和顾客找到对方,克服信息过载。如果这些算法足够智能,你就能取得两全其美的结果:从宏观来讲,选择广、成本低;从微观来讲,能够了解顾客的个性化需求。学习算法并不是完美的,决定的最后一步通常还得由人来做,但学习算法很智能,为人们减少了需要做的选择。
业界将数据看作战略资产:我有什么数据,而竞争对手却没有?我要怎么利用这些数据?竞争对手有什么数据,而我却没有?
机器学习是商业的雷达:不列颠之战期间,英国空军阻止了纳粹德国空军的进攻,尽管后者人数比前者多很多。德国飞行员不明白,为什么无论走到哪里,他们总会碰上英国空军。英国有一个秘密武器:雷达,可以在德国飞机越境进入英国领空时,就探测到它们。机器学习就像装了雷达,能够预知未来。别只是回击对手的行动,要预测他们的行动,并先发制人。
网友评论