2022年四月第47本书
未知率10%
预计阅读速度5000字/分钟
实际阅读速度3000字/分钟
1、本书主题:机器学习和人工智能如何重塑世界
2、速读建议:很多书友评论翻译太差,的确很糟糕。可以对照目录翻阅感兴趣的内容。
>> 所有科学中最重大的目标就是,从最少数量的假设和公理出发,用逻辑演绎推理的方法解释最大量的经验事实。
◆ 序
>> 现代人希望让世界来适应自己,而不是改变自己来适应世界。
>> 亚马逊的算法能断定当今世界人们在读什么书,这一点比谁都强。
>> 本书的第一个目标就是揭示机器学习的秘密。
>> 亚马逊很有可能会把你带到你之前常浏览的书籍类别,网飞则可能会把你带到你不熟悉且似乎有点奇怪的区域,并引导你爱上那里。
>> 机器学习主要有5个学派,我们会对每个学派分别介绍:符号学派将学习看作逆向演绎,并从哲学、心理学、逻辑学中寻求洞见;联结学派对大脑进行逆向分析,灵感来源于神经科学和物理学;进化学派在计算机上模拟进化,并利用遗传学和进化生物学知识;贝叶斯学派认为学习是一种概率推理形式,理论根基在于统计学;类推学派通过对相似性判断的外推来进行学习,并受心理学和数学最优化的影响。在构建机器学习的目标推动下,我们将回顾过去100年的思想史,并以新的观点来看待这段历史。
>> 符号学派的主算法是逆向演绎,联结学派的主算法是反向传播,进化学派的主算法是遗传编程,贝叶斯学派的主算法是贝叶斯推理,类推学派的主算法是支持向量机。
>> 本书的第二个目标就是帮你创造终极算法。
◆ 学习算法入门
>> 数据库、网络爬虫、索引器等相当于食草动物,耐心地对无限领域中的数据进行蚕食。统计算法、线上分析处理等则相当于食肉动物。食草动物有必要存在,因为没有它们,其他动物无法存活,但顶级掠食者有更为刺激的生活。数据爬虫就像一头牛,网页相当于它的草原,每个网页就是一根草。当网络爬虫进行破坏行动时,网站的副本就会保存在其硬盘当中。索引器接着做一个页面的列表,每个词都会出现在页面当中,这很像一本书后的索引。数据库就像大象,又大又重,永远不会被忽略。在这些动物当中,耐心的野兽飞快运转统计和分析算法,压缩并进行选择,将数据变为信息。学习算法将这些信息吞下、消化,然后将其变成知识。
>> 当公司不断发展壮大后,它会经历三个阶段:
第一阶段的所有事都由人工完成——夫妻店的店主亲自了解其顾客,他们依照顾客类型订购、展示、推荐产品。这很不错,但规模不大。
第二阶段是最辛苦的时期,公司变得越来越大,需要用到计算机。
第三阶段,没有足够的程序员和顾问满足公司的需要,因此公司不可避免地向机器学习寻求帮助。
>> 学习算法就是“媒人”:它们让生产商和顾客找到对方,克服信息过载。
◆ 来自神经科学的论证
>> 所有知识,无论是过去的、现在的还是未来的,都有可能通过单个通用学习算法来从数据中获得。
>> 我们要做的,就是为它提供足够、适当的数据,通过这些数据,它会发现相应的知识:给它视频流,它就会观看;给它图书馆,它就会阅读;给它物理实验结果,它就会发现物理定律;给它DNA晶体学数据,它就会发现DNA的结构。
>> 大脑自始至终只使用了一种相同的学习算法,那些负责不同知觉的区域,区别也仅仅在于与其相连、输入信息的器官(如眼睛、耳朵、鼻子)。
>> 学习机制也相同:记忆通过加强集群放电神经元之间的连接得以形成,涉及一个叫作长时程增强的生物化学过程。
>> 因此发明终极算法的一种途径(可以说是最流行的一种)就是对人脑进行逆向解析。
>> 进化论是一种算法。
>> 一旦我们在某个领域发现它们,也很快能在其他领域发现它们;一旦我们在某个领域懂得解开它们,也能在所有领域将它们解开。
>> 如果我们能有效解决它,那么这个问题就属于P;如果我们能有效找到其解决方案,那么这个问题属于NP。
>> 科学经历了三个时期:布拉赫时期、开普勒时期、牛顿时期。对于布拉赫时期,我们收集了很多数据,就像第谷·布拉赫日复一日、年复一年耐心记录行星的位置那样。对于开普勒时期,我们使经验规律符合数据,就像开普勒对行星运动所做的那样。对于牛顿时期,我们发现了更深刻的真理。
>> 终极算法会提供80%的方案,做20%的工作量,所以这是开始的最佳时机。
◆ 约不约
>> 理性主义者喜欢在迈出第一步前,就提前规划好一切。经验主义者喜欢尝试新事物,然后看看结果会怎样。
>> 我们见过的所有真实的东西,在宇宙中也是真实的。
>> “编部落歌谣的方法有很多种,而每种方法都是正确的”。
>> 所有规则都会有例外。
>> 学习就是你拥有的数据的数量和你所做假设数量之间的较量。
>> 我们也可以单纯从其他规则中归纳另一些规则。
◆ 感知器的兴盛与衰亡
>> 一个神经元就有数千个突触。如果你走在大街上碰到熟人,你认出他只需要0.1秒。以神经转换的速度,这些时间勉强够用来进行100个处理步骤,但在那些处理步骤中,你的大脑能够浏览整个记忆库,找到最佳搭配,然后使其适应新的背景(不同的服装、不同的灯光等)。在大脑中,每个处理步骤有可能会很复杂,而且会涉及很多信息,并符合分散的概念表达方式。
>> 一个电子的自旋对其相邻电子的活动所做的反应和一个神经元的反应十分相似。
>> 宇宙就是相变的巨大集合体,从宇宙到微观世界,从世俗到人生的改变。
>> 活细胞就是非线性系统的典型例子。
◆ 达尔文的算法
>> 中年危机意味着把多年的时间花费在利用某种东西之后,会极度渴望探索新事物。
>> 性似乎才是最后的结局,而不是技术演化的手段。
>> 在鲍德温进化中,初次掌握的行为,之后会变成天生的本领。
◆ 统治世界的定理
>> 马尔可夫假设(假设错误但有用)文中每个位置的概率都是一样的。
>> 所有东西都有关联,但不是直接关联
>> 贝叶斯学派指出了逻辑的脆弱性。
>> 我们既需要逻辑,也需要概率。
◆ 完美另一半
>> 你可以找历史上与当前情况相似的场景,然后尝试从这些场景中吸收经验。
>> 类比是推动许多历史上最伟大科学进步的动力。
>> 一旦我们知道这些要点是什么,要弄清楚这些要点如何相互依赖,就变得更加容易了。
>> 直观地说,和一条瘦的蛇相比,肥的蛇能够不触雷爬行的方法更少。
>> 通常,支持向量机选择的支持向量越少,就能更好地进行概括。
◆ 物以类聚,人以群分
>> 新生儿无法说话、走路、识别物体,甚至不知道,当他看不到某个东西时,它仍然存在。但一个月又一个月过去,大步小步向前走,经过不断摸索,终于取得概念理解上的大进步,孩子终于理解世界如何运转、人们如何行事,以及如何进行沟通。孩子过了3岁生日,所有这些学习行为就会聚合成稳定的状态,即一种贯穿我们一生的意识流。
>> 但实际上,宇宙中最大的奥秘并不在于它如何开始和灭亡,或者又是由怎样无穷细的线编织而成,而在于幼小孩子的大脑里正在发生什么:一磅的胶状物如何变成意识的所在处。
>> 人们主要在两个维度上存在差别:一个是经济问题,一个是社会问题。
>> 人类确实有稳定的向导:情感。我们追求快乐,躲避痛苦。
>> 人类解决问题的方式是将问题分解为小问题,再将小问题再分解为更小的问题,然后系统地减少初始状态(比如第一个公式)与目标状态(第二个公式)之间的差异。
>> 推进算法不是通过结合不同的学习算法,而是将相同的分类器不断应用到数据中,利用每个新的模型来纠正前面模型的错误。
>> 优化是一种算法,即寻找最高得分的模型,并回归它。
网友评论