美文网首页
Introduction

Introduction

作者: 从此不迷茫 | 来源:发表于2021-08-17 17:20 被阅读0次

    关键词:learn by interacting with environment 

    关键句:

    1.Learning from interaction is a fundational idea underlying nearly all theories of learning and intelligence.

    2.The approach we explore, called reinforcement learning, is much more focused on goal-directed learning from interaction than are other approaches to machine learning.

    3.Reinforcement learning, like many topics whose names end with “ing,” such as machine learning and mountaineering, is simultaneously a problem, a class of solution methods that work well on the problem, and the field that studies this problems and its solution methods.


    Reinforcement Learning

    关键词:action    reward    trial-and-error search    delayed reward

    关键句:使用动力系统理论将强化学习具体化为不完全已知的马尔可夫决策过程的最优控制。

    1.Reinforcement learning is learning what to do—how to map situations to actions—so as to maximize a numerical reward signal.

    2.Markov decision processes are intended to include just these three aspects—sensation, action, and goal—in their simplest possible forms without trivializing any of them.

    监督学习的区别:监督学习监督学习即具有特征(feature)和标签(label),是指从一组由知识先验的外部监督器提供的带标签的示例中学习。每个示例都是对某一情况的描述,以及系统应对该情况采取的正确措施的说明,通常用于标识该情况所属的类别。即,提供数据-预测标签。比如对动物猫和狗的图片进行预测,预测label为cat或者dog。eg.分类和回归问题

    与无监督学习的区别:无监督只有特征,没有标签。给出数据,寻找隐藏的关系。

    半监督学习:使用的数据,一部分是标记过的,而大部分是没有标记的。

    强化学习:与半监督学习类似,均使用未标记的数据,但是强化学习通过算法学习是否距离目标越来越近。

    挑战之一:the trade-off between exploration and exploitation

    另一特征:it explicitly considers the whole problem of a goal-directed agent interacting with an uncertain environment.

    许多机器学习研究都与监督学习有关,但没有明确说明这种能力最终是如何有用的。其他研究人员已经开发了具有一般目标的规划理论,但没有考虑规划在实时决策中的作用,也没有考虑规划所需的预测模型从何而来的问题。尽管这些方法已经产生了许多有用的结果,但它们对孤立子问题的关注是一个显著的限制。Reinforcement learning takes the opposite tack, starting with a complete, interactive, goal-seeking agent.

    应用:与其他工程和科学学科的实质性和富有成效的互动。

    (1)强化学习是人工智能和机器学习与统计学、最优化和其他数学学科进一步融合的十年趋势的一部分。

    (2)一些强化学习方法使用参数化近似器学习的能力解决了运筹学和控制理论中的经典“维数灾难”。

    (3)强化学习还与心理学和神经科学有着密切的互动,两者都带来了巨大的好处。

    在所有形式的机器学习中,强化学习最接近于人类和其他动物的学习方式,许多强化学习的核心算法最初都是受生物学习系统的启发。强化学习也得到了回报,既通过动物学习的心理模型更好地匹配一些经验数据,也通过大脑奖励系统部分的有影响力的模型。这本书的主体发展了强化学习的思想,这与工程和人工智能有关,与心理学和神经科学的联系在第14章和第15章中进行了总结。

    最后,强化学习也是人工智能朝着简单的一般原则回归的大趋势的一部分。自20世纪60年代末以来,许多人工智能研究人员认为没有可以发现的一般原理,而是由于拥有大量特殊用途的技巧、程序和启发法。基于一般原理的方法,如搜索或学习,被称为“弱方法”,而基于特定知识的方法被称为“强方法”这种观点在今天仍然很普遍,但并不占主导地位。现代人工智能现在包括许多研究,寻找学习、搜索和决策的一般原则,以及尝试整合大量领域知识。强化学习研究肯定是朝着更简单、更少的人工智能一般原理摆回的一部分。

    相关文章

      网友评论

          本文标题:Introduction

          本文链接:https://www.haomeiwen.com/subject/igqibltx.html