一、机器学习基本概念
1. 基本概念:训练集、测试集 、特征值 、监督学习 、非监督学习 、半监督学习 、分类、 回归。
我们先熟悉一下这些概念,在后面的例子中会一一明确。
2. 概念的学习:
人类学习某种concept的过程:鸟、车、计算机等等(通过学习样例并进行区分学习)
定义:概念的学习是指从有关某个bool函数的输入输出训练样例中推断出该bool函数
3. 例1:学习“享受运动”这一概念:
学习“享受运动”的数据集从上表可以看出,小明是否享受运动取决于很多个因素,那么机器是如何根据这么多因素来学习判断小明是否享受运动呢?我们先来看一组概念:
实例(instance):表中的每一行称之为一个实例。待学习的概念定义在实例(instance)集合之上,集合表示为X(每个实例由六个属性表示,所有行的集合叫做集合X)
- x: 每个实例
- X: 样例,所有实例的集合
目标概念(target concept):待学习的概念或目标函数称为目标概念(target concept),记作c。
c(x)=1:享受运动,c(x)=0:不享受运动。c(x)也叫y。
训练集(training set/data)/训练样例(training examples): 用来进行训练,也就是产生模型或者算法的数据集。
测试集:(testing set/data)/测试样例(testing examples):用来专门进行测试已经学习好的模型或者算法的数据集。
特征向量:(features/feature vector):属性的集合,通常用一个向量来表示,附属于一个实例。对于每一天来说,都有六个属性,这六个值可以用一个向量来表示,称为特征向量。对于每一个实例,都有不同的特征向量。
目标标记(label):c(x) 实例类别的标记(可以理解为值(域))。
正例(positive example): 享受运动。
反例(negative example):不享受运动。
学习目标:f: X -> Y(学习函数的关系)
我们可以看出,机器通过训练集来学习每个实例的特征向量,总结出一定规律,并建立模型或者算法,而后便可通过测试集来检验模型或者算法的准确度。从这个例子来说,比如我们从100天的数据集中(包含了特征向量和label)训练模型或算法或函数(特征和label的关系),来预测10天的测试集(只有特征向量,不知道label 的值),最后结合实际来判断模型或者算法的准确度。
4. 例2:研究美国硅谷房价
影响房价的两个重要因素:面积(平方米),学区(评分1-10)
研究硅谷房价数据集这个例子中,实例是每一行,特征是面积和学区,目标label是房价。和第一个例子中,差别就在于标记的数据类型是不一样的,这里是连续性数值的数据,而第一个例子中的标记的数据类型是类别型。
根据这两种例子,ML中将目标标记不同的两种问题称为分类(classification)问题和回归(regression)类型。
分类(classification):目标标记为类别型数据(category)
回归(regression):目标标记为连续性数值(continuous numeric value)
5. 例3: 研究肿瘤良性、恶性与尺寸、颜色的关系
特征值:肿瘤尺寸,颜色
标记:良性/恶性
这个例子和之前的例子不同之处在于,我们完全不知道这些肿瘤的标记,我们只知道他们的颜色和尺寸,在这种情况下我们需要做一些聚类(以后的文章会提到)方面的工作,从颜色和尺寸上给它们大体上分类。而之前的例子中,我们是知道数据集当中的label的。
所以,从有无class label这个区别,我们可以将机器学习分为三大类:(在上篇文章提到过)
监督学习:训练集有类别标记
无监督学习:无类别标记
半监督学习:有类别标记+无类别标记
6. 机器学习的步骤框架
6.1. 把数据拆分为训练集和测试集(110天 把100天作为训练集,把剩下10天作为测试集)。
6.2. 用训练集和训练集的特征向量来训练算法或模型或函数来表明特征和目标label的关系。
6.3 用学习来的算法运用在测试集上评估算法(可能要涉及到调整参数(parameter tuning),用验证集(validation set))。
二、深度学习介绍
1. 什么是深度学习?
深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络(NN)算法为起源加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法。
神经网络举例2. 深度学习是什么时间段发展起来的?
其概念由著名科学家Geoffrey Hinton 等人在2006年和2007年在《Sciences》等上发表的文章被提出和兴起。
3. 深度学习能用来干什么?为什么近年来引起如此广泛的关注?
深度学习,作为ML中延伸出来的一个领域,被应用在图像处理与计算机视觉、NLP以及语音识别等领域。自2006年至今,学术界和工业界合作在DL方面研究与应用在以上领域取得了突破性的进展。以ImageNet为数据库的经典图像中的物体识别竞赛为例,击败了所有传统算法,取得了前所未有的精确度。
4. 深度学习目前有那些代表性的学术机构和公司走在前沿?人才需要如何?
学校以University of Toronto、New York University、Stanford University为代表,工业界以google、facebook和百度为代表走在深度学习研究与应用的前沿。
5. 深度学习如今和未来将对我们生活造成怎样的影响?
目前我们使用的安卓手机中谷歌的语音识别、百度识图、谷歌的图片搜索都已经使用到了深度学习技术。facebook的一个deepface项目中对人脸识别的准确率(97.25%)第一次接近了人类肉眼(97.5%)。大数据时代,结合深度学习的发展在未来对我们生活的影响无法估量。保守而言,很多目前人类从事的活动都将因为深度学习和相关技术的发展被及其取代,如自动汽车驾驶,无人飞机,以及更加智能的机器人等。DL的发展让我们第一次看到并接近人工智能的终极目标。
网友评论