文章原创,最近更新:2018-07-18
学习链接:
3.4 Types of Learning - Leaming with Different Input Space
学习参考链接:
1、台湾大学林轩田机器学习基石课程学习笔记3 -- Types of Learning
上面几部分介绍的机器学习分类都是根据输出来分类的,比如根据输出空间进行分类,根据输出y的标记进行分类,根据取得数据和标记的方法进行分类。这部分,我们将谈谈输入X有哪些类型。
之前提供给机器的有申请信用卡的申请书,个人证明等等,这些资料大体上是非常的具体,这些都最后汇成数据的特征,然后与输出y形成一定的关系.输入x运用场景案例:
- (尺寸,质量)用于硬币分类
- 信用审批的客户信息
- 癌症诊断的患者信息
通常这些资料都包含人类的智慧对这些问题的描述,对这个问题的专业知识进行预处理,才会提供给机器输出.
我们再来思考另外一个问题,比如手写数字的辨识,把手写的数字以及相对的意义提供给机器学习.这是一种多类别批次的机器学习,就可以自动的得到数字辨识程序.
输入X的第一种类型就是concrete features。比如说硬币分类问题中硬币的尺寸、重量等;比如疾病诊断中的病人信息等具体特征。concrete features对机器学习来说最容易理解和使用。
使用案例场景:
如果是你的话,你会提供什么样的资料当做x提供给机器,可能会想到比如数字对称以及数字的密度(数字笔画所占的格子很少or很多).
把案例简化一点,怎么区分1和5的手写字体.1比5更加对称,1比5的密度低.
- 1是对称,而5非对称.
-
1的密度比5的密度低
第二种类型是raw features。比如说手写数字识别中每个数字所在图片的mxn维像素值;比如语音信号的频谱等。raw features一般比较抽象,经常需要人或者机器来转换为其对应的concrete features,这个转换的过程就是Feature Transform。
使用案例场景:
将图片分为256个向量.每张照片就是256个向量组成的.这个比方法1更加抽象一些,越抽象对机器而言就越困难.原始特征的其他问题:图像像素,语音信号等
原始特征:经常需要人帮着机器或机器自动将抽象转换为具体的.这个过程有可能是机器做的,也有可能是人帮着机器做的,一般会取个很好听的名字叫特征工程.
第三种类型是abstract features。比如某购物网站做购买预测时,提供给参赛者的是抽象加密过的资料编号或者ID,这些特征X完全是抽象的,没有实际的物理含义。所以对于机器学习来说是比较困难的,需要对特征进行更多的转换和提取。
简单总结一下,根据输入X类型不同,可以分为concetet, raw, abstract。将一些抽象的特征转换为具体的特征,是机器学习过程中非常重要的一个环节。在《机器学习技法》课程中,我们再详细介绍。
练习题目:
答案是4,具体的用户功能,原始图像功能,以及可能是抽象的用户/图像ID
总结:
网友评论