欢迎大家关注公众号【哈希大数据】
致哈希粉的一封信:
最近大家反应说公众号的东西太难啦~看到一般看不懂就关掉了,估计下次也不会打开了。所以昨天小希希呀,希小妹啊等等哈希们进行了很激烈的讨论,做了个极其重要的决定那就是:接下来我们的内容将给大家从最基础的东西讲起!!!这一周以及接下来几周我们主要是进行知识点全面扫盲,包括机器学习、数据爬虫和分析、图像识别、自然语言处理、机器人编程、人工智能等知识概念和应用普及。
毕竟每个进来的孩纸都是抱着做"更好的自己"这样的初衷,先给每位努力的小可爱一个抱抱,所以现在希望大家紧紧跟着我们的脚步来,我们慢慢地努力地跟大家一起不放过任何一个知识点!!!
并且我们还开设了答疑专栏,有任何不懂的可以在文章后面or公众号后台留言,我们会通过公众号私信你,或是直接回答你,或是在下一期的讲解里集中回答,千万不要怕自己提出的问题很幼稚,我们需要你的提问和建议!!
今天要给大家介绍的是“机器学习的扫盲篇(一) 机器学习的概念和分类”
文章不长,想从基础学习的同学,需要静下心来跟上哦!!
一起加油!小希希期待你的留言~~
机器学习的概念
机器学习(machine learning),从字面上来看可分为机器和学习两部分,其中机器是指电脑、pad、手机等一切可以处理数据的电子设备(计算机);学习是指机器为获得解决问题能力所做出的行为(学习是智能生物的基本特征之一),即设计一些让计算机可以自动“学习”的算法,以便从输入(输出)的数据中习得经验获取规律,进一步将其转换成知识,利用知识而完成特定的预测和判断任务。
image在这里机器是学习的承担者,而学习是机器执行的具体行为。机器学习的目的就是让机器可以像人类一样通过不断的学习而具备解决问题的能力,这种能力可以体现在算法设计和数据模型构建中。可完成的任务包括分类、聚类、回归、降维、推荐、密度估计等新的输出。
image机器学习的分类
对于机器而言,无论文字、图片、音频、视频等都是一种数据,根据给定数据集的不同,机器学习可以分为有监督学习、无监督学习和强化学习。
有监督的学习是指,在训练机器学习的过程中,给定机器完整已知数据的输入(数据特征)和输出结果(数据回归值或类别),机器学习后可以对新的输入特征进行预测得到新的输出结果。
给大家举个例子:
以我们之前做的波士顿房价可视化回归预测来看,如果告诉机器一栋房子所在地区的住宅地比例、环保的指标、自住的比例、便利的指数、以及不动产税率等指标,以及不同指标下房屋的价格,这样机器就能学习这些指标的特点和房价的关系,而给出当前指标下具体的房屋价格。但是这个价格准确率的问题要看机器通过不同模型和算法学习效果如何。(之前已尝试过线性回归模型、决策树模型等,不同模型对应的预测结果完全不同的,这也表示出了机器学习程度的不同)。
以机器学习实现鸢尾花的分类来看,我们只需给机器提供鸢尾花萼片和花瓣的长度和宽度数据,以及花的类别,机器便可以通过学习KNN算法、逻辑回归算法、决策树算法等,来判断新生长出的鸢尾花究竟是属于山鸢尾、变色鸢尾还是维尼亚鸢尾。这些都是有监督的机器学习方式。
无监督的机器学习,是仅提供输入特征即鸢尾花萼片和花瓣的长度和宽度数据,机器在学习过程中并不知道其结果是否正确。但是通过聚类、神经网络等算法它会自动从这些特征中找出其潜在类别规则,而将鸢尾花分为三大类。
image.png image.png
强化学习是基于监督和无监督学习两者之间,其中机器在学习阶段和有监督学习是一样的,数据特征和数据结果会完整输入提供给数据。但等到测试阶段,只是会告诉机器这次测试的结果是否达到了预期,也就是预测的房子价格和实际价格是否是差很多。只有预测差值符合要求后才会停止学习,否则机器将在学习中动态调整预测算法参数,来达到预期。
一些总结
总而言之机器学习要实现从规律到知识的提炼,进而得出输入特征和目标之间的映射关系(由模型算法定义的算法空间),这种映射关系就是计算机通过学习大量实例数据得出的。因此机器学习虽然包括数据和算法,但最主要的部分还是数据,数据是机器学习成为可能的关键因素。在使用机器学习中也需要注意:
首先需要了解机器学习只能在与训练数据同分布的数据上有效,其并非适用于所有的数据集,因此需要对训练数据和实际数据之间统计上的不对称性保持足够的警觉,同时需要保持模型不断地被训练让它不落伍。
其次,如果机器学习算法出现偏差,在学习过程中也可能会持续的收集新的数据来不断强化这一偏差。要时刻保持怀疑的态度来使用机器学习算法,并在应用的过程中进行严格的检查。
最终,我们需要明白无论何种学习方式都不是万能的,需要结合现实应用场景在一定的范围内使用机器学习技术,而且可能更多的需要在数据清洗和变换上花进行不断尝试,以便让机器可以更好的从数据中学习。
网友评论