什么是机器学习
机器学习(Machine Learning,缩写为ML)是人工智能(Artificial Intelligence,AI)的一个分支领域,它涉及研究和开发计算机系统,使其能够从数据中学习并自动改进,而无需明确编程。机器学习的主要目标是使计算机系统能够识别模式、做出决策、执行任务,而这些能力是通过对大量数据的学习和经验积累而来,而非通过明确的编程规则。
机器学习是一套能够自动检测数据模式的方法。这些未发现的模式被用来预测未来的数据, 或在不确定的情况下执行其他类型的决策。关键前提是从已有数据中学习!!
解决了分析大量数据的问题,使其易于理解。提供自动化分析和探索大型复杂数据集的技术。用于揭示数据模式的工具、方法和理论——这是知识发现的关键步骤!!
机器学习实例
预测一个因心脏病发作而住院的病人是否会再次心脏病发作。这一预测将基于该患者的人口统计学、饮食和临床测量;
根据公司业绩指标和经济数据,预测股票6个月后的价格;
从数字化图像中识别手写邮政编码中的数字;
根据糖尿病人血液的红外吸收光谱,估计其血液中的葡萄糖含量;
分类—根据差异基因构建拟南芥胁迫模型并预测表型
![](https://img.haomeiwen.com/i27313279/6dec530f7e2e1578.png)
回归—根据气象、遥感等信息建立土壤有机碳含量评估模型。
![](https://img.haomeiwen.com/i27313279/f3eea80757b2dd39.png)
![](https://img.haomeiwen.com/i27313279/c66d5e92e5f0e8fb.png)
分类—根据甲基化信息和拷贝数信息进行建模并对膀胱癌进行诊断。
![](https://img.haomeiwen.com/i27313279/823bd2004cea0e1d.png)
人工智能和机器学习
传统人工智能
![](https://img.haomeiwen.com/i27313279/84d52fd2155073ca.png)
![](https://img.haomeiwen.com/i27313279/6cf9803ce06ff074.png)
模型和算法
模型是机器学习系统的核心组成部分,它是一个数学表示,用于捕捉数据中的模式、关系或规律。模型是一种抽象的表示,通常包括一组参数,这些参数通过机器学习算法从数据中学习而来。模型的目标是根据已知数据来进行预测、分类、回归等任务。不同的机器学习模型适用于不同的问题,例如线性回归、决策树、神经网络、支持向量机等都是不同类型的模型。
机器学习算法是用于训练机器学习模型的计算方法。算法定义了模型如何从输入数据中学习和调整参数,以便模型能够进行有效的预测或决策。算法是一种数学和计算方法,它们可以包括梯度下降、随机森林、k-最近邻、朴素贝叶斯、支持向量机等。不同的算法具有不同的优缺点,适用于不同的问题和数据类型。
![](https://img.haomeiwen.com/i27313279/adab48c90a749f0d.png)
一种学习直线参数的假设算法,该算法将两个连续变量作为输入并拟合一条通过均值的直线。
机器学习分类
所有机器学习算法都可以根据它们的学习类型和它们执行的任务进行分类。
监督机器学习
监督学习(Supervised Learning)是机器学习的一种主要范式,其中模型从带有标签的训练数据中学习,并被用于进行预测或分类。在监督学习中,每个训练样本都有一个已知的标签或输出,模型的任务是学习如何从输入数据中预测或分类这些标签。
监督机器学习算法可以分为两类:分类问题和回归问题
![](https://img.haomeiwen.com/i27313279/ea0696f5f0935e0f.png)
分类问题
当我们的监督学习的目标是预测分类结果时,我们将其称为分类问题。分类问题通常围绕预测二元或多项式响应度量。
![](https://img.haomeiwen.com/i27313279/56fb8f5ee2c2eddb.png)
回归问题
当我们的监督学习的目标是预测数字结果时,我们将其称为回归问题。回归问题围绕预测落在连续体上的输出展开。
![](https://img.haomeiwen.com/i27313279/25132905d66ec532.png)
无监督机器学习
无监督机器学习其目标是从数据中发现隐藏的模式、结构或规律,而无需明确的标签或目标。在无监督学习中,算法不依赖已知的输出来进行训练和预测,而是依赖数据本身来提取信息。
无监督学习算法分类:降维算法和聚类算法
![](https://img.haomeiwen.com/i27313279/c4441bf7a0a5e49f.png)
降维问题
降维算法采用未标记(因为它们是无监督学习方法)和高维数据(具有许多变量的数据),并学习一种以较低维数表示它的方法。
机器学习中的降维问题是指通过减少数据特征的维度来简化数据,同时保留最重要的信息。这是因为在许多实际应用中,数据集往往包含大量的特征或维度,这些维度可能会导致计算和分析的复杂性,而且可能包含冗余信息。通过降维,可以减少计算成本,提高模型性能,同时帮助可视化和理解数据。
![](https://img.haomeiwen.com/i27313279/7f6f017333286635.png)
聚类问题
聚类算法采用未标记的数据并学习数据中的聚类模式。聚类是一组观察值,它们彼此之间的相似性高于其他聚类中的数据点。
在机器学习中,聚类问题是一种无监督学习任务,其目标是将一组数据点分成不同的组或簇,以便每个组内的数据点彼此相似,而不同组之间的数据点差异较大。聚类问题的目的是发现数据中的潜在结构,而不需要事先知道数据的标签或类别。
示例:
假设我们有一组二维数据点,这些数据点表示了一组不同类型的水果。我们希望通过聚类算法将这些数据点分成不同的簇,以便同一种类型的水果被分到同一个簇中。
![](https://img.haomeiwen.com/i27313279/ca4c690156b87f4f.png)
在上面的示意图中,我们有一组水果数据点,其中苹果和橙子分别属于两个不同的簇。聚类算法的目标是自动识别并分组这些数据点,而无需预先知道哪些数据点是苹果,哪些是橙子。算法会根据数据点之间的相似性,将它们分成不同的簇,以便同一种类型的水果聚集在一起。
网友评论