1.什么是机器学习?
目标是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。
根据数据是否有因变量,机器学习的任务可分为:
有监督学习和无监督学习。
有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。如:我们使用房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价。
无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。如:我们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些类型的用户彼此间的行为和属性类似,形成一个客群。注意,我们本身并不知道哪个用户属于哪个客群,即没有给定因变量。
有监督学习预测结果或未来
无监督学习寻找数据中的结构
2.有监督学习
根据因变量的是否连续,有监督学习又分为
回归和分类:
回归:因变量是连续型变量,如:房价,体重等。
回归(Boston房价预测)

分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。
分类(IRIS鸢尾花分类)

2.1sklearn工具库使用

回归实例
使用sklearn内置数据集Boston房价数据集,sklearn中所有内置数据集都封装在datasets对象内: 返回的对象有:
data:特征X的矩阵(ndarray)
target:因变量的向量(ndarray)
feature_names:特征名称(ndarray)


我们可以看到,数据给定任务所需要的因变量,因变量为波士顿房价Price是一个连续型变量,所以这是一个回归的例子。
分类实例

我们可以看到:每种不同的颜色和点的样式为一种类型的鸢尾花,数据集有三种不同类型的鸢尾花。 因此因变量是一个类别变量,因此通过特征预测鸢尾花类别的问题是一个分类问题。
3.无监督学习
可以使用sklearn生成符合自身需求的数据集
https://scikit-learn.org/stable/modules/classes.html?highlight=datasets#module-sklearn.datasets


网友评论