本质:use data to slove problems(Training && Prediction)
收集数据-》准备数据:数据预处理 -》选择模型 -》训练 -》预测 -》超参数调整 =》评估
1、训练阶段(Training)+ 预测阶段(Prediction)
Data -> Training -> Model ->Prediction
训练阶段:通过对数据的训练,创建一个预测模型并对其进行微调
模型生成:预测模型可以从这些数据背后找出答案,帮我们解决问题
预测阶段:通过测试集完成模型评估,从而了解模型在测试集中的有效性
过程中预测模型会不断的改进和使用
2、 End to End
机器学习看作黑盒子
数据-》model=》label
3、 机器学习的七部法
收集数据-》准备数据:数据预处理 -》选择模型 -》训练 -》预测 -》超参数调整 =》评估
4、机器学习训练过程
如:f(x) = Wx + b
机器学习的过程就是在搜索空间中对w和b进行搜索的过程,使得模型的准确率达到某个标准
一个训练步骤(training step)称为一次迭代(一个epoch),目的在于更新权重和变量
DATA -> MODEL ->PREDICTION ->TEST ->DATA
通过多次迭代,模型中的参数不断进行更新,好比在数据中进行拟合
当训练结束是可以使用模型对房价预测
4、判断一个问题是分类,还是回归:输出的数据类型:离散 or 连续
线性回归解决回归问题,逻辑回归解决分类问题
LR线性回归:
线性回归
线性回归
逻辑回归:使用sigmod函数,实际上是分类算法
5、机器学习评估
选择一部分数据作为测试集(10%或20%)
6、超参数调整
我们还可以对模型中的参数进行调整,比如epoch的次数,学习率等
这些参数通常被称为超参数。调整超参数的过程比起科学更像是艺术。这是实验性的过程,并很大程度上取决于具体的数据集、模型和训练过程
不同的超参数得到局部最优解
参数和超参数区别:参数是模型内的,超参数是模型外的。超参数人工,参数 机器集资学习
7、机器学习的模型
分类算法(有监督学习):C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART
聚类算法(无监督学习):K-Means,EM
关联分析:Apriori
连接分析:PageRank(网页排序)
网友评论