美文网首页
机器学习-day1

机器学习-day1

作者: 后青春期的诗大喵 | 来源:发表于2023-08-05 16:39 被阅读0次

    人工智能概念

    机器学习,更多是统计学的知识,正确认知算法能力。只能发现已有规律,从规律中预测。

    数据集:样本 特征 目标(要预测的就是目标)

    机器学习算法分类

    数据是否有标签

    有:监督学习

    预测结果是否离散值:

    是:分类问题

    结果是否为两个:

    是:二分类问题

    否:多分类问题

    否:回归问题

    无:无监督学习

    聚类:用户聚类

    数据降维

    小部分有标签:半监督学习

    主动学习:需要专家经验

    聚类学习:通过聚类将没标签的聚到一起

    纯半监督

    直推

    强化学习:游戏和自动驾驶

    拟合问题

    欠拟合:模型太简单,没有学习到普遍规律

    过拟合:模型太复杂,不但学到了规律,还学习到了噪声

    泛化能力:模型在新数据集上的表现好坏

    奥卡姆剃刀:给定两个相同泛化误差的模型,较简单的比复杂的模型更可取。

    K近邻

    机器学习流程:

    • 加载数据,数据清洗

    • 特征工程(特征提取,加工)

    • 模型训练 -> 训练好的模型

    • 模型评估

    • 上线

    KNN基本原理:

    离的近的就是同一个类别,不需要训练,训练发生在预测的过程中。

    训练数据看作是模型。

    三要素:距离度量,K值,分类角色准则。

    距离度量:

    如果不做特殊设置,距离指欧式距离。

    曼哈顿、切比雪夫、闵氏距离。

    数据的归一化和标准化

    归一化、标准化将量纲不同的数据集缩放到相同的范围内。处理一下不会有坏的影响。

    涉及距离的算法,一般要做归一化、标准化,避免不同的特征取值范围不同,导致模型的预测结果受值较大特征的影响。

    归一化:当数据取值范围固定,没有异常值(有使用条件限制)

    标准化:适应性更强

    from sklearn.preprocessing import StandardScaler,MinMaxScaler
    

    训练集测试集的划分

    保留一部分数据做模型的评估

    数据划分为测试集,训练集之后。如果要做标准化,训练集fit_transform ,测试集 transform。这么做的原因是,如果只有一条测试数据,没法标准化/归一化

    分类问题的评估

    计算预测的准确率

    调参:交叉验证网格搜索

    相关文章

      网友评论

          本文标题:机器学习-day1

          本文链接:https://www.haomeiwen.com/subject/gmzbpdtx.html