美文网首页机器学习
机器学习pycare框架入门简介

机器学习pycare框架入门简介

作者: wo_monic | 来源:发表于2023-09-06 10:58 被阅读0次

    学习pycare之前,先搭建好jupyter notebook。代码实现是基于jupyter的。

    安装pycaret

    参考 pycaret github 最新版pycaret使用说明

     #create a conda environment
    conda create --name pycaret3 python=3.9
    
    # activate conda environment
    conda activate pycaret3
    
    # install pycaret
    pip install pycaret [full]
    
    #创建一个notebook kernel
    python -m ipykernel install --user --name pycaret3 --display-name "Pycaret3"
    

    pycaret是可以实现多个机器学习的包装器
    包含的有scikit-learn,XGBoost,LightGBM,CatBoost,SpaCy,Optuna,Hyperopt,Ray等。

    有监督机器学习

    分类Classification

    回归Regression

    pycaret.regression
    官方的回归的所有函数的API

    image.png

    无监督机器学习

    异常检测Anomaly Detection

    pycaret.anomaly
    异常检测的官方API

    image.png

    聚类Clustering

    pycaret.clustering
    聚类官方API

    image.png

    时间序列分析 Time Series Forecasting

    pycaret.time_series
    时间序列官方API

    image.png
    pycaret分析的基本步骤
    1. 读取数据get_data
    2. 初始化安装,导入分析模型类型
    3. 模型训练和选择
    4. 可视化最优的模型
    5. 预测测试集的数据
    6. 预测新的数据的结果
    7. 保存模型

    数据预处理

    数据预处理原文
    缺失值,一般为空白或NaN
    使用setup函数后会自动初始化,并填充缺失值

    # load dataset
    from pycaret.datasets import get_data
    hepatitis = get_data('hepatitis')
    
    原始数据
    # init setup
    from pycaret.classification import *
    clf1 = setup(data = hepatitis, target = 'Class')
    
    初始化之后自动填充了缺失数据 不同类型的填充数据的方法的MAPE值
    MAPE值越低,说明填充的结果约接近真实值
    软件默认的缺失数据填充
    数字值 numeric_imputation: int, float, or string, defaul:mean 默认是用均值
    可以使用的参数值:
    drop 删除包含缺失的行
    mean 均值
    median 使用中间值填充
    mode 使用频率最多的值填充
    knn 使用knn近邻法填充
    int or float 使用提供的数值

    分类值 categorical_imputation: string, defaul:mode
    可以使用的参数值:
    drop
    mode
    str 使用提供的字符串

    imputation_type设置填补类型

    默认是simple
    可选值是: simple, iterative, None
    如果是None则不填充

    数据填充使用的模型

    numeric_iterative_imputer:str or sklearn estimator ,默认值是:lightgbm
    categorical_iterative_imputer:str or sklearn estimator ,默认值是:lightgbm

    数据类型,包括数字,分类或日期时间 ,pycaret会自动检测数据类型

    如果pycaret自动检测的数据类型和预期的不一致,则可以手动指定为对应的数据类

    一次性编码,数据集的分类特征包含标签值

    序数编码,数据集中的分类特征包含具有内在自然顺序的变量,例如:(低,中,高)

    基数编码

    目标不平衡,当训练数据集的目标类分布不均匀时,可以使用fix_imbalance设置中的参数进行修复。
    删除异常值 remove_outliers

    相关文章

      网友评论

        本文标题:机器学习pycare框架入门简介

        本文链接:https://www.haomeiwen.com/subject/dnwflrtx.html