sklearn学习 — 数据集

作者: _aLIEz | 来源:发表于2020-01-29 22:45 被阅读0次

    sklearn数据集

    1. 数据集的划分

    1. 训练集 : (占数据集比重高) 用于训练,构建模型
    2. 测试集 : 在模型评估时使用,检验评估模型是否有效
    训练集 测试集
    建立模型 评估模型
    75%~ ~25%

    sklearn数据集划分api :sklearm.model_selection_train_test_split
    * sklearm.model_selection_train_test_split(arrays,*option)
    * x:数据集的特征值
    * y:数据集的标签值
    * test_size :测试集的大小,一般为float
    * random_stata :随机数种子
    * return :训练集特征值,测试集测试值,训练集标签,测试值标签(默认随机)

    from sklearn.model_selection import train_test_split
    li = load_iris()
    '''x_train , y_train , x_test , y_test'''
    x_train , y_train , x_test , y_test = train_test_split(li.data,li.target,test_size=0.25)
    print("训练集的特征值和目标值:",x_train,y_train)
    print("训练集的特征值和目标值:",x_test,y_test)    
    
    • sklearn.datasets
    • 加载获取流行数据集
      • datasets.load_*()
      • 获取小规模数据集,数据包含在datasets里
      • datasets.fatch_*(data_home=None)
      • 获取大规模数据集,从网上下载
      • 返回的数据类型是字典格式
        • data : 特征数据数组,是[n_samples,n_feature]的二维np.ndarray数组
        • target:标签数组,是n_samples的一维np.ndarry数组
        • DESCR:数据描述
        • feature_names:特征名,新闻数据,手写数据,回归数据集...没有
        • target_names:标签名
    from sklearn.datasets import load_iris
    li = load_iris()
    print(li.target)
    

    相关文章

      网友评论

        本文标题:sklearn学习 — 数据集

        本文链接:https://www.haomeiwen.com/subject/gibbthtx.html