美文网首页陆子的国学课堂简友广场想法
sklearn库中的标准数据集及基本功能

sklearn库中的标准数据集及基本功能

作者: Cache_wood | 来源:发表于2021-10-04 10:58 被阅读0次

    @[toc]

    数据集总览

    波士顿房价数据集

    波士顿房价数据集包含506组数据,每条数据包含房屋以及周围的详细信息。包括城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。可以用于回归问题

    使用sklearn.datasets.load_boston即可加载相关数据集
    其重要参数为:return_X_y:表示是否返回target(即价格),默认为False,只返回data(即属性)。

    from sklearn.datasets import load_boston
    boston = load_boston()
    print(boston.data.shape)
    
    data,target = load_boston(return_X_y=True)
    print(data.shape)
    print(target.shape)
    
    (506, 13)
    (506, 13)
    (506,)
    
    鸢尾花数据集

    鸢尾花数据集采集的是鸢尾花的测量数据以及其所属的类别。
    测量数据包括:萼片长度、萼片宽度、花瓣长度、花瓣宽度。
    类别共分为三类:Iris Setosa,Iris Versicolour,Iris Virginica。该数据可用于多分类问题

    使用sklearn.datasets.load_iris即可加载相关数据集。

    from sklearn.datasets import load_iris
    iris = load_iris()
    print(iris.data.shape)
    print(iris.target.shape)
    print(list(iris.target_names))
    
    (150, 4)
    (150,)
    ['setosa', 'versicolor', 'virginica']
    
    手写数字数据集

    手写数字数据集包括1797个0-9的手写数字数据,每个数字有8*8大小的矩阵构成,矩阵中值的范围是0-16,代表颜色的深度。

    使用sklearn.datasets.load_digits即可加载相关数据集

    from sklearn.datasets import load_digits
    digits = load_digits()
    print(digits.data.shape)
    print(digits.target.shape)
    
    import matplotlib.pyplot as plt
    plt.matshow(digits.images[0])
    plt.show()
    
    (1797, 64)
    (1797,)
    

    sklearn库的基本功能

    sklearn库共分为6大部分,分别用于完成分类任务、回归任务、聚类任务、降维任务、模型选择以及数据的预处理。

    分类任务
    分类模型 加载模块
    最近邻算法 neighbors.NeatestNeighbors
    支持向量机 svm.SVC
    朴素贝叶斯 naive_bayes.GaussianNB
    决策树 tree.DecisionTreeClassifier
    集成方法 ensemble.BaggingClassifier
    神经网络 neural_network.MLPClassifier
    回归任务
    回归模型 加载模块
    岭回归 linear_model.Ridge
    Lasso回归 linear_model.Lasso
    弹性网络 linear_model.ElasticNet
    最小角回归 linear_model.Lars
    贝叶斯回归 linear_model.BayesianRidge
    逻辑回归 linear_model.LogisticRegression
    多项式回归 preprocessing.PolynomialFeatures
    聚类任务
    聚类方法 加载模块
    K-means cluster.KMeans
    AP聚类 cluster.AffinityPropagation
    均值飘移 cluster.MeanShift
    层次聚类 cluster.AgglomerativeClustering
    DBSCAN cluster.DBSCAN
    谱聚类 cluster.SpectralClustering
    降维任务
    降维方法 加载模块
    主成分分析 decomposition.PCA
    截断SVD和LSA decomposition.TruncatedSVD
    字典学习 decomposition.SparseCoder
    因子分析 decomposition.FactorAnalysis
    独立成分分析 decomposition.FastICA
    非负矩阵分解 decomposition.NMF
    LDA decomposition.LatentDirichletAllocation

    相关文章

      网友评论

        本文标题:sklearn库中的标准数据集及基本功能

        本文链接:https://www.haomeiwen.com/subject/xzvcnltx.html