美文网首页
sklearn的datasets使用

sklearn的datasets使用

作者: 星辰2009 | 来源:发表于2018-02-24 14:10 被阅读0次

    介绍

      sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法,可以通过dir或help命令查看,目前主要有三种形式:

    • load_<dataset_name> 本地加载数据
    • fetch_<dataset_name> 远程加载数据
    • make_<dataset_name> 构造数据集

    方法说明

    1. 本地加载数据集
        数据集文件在sklearn安装目录下datasets\data文件下,如果有兴趣可进入模块目录查看
    In [2]: datasets.load_*?  
    datasets.load_boston #波士顿房价数据集  
    datasets.load_breast_cancer #乳腺癌数据集  
    datasets.load_diabetes #糖尿病数据集  
    datasets.load_digits #手写体数字数据集  
    datasets.load_files  
    datasets.load_iris #鸢尾花数据集  
    datasets.load_lfw_pairs  
    datasets.load_lfw_people  
    datasets.load_linnerud #体能训练数据集  
    datasets.load_mlcomp  
    datasets.load_sample_image  
    datasets.load_sample_images  
    datasets.load_svmlight_file  
    datasets.load_svmlight_files  
    
    1. 远程加载数据集
        比较大的数据集,主要用于测试解决实际问题,支持在线下载,下载下来的数据,默认保存在~/scikit_learn_data文件夹下,可以通过设置环境变量SCIKIT_LEARN_DATA修改路径,datasets.get_data_home()获取下载路径。
    In [3]: datasets.fetch_*?  
    datasets.fetch_20newsgroups  
    datasets.fetch_20newsgroups_vectorized  
    datasets.fetch_california_housing  
    datasets.fetch_covtype  
    datasets.fetch_kddcup99  
    datasets.fetch_lfw_pairs  
    datasets.fetch_lfw_people  
    datasets.fetch_mldata  
    datasets.fetch_olivetti_faces  
    datasets.fetch_rcv1  
    datasets.fetch_species_distributions  
    
    1. 构造数据集
      下面以make_regression()函数为例,首先看看函数语法:
      make_regression(n_samples=100, n_features=100, n_informative=10, n_targets=1, bias=0.0, effective_rank=None, tail_strength=0.5, noise=0.0, shuffle=True, coef=False, random_state=None)
      参数说明:
    • n_samples:样本数
    • n_features:特征数(自变量个数)
    • n_informative:相关特征(相关自变量个数)即参与了建模型的特征数
    • n_targets:因变量个数
    • bias:偏差(截距)
    • coef:是否输出coef标识
    In [4]: datasets.make_*?  
    datasets.make_biclusters  
    datasets.make_blobs  
    datasets.make_checkerboard  
    datasets.make_circles  
    datasets.make_classification  
    datasets.make_friedman1  
    datasets.make_friedman2  
    datasets.make_friedman3  
    datasets.make_gaussian_quantiles  
    datasets.make_hastie_10_2  
    datasets.make_low_rank_matrix  
    datasets.make_moons  
    datasets.make_multilabel_classification  
    datasets.make_regression  
    datasets.make_s_curve  
    datasets.make_sparse_coded_signal  
    datasets.make_sparse_spd_matrix  
    datasets.make_sparse_uncorrelated  
    datasets.make_spd_matrix  
    datasets.make_swiss_roll  
    

    相关文章

      网友评论

          本文标题:sklearn的datasets使用

          本文链接:https://www.haomeiwen.com/subject/kdyqxftx.html