scikit-learn系列之如何导入数据

作者: coolspider2015 | 来源:发表于2017-02-20 18:47 被阅读2454次
    如何导入数据

    这是我关于scikit-learn学习系列的第一篇博客,这个系列的主要目的是跟随著名博主Jason Brownlee的博客machinelearningmastery,学习机器学习算法和相关实现。

    开篇很简单,学习两种数据导入方法:一种是导入scikit-learn内置的数据集。另外一种是导入本地的或者网络上的数据集。

    1. 第一种方法,使用load_*方法导入scikit-learn数据集,可以用于回归或者分类算法的实验。代码如下:
    from sklearn.datasets import load_iris
    iris = load_iris()
    print(iris)
    
    1. 第二种方法,使用到urllib和numpy包,下从网络上获取原始数据,在把数据load进来,编程numpy的数据结构,分割自变量和因变量。代码实现如下:
    import numpy as np
    import urllib
    data_link = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
    raw_data = urllib.urlopen(data_link)
    data = np.loadtxt(raw_data,delimiter=",")
    print(data.shape)
    x = data[:,0:7]
    y = data[:,8]
    print x,y
    
    1. 学习到的知识点:
    • sklearn.datasets.load_iris()导入sklearn内置数据集。
    • urllib.urlopen(link)获取网络数据
    • numpy.loadtxt()导入text数据

    原文链接:How to Load Data in Python with Scikit-Learn

    相关文章

      网友评论

        本文标题:scikit-learn系列之如何导入数据

        本文链接:https://www.haomeiwen.com/subject/khyewttx.html