美文网首页我爱编程
sklearn-2.用pandas导入数据

sklearn-2.用pandas导入数据

作者: ddm2014 | 来源:发表于2018-06-26 15:33 被阅读0次

    导入数据分为导入sklearn自带数据和导入自己的数据。导入数据主要是要把feature(x)和标签(y)分开。

    1.自带的数据。
    sklearn自带一些小型datasets,见文档说明。文档数据库说明
    比如

    image.png
    这种导入就是
    from sklearn import datasets
    
    iris = datasets.load_iris()
    data_x = iris.data
    data_y = iris.target
    print(data_x)
    print(data_y)
    

    data_x是特征,data_y是标签。

    2.自己的数据
    一般我会用pandas和numpy辅助,我是先用excel收集数据,大概长这个样子。


    image.png

    用pandas读取之后长这样。

    import pandas as pd
    import numpy as np
    
    dataset = pd.read_csv('jianshu.txt',dtype={'code':str},sep='\t',index_col='Unnamed: 0')
    print(dataset.head())
    
    image.png

    然后分离data和label

    import pandas as pd
    import numpy as np
    
    dataset = pd.read_csv('jianshu.txt',dtype={'code':str},sep='\t',index_col='Unnamed: 0')
    
    col = dataset.columns.values.tolist()
    col1 =col[2:-1]
    data_x = np.array(dataset[col1])
    data_y = dataset['label22']
    

    这就是导入数据了。

    相关文章

      网友评论

        本文标题:sklearn-2.用pandas导入数据

        本文链接:https://www.haomeiwen.com/subject/lzklyftx.html