导入数据分为导入sklearn自带数据和导入自己的数据。导入数据主要是要把feature(x)和标签(y)分开。
1.自带的数据。
sklearn自带一些小型datasets,见文档说明。文档数据库说明
比如
![](https://img.haomeiwen.com/i11402591/5c94cc0a63d89136.png)
这种导入就是
from sklearn import datasets
iris = datasets.load_iris()
data_x = iris.data
data_y = iris.target
print(data_x)
print(data_y)
data_x是特征,data_y是标签。
2.自己的数据
一般我会用pandas和numpy辅助,我是先用excel收集数据,大概长这个样子。
![](https://img.haomeiwen.com/i11402591/050fdcca759de149.png)
用pandas读取之后长这样。
import pandas as pd
import numpy as np
dataset = pd.read_csv('jianshu.txt',dtype={'code':str},sep='\t',index_col='Unnamed: 0')
print(dataset.head())
![](https://img.haomeiwen.com/i11402591/16650bb0f9ec8160.png)
然后分离data和label
import pandas as pd
import numpy as np
dataset = pd.read_csv('jianshu.txt',dtype={'code':str},sep='\t',index_col='Unnamed: 0')
col = dataset.columns.values.tolist()
col1 =col[2:-1]
data_x = np.array(dataset[col1])
data_y = dataset['label22']
这就是导入数据了。
网友评论