美文网首页
数据预处理部分代码

数据预处理部分代码

作者: bokli_dw | 来源:发表于2020-02-03 23:08 被阅读0次

step1. 导库

import numpy as np
import pandas as pd

step2 导数据集

datasets = pd.read_csv('C:/Users/CCLU/Desktop/100-Days-Of-ML-Code-master/100-Days-Of-ML-Code-master/datasets/Data.csv')
X = datasets.iloc[:,:-1].values
Y = datasets.iloc[:,3].values
print(X)
print(Y)
print('\n')

step3. handle the missing data

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values="NaN",strategy = 'mean',axis=0)
imputer = imputer.fit(X[:,1:3])
X[:,1:3] = imputer.transform(X[:,1:3])
print(X)

step4 .Encoding categorical data

from sklearn.preprocessing import LabelEncoder,OneHotEncoder
labelencoder_x = LabelEncoder()
X[:,0] = labelencoder_x.fit_transform(X[:,0])
onehotencoder = OneHotEncoder(categorical_features=[0])
X = onehotencoder.fit_transform(X).toarray()
labelencoder_y = LabelEncoder()
Y = labelencoder_y.fit_transform(Y)
print(X)
print(Y)
print('\n')%打印列表可以查看到:所有表格中的数据均被转换为数值形式

step5 划分训练集和测试集

from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(X,Y,test_size = 0.3,random_state = 0)%random_state就是为了保证程序每次运行都分割一样的训练集合测试集。否则,同样的算法模型在不同的训练集和测试集上的效果不一样
print(x_train)
print(y_train)
print('\n')

step6 特征缩放

from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
x_train = sc_X.fit_transform(x_train)
x_test = sc_X.transform(x_test)
print(x_train)
print(x_test)

相关文章

  • 数据预处理部分代码

    step1. 导库 step2 导数据集 step3. handle the missing data step4...

  • Thompson抽样算法-R

    楔子: 1、数据预处理 代码: 2、数据初始化 代码: 3、ThompsonSampling 代码: 4、数据可视...

  • cnn处理数据

    记录一下这段时间学习用的代码 这段代码主要结构是来自网上 我对其进行了部分修改这是cnn部分 这是数据预处理部分

  • SVM算法项目实践---波士顿房价回归分析

    引言 采用波士顿房价数据,因为SVM算法对数据预处理 要求较高,房价数据特征量级差异大,因此需要进行预处理 代码 ...

  • HadISDH数据预处理

    需求 对HadISDH数据进行预处理为自己需要的 代码

  • 2018-02-28 代码大纲

    代码大纲 数据预处理 第一步 /macinfo/origin2normal_test2.py功能:数据预处理第一步...

  • Python建模复习:数据预处理

    第三部分 数据预处理 预处理技术:字段选择、数据清洗、字段扩充、数据编码 3.1数据清洗 异常数据甄别及处理方法:...

  • ERA数据预处理

    需求 对全球ERA数据进行预处理为自己需要的 代码

  • MERRA数据预处理

    需求 对全球MERRA数据进行预处理为自己需要的 代码

  • Python实战 - 第二周作业

    代码 预处理部分 - 获取频道列表 解析各频道列表页面,并将url入库 从数据库获取url解析各详情页面 总结 赶...

网友评论

      本文标题:数据预处理部分代码

      本文链接:https://www.haomeiwen.com/subject/jtllxhtx.html