读取,输出数据集:
import pandas
myData = pandas.read_csv("E:\Anaconda\Salary_Data.csv") #myData类型为DataFrame类型
print (myData.dtypes)
print (type(myData))
print (myData)
结果myData的类型为DataFrame(可以看作是矩阵),读取的数据中有常见的3种类型int , float 和object(String)。
print (salary_Data.head(4) ) #输出salary_Data的前4条数据,默认5条
print (salary_Data.tail(4)) #输出尾部4条
print (salary_Data.columns) #输出每个feature的名字
print (salary_Data.shape) #输出数据的行列
结果从数据集提取数据:
按行取:
print (salary_Data.loc[1]) #输出index为1的数据
print (salary_Data.loc[0:3]) #输出index为0到3(包括3)的数据
print (salary_Data.loc[[0,4]]) #输出index为0和4的数据
结果按列取:
print (salary_Data["Salary"] #输出特征为Salary列的值
print (salary_Data["Salary"].loc[0:3]) #取出Salary列的index为0到3的值
按要求取:
可以使用salary_Data.columns.tolist()将所有column转换成一个list再使用for循环遍历list挑选出符合条件的数据。
结果向已有的数据中加入新的列:
print (salary_Data.shape)
salary2 = salary_Data["Salary"] / 10 #salary2的行数与Salary行数一致
salary_Data["Salary2"] = salary2 #将salary2加入到新建的Salary2列中
print (salary_Data.head(2))
print (salary_Data.shape)
结果获取某列一列的最值:
print salary_Data.head(5)
print salary_Data["Salary"].min() #获取Salary列中的最小值
结果使用apply()函数调用自定义函数:
titanic数据集import pandas as pd
titanic = pd.read_csv("E:/Anaconda/MachineLearningData/Titanic/test.csv")
def hundred_row(column): #自定义的函数用来输出参数的第100行的数据
hendredth_data = column.loc[99]
return hendredth_data
hundred_value = titanic.apply(hundred_row) #使用apply来调用自定义函数
print hundred_value
结果def class_level(value):
p_class = value["Pclass"]
if pd.isnull(p_class):
return "Unknown"
elif p_class == 1:
return "1 LEVEL"
elif p_class == 2:
return "2 LEVEL"
elif p_class == 3:
return "3 LEVEL"
class_level = titanic.apply(class_level,axis=1) #axis=0 竖着算(结果显示column),1横着算(结果显示index)
print class_level
结果
网友评论