在Pandas中有除了主要的DataFrame结构外还有个Series结构
在DataFrame中一行或者一列就是Series结构
titanic = pd.read_csv("E:/Anaconda/MachineLearningData/Titanic/test.csv") #获取数据集
titanic_age = titanic["Age"]
print (type(titanic_age))
结果从结果中可以看到titanic_age是一个Series类型
再进行以下操作
titanic_age_value = titanic_age.values
print type(titanic_age_value)
结果可以看到pandas中的titanic_age.values返回的是一个numpy中的ndarray结构。
用Series()构造函数来创建新的series类型的变量:
ndarray_age = titanic_age.values #获取特征age的ndarray值
ndarray_name = titanic["Name"].values #获取特征name的ndarray值
#Series()中前一个参数为特征,参数index作为序号,在这里名字作为了序号,
series_custon = Series(ndarray_age,index=ndarray_name)
print type(series_custon)
print series_custon
新定义了index后依旧可以用原来的0 1 2 等数字来进行索引
结果DataFrame类型也可以重新定义index:
来自API文档若新定义的index为String时也可以对其进行切片造作
df.loc["string1":"string2"]
输出这两个名字的人的年龄:
print series_custon[['Kelly, Mr. James','Wilkes, Mrs. James (Ellen Needs)']] #按名字索引
print series_custon[0:3] #按序号索引
结果从结果可以看到是序号(名字)和特征值一起得到
网友评论