在创建DataFrame前,我们先生成随机数。(随机数在练习的时候很常用。) Numpy库的randn函数能生成多个随机数。
生成随机数还可以用Numpy的arange函数 生成一个list,可以用作DataFrame的索引。我个人比较喜欢用arange,括号里是(起点值,终点值+1,步长)
生成列表作为索引生成一个完整的DataFrame:
生成DataFrameDataFrame有多个参数:data就是要转换成DataFrame的内容,很多数据类型都可以转换成DataFrame,比如:Series,字典,元组等等。如果是字典转换的话,“键”就默认是列名了。index是索引,columns是列名。
如果在转换成DataFrame时,没有指定index 和columns,系统会自动设定,都是从0开始的整数。
默认索引和列名可以使用dtypes来查看各列的数据格式,info函数可以查看整个DataFrame的属性信息。
dtypes和info函数查看前几行和后几行数据,括号里选择行的参数:
选择前后几行对数值数据进行统计各类指标:
数值统计描述函数describe一般分类数据用value_counts(后续会讲),数值数据用describe,这是最常用的两个统计函数。
选择数据的行、列索引和数值:
选择行、列索引和数值行列转换:
转置函数T还有一个转置函数unstack,用法有些许的区别。
unstack转置对数据进行排序,用到了sort_values,by参数可以指定根据哪一列数据进行排序,ascending是设置升序和降序(选择多列或者多行排序要加[ ],把选择的行列转换为列表,排序方式也可以同样的操作)。
排序 sort_valuessort_values其它参数:axis=0或者1 纵向排序还是横;na_position='last' 将空值排在最后;kind和inplace是排序的具体方式,一般数据用不到。
sort_values其它参数
网友评论