可以对不同索引的对象进行算术运算
i算术运算对于DataFrame,对齐操作会同时发生在行和列上
对齐操作在算术方法中填充值
当一个对象中某个轴标签在另一个对象中找不到时填充一个特殊值(比如0)。相加时,没有重叠的位置就会产生NA值。
填充特殊值DataFrame和Series之间的运算
相减如果某个索引值在DataFrame的列或Series的索引中找不到,则参与运算的两个对象就会被重新索引以形成并集。
运算函数应用和映射
绝对值应用到每列
求每列最大值和最小值的差传递axis=‘columns’到apply,这个函数会在每行执行
应用到行 得到每列的最值得到frame中各个浮点值的格式化字符串,使用applymap即可
格式化字符串Series有一个用于应用元素级函数的map方法
应用于元素级排序和排名
要对行或列索引进行排序(按字典顺序),可使用sort_index方法,它将返回一个已排序的新对象。
按字典顺序对series对象进行排序DataFrame,可以根据任意一个轴上的索引进行排序
任意轴索引降序排序(ascending=False)
降序按值对Series进行排序,可使用其sort_values方法
按值对Series进行排序排序时,任何缺失值默认都会被放到Series的末尾
缺省值置后排序一个DataFrame时,根据一个或多个列中的值进行排序。将一个或多个列的名字传递给 sort_values的by选项即可。
按值对DataFrame排序rank为各组分配一个平均排名
分配平均排名根据值在原数据中出现的顺序给出排名
根据顺序对大小相同的值进行排序也可以按降序进行排名
降序DataFrame可以在行或列上计算排名
计算排名带有重复标签的轴索引
带有重复索引值的Series
重复索引如果某个索引对应多个值,则返回一个Series;而对应单个值的,则返回一个标量值。
重复索引取值汇总和计算描述统计
pandas对象拥有一组常用的数学和统计方法。它们大部分都属于约简和汇总统计,用于从 Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。
数据准备调用DataFrame的sum方法将会返回一个含有列的和的Series
默认对列求和传入axis=‘columns’或axis=1将会按行进行求和运算
传参指定对行求和NA值会自动被排除,除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:
NA自动排除唯一值、值计数以及成员资格
unique,它可以得到Series中的唯一值数组
唯一值value_counts用于计算一个Series中各值出现的频率
统计Series中各值出现的频率isin用于判断矢量化集合的成员资格
判断成员资格结果中的行标签是所有列的唯一值。后面的频率值是每个列中这些值的相应计数。
result = data.apply(pd.value_counts).fillna(0)
统计结果
网友评论