pandas

作者: 岑洋 | 来源:发表于2018-12-11 15:49 被阅读0次

    自学整理记录,大神见笑

    为什么要学习pandas

    • numpy是处理数值型数据
    • pandas除了能处理numpy处理的数据以外,还能处理其他类型数据
    • 导包

    import pandas as pd

    • 注:pandas安装不上,可以用源码安装,百度pandas pypi;whl执行文件,tar.gz压缩文件

    pandas的常用数据类型

    Series

    • 一维,带索引的数组

    • Series创建

    t = pd.Series(np.arange(5),index=list("abcde"))

    • 注:index是指定索引
    • 注:index要和数组长度相等

    temp_dict = {"name":"xiaohong","age":1,"tel":"119"}
    pd.Series(temp_dict,index=list("name"))

    • 注:还可以通过传字典来创建

    • 注:字典创建也可以传入索引,如果传入的索引存在,则对应之前索引的值;如果是全新的索引,那么值为NaN

    • 注:在numpy中为nan,在pandas中为NaN

    • pandas之Series切片和索引

    list = {"name": "xiaohong", "age": 1, "tel": "119"}
    t = pd.Series(list)
    t["age"]
    t[1]
    t[:2]
    t[[1,2]]

    • 注:分别表示取到age对应的值;索引1对应的值;前两行对应的值;第一行和第二列对应的值

    • 注:如果取值中的键值没有,那么值为NaN

    • pandas之Series索引和值

    t.index

    • 注:获取所有索引
    • 注:返回index类型

    t.values

    • 注:获取所有值

    • 注:返回ndarray类型

    • 注:ndarray中很多方法都可以运用于series类型,比如argmax,clip

    • 注:series具有where方法,但结果和ndarray不同

    • pandas读取外部数据

    pd.read_csv # 读取csv文件
    pd.read_clipboard # 读取剪切板文件
    pd.read_excel # 读取excel文件
    pd.read_json # 读取json文件
    pd.read_html # 读取html文件
    pd.read_pickle #
    pd.read_sql #
    pd.read_sql_query #
    pd.read_sql_table #
    pd.read_sql(sql_sentence,connection) # 读取mysql,传入sql语句,连接即可;
    # 读取mongodb,获取到第一条数据
    client = MongoClient()
    collection = client["MyMongo"]["test1"]
    data = list(collection.find())
    t1 = pd.Series(data[0])

    DataFrame

    • 二维,Series容器

    • 创建DataFrame

    pd.DataFrame(np.arange(12).reshape(3,4),index=list("abc"),columns=list("wxyz"))

    • DataFrame对象既有行索引,又有列索引
    • index是行索引,columns是列索引

    temp_dict = [{"name":"xiaohong","age":1,"tel":"119"},{"name":"xiaoxiao","tel":"110"}]
    pd.DataFrame(temp_dict)

    • 注:也可以传字典生成DataFrame
    • 注:如果有缺失的值,用NaN代替

    DataFrame方法

    • 行数 列数

    df.shape

    • 列数据类型

    df.dtypes

    • 数据维度

    df.ndim

    • 行索引

    df.index

    • 列索引

    df.columns

    • 对象值,二维ndarray数组

    df.values

    • 显示前几行,默认5行

    df.head()

    • 显示末尾几行,默认5行

    df.tail()

    • 相关信息

    df.info()

    • 快速综合统计结果

    df.describe()

    • 排序

    df.sort_values(by="Count",ascending=False)

    • 注:by参数表示按照哪列排序,默认升序

    • 注:ascending参数默认True升序,False为降序

    • 取行和取列

    t = pd.DataFrame(np.arange(12).reshape(3, 4),index=list("abc"),columns=("WXYZ"))
    df.loc["a":"c","W"]
    df.iloc[[0,2],[2,1]]

    • 注:loc中的冒号是闭合的

    • 注:loc是通过索引获取数据

    • 注:iloc是通过实际位置获取数据

    • 更改值

    t = pd.DataFrame(np.arange(12).reshape(3, 4),index=list("abc"),columns=("WXYZ"))
    df.loc["a":"c","W"] = 1
    df.iloc[[0,2],[2,1]] = np.nan

    • 注:直接赋值即可

    • 注:直接将nan赋值即可,不需要先转换为float类型,因为DataFrame已经在底层转换了

    • pandas布尔索引

    df[(df["Row"].str.len() > 4) & (df["Count"] > 700)]

    • 注:不同的条件之间需要用括号括起来,用&且、|或连接

    • 注:.str就可以取到字符串,.len()就会获得长度

    • pandas字符串方法

    1543483013(1).jpg
    方法 说明
    cat 元素级字符串连接操作,sep参数指定连接的字符串
    contains 返回表示各字符串是否含有指定的布尔型数组

    DataFrame缺失数据的处理

    • 数据缺失两种情况
      1.为空,NaN等
      2.为0,可能是真数据,也可能是填充数据,区分对待

    • 判断数据是否为NaN

    pd.isnull(df)

    • 判断数据是否不为NaN

    pd.notnull(df)

    • 删除NaN的数据的行或者列或者个体

    t.dropna(axis=0,how="any",inplace=True)

    • 注:how参数默认为any,有一个为NaN,就删除;all,全部是NaN才删除

    • 注:inplace参数默认为False,不修改原数据;True为修改原数据

    • 在NaN处填充数据

    t.fillna(t.mean())
    t["age"].fillna(t["age"].mean())

    • 注:通常替换均值,第一种是所有列的均值替换,第二种是替换某一列的
    • 注:pandas中的t.mean()会将NaN剔除,然后计算均值,与numpy不同

    数据合并

    • 按照行索引合并

    df1.join(df2)

    • 详细如图:
    join.png
    • 注:以df1行为基准,没有的值填NaN

    • 按照列索引合并

    df1.merge(df2)

    • 详细如图:
    merge.png

    数组分组

    • grouped = df.groupby(by="Country")
    image.png
    • 将csv文件按照country分组,返回DataFrameGroupBy对象,该对象可以遍历,可以统计数量等
    • grouped中的每一个元素是一个元组,元组里面是(索引(分组的值),分组之后的DataFrame)

    相关文章

      网友评论

          本文标题:pandas

          本文链接:https://www.haomeiwen.com/subject/roixcqtx.html