美文网首页
数据分析 随笔

数据分析 随笔

作者: ZhSong | 来源:发表于2020-04-13 06:23 被阅读0次

    数据分析

    DataFrame

    • DataFrame 中的数据可以直接赋值成nan不需要进行转换,但是在别的数据结构中要想将值赋值成nan需要先将值转换为浮点类型

    pandas之布尔索引

    • 注意在DataFrame中不能使用连续的运算符,==需要使用&和|符号进行连接,而且两边需要用括号括起来==

      df[(800<df["Count_AnimalName"]) & (df["Count_AnimalName"]<1000)]
      
    • 假如我们想要找到所有的使用次数超过 700并且名字的字符串长度大于4的狗的名字,应该怎么选择?

      df[(df["Count_AnimalName"]>700) & (df["Row_Labels"].str.len()>4)]
      
    • set_index方法

      1df.set_index("a",drop=False)是将某一列作为索引,drop表示是否要删除该列

    • 对于index,既可以对他求长度,也可以遍历,还可以强制转换为列表

    • .index.unique()方法,可以取出不重复的index

    • 也可以设置两个索引df.set_index(["a","b"]).index

    • 处理缺失数据:df[pd.notnull(df["列名"])]

    •   // 利用索引遍历二维数组
          count = 0
        for i in range(len(data_list)):
              for j in range(len(data_list[i])):
                  if j == 0:
                      count += 1
          print(count)
      
    • 使用numpy数组中ndarray中的高级索引[0,1],[1,2]表示二维数组中第一行第二个和第二行第三个

    • 将数据中的"?"或者其他符号的缺失值,先替换成np.nan,使用方法pd.replace("?",np.nan)

    相关文章

      网友评论

          本文标题:数据分析 随笔

          本文链接:https://www.haomeiwen.com/subject/dijwmhtx.html