美文网首页
初始化Dataframe

初始化Dataframe

作者: wuli學 | 来源:发表于2019-06-21 11:23 被阅读0次
  • 读取csv文件到Dataframe中

1. 读取一般普通的csv

df=pd.read_csv('data.csv',sep='\t',header=0,names=['col1', 'col2'],dtype={'col1':"str", 'col2':"int64"})  

header=0:不读取原来的列名
names=['col1', 'col2']:按照位置顺序,重新给列命名
dtype={'col1':"str", 'col2':"int64"}:按照dict语法,给列指定类型,如果有nan值可能会报错,需要再配合na_values, keep_default_na, na_filter等3个参数对na进行处理

2. 分块读取大型csv

df_table=pd.read_csv('data.csv',header=None,sep='\t',chunksize=100000)
for df in df_table:
    pass

3. 迭代读取特定size的csv

df_iter=pd.read_csv('data.csv',  sep='\t', iterator=True)
while True:
    try:
        df = df_iter.get_chunk(10000)
        pass
    except StopIteration:
        break

4. 读取特定行数用于测试

df=pd.read_csv('data.csv',  sep='\t', nrows=10)

5. 读取特定列

df=pd.read_csv('data.csv',  sep='\t', usecols = [0,1,2,3]) 

usecols=[0,1,2,3]: 按照位置顺序,指定要读取的列

  • 创建Dataframe

1. 创建指定列的空Dataframe

df=pd.Dataframe(columns=["col1", "col2"])

2. 创建带数据的Dataframe

df=pd.Dataframe({"col1":[1,2,3], "col2":['a','b','c']})
  • 处理空值

1. 整体替换

df.fillna("", inplace=True)

2. 替换某列

df.fillna({'column':"", inplace=True}

TODO

numpy : y = np.where(np.isnan(x), None, x)
pandas: df1 = df.where((pd.notnull(df)), None)

跟着Stack Overflow学pandas

相关文章

  • 一、pandas数据结构

    1、初始化DataFrame 2、获取DataFrame中的列名 3、筛选DataFrame中的列 ps:其中筛选...

  • 初始化Dataframe

    读取csv文件到Dataframe中 1. 读取一般普通的csv header=0:不读取原来的列名names=[...

  • Pandas系列1-DataFrame之初始化

    DataFrame有多种初始化方法,主要分为以下几种情况: 通过Object初始化 通过文件初始化 通过SQL查询...

  • Pandas

    学习便于处理数据。DataFrame 初始化 import pandas as pdimport numpy as...

  • 利用SparkSql提供的api获取数据

    获取Spark SQL 数据帧(DataFrame)通过spark-shell初始化SparkContext,使用...

  • Pyspark-常用语句

    dataframe字段操作 打印权重 解析概率 模型调参 初始化spark 常用缺失值填充 StringIndex...

  • DataFrame写入excel不同的sheet

    直接上代码 初始化2个dataframe 准备输出写文件 执行结果 to_excel部分源码

  • Pandas 基本操作

    文件读取 预览、定位选择 排序 修改列名 不采用科学计数 行转列 运算 读取文本初始化 DataFrame 并进行...

  • Pandas

    DataFrame DataFrame的基本属性 DataFrame.columns 列标DataFrame....

  • 第三方库-Pandas-基础

    1 DataFrame: Python Pandas - DataFrame pandas.DataFrame

网友评论

      本文标题:初始化Dataframe

      本文链接:https://www.haomeiwen.com/subject/vyxyqctx.html