美文网首页
python数据处理

python数据处理

作者: 马尔克ov | 来源:发表于2017-07-13 06:58 被阅读59次

    重复值处理

    drop_duplicate

    缺失值

    1.补全

    2.删除行

    dropna

    读取数据时可以指定某些值为Null, na_values = ['a' , 'b']

    isNA=df.isnull()

    df[isNA[['key']].any(axis=1)]

    df.fillna('value')

    3.不处理

    空值

    lstrip清左边

    rstrip清右边

    strip清两边

    字段抽取

    slice(start, stop) 前闭后开区间

    五.字段拆分

    df['name'].str.split(' ', 1, True)

    六.记录抽取

    dataframe[condition]

    逻辑运算,数字比较,字符串匹配

    随机抽样

    DataFrame.sample()

    记录合并

    concat([df1, df2])

    字段合并

    先df=df.astype(str)再+

    字段匹配

    merge等价于excel的vlookup, 数据库的join

    简单计算

    增加一列必须用df['col_name']

    标准化

    scale到0-1, 量纲统一

    分组

    cut(series=待分组数据, bins=间隔, right=开闭区间, label=标签)

    时间处理

    pd.to_datetime

    strftime/strptime

    dt.property抽取某一个

    时间抽取

    df.ix[]

    df[condition

    虚拟变量

    离散特征编码pandas.get_dummies

    相关文章

      网友评论

          本文标题:python数据处理

          本文链接:https://www.haomeiwen.com/subject/mkswcxtx.html