Pandas学习笔记

作者: 花酒石 | 来源:发表于2020-08-18 16:39 被阅读0次

Pandas 简介

Pandas是Python中进行数据处理的一个常用库,利用Pandas可以高效地处理格式化数据文件。
Pandas内部使用DataFrame存储数据。

Pandas 读取文件

基本读文件方法

pandas.read_csv()遇到读进来乱码问题

  1. 设置encoding='gbk'或者encoding='utf-8'pandas.read_csv('data.csv',encoding='gbk')
  2. 如果设置encoding直接报错的话: 用记事本打开csv文件,另存为设置编码为utf-8,然后重新读取文件设置encoding='utf-8'就好了

Pandas读取使用空格或Tab分隔的文件

  1. 利用'\\s+'匹配连续的任意多个空格,设置sep='\\s+'
    示例:df = pd.read_csv(filename, sep='\\s+', skiprows=[0], header=None)
  2. 利用'\t'匹配Tab字符,设置sep='\t'
    示例:df = pd.read_csv(filename, sep='\t', skiprows=[0], header=None)

问题处理

pandas.read_csv() 报错 OSError: Initializing from file failed

问题分析

  1. 一种是函数参数为路径而非文件名称
  • 注意文件路径中是否存在特殊字符表示方法,如'\0', '\t', '\r'
  1. 另一种是函数参数带有中文
    第二种情况,即使路径、文件名都完整,还是报错的原因是这个参数中有中文,但是Python3不是已经支持中文了吗?参考了错误原因和pandas的源码,发现调用pandas的read_csv()方法时,默认使用C engine作为parser engine,而当文件名中含有中文的时候,用C engine在部分情况下就会出错。

解决方案

  • 使用'\\0', '\\t', '\\r', 对特殊字符进行转义
  • 调用read_csv()方法时指定engine为Python
    df=pd.read_csv('F:\\数据源\\工程清单.csv',engine='python')
  • 使用open函数打开文件,再取访问里面的数据
    da3=pd.read_csv(open('F:\\4.0 居配工程监测\\2.0 数据源\\02.南京新居配工程清单.csv'))

pandas数据索引

pandas取dataframe特定行/列

按列取、按索引/行取、按特定行列取

import numpy as np
from pandas import DataFrame
import pandas as pd

df=DataFrame(np.arange(12).reshape((3,4)),index=['one','two','thr'],columns=list('abcd'))
 
df['a']#取a列
df[['a','b']]#取a、b列
 
#ix可以用数字索引,也可以用index和column索引
df.ix[0]#取第0行
df.ix[0:1]#取第0行
df.ix['one':'two']#取one、two行
df.ix[0:2,0]#取第0、1行,第0列
df.ix[0:1,'a']#取第0行,a列
df.ix[0:2,'a':'c']#取第0、1行,abc列
df.ix['one':'two','a':'c']#取one、two行,abc列
df.ix[0:2,0:1]#取第0、1行,第0列
df.ix[0:2,0:2]#取第0、1行,第0、1列
 
#loc只能通过index和columns来取,不能用数字
df.loc['one','a']#one行,a列
df.loc['one':'two','a']#one到two行,a列
df.loc['one':'two','a':'c']#one到two行,a到c列
df.loc['one':'two',['a','c']]#one到two行,ac列
 
#iloc只能用数字索引,不能用索引名
df.iloc[0:2]#前2行
df.iloc[0]#第0行
df.iloc[0:2,0:2]#0、1行,0、1列
df.iloc[[0,2],[1,2,3]]#第0、2行,1、2、3列
 
#iat取某个单值,只能数字索引
df.iat[1,1]#第1行,1列
#at取某个单值,只能index和columns索引
df.at['one','a']#one行,a列

按条件取行

# 选取等于某些值的行记录 用 ==
df.loc[df[‘column_name’] == some_value]
 
# 选取某列是否是某一类型的数值 用 isin
df.loc[df[‘column_name’].isin(some_values)]
 
# 多种条件的选取 用 &
df.loc[(df[‘column’] == some_value) & df[‘other_column’].isin(some_values)]
 
# 选取不等于某些值的行记录 用 !=
df.loc[df[‘column_name’] != some_value]
 
# isin返回一系列的数值,如果要选择不符合这个条件的数值使用~
df.loc[~df[‘column_name’].isin(some_values)]

删除特定行

# 要删除列“score”<50的所有行:
df = df.drop(df[df.score < 50].index)
df.drop(df[df.score < 50].index, inplace=True)

# 多条件情况
# 可以使用操作符: | 只需其中一个成立, & 同时成立, ~ 表示取反,它们要用括号括起来。
# 例如删除列“score<50 和>20的所有行
df = df.drop(df[(df.score < 50) & (df.score > 20)].index)

相关文章

  • 大师兄的Python机器学习笔记:Pandas库

    大师兄的Python机器学习笔记:实现评估模型 一、关于Pandas 1. Pandas和Numpy Pandas...

  • pandas索引取数

    注:《利用python进行数据分析》的学习笔记-pandas import pandas as pd import...

  • pandas-基础笔记

    Pandas学习笔记-基础篇 参考资料 https://www.yiibai.com/pandas/ 导入模块 S...

  • 学习笔记----机器学习(三)

    我是iOS开发者之一。我们的App:今日好出行 申明一下,只是学习笔记,只是学习笔记,只是学习笔记。 Pandas...

  • pandas学习笔记

    pandas学习笔记 1.安装 2.学习代码-Series code 1 0 1001 py...

  • pandas学习笔记

    Pandas库的介绍 Pandas是一个开放源码的Python库,它使用强大的数据结构提供高性能的数据操作和分析工...

  • pandas学习笔记

    pandas 读取 csv 文件 查看pandas的列名以及列数 pandas 查看某一列的全部数据或部分数据 查...

  • pandas学习笔记

    筛选数据 读取文件 import pandas as pdpd.read_csv("Lung.txt",heade...

  • pandas 学习笔记

    pd.Series 简介: Series 是一个定长的有序字典 简单创建: Series 中可以包含多种基本数据类...

  • pandas学习笔记

    最近在学python,正好看到一个讲解pandas的系列视频,正好做一下笔记,笔记会参考视频,同时也会参考pand...

网友评论

    本文标题:Pandas学习笔记

    本文链接:https://www.haomeiwen.com/subject/yorndktx.html