pands基础之查看、选取数据

作者: YoYoYoo | 来源:发表于2018-10-03 22:02 被阅读0次

pands基础之查看、选取数据
Python数据分析_Pandas01_数据框的创建和选取
MySQL实战演练（一）详细代码上图
pandas手册
Linux常用命令
Pandas速查手册
pandas手册
pandas操作技巧
pands 数据去重
SQL学习笔记2——基础查询


# =====看数据
# print(df.shape)  # 输出dataframe有多少行、多少列。
# print(df.shape[0])  # 取行数量，相应的列数量就是df.shape[1]
# print(df.columns)  # 顺序输出每一列的名字，演示如何for语句遍历。
# for column in df.columns:
#   print(columns)
# print(df.index)  # 顺序输出每一行的名字，可以for语句遍历。
# for i in df.index:
#    print(i)
# print(df.dtypes)  # 数据每一列的类型不一样，比如数字、字符串、日期等。该方法输出每一列变量类型
# print(df.head(3))  # 看前3行的数据，默认是5。与自然语言很接近
# print(df.tail(3))  # 看最后3行的数据，默认是5。
# print(df.sample(n=3))  # 随机抽取3行，想要去固定比例的话，可以用frac参数
# print(df.sample(frac=0.5)) # 随机取50%行
# print(df.describe())  # 非常方便的函数，对每一列数据有直观感受；只会对数字类型的列有效
# count 总共数量 ，mean 平均值 ，std标准差，25% 分位数

# 对print出的数据格式进行修正（一般放在最前面）
# pd.set_option('expand_frame_repr', False)  # 当列太多时不换行
# pd.set_option('max_colwidth', 1)  # 设定每一列的最大宽度，恢复原设置的方法，pd.reset_option('max_colwidth')
# pd.set_option("display.max_rows", 100)  # 设定显示最大的行数
# pd.set_option('precision', 6)  # 浮点数的精度
# print(df.head())

# 更多设置请见http://pandas.pydata.org/pandas-docs/stable/options.html


# =====如何选取指定的行、列
# print(df['open'])  # 根据列名称来选取，读取的数据是Series类型
# print(df[['candle_begin_time', 'close']])  # 同时选取多列，需要两个括号，读取的数据是DataFrame类型

# loc操作：通过label（columns和index的名字）来读取数据
# 第一步：先去掉parse_dates=[],以字符串形式读入
# print(df.loc['2018-01-24 00:01:00'])  # 选取指定的某一行，读取的数据是Series类型
# print(df.loc[['2018-01-24 00:01:00', '2018-01-24 00:04:00']])  # 选取指定的两行
# print(df.loc['2018-01-24 00:01:00': '2018-01-24 00:06:00'])  # 选取在此范围内的多行，和在list中slice操作类似，读取的数据是DataFrame类型
# print(df.loc[:, 'open':'close'])  # 选取在此范围内的多列，读取的数据是DataFrame类型
# print(df.loc['2018-01-24 00:01:00': '2018-01-24 00:05:00', 'open':'close'])  # 读取指定的多行、多列。逗号之前是行的范围，逗号之后是列的范围。读取的数据是DataFrame类型
# print(df.loc[:, :])  # 读取所有行、所有列，读取的数据是DataFrame类型
# print(df.at['2018-01-24 00:01:00', 'open'])  # 使用at读取指定的某个元素。loc也行，但是at更高效。

# iloc操作：通过position来读取数据
# print(df.iloc[0])  # 以index选取某一行，读取的数据是Series类型
# print(df.iloc[1:3])  # 选取在此范围内的多行，读取的数据是DataFrame类型
# print(df.iloc[:, 1:3])  # 选取在此范围内的多列，读取的数据是DataFrame类型
# print(df.iloc[1:3, 1:3])  # 读取指定的多行、多列，读取的数据是DataFrame类型
# print(df.iloc[:, :])  # 读取所有行、所有列，读取的数据是DataFrame类型
# print(df.iat[1, 1])  # 使用iat读取指定的某个元素。使用iloc也行，但是iat更高效。