美文网首页
pandas 入门

pandas 入门

作者: 肥了个大西瓜 | 来源:发表于2018-09-13 11:52 被阅读0次



1 pandas 介绍

  Pandas是一个开放源码的Python库,它使用强大的数据结构提供高性能的数据操作和分析工具。它的名字:Pandas是从Panel Data - 多维数据的计量经济学(an Econometrics from Multidimensional data)。

  2008年,为满足需要高性能,灵活的数据分析工具,开发商Wes McKinney开始开发Pandas。

  在Pandas之前,Python主要用于数据迁移和准备。它对数据分析的贡献更小。 Pandas解决了这个问题。 使用Pandas可以完成数据处理和分析的五个典型步骤,而不管数据的来源 - 加载,准备,操作,模型和分析。

  Python Pandas用于广泛的领域,包括金融,经济,统计,分析等学术和商业领域。

  Pandas的主要特点

  快速高效的DataFrame对象,具有默认和自定义的索引。

  将数据从不同文件格式加载到内存中的数据对象的工具。

  丢失数据的数据对齐和综合处理。

  重组和摆动日期集。

  基于标签的切片,索引和大数据集的子集。

  可以删除或插入来自数据结构的列。

  按数据分组进行聚合和转换。

  高性能合并和数据加入。

  时间序列功能。



2 Pandas中的数据对象

2.1 Series对象

2.2 DataFrame对象

2.2.1 创建dataframe

2.2.1.1 利用集合创建dataframe
d1 = pd.DataFrame(data=list([1, 2, 3]), index=list(["a", "b", "c"]))
print(d1)
2.2.1.2 利用数组创建dataframe
d2 = pd.DataFrame(data=numpy.array(list([1, 2, 3, 4, 5, 6, 7])))
print(d2)

2.2.1.3 利用字典创建dataframe
dictionary3 = {"name": "nick", "age": 12, "sex": "male"}
d3 = pd.DataFrame(data=dictionary3, index=list([1, 2, 3]))
print(d3)

2.2.1.4 利用series创建dataframe
dictionary4 = {"name": "nick", "age": 12, "sex": "male"}
s4 = pd.Series(data=dictionary4)
d4 = pd.DataFrame(data=s4)
print(d4)

2.2.1.5 利用嵌套字典创建dataframe
dictionary5 = {"A":{"name": "nick", "age": 12, "sex": "male"},"B":{"name": "nick", "age": 12, "sex": "male"}}
s5 = pd.DataFrame(data=dictionary5)
print(s5)

2.2.1.6 利用嵌套集合创建dataframe
s6 = pd.DataFrame(data=list([[1, 2, 3, 4], ["a", "b", "c", "d"]]))
print(s6)

2.2.1.7 利用嵌套数组创建dataframe
s7 = pd.DataFrame(data=numpy.array(list([[1, 2, 3, 4], ["a", "b", "c", "d"]])))
print(s7)

2.2.1.8 利用字典创建dataframe
s8 = pd.DataFrame.from_dict(
    data={"name": "nick", "age": 12, "sex": "male"}, orient="index")

print(s8)

2.2.2 遍历DataFrame对象

2.2.2.1 遍历dataframe中的行

方法一:

for index, row in df.iterrows():
    print row["c1"], row["c2"]

方法二:

for row in df.itertuples(index=True, name='Pandas'):
    print getattr(row, "c1"), getattr(row, "c2")

方法三:

  使用df.iloc函数,如下所示:

for i in range(0, len(df)):
    print df.iloc[i]['c1'], df.iloc[i]['c2']

2.2.2.2 遍历dataframe中的列

for ix, col in df.iteritems():

2.3 Index对象

2.3.1 Index对象的创建

  可以直接调用Index

相关文章

网友评论

      本文标题:pandas 入门

      本文链接:https://www.haomeiwen.com/subject/zwlwgftx.html