Pandas简介
Pandas是基于Numpy的专业数据分析工具,可以灵活高效的处理各种数据集,也是进行数据分析的神器。它提供了两种类型的数据结构,分别是DataFrame和Series,我们可以简单粗暴的把DataFrame理解为Excel里面的一张表,而Series就是表中的某一列,后面学习和用到的所有Pandas骚操作,都是基于这些表和列进行的操作。Pandas和Excel、SQL相比,只是调用和处理数据的方式变了,核心都是对源数据进行一系列的处理。
数据的创建、读取和存储
1、创建
在Pandas中我们想要构造下面这一张表应该如何操作呢?
表第一步一定是先导入我们的库
import pandas as pd
构造DataFrame最常用的方式是字典+列表,语句很简单,先是字典外括,然后依次打出每一列标题及其对应的列值(此处一定要用列表),这里列的顺序并不重要:
构建DataFrame2、 读取
在工作中,我们是把相关文件数据直接读进PANDAS中进行操作,这里介绍三种非常接近的读取方式,一种是CSV格式的文件,一种是EXCEL格式(.xlsx和xls后缀)的文件,一种是使用数据库,数据库本身自带简单的求和、计数等功能。数据库导出的数据文件通常为 CSV、UNL 格式。CSV 和 UNL 格式数据也可以用 Excel 打开并正常显示为表格,它们是使用特殊分隔符(比如 ,、| 或 ;)的文本型数据文件。
engine是使用的分析引擎,读取csv文件一般指定python避免中文和编码造成的报错。而读取Excel文件,则是一样的味道:
读取excel文件# 读入MySQL数据库数据
# 导入第三方模块
importpymysql
# 连接MySQL数据库
conn = pymysql.connect(host='localhost', user='root', password='test',
database='test', port=3306, charset='utf8')
# 读取数据
user = pd.read_sql('select * from topy', conn)
# 关闭连接
conn.close()
# 数据输出
User
3、存储
存储起来一样非常简单粗暴且相似:
写入文件
网友评论