要进行数据分析的前提就是要获取数据和导入数据,获取数据的方法有很多,这个不是我们要讲的这个系列的内容,在以后在说。
我们现在先来学习读取导入数据的方法。
Python可以读取的数据文件格式有:文本文件数据txt和csv,电子表格Excel,统计软件生成的数据文件SAS和SPSS,数据库文件MySQL和NoSQL等这些常用的数据格式文件。
1、文本文件的数据
txt:
txt文件读取读取txt文件有pd.read_table,第一个参数的文件的路径,第二个sep是指定的分隔符,encoding是指定文本的编码格式,如果出现乱码只要把文本另存为utf-8的编码格式就可以。
csv:
csv文件读取csv是一个很常用的数据文件格式,存储量要比Excel大,是都好分隔符文件。pd.read_csv函数有20多个参数,具体的可以查看帮助文档help(pandas.read_csv)。
2、读取电子表格
电子表格就是Excel表格,其文件格式有xls和xlsx两种。
Excel表格读取Excel表格文件的读取用的是pd.read_excel,参数跟文档文档的差不多。
3、读取统计软件生成的数据文件
SAS:
SAS文件读取SPSS:
关于读取SPSS数据文件,需要为您的Python安装savReaderWriter模块,该模块可以到如下链接进行下载并安装:https://pypi.python.org/pypi/savReaderWriter/3.4.2。
安装savReaderWriter模块
可以通过该命令进行savReaderWriter模块的安装:python setup.py install
SPSS数据文件读取4、读取数据库数据
企业中更多的数据还是存放在诸如MySQL、SQL Server、DB2等数据库中,因此这个读取方法也是非常重要的。
连接MySQL:
MySQL文件的读取连接用到的是pymysql模块,该模块可以伪装成MySQLdb模块进行读取数据。
网友评论