利用Python读取外部数据文件

作者: 蝴蝶兰玫瑰 | 来源:发表于2017-04-06 23:31 被阅读0次

利用Python读取外部数据文件
利用Python读取外部数据文件
利用Python读取外部数据文件
Python读取外部数据文件
python面试题整理--进阶篇
如何用 pandas 读取 csv 和 Excel 数据
pandas入门
Python读取csv文件
JMeter基础系列（六）JMeter参数化之__CSVRead
数据收集之读取、构造

不论是数据分析，数据可视化，还是数据挖掘，一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析，同样最重要的一步就是如何将数据导入到Python中，然后才可以实现后面的数据分析、数据可视化、数据挖掘等。

在本期的Python学习中，我们将针对Python如何获取外部数据做一个详细的介绍，从中我们将会学习以下4个方面的数据获取：

1、读取文本文件的数据，如txt文件和csv文件

2、读取电子表格文件，如Excel文件

3、读取统计软件生成的数据文件，如SAS数据集、SPSS数据集等

4、读取数据库数据，如MySQL数据、SQL Server数据

一、读取文本文件的数据

大家都知道，Python中pandas模块是专门用来数据分析的一个强大工具，在《Python数据分析之pandas学习（一）》和《Python数据分析之pandas学习（二）》中我们详细介绍了有关pandas模块的应用，下面我们就来介绍pandas是如何读取外部数据的。

1、读取txt数据

In [1]: import pandas as pd

In [2]: mydata_txt = pd.read_csv('C:\\test_code.txt',sep = '\t',encoding = 'utf-8')

对于中文的文本文件常容易因为编码的问题而读取失败，正如上图所示。遇到这样的编码问题该如何处置呢？解决办法有两种情况：

1）当原始文件txt或csv的数据不是uft8格式时，需要另存为utf8格式编码；

2）如果原始的数据文件就是uft8格式，为了正常读入，需要将read_csv函数的参数encoding设置为utf-8

将原始数据另存为utf8格式的数据，重新读入txt数据

In [3]: mydata_txt = pd.read_csv('C:\\test.txt',sep = '\t',encoding = 'utf-8')

In [4]: mydata_txt

很顺利，txt文本文件数据就这样进入了Python的口袋里了。

2、读取csv数据

csv文本文件是非常常用的一种数据存储格式，而且其存储量要比Excel电子表格大很多，下面我们就来看看如何利用Python读取csv格式的数据文件：

In [5]: mydata_csv = pd.read_csv('C:\\test.csv',sep = ',',encoding = 'utf-8')

In [6]: mydata_csv

如果你善于总结的话，你会发现，txt文件和csv文件均可以通过pandas模块中的read_csv函数进行读取。该函数有20多个参数，类似于R中的read.table函数，如果需要查看具体的参数详情，可以查看帮助文档：help(pandas.read_csv)。

二、读取电子表格文件

这里所说的电子表格就是Excel表格，可以是xls的电子表格，也可以是xlsx的电子表格。在日常工作中，很多数据都是存放在Excel电子表格中的，如果我们需要使用Python对其进行分析或处理的话，第一步就是如何读取Excel数据。下面我们来看看如果读取Excel数据集：

In [7]: mydata_excel = pd.read_excel('C:\\test.xlsx',sep = '\t',encoding = 'utf-8')

In [8]: mydata_excel

三、读取统计软件生成的数据文件

往往在集成数据源的时候，可能会让你遇到一种苦恼，那就是你的电脑里存放了很多统计软件自带的或生成的数据集，诸如R语言数据集、SAS数据集、SPSS数据集等。那么问题来了，如果你电脑里都装了这些软件的话，这些数据集你自然可以看见，并可以方便的转换为文本文件或电子表格文件，如果你的电脑里没有安装SAS或SPSS这样大型的统计分析软件的话，那么你该如何查看这些数据集呢？请放心，Python很万能，它可以读取很多种统计软件的数据集，下面我们介绍几种Python读取统计数据集的方法：

1、读取SAS数据集

SAS数据集的读取可以使用pandas模块中的read_sas函数，我们不妨试试该函数读取SAS数据集。下图是使用SAS打开的数据集，如果你的电脑中没有安装SAS，那你也可以通过Python实现数据的读取。

In [1]: import pandas as pd

In [2]: mydata_sas = pd.read_sas('G:\\class.sas7bdat',encoding='utf8')

2、读取SPSS数据集

读取SPSS数据就稍微复杂一点，自己测试了好多次，查了好多资料，功夫不负有心人啊，最终还是搞定了。关于读取SPSS数据文件，需要为您的Python安装savReaderWriter模块，该模块可以到如下链接进行下载并安装：https://pypi.python.org/pypi/savReaderWriter/3.4.2。

安装savReaderWriter模块

可以通过该命令进行savReaderWriter模块的安装：python setup.py install

下图是SPSS数据在SPSS中打开的样子：

In [1]: import savReaderWriter

In [2]: mydata_spss = savReaderWriter.SavReader('employee_data.sav')

In [3]: mydata_spss

3、实在没办法该怎么办？

如果你尝试了好多种模块都无法读取某个统计软件的数据，我建议你还是回到R中，R也是开源的统计分析工具，体积也非常小，只有40M左右，而且R自带的foreign包可以读取很多种统计软件的数据集，当读取成功后，再利用write.csv函数将数据集写出为csv格式的数据，这样Python就可以轻松读取csv数据集了，万事灵活一点就可以完成你想要的任何结果~

四、读取数据库数据

企业中更多的数据还是存放在诸如MySQL、SQL Server、DB2等数据库中，为了能够使Python连接到数据库中，科学家专门设计了Python DB API的接口。我们仍然通过例子来说明Python是如何实现数据库的连接与操作的。

1、Python连接MySQL

MySQLdb模块是一个连接Python与MySQL的中间桥梁，但目前只能在Python2.x中运行，但不意味着Python3就无法连接MySQL数据库。这里向大家介绍一个非常灵活而强大的模块，那就是pymysql模块。我比较喜欢他的原因是，该模块可以伪装成MySQLdb模块，具体看下面的例子：

In [1]: import pymysql

In [2]: pymysql.install_as_MySQLdb() #伪装为MySQLdb模块

In [3]: import MySQLdb

使用Connection函数联通Python与MySQL

In [4]: conn = MySQLdb.Connection(

...: host = 'localhost',

...: user = 'root',

...: password = 'snake',

...: port = 3306,

...: database = 'test',

...: charset='gbk')

使用conn的游标方法(cursor)，目的是为接下来的数据库操作做铺垫。

In [5]: cursor = conn.cursor()

In [6]: sql = 'select * from memberinfo'

执行SQL语句

In [7]: cursor.execute(sql)

Out[7]: 4

In [8]: data = cursor.fetchall()

In [9]: data

我们发现data中存储的是元组格式的数据集，我们在《Python数据分析之pandas学习（一）》中讲到，构造DataFrame数据结构只能通过数组、数据框、字典、列表等方式构建，但这里是元组格式的数据，该如何处理呢？很简单，只需使用list函数就可以快速的将元组数据转换为列表格式的数据。

In [10]: data = list(data)

In [11]: data

下面我们就是要pandas模块中的DataFrame函数将上面的data列表转换为Python的数据框格式：

In [14]: import pandas as pd

In [15]: mydata = pd.DataFrame(data, columns = ['id','name','age','gender'])

In [16]: mydata

最后千万千万注意的是，当你的数据读取完之后一定要记得关闭游标和连接，因为不关闭会导致电脑资源的浪费。

In [19]: cursor.close()

In [20]: conn.close()

2、Python连接SQL Server

使用Python连接SQL Server数据库，我们这里推荐使用pymssql模块，该模块的语法与上面讲的pymysql是一致的，这里就不一一讲解每一步的含义了，直接上代码：

In [21]: import pymssql

In [22]: connect = pymssql.connect(

...: host = '172.18.1.6\SqlR2',

...: user = 'sa',

...: password = '1q2w3e4r!!',

...: database='Heinz_Ana',

...: charset='utf8')

In [23]: cursor = connect.cursor()

In [24]: sql = 'select * from HeinzDB2_10'

In [25]: cursor.execute(sql)

In [26]: data = cursor.fetchall()

In [27]: data[0]

Out[27]: (67782, '2013-05-01', '二阶段', 1.0, 279.0)

In [28]: mydata = pd.DataFrame(list(data),columns = ['ConsumerID',

...: 'Purdate',

...: 'Phase',

...: 'ChangeTinRatio',

...: 'TOTALAMT'])

In [29]: mydata.head()

本期的内容就是向大家介绍如何使用Python实现外部数据的读取，只有完成了这个基本的第一步，才会顺利的进行下面的清洗、处理、分析甚至挖掘部分。

在生活中学会不断挖掘自己的潜力。我们都是一个普通人，可能并不清楚自己到底在哪方面占有优势。所以，学着在生活中找到自己的优势，并根据优势选择一定的就业方向。

不随波逐流。不要看周围的人做什么，自己就做什么，也许别人做的并不适合你。别人的优势很可能会成为你的劣势。所以，坚定自己的想法，让自己知道那些方面适合自己，自己可以胜任。

不断尝试可能成为自己的优势。你不知道什么适合自己，所以才要大胆、勇敢地尝试。找到一种可以属于你的独特的优势。

坚定信念。一旦你坚定了自己的信念，就不要被别人的意见或是讽刺或是嘲笑所干扰。别人不是你，不懂的你在想什么，不清楚你开始这件事的源头。你的事情，不了解你的人，没有资格轻易评说。

不茫然，不多想。别让太多的事干扰到你奋斗下去的信念。梦想不容许太多的杂念。那些杂念只会让你的心愈来愈脆弱，多为一个人考虑，到头来，伤害的还是自己。

选择自己学习方法

每个人都有适合自己的方法，有的人去选择自学，有的人选择看视频学习，有的人选择报名培训班，那在这个时候，你就要自己考虑清楚，到底那样对的帮助是最大的，个人觉得是跟着培训班最好的，毕竟人家的实战项目多，我们学软件开发的都知道实战项目对于学好一门语言是很重要的。

学习python有那些误区

具体里面的误区非常的多，那些就不需要我去写出来，我给你说的一般都是心态的问题，首先一个觉得自己会java和c++，然后我学习python就很牛，但是你要知道语言是有很多相同的地方，但是不是通用，一定要自己学习的仔细。还有一种就是觉得我不会英语，我要先去把英语学习好在来学python。因为自己想还坏主意然后学习，这样的都是容易找进误区的。

怎么样才能学好python学好python你需要一个良好的环境，一个优质的开发交流群，群里都是那种相互帮助的人才是可以的，我有建立一个python学习交流群，在群里我们相互帮助，相互关心，相互分享内容，这样出问题帮助你的人就比较多，群号是301，还有056，最后是051，这样就可以找到大神聚合的群，如果你只愿意别人帮助你，不愿意分享或者帮助别人，那就请不要加了，你把你会的告诉别人这是一种分享。

。

利用Python读取外部数据文件
不论是数据分析，数据可视化，还是数据挖掘，一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析，同...
利用Python读取外部数据文件
不论是数据分析，数据可视化，还是数据挖掘，一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析，同...
利用Python读取外部数据文件
不论是数据分析，数据可视化，还是数据挖掘，一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析，同...
Python读取外部数据文件
不论是数据分析，数据可视化，还是数据挖掘，一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析，同...
python面试题整理--进阶篇
python面试题基础篇请参照上一篇文章 1.大数据文件的读取 1).利用生成器generator 2).迭代器进...
如何用 pandas 读取 csv 和 Excel 数据
本文采用真实的股票数据作为案例，教你如何在Python中读取常用的数据文件。内容：读取csv数据读取Exce...
pandas入门
读取数据文件显示信息
Python读取csv文件
Python读取csv文件数据的方法有多种，接下来给大伙介绍两种比较常用的。下面是csv数据文件：方法一：读取c...
JMeter基础系列（六）JMeter参数化之__CSVRead
6.1 __CSVRead() 配置项使用文件别名从不同数据文件读取数据可以设置不同的线程读取不同的数据文件...
数据收集之读取、构造
读取数据文件的格式千奇百怪，不同的数据文件读取方式也不一样。如果数据文件提供的是csv\txt\xls\xlsx...