Python数据分析笔记-08

作者: 杨大菲 | 来源:发表于2018-02-12 18:31 被阅读0次

Python 学习笔记第一篇：matplotlib 绘制图形
利用Python进行数据分析 - 第三章 ipython
Python 数据分析学习笔记： numpy 篇
Python数据分析笔记-08
（十）关联分析
利用Python进行数据分析 - 准备工作
python3.6 pandas 数据规整-如何合并数据集，转换
pandas索引取数
《利用Python进行数据分析》读书笔记
会员数据化

1.I/O API工具

2.读取csv或文本文件中的数据

1）创建一个.csv文件

White,red,blue,green,animal

1,5,2,3,cat

2,7,8,5,dog

3,3,6,7,horse

2,2,8,3,duck

4,4,2,1,mouse

2）用read_csv()函数读取他的内容，同时将其转化为DataFrame对象

>>> csvframe=pd.read_csv('/Users/caojin/Desktop/myCSV_01.csv')

>>> csvframe

White red blue green animal

0 1 5 2 3 cat

1 2 7 8 5 dog

2 3 3 6 7 horse

3 2 2 8 3 duck

4 4 4 2 1 mouse

3）既然csv也是文本文件，还可以使用read_table()函数但是得指定分隔符

>>> csvframe=pd.read_table('/Users/caojin/Desktop/myCSV_01.csv',sep=',')

>>> csvframe

White red blue green animal

0 1 5 2 3 cat

1 2 7 8 5 dog

2 3 3 6 7 horse

3 2 2 8 3 duck

4 4 4 2 1 mouse

4）上面例子，标识各列的表头位于csv文件的第一行，但一般情况并非如此，可能第一行就是列表数据如下：

5）没有表头的数据使用read_csv()函数时候，使用header选项，将其设置为None，pandas会自动为其添加默认表头

未使用header

>>> csvframe=pd.read_csv('/Users/caojin/Desktop/myCSV_02.csv')

>>> csvframe

1 5 2 3 cat

0 2 7 8 5 dog

1 3 3 6 7 horse

2 2 2 8 3 duck

3 4 4 2 1 mouse

使用header

>>> csvframe=pd.read_csv('/Users/caojin/Desktop/myCSV_02.csv',header=None)

>>> csvframe

0 1 2 3 4

0 1 5 2 3 cat

1 2 7 8 5 dog

2 3 3 6 7 horse

3 2 2 8 3 duck

4 4 4 2 1 mouse

6）或者可以使用read_csv()函数的时候，使用names指定表头，直接把存有各列名称的数组赋给它即可

>>> csvframe=pd.read_csv('/Users/caojin/Desktop/myCSV_02.csv',names=['a','b','v','d','w'])

>>> csvframe

a b v d w

0 1 5 2 3 cat

1 2 7 8 5 dog

2 3 3 6 7 horse

3 2 2 8 3 duck

4 4 4 2 1 mouse

7）读取csv创建一个具有等级结构的DataFrame，可以read_csv()指定index_col选项，把想要转换为索引的列名称赋给index_col

>>> csvframe=pd.read_csv('/Users/caojin/Desktop/myCSV_03.csv',index_col=['colors','status'])

>>> csvframe

item1 item2 item3

colors status

black up 3 4 6

down 2 6 7

white up 5 5 5

down 3 3 2

left 1 2 1

red up 2 2 2

down 1 1 4

3.用RegExp(正则表达式）解析txt文件

1）不是以逗号或者分号分割的需要用read_table()函数，并指sep选项为一个正则表达式

2）以下txt元素都以一个或者多个制表符或者空格相隔

>>> import pandas as pd

>>> txtframe=pd.read_table('/Users/caojin/Desktop/ch05_04.txt',sep='\s*')

>>> txtframe

White red blue green

0 1 5 2 3

1 2 7 8 5

2 3 3 6 7

3）以下txt文件中数字和字母杂糅，需要从中抽取数字部分，无表头需要用header设置成None

>>> txtframe=pd.read_table('/Users/caojin/Desktop/ch05_05.txt',sep='\D*',header=None)

>>> txtframe

0 1 2

0 0 123 122

1 1 124 321

2 2 125 333

4）使用skiprows可以排除多余的行

如果排除前5行

如果只排除第5行

>>> txtframe=pd.read_table('/Users/caojin/Desktop/ch05_06.txt',sep=',',skiprows=[0,1,3,6])

>>> txtframe

White red blue green animal

0 1 5 4 cat NaN

1 2 7 8 5 dog

2 3 3 6 7 horse

3 2 2 8 3 duck

4 4 4 2 1 mouse

4.从txt文件中读取部分数据

只想读取文件一部分，可明确指定要解析的行号这时要用到nrows和skiprows选项，可以指定起始行n（n=skiprows）和从起始行往后读多少行（nrows=i）

>>> csvframe=pd.read_csv('/Users/caojin/Desktop/myCSV_02.csv',skiprows=[2],nrows=3,header=None)

>>> csvframe

0 1 2 3 4

0 1 5 2 3 cat

1 2 7 8 5 dog

2 2 2 8 3 duck

5.切分想要的文本，遍历各个部分逐一对其执行某一特定操作

对于一列数字，每隔两行取一个累加起来，最后把和插入倒Series对象中（暂时略过）

6.往csv文件写入数据

1）携带索引和列名的写入

>>> import numpy as np

>>> import pandas as pd

>>> frame=pd.DataFrame(np.arange(16).reshape(4,4),index=[1,2,3,4],columns=['a','b','c','d'])

>>> frame

a b c d

1 0 1 2 3

2 4 5 6 7

3 8 9 10 11

4 12 13 14 15

>>> frame.to_csv('/Users/caojin/Desktop/ch05_07.csv')

2）取消携带索引和列名

>>> frame.to_csv('/Users/caojin/Desktop/ch05_08.csv',index=False,header=False)

3）数据结构中的NaN写入csv文件后显示为空

4）使用to_csv()函数中的na_rep选项把空字段替换为你需要的值

>>> frame=pd.read_csv('/Users/caojin/Desktop/ch05_09.csv')

>>> frame

Unnamed: 0 a b c d

0 0 NaN 2.0 NaN 1.0

1 1 1.0 NaN NaN 2.0

2 2 NaN 1.0 NaN NaN

3 3 1.0 NaN d NaN

4 4 3.0 3.0 NaN 5.0

>>> frame.to_csv('/Users/caojin/Desktop/ch05_10.csv',na_rep='h')

7.安装html5lib模块

8.写入数据到HTML文件

>>> frame=pd.DataFrame(ny.arange(16).reshape(4,4))

>>> frame

0 1 2 3

0 0 1 2 3

1 4 5 6 7

2 8 9 10 11

3 12 13 14 15

>>> print(frame.to_html())

0

1

2

3

0

1

2

3

1

4

5

6

7

2

8

9

10

11

3

12

13

14

15

9.从HTML文件读取数据

1）先写入DataFrame到一个网页

>>> import html5lib

>>> import numpy as np

>>> import pandas as pd

>>> frame=pd.DataFrame(np.random.random((4,4)),index=['white','black','red','blue'],columns=['up','down','right','left'])

>>> frame

up down right left

white 0.003468 0.319286 0.713373 0.169162

black 0.228553 0.289013 0.263125 0.817748

red 0.032618 0.286309 0.099676 0.765746

blue 0.824121 0.820978 0.858056 0.468772

>>> s=['']

>>> s.append('MY DATAFRAME')

>>> s.append('')

>>> s.append(frame.to_html())

>>> s.append('')

>>> html=''.join(s)

>>> html_file=open('/Users/caojin/Desktop/myFrame.html','w')

>>> html_file.write(html)

835

>>> html_file.close()

·2）从这个网页读取数据

>>> import lxml

>>> import numpy as np

>>> import pandas as pd

>>> web_frames=pd.read_html('file:///Users/caojin/Desktop/myFrame.html')

>>> web_frames

[ Unnamed: 0 up down right left

0 white 0.003468 0.319286 0.713373 0.169162

1 black 0.228553 0.289013 0.263125 0.817748

2 red 0.032618 0.286309 0.099676 0.765746

3 blue 0.824121 0.820978 0.858056 0.468772]

10.从XML读取数据（暂时略过）

11.读写excel文件

1）读出excel文件

>>> pd.read_excel('/Users/caojin/Desktop/data.xls')

white red green black

a 12 23 17 18

b 22 16 19 18

c 14 23 22 21

>>> pd.read_excel('/Users/caojin/Desktop/data.xls','Sheet2')

yellow purple blue orange

A 11 16 44 22

B 20 22 23 44

C 30 31 37 32

>>> pd.read_excel('/Users/caojin/Desktop/data.xls','Sheet1')

white red green black

a 12 23 17 18

b 22 16 19 18

c 14 23 22 21

>>> pd.read_excel('/Users/caojin/Desktop/data.xls',1)

yellow purple blue orange

A 11 16 44 22

B 20 22 23 44

C 30 31 37 32

>>> pd.read_excel('/Users/caojin/Desktop/data.xls',0)

white red green black

a 12 23 17 18

b 22 16 19 18

c 14 23 22 21

2)将dataframe对象写入xlsx文件中

>>> import numpy as np

>>> import pandas as pd

>>> import xlrd as xd

>>> import openpyxl as oxl

>>> frame=pd.DataFrame(np.random.random((4,4)),index=['white','black','red','blue'],columns=['up','down','right','left'])

>>> frame

up down right left

white 0.464526 0.030887 0.893895 0.998091

black 0.116045 0.423554 0.255795 0.407073

red 0.378234 0.124358 0.475569 0.041171

blue 0.764820 0.093615 0.830751 0.356033

>>> frame.to_excel('/Users/caojin/Desktop/data2.xlsx')

12.读写json文件

1)将DataFrame转化位json

>>> frame

up down right left

white 0.464526 0.030887 0.893895 0.998091

black 0.116045 0.423554 0.255795 0.407073

red 0.378234 0.124358 0.475569 0.041171

blue 0.764820 0.093615 0.830751 0.356033

>>> frame.to_json('/Users/caojin/Desktop/frame.json')

2）读取json

>>> pd.read_json('/Users/caojin/Desktop/frame.json')

down left right up

black 0.423554 0.407073 0.255795 0.116045

blue 0.093615 0.356033 0.830751 0.764820

red 0.124358 0.041171 0.475569 0.378234

white 0.030887 0.998091 0.893895 0.464526

3）复杂的json文件

编写复杂的json文件

以上结构不再是列表形式，而是一种更为复杂的形式，因此无法在使用read_json（）来处理，所以首先要对负责的json进行格式化规范化

>>> import numpy as np

>>> import pandas as pd

>>> import json #由于后面要用到json.loads()函数将json文件转化成python结果，所以要引入json包

>>> from pandas.io.json import json_normalize #由于后面要将json的数据进行规范化所以要引入，规范化后就产出一个dataframe格式的对象

>>> file=open('/Users/caojin/Desktop/books.json','r') #以只读的形式打开已经存号的json文件

>>> text=file.read() #读出json内容赋值给text

>>> print(text)

[

{

"writer":"mark ross",

"nationalit":"usa",

"books":

[

{

"title":"xmlcookbiook",

"price":23.56

},

{

"title":"python fundamentals",

"price":50.70

},

{

"title":"the numpy library",

"price":12.30

}

]

},

{

"writer":"barbara bracket",

"nationalit":"uk",

"books":

[

{

"title":"java Enterprise",

"price":28.60

},

{

"title":"html5",

"price":31.35

},

{

"title":"python for dummies",

"price":28.00

}

]

}

]

>>> text2=json.loads(text)#利用loads函数对读出的text内容进行转换成python格式

>>> print(text2)

[{'nationalit': 'usa', 'books': [{'title': 'xmlcookbiook', 'price': 23.56}, {'title': 'python fundamentals', 'price': 50.7}, {'title': 'the numpy library', 'price': 12.3}], 'writer': 'mark ross'}, {'nationalit': 'uk', 'books': [{'title': 'java Enterprise', 'price': 28.6}, {'title': 'html5', 'price': 31.35}, {'title': 'python for dummies', 'price': 28.0}], 'writer': 'barbara bracket'}]

>>> text3=json_normalize(text2,'books')#利用json_normalize函数对text2的内容按照books键进行产出

>>> text3

price title

0 23.56 xmlcookbiook

1 50.70 python fundamentals

2 12.30 the numpy library

3 28.60 java Enterprise

4 31.35 html5

5 28.00 python for dummies

然而可以将其余同books统一级别的其他键的作为第三个数组参数传入

>>> text4=json_normalize(text2,'books',['writer','nationalit'])

>>> text4

price title nationalit writer

0 23.56 xmlcookbiook usa mark ross

1 50.70 python fundamentals usa mark ross

2 12.30 the numpy library usa mark ross

3 28.60 java Enterprise uk barbara bracket

4 31.35 html5 uk barbara bracket

5 28.00 python for dummies uk barbara bracket

13.HDF5格式

如果想要分析大量数据，最好使用二进制格式

python有很多二进制数据处理工具，HDF5库比较优秀，这种文件的数据结构由节点组成，能够存储大量数据集

>>> import numpy as np

>>> import pandas as pd

>>> import tables as tb #后续要使用HDFS函数必须用这个模块

>>> from pandas.io.pytables import HDFStore

>>> frame=pd.DataFrame(np.arange(16).reshape(4,4),index=['white','black','red','blue'],columns=['up','down','right','left'])

>>> frame

up down right left

white 0 1 2 3

black 4 5 6 7

red 8 9 10 11

blue 12 13 14 15

>>> store=HDFStore('/Users/caojin/Desktop/mydata.h5')#创建一个h5格式文件

>>> store['obj1']=frame#将dataframe对象放入倒h5中

>>> store['obj1']

up down right left

white 0 1 2 3

black 4 5 6 7

red 8 9 10 11

blue 12 13 14 15

14.pickle--python对象序列化

15.用cPickle实现Python对象序列化

序列化=将对象的层级结构转换位字节流的过程

16.用pandas实现对象序列化

>>> import pandas as pd

>>> import numpy as np

>>> frame=pd.DataFrame(np.arange(16).reshape(4,4),index=['white','black','red','blue'],columns=['up','down','right','left'])

>>> frame

up down right left

white 0 1 2 3

black 4 5 6 7

red 8 9 10 11

blue 12 13 14 15

>>> frame.to_pickle('/Users/caojin/Desktop/frame.pkl')

>>> pd.read_pickle('/Users/caojin/Desktop/frame.pkl')#反序列化

up down right left

white 0 1 2 3

black 4 5 6 7

red 8 9 10 11

blue 12 13 14 15

17.对接数据库--mysql数据库连接（这个之后找时间专门写一天笔记）

1）python直接链接数据库（这个之后找时间专门写一天的笔记）

2)Python借助pandas链接数据库

import pandas as pd

import MySQLdb

conn=MySQLdb.connect(host="localhot",user="root",passwd="*****",db="test",charset="utf8")

sql = "select * from user limit 3"

df = pd.read_sql(sql,conn,index_col="id")

print df

cur = conn.cursor()

cur.execute("drop table if exists user")

cur.execute('create table user(id int,name varchar(20))' )

pd.io.sql.write_frame(df,"user",conn)

18.SQLite3数据读写（暂时略过）

19.PostgreSQL数据读写（展示略过）

20.NoSQL数据库MongDB数据读写（展示略过）

网友评论

我爱编程

本文标题：Python数据分析笔记-08

本文链接：https://www.haomeiwen.com/subject/emhdtftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python数据分析笔记-08

相关文章

Python 学习笔记第一篇：matplotlib 绘制图形

利用Python进行数据分析 - 第三章 ipython

Python 数据分析学习笔记： numpy 篇