我的机器学习pandas篇

作者: 飘涯 | 来源:发表于2018-01-17 19:53 被阅读585次

我的机器学习pandas篇
大师兄的Python机器学习笔记:Pandas库
机器学习集训营---第三周总结
机器学习之Pandas篇（一）
机器学习之Pandas篇（二）
第2章机器学习软件包
2018-11-22 机器学习
Numpy之数据保存与读取
TensorFlow学习笔记0
在命令行处理 CSV 文件

前言：
pandas是在numpy的基础上开发出来的，有两种数据类型Series和DataFrame
Series由一组数据（numpy的ndarray）和一组与之相对应的标签构成
DataFrame表格行的数据结构，包含一组有序的列

Series

何为Series？

Series由一组数据（numpy的ndarray）和一组与之相对应的标签构成

创建Series

from pandas import Series,DataFrame
import pandas as pd
ser01=Series([1,2,3],index=['n','m','j'])
#通过字典的形式创建
ser02 = Series({3:"a",4:'b',5:"c"})

索引切片

ser02[0:2]
ser01["n"]

运算

类似ndarray运算

print(ser01[ser01>=2])#注意输出值用中括号括起来
print(ser01>=2)
ser01+10
np.exp(ser01)
np.fabs(ser01)#绝对值

缺失值处理

ser02=Series(ser01,index=['n ','m','j','q'])
pd.isnull(ser02)
#过滤掉np.nan的值
ser02[pd.notnull(ser02)]

自动对齐

#自动对齐，把相同的index相加
ser03=Series([1,2,3,4],index=['n','h','m','t'])
ser02+ser03

DataFrame

何为DataFrame？

DataFrame表格行的数据结构，包含一组有序的列，有行、列索引，可以看做是Series的字典组成

创建DataFrame

df01 =DataFrame([['susan','long','meimei'],[50,60,60]],index=['姓名','成绩'],columns=['语文','math','english'])
df01
#用字典创建,字典为列索引
dict={
    "apart":[121,111,144,122],
    "year":[2011,2013,2022,2003],
    "month":8,
    "profit":[100,22,99,80]
}
df02=DataFrame(dict,index=['one','two','three','four'])
df02

通过行列数据获取

默认为列获取，如果获取行可用pd.loc()

df02['apart']
#列增加
df02['address']=['北京','shanghai','shuangzhou','shenzhen']
df02
#列删除
df02.pop('apart')
df02['month']=3
#行操作
df02.loc['two']

读取文件

分别读取csv、excel、txt文件
df04=pd.read_csv('data.csv')
df05=pd.read_excel('data.xlsx')#excel
df03 = pd.read_csv("data.txt",sep="\t",header=None)

过滤切片

df05.columns[1:]
df05[df05.columns[1:]]
df1=df02.dropna(axis=1)#

缺失值操作

和series类似

df04.isnull()
#删除缺失值
df04.dropna(axis=1)#axis=1为去一列，默认为去一行，注意和数学统计里面默认计算的列不一样
df04.dropna(how="all")
#替换缺失值
df04.fillna(0)
df04.fillna({0:1,1:2,2:3})

数学统计

常见的方法如count describe min/max idxmin、idxmax quantile sum mean median mad var std cumsum pct_change

df02.describe()
df1=df02.dropna(axis=1)
df02.quantile(0.25)#计算样本分位（0到1）
df02.median()#中位数
df02.pct_change()#计算百分比变化

协方差和相对系数

直观反应两组数据的相关程度分别为cov，corr

df2=DataFrame({
    "gdp":[2,4,6],
    "chukou":[3,2,1]
})
df2.cov()
df2.corr()

唯一值，值计数，成员资格

唯一值unique，值计数value_counts，成员资格isin（等于用没里面的元素来过滤）

df3=Series([12,13,14,15,13,13,12,11,14])
df3.unique()
df3.value_counts()
df3[df3.isin([14,15])]#成员资格

层次索引

索引可以大于一维，unstack(level=1)可把series转化为dataframe，swapleve转换索引
df.set_index([])

后记：
才疏学浅，慢慢学习，慢慢更新，与诸君共勉

你可能感冒的文章：
我的机器学习numpy篇
 我的机器学习matplotlib篇
 我的机器学习微积分篇

我的机器学习pandas篇
前言：pandas是在numpy的基础上开发出来的，有两种数据类型Series和DataFrameSeries由一...
大师兄的Python机器学习笔记:Pandas库
大师兄的Python机器学习笔记:实现评估模型一、关于Pandas 1. Pandas和Numpy Pandas...
机器学习集训营---第三周总结
第三周学习总结，主要内容： pandas数据统计与分析的学习结合selenium编写爬虫学习pandas在机器...
机器学习之Pandas篇（一）
前言聊了好多期机器学习，基本上覆盖到了方方面面，也把我自己的经验介绍给了大家。有两块内容需要深入的和大家探讨，第...
机器学习之Pandas篇（二）
前言上一篇（戳我查看）Pandas的语句介绍到DataFrame的滑片，这篇就继续介绍Pandas中的一些基本语...
第2章机器学习软件包
机器学习开发环境搭建 Python Jupter Notebook Numpy Pandas Matplotlib...
2018-11-22 机器学习
机器学习试学班第一天 1 Pandas加载数据： pandas打开dataFram对象的数据集 import ...
Numpy之数据保存与读取
在pandas使用的25个技巧中介绍了几个常用的Pandas的使用技巧，不少技巧在机器学习和深度学习方面很有用...
TensorFlow学习笔记0
Python 基本掌握，但不精通~numpy、pandas、matplotlib 懂点皮毛~机器学习、深度学习的书...
在命令行处理 CSV 文件
由于这些年 Python 和机器学习的流行，一说到 CSV 文件，马上想到的工具是 pandas。pandas 很...

我的机器学习pandas篇

Series

何为Series？

创建Series

索引切片

运算

缺失值处理

自动对齐

DataFrame

何为DataFrame？

创建DataFrame

通过行列数据获取

读取文件

过滤切片

缺失值操作

数学统计

协方差和相对系数

唯一值，值计数，成员资格

层次索引

相关文章

我的机器学习pandas篇

大师兄的Python机器学习笔记:Pandas库

机器学习集训营---第三周总结

机器学习之Pandas篇（一）

机器学习之Pandas篇（二）

第2章机器学习软件包

2018-11-22 机器学习

Numpy之数据保存与读取

TensorFlow学习笔记0

在命令行处理 CSV 文件

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

人工智能/模式识别/机器学习精华专题

机器学习与数据挖掘

机器学习和人工智能入门

Python语言与信息数据获取和机器学习

我爱编程