《机器学习Python实践》读书笔记-数据理解

作者: 橘猫吃不胖 | 来源:发表于2020-09-11 09:41 被阅读0次

kaggle博客
《机器学习Python实践》读书笔记-数据理解
机器学习—路线图
史上最全机器学习之算法大全！阿里云百万年薪聘请我，被我拒绝了
Python（金融）数据分析（四）机器统计学习
利用sklearn进行分类2：良/恶性乳腺癌肿瘤预测（二）
利用sklearn进行分类：良/恶性乳腺癌肿瘤预测（一）
利用sklearn进行分类3：初级手写数字识别
《Python机器学习实践指南》高清中文版PDF+高清英文版PD
Python数据挖掘与机器学习_通信信用风险评估实战(2)——数

1. 导入数据

加载数据集的方式有很多种，从数据库中加载，从文件中加载

names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
df = pd.read_csv('data/pima-indians-diabetes.csv' , names=names)

这里涉及函数：read_csv
加载数据集的时候，我们需要知道，数据集的内容，分割符号等，如果是文件的话，可以先打开看一看。

2. 理解数据

查看下数据的具体内容：df.head()
查看数据集的概要描述：df.describe()

查看数据集的大小：df.shape
查看字段的类型：df.dtypes

3. 数据属性的相关性

数据属性的相关性，是指数据的两个属性是否相互影响，以及这种影响是什么方式的等

判断属性的相关性，会用到皮尔逊相关系数，相关系数，介于-1和1之间，1表示完全正相关，-1表示完全负相关。

在机器学习中，当数据的相关性比较高时，有些算法的性能会降低（linear、逻辑回归算法），当相关性较高时，可以考虑对特征进行降维处理

df.corr()

4. 数据的分布

通过分析数据的分布，来确认数据的偏离情况，这里有一个概念叫偏度

偏度（skewness）也称为偏态、偏态系数，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征

正太分布的偏度为0；
偏度<0，则分布具有负偏离，即左偏（尾巴在左面）；
偏度>0，则分布具有正偏离，即右偏（尾巴在右面）

pandas中，使用skew()函数即可

网友评论

本文标题：《机器学习Python实践》读书笔记-数据理解

本文链接：https://www.haomeiwen.com/subject/eeaeektx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

《机器学习Python实践》读书笔记-数据理解

1. 导入数据

2. 理解数据

3. 数据属性的相关性

4. 数据的分布

相关文章

kaggle博客