【python缺失值有3种:None(Python内置,一种数据类型),NA(not available),NaN(是浮点类型,对于数值数据Not a Number)】
1)Python内置的None值
2)在pandas中,将缺失值表示为NA,表示不可用not available。
3)对于数值数据,pandas使用浮点值NaN(Not a Number)表示缺失数据。
【None和NaN有什么区别呢】None是Python的一种数据类型,NaN是浮点类型
慢性肾病数据网址Chronic_Kidney_Disease Data Set
本数据集为印度医院约2个月共计400条记录,24个特征。
We use 24 + class = 25 ( 11 numeric ,14 nominal)
1.Age(numerical)(年龄)数值型
age in years
2.Blood Pressure(numerical)(血压)数值型
bp in mm/Hg
3.Specific Gravity(nominal)(尿比重)字符型
sg - (1.005,1.010,1.015,1.020,1.025)
-4.Albumin(nominal)
al - (0,1,2,3,4,5)
5.Sugar(nominal)(糖)字符型
su - (0,1,2,3,4,5)
6.Red Blood Cells(nominal)(红细胞)字符型且是二分类
rbc - (normal,abnormal)
7.Pus Cell (nominal)(脓细胞)字符型且是二分类
pc - (normal,abnormal)
-8.Pus Cell clumps(nominal)
pcc - (present,notpresent)
9.Bacteria(nominal)(细菌)字符型且是二分类
ba - (present,notpresent)
10.Blood Glucose Random(numerical)(随机血糖)数值型
bgr in mgs/dl
11.Blood Urea(numerical)(血尿素)数值型
bu in mgs/dl
12.Serum Creatinine(numerical)(血清肌酸酐)数值型
sc in mgs/dl
13.Sodium(numerical)(钠)数值型
sod in mEq/L
14.Potassium(numerical)(钾)数值型
pot in mEq/L
15.Hemoglobin(numerical)(血色素)数值型
hemo in gms
16.Packed Cell Volume(numerical)(红细胞容积比)数值型
17.White Blood Cell Count(numerical)(白细胞计数)数值型
wc in cells/cumm
18.Red Blood Cell Count(numerical)(红细胞计数)数值型
rc in millions/cmm
19.Hypertension(nominal)(高血压)字符型且是二分类
htn - (yes,no)
20.Diabetes Mellitus(nominal)(糖尿病)字符型且是二分类
dm - (yes,no)
21.Coronary Artery Disease(nominal)(冠状动脉病)字符型且是二分类
cad - (yes,no)
22.Appetite(nominal)(食欲)字符型且是二分类
appet - (good,poor)
23.Pedal Edema(nominal)(足水肿)字符型且是二分类
pe - (yes,no)
24.Anemia(nominal)(贫血)字符型且是二分类
ane - (yes,no)
25.Class (nominal)因变量
class - (ckd,notckd)
机器学习相关
手写实现李航《统计学习方法》书中全部算法:百度网盘提取码:mm3q
很好的数据集网址
0、下载地址:UCI数据集(加州大学欧文分校University of CaliforniaIrvine提出的用于机器学习的数据库)
1、介绍:UCI数据集整理(附论文常用数据集)
1、介绍:UCI数据集详解及其数据处理(附148个数据集及处理代码)
2、UCI数据集和源代码&数据挖掘的数据集资源
3、机器学习开放数据集网站
数据报告
【190+数据报告】链接:https://pan.baidu.com/s/1ifcKEV4ewc7et7efzEvykg 密码:t7ps
网友评论