HealthIT.CN.AI培训(1)糖尿病分类

作者: 孔祥勇 | 来源:发表于2019-07-03 17:12 被阅读0次

HealthIT.CN.AI培训(1)糖尿病分类
HealthIT.CN.AI培训(2)乳腺癌分类
逻辑回归算法
糖尿病药物的分类
传统与线上教育培训机构
培训分类
#30天专注橙长计划#第十五天#小微企业人力行政体系文件#
糖尿病的分类
2月1号笔记栏目划分及seo其他因素优化
记录

1. 数据集介绍：

名称：Pima Indians Diabetes Data Set

来源：国家糖尿病/消化/肾脏疾病研究所

特点：多变量

实例数量：768

适用于：分类问题

变量：8个医学预测变量和一个目标变量

目标：基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病

该数据集最初来自国家糖尿病/消化/肾脏疾病研究所。数据集的目标是基于数据集中包含的某些诊断测量来诊断性的预测患者是否患有糖尿病。

从较大的数据库中选择这些实例有几个约束条件。尤其是，这里的所有患者都是Pima印第安至少21岁的女性。

数据集由多个医学预测变量和一个目标变量组成Outcome。预测变量包括患者的怀孕次数、BMI、胰岛素水平、年龄等。

【1】Pregnancies：怀孕次数

【2】Glucose：葡萄糖

【3】BloodPressure：血压 (mm Hg)

【4】SkinThickness：皮层厚度 (mm)

【5】Insulin：胰岛素 2小时血清胰岛素（mu U / ml

【6】BMI：体重指数（体重/身高）^2

【7】DiabetesPedigreeFunction：糖尿病谱系功能

【8】Age：年龄（岁）

【9】Outcome：类标变量（0或1）

数据预览：

KNN算法：

KNN（k-nearestneighbors）是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN算法主要考虑三个重要的要素，对于固定的训练集，只要这三点确定了，算法的预测方式也就决定了。这三个要素是：k值的选取，距离度量的方式和分类决策规则。