1、决策边界
在分类问题中,决策边界(Decision boundaries) 的几何含义表示为一个超曲面 (线性分类的边界为超平面),该 曲面 将特征空间中的样本按样本类别分布将它们划分分开。
1.2 简单逻辑回归的决策边界
逻辑回归算法改进于线性回归算法;在线性回归中,计算的模型参数 描述了样本特征对样本输出标记的贡献程度; 在逻辑回归中,样本特征通过通过模型参数转换为样本标记值并通过 Sigmoid 函数转换为样本分类概率值,具有如下关系:
这里, 分类为 0 或 1 取决于 大于或小于 0,从而 逻辑回归的决策边界 为描述方程 所在超平面 。
如 样本集仅包两个特征 ,那么就有该数据集的决策边界描述方程表示为 ,该决策边界在样本的特征空间(二维平面)表现为一条直线:
落在决策边界上侧区域的样本分类为 1,决策边界下侧区域的样本分类为 0,落在决策边界上的样本预测概率值为 ,分类既可以是 0 也可以是 1。
1.2 不规则决策边界的绘制方法
通用方法: 在特征空间创建均匀分布的点集,使用模型对所有点集进行分类预测并作色,即可显示特征空间上的 决策曲面(超平面),对无论是否可以获取 决策面描述方程 的算法模型都适用。
kNN算法模型的决策边界(典型无法获取 决策面描述方程 的模型)
kNN算法 的预测结果仅取决于其k个邻居的投票,如果这个k个邻居本身就是存在错误测量,就会影响算法的预测结果准确度。所以对于超参数 就有 越小,模型的泛化能力越弱,表现为方差大,模型复杂度高,对训练集处于 过拟合状态。 这种模型的 高复杂度 在决策边界上表现为弯曲杂乱(上图 k_neighbors = 5 所示); 当增加邻居数目到 k_neighbors = 50 ,kNN算法模型的整体复杂度降低,此时的 决策边界在空间块上划分具有规整明显的特点。
网友评论