美文网首页机器学习和人工智能入门
西瓜书读书笔记 ch3线性模型 ch4决策树

西瓜书读书笔记 ch3线性模型 ch4决策树

作者: 数据会说话 | 来源:发表于2017-10-26 11:43 被阅读48次

    项目实践中对机器学习有一些零碎的接触,通过西瓜书的学习 构建和梳理知识体系,不错的一个办法。

    西瓜书写的比较深入浅出,建议机器学习者入门了解。

    下面是部分章节的笔记:


    ch2 模型选择和评价


    阅读建议:对模型性能评价的各项指标有了了解,但是灵活运用还是比较难,建议掌握基本概念,各种算法和模型学好 有一定实操基础后再回来看。

    ch3 线性模型


    * 线性模型的定义和表示

    f(x)=(w1,w2,...,wd)*(x1,x2,..,xd) + b

    * 线性回归及参数求解

    f(x) y 之间均方差最小情况求得参数 w & b

    欧几里得距离最小,也叫最小二乘法进行参数估计

    建模:  模型+算法+采样训练

    线性回归模型 + 最小二乘法 + 采样

    * 对数几率回归  逻辑回归

    线性回归进行Y的预测, 逻辑回归进行Y的分类(通过对数函数保证 预测值落在固定的区间)

    此处有N多公式看的比较晕,高阶可导连续凸函数。。。blabla

    参数计算: 梯度下降法

    建模: 逻辑回归模型 + 梯度下降算法 + 采样

    * 线性判别分析 线性判别分类

    linear discrimination analysis  LDA

    参数计算: 类内散度矩阵  广义瑞利商  全局散度矩阵等

    模型: 线性判别分类LDA + 算法 + 采样逻辑

    * 多分类学习

    两个策略: 部分 二分类方法可以直接推广到多分类;  多个二分类学习器解决多分类问题

    多个分类器的集成策略: 一对一、一对其余、多对多

    最优效果/最优参数计算方法:  编码矩阵ECOC

    * 样本不均衡问题

    不均衡样本问题: 欺诈和异常检测等情况,正反例的不均衡

    三个解决办法:

    1. 欠采样: 反例欠采样,使得正反例样本均衡; 代表算法 EasyEnsemble学习器 反例采样+正例,多次学习,尽量不丢失样本数据

    2. 过采样: 衍生增加一些正例; 算法 SMOTE进行正例插值产生衍生正例

    3. 阈值移动:通常的0.5阈值变为真实无偏差采样阈值(往往经验值)

    * 衍生:多元稀疏问题、多标记学习

    本章阅读建议: 有基础的不论,我看了两遍基本概念get了,公式和算法之类的基本了解了。

    ch4 决策树


    * 决策树的定义和表示

    树 天然解决分类问题的好办法,最符合人的思维(麦肯锡思维中 问题树、是否树、决策树)

    决策树是一个递归进行树构建的过程,目的实现对样例的归纳,实现在测试样例上的泛化能力。

    * 数的划分算法

    三种划分方法:

    1. ID3

    2. C4.5

    3. CART

    划分的依据:信息增益,各种公式 blabla

    * 过拟合与剪枝

    决策树的归纳过程,贪心算法,容易造成过拟合,需要进行剪枝,剪枝分位预剪枝、后剪枝

    方法:用验证集,对树按照分类性能(信息增益)进行控制(控制树的成长)

    * 数据处理

    1. 连续变量的处理,通常使用二分法(又是信息增益)进行连续属性的离散化处理

    2. 缺失值处理,不同的算法处理办法不同,也是产生算法差异的地方

    *  多变量决策树

    看的比较晕,第二遍再了解

    建模: 决策树模型 + 算法(id3 c4.5 cart) + 样本处理技术(combined with 算法)

    * 应用

    决策树是分类模型

    1. 决策树的 isolation forest 进行离群点探测

    2. 决策树的组合学习方法: 树变森林

    本章没有涉及,应该在后续章节中深入

    ch5 神经网络


    先暂停下,把线性模型、决策树  捋一捋

    相关文章

      网友评论

        本文标题:西瓜书读书笔记 ch3线性模型 ch4决策树

        本文链接:https://www.haomeiwen.com/subject/smnhpxtx.html