美文网首页
《机器学习 》周志华 学习笔记

《机器学习 》周志华 学习笔记

作者: 想加颜表情的tsi | 来源:发表于2018-07-14 16:36 被阅读0次

前前言

也是用pages记录的,粘贴后排版也很不尽如人意。

沦为记录。

大概都只是梳理一遍所有的概念。

7.14 大概看到了 2.4


前言

(写于“前前言”之前)

旁听了自己学校暑校的深度学习的课,一门用六天时间速成的课,基本边听课边记了笔记(但里面很大一部分是没有推导过程的公式和没有弄懂的公式理论,毕竟速成课),边通读了一下《深度学习》的中文版,因为没有完全理解和清晰的内容实在太多,再加上对于老师的chinglish略头疼,现在只不过是和这个领域的好些概念混了个眼熟,并掌握了一些最最基础的专业知识。

打算等高年级重新读,那时候再写《深度学习》的学习笔记。粗浅地读完《深度学习》,继续拾起以前只读了个开篇的《机器学习》,你可以把它看做是前者的低配版,因为到目前为止,阅读和公式理解基本还没有出现障碍。

会随着阅读进度陆续更新。主要阅读受众是——自己。写作主要目的——监督自己认真读完。


《机器学习》 周志华

第1章 绪论

第2章 模型评估与选择

第3章 线性模型

第4章 决策树

第5章 神经网络

第6章 支持向量机

第7章 贝叶斯分类器

第8章 集成学习

第9章 聚类


第1章

数据集

示例(instance)/样本(sample)

标记(label)

学习任务分类:分类(输出离散值)与回归(输出连续值)

簇(cluster)

学习任务分类:监督学习和无监督学习

泛化(generalization)能力

假设空间

归纳偏好(简写为“偏好”)

奥卡姆剃刀(Occam’s razor)

没有免费的午餐定理(No Free Lunch Theorem) (NFL )  前提:所有问题同等重要

第2章

错误率 精度(1-错误率)

训练误差或经验误差(在训练集上的误差)

泛化误差(在新样本上的误差)

欠拟合   

过拟合 (只能缓解)

Q:包含m个样例的数据集,既要训练,又要测试,如何做到?

    1.留出法(hold-out) :直接将数据集D划分为两个互斥的集合

      2.交叉验证法:划分为k个子集,每次从中取k-1个子集作为训练集,剩下的那个作为测试集,重复p次  “p次k折交叉验证”

      3.自助法:有放回地产生数据集D’:每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将样本放回初始数据集D中,使得这个样本在下次采集是时还是有可能被采集到。重复m次。将D’作为训练集,D\D’作为测试集。

    误差与“包外估计”:见书P27

    适用情景:数据集较小,难以有效划分训练/测试集时很有用

调参

验证集

性能度量 包括: 错误率,精度

均方误差

查准率 查全率

P-R曲线 平衡点:考察学习器的优劣

F1度量:F1=公式……

Q:在n个二分类混淆矩阵上怎么考察查准率和查全率?

      法一:每个上分别计算,再取平均值,得到“宏查准率”,“宏~”、“宏~”

      法二:先将混淆矩阵的对应元素进行平均,再基于平均值得到“微~”、“微~”、“微~”

    (具体公式定义见书P32)

分类阈值 正类 反类  截断点

ROC曲线:横轴是“真 正例率” TPR,纵轴是“假 正例率”FPR 现实中给出有限点时的绘制!

AUC(area under ROC curve):ROC曲线下的面积,用于比较学习器的优劣

排序损失 l rank=1-AUC

非均等代价

代价矩阵

希望最小化“总体代价” 代价敏感错误率

代价曲线 绘制! 得到期望总体代价

相关文章

网友评论

      本文标题:《机器学习 》周志华 学习笔记

      本文链接:https://www.haomeiwen.com/subject/jpcguftx.html