美文网首页
经典分类模型

经典分类模型

作者: 霍尔元件 | 来源:发表于2019-08-01 16:39 被阅读0次

逻辑回归怎么实现多分类

  • 一个样本只有一个标签

    image

    之后处理一个参数冗余的问题就完事 利用概率和为1

  • 一个样本有多标签

    训练k个二分类器,第i个分类器表示某个样本是否属于第i类,测试的时候,对于每一个类别都给出属于还是不属于该类别。训练的时候需要重新处理标签,对于第i个分类器,将标签重新整理为属于第i类,和不属于第i类。

SVM中什么时候用线性核什么时候用高斯核?

线性核、多项式核、高斯核。

特征维数高选择线性核

样本数量可观、特征少选择高斯核(非线性核)

样本数量非常多选择线性核(避免造成庞大的计算量)

训练集中类别不均衡,哪个参数最不准确?

准确率。

● 为什么高斯核能够拟合无穷维度

因为将泰勒展开式代入高斯核,将会得到一个无穷维度的映射。

● LR和SVM 区别

1)LR是参数模型,SVM是非参数模型。2)从目标函数来看,区别在于逻辑回归采用的是logistical loss,SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。3)SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。4)逻辑回归相对来说模型更简单,好理解,特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。5)logic 能做的 svm能做,但可能在准确率上有问题,svm能做的logic有的做不了。

如果给你一些数据集,你会如何分类(我是分情况答的,从数据的大小,特征,是否有缺失,分情况分别答的);

假如特征维数较多,可以选择SVM模型,如果样本数量较大可以选择LR模型,但是LR模型需要进行数据预处理;假如缺失值较多可以选择决策树。选定完模型后,相应的目标函数就确定了。还可以在考虑正负样例比比,通过上下集采样平衡正负样例比。

如果数据有问题,怎么处理;

ID3决策树优先选择信息增益大的属性来对样本进行划分,但是这样的分裂节点方法有一个很大的缺点,当一个属性可取值数目较多时,可能在这个属性对应值下的样本只有一个或者很少个,此时它的信息增益将很高,ID3会认为这个属性很适合划分,但实际情况下叫多属性的取值会使模型的泛化能力较差,所以C4.5不采用信息增益作为划分依据,而是采用信息增益率作为划分依据。但是仍不能完全解决以上问题,而是有所改善,这个时候引入了CART树,它使用gini系数作为节点的分裂依据。

● ID3,C4.5和CART三种决策树的区别

ID3 C4.5 CART
特征选择 信息增益 信息增益比 基尼指数
连续离散 离散 都可以 都可以
任务 分类 分类 分类+回归
缺失值 敏感
二叉树 多叉树 多叉树 二叉树
特征复用 不可以 不可以 可以

C4.5对于缺失值的处理

  • 特征选择前
    • 将没有特征值的数据视为特征取值为None的一类,跟其他有特征取值的样本一同计算信息增益比
  • 特征选择后
    • 将确实特征的样本划分到每一个分支,这时候需要将一个样本劈开,按照各个分支的样本数分配权重。比如缺失特征A的样本a之前权重为1,特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1,A2,A3。对应权重调节为2/9,3/9, 4/9。

C4.5处理连续特征

基本思想就是连续特征离散化。现将特征排序,m个样本的连续特征A有m个,从小到大排列为a1,a2,...,am,则C4.5取相邻两样本值的平均数,一共取得m-1个划分点,其中第i个划分点T_i表示为T_i =\frac{a_i+a_{i+1}}{2}

要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。

相关文章

  • 经典分类模型

    逻辑回归怎么实现多分类 一个样本只有一个标签image之后处理一个参数冗余的问题就完事 利用概率和为1 一个样本有...

  • 算法模型

    LR ▐ 算法原理 逻辑回归LR(Logistic Regression)模型作为经典的机器学习分类模型,以其可...

  • 百度Paddle Fluid v1.3版本官方重磅更新

    业界首个视频分类模型库 新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高...

  • 百度Paddle Fluid v1.3版本官方重磅更新

    业界首个视频分类模型库 新增视频模型库,提供5个视频分类经典模型以及适合视频分类任务的通用骨架代码,用户可一键式高...

  • CV领域初窥--图像分类(一)

    1 图像分类(Image Classification) 参考资料来源:(1) 大话CNN经典模型:GoogLeN...

  • Bert在文本分类任务重如何进行 fine-tuning

    1. 前言 文本分类是个经典的NLP任务。随着预训练语言模型的大受欢迎,诸如Bert等预训练语言模型在文本分类任务...

  • 最大熵模型

    序 本次记录的主要内容有:1、熵的概念2、最大熵模型推导 模型属性 ME是经典的分类模型ME是对数线性模型 最大熵...

  • 统计机器学习-逻辑斯谛回归与最大熵模型

    逻辑斯谛回归(逻辑回归)模型,是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,推广到分类问题得到最大熵...

  • 机器学习项目 - 二元分类器之MINST

    本文通过经典数据集MINST(手写0~9图片集),介绍二元分类的主要流程、预测指标,以及不同模型分类效果对比。 数...

  • 经典课程设计模型分类

    课程设计,是每个培训经理人的心头结与难题。很多培训经理人或老师想要为学员安排课程,却又不知何从下手,如何才能让培训...

网友评论

      本文标题:经典分类模型

      本文链接:https://www.haomeiwen.com/subject/wsrcdctx.html