美文网首页
数据挖掘中一些基本概念及关系

数据挖掘中一些基本概念及关系

作者: tiger007lw | 来源:发表于2021-06-17 00:31 被阅读0次

一、训练模型使用的训练集中,对于一部分用于检验预测准确的训练样本,针对我们感兴趣的 “类别” 是否做了 “标注” 而形成不同的学习方法,可以分为监督学习、非监督学习和半监督学习 三种学习方式。

二、强化学习基本上是属于一种动态决策过程。先把决策分为多个阶段。在每一个阶段进行决策时候,总是在一定的环境下,有很多种可以选择的行动方式,有不同效果。第一个阶段可以选择一个优化的行动组合得到期望结果,第二个阶段根据第一个阶段结果,再选择一个优化的行动组合。以此类推。

三、机器学习有多种方法,比如 SVM、模糊数学,遗传算法,等等。
1、其中有一个比较特别的是模拟人类神经元行为及构成的 连接主义 仿生形成的所谓神经网络ANN。由多输入得到的一个 非线性 单输出的人工神经元形成的 单层结构 为基准再形成多层网状结构。这种 全连接 的分层结构,一般有输入层、隐藏层和输出层,不超过四层,就是人工神经网络ANN。
2、深度学习是超过四层的ANN通过 稀疏连接(非全连接)构成的一种网络结构。
3、卷积神经网络是深度学习中一种重要结构,由多个单元构成,每一个单元都包括以矩阵形式出现出现的数据层,进行卷积运算的卷积核(一个11、33、5*5等方阵),还有对卷积运算之后得到结果进行 池化 作用。

四、模型评估
用一个整体误差率(准确率、精度)来描述模型性能是不够的。还要有分类度量标准,因此还有提升图/增益图(将模型应用于检验数据集的不同部分回如何改变分类结果)、投资回收率ROI(评估模型财务收益。收益与成本之比,给程序附带上响应的成本可以给决策提供额外的指导)、接收器运行特性图ROC(取伪和弃真不能同时优化,设定一个适当阈值,使得取伪率(FAR)和弃真率(FRR)刚好平衡)等。

图片.png

五、当前的机器学习,基本上还是一个统计学习范畴。也就是说通过一个函数来拟合数据本身的结构。一般是通过找许多个点,每个点有一个真实值和观察值,一般通过二者的差(残差)的多种形式(如残差平方均值形成的均方误差)的最小化作为我们的目标函数。通过目标函数最小化训练出相应的参数模型。
模型有一个经验风险结构风险。函数如果足够复杂,能让已知点误差最小,这就是经验风险,但其预测效果可能不好,这就是结构风险。而我们一般是希望模型的预测(回归、分类)效果好,就是更看重结构风险。训练参数是,经验风险太小会造成模型的过拟合(模型太复杂),太大(模型过于简单)会造成欠拟合,二者都会让结构风险变大。

六、模型选择。需要模型验证和模型核实两个内容。对一个数据通过不同机器学习方法可以得到不同模型。有时通过同样的一个训练方法把样本进行多种训练集(训练参数)和验证集(检验预测效果)得到的同种类型模型,把这些模型的预测结果结合起来进行综合预测,比单个模型进行预测能有更好结果,这个结论是可以得到严格数学证明。

相关文章

网友评论

      本文标题:数据挖掘中一些基本概念及关系

      本文链接:https://www.haomeiwen.com/subject/eyjqyltx.html