美文网首页
数据挖掘第六讲

数据挖掘第六讲

作者: 阿莫米德 | 来源:发表于2018-06-25 00:13 被阅读0次

数据挖掘第六讲

<script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

1什么是马尔可夫模型,什么是转移概率,什么是C-K方程?

1.马尔可夫模型

  • 过程(或系统)“将来”的情况与“过去”的情况无关,则成过程(或系统)具有马尔可夫性
  • 具有马尔可夫性的随机过程称为马尔可夫过程
  • 时间和状态都是离散的马尔可夫过程称为马尔可夫链
  1. 转移概率
    条件概率
    $$ P_{ij}(m, m +n) = P(X_{m + n} = a_j | X_m =a_i)$$
    为马氏链在时刻 m 处于状态$a_i$条件下,在时刻m+n转移到状态$a_j$的转移概率
  2. 转移矩阵
    由转移概率组成的矩阵称为马氏链的转移概率矩阵.
    (吸收壁,反射壁的概念)
  3. C-K方程

什么是HMM,HMM的三大问题是什么?

  • 隐马尔可夫模型HMM是由两个随机过程组成,其中一个是不可观测的有限状态马氏链(使用作弊骰子),而且它的转移概率可能也是不知道的,这个马氏链称为状态链,另一个随机过程是可观测到的,称为观测链,某时刻观测链的观测结果受该时刻状态链的状态影响。
  1. 评估问题:给定观察序列O和HMM λ=(π, A, B),判断O是由λ产生的可能性有多大?
  • 求解:前向和后向算法
  1. 解码问题:给定观察序列O和HMM λ=(π, A, B),判断序列O对应的最优状态序列是什么?
  • 求解:维特比(viterbi)算法
  1. 学习问题:给定观察序列O,确定产生O的最可能HMM λ=(π, A, B)
  • 求解:鲍姆威尔士(Baum-Welch)算法

什么叫抽样?抽样方法都有哪些,如何抽样?

指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识

  • 样本特征体现总体特征
  • 样本特征与总体特征的偏差在可接受范围内
  1. 随机抽样
    1. 简单随机抽样
      • 对总体单位不做任何分类排队,完全按照随机原则直接从总体中随机抽取一部分单位组成样本的抽样组织方式
        • 先将总体各单位进行编码,然后按照随机原则,用抽签法或随机数法抽取若干数码,所有中选的数码对应的单位即构成样本
    2. 分层抽样
      • 将总体按某个主要标志进行分组,再按随机原则采用简单随机抽样方式从各组中抽取一定数目的总体单位组成样本的抽样组织方式。
      • 按随机原则根据各层中单位数量占总体单位数量的比例抽取各层的样本数量。
    3. 分层最佳抽样
      • 指不仅按各层单位数占总体单位数的比例分配各层的样本数,还根据各层标准差的大小来调整各层样本数目的抽样方法。
    4. 系统抽样
      • 将总体单位按某一标志排序,而后按一定间隔抽取样本单位的抽样组织方式。
    5. 整群抽样
      • 将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位进行全面调查的抽样组织方式
  2. 非随机抽样
    1. 任意抽样
      • 调查人员本着随意性原则去选择样本的抽样方式
        • 简单、经济
        • 默认个体是相同的
        • 误差较大
    2. 判断抽样
      • 根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法
      • 抽样依照调查者个人偏好来选择样本
      • 人的因素至关重要
      • 好的很好,差的很差,两极分化
    3. 配额抽样
      • 指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式
      • 按照一定的标准和比例分配样本的数额,然后根据配额抽取样本
      • 做法与分层抽样完全相同,区别只在于抽的时候是随机抽还是非随机的抽
    4. 滚雪球抽样
      • 先选择一组调查对象,通常是随机地选取的。访问这些被调查者之后,再请他们提供另外一些属于所研究的目标总体的调查对象,根据所提供的线索,选择此后的调查对象。这一过程会继续下去,形成滚雪球的效果

相关文章

  • 数据挖掘第六讲

    数据挖掘第六讲 1什么是马尔可夫模型,什么是转移概率,什么是C-K方程? 1.马尔可夫模型 过程(或系统)“将来”...

  • 为什么说企业需要做文本挖掘呢?

    首先何为文本挖掘:文本挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘...

  • 读书计划- 数据分析实战45讲 | 02丨学习数据挖掘的最佳路径

    一,数据挖掘的基本流程 在正式讲数据挖掘知识清单之前,我先和你聊聊数据挖掘的基本流程。 数据挖掘的过程可以分成以下...

  • 数据挖掘第四讲

    数据挖掘第四讲 数据预处理的作用? 在主要的处理以前对数据进行的一些处理 现实世界的数据通常无法直接进行数据挖掘,...

  • 数据挖掘第三讲

    数据挖掘第三讲 什么是ETL,ETL包括哪些主要步骤? 数据的抽取(Extract)、转换(Transform)、...

  • 数据分析实战45讲

    数据分析实战45讲 第一模块:数据分析基础篇 (16讲) 01丨数据分析全景图及修炼指南 02丨学习数据挖掘的最佳...

  • 时空数据挖掘

    数据挖掘已经成为当代显学,只要是个公司可能都需要数据挖掘,由此也衍生除了金融数据挖掘、生物数据挖掘、时空数据挖掘、...

  • 学习笔记--(移动数据挖掘引言)

    移动数据挖掘的定义 移动数据挖掘研究的是基于移动数据的数据挖掘算法。这些数据算法需要更多地利用移动数据特性,挖掘与...

  • 大数据、数据分析和数据挖掘的区别

    大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘...

  • Python学习笔记-3群18组-杜杜狼-2017.8.1

    What a heck! 终于开始学习数据挖掘实战课程了!!! Lesson 2 数据挖掘概况 数据挖掘(data...

网友评论

      本文标题:数据挖掘第六讲

      本文链接:https://www.haomeiwen.com/subject/bhfhyftx.html