美文网首页
随机森林、EM、HMM、LDA

随机森林、EM、HMM、LDA

作者: xxyytt | 来源:发表于2018-03-21 11:22 被阅读0次

随机森林(Random Forest)是一种分类和回归算法,它包含了多个决策树,形成一个森林,随机森林的类别是所有决策树分类回归结果的众数决定。

由于它优点很多,适应比较广泛.

1、能够处理高维数据,不用做特征选择,自动选出那些特征重要。

2、训练速度快,分类精度高。

3、能检测到特征之间的相互影响。

4、不会产生过拟合。



EM 期望最大化(Expectation-Maximization),也叫最大似然估计。它是一种参数估计方法。

基本思想是:参数的取值应该是使随机样本出现的概率最大。因此如果我们知道样样本的概率分布,就可以通过求使概率分布最大的参数值为最终取值。

参考文章1,已知100个男生的身高分布概率,当不知道他们的均值和方差,通过最大似然估计认为,均值和方差应该是使这个概率分布最大。

最大似然估计函数如下:

如果是连乘形式,可以求对数简化为相加形式:

求解可以是求导数为0,即牛顿法或者梯度下降法(计算机中使用)。


HMM,隐马尔科夫模型。HMM在自然语言处理领域应用比较广泛,如汉语分词,词性标注,语音识别。

典型的隐马尔科夫模型,其下一个状态只与当前相关,与其他因素不相关。这样虽然不太正确,可能舍去了很多重要信息,但能简化模型和计算量,得出结果,因此实际中也经常用。

参考一个经典的HMM例子,见下图。

HMM能解决三个基本问题:

1、根据观测序列和模型参数,求模型参数已知条件下的观测序列后验概率。

2、求观测序列已知情况下的状态序列最合理取值。

3、如何调整模型参数,使观测序列后验概率取值最大。




LDA(latent dirichlet allocation)叫主题模型,应用在图像分类、文本分类、主题词抽取。

是一个三层贝叶斯概率模型,包含词、主题、文档。

可以解决矩阵稀疏的问题。

是最简单的话题模型(topic model),话题模型就是发现大量文档集合的主题的算法。

可以判断两个文档的相似性和距离。是基于主题模型的语义挖掘技术,能区别两篇文章在语义上的区别,而非词频的区别。

主题模型常用算法有两种:pLSA和LDA。更多内容参考文章6.


1、http://www.cnblogs.com/openeim/p/3921835.html

2、http://www.cnblogs.com/skyme/p/4651331.html(HMM介绍)

3、http://blog.csdn.net/app_12062011/article/details/50408664#t6(HMM在自然语言处理中的应用详细介绍)

4、http://www.52nlp.cn/hmm-learn-best-practices-and-cui-johnny-blog

5、http://blog.csdn.net/daringpig/article/details/8072794

6、http://blog.csdn.net/huagong_adu/article/details/7937616(LDA与TF-IDF的区别)

相关文章

  • 随机森林、EM、HMM、LDA

    随机森林(Random Forest)是一种分类和回归算法,它包含了多个决策树,形成一个森林,随机森林的类别是所有...

  • 机器学习算法之主题模型(LFM LSI PLSI LD

    LFM(MF分解技术)、LSI(SVD分解)、PLSI(EM)、LDA 隐语义模型LFM和LSI,PLSI,LDA...

  • (EM算法)The EM Algorithm

    (EM算法)The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM...

  • 生成模型和判别模型的区别

    生成模型 举例:HMM Bayes LDA 计算思路: 通过学习全部样本的先验和条件概率分布,求出后验概率。 特征...

  • 基于深度学习的人脸识别

    1. 传统人脸识别方法 基于模板匹配 基于几何特征 基于代数特征 (PCA,LDA,HMM算法) 基于人工神经网络...

  • 隐马尔科夫和维特比算法

    HMM概念介绍 HMM是关于时序的概率模型,描述一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生...

  • LDA和EM的关系

    本文不想写特别复杂的数学原理,只是写一下自己的感性认识,不一定对。首先是LDA生成文章的方法如下: 确定主题和词汇...

  • 何为决策树和随机森林?

    随机森林 定义:随机森林或随机决策森林是用于分类、回归和其他任务的集成学习方法。 名字由来:随机森林就是使用随机的...

  • 机器学习算法汇总

    线性回归 逻辑回归 朴素贝叶斯 感知机 KNN SVM 最大熵模型 SVD PCA LDA EM算法 高斯混合模型...

  • LDA主题模型和推荐系统3

    LDA 主题模型涉及到贝叶斯理论、Dirichlet 分布、多项分布、图模型、变分推断、EM 算法、Gibbs 抽...

网友评论

      本文标题:随机森林、EM、HMM、LDA

      本文链接:https://www.haomeiwen.com/subject/ghiwqftx.html