R数据分析：如何用层次聚类分析做“症状群”，实例操练

R数据分析：如何用层次聚类分析做“症状群”，实例操练

作者: Codewar | 来源:发表于2021-10-13 19:51 被阅读0次

R数据分析：如何用层次聚类分析做“症状群”，实例操练
数量生态学：R语言的应用第四章聚类分析3—非层次聚类
K-means聚类分析案例（一）
K-means聚类分析案例（二）
层次聚类分析案例（三）
利用聚类算法研究大数据微信公众号实例
聚类分析5—物种集合-数量生态学：R语言的应用第四章
非约束排序1—概述（数量生态学：R语言的应用第五章）
聚类分析4—环境数据来解释 (数量生态学：R语言的应用-第四章)
R语言做聚类分析

好多同学硕士论文开题咨询我想做症状群，有用因子分析的，也有用潜类别分析的，这些方法之前都给大家写过，今天再给大家写一个用无监督的机器学习方法-------层次聚类做症状群的方法。同学们如果对这个方法有兴趣的话，开题什么的都可以往这方面考虑，希望看了本文之后能够对层次聚类有一定了解，能思考下自己能不能往这个方向上展开。

做出来的结果呈现就是下图：这个是一篇已经发表的文章中截图出来的，作者是将一个疾病的症状聚类了3类，探讨了每一类的特征，并提出了治疗照护的建议。

文章感兴趣的同学自己去瞅瞅哈：Sethares, Kristen & Chin, Elizabeth. (2021). Age and gender differences in physical heart failure symptom clusters. Heart & Lung. 50. 832-837.

10.1016/j.hrtlng.2021.07.001.

今天就带大家看看像这种层次聚类的症状群如何做。

层次聚类的原理

Hierarchical clustering，层次聚类出来的结果就像一个树一样，一层一层地生长，这个树也是完全的数据驱动的，对于陌生领域的探索性研究，像症状群之类的就特别合适。

对于这个一个树，英文叫dendrogram，它怎么形成的呢，很自然地，我们可以让其通过从顶部往下散开这样的方式形成（方式1，英文叫Divisive），也可以让其从根部往上聚合这样的方式形成（方式2，英文叫Agglomerative）。

Divisive : A divisive method begins with all patterns in a single cluster and performs splitting until a stopping criterion is met.

Agglomerative : An agglomerative approach begins with each observation in a distinct (singleton) cluster, and successively merges clusters together until a stopping criterion is satisfied.

这儿我只给大家写方式2，因为这个比较常用，上面截图的文章也是用的方式2的聚类方法实现的。

方式2的基本思路就是：

先计算每一个类之间的距离

将最近距离的类合并

重复1，2直到所有类合并为1个类

上面的步骤走完，一个树就长出来了，直观的图示就是如下：

上图就是假设我们只有两个变量，9个个案（类），从左上角到右下角走完流程9个个案就成了一个类了。

步骤中有提到距离，这里面就涉及到一个距离的计算问题，计算的方法有很多种，本文也不展开，感兴趣的同学可以单独咨询我，常见的距离算法如下：

Centroid linkage

 Single linkage

 Complete linkage

 Average linkage

 Ward’s method

像截图的文章使用的方法就是Ward’s method。

层次聚类的做法

做从下到上层次聚类用到的函数是hclust()，hclust需要接受的参数是一个距离矩阵，大家直接在R中输入如下代码就可以体验出图的快乐了：

hc = hclust(dist(mtcars))

plot(hc)

在上面的代码中dist函数就是用来计算个案距离的函数的，在这一步的时候一定要将所有数值型变量标准化，不然聚类肯定是不对的，具体地大家可以在dist函数的参数中设定距离的计算方法，比如截图论文中就使用的Ward’s method，我们就可以设定为"ward.D"或者"ward.D2"。

但是我们发现此时聚类的对象依然是个案，其实我们想聚类是症状，也就是我们数据库中的变量，还是用实际例子给大家说明吧。

比如我手上现在有如下形式的数据库，也就是大家会收集到的每个症状：

我想看看病人中这些个症状有哪些”症状群“，首先我们需要将数据框转置，然后再进行聚类，我就可以写出代码如下：

data2<- t(data2)mycluster=hclust(dist(data2))plot(mycluster)

运行代码后就可以出图啦：

其实到这儿大家就可以直观地看出来，应该是有2个症状群的，症状群1包括症状3和4，症状群2包括其余所有的症状，我们依然是将我们的图像论文中那样标注出来：

就是说症状3和4为一个群，而其余的症状为一个群。

你还可以通过给不同症状群打上不同颜色的方式，进一步突出不同症状群，代码如下：

hc_dend_obj<- as.dendrogram(mycluster) hc_col_dend<- color_branches(hc_dend_obj, h = 6)plot(hc_col_dend,hang=-1)

还有一个很重要的问题，就是生成个案的症状群标签，只有有了症状群标签，我们才能像论文中那样去比较不同症状群个案的一般人口学特征，症状群标签可以通过如下代码得到：

hc=hclust(dist(scale(data2)))cut_avg<- cutree(hc, k = 2)data_cl<- mutate(data1, cluster = cut_avg)

运行上面的代码后我们再查看原来是数据库，就可以看到新生成的最后一列就是每一个个案是症状群类别。然后我们就可以比较不同症状群的个案在各种变量上的差异了，像这样一篇论文也就完成了。

最后要提醒大家的是，论文作者是用SPSS软件做的，大家也可以用SPSS尝试下哦，就在哪个分析-分类-系统聚类选项里面，我试了试也是完全可以做出来的。

小结

今天给大家写了如何用层次聚类进行症状群的探讨，感谢大家耐心看完，自己的文章都写的很细，代码都在原文中，希望大家都可以自己做一做，请转发本文到朋友圈后私信回复“数据链接”获取所有数据和本人收集的学习资料。如果对您有用请先收藏，再点赞分享。

也欢迎大家的意见和建议，大家想了解什么统计方法都可以在文章下留言，说不定我看见了就会给你写教程哦，另欢迎私信。

相关文章

R数据分析：如何用层次聚类分析做“症状群”，实例操练
好多同学硕士论文开题咨询我想做症状群，有用因子分析的，也有用潜类别分析的，这些方法之前都给大家写过，今天再给大家写...
数量生态学：R语言的应用第四章聚类分析3—非层次聚类
数量生态学：R语言的应用第四章聚类分析3—非层次聚类在聚类分析中层次聚类被经常使用，层次聚类通过某种相似性测...
K-means聚类分析案例（一）
之前的笔记：聚类介绍：点这里层次聚类分析案例（一）：世界银行样本数据集层次聚类分析案例（二）：亚马逊雨林烧毁情况层...
K-means聚类分析案例（二）
之前的笔记：聚类介绍：点这里层次聚类分析案例（一）：世界银行样本数据集层次聚类分析案例（二）：亚马逊雨林烧毁情况层...
层次聚类分析案例（三）
之前的笔记：聚类介绍：点这里层次聚类分析案例（一）层次聚类分析案例（二）案例三：基因聚类获取全基因组表达数据的...
利用聚类算法研究大数据微信公众号实例
聚类分析可以用在APP及网站数据分析、用户画像分析上。 1.什么是聚类分析聚类分析就是把看得见的实体对象（如桌子...
聚类分析5—物种集合-数量生态学：R语言的应用第四章
数量生态学：R语言的应用第四章聚类分析5—物种集合在这之前我们学习了聚类分析的基本概念、几种计算层次聚类的方...
非约束排序1—概述（数量生态学：R语言的应用第五章）
非约束排序1—概述（数量生态学：R语言的应用第五章）在这之前我们已经学习了聚类分析，聚类分析的目的在于寻找数据...
聚类分析4—环境数据来解释 (数量生态学：R语言的应用-第四章)
聚类分析4—环境数据来解释 (数量生态学：R语言的应用-第四章) 在这之前我们学习了聚类分析的基本概念、几种计算层...
R语言做聚类分析
data<-read.table("pcadata.txt",header=T,row.names=1)dist....

网友评论

数据分析

本文标题：R数据分析：如何用层次聚类分析做“症状群”，实例操练

本文链接：https://www.haomeiwen.com/subject/yaeeoltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

数据分析

关于我们|服务条款|联系我们|R数据分析：如何用层次聚类分析做“症状群”，实例操练|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！