聚类
1:K均值(K-Means)算法
2:自编码器(Auto-Encoder)
3:主成分分析(Principal Component Analysis)
K均值算法有这么几步:
1:随机的选取K个中心点,代表K个类别;
2:计算N个样本点和K个中心点之间的欧氏距离;
3:将每个样本点划分到最近的(欧氏距离最小的)中心点类别中——迭代1;
4:计算每个类别中样本点的均值,得到K个均值,将K个均值作为新的中心点——迭代2;
重复234;
5:得到收敛后的K个中心点(中心点不再变化)——迭代4。
自编码器:
自编码器其实相当于一个神经网络,但这里不用神经网络的结构来解读
它的基本思想就是对输入(input)编码(encode)后得到一个隐含的表征再解码(decode)并输出(output)
自编码器的两个主要应用是降噪(denoising)和稀疏化数据(sparse)
主成分分析:
主成分分析(Principal Component Analysis)是一种数据降维的方法,我们可以简单地把数据降维和稀疏化数据当成一个意思来理解(还是有区别的)。
从数学的视角来看,二维平面中的主成分分析,就是用最大方差法将坐标系里分布的点投影到同一条线上(一维的);三维空间中的主成分分析,就是同理将空间中的分布点投影到同一个(超)平面上。
参考资料
K均值算法概念及其代码实现:https://my.oschina.net/keyven/blog/518670
欧几里得距离:https://en.wikipedia.org/wiki/Euclidean_distance
K-means算法实现:https://feisky.xyz/machine-learning/clustering/k-means/
自编码器与堆叠自编码器简述:http://peteryuan.net/autoencoder-stacked/
对抗自编码器:https://blog.csdn.net/shebao3333/article/details/78760580
网友评论