美文网首页分类
基于相似运算、聚类运算和SVM的数据特征分类算法

基于相似运算、聚类运算和SVM的数据特征分类算法

作者: 地平线上的背影 | 来源:发表于2016-09-18 09:16 被阅读240次

对于数据分析和处理而言,最重要的莫过于数据特征分类。这是所有数据分析与处理的第一步,只有经过分类的数据才有分析与处理的价值。所以如何对数据分类,便是本文的重点。

本文主要介绍相似运算、聚类运算和SVM三种数据特征分类算法。在这三类中同样也包含诸多运算方法,相似运算包括欧式距离、曼哈顿距离与皮尔逊相关系数;聚类运算包括K-均值聚类和Fisher聚类等;而SVM作为当今最热门的运算方法,其分类更是多不胜数。

所以本文主要对于以上几种方法的核心思想和算法做介绍,仅涉及少量的具体算法。

相似运算

在各种分类算法中,最为容易实现的是相似运算,包括欧几里得空间距离、皮尔逊相关系数和曼哈顿距离。">在各种分类算法中,最为容易实现的是相似运算,包括欧几里得空间距离、皮尔逊相关系数和曼哈顿距离。

欧几里得距离运算是指在二维空间里,两个点间直线的距离。在数据的特征分类计算中,一般用于比较在同一维度下,两样本数据特征的相似程度。用欧式距离计算两样本的相似度时,一般采用样本数据为维度,以样本个体为主体,计算两主体的相似程度。与其相关的便是曼哈顿距离,其概念与欧式距离相似,但其运算并非采用两点间的直线距离,而是将空间分为等距网孔后的网孔格边界距离,这一做法可以有效的减少浮点运算,加快运算速度,在早期计算机性能不发达的时候,这是计算机科学家们最常采用的算法。如今随着计算机性能的大幅上升,只有在极大量的数据运算中会看到其身影。

与欧式距离相似的另一相似运算概念是皮尔逊相关系数,该算法一般用于在高维度中比较两个样本数据的相似程度。在计算时,一般以计算主体为维度,以样本数据为相似度比较量,用以比较样本的相似程度。其于皮尔逊相关系数的相似计算的优点在于,允许存在“夸张分度”这一常量。可以帮助我们在样本数据特征的分类中,发现具有相似偏好的数据特征。

总的来说,欧氏距离与皮尔逊相关系数这两种方式在数据特征分类中各有应用。欧式距离计算两样本的相似度,诸如根据用户对于不同电影的评价寻找具有相似喜好的用户,再做出电影推荐;皮尔逊相关系数的计算则是基于不同用户对于多部电影的评分趋势,寻找具有相似兴趣偏好的用户,并做出电影推荐。

聚类运算

聚类运算是我们十分常用的一类相似度计算方法。常见的相似度计算方法包括K-均值计算方法、Fisher方法与贝叶斯方法。

K-均值计算方法,又称KNN算法,即K最邻近算法。其主要思想是对于分类数据集,随机产生分类数据中点,再将周围的数据点分于数据中点,计算这一类的数据点的平均位置,移动至平均位置,再次计算与移动,直到数据移动不再产生变化。

Fisher方法是指在分类运算中,对于每一分类特征分别计算属于某一分类的概率,再以各特征的分类概率计算样本数据的分类

贝叶斯分类算法的使用与Fisher相似,详细介绍见以前的文章。

在以上三种算法中,Fisher方法与贝叶斯算法常用于垃圾邮件、文字识别等分类,而KNN算法一般用于可视数据的分类。

SVM分类算法

在常见的数据特征分类算法中,SVM一直是最为著名和有效的。在确定合适的Hyper Plain之后,其可以完成以上任一种运算的功能,甚至做的更好。">在常见的数据特征分类算法中,SVM一直是最为著名和有效的。在确定合适的Hyper Plain之后,其可以完成以上任一种运算的功能,甚至做的更好。

鉴于SVM的优良作用于效果,SVM一直是机器学习算法中最为活跃的研究部分,有关其的研究文章与论文层出不穷。也因而使SVM 在不停的发展历程中变得越来越复杂。

SVM,全称为Support Vector Machine,中文名称支持向量机。是一个监督学习模型(但本文中几乎全是监督学习模型),通常用于模式识别、分类与回归。

在我们常见的数据分类算法中,复杂数据的分类总是令人头疼的一件事,无论是聚类运算,还是相似运算对于极为复杂的数据分离总是会心有余而力不足,于是乎SVM应时而生。SVM的核心思想在使用核方法,将复杂数据投影到高维空间,然后在高维空间寻找对分类点形成最大间隔平面的分类。因为其的分类空间为高维空间,所以可以将很多在低维空间无法分类的数据予以分类,分类效果极好

相关文章

  • 基于相似运算、聚类运算和SVM的数据特征分类算法

    对于数据分析和处理而言,最重要的莫过于数据特征分类。这是所有数据分析与处理的第一步,只有经过分类的数据才有分析与处...

  • 常见的分割理论

    基于SVM的分割,基于图论的分割,集合轮廓分割以及特征聚类分割

  • 聚类算法之k-means的实现

    聚类算法是给一大堆原始数据,然后通过算法将其中具有相似特征的数据聚为一类。 k-means聚类,也叫k均值聚类,要...

  • 聚类算法k-means

    聚类算法 聚类算法 是 无监督学习 聚类算法有特征,无标签,是无监督分类。 sklearn 聚类模块 cluste...

  • 聚类算法

    聚类算法 聚类的概念:无监督问题:我们手里没有标签了聚类:相似的东西分到一组,跟分类问题相似。刚开始的数据集上没有...

  • 聚类:k-means算法的手动实现

    聚类算法概念 聚类算法属于无监督算法,即在没有人为划定标签的情况下对数据进行自动化的分类,使得每类数据的某种相似性...

  • 第9章 聚类

    不同于分类和回归,聚类不需要事先的任何参考分类信息,可以简单地通过判断数据特征的相似性来完成对数据的归类。 层次聚...

  • 聚类算法

    分类是算法基于已有标签的数据进行学习并对新数据进行分类,而聚类则是在完全没有标签的情况下,有算法“猜测”哪些数据像...

  • Python数据挖掘011-聚类建模

    聚类和分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。 聚类是无监督学习算法...

  • 时间序列聚类和分析

    本文比较了基于欧氏距离和DTW聚类对时间序列聚类和分类的可靠性。 从抽样的样本中发现了基于DTW聚类算法远远比基于...

网友评论

    本文标题:基于相似运算、聚类运算和SVM的数据特征分类算法

    本文链接:https://www.haomeiwen.com/subject/vjiwettx.html