美文网首页数据分析
数据挖掘之变量变换和相似性相异性概念

数据挖掘之变量变换和相似性相异性概念

作者: 夜观星象碎碎念 | 来源:发表于2017-07-10 14:22 被阅读0次

一:变量变换

变量变换是指用于变量的所有制的变换,也叫做属性变换。

方法:

简单函数

统计学中,变量变换常用来将布局正太分布的数据变换为正太分布的数据。

数据挖掘中,假定感兴趣的变量是一次绘画中的数据的字节数,值域为1到10亿,常用数据的变换将其进行压缩。

规范化或标准化

标准化和规范化的目标是使整个值得集合具有特定的性质。

举例:x~位某属性值得均值,sx为标准差,则变换x'=(x-x~)/sx创建一个新的变量,它的均值为0标准差为1。在例如:考虑年龄和收入对人进行比较,收入之差的绝对值一定会比年龄之差的绝对值大的多。如果不考虑这种值域的区别,对人的比较将被收入之差左右。

均值和标准差受离群点的影响也很大,因此通常需要修改上述变换,首先用中位数取代均值,用绝对标准差取代标准差。具体方法以后会讲到。

二.相似性和相异性

相似性和相异性被很多数据挖掘技术所使用,如聚类,最邻近分类和异常检测。在许多情况下,一旦计算出相似性和相异性,就不再需要原始数据了,这种方法就是将数据变换到相似或相异的空间,然后再进行分析。我们常用术语邻近度来表示相似性和相异性。两个对象之间的邻近度是两个对象之间的邻近度的邻近度函数,我们先介绍如何度量仅包含一个简单属性对象的邻近度,然后再考虑多个属性对象的邻近度。

适用于时间序列的稠密数据的邻近度度量:欧几里得距离度量,相关

适用于文档这样的稀疏数据的度量:jaccard和余弦相似性度量。

基础

定义:两个对象之间的相似度的非正式定义是这两个对象相似程度的度量值,通常相似度是非负的,并且常在0和1之间取值。

相异度是这两个对象差异程度的数值度量。对象越类似,他们的相异度越低。相异度在[0,1]中取值,但常常也在0到无穷之间取值。

变换

通常使用变换把相似度转换成相异度或相反,或者把邻近度变换到一个特定区间,如[0,1],例如我们有相似度的范围为1到10,我们要把它转换为[0,1]区间中的值再处理。

一般来说,相似度[0,1]的区间的变换由如下表达式给出:s'=(s-min_s)/(max_s-min_s)。

将在区间0到无穷上的相异度变换需要使用线性变化 ,考虑变换d'=d/(d+1),这样就将原来相异性制度较大的值压缩到1附近。

数据对象的相异度

距离:欧几里得距离,闵可夫斯基距离

相关文章

  • 数据挖掘之变量变换和相似性相异性概念

    一:变量变换 变量变换是指用于变量的所有制的变换,也叫做属性变换。 方法: 简单函数 统计学中,变量变换常用来将布...

  • 产品识算法(四):数据挖掘距离计算算法

    在数据挖掘和分析的过程中,我们经常需要知道某两个或多个分析对象之间的差异性,从而判别分析对象之间的相似性和所属类别...

  • 男性如何和异性相处

    男性如何和异性相处 本来的题目是如何和异性相处,想想和大部分女性比起来,男性在处理异性关系的能力上简直是渣渣,所以...

  • 异性相处之道 | 如何更好的和异性相处?

    在生活中不免要和异性相处,和自己的家人、同学、同事、朋友等都不缺乏一些异性,怎么和异性相处比较好呢? 男人遇到问题...

  • 文本分析-相似文章匹配

    概念理解:推荐:在数据挖掘中,推荐包括相似推荐及系统过滤推荐。1,相似推荐:指当用户表现出对某人或某物的兴趣是,为...

  • Python数据挖掘007-数据变换

    数据变换主要是对数据进行规范化处理,将数据转换成“适当的”形式,以适用于挖掘任务和算法的需要。 1. 简单函数变换...

  • 人是有磁场的

    每个人都有自己的能量场,这个能量场就是个人的磁场。同性相斥,异性相吸。互补的相吸,相似的适合玩闹。 当你自己弱小的...

  • 数据挖掘导论 - 1

    layout: posttitle: 数据挖掘基本概念 --《数据挖掘导论》categories: Coursed...

  • 2018-10-29

    目前正在研读《数据挖掘:概念和技术》 对于数据挖掘的概念只是浅层的好像知道的明白了的感觉 阅读到175页,正在学习...

  • 如何和异性相处?

    反正我就不太会,写这篇文章纯粹是想自己别重蹈覆辙! 找乐于助人的朋友帮忙盖楼,而他热心帮我盖楼却是想我做他女票?朋...

网友评论

    本文标题:数据挖掘之变量变换和相似性相异性概念

    本文链接:https://www.haomeiwen.com/subject/ytnyhxtx.html