美文网首页
R语言数据预处理2021.3.5

R语言数据预处理2021.3.5

作者: R语言_茶味先生 | 来源:发表于2021-03-06 09:45 被阅读0次

1. 数据预处理

处理数据的一开始就是要将数据合乎规则,也就是将数据进行归一化, 因为收集到的数据有的列可能是只有两位数,有的列则数十万,对数据进行归一化可以将待数据处理到同一水平下。目的是使数据像中心收的更紧,"将水分挤掉"。

1. 1 数据中心化

数据中心化,是指数据集中的各项数据减去数据集的均值。

x<-c(1,2,3,6,9)
mean(x)#计算均值
x-mean(x)#原始值减去均值的过程就是将数据进行中心化的过程,如果此时发现数据还是比较大则需要进行标准化,一般我们的最终目的是使数据处于[-1,1]区间
图1 数据中心化

1.2数据标准化

数据标准化,是指在中心化之后在除以数据集的标准差,即数据集中的各项数据减去数据集的均值再除以数据集的标准差。

x<-c(1,2,3,6,9)
sd(x)#计算标准差
(x-mean(x))/sd(x)#原始值减去均值再除以标准差的过程就是将数据进行标准化的过程,一般进行到这里数据就已经处于很小的区间了

R中进行数据归一化

用scale函数,包含三个参数,第一个是待处理的数据的名称,第二个是center参数,为TRUE时进行数据中心化,第三个是scale参数,为TRUE时进行数据标准化。

scale(state.x77,center=T,scale=T)#将数据进行归一化
heatmap(scale(state.x77,center=T,scale=T))#绘制热图
图2 数据归一化前后热图对比

相关文章

  • R语言数据预处理2021.3.5

    1. 数据预处理 处理数据的一开始就是要将数据合乎规则,也就是将数据进行归一化, 因为收集到的数据有的列可能是只...

  • 数据预处理与R语言

    前言 最近正在学习数据挖掘方面知识,前前后后也查阅了不少资料。但是总是一个人学习,有点枯燥,所以就想着分享些资料。...

  • DAY2-用TCGAbiolinks下载肝癌数据并做预处理1

    根据公众号珠江肿瘤的推文 R语言|TCGAbiolinks 包系列(2)——肝癌案例之数据预处理 来学习 肝癌数据...

  • 复盘总结(三)

    GTEX表达矩阵预处理 R语言学习:1.append添加新的列。2.R语言处理大规模数据速度不算快,通过安装其他包...

  • 医学R语言快速入门与数据清洗1 2021-01-10

    关键词和要点: 数据预处理的方法 数据分析:对软件要求不高 数据可视化:数据作图 RStudio R语言安装,Rs...

  • 簇状柱状图及分面图的绘制

    详情参考《R语言数据可视化之美》p96,p222 效果图: 数据: 数据预处理: 发现数据横轴为元素,纵轴为浓度,...

  • python数据预处理或R语言处理

    python下处理: 一:导入对应预处理包:通过import命令 1.numpy:跟矩阵计算相关的包; 2.pan...

  • 甲基化数据预处理(R语言)

    一. 实验目的 学习如何下载甲基化数据及如何获得每个探针的甲基化水平(beta值)。 二. 实验数据及...

  • R语言基础--数据类型-总结

    R语言基础--数据类型-总结 1、R语言基础--数据类型之向量 2、R语言基础--数据类型之因子 3、R语言基础-...

  • day5 阿来

    继续学习R语言 R语言数据学习 数据R语言学习.png 数据输入 数据输出 总结 R语言学习的第二天,熟悉了很多操...

网友评论

      本文标题:R语言数据预处理2021.3.5

      本文链接:https://www.haomeiwen.com/subject/kugrqltx.html