2021.4.12
持续更新中。。。
《R语言实战2》、学术数据分析及可视化
1. 快捷方式
赋值:alt
+-
清屏:ctrl
+l
快速注释和取消注释:ctrl
+shift
+c
自动补全:Tab
2. 经验技巧
- R中常量、变量、函数、数据结构等都统称为对象。
- 为了区分函数,在使用函数时都需要加上括号。
- 减少使用符号和中文命名文档。
3. 基本函数
3.1 对现有的数据集进行处理的函数
-
length():
显示对象中元素/成分的数量 -
head():
列出某个对象的开始部分 -
str():
显示某个对象的数据结构 -
class():
显示某个对象的数据类型 -
as.factor():
转换数据类型 -
View():
查看导入数据 -
which():
返回符合条件的数据的位置
3.2 数学相关函数
-
abs(x)
:取x的绝对值 -
sqrt(x)
:取x的平方根 -
ceiling(x)
:取不小于x的最小整数 -
floor(x)
:取不大于x的最大整数 -
round(x, digits=n)
:将x四舍五入为指定位的小数 -
signif(x, digits=n)
:将x舍入为指定的有效数字位数 -
sin/cos()
: -
log(x, base=n)
:取x底为n的对数 -
exp(x)
:以自然常数e为底的指数函数 -
cumsum(x)
:求累计和 -
prod(x)
:求累计乘
3.3 统计函数
-
mean(x)
:取x平均值 -
median(x)
:取x中位数 -
sd(x)
:取x标准差 -
quantile(x)
:取x的分位数 -
sum(x)
:求x的和 -
min/max(x)
:求x的最小/大值 -
range(x)
:求值域 -
table(x)
:频数统计 -
summary(x)
:对数据进行简单统计 -
scale(x)
:对数据进行标准化(默认情况下是进行均值为0,标准差为1的标准化)
3.4 字符串函数
-
nchar(x)
:求字符串x的长度 -
substr(x, start, stop)
:取子字符串 -
toupper()
:取大写 -
tolower()
:取小写 -
paste(a, b, sep = " ", collapse = NULL)
:拼接字符串a和b
归一化(normalization)和标准化(standardization)的区别:
一、归一化(normalization):
- 定义:利用特征(可理解为某个数据集合)的最大值,最小值,将特征的值缩放到[0,1]区间,对于每一列的特征使用min-max函数进行缩放;
- 归一化原因:消除纲量,加快收敛;原始数据经过数据归一化处理后,各指标处于[0,1]之间的小数,适合进行综合对比评价;提高精度;
- 归一化方法:
①线性归一化
新数据=(原数据-极小值)/(极大值-极小值)
②非线性归一化
经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log。
二、标准化(standardization):
- 定义:标准化是通过特征的平均值和标准差,将特征缩放成一个标准的正态分布,缩放后均值为0,方差为1。即使数据不服从正态分布,也可以用此法。特别适用于数据的最大值和最小值未知,或存在孤立点。
- 标准化原因:标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,使不同变量之间可以比较,消除极大值和极小值带来的影响。
3.5 其他函数
-
dir()
:显示工作目录下的文件 -
save.image()
:保存工作空间内容 -
rm(list=ls())
:删除当前环境中的所有对象 -
set.seed()
:设置随机种子,固定生成的随机数。 -
citation('包名')
:相关包的引用信息
4. 其他包中可用函数
4.1 imputeTS
包函数na_replace()
- 替换缺失值
install.packages("imputeTS")
library(imputeTS)
na_replace(example.txt, 0)
4.2 psych
包函数describe()
- 对数据进行统计描述
install.packages("psych")
library(psych)
descrebe(example, na.rm =T)
输出的数据,如果有变量后面有星号说明处理时是当成了因子处理。
4.3 PerformanceAnalytics
包函数chart.Correlation()
- 可视化相关关系结果
data <- cor(rawdata)
chart.Correlation(data)
网友评论