R topics documented:
DoISVA..........................................................................................2
EstDimRMT...................................................................................4
isva................................................................................................5
isvaFn............................................................................................6
simdataISVA..................................................................................7
Index ............................................................................................8
DoISVA Feature selection using independent surrogate variables
使用独立的替代变量进行特征选择
给定数据矩阵(data.m)和感兴趣的表型(pheno.v),该功能执行特征选择以在存在潜在混杂因子(CFs)的情况下识别与感兴趣的表型(POI)相关的特征。该算法首先发现数据矩阵中与感兴趣的表型(POI)无关的变化(使用线性模型),随后对该残差变量矩阵进行独立分量分析(ICA)。可以使用随机矩阵理论(RMT)预先确定或估计要推断的独立分量的数量。独立替代变量(ISV)由独立组件构建,并提供混杂因素对数据影响的估计。如果潜在的混淆因素是未知的(默认的NULL选项),那么在剩余变化空间中将存在与ISV一样多的独立分量。如果已知潜在的混杂因素(无论是确切的还是受到错误/不确定性的影响),算法将只选择那些与混杂因素相关的独立成分。如果指定了潜在的混淆因素,则可以认为ISVA不会选择任何ISV,因为没有独立的组件与混淆器相关联。在这种情况下,应使用默认(NULL)选项重新运行ISVA。最终将构建的ISV作为协变量包含在多变量回归模型中,以识别与感兴趣的表型相关的特征,而与潜在的混杂因素无关。提供了两种ICA实现:JADE和fastICA。我们注意到前者将在同一解决方案中产生(因此确定性),而fastICA可能导致不同运行的不同局部最小值的收敛。在后一种情况下,如果结果在运行之间变化,则建议采用一致的解决方案。
Usage用法
DoISVA(data.m,pheno.v,cf.m = NULL,factor.log,pvthCF = 0.01,th = 0.05,ncomp = NULL,icamethod = c("JADE","fastICA"))
Arguments 参数
data.m data矩阵,行标签特征,列标签样本。假设特征数量远大于样本数量。
pheno.v 数字向量长度等于数据矩阵列数。 目前仅支持数值(序数)表型,因此排除了分类表型。
cf.m 潜在混杂因子的矩阵。 行标签样本,列标签混淆因子,可以是数字或分类。 默认选项(NULL) 用于未知或者相关的潜在混杂因素的情况。
factor.log 一个与cf.m列相同长度的逻辑向量。 FALSE表示要将因子视为数字,TRUE作为分类.
pvthCF P值阈值,以调用独立的替代变量(ISVA)和混杂因子(cf)之间的显着关联。 默认情况下, 这是0.01。
th 特征选择的错误发现率阈值。 默认情况下这是0.05.
ncomp 要查找的独立代理变量(ISVA)的数量。 默认情况下,这是NULL,并使用随机矩阵理论 (RMT)预先确定或估计要推断的独立分量的数量.
Icamethod 实现ICA要使用的方法,必须是JADE或fastICA.
Value值
返回结果是一个列表(isva.o),其中包含以下条目:
spv Sorted P-values. 排序后每一个特征的P-values
rk Ranked index of features.特征的排名索引
qv Estimated sorted q-values(False Discovery Rate)估计的排序的q值(错误发现率)
ndeg Number of differentially changed feature 差异改变特征的数量
deg Indices of differentially changed features 差异改变特征的索引
lm Matrix of significant feature regression statistics and P-values.显著特征回归统计和P值矩阵。
isv Matrix of selected independent surrogate variables (ISVs).所选择的独立替代变量(ISVs)的矩阵。
nsv Number of selected ISVs.所选择的独立替代变量(ISVs)的数量。
pvCF P-value matrix of associations between factors (phenotype of interest plus confounding factors) and inferred ISVs. Note that this may be a larger set than the selected ISVs
因子(感兴趣的表型加上相关因子)与推断的ISV之间的关联的P值矩阵。 请注意,这可能是 比所选ISV更大的集合
selisv Column indices of selected ISVs.所选ISVs的列索引。
Examples
data(simdataISVA); #详细见上回分解
EstDimRMT Estimates dimensionality of a data set using Random Matrix Theory
使用随机矩阵理论估计数据集的维数
Description描述
给出数据矩阵,它通过在高斯正交集合(GOE)下将观察到的光谱特征值的分布与理论值进行比较来估计变化的重要分量的数量。 具体地,执行数据协方差矩阵的频谱分解,并且将大于由GOE预测的理论最大值的特征值的数量作为重要分量的数量的估计。
Usage
EstDimRMT(data.m,plot=TRUE)
Arguments
data.m Data matrix. Rows label features, Columns samples.数据矩阵。行标签功能,列样本。
plot Logical. Plots Eigenvalue densities if true.逻辑。 如果为真,则绘制特征值密度。
Value
A list with following objects包含以下对象的列表
Cor Data covariance matrix. 数据协方差矩阵。
Dim Estimated intrinsic dimensionality of data.估计数据的内在维度。
Estdens Empirical density of eigenvalues.特征值的经验密度。
Thdens Theoretical density of eigenvalues.特征值的理论密度。
isva Independent Surrogate Variable Analysis
独立替代变量分析
Description描述
独立替代变量分析是一种在存在潜在混杂因子的情况下进行特征选择的算法,专门用于分析大规模高维定量基因组数据(例如微阵列)。它使用独立分量分析(ICA)将混杂因素建模为独立的替代变量(ISV)。这些ISV作为多变量回归模型中的协变量包括在内,以随后识别与这些混杂因素无关的与感兴趣的表型相关的特征。提供两种ICA实现:JADE R-package的JADE和fastICA R-package的fastICA。
Details: 细节
Package: isva 包:isva
Type: Package 类型:包
Version: 1.9 版本:1.9
Date: 2017-01-13 日期:2017年1月13日
License: GPL-2 许可:GPL-2
LazyLoad: yes
有两个内部功能。一个函数(EstDimRMT)使用随机矩阵理论近似来执行维度估计。另一个函数(isvaFn)是主引擎函数,使用独立分量分析(ICA)执行混杂因子的建模。简而言之,ICA应用于与感兴趣的表型正交的残余变化。 DoISVA是主要的用户功能,使用构造的独立代理变量作为协变量执行特征选择。
isvaFn Main engine function for inference of independent surrogate variables (ISVs)isvaFnMain
引擎函数,用于推断独立的替代变量(ISVs)
Description说明
这是主要的引擎函数,它通过对残差变化矩阵执行独立分量分析(ICA)来推断统计独立的替代变量(ISVs)。 它既可以使用JADE的ICA实现,也可以使用fastICA R-package中的ICA实现。 残余变异矩阵反映了与感兴趣的表型正交的变化,并且使用线性模型推断。
Usage用法
isvaFn(data.m, pheno.v, ncomp = NULL, icamethod)
Arguments参数
data.m Data matrix. Rows label features. Columns label samples.数据矩阵.行标签特征,列标签样本。
pheno.v Numeric vector encoding phenotype of interest.编码感兴趣的表型的数字向量。
ncomp Optionally specify number of ISVs to look for. By default will use ApproximateRandom Matrix Theory to infer this number.(可选)指定要查找的ISVs的数目。默认情况下,将使用近似随机矩阵理论(RMT)来推断此数字。
Icamethod The ICA method to be used. Input value is taken from DoISVA.要使用的ICA方法。 输入值取自DoISVA。
Value
A list with following entries:包含以下对象的列表
n.isv Number of inferred ISVs.推断的ISVs数量。
isv Matrix of inferred ISVs.推断ISVs的矩阵。
simdataISVA Simulated data for ISVA ISVA仿真数据
Description描述
一个包含750个特征和50个样本,具有一个二元表型和两个混杂因子的的合成数据集。 混杂因子(CFs)与目标表型的相对影响大小为2.有关详细信息,请参阅参考文献。
Usage用法
simdataISVA
Format格式
该合成数据集是包含以下元素的列表对象:(i)数据是数据矩阵(750个特征,50个样本),(ii)pheno是二元表型向量,(iii)因子是长度为二的列表包含两个二元混杂因子,(iv)deg是那些真正差异“表达”特征的索引向量,(v)degL是真正差异改变的特征的索引向量列表(第一个元素,degL [[1]] = deg )和那些受CF影响的特征(第2和第3个元素)
网友评论