GEO2R instruction
前段时间使用时,发现数据对不上,后来才知道2020年11月GEO2R改版,如果要复现,需要对设置的组进行反转。于是乎,今天把GEO2R的指导说明拿出来再琢磨琢磨。
GEO2R是一个交互式网络工具,允许用户比较GEO系列中的两组或更多样本,以确定在不同实验条件下差异表达的基因。结果显示为按显著性排序的基因表,以及帮助可视化差异表达基因和评估数据集质量的图形图集合。
GEO2R使用Bioconductor项目的GEOquery和limmar包对原始提交者提供的处理数据表进行比较。Bioconductor是一个基于R编程语言的开源软件项目,它提供了分析高通量基因组数据的工具。geoqueryr包将地理数据解析为R数据结构,其他R包可以使用这些数据结构。limma(用于微阵列分析的线性模型)R软件包已经成为识别差异表达基因的最广泛使用的统计测试之一。它处理广泛的实验设计和数据类型,并对P值应用多个测试校正,以帮助纠正假阳性的发生。因此,GEO2R提供了一个简单的界面,允许用户在没有命令行专业知识的情况下执行R统计分析。
与GEO的其他数据集分析工具不同,GEO2R不依赖于策划的数据集,直接查询原始序列矩阵数据文件。这使得更大比例的地理数据能够及时得到分析。但是,重要的是要认识到,无论数据类型和质量如何,该工具都可以访问和分析几乎任何GEO系列,因此用户必须了解GEO2R的限制和注意事项。
输入序列号
如果您跟踪了一个系列记录中的链接,那么GEO登录框将已经被填充。否则,请在框中输入序列号,例如GSE25724。如果该系列与多个平台相关联,则会要求您选择感兴趣的平台。
定义样本组
在“样本”面板中,单击“定义组”,然后输入要比较的样本组的名称,例如测试和控制。最多可定义10个组。必须至少定义两个组才能执行分析。可以使用组名称旁边的[X]功能删除组[新]定义组的顺序对下游结果有影响。对于两组比较,通常先定义试验组,然后定义对照组是合适的-这样,对数倍变化方向将遵循惯例,与对照组相比,试验样品中上调的基因为阳性,下调的基因为阴性(注:此变更于2020年11月实施。如果需要复制以前的分析,可以反转创建组的顺序)。
为每组分配样本
要将样本指定给组,请高亮显示相关的样本行。可以通过将光标拖动到相邻的样本上,或者使用Ctrl或Shift键高亮显示多个行。高亮显示相关示例后,单击组名称以将这些示例分配给组。每组重复上述步骤。并不是一系列的所有样品都需要被挑选出来进行分析。
进行分析
将样本分配给组后,单击“分析”按钮以使用默认参数运行分析。
或者,可以在“选项”选项卡中编辑默认分析参数。例如,可以在“选项”选项卡中选择替代的P值调整方法,然后单击“重新分析”以使用修改后的参数运行分析。下面的“编辑选项和功能”部分提供了有关每个编辑选项的详细信息。
您可以单击Analyze按钮而不定义组,并检索UMAP、boxplot、expression density和mean-variance趋势图。这些曲线图有助于评估标准化状态和样本分组,也就是说,它们可以帮助您确定研究是否适合进一步分析,以及是否对测试进行任何调整。结果在浏览器中显示为按P值排列的前250个基因的表格。P值最小的基因最显著。单击一行以显示该基因的基因表达谱图。图中的每个红色条表示从原始提交者提供的样本记录的值列中提取的表达式度量。样本登记号和组名列在图表底部。
使用“选择列”功能可以修改表中包含的数据和注释列。摘要统计部分提供了有关数据列含义的信息。
如果要编辑分析参数,可以在“选项”选项卡中进行编辑,然后单击“重新分析”以应用编辑。
要查看超过前250个基因,请使用下载完整表链接下载整个结果集。下载的文件以制表符分隔,适合在电子表格应用程序(如Excel)中打开。
可视化
为了帮助用户进一步探索差异表达的基因,我们制作了一些图形图
使用limma(火山图)生成
火山图显示统计意义(-log10p值)与变化幅度(log2倍变化)的关系,有助于显示差异表达的基因。单击探索和下载链接转到交互式绘图。在那里,你可以将鼠标移到数据点上查看单个的基因注释。突出显示的基因在默认调整的p值0.05处显著差异表达(红色=上调,蓝色=下调)。可以在“选项”选项卡中更改重要性截止值。火山图显示单个对比度的测试结果(对比度是一个样本组与另一个样本组的比较)。因此,如果在分析中定义了两个以上的样本组,则会为每个对比度生成一个单独的绘图。默认情况下,对于>2组样本,显示的对比度数等于组数,并且每个组按创建顺序与下一组进行比较。或者,您可以在“选项”选项卡中选择最多5个自定义对比度。如果定义了两个以上的样本组,请使用复选框在对比度之间切换。使用“下载重要基因”按钮下载每个对比中突出显示的基因。
使用limma(plotMD)生成
平均差(MD)图显示log2倍变化与平均log2表达值,并有助于显示差异表达基因。单击探索和下载链接转到交互式绘图。在那里,类似于火山图,你可以把鼠标放在数据点上看单个的基因注释。突出显示的基因在默认调整的p值0.05处显著差异表达(红色=上调,蓝色=下调)。可以在“选项”选项卡中更改重要性截止值。平均差图显示单个对比度的测试结果(对比度是一个样本组与另一个样本组的比较)。因此,如果在分析中定义了两个以上的样本组,则会为每个对比度生成一个单独的绘图。默认情况下,对于>2组样本,显示的对比度数等于组数,并且每个组按创建顺序与下一组进行比较。或者,您可以在“选项”选项卡中选择最多5个自定义对比度。如果定义了两个以上的样本组,请使用复选框在对比度之间切换。使用“下载重要基因”按钮下载每个对比中突出显示的基因。
使用umap生成
均匀流形近似和投影(UMAP)是一种降维技术,用于可视化样本之间的关系。图中显示了计算中使用的最近邻的数量。无需选择样本组即可生成此图,只需在定义组之前单击“分析”。
使用limma生成(vennDiagram)
用于探索和下载多重对比中重要基因的重叠。文氏图上每个区域的基因可以通过选择相关的对照来下载。例如,在这里显示的维恩图中,选择“健康对照组与骨关节炎”和“健康对照组与类风湿关节炎”下载976个重要基因,这两个基因对两个对照组来说是共同的,但不是“骨关节炎与类风湿关节炎”。要下载给定对比度的所有重要基因,请使用交互式火山图或MD绘图页。
限制:最多可绘制5个对比度的数据。当超过5个组被定义时,默认的行为是显示与最高和最低数量的表达基因的对比。或者,您可以选择要在“选项”选项卡上显示的5个对比度。
使用R箱线图生成
用于查看所选样本值的分布。样品按组着色。查看分布有助于确定所选样本是否适合差异表达分析。通常,以中值为中心的值表示数据是标准化的和交叉可比的。如果不是这样,您可以考虑在选项选项卡中检查Force normalization,这将对表达式数据应用分位数规范化,使所有选定的样本具有相同的值分布。该图显示了日志转换和标准化后的数据(如果已执行)。无需选择样本组即可生成此图,只需在定义组之前单击“分析”。
使用R limma生成(绘图密度)
用于查看所选样本值的分布。样品按组着色。此图补充了在差异表达式分析之前检查数据规范化的箱线图(上图)。如果不同样本的密度曲线差别很大,可以考虑在“选项”选项卡中检查“力规格化”。该图显示了日志转换和标准化(如果执行)后的数据。无需选择样本组即可生成此图,只需在定义组之前单击“分析”。
使用hist生成
用于查看分析结果中P值的分布。此处的P值与顶部差异表达基因表中的P值相同,并使用所有选定的对比进行计算。虽然显示的表格受到大小(250)的限制,但该图通过显示所有分析基因的P值分布,让您可以看到“大局图”。
使用limma(qqt)生成
根据学生t分布的理论分位数绘制数据样本的分位数。此图有助于评估limma测试结果的质量。理想情况下,这些点应该位于一条直线上,这意味着在测试期间计算的缓和t统计量值遵循其理论预测的分布。
通用
使用R limma(plotSA,vooma)生成
此图用于在拟合线性模型后检查表达式数据的均值-方差关系。它可以帮助显示数据中是否有很多变化。此图有助于评估是否建议应用精度权重选项来考虑均值-方差趋势。当存在较强的均值-方差趋势时,精度权重可提高测试结果的准确性。绘图不需要组选择。每个点代表一个基因。红线是在差异基因表达分析中可以考虑的均值-方差趋势近似值(或者已经是,如果选项选项卡中的精度权重选项被选中)。蓝线是常数方差近似。无需选择样本组即可生成此图,只需在定义组之前单击“分析”。
网友评论