美文网首页GWAS/群体分析
HaploView使用-OutofMemory

HaploView使用-OutofMemory

作者: xiaoji_hb | 来源:发表于2021-08-30 15:01 被阅读0次

    之前给大家介绍过如何使用haploview软件进行单倍型分析及LD单倍型图形数据的导出。该软件在运行后可以输出位点的统计结果、LD分布以及单倍型相关信息。

    1 分析结果

    • 1.1 数据统计

    导入数据后自动计算位点的maf、缺失等信息,会汇总成统计表,可以导出,示例如下

    haploview-result-table

    统计结果中,标红的部分是未通过过滤的位点,系统会自动全选所有通过过滤的位点参与单倍型的计算。图片下方显示的是参数设置窗口,可自行输入阈值,点击Rescore Markers即可重新统计。

    ps:上图中Advanced Views中会显示表中没有的统计结果,比如样本的缺失率等,可以自行查看;此外,这些统计数据都可以导出

    • 1.2 LD-Block图

    软件会自动根据输入的数据绘制对应LD-Block区域的单倍型块结果,所有统计以及图片结果都可以导出保存,示例如下

    haploview-result-LD-Block

    LD导出数据:

    L1  L2  D'  LOD r^2 CIlow   CIhi    Dist    T-int
    chr5_23655  chr5_68528  1.0 3.79    0.023   0.63    1.0 44873   168.12
    chr5_23655  chr5_75682  1.0 49.24   1.0 0.96    1.0 52027   -
    chr5_23655  chr5_125073 1.0 17.37   0.354   0.89    1.0 101418  -
    chr5_23655  chr5_176933 1.0 49.24   1.0 0.96    1.0 153278  -
    chr5_23655  chr5_206310 1.0 48.48   1.0 0.96    1.0 182655  -
    chr5_23655  chr5_271689 1.0 3.92    0.023   0.64    1.0 248034  -
    

    单倍型块数据Haplotypes:

    BLOCK 1.  MARKERS: 10 11 19 27 33 44
    112412 (0.560)  |0.548  0.000   0.000   0.000   0.000|
    312412 (0.167)  |0.088  0.045   0.037   0.002   0.000|
    111413 (0.162)  |0.018  0.066   0.060   0.007   0.007|
    121242 (0.098)  |0.002  0.053   0.018   0.015   0.011|
    Multiallelic Dprime: 0.786
    BLOCK 2.  MARKERS: 56 74 84 86
    1424 (0.652)    |0.651  0.000|
    1224 (0.170)    |0.164  0.007|
    3412 (0.124)    |0.011  0.114|
    3424 (0.034)    |0.034  0.000|
    3224 (0.013)    |0.000  0.013|
    Multiallelic Dprime: 0.935
    

    2 运行报错问题排查

    当位点数目或者选择的目标区间比较小时,一般使用默认参数运行即可,不会出现太大问题。当位点数目太多或者强连锁的区域太长时,导入数据时会遇见一下错误。

    haploview-input-data-wrong

    遇见这种问题一般有两点,一个是数据量太大,一个是位点间强连锁区域太长。

    • 2.1 数据量过大

    对于数据量问题,文章中给出的了参考示例,1.8 GHz Pentium 4处理器加1 GB内存,可以轻松处理400样本的200位点,对于大样本、多位点的情况,推荐使用命令行操作,我觉得最好在资源较多的服务器上操作。

    haploview-data-set

    如果位点太多,可以考虑先用其他软件算一下连锁情况,分区间提取位点进行单独分析

    • 强连锁区域太长

    最近遇到了这种问题,我测试的数据集有905位点,区间50k左右,一直出现内存超限的问题,后来发现是连锁区域太长的原因。对于这种问题,可以在导入数据的时候,减小联锁区间的阈值。

    haploview-data-load

    界面上Ignore pairwise...对应的参数就是连锁区间设定的阈值,可以适当调小。这种情况下,本应该是同一个连锁区域的两端会分开,后续需要进行更正。

    参考文献:

    [1] https://academic.oup.com/bioinformatics/article/21/2/263/186662

    相关文章

      网友评论

        本文标题:HaploView使用-OutofMemory

        本文链接:https://www.haomeiwen.com/subject/bkcoiltx.html