想着好久没更新了,但我的粉丝们还是会经常来看看我,所以,决定把最近学的东西挂出来。
搜了下中文网,几乎没有对这个方法进行介绍的,一个可能是新出的,一个可能是手里没有大样本,不进行这样的处理,实用性不强。
但作为科研狗,必要的方法还是要知道一些的,尤其是专门为UKBB这么大项目开发的方法。开始吧~
(UKBB是啥?是英国50万人的大项目,数据涵盖基因、生活习惯、影像数据、唾液尿液样本、疾病等等,自己百度吧)
简单介绍
这个方法是干啥的:一个感兴趣的trait(可以是一个snp,也可以是PRS多基因危险分数、也可以是一个表型)与多个表型之间的相关分析。
有点晕是不?回顾一下GWAS,是一个表型和全基因组的相关分析,phesant就倒过来了,是一个snp和全部表型的相关分析。也可以是一个表型和其他全部表型的相关分析。还没懂得同学认真理解下吧,画个图。
这个软件好在哪呢:专门为UKBB设计的,UKBB的表型,不知大家看过它的表型分类库没,那叫一个多,分好几级别,看链接http://biobank.ctsu.ox.ac.uk/showcase/browse.cgi?id=-2,有严格的等级制度,表型数量也是十分庞大啊,而且每个指标的值类型都不一样,所以用到的相关分析模型也不一样,这可咋办,没有现成的软件,只能自己开发啦,瞧瞧他们平地而起的样本库,开发一个软件不是分分钟的事,于是就有了phesant。号称自动进行表型扫描并自动选择相关分析模型,做相关分析的软件。
好不好只有合适才是最重要的,自己看吧!
先上图,一作通讯都是她。感兴趣的看全文吧。
再上图,github打开界面,附链接:https://github.com/MRCIEU/PHESANT
表型主要分为四大类,如图,然后进行细分,再归类到不同的相关分析中。
跑程序
总共分三步:
1.扫描表型、相关分析
2.合并结果
3.结果可视化。
前两个用R语言,最后一个用JAVA。
第一步:扫描表型文件,做相关分析
1.准备文件:
(1)表型文件:像这样。
(2)the trait of interest 文件(一个snp or PRS or trait):像这样
(3)协变量:可以加在上面的表型文件里。
(4)数据代码文件(data coding):长这样。这个比较复杂,自己数据的话就要在这块下功夫。
(5)变量信息文件(variable information):长这样。这个就是表型的基本信息。
2.开始跑代码
也可以跑并行。
一个步就ok啦,上结果图。
第二部:合并结果
看结果图:
OO图,显著性很强哦二分类变量的森林图
连续变量的森林图 排序变量的森林图
第三步:可视化(java)
上代码:
cd bin/ java -cp
.:../jar/json-simple-1.1\ 2.jar ResultsToJSON <RESULTS_FILE_PATH> "../node-positions.csv" "../web/java-json.json"
python -m http.server --bind 服务器ip 8000
就得到结果图啦
看一下她文献中10624个表型和BMI的PRS做相关的结果,密集恐惧症啊。
讲完啦~当然啦,自己要用的话还得花时间去看,我就是抛砖引玉。大家加油吧!
为祖国的生信事业做贡献!
有问题可留言交流!爱你们的小菜鸟!
网友评论