大家在很多文献里都会看到这样的展示基因组上某个基因或者某个区域的可视化结果,五颜六色的,感觉这篇文章的气质都不一样了。那这些图是怎么做的呢?
给大家推荐IGV本地软件(https://software.broadinstitute.org/software/igv/home),可操作性强,界面是相当友好。导出的图片可另存为svg格式,类似PDF的一种高清图,再经过PS或者AI等软件美化,就生成了一张高大上可直接用于文章发表的峰图了。IGV有本地版和网页版两种形式,一般为了可持续操作,我们选择本地运行为大家介绍下面的操作。下面就给大家介绍一下IGV的使用方法。
下载安装Java
由于IGV本地软件是基于Java开发的,使用IGV需要一个Java环境,所以要求先下载安装Java。可以网上直接搜索java进行下载,也可以在应用商店里直接搜索Java。
下载IGV
下载安装好Java后就可以直接进入到IGV的下载界面,也可以直接网上搜索。IGV支持Windows, Mac, Linux多种平台,同时还提供了命令行版本的运行工具igvtools。大家可以根据自己电脑的系统情况,选择自己需要的版本。
重点步骤!!!
IGV操作演示
1. 安装IGV的参数配置介绍
安装完成后,可能会出现一个问题:IGV界面可以正常打开,但是加载hg38的时候一直报错,参考基因组下载不完整。
解决方法:IGV使用内存默认是4G,建议改为1G。如果电脑内存比较小,可以将IGV内存适当再调整,例如750M。
如何更改,安装目录的readme中有各个版本的详细讲解。
-
Windows
IGV安装目录下会生成一个igv.bat,文件名显示为igv,类型显示为Windows批处理文件。用文本编辑器打开,将-Xmx4g改为-Xmx1g。 -
苹果版本
IGV安装目录下会生成一个MacOS包,用编辑器打开下面的IGV,将-Xmx4g改为-Xmx1g就可以了。
2. IGV界面操作介绍
安装好之后,双击图标即可启动。有的时候IGV存放基因组的AWS会被国内封掉,就无法连接服务器,这时候可以使用一些翻墙软件来辅助。
打开进入IGV,先来了解一下整个界面。
主要有以下几个模块:首行是菜单栏,第二行先显示的是参考基因组名称,然后是染色体编号,后面是可以填写基因组特定位置的输入框,输入框可以输入基因名称或者某一个peak对应的染色体位置。再往下这块是reads富集信号的可视化展示区域。在IGV中,各种类型的信息以行为单位进行展示,每一行称之为一个track;最下面是基因注释展示区域。
3. IGV界面操作演示
- 第一步,需要导入基因组,可以自动导入,也可以手动导入。
自动导入
就是在参考基因组的位置选择IGV自带的参考基因组,目前IGV总共收录了156个物种基因组信息。
手动导入
参考基因是在Genomes选择Load genomes from file,导入fasta格式的文件,同时可以在下面的基因注释展示区域拖入gtf或者gff等格式文件。
- 第二步,导入需要展示的数据。IGV支持多种格式的数据展示,比如bam、bigwig、seg、bed等等。有两种导入方法,一种是点击file,选择load from file,也可以把文件直接拖到track可视化展示区域。
以嘉因生物的具体项目为例:
- Chip-seq 项目拖入*.PeakCallingMacs3 文件中的 treat.bw 和 control.bw 文件(早期项目可能命名为IP和input),如果要同时查看 peak 信息,需要拖入 narrowpeak 文件(早期项目可能命名为bed格式)。
- ATAC-seq 项目拖入*.PeakCallingMacs3 文件中的 bw 文件,如果要同时查看 peak 信息,需要拖入 narrowpeak 文件。
- MeRIP-seq项目拖入*.MeTPeak2文件中minus和plus分别对应的IP和input的4个bw文件(IP_minus.normed.bw、input_minus.normed.bw,IP_plus.normed.bw、和input_plus.normed.bw),如果要同时查看 peak 信息,需要拖入bed文件。
- 第三步,演示参数设置:
选择chip-seq数据作为展示示例,物种为小鼠,参考基因组选择mm10;
选择两个样本的treat和control对应的bw,narrowpeak文件可选也可不选,看个人需求。为了方便展示,选择同时拖入narrowpeak文件。同一个样本的treat和control放在一起,这样比较直观。
先选择四个bw文件,点击右键会跳出修改选项。可以调整颜色,高度和字号等。如果想要美观些,可以在网上搜索一下色彩搭配的原则,来调整每个track的颜色,这样展示在文章中也好看些;也可以调整可视化类型,比如热图,柱状图,点状图和折线图;还有几个设置主要用来调整信号的范围,可以设定具体范围,也可以选择自动展示。由于是将treat和control一起调整,我们选择Group Autoscale,使track的纵坐标是一致的,这样方便直接的比较IP的富集效率;
- 第四步,如果您有想要关注的基因组区域位置或者基因或者peak,可以直接在指定位置的输入框中输入基因名称或者peak位置信息,点击Go,就可以跳转到该基因的位置。
也可以选择某个染色体,查看信号富集情况。如果您想要更改展示区域大小,可以调节右上角按钮,也可以直接在这里拖动鼠标,直接选择可视化范围。调整好区域之后,在可视化区域范围,单击鼠标左键,也可以直接左右移动来微调具体范围。
例如,选择Ankrd50进行查看。
下方这块就是显示的具体基因结构区域,线条代表基因的正负链信息,箭头代表着转录方向,向右说明是正链,向左说明是负链,每个矩形就是一个外显子,中间是内含子区域。有些转录本结构信息中,会有比较横向的矩形,表示的是UTR区域。例如FAT4基因的最右边。也可以在基因注释区域单击鼠标右键,选择Expanded,展示同一个基因的多个转录本信息,选择squished,会隐蔽掉同一个基因对应的每个转录本的gene name,节省空间,选择collapsed,所有转录本会进行折叠。
- 第五步,IGV也可以提取序列(可选)
单击Define a region of interest button,在图中点击关注的位置,例如,peaks22985的起始位置和终止位置,会在图中出现两条黑线及红色bar,将鼠标放置在红色bar处,就会显示出具体位置信息。在红色bar处单击鼠标右键,就可以对该区域进行命名,复制序列以及blast序列。
- 第六步,保存图片
最后,当所有设置都调整好之后,可以点击File/Save image即可保存当前视野中的图片,可以保存成png格式,也可以保存成svg格式,方便后期用AI等作图软件进行美化修改。
文章转自微信公众号:嘉因生物
网友评论