Introduction
Galaxy是一个公开的基因组学分析平台,包含了一系列流程化分析工具,针对质控、组装、注释以及包括Chip-seq、RNA-seq、变异鉴定等常见的组学流程pipeline。
Galaxy平台地址:https://usegalaxy.org/
Galaxy 101
地址https://galaxyproject.org/tutorials/g101/,给新手一个小项目进行练习来熟悉galaxy的操作,通过101来熟悉Genomic invervals、Workflows以及Annotation, sharing and Publishing的一些操作。
Genomic Intervals
现在101上面的练习题和视频里好像不太一致,按照视频里的项目任务来说,练习项目的目的是为了找到人类22号染色体上哪个coding exon包含的repeats数目最多。
打开https://usegalaxy.org/ ,界面如下:
data:image/s3,"s3://crabby-images/f5cfb/f5cfbf403a9369fc57bd31bbdab4e457121d5f23" alt=""
可以看到Galaxy的界面主要由左边的工具栏和右边历史栏构成(可以注册账户,拥有私人的历史记录任务空间,最好注册一下,之前没注册发现历史记录好像只能保存一个工作)。
tools点击get data,找到UCUS main:
data:image/s3,"s3://crabby-images/ab9fa/ab9fa6eebd37a5a731939f36eaafb4a1c9ae61cb" alt=""
转到UCSC界面如下,注意在position那里选择chr22,输出格式bed,输出到Galaxy
data:image/s3,"s3://crabby-images/c2b63/c2b63625ab1d5f3a55a44dc261eafce2cc9476f0" alt=""
然后点击get output,弹出页面如下,由于我们要研究的是coding exons,所以勾上,然后点send query to galaxy
data:image/s3,"s3://crabby-images/9e370/9e37007ecb5a5e82ba2e935aa7f7bb0eb4f400f2" alt=""
data:image/s3,"s3://crabby-images/ac72c/ac72ce07cedb853fb3bdfcb294a34c69ba42c770" alt=""
点击眼睛那个icon可以打开展示
data:image/s3,"s3://crabby-images/871ac/871ac72333e1f1972489eb754aca8e4e5fef90ea" alt=""
接下来我们继续在22号染色体上找repeats,也是按照同样方式打开UCSC,group改成repeats,
data:image/s3,"s3://crabby-images/8a41b/8a41bcaececaed1be2f73a9c30c1d99b5374e967" alt=""
data:image/s3,"s3://crabby-images/f8c4e/f8c4e17aa07b1bab2f38af3d11c0a7b50005dbe8" alt=""
然后就发现有两个工作记录了
点击左边tools栏的operate on genomic intervals里的Join,将两个数据集合并
data:image/s3,"s3://crabby-images/81221/812217582692236ac7a497a63f56679d3dacb3bb" alt=""
然后按照如下方式进行内连接
data:image/s3,"s3://crabby-images/a266c/a266cb06fc3419422358829838ea71536810f333" alt=""
然后就可以看到连接好的数据集,
data:image/s3,"s3://crabby-images/f268c/f268c95aa36af7f53e198c04311bb0921a271b45" alt=""
接下来我们找到Join, Substract and Group里的Group选项,来为我们进行计数
data:image/s3,"s3://crabby-images/64236/6423623f828ec49148afab7e7d5e51904ed7baf5" alt=""
Group by cloumn那里设置Column:4,因为这个是唯一的exon标识符,最主要的是Operation选项里的设置,如下,就可以计数了,
data:image/s3,"s3://crabby-images/3a9c8/3a9c8e5e75da901c42163575c2ff8d0e8b87a738" alt=""
然后就有了个4号任务,点击查看就展示了对每个外显子中的repeat的计数
data:image/s3,"s3://crabby-images/a8c04/a8c04aef717dcaf2995deec6729956e092110c69" alt=""
你还可以用join将这个4号数据集和1号join一下,这样就包含了位置信息,用tools里Text Manipulation下的cut工具可以选择要展示的列,这里就不再做演示,最后下载下来可以用excel啊什么的看下哪个最多。
Workflows
workflow这个功能可以让你保存你的工作流程,比如上述exon和repeats的合并然后计数,我们保存工作流之后,下次我们需要做exon和其他features的合并,就不需要再从头来了,按下图操作:
data:image/s3,"s3://crabby-images/9ce32/9ce32d72b24cf6558535ce8dc74c35c91e14d83b" alt=""
data:image/s3,"s3://crabby-images/81fb6/81fb65904d1bac0fdaeeefc6a8aed069e9b01f4d" alt=""
data:image/s3,"s3://crabby-images/2ed4b/2ed4b79a6dd0d01c5dadfe238313f6fe1e7d7acc" alt=""
点击edit可以对每个流程的标签改名
data:image/s3,"s3://crabby-images/795d6/795d63d69884706bcc90b0f85c455f3bd6a69eb4" alt=""
右上角保存后
data:image/s3,"s3://crabby-images/b5bb7/b5bb7e415fcd9df079e718f3841cdac513bfcf38" alt=""
data:image/s3,"s3://crabby-images/f6b61/f6b61991af1cfb788d4979daca52cbd8cb2e30e3" alt=""
接下来我们按照类似的方式得到chr22上的cpg岛信息
data:image/s3,"s3://crabby-images/d289a/d289a9a7d4d5d50886148cfcb4d3f7066090900d" alt=""
点击左下角All workflows,然后更改下参数,就可以重新进行类似的计数了!
data:image/s3,"s3://crabby-images/986ae/986ae2678be5c4d40baf536975b1602c063c84ec" alt=""
得到结果如下,就是Coding exon和cpg岛的overlap计数
data:image/s3,"s3://crabby-images/cbceb/cbcebb2e3e40ca46efa30507b113bbc44fb62042" alt=""
Annotation, Sharing, and Publishing
首先是Annotation,你可以看到在基本所有记录最右边上有两个图标,一个像铅笔一个像气泡,点击它们可以加Tag annotation和history annotaion,如下:
data:image/s3,"s3://crabby-images/d23c0/d23c05f186bc57a6d6ff1a9de1c3c3f66497c1e6" alt=""
通过对Tags的标注,我们可以很方便的在搜索历史里面对tag搜索来找到我们要的记录。
接下来是Share和publish,依次点击
data:image/s3,"s3://crabby-images/ebedb/ebedbef5ea5cdd2c5cb2080686d3dfe5fbd85c3f" alt=""
data:image/s3,"s3://crabby-images/2c439/2c4398a5ef421fae8078925d492d8277efb8e04b" alt=""
data:image/s3,"s3://crabby-images/742c3/742c3f8e72a8227b79325c10647c8be6dc1652b6" alt=""
这样就可以将历史记录分享给特定的其他用户。
同样也可以用链接方式分享
data:image/s3,"s3://crabby-images/769be/769be6bf424e1fe1a475181d4c849ad7eb294aa0" alt=""
然后就可以在数据共享里面看到我们的链接上传到公共数据库里了
data:image/s3,"s3://crabby-images/13d1a/13d1a7214cbe13fd1944cf510281a262900098ef" alt=""
当然感觉非常献丑就赶紧关了。。。。实际上在数据共享里面,所有的公开的东西都非常有用,还有最近对于covid-19的研究的workflow、原始数据,这个我觉得是非常棒的!
data:image/s3,"s3://crabby-images/7c60c/7c60cbde465b9a7b67cb2b455972ab4a88a56d5a" alt=""
如果你要对你的分享页面添加描述页,你可以点开账号管理下的我的页面,对你的page添加描述,来方便别人的查看和了解,这里不做过多阐述。
Quality Control
在Galaxy上面也集成了一系列包括FastQC等质控工具,可以很方面的使用。
首先我们可以从数据库里得到一个数据集来进行练习
data:image/s3,"s3://crabby-images/0c3a4/0c3a4a189dcbd730cfd3b2c7a03c7c120f81c1f7" alt=""
搜索illumina,点击IDEA Datasets
data:image/s3,"s3://crabby-images/86ac2/86ac29ad41181450bd9f581a1bcd13647e35b774" alt=""
然后选第一个添加到当前历史
data:image/s3,"s3://crabby-images/58a6f/58a6f5a32b47a1d13e039d6d75103c9088a6682e" alt=""
接下来点击FastQC,执行即可
data:image/s3,"s3://crabby-images/c433a/c433a81a15c44d9d1445e740b82bfde615b249cd" alt=""
然后就可以看到生成了网页版本的统计和raw data数据统计信息,点小眼睛查看,展示的内容和本地FastQC得到的结果是一样的(各个结果的意义,请移步FastQC官网,或者google、简书一下)
data:image/s3,"s3://crabby-images/2d7f1/2d7f124a84a5b5ef007586a2e57529c8722948d5" alt=""
对于低质量序列的过滤,galaxy也拥有trimmomatic、cutadapt、直接trim等一系列的工具,都包含在FASTQ这个工具栏下面
data:image/s3,"s3://crabby-images/4741a/4741a940960ff561fbb256b83bbd411ed3362dcf" alt=""
Chip-Seq Analysis with MACS
Chip-seq主要实验目的在于研究与抗体蛋白结合的DNA region,这个抗体可以是修饰的Histone的,也可以是转录因子的。
其中一个分析的主要步骤就是Call peaks,就是看主要DNA的富集区域,这里有个很常用的工具叫MACS,在galaxy中也很容易使用它。
首先我们获取数据
data:image/s3,"s3://crabby-images/e4933/e4933784e331490542a472eb6de03f36f7e681bd" alt=""
然后用bowtie2比对
data:image/s3,"s3://crabby-images/4abd6/4abd6fb167f9dd2d2d109bc27fe9464ae2f10927" alt=""
用MACS2 callpeak
data:image/s3,"s3://crabby-images/65c80/65c80e67ebbef4288a8c6a5edfa301bad45860c3" alt=""
得到的原始结果我们还可以用UCSC展示
data:image/s3,"s3://crabby-images/a2860/a2860b31953be3e7a7d5e1c4be9f93eab8a1000f" alt=""
后续部分
后面还介绍了一些RNA-seq和本地化Galaxy的东西,由于感觉RNA-seq现在各种跑流程的教程很多很多,也没必要学习这种网页的。。。所以就略过
网友评论