美文网首页
文献分享丨转录组分析常用软件和流程

文献分享丨转录组分析常用软件和流程

作者: 生信分析笔记 | 来源:发表于2022-11-15 20:00 被阅读0次

    今天继续分享" eQTLs play critical roles in regulating gene expression and identifying key regulators in rice "这篇文献,这里是最后的讨论和试验方法部分学习笔记。

    讨论部分

    这篇文章通过287份材料的转录组数据,鉴定出高质量的外显子变异体,根据表达数据发现,同一亚群的材料具有更多相似性,原因可能是每个亚群内存在特异表达基因。

    和表型GWAS相同,eQTL分析也受到较大的连锁不平衡(LD)影响,从eQTL区间识别候选基因的过程很复杂。这篇文章中结合下游基因的共表达信息,确定关键调控因子。这些SNP之间是相互紧密连锁并影响下游基因的表达过程,调控网络略显复杂。

    尽管eQTL区域的候选基因能够通过共表达和连锁不平衡来发现,但是构建全基因组的调控网络仍是难题。表型GWAS的QTL数量有限,相比之下,利用转录组表达数据和eQTL来识别候选基因更好,作者利用GWAS的数据结合转录组数据筛选候选基因。

    TWAS和eQTL共定位识别到了GWAS遗漏的关键基因!由于转录组数据在时间(生长时期)和空间(采样位置)的特异性,它与表型数据的拟合程度是精细定位的关键。

    作者在全基因组eQTL鉴定中,共发现了17个近端eQTL热点区和96个远端eQTL热点区,然后选择其中功能聚类显著和注释信息明确的热点区进行后续分析。

    部分数据

    传统的正向或者反向遗传学根据表型来找基因,而单独使用eQTL构建调控网络找基因更依赖基因注释,只能利用注释信息来推断关键基因。

    eQTL常常被认为是连接基因和表型的桥梁,全面准确的基因注释信息将成为识别关键转录因子的有效工具。

    综上所述,作者利用eQTL方法,结合转录组、基因组和表型数据,构建调控网络,通过分析热点区的基因,确定了关键调控因子,这种思路很值得学习。

    方法部分

    RNA测序和分析

    • 利用illumina进行测序(hiseq2500)
    • 获得150bp的双末端测序数据

    软件与流程:

    1. 筛选:Trimmomatic(版本0.33)筛选原始数据,去除adapters和low bases
    2. 比对:Tophat2将fastq文件比对到参考基因组
    3. 计数:Stringtie统计每一千个碱基中片段数(FPKM)和reads的个数

    筛选转录组和基因组SNPs

    利用筛选过滤之后的转录组数据进行后续分析:

    1. 比对:STAR将转录组数据比对到参考基因组
    2. 鉴定:Sentieon Toolkit鉴定原始SNPs
    3. 过滤:VCFtools (v0.1.13)(参数如下)过滤原始SNPs,得到高质量SNPs
    --minDP 4 --minQ 30 --max-missing 0.1 --maf 0.05
    
    1. 提取:PLINK提取SNPs,剔除<0.05的SNPs

    群体遗传分析

    1. RAxML:基于转录组数据构建最大似然树
    2. iTOL:绘制进化树
    3. EIGENSOFT:基于转录组的SNP数据进行PCA分析
    4. ggplot2:绘制PCA分析结果图
    5. ADMIXTURE:推断群体结构,通过逐渐增加k值,并在每个k值处计算较差验证误差,最终确定一个k值,该值处误差最小,即分为k个亚群时最优。

    鉴定eQTL

    作者在基因表达水平上,筛选FPKM不为零的基因,共从55801个基因中筛选到23325个基因,用于后续分析:

    1. qqnorm(R中的一个函数)对基因的表达数据进行正态分位数转换
    2. FAST-LMM根据所有材料的基因组SNPs信息,对每个基因进行GWAS分析
    3. GEC计算SNPs的有效数目
    4. eQTL block指至少含有三个显著SNP位点的区域
    5. hot_scan识别远端eQTL热点区

    富集分析

    利用下面两个网站对获得的不同基因进行功能富集分析:

    1. GO富集:http://systemsbiology.cau.edu.cn/agriGOv2/index.php
    2. KEGG代谢通路:http://systemsbiology.cau.edu.cn/PlantGSEAv2/index.php

    共表达分析

    基因计数后,去除表达量为零的基因,然后对数据进行标准化处理,进行共表达分析

    WGCNA是一款R包,用于对基因表达数据集中的基因进行共表达分析。

    全基因组关联分析

    1. FAST_LMM程序:通过LMM(linear mixed model线性混合模型)进行GWAS分析
    2. GEC计算SNP的Me值

    全转录组关联分析

    去除中位表达量(median expression)等于0的基因,剩下的用于TWAS分析:

    1. EMMAX软件利用LMM模型进行关联分析
    2. 根据基因组SNPs计算IBS亲缘关系矩阵

    论文数据文件:

    NCBI_SRA_PRJNA858547

    本文由mdnice多平台发布

    相关文章

      网友评论

          本文标题:文献分享丨转录组分析常用软件和流程

          本文链接:https://www.haomeiwen.com/subject/nxsexdtx.html