概述
融合基因是指两个基因的全部或部分序列融合而成的嵌合基因,一般由染色体易位、缺失等原因所致。
融合基因首次发现于血液系统的恶性肿瘤中,其中以慢性粒细胞白血病中BCR-ABL的基因融合最为经典,治疗慢性粒细胞白血病的药物伊马替尼/格列卫,其作用靶点就是该融合基因。
基因组和转录组测序是获得染色体重排和融合转录本的重要方法。高通量RNA测序技术因其通量高、成本低、检测精度高和检测范围广等优点大大加快了融合基因的研究,常用的融合基因的检测软件有SOAPfuse或STAR-Fusion。
分析流程
软件选择
soapfuse只适合人(Homo_sapiens)的融合基因分析,starfusion应用更广,选择时可根据需要进行选择。
其他软件还有FusionSeq , deFuse , TopHat-Fusion , FusionHunter , SnowShoes-FTD, chimerascan, FusionMap 等
1. starfusion
starfuse.pngSTAR-Fusion是利用STAR比对的融合输出结果来检测融合转录本的软件包,主要包括SATR比对,STAR-Fusion.predict,STAR-Fusion.filter三个步骤:
-
先将reads通过star比对到参考基因组,筛选出split reads ( 含有两个基因融合断点的reads, 流程图中S=3即为Split reads的数目 )和discordant pair (比对到不同基因上的reads,图中J=2即为Discordant pair的数目)作为候选的融合基因序列。
-
将候选融合基因与参考基因组注释文件比对,根据overlap预测融合基因。根据最少reads支持准则以及利用校验工具FusionInspector进行进一步的矫正分析的结果。
1)至少有一对含有剪切位点注释的JunctionReads,并且 JunctionReads与SpanningFrags(Discordant pair)的总数至少要大于等于二。
2)如果融合的基因的reads的支持只有JunctionReads,即 SpanningFrags=0的情况,那么对于双端测序的reads至少有25个碱基可以比 对到融合基因断点的两端。
3)如果融合基因的融合的断点位置与已经注释的外显子的剪位点不一致,则至少需要三对JunctionReads。
- 过滤预测结果,去除假阳性。
1) 如果融合基因的断点没有注释,软件根据占主导地位断点对比对窗口中reads支持最多且相差距离在+/-5个碱基内的主要断点合并成一个融合预测的结果。
2)如果融合的基因的reads只支持split-read,那么对于双端测序的reads至少需要25 个碱基比对到融合基因断点的两端。对于单端的read是非必须的,因为不同的reads可以在任意一端比对上。
3) 如果一对融合基因有多个融合的转录本,过滤掉低reads的isoforms。
4)利用blast将两个序列相似的融合基因(sequence-similar fusion pairs)进行过滤(参数:E<=10-3)
5)过滤掉配对混乱的融合基因对(promiscuous fusion partners)。即将在一个样品中一个基因和多个基因融合的结果过滤。
2. soapfuse
soapfuse.png代码
1. starfusion[参考]
版本STAR-Fusion-v1.2.0
./STAR-Fusion/STAR-Fusion/STAR-Fusion --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./cleandata/P_1_1.clean.fq.gz --right_fq ./cleandata/P_1_2.clean.fq.gz --output_dir ./Fusion/P_1 --annotate --examine_coding_effect --extract_fusion_reads --FusionInspector inspect --denovo_reconstruct --CPU 4 --tmpdir ./Fusion/Y1/tmp --min_junction_reads 1 --min_sum_frags 2
# --genome_lib_dir 参数基因组注释文件,可在https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/下载
# --left_fq right_fq 输入双端的cleandata。如果是单端测序,只需要left_fq参数
# --output_dir 结果文件输出目录
# 可选参数
# --annotate annotate fusions based on known cancer fusions and those found in normal tissues,可对预测的融合基因进行PFAM注释
# --examine_coding_effect explore impact of fusions on coding sequences,即预测融合基因编码功能影响
# --extract_fusion_reads retrieves the fusion supporting reads from the fastq files
# --FusionInspector <inspect|validate> include FusionInspector, options:(利用FusionInspector软件对预测的融合基因进行过滤)
# √ 'inspect' - considers only StarFusion-identified fusion reads in context of identified fusions (fast)
# 'validate' - examines all reads, recovers evidence, computes fusion allele fractions (slow)
# --CPU <int> number of threads for running STAR (default: 4)
# --min_junction_reads <int> minimum number of junction-spanning reads required. Default: 1
# --min_sum_frags <int> minimum fusion support = ( # junction_reads + # spanning_frags ) Default: 2
# --tmpdir <string> file for temporary files (default: /tmp) (可设置为./Fusion/P_1/tmp)
## 其他参数参考help
- 结果文件说明
1)star-fusion.fusion_candidates.final.abridged
FusionName JunctionReadCount SpanningFragCount LeftGene LeftLocalBreakpoint LeftBreakpoint RightGene RightLocalBreakpoint RightBreakpoint SpliceType
IGHGP--IGH-@ 13 0 IGHGP 2574 chr14:105668270:- IGH-@ 24931 chr14:105741527:+ INCL_NON_REF_SPLICE
IGKV2-30--IGKJ1 11 0 IGKV2-30 1815 chr2:89244782:- IGKJ1 4817 chr2:88861923:- INCL_NON_REF_SPLICE
IGKV1-39--IGKJ4 8 0 IGKV1-39 1522 chr2:89319625:- IGKJ4 4523 chr2:88860922:- ONLY_REF_SPLICE
### 主要参数说明
#(1) FusionName:融合基因的名字
#(2)JunctionReadCount:转录组测序片段中包含的JunctionReads,JunctionReads可以比对到推断的融合断点的转录组测序片段的数目,即支持融合事件发生的JunctionReads数目
#(3)SpanningFragCount:转录组测序片段中包含的SpanningFrags,SpanningFrags可以比对到不同的两个基因的转录组测序片段的数目,即支持融合事件发生的SpanningFrags数目
#(4)LeftGene:融合事件的上游基因
#(5)LeftLocalBreakpoint: 上游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(6)LeftBreakpoint:上游基因断点所在的基因组位置和上游基因所在的正负链
#(7)RightGene:融合事件的下游基因
#(8)RightLocalBreakpoint: 下游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(9)RightBreakpoint:下游基因断点所在的基因组位置和下游基因所在的正负链
#(10)SpliceType:是否检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点。分两种情况:ONLY_REF_SPLICE;INCL_NON_REF_SPLICE。ONLY_REF_SPLICE:检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点;INCL_NON_REF_SPLICE:检测到的融合断点不是发生在与参考的转录本结构的注释信息中的外显子的剪切位点
...
2)注释文件STAR-Fusio会预测融合基因的CDS序列,并进行PFAM注释
(*fusion_annotion.xls)
FusionName JunctionReadCount SpanningFragCount LeftGene LeftLocalBreakpoint LeftBreakpoint RightGene RightLocalBreakpoint RightBreakpoint SpliceType annots CDS_LEFT_ID CDS_LEFT_RANGE CDS_RIGHT_ID CDS_RIGHT_RANGE PROT_FUSION_TYPE FUSION_MODEL FUSION_CDS FUSION_TRANSL PFAM_LEFT PFAM_RIGHT
IGHGP--IGH-@ 13 0 IGHGP 2574 chr14:105668270:- IGH-@ 24931 chr14:105741527:+ INCL_NON_REF_SPLICE IGHGP->immunoglobulin_heavy_constant_gamma_P_(non-functional),INTRACHROMOSOMAL[chr14:0.01Mb],NEIGHBORS_OVERLAP:-:+:[5210] . . . . . . . . . .
IGKV2-30--IGKJ1 11 0 IGKV2-30 1815 chr2:89244782:- IGKJ1 4817 chr2:88861923:- INCL_NON_REF_SPLICIGKV2-30->immunoglobulin_kappa_variable_2-30,IGKJ1->immunoglobulin_kappa_joining_1,HGNC_GENEFAM,INTRACHROMOSOMAL[chr2:0.38Mb] ENST00000468494.1 1-360 ENST00000390242.2 1-38 FRAMESHIFT chr2|-|[1]89244782-89245091[1]|[0]89245518-89245566[0]<==>chr2|-|[1]88861886-88861923[0] atgaggctccctgctcagctcctggggctgctaatgctctgggtcccaggatccagtggggatgttgtgatgactcagtctccactctccctgcccgtcacccttggacagccggcctccatctcctgcaggtctagtcaaagcctcgtatacagtgatggaaacacctacttgaattggtttcagcagaggccaggccaatctccaaggcgcctaatttataaggtttctaaccgggactctggggtcccagacagattcagcggcagtgggtcaggcactgatttcacactgaaaatcagcagggtggaggctgaggatgttggggtttattactgcatgcaaggtacacactggcctGTGGACGTTCGGCCAAGGGACCAAGGTGGAAATCAAAC MRLPAQLLGLLMLWVPGSSGDVVMTQSPLSLPVTLGQPASISCRSSQSLVYSDGNTYLNWFQQRPGQSPRRLIYKVSNRDSGVPDRFSGSGSGTDFTLKISRVEAEDVGVYYCMQGTHWPVDVRPRDQGGNQ Ig_3|24-114|1.7e-08^I-set|24-113|1.6e-06^V-set|26-114|2.8e-20^Ig_2|26-114|2e-05^ig|31-114|1.4e-07^N6_N4_Mtase|55-92|7.2e-06 .
IGKV1-39--IGKJ4 8 0 IGKV1-39 1522 chr2:89319625:- IGKJ4 4523 chr2:88860922:- ONLY_REF_SPLICE IGKV1-39->immunoglobulin_kappa_variable_1-39_(gene/pseudogene),IGKJ4->immunoglobulin_kappa_joining_4,GTEx_Recurrent:{Blood_Vessel=[count:6=pct:1.6],Esophagus=[count:3=pct:0.7],Skin=[count:2=pct:0.6],Lung=[count:2=pct:1.2],Thyroid=[count:2=pct:1.1],Blood=[count:2=pct:1.1],Whole_Blood=[count:2=pct:1.5],Adipose_Tissue=[count:1=pct:0.3],Testis=[count:1=pct:1.0],Small_Intestine=[count:1=pct:1.8],Heart=[count:1=pct:0.4]},HGNC_GENEFAM,INTRACHROMOSOMAL[chr2:0.46Mb] ENST00000498574.1 1-351 ENST00000390239.2 1-37 INFRAME chr2|-|[2]89319625-89319920[1]|[0]89320045-89320099[0]<==>chr2|-|[0]88860886-88860922[0] atggacatgagggtccccgctcagctcctggggctcctgctactctggctccgaggtgccagatgtgacatccagatgacccagtctccatcctccctgtctgcatctgtaggagacagagtcaccatcacttgccgggcaagtcagagcattagcagctatttaaattggtatcagcagaaaccagggaaagcccctaagctcctgatctatgctgcatccagtttgcaaagtggggtcccatcaaggttcagtggcagtggatctgggacagatttcactctcaccatcagcagtctgcaacctgaagattttgcaacttactactgtcaacagagttacagtacccctCTCACTTTCGGCGGAGGGACCAAGGTGGAGATCAAAC MDMRVPAQLLGLLLLWLRGARCDIQMTQSPSSLSASVGDRVTITCRASQSISSYLNWYQQKPGKAPKLLIYAASSLQSGVPSRFSGSGSGTDFTLTISSLQPEDFATYYCQQSYSTPLTFGGGTKVEIK I-set|25-111|7.6e-10^Ig_3|26-111|2.2e-12^V-set|28-111|5e-22^ig|29-112|2.3e-10^Ig_2|30-114|2.7e-07 .
### 主要参数说明
#(1)FusionName:融合基因的名字
#(2)JunctionReadCount:转录组测序片段中包含的JunctionReads,JunctionReads可以比对到推断的融合断点的转录组测序片段的数目,即支持融合事件发生的JunctionReads数目
#(3)SpanningFragCount:转录组测序片段中包含的SpanningFrags,SpanningFrags可以比对到不同的两个基因的转录组测序片段的数目,即支持融合事件发生的SpanningFrags数目
#(4)LeftGene:融合事件的上游基因
#(5)LeftLocalBreakpoint: 上游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(6)LeftBreakpoint:上游基因断点所在的基因组位置和上游基因所在的正负链
#(7)RightGene:融合事件的下游基因
#(8)RightLocalBreakpoint: 下游基因在基因序列上的断点位置(断点位置是从每个基因序列的5’开始)
#(9)RightBreakpoint:下游基因断点所在的基因组位置和下游基因所在的正负链
#(10)SpliceType:是否检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点。分两种情况:ONLY_REF_SPLICE;INCL_NON_REF_SPLICE。ONLY_REF_SPLICE:检测到的融合断点发生在与参考的转录本结构的注释信息中的外显子的剪切位点;INCL_NON_REF_SPLICE:检测到的融合断点不是发生在与参考的转录本结构的注释信息中的外显子的剪切位点
#(11)annots:主要有两种融合情况INTERCHROMOSOMA(染色体间的基因融合)和INTRACHROMOSOMAL(染色体内的基因融合)
#(12)CDS_LEFT_ID: 上游融合基因的具有CDS区域的转录本的id
#(13)CDS_LEFT_RANGE:上游融合基因的具有CDS区域的转录本的碱基长度范围(bp)
#(14)CDS_RIGHT_ID:下游融合基因的具有CDS区域的转录本的id
#(15)CDS_RIGHT_RANGE:下游融合基因的具有CDS区域的转录本的碱基长度范围(bp)
#(16)PROT_FUSION_TYPE: 蛋白融合的类型,有两种情况:FRAMESHIFT(翻译的阅读框发生移码,翻译出的多肽链氨基酸序列与原来相比同样发生了很大的变化),INFRAME(正常的ORF,即融合的两个蛋白可以正常的翻译)
#(17)FUSION_MODEL:融合的模型,通过0、1、2这三个数字(密码子的第一、第二、第三碱基)和箭头“-”来描述是否发生移码。[1]38627089-38627141[0]表示在exon:38627089位置的密码子的第二个碱基和exon:38627141位置的密码子的第一个碱基结合。
#(18)FUSION_CDS:融合基因的CDS序列,小写的碱基是上游融合基因的CDS序列,大写是碱基是下游融合基因的CDS序列
#(19)FUSION_TRANSL:翻译得到的融合基因的氨基酸序列
#(20)PFAM_LEFT:上游融合基因的PFAM注释结果。example:DUF1515|572-611|0.073。DUF1515:PFAM预测的得到的蛋白结构域;572-611:预测的结构域的碱基范;0.073:预测的和DUF15的相似度
#(21)PFAM_RIGHT:下游融合基因的PFAM注释结果。example:DUF1515|572-611|0.073。DUF1515:PFAM预测的得到的蛋白结构域;572-611:预测的结构域的碱基范;0.073:预测的和DUF15的相似度
- [老版本]annotate,FusionInspector分开跑的结果文件处理,脚本如:
# step1
./STAR-Fusion/STAR-Fusion/STAR-Fusion --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./lncRNA_QC/cleandata/P_1_1.clean.fq.gz --right_fq ./lncRNA_QC/cleandata/P_1_2.clean.fq.gz --output_dir ./Fusion/starfusion/P_1
# step2 得到融合基因列表
cut -f 1 ./Fusion/P_1/star-fusion.fusion_candidates.final.abridged |grep -v "#" > ./Fusion/P_1/P_1.fusionlist
# step3 FusionInspector过滤
./FusionInspector/FusionInspector_v0.5.0_FULL/FusionInspector --fusions ./Fusion/P_1/P_1.fusionlist --genome_lib_dir ./Database/Fusion/STAR/GRCm38 --left_fq ./cleandata/P_1_1.clean.fq.gz --right_fq ./cleandata/P_1_2.clean.fq.gz --out_dir ./Fusion/P_1 --out_prefix P_1
### 参数说明
# --fusions CHIM_SUMMARY_FILES
# --genome_lib_dir GENOME_LIB_DIR
# --left_fq LEFT_FQ_FILENAME
# --right_fq RIGHT_FQ_FILENAME
# --out_dir OUT_DIRNAME
# --out_prefix OUT_PREFIX
得到*fusion_predictions.final.abridged *fusion_predictions.final.abridged.FFPM等结果文件
1)*fusion_predictions.final.abridged 文件
#fusion_name JunctionReads SpanningFrags Splice_type LeftGene LeftBreakpoint RightGene RightBreakpoint Annotations TrinityGG
Rps6kb1--Vmp1 260 21 ONLY_REF_SPLICE Rps6kb1 chr11:86532772:- Vmp1 chr11:86611422:- .
Klf3--Ppargc1a 209 24 ONLY_REF_SPLICE Klf3 chr5:64816830:+ Ppargc1a chr5:51548691:- .
Nme1--Gm28901 189 12 INCL_NON_REF_SPLICE Nme1 chr11:93959491:- Gm28901 chr1:97024631:- .
2)*fusion_predictions.final.abridged.FFPM
#fusion_name JunctionReads SpanningFrags J_FFPM S_FFPM Splice_type LeftGene LeftBreakpoint RightGene RightBreakpoint Annotations TrinityGG
Rps6kb1--Vmp1 260 21 64.8852 5.2407 ONLY_REF_SPLICE Rps6kb1 chr11:86532772:- Vmp1 chr11:86611422:- .
Klf3--Ppargc1a 209 24 52.1577 5.9894 ONLY_REF_SPLICE Klf3 chr5:64816830:+ Ppargc1a chr5:51548691:- .
Nme1--Gm28901 189 12 47.1666 2.9947 INCL_NON_REF_SPLICE Nme1 chr11:93959491:- Gm28901 chr1:97024631:- .
3)P_1.bed P_1.fa P_1.gtf P_1.junction_reads.bam P_1.junction_reads.bam.bai P_1.spanning_reads.bam P_1.spanning_reads.bam.bai
融合基因的序列注释等
- 用interproscan注释
参考常规软件学习笔记_基因功能注释软件
一个结果例子:
## 可用P_1.fa序列直接进行注释
Sequence_Accession Sequence_Length Analysis_Database Signature_Accession Signature_Description Start_location Stop_location Score
Alkbh5--Gid4_760 388 Coils Coil 5 5 -
Pusl1--Nmrk1_29 95 PANTHER PTHR11142 40 93 2.1E-12
- 数据可视化(IGV和circle图)
## IGV 所需文件
### P_1.bed P_1.gtf P_1.junction_reads.bam.bai P_1.spanning_reads.bam.ba P_1.fa P_1.junction_reads.bam P_1.spanning_reads.bam
## circle图
### 利用fusion_predictions.final.abridged画图
2. soapfuse[参考]
- 准备工作
软件下载后解压缩,如下:
$ls SOAPfuse-v1.27/
config SOAPfuse-RUN.pl source update_log.txt
## config对应配置文件的目录,需要修改Config/config.txt文件
## source是所有perl脚本目录
1) 修改Config/config.txt文件中的路径(参考)
DB_db_dir =
PG_pg_dir =
PS_ps_dir =
PD_all_out =
PA_all_fq_postfix =
2)数据库准备
需要下载文件,具体参考./SOAPfuse-v1.27/source/SOAPfuse-S00-Generate_SOAPfuse_database.pl 脚本help
fa
gtf
cytoBand.txt
complete HGNC Gene Family dataset
准备好这些文件后运行脚本构建数据库。
perl ./SOAPfuse-v1.27/source/SOAPfuse-S00-Generate_SOAPfuse_database.pl \
-wg ./GRCh38/GRCh38.fa \
-gtf ./GRCh38/Gene_annotation.gtf.gz \
-cbd ./GRCh38/cytoBand.txt \
-gf ./GRCh38/HGNC_Gene_Family_dataset \
-sd ./SOAPfuse-v1.27 \
-dd ./
3)添加环境变量
PERL5LIB=$PERL5LIB:/PATH_WHERE_YOU_PUT_THE_PACKAGE/source/bin/perl_module; export PERL5LIB
4)多样本配备sample.txt文件
C1 paired 150
C2 paired 150
Y3 paired 150
C3 paired 150
...
- 主程序运行
perl ./SOAPfuse/SOAPfuse-v1.27//SOAPfuse-RUN.pl \
-c ./Config/config.txt \
-fd ./Fusion/Sample \
-l ./Fusion/Config/C1.config \
-o ./Fusion/C1 \
-fs 1 \
-es 9
## -c 配置文件
## -fd 储存fa文件的目录,如
├── C1
│ └── Lib-a
│ ├── Run-a_1.fq.gz -> ./lncRNA_QC/cleandata/C1_1.clean.fq.gz
│ └── Run-a_2.fq.gz -> ./lncRNA_QC/cleandata/C1_2.clean.fq.gz
├── C2
│ └── Lib-a
│ ├── Run-a_1.fq.gz -> ./lncRNA_QC/cleandata/C2_1.clean.fq.gz
│ └── Run-a_2.fq.gz -> ./lncRNA_QC/cleandata/C2_2.clean.fq.gz
├── C3
...
## -l 分别对应SampleID Lib Lane readlength,如
C1 Lib-a Run-a 150
## -o 输出目录
## -fs START_STEP,默认是1
## -es END_STEP,默认是9
###其他参数参考help
- 结果文件说明[参考]
$tree -N -L 1 .
.
├── align_trim_unmap_Tran
├── align_unmap_Tran
├── alignWG
├── candidate
├── change_SE
├── denovo_unmap
├── final_fusion_genes
├── junction_seq
└── TEMP
主要结果文件都在final_fusion_genes下,主要有下列几个
1)*final.Fusion.specific.for.genes 融合基因列表
up_gene up_chr up_strand up_Genome_pos up_loc dw_gene dw_chr dw_strand dw_Genome_pos dw_loc Span_reads_num Junc_reads_num Fusion_Type down_fusion_part_frame-shift_or_not
ACAD8 chr11 + 134263731 M GLB1L3 chr11 + 134275184 M 4 9 INTRACHR-SS-OGO-0GAP NA
ATP1B2 chr17 + 7656772 M RN7SL4P chr3 + 15738545 M 8 7 INTERCHR-SS NA
ATP1B2 chr17 + 7656777 M RN7SL4P chr3 + 15738542 M 15 2 INTERCHR-SS NA
##(1) up_gene:融合事件的上游基因名称
##(2) up_chr:上游基因所在的染色体
##(3) up_strand:上游基因所在的正负链
##(4) up_Genome_pos:上游基因断点所在的基因组位置
##(5) up_loc:上游基因断点所在的功能区域
##(6) dw_gene:融合事件的下游基因
##(7) dw_chr:下游基因所在的染色体
##(8) dw_strand:下游基因所在的正负链
##(9) dw_Genome_pos:下游基因断点所在的基因组位置
##(10) dw_loc:下游基因断点所在的功能区域
##(11) Span_reads_num:支持融合事件发生的span-reads数目
##(12) Junc_reads_num:支持融合事件发生的junc-reads数目
##(13) Fusion_Type:融合事件类型,融合时间主要分为5类,INTERCHR-DS、INTERCHR-SS、INTRACHR-DS、INTRACHR-SS-RGO和INTRACHR-SS-OGO-xxGAP;其具体含义如下:INTERCHR-DS(inter-chromosomal genes with different DNA strands):是指发生在不同DNA链上染色体间的融合事件。INTERCHR-SS(inter-chromosomal genes with same DNA strand):是指发生在相同DNA链上染色体间的融合时间。INTRACHR-DS(intra-chromosomal genes with different DNA strands):是指发生在不同DNA链上染色体内部的融合事件。INTRACHR-SS-RGO(intra-chromosomal genes with same DNA and the upstream and downstream genes in the events are reverse to their genomic coordinates):是指发生在相同DNA链上染色体内部的融合事件,且发生该事件的上游基因位于发生该事件下游基因的基因组下游位置。INTRACHR-SS-OGO-xxGAP(intra-chromosomal genes with same DNA strand and the upstream and downstream genes in the fusion events are consistent with their genomic coordinates):是指发生在相同DNA链上染色体内部的融合事件,且发生该事件的上游基因和下游基因的基因组位置始终保持一致。
##(14) down_fusion_part_frame-shift_or_not:融合的下游基因是否发生移码突变,frame-shift表示移码,NA表示未发生移码突变
2)final.Fusion.specific.for.trans 转录本信息
up_gene up_tran up_chr up_strand up_Tran_pos up_Genome_pos up_loc dw_gene dw_tran dw_chr dw_strand dw_Tran_pos dw_Genome_pos dw_loc Span_reads_num Junc_reads_num Fusion_Type down_fusion_part_frame-shift_or_not up_rna_type dw_rna_type up_Jpos_func_area dw_Jpos_func_area up_start_codon up_stop_codon down_start_codon down_stop_codon fusion_stop_codon protein_note
ACAD8 ACAD8-018 chr11 + 1157 134263731 3exon-M GLB1L3 GLB1L3-001 chr11 + 940 134275184 1exon-M 4 9 INTRACHR-SS-OGO-0GAP NA processed_transcript protein_coding exon utr5 lacks lacks has has NA both_must_be_mRNAs
3)*trans.fusion.peptide.chain融合基因蛋白序列预测
##final_fusion_genes/*/analysis/For_peptides_analysis/*trans.fusion.peptide.chain
BTBD8-002/1358/KIAA1107-001/1-5I94 gtcgtacctctgtgagacATGGCTCG...TCAGCATTAAgtgttaacattt RNQEGQISGARPKVLTGNLNVQAKAKPLKKATGKVLETQH*
列表分三列,对应转录本ID,转录本序列,蛋白序列
注:上表只是展示,不代表任何意义
4)*trans.fused.seq.for.RT-PCR 融合转录本序列
#final_fusion_genes/*/analysis/For_RT-PCR_validation/*trans.fused.seq.for.RT-PCR
ACAD8/134263731/GLB1L3/134275184 ACAD8-018/1157/GLB1L3-001/940 GGGAATTTGTATCTGCAACAAGTCTGCACAAGCCCTAGAATACTTTAAACTTGACAAAGAAGAATAAAGTGTGTGGCTGtaaaa
供RT-PCR验证的融合转录本序列,表格分三列:基因及断点位置,转录本及断点位置,融合转录本序列
5)*fusions.landscape.3D.png 融合基因断点分布图
## final_fusion_genes/*/analysis/figures/landscape_of_fusions/
*fusions.landscape.3D.png
X轴表示不同的断点,Y轴表示融合事件对应的上下游基因,Z轴表示融合事件得分,该得分与支持融合事件的junc-reads及span-reads数目成正比。柱形颜色表示不同的融合事件类型,'*'表示下游基因为移码突变,'e'表示只有一个融合断点位于外显子边界,'E'表示两个融合断点均位于外显子边界。
6)融合基因断点展示
TTTY15_chrY_12686606_USP9Y_chrY_12702010.png## final_fusion_genes/*/analysis/figures/SOAPfuse_Fusion_Figure/*/
整合了融合基因断点,融合事件上下游基因断点位置,支持融合事件发生的reads等信息,其中天蓝色和橙色分别对应发生融合事件的上下游基因,深蓝色表示比对到基因上的reads分布,中间部分表示支持该融合事件的序列信息
- PS. svg转化png工具
svg2png 一款依赖npm的小程序下载
/PUBLIC/software/RNA/svg2png/lib/svg2png *fusions.landscape.3D.svg
- interproscan注释
### 提取final_fusion_genes/*/analysis/For_peptides_analysis/*.trans.fusion.peptide.chain文件前两列作为ID和序列,进行interproscan注释
一个结果例子
Sequence_Accession Sequence_Length Analysis_Database Signature_Accession Signature_Description Start_location Stop_location Score
PARG-007/2090/BMS1-001/700 1680 PANTHER PTHR12858 610 912 0.0
PARG-007/2090/BMS1-001/700 1680 PANTHER PTHR12858 1055 1672 0.0
PARG-007/2090/BMS1-001/700 1680 Pfam PF04950 40S ribosome biogenesis protein Tsr1 and BMS1 C-terminal 1216 1502 6.1E-96
- 数据可视化
### circle图
### final.Fusion.specific.for.genes文件绘制circle图
网友评论