二,Illumina Hiseq 测序的相关内容
组成:
1,高精度显微光学扫描仪
2,一整套液流系统
3,计算机软硬件
4,温控系统
flowcell---lane---swath---tile---四张照片
如何从图像文件得到测序数据
1,扫描出来的初始文件是一个.tiff文件(图像文件),但是文件太大,只作为中间文件使用。
2,由软件对四张图片进行匹配,找到最合适的位置,ACTG是均匀存在的,易匹配。(若一些碱基特别多,一些碱基很少,那么一些图就特别亮,一些就特别暗,所以就会提供一些碱基平衡文库,如人类基因组文库或illuminate提供的标准的phix文库。
3,bcl文件难以阅读并很难改动,将bcl文件经bcl2FASTQ软件处理得到FASTQ文件。.CIF文件是可保留的图像文件(客户可以向测序公司提出保留.cif),比.tiff小很多,Hiseq升级到v10以后,.cif文件保留被取消。
ACTG相对应的四种荧光素在四种波长的光下有四种不同的贡献率,组成一个4*4的贡献率表格,等于一个4元一次方四联方程。
phasing:主要是由酶活性不足引起的。如5000个序列同时测序,由于某些序列上碱基的延伸掉队的情况,循环次数越多掉队越多。
prephasing:碱基增添时比大部队超前的情况。是由于dNTP上的叠N基团掉了。
chasting:浓度最高的荧光素的量/(最高+第二高)。标准>0.6.
PF筛选:一条read的钱25个碱基中,最多只能有一个碱基chastiny<0.6.
Quality Score:
Pe:Possibility of error,即某碱基判读错误的可能性。
Q:Q30即出错的可能性为1/1000。
Q30比例:指在所有PF数据中达到或超过Q30标准的数据比例。
FASTQ文件中的Q值是+33转化ASCALL存入的。
FASTQ
1,序列目录,即该read来自哪个Hiseq,第几个RUN,第几个lane,第几个tile,及xy轴的位置。
2,碱基序列。
3,及其对应碱基序列的质量信息。
网友评论