GRCH37 是NCBI的编号 而hg19是ucsc的编号
更新到v7已经新增时间计算,并检查了输出结果,之后的v8不再输出SNP的信息
1下一次更新的v9针对读取SNP过于耗时的问题,
新增支持输入多个文件名,或者文件名列表。
新增:对每个文件比对结果的计时和对总时长的计时
新增--nonamecheck功能,其实就是对长,按_或者-截取,对短的增补chr
1输入参数设计:
-i 输入文件
-o 输出文件名,不写则使用输入文件名+后缀的形式
--input_file_list 输入文件名列表
--output_file_list 输出文件名列表,不写则使用输入文件名+后缀的形式
--snp clear_snp文件
usage: -i/--input_file_list [-o/--output_file_list] --snp
设计思路:先实现功能,再快速迭代
回到测试部分:
时间表现为3小时读完,感觉不太对。
1 1白色部分为normal
更新计划:
1.独立出建索引步骤,独立出clear-snp步骤,计划是想 hisat2 index这种方式传参,但是不知怎么实现,先分步进行。
模拟建索引思路的方式是:将snp字典写入json文件。
已实现:
12.添加nucleotide检查步骤,直接一步输出去snp后的
这个写为了snp_filter,可测
1测试结束无误
提取的intron exon地址:
/mnt/T30/wus/brantch_point_human/Mercer_data/SRR1049830_1.5/classify
网友评论