人类代码:python full_human_1_2.py -i /mnt/x110/wus/BP_new/BWA_mapping/dingh/SRR6999003_mapped.sam -f /mnt/x110/guosy/Database/hg19/samtools-index/hg19.fa -I /mnt/x110/wus/BP_new/BWA_mapping/dingh/hg38_intron_111 -o /mnt/x110/wus/BP_new/BWA_mapping/dingh/te
pysam的meta使用时需要sort并index,否则会报错,因此,两个文件都需要sort index,
1查看类型,并不是迭代器,因此?如果一对多怎么办。检查。
1新改之后可以出结果:
1结果:
18个一样的
185 61 97 重复
检查原文件,发现不是mate的问题,原文件就有很多重复
1grep发现确实很多
1 1在往intron上比之前的比较准。
改成用比到intron之前的:
1冗余的没有了
原文件:
1 1能对的上
1从exon取补集找intron,实际exon也有重叠。
awk,$0输出整条,$1才是第一个
1 2 1 1awk -F '\t' '{ if (($5 - $4 + 1) == $19) print $0}' test_bedtools
1做了个实例并用bedtools运行,因为bedtools取的不是完全在内而是只要有交集就行,因此还得过滤出最小的。
bedtools intersect -a test_SRR.gff -b test_genomic.gff -wo >test_bedtools
检查mate,用one_pair_but的
mate:
1原sam:
1结果的:
1显然,一个跑出的结果对应一条mate结果,而每个mate结果都是145的,
另:用pysam写入:
不需要后期再加header,
结果
1 2没区别,更方便
用法:
1尝试:没此文件能否实现。
1测试成功,只要给文件名即可,摒弃写入list再转存file的模式,出来的文件直接带有header。
在new上测试
python full_human_1_2.py -i /mnt/x110/wus/BP_new/BWA_mapping/dingh/SRR6999003_mapped.sam -f /mnt/x110/guosy/Database/hg19/samtools-index/hg19.fa -o /mnt/x110/wus/BP_new/BWA_mapping/dingh/te/new_all
能一次性跑通,需要:分析结果
1双端的,其中之一,解释器原理
1首先不在exon
其次
1用hg19应该没彩色线
1彩线消失
特点,首尾一样齐
但是不是MHM,都是MS MH的类型
找到一个
1 1 1 1 1 0 1 1mate
1 1果然没去接头,因此出现HMH的状况。
经检查,有HMH的影响,multiple结果有干扰,如下:
126H可能就是接头
目前先从onepair和twopair中取可信的,twopair观察igv结果,如下:
1 1 136,92 =128
1 164 64 =128
结尾都是98 开头都是84,即使有同序列不同名的情况,只要方向不同但比对到的位置一致也能证明,有多个片段时更好的。需要看一下位置,看一下2个被错配的原因
双端的一条被选为mate也能处理,
再查看14209:结果很好
1 1
网友评论