- +|- -- strand of hit (order of primers in hit) ,显示+-号不知道啥意思
cat tsh_wgs_ssr_upper.result.0primer.epcr.txt | awk '$3~/-/{print $0}' |less -SN
- e-pcr 时所用的时基因组数据,不是根据bed文件提取的序列
3.根据 第四种输出格式,看一下+- 的含义
/home/Pomgroup/gdp/app/epcr/e-PCR-2.3.12/e-PCR tsh_wgs_ssr_upper.result.0primer.txt D=100-500 ./tsh_wgs_upper.fa N=0 G=0 T=4 > test.text
#查看某一出现 - 的数据
##########################################################################
# STS scaffold126:496236-496545_1 GCCCATGGTTTGTCCGTTTT...87...TCGACATCTAACGGCCGTG
# |||||||||||||||||||| 87 |||||||||||||||||||
# Seq scaffold1 tgGCCCATGGTTTGTCCGTTTT...87...TCGACATCTAACGGCCGTGct
scaffold1 scaffold126:496236-496545_1 - 4016270 4016395 126/100-500 0 0
##########################################################################
放弃看不懂,猜测可能是将FR引物比对到正链或者负链上
- 提取e-pcr结果中具有特异性的引物信息。及引物再基因组上的扩增结果只有一个。
getwd()
data0 <-read.csv("tsh_wgs_ssr_upper.result.0primer.epcr.csv",header = F)
data <- as.matrix(data0)
p <- data[,2]
length(p)
p1 <- duplicated(p,2) #T F总数与总行数一样
summary(p1)
length(p1)
p2 <- data[p1,2]#提取有重复的行
length(p2)
dup <- unique(p2)
summary(dup)
length(dup)
num <- c()
for (k in 1:length(dup)){
n<- which(data[,2]==dup[k])
num <- c(num,n)
}
res0 <- data[-num,]
dim(res0)
head(res0)
write.csv(res0,"tsh_wgs_ssr_upper.result.0primer.epcr.only.csv",row.names = F)
> summary(p1)
Mode FALSE TRUE
logical 133951 20654
> dim(res0)
[1] 128097 8 #认为特异性引物的引物数量应该是FALSE的数量,结果显示不相等
特异引物的数量不是FALSE的数量。
> length(num)
[1] 26508 #而且有重复的行的数量与TRUE的数量不相同。
依据num里的行数,提取具有重复的内容
cf <- data[num,]
dim(cf)
[1] 26508 8
> cfdup <- unique(cf[,2])
> length(cfdup)
[1] 5854 #具有重复的引物个数,与起始文件里的重复引物个数一样。
> summary(dup)
Length Class Mode
5854 character character
cfp1 <- duplicated(cf[,2],2) #cf里应该都是有重复的才对,duplicated函数还没了解,是的,第一次出现是FALSE第二次出现时TRUE.,即有5854个引物具有重复,总数为num的数量。所以结果文件应该是对的
> summary(cfp1)
Mode FALSE TRUE
logical 5854 20654
同时打开了2个脚本,而且2个脚本之间有相同的赋值变量,在一个 脚本里一致出现于文件不相同的数据,原来是读取的另一个脚本的变量。
网友评论